{
  "best_global_step": 20142,
  "best_metric": 0.6014941930770874,
  "best_model_checkpoint": "saves_multiple/lora/llama-3-8b-instruct/train_math_qa_789_1760637951/checkpoint-20142",
  "epoch": 20.0,
  "eval_steps": 6714,
  "global_step": 134280,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0007447125409591898,
      "grad_norm": 6.9571990966796875,
      "learning_rate": 1.4894250819183796e-08,
      "loss": 0.9387,
      "num_input_tokens_seen": 2912,
      "step": 5
    },
    {
      "epoch": 0.0014894250819183796,
      "grad_norm": 8.745797157287598,
      "learning_rate": 3.351206434316354e-08,
      "loss": 1.0563,
      "num_input_tokens_seen": 5664,
      "step": 10
    },
    {
      "epoch": 0.002234137622877569,
      "grad_norm": 7.787378787994385,
      "learning_rate": 5.2129877867143284e-08,
      "loss": 1.1129,
      "num_input_tokens_seen": 8672,
      "step": 15
    },
    {
      "epoch": 0.002978850163836759,
      "grad_norm": 9.178614616394043,
      "learning_rate": 7.074769139112303e-08,
      "loss": 1.1397,
      "num_input_tokens_seen": 11616,
      "step": 20
    },
    {
      "epoch": 0.0037235627047959487,
      "grad_norm": 8.582569122314453,
      "learning_rate": 8.936550491510277e-08,
      "loss": 1.2251,
      "num_input_tokens_seen": 14560,
      "step": 25
    },
    {
      "epoch": 0.004468275245755138,
      "grad_norm": 6.46507453918457,
      "learning_rate": 1.0798331843908253e-07,
      "loss": 1.0667,
      "num_input_tokens_seen": 17472,
      "step": 30
    },
    {
      "epoch": 0.005212987786714328,
      "grad_norm": 10.83290958404541,
      "learning_rate": 1.2660113196306226e-07,
      "loss": 2.0181,
      "num_input_tokens_seen": 20576,
      "step": 35
    },
    {
      "epoch": 0.005957700327673518,
      "grad_norm": 8.158941268920898,
      "learning_rate": 1.45218945487042e-07,
      "loss": 1.2202,
      "num_input_tokens_seen": 23520,
      "step": 40
    },
    {
      "epoch": 0.006702412868632708,
      "grad_norm": 6.0831756591796875,
      "learning_rate": 1.6383675901102174e-07,
      "loss": 1.3309,
      "num_input_tokens_seen": 26720,
      "step": 45
    },
    {
      "epoch": 0.0074471254095918975,
      "grad_norm": 5.4921464920043945,
      "learning_rate": 1.824545725350015e-07,
      "loss": 0.7032,
      "num_input_tokens_seen": 29728,
      "step": 50
    },
    {
      "epoch": 0.008191837950551088,
      "grad_norm": 4.860056400299072,
      "learning_rate": 2.0107238605898125e-07,
      "loss": 1.0771,
      "num_input_tokens_seen": 32256,
      "step": 55
    },
    {
      "epoch": 0.008936550491510277,
      "grad_norm": 9.681095123291016,
      "learning_rate": 2.1969019958296101e-07,
      "loss": 1.3339,
      "num_input_tokens_seen": 35264,
      "step": 60
    },
    {
      "epoch": 0.009681263032469467,
      "grad_norm": 4.762318134307861,
      "learning_rate": 2.3830801310694073e-07,
      "loss": 0.947,
      "num_input_tokens_seen": 38208,
      "step": 65
    },
    {
      "epoch": 0.010425975573428656,
      "grad_norm": 9.874088287353516,
      "learning_rate": 2.569258266309205e-07,
      "loss": 1.2172,
      "num_input_tokens_seen": 41152,
      "step": 70
    },
    {
      "epoch": 0.011170688114387846,
      "grad_norm": 10.033260345458984,
      "learning_rate": 2.755436401549002e-07,
      "loss": 1.1004,
      "num_input_tokens_seen": 44192,
      "step": 75
    },
    {
      "epoch": 0.011915400655347037,
      "grad_norm": 7.239320278167725,
      "learning_rate": 2.9416145367888e-07,
      "loss": 1.2371,
      "num_input_tokens_seen": 47008,
      "step": 80
    },
    {
      "epoch": 0.012660113196306225,
      "grad_norm": 8.453142166137695,
      "learning_rate": 3.1277926720285975e-07,
      "loss": 1.0533,
      "num_input_tokens_seen": 49664,
      "step": 85
    },
    {
      "epoch": 0.013404825737265416,
      "grad_norm": 4.321592330932617,
      "learning_rate": 3.3139708072683946e-07,
      "loss": 1.0438,
      "num_input_tokens_seen": 52448,
      "step": 90
    },
    {
      "epoch": 0.014149538278224605,
      "grad_norm": 11.35384750366211,
      "learning_rate": 3.5001489425081923e-07,
      "loss": 0.9866,
      "num_input_tokens_seen": 55840,
      "step": 95
    },
    {
      "epoch": 0.014894250819183795,
      "grad_norm": 7.3397979736328125,
      "learning_rate": 3.6863270777479894e-07,
      "loss": 0.97,
      "num_input_tokens_seen": 58432,
      "step": 100
    },
    {
      "epoch": 0.015638963360142984,
      "grad_norm": 3.9475035667419434,
      "learning_rate": 3.872505212987787e-07,
      "loss": 0.8759,
      "num_input_tokens_seen": 61280,
      "step": 105
    },
    {
      "epoch": 0.016383675901102176,
      "grad_norm": 15.837789535522461,
      "learning_rate": 4.058683348227585e-07,
      "loss": 1.3551,
      "num_input_tokens_seen": 64256,
      "step": 110
    },
    {
      "epoch": 0.017128388442061365,
      "grad_norm": 7.498132705688477,
      "learning_rate": 4.244861483467382e-07,
      "loss": 1.128,
      "num_input_tokens_seen": 67072,
      "step": 115
    },
    {
      "epoch": 0.017873100983020553,
      "grad_norm": 10.413968086242676,
      "learning_rate": 4.431039618707179e-07,
      "loss": 1.2844,
      "num_input_tokens_seen": 69760,
      "step": 120
    },
    {
      "epoch": 0.018617813523979745,
      "grad_norm": 8.393138885498047,
      "learning_rate": 4.617217753946977e-07,
      "loss": 1.4121,
      "num_input_tokens_seen": 72832,
      "step": 125
    },
    {
      "epoch": 0.019362526064938934,
      "grad_norm": 5.942349910736084,
      "learning_rate": 4.803395889186774e-07,
      "loss": 1.3367,
      "num_input_tokens_seen": 75680,
      "step": 130
    },
    {
      "epoch": 0.020107238605898123,
      "grad_norm": 9.947345733642578,
      "learning_rate": 4.989574024426572e-07,
      "loss": 1.144,
      "num_input_tokens_seen": 78560,
      "step": 135
    },
    {
      "epoch": 0.02085195114685731,
      "grad_norm": 12.708425521850586,
      "learning_rate": 5.17575215966637e-07,
      "loss": 1.2289,
      "num_input_tokens_seen": 81568,
      "step": 140
    },
    {
      "epoch": 0.021596663687816504,
      "grad_norm": 8.822771072387695,
      "learning_rate": 5.361930294906167e-07,
      "loss": 0.8746,
      "num_input_tokens_seen": 84320,
      "step": 145
    },
    {
      "epoch": 0.022341376228775692,
      "grad_norm": 9.521240234375,
      "learning_rate": 5.548108430145964e-07,
      "loss": 1.1344,
      "num_input_tokens_seen": 87168,
      "step": 150
    },
    {
      "epoch": 0.02308608876973488,
      "grad_norm": 14.126455307006836,
      "learning_rate": 5.734286565385761e-07,
      "loss": 1.2249,
      "num_input_tokens_seen": 90336,
      "step": 155
    },
    {
      "epoch": 0.023830801310694073,
      "grad_norm": 15.011817932128906,
      "learning_rate": 5.920464700625559e-07,
      "loss": 1.1549,
      "num_input_tokens_seen": 93376,
      "step": 160
    },
    {
      "epoch": 0.024575513851653262,
      "grad_norm": 12.550061225891113,
      "learning_rate": 6.106642835865357e-07,
      "loss": 1.1891,
      "num_input_tokens_seen": 95872,
      "step": 165
    },
    {
      "epoch": 0.02532022639261245,
      "grad_norm": 7.953309059143066,
      "learning_rate": 6.292820971105154e-07,
      "loss": 1.2586,
      "num_input_tokens_seen": 98784,
      "step": 170
    },
    {
      "epoch": 0.026064938933571643,
      "grad_norm": 8.629496574401855,
      "learning_rate": 6.478999106344952e-07,
      "loss": 0.8695,
      "num_input_tokens_seen": 101600,
      "step": 175
    },
    {
      "epoch": 0.02680965147453083,
      "grad_norm": 14.537982940673828,
      "learning_rate": 6.665177241584749e-07,
      "loss": 1.1921,
      "num_input_tokens_seen": 104704,
      "step": 180
    },
    {
      "epoch": 0.02755436401549002,
      "grad_norm": 6.234030246734619,
      "learning_rate": 6.851355376824546e-07,
      "loss": 1.0173,
      "num_input_tokens_seen": 107648,
      "step": 185
    },
    {
      "epoch": 0.02829907655644921,
      "grad_norm": 5.213616371154785,
      "learning_rate": 7.037533512064343e-07,
      "loss": 1.1721,
      "num_input_tokens_seen": 110464,
      "step": 190
    },
    {
      "epoch": 0.0290437890974084,
      "grad_norm": 11.045902252197266,
      "learning_rate": 7.223711647304142e-07,
      "loss": 1.1461,
      "num_input_tokens_seen": 113248,
      "step": 195
    },
    {
      "epoch": 0.02978850163836759,
      "grad_norm": 8.788552284240723,
      "learning_rate": 7.409889782543939e-07,
      "loss": 0.9949,
      "num_input_tokens_seen": 116448,
      "step": 200
    },
    {
      "epoch": 0.03053321417932678,
      "grad_norm": 8.57935905456543,
      "learning_rate": 7.596067917783736e-07,
      "loss": 0.8459,
      "num_input_tokens_seen": 119232,
      "step": 205
    },
    {
      "epoch": 0.03127792672028597,
      "grad_norm": 11.874409675598145,
      "learning_rate": 7.782246053023533e-07,
      "loss": 1.3765,
      "num_input_tokens_seen": 122272,
      "step": 210
    },
    {
      "epoch": 0.032022639261245156,
      "grad_norm": 10.78698444366455,
      "learning_rate": 7.96842418826333e-07,
      "loss": 1.0622,
      "num_input_tokens_seen": 125344,
      "step": 215
    },
    {
      "epoch": 0.03276735180220435,
      "grad_norm": 8.51015853881836,
      "learning_rate": 8.154602323503128e-07,
      "loss": 1.3624,
      "num_input_tokens_seen": 128000,
      "step": 220
    },
    {
      "epoch": 0.03351206434316354,
      "grad_norm": 7.559978008270264,
      "learning_rate": 8.340780458742925e-07,
      "loss": 1.1977,
      "num_input_tokens_seen": 130976,
      "step": 225
    },
    {
      "epoch": 0.03425677688412273,
      "grad_norm": 10.743200302124023,
      "learning_rate": 8.526958593982724e-07,
      "loss": 1.032,
      "num_input_tokens_seen": 134016,
      "step": 230
    },
    {
      "epoch": 0.03500148942508192,
      "grad_norm": 5.6619157791137695,
      "learning_rate": 8.713136729222521e-07,
      "loss": 1.2717,
      "num_input_tokens_seen": 136960,
      "step": 235
    },
    {
      "epoch": 0.035746201966041107,
      "grad_norm": 5.489914417266846,
      "learning_rate": 8.899314864462318e-07,
      "loss": 1.1677,
      "num_input_tokens_seen": 139840,
      "step": 240
    },
    {
      "epoch": 0.036490914507000295,
      "grad_norm": 4.092849254608154,
      "learning_rate": 9.085492999702115e-07,
      "loss": 0.801,
      "num_input_tokens_seen": 142976,
      "step": 245
    },
    {
      "epoch": 0.03723562704795949,
      "grad_norm": 10.907785415649414,
      "learning_rate": 9.271671134941912e-07,
      "loss": 1.1133,
      "num_input_tokens_seen": 145472,
      "step": 250
    },
    {
      "epoch": 0.03798033958891868,
      "grad_norm": 5.003734111785889,
      "learning_rate": 9.457849270181709e-07,
      "loss": 0.7285,
      "num_input_tokens_seen": 148160,
      "step": 255
    },
    {
      "epoch": 0.03872505212987787,
      "grad_norm": 8.77259349822998,
      "learning_rate": 9.644027405421507e-07,
      "loss": 0.832,
      "num_input_tokens_seen": 150848,
      "step": 260
    },
    {
      "epoch": 0.03946976467083706,
      "grad_norm": 4.616482734680176,
      "learning_rate": 9.830205540661306e-07,
      "loss": 1.0436,
      "num_input_tokens_seen": 154016,
      "step": 265
    },
    {
      "epoch": 0.040214477211796246,
      "grad_norm": 8.044563293457031,
      "learning_rate": 1.0016383675901103e-06,
      "loss": 1.0348,
      "num_input_tokens_seen": 156576,
      "step": 270
    },
    {
      "epoch": 0.040959189752755434,
      "grad_norm": 6.81995153427124,
      "learning_rate": 1.02025618111409e-06,
      "loss": 1.0603,
      "num_input_tokens_seen": 159488,
      "step": 275
    },
    {
      "epoch": 0.04170390229371462,
      "grad_norm": 8.042051315307617,
      "learning_rate": 1.0388739946380697e-06,
      "loss": 1.0643,
      "num_input_tokens_seen": 162368,
      "step": 280
    },
    {
      "epoch": 0.04244861483467382,
      "grad_norm": 13.199963569641113,
      "learning_rate": 1.0574918081620494e-06,
      "loss": 0.8373,
      "num_input_tokens_seen": 165440,
      "step": 285
    },
    {
      "epoch": 0.04319332737563301,
      "grad_norm": 4.498891353607178,
      "learning_rate": 1.0761096216860292e-06,
      "loss": 0.7256,
      "num_input_tokens_seen": 168800,
      "step": 290
    },
    {
      "epoch": 0.043938039916592196,
      "grad_norm": 4.327071666717529,
      "learning_rate": 1.0947274352100089e-06,
      "loss": 0.9511,
      "num_input_tokens_seen": 172128,
      "step": 295
    },
    {
      "epoch": 0.044682752457551385,
      "grad_norm": 8.230530738830566,
      "learning_rate": 1.1133452487339888e-06,
      "loss": 0.9775,
      "num_input_tokens_seen": 175200,
      "step": 300
    },
    {
      "epoch": 0.045427464998510574,
      "grad_norm": 4.479316711425781,
      "learning_rate": 1.1319630622579685e-06,
      "loss": 0.6306,
      "num_input_tokens_seen": 178112,
      "step": 305
    },
    {
      "epoch": 0.04617217753946976,
      "grad_norm": 4.856219291687012,
      "learning_rate": 1.1505808757819482e-06,
      "loss": 0.8792,
      "num_input_tokens_seen": 181152,
      "step": 310
    },
    {
      "epoch": 0.04691689008042895,
      "grad_norm": 4.931628227233887,
      "learning_rate": 1.169198689305928e-06,
      "loss": 0.6872,
      "num_input_tokens_seen": 184352,
      "step": 315
    },
    {
      "epoch": 0.04766160262138815,
      "grad_norm": 5.795783519744873,
      "learning_rate": 1.1878165028299077e-06,
      "loss": 0.8701,
      "num_input_tokens_seen": 187008,
      "step": 320
    },
    {
      "epoch": 0.048406315162347335,
      "grad_norm": 8.364638328552246,
      "learning_rate": 1.2064343163538874e-06,
      "loss": 1.067,
      "num_input_tokens_seen": 189952,
      "step": 325
    },
    {
      "epoch": 0.049151027703306524,
      "grad_norm": 7.681422710418701,
      "learning_rate": 1.2250521298778673e-06,
      "loss": 0.9802,
      "num_input_tokens_seen": 192864,
      "step": 330
    },
    {
      "epoch": 0.04989574024426571,
      "grad_norm": 6.835792064666748,
      "learning_rate": 1.243669943401847e-06,
      "loss": 0.6882,
      "num_input_tokens_seen": 195744,
      "step": 335
    },
    {
      "epoch": 0.0506404527852249,
      "grad_norm": 9.026951789855957,
      "learning_rate": 1.2622877569258267e-06,
      "loss": 0.8502,
      "num_input_tokens_seen": 198528,
      "step": 340
    },
    {
      "epoch": 0.05138516532618409,
      "grad_norm": 7.0818610191345215,
      "learning_rate": 1.2809055704498064e-06,
      "loss": 0.8316,
      "num_input_tokens_seen": 201376,
      "step": 345
    },
    {
      "epoch": 0.052129877867143286,
      "grad_norm": 5.708598613739014,
      "learning_rate": 1.2995233839737862e-06,
      "loss": 0.7266,
      "num_input_tokens_seen": 204192,
      "step": 350
    },
    {
      "epoch": 0.052874590408102475,
      "grad_norm": 8.978039741516113,
      "learning_rate": 1.3181411974977659e-06,
      "loss": 0.9624,
      "num_input_tokens_seen": 206912,
      "step": 355
    },
    {
      "epoch": 0.05361930294906166,
      "grad_norm": 3.7638370990753174,
      "learning_rate": 1.3367590110217456e-06,
      "loss": 0.8462,
      "num_input_tokens_seen": 209856,
      "step": 360
    },
    {
      "epoch": 0.05436401549002085,
      "grad_norm": 10.97905445098877,
      "learning_rate": 1.3553768245457255e-06,
      "loss": 0.8683,
      "num_input_tokens_seen": 213248,
      "step": 365
    },
    {
      "epoch": 0.05510872803098004,
      "grad_norm": 5.490160942077637,
      "learning_rate": 1.3739946380697052e-06,
      "loss": 0.6466,
      "num_input_tokens_seen": 216128,
      "step": 370
    },
    {
      "epoch": 0.05585344057193923,
      "grad_norm": 9.475506782531738,
      "learning_rate": 1.392612451593685e-06,
      "loss": 0.7819,
      "num_input_tokens_seen": 218784,
      "step": 375
    },
    {
      "epoch": 0.05659815311289842,
      "grad_norm": 8.910567283630371,
      "learning_rate": 1.4112302651176647e-06,
      "loss": 0.8906,
      "num_input_tokens_seen": 221920,
      "step": 380
    },
    {
      "epoch": 0.057342865653857614,
      "grad_norm": 6.400272369384766,
      "learning_rate": 1.4298480786416444e-06,
      "loss": 0.8308,
      "num_input_tokens_seen": 224768,
      "step": 385
    },
    {
      "epoch": 0.0580875781948168,
      "grad_norm": 6.827589988708496,
      "learning_rate": 1.448465892165624e-06,
      "loss": 0.773,
      "num_input_tokens_seen": 227360,
      "step": 390
    },
    {
      "epoch": 0.05883229073577599,
      "grad_norm": 4.350967884063721,
      "learning_rate": 1.4670837056896038e-06,
      "loss": 0.6894,
      "num_input_tokens_seen": 230208,
      "step": 395
    },
    {
      "epoch": 0.05957700327673518,
      "grad_norm": 8.579222679138184,
      "learning_rate": 1.4857015192135837e-06,
      "loss": 0.7531,
      "num_input_tokens_seen": 233152,
      "step": 400
    },
    {
      "epoch": 0.06032171581769437,
      "grad_norm": 6.784425258636475,
      "learning_rate": 1.5043193327375634e-06,
      "loss": 1.0466,
      "num_input_tokens_seen": 235936,
      "step": 405
    },
    {
      "epoch": 0.06106642835865356,
      "grad_norm": 4.6610002517700195,
      "learning_rate": 1.5229371462615432e-06,
      "loss": 0.8116,
      "num_input_tokens_seen": 238720,
      "step": 410
    },
    {
      "epoch": 0.06181114089961275,
      "grad_norm": 5.854780197143555,
      "learning_rate": 1.5415549597855229e-06,
      "loss": 0.7902,
      "num_input_tokens_seen": 241824,
      "step": 415
    },
    {
      "epoch": 0.06255585344057193,
      "grad_norm": 7.3033246994018555,
      "learning_rate": 1.5601727733095026e-06,
      "loss": 0.9781,
      "num_input_tokens_seen": 244768,
      "step": 420
    },
    {
      "epoch": 0.06330056598153112,
      "grad_norm": 8.20047378540039,
      "learning_rate": 1.5787905868334823e-06,
      "loss": 0.908,
      "num_input_tokens_seen": 247616,
      "step": 425
    },
    {
      "epoch": 0.06404527852249031,
      "grad_norm": 9.89398193359375,
      "learning_rate": 1.597408400357462e-06,
      "loss": 0.9473,
      "num_input_tokens_seen": 250656,
      "step": 430
    },
    {
      "epoch": 0.06478999106344951,
      "grad_norm": 6.04092264175415,
      "learning_rate": 1.6160262138814417e-06,
      "loss": 0.8543,
      "num_input_tokens_seen": 253504,
      "step": 435
    },
    {
      "epoch": 0.0655347036044087,
      "grad_norm": 5.048244953155518,
      "learning_rate": 1.6346440274054214e-06,
      "loss": 0.7975,
      "num_input_tokens_seen": 256288,
      "step": 440
    },
    {
      "epoch": 0.06627941614536789,
      "grad_norm": 8.570629119873047,
      "learning_rate": 1.6532618409294012e-06,
      "loss": 0.9874,
      "num_input_tokens_seen": 259296,
      "step": 445
    },
    {
      "epoch": 0.06702412868632708,
      "grad_norm": 4.996384143829346,
      "learning_rate": 1.6718796544533813e-06,
      "loss": 0.8618,
      "num_input_tokens_seen": 261984,
      "step": 450
    },
    {
      "epoch": 0.06776884122728627,
      "grad_norm": 6.564234256744385,
      "learning_rate": 1.690497467977361e-06,
      "loss": 0.8072,
      "num_input_tokens_seen": 265024,
      "step": 455
    },
    {
      "epoch": 0.06851355376824546,
      "grad_norm": 5.099088668823242,
      "learning_rate": 1.7091152815013407e-06,
      "loss": 0.6786,
      "num_input_tokens_seen": 267872,
      "step": 460
    },
    {
      "epoch": 0.06925826630920465,
      "grad_norm": 6.22194242477417,
      "learning_rate": 1.7277330950253204e-06,
      "loss": 0.6506,
      "num_input_tokens_seen": 270528,
      "step": 465
    },
    {
      "epoch": 0.07000297885016384,
      "grad_norm": 4.097898006439209,
      "learning_rate": 1.7463509085493002e-06,
      "loss": 0.6541,
      "num_input_tokens_seen": 273120,
      "step": 470
    },
    {
      "epoch": 0.07074769139112302,
      "grad_norm": 5.172911167144775,
      "learning_rate": 1.7649687220732799e-06,
      "loss": 0.5755,
      "num_input_tokens_seen": 276096,
      "step": 475
    },
    {
      "epoch": 0.07149240393208221,
      "grad_norm": 5.150298595428467,
      "learning_rate": 1.7835865355972596e-06,
      "loss": 0.626,
      "num_input_tokens_seen": 279296,
      "step": 480
    },
    {
      "epoch": 0.0722371164730414,
      "grad_norm": 6.103230953216553,
      "learning_rate": 1.8022043491212393e-06,
      "loss": 0.894,
      "num_input_tokens_seen": 282048,
      "step": 485
    },
    {
      "epoch": 0.07298182901400059,
      "grad_norm": 3.935807228088379,
      "learning_rate": 1.820822162645219e-06,
      "loss": 0.8744,
      "num_input_tokens_seen": 284992,
      "step": 490
    },
    {
      "epoch": 0.07372654155495978,
      "grad_norm": 3.7640721797943115,
      "learning_rate": 1.8394399761691987e-06,
      "loss": 0.7082,
      "num_input_tokens_seen": 287872,
      "step": 495
    },
    {
      "epoch": 0.07447125409591898,
      "grad_norm": 13.135683059692383,
      "learning_rate": 1.8580577896931784e-06,
      "loss": 1.0252,
      "num_input_tokens_seen": 290880,
      "step": 500
    },
    {
      "epoch": 0.07521596663687817,
      "grad_norm": 3.985394239425659,
      "learning_rate": 1.8766756032171582e-06,
      "loss": 0.7534,
      "num_input_tokens_seen": 293856,
      "step": 505
    },
    {
      "epoch": 0.07596067917783736,
      "grad_norm": 3.9987659454345703,
      "learning_rate": 1.8952934167411379e-06,
      "loss": 0.7357,
      "num_input_tokens_seen": 297152,
      "step": 510
    },
    {
      "epoch": 0.07670539171879655,
      "grad_norm": 3.514284610748291,
      "learning_rate": 1.913911230265118e-06,
      "loss": 0.6771,
      "num_input_tokens_seen": 299616,
      "step": 515
    },
    {
      "epoch": 0.07745010425975574,
      "grad_norm": 4.302970886230469,
      "learning_rate": 1.9325290437890977e-06,
      "loss": 0.7167,
      "num_input_tokens_seen": 302464,
      "step": 520
    },
    {
      "epoch": 0.07819481680071493,
      "grad_norm": 4.652322292327881,
      "learning_rate": 1.9511468573130772e-06,
      "loss": 0.6962,
      "num_input_tokens_seen": 305248,
      "step": 525
    },
    {
      "epoch": 0.07893952934167411,
      "grad_norm": 5.337113857269287,
      "learning_rate": 1.969764670837057e-06,
      "loss": 0.8377,
      "num_input_tokens_seen": 308000,
      "step": 530
    },
    {
      "epoch": 0.0796842418826333,
      "grad_norm": 4.3411641120910645,
      "learning_rate": 1.9883824843610367e-06,
      "loss": 0.626,
      "num_input_tokens_seen": 311072,
      "step": 535
    },
    {
      "epoch": 0.08042895442359249,
      "grad_norm": 6.661875247955322,
      "learning_rate": 2.0070002978850166e-06,
      "loss": 0.7885,
      "num_input_tokens_seen": 314560,
      "step": 540
    },
    {
      "epoch": 0.08117366696455168,
      "grad_norm": 4.592815399169922,
      "learning_rate": 2.025618111408996e-06,
      "loss": 0.7674,
      "num_input_tokens_seen": 317824,
      "step": 545
    },
    {
      "epoch": 0.08191837950551087,
      "grad_norm": 2.799962043762207,
      "learning_rate": 2.044235924932976e-06,
      "loss": 0.6895,
      "num_input_tokens_seen": 320544,
      "step": 550
    },
    {
      "epoch": 0.08266309204647006,
      "grad_norm": 3.0835037231445312,
      "learning_rate": 2.0628537384569555e-06,
      "loss": 0.7634,
      "num_input_tokens_seen": 323456,
      "step": 555
    },
    {
      "epoch": 0.08340780458742925,
      "grad_norm": 5.28541898727417,
      "learning_rate": 2.0814715519809354e-06,
      "loss": 0.7953,
      "num_input_tokens_seen": 326464,
      "step": 560
    },
    {
      "epoch": 0.08415251712838845,
      "grad_norm": 2.5750105381011963,
      "learning_rate": 2.100089365504915e-06,
      "loss": 0.6627,
      "num_input_tokens_seen": 329408,
      "step": 565
    },
    {
      "epoch": 0.08489722966934764,
      "grad_norm": 4.894935131072998,
      "learning_rate": 2.118707179028895e-06,
      "loss": 0.8337,
      "num_input_tokens_seen": 332640,
      "step": 570
    },
    {
      "epoch": 0.08564194221030683,
      "grad_norm": 3.997532367706299,
      "learning_rate": 2.1373249925528744e-06,
      "loss": 0.7502,
      "num_input_tokens_seen": 335712,
      "step": 575
    },
    {
      "epoch": 0.08638665475126601,
      "grad_norm": 4.601370811462402,
      "learning_rate": 2.1559428060768547e-06,
      "loss": 0.7219,
      "num_input_tokens_seen": 338656,
      "step": 580
    },
    {
      "epoch": 0.0871313672922252,
      "grad_norm": 5.250235557556152,
      "learning_rate": 2.1745606196008342e-06,
      "loss": 0.6619,
      "num_input_tokens_seen": 341440,
      "step": 585
    },
    {
      "epoch": 0.08787607983318439,
      "grad_norm": 3.4737353324890137,
      "learning_rate": 2.193178433124814e-06,
      "loss": 0.7497,
      "num_input_tokens_seen": 344288,
      "step": 590
    },
    {
      "epoch": 0.08862079237414358,
      "grad_norm": 4.728996276855469,
      "learning_rate": 2.2117962466487937e-06,
      "loss": 0.7395,
      "num_input_tokens_seen": 347136,
      "step": 595
    },
    {
      "epoch": 0.08936550491510277,
      "grad_norm": 3.6900031566619873,
      "learning_rate": 2.2304140601727736e-06,
      "loss": 0.6848,
      "num_input_tokens_seen": 350080,
      "step": 600
    },
    {
      "epoch": 0.09011021745606196,
      "grad_norm": 3.9399306774139404,
      "learning_rate": 2.249031873696753e-06,
      "loss": 0.6732,
      "num_input_tokens_seen": 353056,
      "step": 605
    },
    {
      "epoch": 0.09085492999702115,
      "grad_norm": 3.7139976024627686,
      "learning_rate": 2.267649687220733e-06,
      "loss": 0.6313,
      "num_input_tokens_seen": 355904,
      "step": 610
    },
    {
      "epoch": 0.09159964253798034,
      "grad_norm": 3.38334321975708,
      "learning_rate": 2.2862675007447125e-06,
      "loss": 0.7765,
      "num_input_tokens_seen": 358848,
      "step": 615
    },
    {
      "epoch": 0.09234435507893952,
      "grad_norm": 4.271493434906006,
      "learning_rate": 2.3048853142686924e-06,
      "loss": 0.7726,
      "num_input_tokens_seen": 361792,
      "step": 620
    },
    {
      "epoch": 0.09308906761989871,
      "grad_norm": 4.367016792297363,
      "learning_rate": 2.323503127792672e-06,
      "loss": 0.7346,
      "num_input_tokens_seen": 364896,
      "step": 625
    },
    {
      "epoch": 0.0938337801608579,
      "grad_norm": 3.2285232543945312,
      "learning_rate": 2.342120941316652e-06,
      "loss": 0.7245,
      "num_input_tokens_seen": 367712,
      "step": 630
    },
    {
      "epoch": 0.0945784927018171,
      "grad_norm": 5.319178581237793,
      "learning_rate": 2.3607387548406314e-06,
      "loss": 0.9006,
      "num_input_tokens_seen": 370368,
      "step": 635
    },
    {
      "epoch": 0.0953232052427763,
      "grad_norm": 5.7794718742370605,
      "learning_rate": 2.3793565683646113e-06,
      "loss": 0.7296,
      "num_input_tokens_seen": 373216,
      "step": 640
    },
    {
      "epoch": 0.09606791778373548,
      "grad_norm": 3.8545308113098145,
      "learning_rate": 2.3979743818885912e-06,
      "loss": 0.794,
      "num_input_tokens_seen": 376128,
      "step": 645
    },
    {
      "epoch": 0.09681263032469467,
      "grad_norm": 4.252109050750732,
      "learning_rate": 2.416592195412571e-06,
      "loss": 0.9376,
      "num_input_tokens_seen": 379008,
      "step": 650
    },
    {
      "epoch": 0.09755734286565386,
      "grad_norm": 6.36763334274292,
      "learning_rate": 2.4352100089365507e-06,
      "loss": 0.6913,
      "num_input_tokens_seen": 382048,
      "step": 655
    },
    {
      "epoch": 0.09830205540661305,
      "grad_norm": 3.4181172847747803,
      "learning_rate": 2.4538278224605306e-06,
      "loss": 0.7078,
      "num_input_tokens_seen": 384864,
      "step": 660
    },
    {
      "epoch": 0.09904676794757224,
      "grad_norm": 4.173548698425293,
      "learning_rate": 2.47244563598451e-06,
      "loss": 0.729,
      "num_input_tokens_seen": 387840,
      "step": 665
    },
    {
      "epoch": 0.09979148048853143,
      "grad_norm": 6.76677942276001,
      "learning_rate": 2.49106344950849e-06,
      "loss": 0.7702,
      "num_input_tokens_seen": 390720,
      "step": 670
    },
    {
      "epoch": 0.10053619302949061,
      "grad_norm": 4.380722522735596,
      "learning_rate": 2.5096812630324695e-06,
      "loss": 0.7775,
      "num_input_tokens_seen": 393312,
      "step": 675
    },
    {
      "epoch": 0.1012809055704498,
      "grad_norm": 8.116198539733887,
      "learning_rate": 2.5282990765564494e-06,
      "loss": 0.751,
      "num_input_tokens_seen": 396288,
      "step": 680
    },
    {
      "epoch": 0.10202561811140899,
      "grad_norm": 3.797260284423828,
      "learning_rate": 2.546916890080429e-06,
      "loss": 0.8051,
      "num_input_tokens_seen": 399296,
      "step": 685
    },
    {
      "epoch": 0.10277033065236818,
      "grad_norm": 3.61995530128479,
      "learning_rate": 2.565534703604409e-06,
      "loss": 0.6862,
      "num_input_tokens_seen": 402176,
      "step": 690
    },
    {
      "epoch": 0.10351504319332737,
      "grad_norm": 3.665529727935791,
      "learning_rate": 2.5841525171283884e-06,
      "loss": 0.765,
      "num_input_tokens_seen": 405024,
      "step": 695
    },
    {
      "epoch": 0.10425975573428657,
      "grad_norm": 4.549470901489258,
      "learning_rate": 2.6027703306523683e-06,
      "loss": 0.675,
      "num_input_tokens_seen": 407808,
      "step": 700
    },
    {
      "epoch": 0.10500446827524576,
      "grad_norm": 4.1619791984558105,
      "learning_rate": 2.621388144176348e-06,
      "loss": 0.8132,
      "num_input_tokens_seen": 410816,
      "step": 705
    },
    {
      "epoch": 0.10574918081620495,
      "grad_norm": 3.418524980545044,
      "learning_rate": 2.6400059577003277e-06,
      "loss": 0.7268,
      "num_input_tokens_seen": 414176,
      "step": 710
    },
    {
      "epoch": 0.10649389335716414,
      "grad_norm": 6.855251312255859,
      "learning_rate": 2.6586237712243077e-06,
      "loss": 0.7998,
      "num_input_tokens_seen": 416960,
      "step": 715
    },
    {
      "epoch": 0.10723860589812333,
      "grad_norm": 6.770709037780762,
      "learning_rate": 2.6772415847482876e-06,
      "loss": 0.7862,
      "num_input_tokens_seen": 419872,
      "step": 720
    },
    {
      "epoch": 0.10798331843908252,
      "grad_norm": 5.52937650680542,
      "learning_rate": 2.695859398272267e-06,
      "loss": 0.6717,
      "num_input_tokens_seen": 422592,
      "step": 725
    },
    {
      "epoch": 0.1087280309800417,
      "grad_norm": 3.332066535949707,
      "learning_rate": 2.714477211796247e-06,
      "loss": 0.7388,
      "num_input_tokens_seen": 425568,
      "step": 730
    },
    {
      "epoch": 0.10947274352100089,
      "grad_norm": 3.093935489654541,
      "learning_rate": 2.7330950253202265e-06,
      "loss": 0.7383,
      "num_input_tokens_seen": 428544,
      "step": 735
    },
    {
      "epoch": 0.11021745606196008,
      "grad_norm": 5.6224236488342285,
      "learning_rate": 2.7517128388442064e-06,
      "loss": 0.671,
      "num_input_tokens_seen": 431584,
      "step": 740
    },
    {
      "epoch": 0.11096216860291927,
      "grad_norm": 3.611328363418579,
      "learning_rate": 2.770330652368186e-06,
      "loss": 0.8426,
      "num_input_tokens_seen": 434336,
      "step": 745
    },
    {
      "epoch": 0.11170688114387846,
      "grad_norm": 5.003271579742432,
      "learning_rate": 2.788948465892166e-06,
      "loss": 0.753,
      "num_input_tokens_seen": 437536,
      "step": 750
    },
    {
      "epoch": 0.11245159368483765,
      "grad_norm": 3.2439069747924805,
      "learning_rate": 2.8075662794161454e-06,
      "loss": 0.6877,
      "num_input_tokens_seen": 440256,
      "step": 755
    },
    {
      "epoch": 0.11319630622579684,
      "grad_norm": 5.123464107513428,
      "learning_rate": 2.8261840929401253e-06,
      "loss": 0.7225,
      "num_input_tokens_seen": 443008,
      "step": 760
    },
    {
      "epoch": 0.11394101876675604,
      "grad_norm": 3.588423490524292,
      "learning_rate": 2.844801906464105e-06,
      "loss": 0.773,
      "num_input_tokens_seen": 445792,
      "step": 765
    },
    {
      "epoch": 0.11468573130771523,
      "grad_norm": 2.93023681640625,
      "learning_rate": 2.8634197199880847e-06,
      "loss": 0.6468,
      "num_input_tokens_seen": 448640,
      "step": 770
    },
    {
      "epoch": 0.11543044384867442,
      "grad_norm": 3.7791786193847656,
      "learning_rate": 2.8820375335120642e-06,
      "loss": 0.6708,
      "num_input_tokens_seen": 451552,
      "step": 775
    },
    {
      "epoch": 0.1161751563896336,
      "grad_norm": 5.2994303703308105,
      "learning_rate": 2.9006553470360446e-06,
      "loss": 0.7924,
      "num_input_tokens_seen": 454208,
      "step": 780
    },
    {
      "epoch": 0.1169198689305928,
      "grad_norm": 5.756594657897949,
      "learning_rate": 2.919273160560024e-06,
      "loss": 0.8567,
      "num_input_tokens_seen": 457280,
      "step": 785
    },
    {
      "epoch": 0.11766458147155198,
      "grad_norm": 5.062329292297363,
      "learning_rate": 2.937890974084004e-06,
      "loss": 0.7801,
      "num_input_tokens_seen": 460000,
      "step": 790
    },
    {
      "epoch": 0.11840929401251117,
      "grad_norm": 4.137670993804932,
      "learning_rate": 2.9565087876079835e-06,
      "loss": 0.758,
      "num_input_tokens_seen": 462752,
      "step": 795
    },
    {
      "epoch": 0.11915400655347036,
      "grad_norm": 3.9929778575897217,
      "learning_rate": 2.9751266011319634e-06,
      "loss": 0.7668,
      "num_input_tokens_seen": 465632,
      "step": 800
    },
    {
      "epoch": 0.11989871909442955,
      "grad_norm": 3.2446703910827637,
      "learning_rate": 2.993744414655943e-06,
      "loss": 0.6764,
      "num_input_tokens_seen": 468576,
      "step": 805
    },
    {
      "epoch": 0.12064343163538874,
      "grad_norm": 6.0224223136901855,
      "learning_rate": 3.012362228179923e-06,
      "loss": 0.8073,
      "num_input_tokens_seen": 471200,
      "step": 810
    },
    {
      "epoch": 0.12138814417634793,
      "grad_norm": 3.0617330074310303,
      "learning_rate": 3.0309800417039024e-06,
      "loss": 0.7086,
      "num_input_tokens_seen": 473856,
      "step": 815
    },
    {
      "epoch": 0.12213285671730711,
      "grad_norm": 3.758836030960083,
      "learning_rate": 3.0495978552278823e-06,
      "loss": 0.7486,
      "num_input_tokens_seen": 476736,
      "step": 820
    },
    {
      "epoch": 0.1228775692582663,
      "grad_norm": 4.14874792098999,
      "learning_rate": 3.068215668751862e-06,
      "loss": 0.6982,
      "num_input_tokens_seen": 479424,
      "step": 825
    },
    {
      "epoch": 0.1236222817992255,
      "grad_norm": 5.782126426696777,
      "learning_rate": 3.0868334822758417e-06,
      "loss": 0.8835,
      "num_input_tokens_seen": 482368,
      "step": 830
    },
    {
      "epoch": 0.1243669943401847,
      "grad_norm": 3.9410760402679443,
      "learning_rate": 3.1054512957998212e-06,
      "loss": 0.7181,
      "num_input_tokens_seen": 485504,
      "step": 835
    },
    {
      "epoch": 0.12511170688114387,
      "grad_norm": 3.9191582202911377,
      "learning_rate": 3.124069109323801e-06,
      "loss": 0.7016,
      "num_input_tokens_seen": 488288,
      "step": 840
    },
    {
      "epoch": 0.12585641942210307,
      "grad_norm": 5.398174285888672,
      "learning_rate": 3.142686922847781e-06,
      "loss": 0.6007,
      "num_input_tokens_seen": 491072,
      "step": 845
    },
    {
      "epoch": 0.12660113196306225,
      "grad_norm": 3.9695982933044434,
      "learning_rate": 3.1613047363717606e-06,
      "loss": 0.5944,
      "num_input_tokens_seen": 494336,
      "step": 850
    },
    {
      "epoch": 0.12734584450402145,
      "grad_norm": 3.5310118198394775,
      "learning_rate": 3.1799225498957405e-06,
      "loss": 0.6881,
      "num_input_tokens_seen": 497504,
      "step": 855
    },
    {
      "epoch": 0.12809055704498062,
      "grad_norm": 4.3741841316223145,
      "learning_rate": 3.19854036341972e-06,
      "loss": 0.7668,
      "num_input_tokens_seen": 500544,
      "step": 860
    },
    {
      "epoch": 0.12883526958593983,
      "grad_norm": 5.143271446228027,
      "learning_rate": 3.2171581769437e-06,
      "loss": 0.7318,
      "num_input_tokens_seen": 503456,
      "step": 865
    },
    {
      "epoch": 0.12957998212689903,
      "grad_norm": 3.227847099304199,
      "learning_rate": 3.2357759904676794e-06,
      "loss": 0.6724,
      "num_input_tokens_seen": 506304,
      "step": 870
    },
    {
      "epoch": 0.1303246946678582,
      "grad_norm": 3.749786615371704,
      "learning_rate": 3.2543938039916594e-06,
      "loss": 0.7632,
      "num_input_tokens_seen": 509376,
      "step": 875
    },
    {
      "epoch": 0.1310694072088174,
      "grad_norm": 4.4850921630859375,
      "learning_rate": 3.2730116175156393e-06,
      "loss": 0.6741,
      "num_input_tokens_seen": 512512,
      "step": 880
    },
    {
      "epoch": 0.13181411974977658,
      "grad_norm": 5.84076452255249,
      "learning_rate": 3.291629431039619e-06,
      "loss": 0.6721,
      "num_input_tokens_seen": 515392,
      "step": 885
    },
    {
      "epoch": 0.13255883229073578,
      "grad_norm": 4.032521724700928,
      "learning_rate": 3.3102472445635987e-06,
      "loss": 0.7049,
      "num_input_tokens_seen": 518208,
      "step": 890
    },
    {
      "epoch": 0.13330354483169496,
      "grad_norm": 3.1896286010742188,
      "learning_rate": 3.3288650580875782e-06,
      "loss": 0.6908,
      "num_input_tokens_seen": 521152,
      "step": 895
    },
    {
      "epoch": 0.13404825737265416,
      "grad_norm": 6.799495697021484,
      "learning_rate": 3.347482871611558e-06,
      "loss": 0.8406,
      "num_input_tokens_seen": 523936,
      "step": 900
    },
    {
      "epoch": 0.13479296991361334,
      "grad_norm": 4.822917461395264,
      "learning_rate": 3.3661006851355377e-06,
      "loss": 0.9241,
      "num_input_tokens_seen": 526592,
      "step": 905
    },
    {
      "epoch": 0.13553768245457254,
      "grad_norm": 2.3306725025177,
      "learning_rate": 3.3847184986595176e-06,
      "loss": 0.6511,
      "num_input_tokens_seen": 529600,
      "step": 910
    },
    {
      "epoch": 0.1362823949955317,
      "grad_norm": 4.404293537139893,
      "learning_rate": 3.403336312183497e-06,
      "loss": 0.6482,
      "num_input_tokens_seen": 532448,
      "step": 915
    },
    {
      "epoch": 0.13702710753649092,
      "grad_norm": 4.4523024559021,
      "learning_rate": 3.421954125707477e-06,
      "loss": 0.6286,
      "num_input_tokens_seen": 535104,
      "step": 920
    },
    {
      "epoch": 0.1377718200774501,
      "grad_norm": 3.0788776874542236,
      "learning_rate": 3.4405719392314565e-06,
      "loss": 0.668,
      "num_input_tokens_seen": 537952,
      "step": 925
    },
    {
      "epoch": 0.1385165326184093,
      "grad_norm": 4.96338415145874,
      "learning_rate": 3.4591897527554364e-06,
      "loss": 0.8008,
      "num_input_tokens_seen": 541152,
      "step": 930
    },
    {
      "epoch": 0.1392612451593685,
      "grad_norm": 4.341611385345459,
      "learning_rate": 3.477807566279416e-06,
      "loss": 0.7614,
      "num_input_tokens_seen": 543968,
      "step": 935
    },
    {
      "epoch": 0.14000595770032767,
      "grad_norm": 6.050965309143066,
      "learning_rate": 3.496425379803396e-06,
      "loss": 0.7226,
      "num_input_tokens_seen": 546880,
      "step": 940
    },
    {
      "epoch": 0.14075067024128687,
      "grad_norm": 3.6703994274139404,
      "learning_rate": 3.5150431933273762e-06,
      "loss": 0.6492,
      "num_input_tokens_seen": 550016,
      "step": 945
    },
    {
      "epoch": 0.14149538278224605,
      "grad_norm": 6.698498725891113,
      "learning_rate": 3.5336610068513553e-06,
      "loss": 0.9048,
      "num_input_tokens_seen": 552800,
      "step": 950
    },
    {
      "epoch": 0.14224009532320525,
      "grad_norm": 4.882880687713623,
      "learning_rate": 3.5522788203753356e-06,
      "loss": 0.8317,
      "num_input_tokens_seen": 555776,
      "step": 955
    },
    {
      "epoch": 0.14298480786416443,
      "grad_norm": 3.0426037311553955,
      "learning_rate": 3.570896633899315e-06,
      "loss": 0.6557,
      "num_input_tokens_seen": 558752,
      "step": 960
    },
    {
      "epoch": 0.14372952040512363,
      "grad_norm": 4.451340198516846,
      "learning_rate": 3.589514447423295e-06,
      "loss": 0.752,
      "num_input_tokens_seen": 561632,
      "step": 965
    },
    {
      "epoch": 0.1444742329460828,
      "grad_norm": 6.199197292327881,
      "learning_rate": 3.6081322609472746e-06,
      "loss": 0.8142,
      "num_input_tokens_seen": 564448,
      "step": 970
    },
    {
      "epoch": 0.145218945487042,
      "grad_norm": 2.911219835281372,
      "learning_rate": 3.6267500744712545e-06,
      "loss": 0.7573,
      "num_input_tokens_seen": 567360,
      "step": 975
    },
    {
      "epoch": 0.14596365802800118,
      "grad_norm": 4.3915276527404785,
      "learning_rate": 3.645367887995234e-06,
      "loss": 0.6097,
      "num_input_tokens_seen": 570048,
      "step": 980
    },
    {
      "epoch": 0.14670837056896038,
      "grad_norm": 8.383734703063965,
      "learning_rate": 3.663985701519214e-06,
      "loss": 0.8419,
      "num_input_tokens_seen": 572960,
      "step": 985
    },
    {
      "epoch": 0.14745308310991956,
      "grad_norm": 4.424872875213623,
      "learning_rate": 3.6826035150431934e-06,
      "loss": 0.7638,
      "num_input_tokens_seen": 575968,
      "step": 990
    },
    {
      "epoch": 0.14819779565087876,
      "grad_norm": 4.00611686706543,
      "learning_rate": 3.7012213285671734e-06,
      "loss": 0.8794,
      "num_input_tokens_seen": 578912,
      "step": 995
    },
    {
      "epoch": 0.14894250819183796,
      "grad_norm": 3.9330084323883057,
      "learning_rate": 3.719839142091153e-06,
      "loss": 0.6648,
      "num_input_tokens_seen": 581824,
      "step": 1000
    },
    {
      "epoch": 0.14968722073279714,
      "grad_norm": 5.268347263336182,
      "learning_rate": 3.738456955615133e-06,
      "loss": 0.8647,
      "num_input_tokens_seen": 584672,
      "step": 1005
    },
    {
      "epoch": 0.15043193327375634,
      "grad_norm": 3.763826847076416,
      "learning_rate": 3.7570747691391127e-06,
      "loss": 0.6749,
      "num_input_tokens_seen": 587360,
      "step": 1010
    },
    {
      "epoch": 0.15117664581471552,
      "grad_norm": 3.13360333442688,
      "learning_rate": 3.7756925826630922e-06,
      "loss": 0.6098,
      "num_input_tokens_seen": 590112,
      "step": 1015
    },
    {
      "epoch": 0.15192135835567472,
      "grad_norm": 4.440682411193848,
      "learning_rate": 3.794310396187072e-06,
      "loss": 0.7779,
      "num_input_tokens_seen": 593120,
      "step": 1020
    },
    {
      "epoch": 0.1526660708966339,
      "grad_norm": 3.012378692626953,
      "learning_rate": 3.8129282097110517e-06,
      "loss": 0.6026,
      "num_input_tokens_seen": 595808,
      "step": 1025
    },
    {
      "epoch": 0.1534107834375931,
      "grad_norm": 4.138497829437256,
      "learning_rate": 3.831546023235032e-06,
      "loss": 0.704,
      "num_input_tokens_seen": 598752,
      "step": 1030
    },
    {
      "epoch": 0.15415549597855227,
      "grad_norm": 6.755014419555664,
      "learning_rate": 3.850163836759011e-06,
      "loss": 0.7627,
      "num_input_tokens_seen": 601696,
      "step": 1035
    },
    {
      "epoch": 0.15490020851951147,
      "grad_norm": 3.7664880752563477,
      "learning_rate": 3.8687816502829914e-06,
      "loss": 0.7308,
      "num_input_tokens_seen": 604736,
      "step": 1040
    },
    {
      "epoch": 0.15564492106047065,
      "grad_norm": 4.057242393493652,
      "learning_rate": 3.8873994638069705e-06,
      "loss": 0.7242,
      "num_input_tokens_seen": 607488,
      "step": 1045
    },
    {
      "epoch": 0.15638963360142985,
      "grad_norm": 4.828698635101318,
      "learning_rate": 3.9060172773309504e-06,
      "loss": 0.7571,
      "num_input_tokens_seen": 610368,
      "step": 1050
    },
    {
      "epoch": 0.15713434614238903,
      "grad_norm": 4.245602130889893,
      "learning_rate": 3.92463509085493e-06,
      "loss": 0.8323,
      "num_input_tokens_seen": 612992,
      "step": 1055
    },
    {
      "epoch": 0.15787905868334823,
      "grad_norm": 6.705650329589844,
      "learning_rate": 3.94325290437891e-06,
      "loss": 0.7893,
      "num_input_tokens_seen": 615936,
      "step": 1060
    },
    {
      "epoch": 0.15862377122430743,
      "grad_norm": 4.705296993255615,
      "learning_rate": 3.961870717902889e-06,
      "loss": 0.7704,
      "num_input_tokens_seen": 618752,
      "step": 1065
    },
    {
      "epoch": 0.1593684837652666,
      "grad_norm": 4.159267902374268,
      "learning_rate": 3.980488531426869e-06,
      "loss": 0.8337,
      "num_input_tokens_seen": 621568,
      "step": 1070
    },
    {
      "epoch": 0.1601131963062258,
      "grad_norm": 5.065390586853027,
      "learning_rate": 3.999106344950849e-06,
      "loss": 0.6638,
      "num_input_tokens_seen": 624416,
      "step": 1075
    },
    {
      "epoch": 0.16085790884718498,
      "grad_norm": 5.4353556632995605,
      "learning_rate": 4.017724158474829e-06,
      "loss": 0.7335,
      "num_input_tokens_seen": 627168,
      "step": 1080
    },
    {
      "epoch": 0.16160262138814419,
      "grad_norm": 3.435244560241699,
      "learning_rate": 4.036341971998809e-06,
      "loss": 0.5968,
      "num_input_tokens_seen": 630240,
      "step": 1085
    },
    {
      "epoch": 0.16234733392910336,
      "grad_norm": 3.629577398300171,
      "learning_rate": 4.054959785522788e-06,
      "loss": 0.6896,
      "num_input_tokens_seen": 633120,
      "step": 1090
    },
    {
      "epoch": 0.16309204647006256,
      "grad_norm": 5.928895950317383,
      "learning_rate": 4.073577599046768e-06,
      "loss": 0.7571,
      "num_input_tokens_seen": 636320,
      "step": 1095
    },
    {
      "epoch": 0.16383675901102174,
      "grad_norm": 4.410488128662109,
      "learning_rate": 4.092195412570748e-06,
      "loss": 0.7333,
      "num_input_tokens_seen": 639648,
      "step": 1100
    },
    {
      "epoch": 0.16458147155198094,
      "grad_norm": 4.3211750984191895,
      "learning_rate": 4.110813226094728e-06,
      "loss": 0.7335,
      "num_input_tokens_seen": 642496,
      "step": 1105
    },
    {
      "epoch": 0.16532618409294011,
      "grad_norm": 4.165530204772949,
      "learning_rate": 4.129431039618707e-06,
      "loss": 0.7539,
      "num_input_tokens_seen": 645184,
      "step": 1110
    },
    {
      "epoch": 0.16607089663389932,
      "grad_norm": 2.9250364303588867,
      "learning_rate": 4.148048853142687e-06,
      "loss": 0.8605,
      "num_input_tokens_seen": 648192,
      "step": 1115
    },
    {
      "epoch": 0.1668156091748585,
      "grad_norm": 3.4727306365966797,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.7001,
      "num_input_tokens_seen": 651072,
      "step": 1120
    },
    {
      "epoch": 0.1675603217158177,
      "grad_norm": 3.0805938243865967,
      "learning_rate": 4.185284480190647e-06,
      "loss": 0.6508,
      "num_input_tokens_seen": 654144,
      "step": 1125
    },
    {
      "epoch": 0.1683050342567769,
      "grad_norm": 4.583867073059082,
      "learning_rate": 4.203902293714626e-06,
      "loss": 0.5923,
      "num_input_tokens_seen": 657056,
      "step": 1130
    },
    {
      "epoch": 0.16904974679773607,
      "grad_norm": 6.6267409324646,
      "learning_rate": 4.222520107238606e-06,
      "loss": 0.8502,
      "num_input_tokens_seen": 660064,
      "step": 1135
    },
    {
      "epoch": 0.16979445933869527,
      "grad_norm": 4.293163776397705,
      "learning_rate": 4.241137920762586e-06,
      "loss": 0.6691,
      "num_input_tokens_seen": 662976,
      "step": 1140
    },
    {
      "epoch": 0.17053917187965445,
      "grad_norm": 7.908547401428223,
      "learning_rate": 4.259755734286566e-06,
      "loss": 0.7395,
      "num_input_tokens_seen": 665792,
      "step": 1145
    },
    {
      "epoch": 0.17128388442061365,
      "grad_norm": 3.5497028827667236,
      "learning_rate": 4.278373547810546e-06,
      "loss": 0.7616,
      "num_input_tokens_seen": 668448,
      "step": 1150
    },
    {
      "epoch": 0.17202859696157283,
      "grad_norm": 4.7913498878479,
      "learning_rate": 4.296991361334525e-06,
      "loss": 0.7691,
      "num_input_tokens_seen": 671680,
      "step": 1155
    },
    {
      "epoch": 0.17277330950253203,
      "grad_norm": 6.22120475769043,
      "learning_rate": 4.3156091748585054e-06,
      "loss": 0.7646,
      "num_input_tokens_seen": 674624,
      "step": 1160
    },
    {
      "epoch": 0.1735180220434912,
      "grad_norm": 4.363502025604248,
      "learning_rate": 4.3342269883824845e-06,
      "loss": 0.71,
      "num_input_tokens_seen": 677472,
      "step": 1165
    },
    {
      "epoch": 0.1742627345844504,
      "grad_norm": 5.198025226593018,
      "learning_rate": 4.3528448019064644e-06,
      "loss": 0.8079,
      "num_input_tokens_seen": 680480,
      "step": 1170
    },
    {
      "epoch": 0.17500744712540958,
      "grad_norm": 5.350850582122803,
      "learning_rate": 4.3714626154304435e-06,
      "loss": 0.6989,
      "num_input_tokens_seen": 683168,
      "step": 1175
    },
    {
      "epoch": 0.17575215966636878,
      "grad_norm": 5.86362361907959,
      "learning_rate": 4.390080428954424e-06,
      "loss": 0.7112,
      "num_input_tokens_seen": 686208,
      "step": 1180
    },
    {
      "epoch": 0.17649687220732796,
      "grad_norm": 3.880678653717041,
      "learning_rate": 4.408698242478403e-06,
      "loss": 0.7635,
      "num_input_tokens_seen": 689152,
      "step": 1185
    },
    {
      "epoch": 0.17724158474828716,
      "grad_norm": 5.08814001083374,
      "learning_rate": 4.427316056002383e-06,
      "loss": 0.7151,
      "num_input_tokens_seen": 692160,
      "step": 1190
    },
    {
      "epoch": 0.17798629728924636,
      "grad_norm": 5.313208103179932,
      "learning_rate": 4.445933869526362e-06,
      "loss": 0.7858,
      "num_input_tokens_seen": 694976,
      "step": 1195
    },
    {
      "epoch": 0.17873100983020554,
      "grad_norm": 3.815755605697632,
      "learning_rate": 4.464551683050343e-06,
      "loss": 0.7017,
      "num_input_tokens_seen": 698048,
      "step": 1200
    },
    {
      "epoch": 0.17947572237116474,
      "grad_norm": 3.0693418979644775,
      "learning_rate": 4.483169496574322e-06,
      "loss": 0.6281,
      "num_input_tokens_seen": 700832,
      "step": 1205
    },
    {
      "epoch": 0.18022043491212392,
      "grad_norm": 6.353569984436035,
      "learning_rate": 4.501787310098302e-06,
      "loss": 0.7869,
      "num_input_tokens_seen": 703456,
      "step": 1210
    },
    {
      "epoch": 0.18096514745308312,
      "grad_norm": 7.396444320678711,
      "learning_rate": 4.520405123622282e-06,
      "loss": 0.91,
      "num_input_tokens_seen": 706208,
      "step": 1215
    },
    {
      "epoch": 0.1817098599940423,
      "grad_norm": 3.273355007171631,
      "learning_rate": 4.539022937146262e-06,
      "loss": 0.6253,
      "num_input_tokens_seen": 709152,
      "step": 1220
    },
    {
      "epoch": 0.1824545725350015,
      "grad_norm": 4.326502799987793,
      "learning_rate": 4.557640750670242e-06,
      "loss": 0.837,
      "num_input_tokens_seen": 711840,
      "step": 1225
    },
    {
      "epoch": 0.18319928507596067,
      "grad_norm": 2.843984365463257,
      "learning_rate": 4.576258564194221e-06,
      "loss": 0.8891,
      "num_input_tokens_seen": 714784,
      "step": 1230
    },
    {
      "epoch": 0.18394399761691987,
      "grad_norm": 5.754150390625,
      "learning_rate": 4.594876377718201e-06,
      "loss": 0.7892,
      "num_input_tokens_seen": 717632,
      "step": 1235
    },
    {
      "epoch": 0.18468871015787905,
      "grad_norm": 5.296429634094238,
      "learning_rate": 4.613494191242181e-06,
      "loss": 0.5787,
      "num_input_tokens_seen": 720800,
      "step": 1240
    },
    {
      "epoch": 0.18543342269883825,
      "grad_norm": 5.167372703552246,
      "learning_rate": 4.632112004766161e-06,
      "loss": 0.6901,
      "num_input_tokens_seen": 723520,
      "step": 1245
    },
    {
      "epoch": 0.18617813523979743,
      "grad_norm": 3.3281381130218506,
      "learning_rate": 4.65072981829014e-06,
      "loss": 0.7983,
      "num_input_tokens_seen": 726336,
      "step": 1250
    },
    {
      "epoch": 0.18692284778075663,
      "grad_norm": 4.85084867477417,
      "learning_rate": 4.66934763181412e-06,
      "loss": 0.6491,
      "num_input_tokens_seen": 729056,
      "step": 1255
    },
    {
      "epoch": 0.1876675603217158,
      "grad_norm": 4.682523250579834,
      "learning_rate": 4.6879654453381e-06,
      "loss": 0.6148,
      "num_input_tokens_seen": 731776,
      "step": 1260
    },
    {
      "epoch": 0.188412272862675,
      "grad_norm": 3.8247644901275635,
      "learning_rate": 4.70658325886208e-06,
      "loss": 0.625,
      "num_input_tokens_seen": 734656,
      "step": 1265
    },
    {
      "epoch": 0.1891569854036342,
      "grad_norm": 6.215982913970947,
      "learning_rate": 4.725201072386059e-06,
      "loss": 0.7457,
      "num_input_tokens_seen": 737600,
      "step": 1270
    },
    {
      "epoch": 0.18990169794459338,
      "grad_norm": 5.4276041984558105,
      "learning_rate": 4.743818885910039e-06,
      "loss": 0.8292,
      "num_input_tokens_seen": 740352,
      "step": 1275
    },
    {
      "epoch": 0.1906464104855526,
      "grad_norm": 5.341397762298584,
      "learning_rate": 4.7624366994340194e-06,
      "loss": 0.7333,
      "num_input_tokens_seen": 743168,
      "step": 1280
    },
    {
      "epoch": 0.19139112302651176,
      "grad_norm": 4.413242340087891,
      "learning_rate": 4.7810545129579985e-06,
      "loss": 0.6978,
      "num_input_tokens_seen": 746080,
      "step": 1285
    },
    {
      "epoch": 0.19213583556747096,
      "grad_norm": 5.642553329467773,
      "learning_rate": 4.7996723264819784e-06,
      "loss": 0.6669,
      "num_input_tokens_seen": 749184,
      "step": 1290
    },
    {
      "epoch": 0.19288054810843014,
      "grad_norm": 5.323653697967529,
      "learning_rate": 4.8182901400059575e-06,
      "loss": 0.7928,
      "num_input_tokens_seen": 751968,
      "step": 1295
    },
    {
      "epoch": 0.19362526064938934,
      "grad_norm": 7.3770222663879395,
      "learning_rate": 4.836907953529938e-06,
      "loss": 0.7919,
      "num_input_tokens_seen": 754944,
      "step": 1300
    },
    {
      "epoch": 0.19436997319034852,
      "grad_norm": 6.207462787628174,
      "learning_rate": 4.855525767053917e-06,
      "loss": 0.6973,
      "num_input_tokens_seen": 757600,
      "step": 1305
    },
    {
      "epoch": 0.19511468573130772,
      "grad_norm": 5.150338649749756,
      "learning_rate": 4.874143580577897e-06,
      "loss": 0.5615,
      "num_input_tokens_seen": 760352,
      "step": 1310
    },
    {
      "epoch": 0.1958593982722669,
      "grad_norm": 4.672959327697754,
      "learning_rate": 4.892761394101876e-06,
      "loss": 0.6759,
      "num_input_tokens_seen": 763104,
      "step": 1315
    },
    {
      "epoch": 0.1966041108132261,
      "grad_norm": 4.2769927978515625,
      "learning_rate": 4.911379207625857e-06,
      "loss": 0.7561,
      "num_input_tokens_seen": 766112,
      "step": 1320
    },
    {
      "epoch": 0.19734882335418527,
      "grad_norm": 3.7709012031555176,
      "learning_rate": 4.929997021149836e-06,
      "loss": 0.7127,
      "num_input_tokens_seen": 769024,
      "step": 1325
    },
    {
      "epoch": 0.19809353589514447,
      "grad_norm": 3.918454170227051,
      "learning_rate": 4.948614834673816e-06,
      "loss": 0.6276,
      "num_input_tokens_seen": 771808,
      "step": 1330
    },
    {
      "epoch": 0.19883824843610368,
      "grad_norm": 4.476726055145264,
      "learning_rate": 4.967232648197795e-06,
      "loss": 0.6893,
      "num_input_tokens_seen": 774912,
      "step": 1335
    },
    {
      "epoch": 0.19958296097706285,
      "grad_norm": 5.239307880401611,
      "learning_rate": 4.985850461721776e-06,
      "loss": 0.7412,
      "num_input_tokens_seen": 777856,
      "step": 1340
    },
    {
      "epoch": 0.20032767351802205,
      "grad_norm": 4.504014492034912,
      "learning_rate": 5.004468275245756e-06,
      "loss": 0.6661,
      "num_input_tokens_seen": 780544,
      "step": 1345
    },
    {
      "epoch": 0.20107238605898123,
      "grad_norm": 4.103663921356201,
      "learning_rate": 5.023086088769735e-06,
      "loss": 0.6438,
      "num_input_tokens_seen": 783328,
      "step": 1350
    },
    {
      "epoch": 0.20181709859994043,
      "grad_norm": 2.7521817684173584,
      "learning_rate": 5.041703902293715e-06,
      "loss": 0.66,
      "num_input_tokens_seen": 785952,
      "step": 1355
    },
    {
      "epoch": 0.2025618111408996,
      "grad_norm": 7.296689033508301,
      "learning_rate": 5.060321715817695e-06,
      "loss": 0.6146,
      "num_input_tokens_seen": 788672,
      "step": 1360
    },
    {
      "epoch": 0.2033065236818588,
      "grad_norm": 3.930302143096924,
      "learning_rate": 5.078939529341675e-06,
      "loss": 0.7314,
      "num_input_tokens_seen": 791584,
      "step": 1365
    },
    {
      "epoch": 0.20405123622281798,
      "grad_norm": 10.884519577026367,
      "learning_rate": 5.097557342865654e-06,
      "loss": 0.7136,
      "num_input_tokens_seen": 794272,
      "step": 1370
    },
    {
      "epoch": 0.20479594876377719,
      "grad_norm": 4.305187702178955,
      "learning_rate": 5.116175156389634e-06,
      "loss": 0.7121,
      "num_input_tokens_seen": 797184,
      "step": 1375
    },
    {
      "epoch": 0.20554066130473636,
      "grad_norm": 4.682218551635742,
      "learning_rate": 5.134792969913614e-06,
      "loss": 0.7169,
      "num_input_tokens_seen": 800192,
      "step": 1380
    },
    {
      "epoch": 0.20628537384569556,
      "grad_norm": 4.70846700668335,
      "learning_rate": 5.153410783437594e-06,
      "loss": 0.6055,
      "num_input_tokens_seen": 803424,
      "step": 1385
    },
    {
      "epoch": 0.20703008638665474,
      "grad_norm": 8.778266906738281,
      "learning_rate": 5.172028596961573e-06,
      "loss": 0.8407,
      "num_input_tokens_seen": 806016,
      "step": 1390
    },
    {
      "epoch": 0.20777479892761394,
      "grad_norm": 5.501771926879883,
      "learning_rate": 5.190646410485553e-06,
      "loss": 0.8584,
      "num_input_tokens_seen": 808896,
      "step": 1395
    },
    {
      "epoch": 0.20851951146857314,
      "grad_norm": 5.450704574584961,
      "learning_rate": 5.209264224009533e-06,
      "loss": 0.6101,
      "num_input_tokens_seen": 811936,
      "step": 1400
    },
    {
      "epoch": 0.20926422400953232,
      "grad_norm": 7.870909214019775,
      "learning_rate": 5.2278820375335125e-06,
      "loss": 0.7626,
      "num_input_tokens_seen": 814560,
      "step": 1405
    },
    {
      "epoch": 0.21000893655049152,
      "grad_norm": 7.135023593902588,
      "learning_rate": 5.2464998510574924e-06,
      "loss": 0.7291,
      "num_input_tokens_seen": 817536,
      "step": 1410
    },
    {
      "epoch": 0.2107536490914507,
      "grad_norm": 3.926440715789795,
      "learning_rate": 5.2651176645814715e-06,
      "loss": 0.5453,
      "num_input_tokens_seen": 820352,
      "step": 1415
    },
    {
      "epoch": 0.2114983616324099,
      "grad_norm": 6.275349140167236,
      "learning_rate": 5.2837354781054514e-06,
      "loss": 0.8097,
      "num_input_tokens_seen": 823136,
      "step": 1420
    },
    {
      "epoch": 0.21224307417336907,
      "grad_norm": 5.787665367126465,
      "learning_rate": 5.302353291629431e-06,
      "loss": 0.767,
      "num_input_tokens_seen": 826304,
      "step": 1425
    },
    {
      "epoch": 0.21298778671432828,
      "grad_norm": 8.971383094787598,
      "learning_rate": 5.320971105153411e-06,
      "loss": 0.8061,
      "num_input_tokens_seen": 829184,
      "step": 1430
    },
    {
      "epoch": 0.21373249925528745,
      "grad_norm": 7.3128437995910645,
      "learning_rate": 5.33958891867739e-06,
      "loss": 0.6655,
      "num_input_tokens_seen": 832064,
      "step": 1435
    },
    {
      "epoch": 0.21447721179624665,
      "grad_norm": 4.148639678955078,
      "learning_rate": 5.35820673220137e-06,
      "loss": 0.7571,
      "num_input_tokens_seen": 835040,
      "step": 1440
    },
    {
      "epoch": 0.21522192433720583,
      "grad_norm": 4.900280475616455,
      "learning_rate": 5.37682454572535e-06,
      "loss": 0.789,
      "num_input_tokens_seen": 837920,
      "step": 1445
    },
    {
      "epoch": 0.21596663687816503,
      "grad_norm": 3.684096097946167,
      "learning_rate": 5.39544235924933e-06,
      "loss": 0.7147,
      "num_input_tokens_seen": 840928,
      "step": 1450
    },
    {
      "epoch": 0.2167113494191242,
      "grad_norm": 4.709423065185547,
      "learning_rate": 5.414060172773309e-06,
      "loss": 0.6313,
      "num_input_tokens_seen": 843712,
      "step": 1455
    },
    {
      "epoch": 0.2174560619600834,
      "grad_norm": 4.646206378936768,
      "learning_rate": 5.43267798629729e-06,
      "loss": 0.8841,
      "num_input_tokens_seen": 846528,
      "step": 1460
    },
    {
      "epoch": 0.2182007745010426,
      "grad_norm": 5.0017876625061035,
      "learning_rate": 5.451295799821269e-06,
      "loss": 0.7041,
      "num_input_tokens_seen": 849248,
      "step": 1465
    },
    {
      "epoch": 0.21894548704200179,
      "grad_norm": 8.35117244720459,
      "learning_rate": 5.469913613345249e-06,
      "loss": 0.6312,
      "num_input_tokens_seen": 852224,
      "step": 1470
    },
    {
      "epoch": 0.219690199582961,
      "grad_norm": 4.459196090698242,
      "learning_rate": 5.488531426869229e-06,
      "loss": 0.7191,
      "num_input_tokens_seen": 855360,
      "step": 1475
    },
    {
      "epoch": 0.22043491212392016,
      "grad_norm": 3.335880756378174,
      "learning_rate": 5.507149240393209e-06,
      "loss": 0.73,
      "num_input_tokens_seen": 858112,
      "step": 1480
    },
    {
      "epoch": 0.22117962466487937,
      "grad_norm": 4.7029337882995605,
      "learning_rate": 5.525767053917189e-06,
      "loss": 0.7167,
      "num_input_tokens_seen": 860832,
      "step": 1485
    },
    {
      "epoch": 0.22192433720583854,
      "grad_norm": 3.2885055541992188,
      "learning_rate": 5.544384867441168e-06,
      "loss": 0.7718,
      "num_input_tokens_seen": 863456,
      "step": 1490
    },
    {
      "epoch": 0.22266904974679774,
      "grad_norm": 5.073826313018799,
      "learning_rate": 5.563002680965148e-06,
      "loss": 0.6361,
      "num_input_tokens_seen": 866208,
      "step": 1495
    },
    {
      "epoch": 0.22341376228775692,
      "grad_norm": 4.773673057556152,
      "learning_rate": 5.581620494489128e-06,
      "loss": 0.6811,
      "num_input_tokens_seen": 869216,
      "step": 1500
    },
    {
      "epoch": 0.22415847482871612,
      "grad_norm": 6.57235860824585,
      "learning_rate": 5.600238308013108e-06,
      "loss": 0.7318,
      "num_input_tokens_seen": 872096,
      "step": 1505
    },
    {
      "epoch": 0.2249031873696753,
      "grad_norm": 4.9440083503723145,
      "learning_rate": 5.618856121537087e-06,
      "loss": 0.6653,
      "num_input_tokens_seen": 874784,
      "step": 1510
    },
    {
      "epoch": 0.2256478999106345,
      "grad_norm": 7.357287406921387,
      "learning_rate": 5.637473935061067e-06,
      "loss": 0.5797,
      "num_input_tokens_seen": 877728,
      "step": 1515
    },
    {
      "epoch": 0.22639261245159367,
      "grad_norm": 3.309382915496826,
      "learning_rate": 5.656091748585047e-06,
      "loss": 0.6407,
      "num_input_tokens_seen": 880608,
      "step": 1520
    },
    {
      "epoch": 0.22713732499255287,
      "grad_norm": 4.316962242126465,
      "learning_rate": 5.6747095621090265e-06,
      "loss": 0.6862,
      "num_input_tokens_seen": 883360,
      "step": 1525
    },
    {
      "epoch": 0.22788203753351208,
      "grad_norm": 4.619838237762451,
      "learning_rate": 5.693327375633006e-06,
      "loss": 0.7217,
      "num_input_tokens_seen": 886144,
      "step": 1530
    },
    {
      "epoch": 0.22862675007447125,
      "grad_norm": 5.689627647399902,
      "learning_rate": 5.7119451891569855e-06,
      "loss": 0.5979,
      "num_input_tokens_seen": 888832,
      "step": 1535
    },
    {
      "epoch": 0.22937146261543045,
      "grad_norm": 4.706223011016846,
      "learning_rate": 5.7305630026809654e-06,
      "loss": 0.7122,
      "num_input_tokens_seen": 891520,
      "step": 1540
    },
    {
      "epoch": 0.23011617515638963,
      "grad_norm": 7.1349358558654785,
      "learning_rate": 5.749180816204945e-06,
      "loss": 0.7482,
      "num_input_tokens_seen": 894464,
      "step": 1545
    },
    {
      "epoch": 0.23086088769734883,
      "grad_norm": 5.5230841636657715,
      "learning_rate": 5.767798629728925e-06,
      "loss": 0.7803,
      "num_input_tokens_seen": 897600,
      "step": 1550
    },
    {
      "epoch": 0.231605600238308,
      "grad_norm": 5.122822284698486,
      "learning_rate": 5.786416443252904e-06,
      "loss": 0.6723,
      "num_input_tokens_seen": 900192,
      "step": 1555
    },
    {
      "epoch": 0.2323503127792672,
      "grad_norm": 5.806178092956543,
      "learning_rate": 5.805034256776884e-06,
      "loss": 0.756,
      "num_input_tokens_seen": 902976,
      "step": 1560
    },
    {
      "epoch": 0.23309502532022638,
      "grad_norm": 4.665524005889893,
      "learning_rate": 5.823652070300864e-06,
      "loss": 0.6421,
      "num_input_tokens_seen": 905952,
      "step": 1565
    },
    {
      "epoch": 0.2338397378611856,
      "grad_norm": 4.725085735321045,
      "learning_rate": 5.842269883824844e-06,
      "loss": 0.6302,
      "num_input_tokens_seen": 909024,
      "step": 1570
    },
    {
      "epoch": 0.23458445040214476,
      "grad_norm": 3.9568252563476562,
      "learning_rate": 5.860887697348823e-06,
      "loss": 0.6106,
      "num_input_tokens_seen": 911936,
      "step": 1575
    },
    {
      "epoch": 0.23532916294310396,
      "grad_norm": 3.811371326446533,
      "learning_rate": 5.879505510872803e-06,
      "loss": 0.5454,
      "num_input_tokens_seen": 914624,
      "step": 1580
    },
    {
      "epoch": 0.23607387548406314,
      "grad_norm": 9.528042793273926,
      "learning_rate": 5.898123324396783e-06,
      "loss": 0.6716,
      "num_input_tokens_seen": 917472,
      "step": 1585
    },
    {
      "epoch": 0.23681858802502234,
      "grad_norm": 4.331419467926025,
      "learning_rate": 5.916741137920763e-06,
      "loss": 0.7361,
      "num_input_tokens_seen": 920480,
      "step": 1590
    },
    {
      "epoch": 0.23756330056598154,
      "grad_norm": 6.610187530517578,
      "learning_rate": 5.935358951444742e-06,
      "loss": 0.7454,
      "num_input_tokens_seen": 923424,
      "step": 1595
    },
    {
      "epoch": 0.23830801310694072,
      "grad_norm": 4.575103282928467,
      "learning_rate": 5.953976764968722e-06,
      "loss": 0.7112,
      "num_input_tokens_seen": 926592,
      "step": 1600
    },
    {
      "epoch": 0.23905272564789992,
      "grad_norm": 9.473433494567871,
      "learning_rate": 5.972594578492702e-06,
      "loss": 0.7282,
      "num_input_tokens_seen": 929472,
      "step": 1605
    },
    {
      "epoch": 0.2397974381888591,
      "grad_norm": 8.618427276611328,
      "learning_rate": 5.991212392016682e-06,
      "loss": 0.7252,
      "num_input_tokens_seen": 932352,
      "step": 1610
    },
    {
      "epoch": 0.2405421507298183,
      "grad_norm": 4.558698654174805,
      "learning_rate": 6.009830205540662e-06,
      "loss": 0.6981,
      "num_input_tokens_seen": 935296,
      "step": 1615
    },
    {
      "epoch": 0.24128686327077747,
      "grad_norm": 5.779996871948242,
      "learning_rate": 6.028448019064641e-06,
      "loss": 0.7452,
      "num_input_tokens_seen": 938016,
      "step": 1620
    },
    {
      "epoch": 0.24203157581173668,
      "grad_norm": 4.569831848144531,
      "learning_rate": 6.047065832588622e-06,
      "loss": 0.6822,
      "num_input_tokens_seen": 940896,
      "step": 1625
    },
    {
      "epoch": 0.24277628835269585,
      "grad_norm": 6.0746660232543945,
      "learning_rate": 6.065683646112601e-06,
      "loss": 0.7781,
      "num_input_tokens_seen": 943616,
      "step": 1630
    },
    {
      "epoch": 0.24352100089365505,
      "grad_norm": 6.806869029998779,
      "learning_rate": 6.084301459636581e-06,
      "loss": 0.8049,
      "num_input_tokens_seen": 946784,
      "step": 1635
    },
    {
      "epoch": 0.24426571343461423,
      "grad_norm": 5.6297430992126465,
      "learning_rate": 6.10291927316056e-06,
      "loss": 0.7176,
      "num_input_tokens_seen": 949632,
      "step": 1640
    },
    {
      "epoch": 0.24501042597557343,
      "grad_norm": 4.741087436676025,
      "learning_rate": 6.1215370866845405e-06,
      "loss": 0.7166,
      "num_input_tokens_seen": 952576,
      "step": 1645
    },
    {
      "epoch": 0.2457551385165326,
      "grad_norm": 5.978667736053467,
      "learning_rate": 6.14015490020852e-06,
      "loss": 0.7611,
      "num_input_tokens_seen": 955456,
      "step": 1650
    },
    {
      "epoch": 0.2464998510574918,
      "grad_norm": 8.99613094329834,
      "learning_rate": 6.1587727137324995e-06,
      "loss": 0.759,
      "num_input_tokens_seen": 958560,
      "step": 1655
    },
    {
      "epoch": 0.247244563598451,
      "grad_norm": 4.956026554107666,
      "learning_rate": 6.1773905272564794e-06,
      "loss": 0.5535,
      "num_input_tokens_seen": 961408,
      "step": 1660
    },
    {
      "epoch": 0.2479892761394102,
      "grad_norm": 3.980478048324585,
      "learning_rate": 6.196008340780459e-06,
      "loss": 0.6884,
      "num_input_tokens_seen": 964736,
      "step": 1665
    },
    {
      "epoch": 0.2487339886803694,
      "grad_norm": 4.812350273132324,
      "learning_rate": 6.2146261543044384e-06,
      "loss": 0.6902,
      "num_input_tokens_seen": 967744,
      "step": 1670
    },
    {
      "epoch": 0.24947870122132856,
      "grad_norm": 11.339587211608887,
      "learning_rate": 6.233243967828418e-06,
      "loss": 0.7725,
      "num_input_tokens_seen": 970784,
      "step": 1675
    },
    {
      "epoch": 0.25022341376228774,
      "grad_norm": 9.366681098937988,
      "learning_rate": 6.251861781352398e-06,
      "loss": 0.8438,
      "num_input_tokens_seen": 973472,
      "step": 1680
    },
    {
      "epoch": 0.25096812630324694,
      "grad_norm": 4.388734817504883,
      "learning_rate": 6.270479594876379e-06,
      "loss": 0.6483,
      "num_input_tokens_seen": 976576,
      "step": 1685
    },
    {
      "epoch": 0.25171283884420614,
      "grad_norm": 3.6745128631591797,
      "learning_rate": 6.289097408400357e-06,
      "loss": 0.8185,
      "num_input_tokens_seen": 979904,
      "step": 1690
    },
    {
      "epoch": 0.25245755138516535,
      "grad_norm": 5.177434921264648,
      "learning_rate": 6.307715221924337e-06,
      "loss": 0.645,
      "num_input_tokens_seen": 982848,
      "step": 1695
    },
    {
      "epoch": 0.2532022639261245,
      "grad_norm": 4.618893623352051,
      "learning_rate": 6.326333035448317e-06,
      "loss": 0.6165,
      "num_input_tokens_seen": 985856,
      "step": 1700
    },
    {
      "epoch": 0.2539469764670837,
      "grad_norm": 4.978090286254883,
      "learning_rate": 6.344950848972298e-06,
      "loss": 0.6313,
      "num_input_tokens_seen": 988896,
      "step": 1705
    },
    {
      "epoch": 0.2546916890080429,
      "grad_norm": 7.9945220947265625,
      "learning_rate": 6.363568662496276e-06,
      "loss": 0.6717,
      "num_input_tokens_seen": 991904,
      "step": 1710
    },
    {
      "epoch": 0.2554364015490021,
      "grad_norm": 5.747889995574951,
      "learning_rate": 6.382186476020256e-06,
      "loss": 0.8224,
      "num_input_tokens_seen": 994560,
      "step": 1715
    },
    {
      "epoch": 0.25618111408996125,
      "grad_norm": 5.987537384033203,
      "learning_rate": 6.400804289544236e-06,
      "loss": 0.7934,
      "num_input_tokens_seen": 997632,
      "step": 1720
    },
    {
      "epoch": 0.25692582663092045,
      "grad_norm": 5.530152320861816,
      "learning_rate": 6.419422103068217e-06,
      "loss": 0.6545,
      "num_input_tokens_seen": 1000224,
      "step": 1725
    },
    {
      "epoch": 0.25767053917187965,
      "grad_norm": 4.320026874542236,
      "learning_rate": 6.438039916592195e-06,
      "loss": 0.6837,
      "num_input_tokens_seen": 1003040,
      "step": 1730
    },
    {
      "epoch": 0.25841525171283886,
      "grad_norm": 11.0177583694458,
      "learning_rate": 6.456657730116175e-06,
      "loss": 0.677,
      "num_input_tokens_seen": 1005856,
      "step": 1735
    },
    {
      "epoch": 0.25915996425379806,
      "grad_norm": 10.71103286743164,
      "learning_rate": 6.475275543640155e-06,
      "loss": 0.7273,
      "num_input_tokens_seen": 1008576,
      "step": 1740
    },
    {
      "epoch": 0.2599046767947572,
      "grad_norm": 4.2171406745910645,
      "learning_rate": 6.493893357164136e-06,
      "loss": 0.6742,
      "num_input_tokens_seen": 1011648,
      "step": 1745
    },
    {
      "epoch": 0.2606493893357164,
      "grad_norm": 4.613977432250977,
      "learning_rate": 6.5125111706881156e-06,
      "loss": 0.8048,
      "num_input_tokens_seen": 1015744,
      "step": 1750
    },
    {
      "epoch": 0.2613941018766756,
      "grad_norm": 5.742074489593506,
      "learning_rate": 6.531128984212094e-06,
      "loss": 0.701,
      "num_input_tokens_seen": 1018496,
      "step": 1755
    },
    {
      "epoch": 0.2621388144176348,
      "grad_norm": 7.309620380401611,
      "learning_rate": 6.549746797736074e-06,
      "loss": 0.7676,
      "num_input_tokens_seen": 1021344,
      "step": 1760
    },
    {
      "epoch": 0.26288352695859396,
      "grad_norm": 4.183115005493164,
      "learning_rate": 6.5683646112600545e-06,
      "loss": 0.6914,
      "num_input_tokens_seen": 1024384,
      "step": 1765
    },
    {
      "epoch": 0.26362823949955316,
      "grad_norm": 4.730730056762695,
      "learning_rate": 6.5869824247840344e-06,
      "loss": 0.578,
      "num_input_tokens_seen": 1027456,
      "step": 1770
    },
    {
      "epoch": 0.26437295204051237,
      "grad_norm": 6.075114727020264,
      "learning_rate": 6.605600238308013e-06,
      "loss": 0.5805,
      "num_input_tokens_seen": 1030304,
      "step": 1775
    },
    {
      "epoch": 0.26511766458147157,
      "grad_norm": 6.34043550491333,
      "learning_rate": 6.624218051831993e-06,
      "loss": 0.6007,
      "num_input_tokens_seen": 1033024,
      "step": 1780
    },
    {
      "epoch": 0.2658623771224307,
      "grad_norm": 6.9741082191467285,
      "learning_rate": 6.642835865355973e-06,
      "loss": 0.7057,
      "num_input_tokens_seen": 1035840,
      "step": 1785
    },
    {
      "epoch": 0.2666070896633899,
      "grad_norm": 6.4876708984375,
      "learning_rate": 6.661453678879953e-06,
      "loss": 0.6285,
      "num_input_tokens_seen": 1038752,
      "step": 1790
    },
    {
      "epoch": 0.2673518022043491,
      "grad_norm": 3.7631964683532715,
      "learning_rate": 6.6800714924039315e-06,
      "loss": 0.5508,
      "num_input_tokens_seen": 1041696,
      "step": 1795
    },
    {
      "epoch": 0.2680965147453083,
      "grad_norm": 17.709579467773438,
      "learning_rate": 6.6986893059279114e-06,
      "loss": 0.7396,
      "num_input_tokens_seen": 1044448,
      "step": 1800
    },
    {
      "epoch": 0.2688412272862675,
      "grad_norm": 12.335908889770508,
      "learning_rate": 6.717307119451892e-06,
      "loss": 0.817,
      "num_input_tokens_seen": 1047712,
      "step": 1805
    },
    {
      "epoch": 0.2695859398272267,
      "grad_norm": 4.784852504730225,
      "learning_rate": 6.735924932975872e-06,
      "loss": 0.5622,
      "num_input_tokens_seen": 1050592,
      "step": 1810
    },
    {
      "epoch": 0.2703306523681859,
      "grad_norm": 21.313037872314453,
      "learning_rate": 6.754542746499852e-06,
      "loss": 0.8334,
      "num_input_tokens_seen": 1053568,
      "step": 1815
    },
    {
      "epoch": 0.2710753649091451,
      "grad_norm": 8.451119422912598,
      "learning_rate": 6.77316056002383e-06,
      "loss": 0.5981,
      "num_input_tokens_seen": 1056384,
      "step": 1820
    },
    {
      "epoch": 0.2718200774501043,
      "grad_norm": 16.268415451049805,
      "learning_rate": 6.791778373547811e-06,
      "loss": 0.9294,
      "num_input_tokens_seen": 1059680,
      "step": 1825
    },
    {
      "epoch": 0.2725647899910634,
      "grad_norm": 6.241667747497559,
      "learning_rate": 6.810396187071791e-06,
      "loss": 0.5923,
      "num_input_tokens_seen": 1062304,
      "step": 1830
    },
    {
      "epoch": 0.27330950253202263,
      "grad_norm": 6.653347492218018,
      "learning_rate": 6.829014000595771e-06,
      "loss": 0.6922,
      "num_input_tokens_seen": 1065344,
      "step": 1835
    },
    {
      "epoch": 0.27405421507298183,
      "grad_norm": 5.0851826667785645,
      "learning_rate": 6.847631814119749e-06,
      "loss": 0.4854,
      "num_input_tokens_seen": 1068096,
      "step": 1840
    },
    {
      "epoch": 0.27479892761394104,
      "grad_norm": 6.355343818664551,
      "learning_rate": 6.86624962764373e-06,
      "loss": 0.6062,
      "num_input_tokens_seen": 1071136,
      "step": 1845
    },
    {
      "epoch": 0.2755436401549002,
      "grad_norm": 6.659761428833008,
      "learning_rate": 6.88486744116771e-06,
      "loss": 0.4896,
      "num_input_tokens_seen": 1074080,
      "step": 1850
    },
    {
      "epoch": 0.2762883526958594,
      "grad_norm": 8.250707626342773,
      "learning_rate": 6.90348525469169e-06,
      "loss": 0.7236,
      "num_input_tokens_seen": 1076992,
      "step": 1855
    },
    {
      "epoch": 0.2770330652368186,
      "grad_norm": 10.421775817871094,
      "learning_rate": 6.922103068215669e-06,
      "loss": 0.7368,
      "num_input_tokens_seen": 1079872,
      "step": 1860
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 9.90458869934082,
      "learning_rate": 6.940720881739649e-06,
      "loss": 0.7826,
      "num_input_tokens_seen": 1082976,
      "step": 1865
    },
    {
      "epoch": 0.278522490318737,
      "grad_norm": 12.508999824523926,
      "learning_rate": 6.959338695263629e-06,
      "loss": 0.8776,
      "num_input_tokens_seen": 1085664,
      "step": 1870
    },
    {
      "epoch": 0.27926720285969614,
      "grad_norm": 4.900213241577148,
      "learning_rate": 6.977956508787609e-06,
      "loss": 0.7019,
      "num_input_tokens_seen": 1088288,
      "step": 1875
    },
    {
      "epoch": 0.28001191540065534,
      "grad_norm": 5.28873348236084,
      "learning_rate": 6.9965743223115886e-06,
      "loss": 0.5872,
      "num_input_tokens_seen": 1091008,
      "step": 1880
    },
    {
      "epoch": 0.28075662794161454,
      "grad_norm": 4.553673267364502,
      "learning_rate": 7.015192135835568e-06,
      "loss": 0.7154,
      "num_input_tokens_seen": 1094272,
      "step": 1885
    },
    {
      "epoch": 0.28150134048257375,
      "grad_norm": 5.442378997802734,
      "learning_rate": 7.033809949359548e-06,
      "loss": 0.7929,
      "num_input_tokens_seen": 1097312,
      "step": 1890
    },
    {
      "epoch": 0.2822460530235329,
      "grad_norm": 4.889915466308594,
      "learning_rate": 7.0524277628835275e-06,
      "loss": 0.5345,
      "num_input_tokens_seen": 1100192,
      "step": 1895
    },
    {
      "epoch": 0.2829907655644921,
      "grad_norm": 7.432723522186279,
      "learning_rate": 7.0710455764075074e-06,
      "loss": 0.5522,
      "num_input_tokens_seen": 1102976,
      "step": 1900
    },
    {
      "epoch": 0.2837354781054513,
      "grad_norm": 5.5925188064575195,
      "learning_rate": 7.0896633899314865e-06,
      "loss": 0.6944,
      "num_input_tokens_seen": 1105920,
      "step": 1905
    },
    {
      "epoch": 0.2844801906464105,
      "grad_norm": 13.864470481872559,
      "learning_rate": 7.1082812034554664e-06,
      "loss": 0.6826,
      "num_input_tokens_seen": 1108704,
      "step": 1910
    },
    {
      "epoch": 0.28522490318736965,
      "grad_norm": 7.896380424499512,
      "learning_rate": 7.126899016979446e-06,
      "loss": 0.6606,
      "num_input_tokens_seen": 1111488,
      "step": 1915
    },
    {
      "epoch": 0.28596961572832885,
      "grad_norm": 4.03870153427124,
      "learning_rate": 7.145516830503426e-06,
      "loss": 0.6087,
      "num_input_tokens_seen": 1114432,
      "step": 1920
    },
    {
      "epoch": 0.28671432826928805,
      "grad_norm": 7.912496089935303,
      "learning_rate": 7.164134644027405e-06,
      "loss": 0.6469,
      "num_input_tokens_seen": 1117568,
      "step": 1925
    },
    {
      "epoch": 0.28745904081024726,
      "grad_norm": 5.54606819152832,
      "learning_rate": 7.182752457551385e-06,
      "loss": 0.528,
      "num_input_tokens_seen": 1120224,
      "step": 1930
    },
    {
      "epoch": 0.28820375335120646,
      "grad_norm": 11.725598335266113,
      "learning_rate": 7.201370271075365e-06,
      "loss": 0.6792,
      "num_input_tokens_seen": 1123072,
      "step": 1935
    },
    {
      "epoch": 0.2889484658921656,
      "grad_norm": 5.025204658508301,
      "learning_rate": 7.219988084599345e-06,
      "loss": 0.5332,
      "num_input_tokens_seen": 1125824,
      "step": 1940
    },
    {
      "epoch": 0.2896931784331248,
      "grad_norm": 5.527550220489502,
      "learning_rate": 7.238605898123325e-06,
      "loss": 0.8779,
      "num_input_tokens_seen": 1128768,
      "step": 1945
    },
    {
      "epoch": 0.290437890974084,
      "grad_norm": 10.743853569030762,
      "learning_rate": 7.257223711647304e-06,
      "loss": 0.7201,
      "num_input_tokens_seen": 1131488,
      "step": 1950
    },
    {
      "epoch": 0.2911826035150432,
      "grad_norm": 12.443863868713379,
      "learning_rate": 7.275841525171284e-06,
      "loss": 0.8572,
      "num_input_tokens_seen": 1134240,
      "step": 1955
    },
    {
      "epoch": 0.29192731605600236,
      "grad_norm": 6.863794326782227,
      "learning_rate": 7.294459338695264e-06,
      "loss": 0.7411,
      "num_input_tokens_seen": 1137024,
      "step": 1960
    },
    {
      "epoch": 0.29267202859696156,
      "grad_norm": 5.587100028991699,
      "learning_rate": 7.313077152219244e-06,
      "loss": 0.7237,
      "num_input_tokens_seen": 1139936,
      "step": 1965
    },
    {
      "epoch": 0.29341674113792077,
      "grad_norm": 3.289170265197754,
      "learning_rate": 7.331694965743223e-06,
      "loss": 0.7651,
      "num_input_tokens_seen": 1142656,
      "step": 1970
    },
    {
      "epoch": 0.29416145367887997,
      "grad_norm": 4.307722091674805,
      "learning_rate": 7.350312779267203e-06,
      "loss": 0.743,
      "num_input_tokens_seen": 1145792,
      "step": 1975
    },
    {
      "epoch": 0.2949061662198391,
      "grad_norm": 6.717948913574219,
      "learning_rate": 7.368930592791183e-06,
      "loss": 0.5755,
      "num_input_tokens_seen": 1148704,
      "step": 1980
    },
    {
      "epoch": 0.2956508787607983,
      "grad_norm": 5.953280925750732,
      "learning_rate": 7.387548406315163e-06,
      "loss": 0.8287,
      "num_input_tokens_seen": 1151616,
      "step": 1985
    },
    {
      "epoch": 0.2963955913017575,
      "grad_norm": 4.873435020446777,
      "learning_rate": 7.406166219839142e-06,
      "loss": 0.7292,
      "num_input_tokens_seen": 1154880,
      "step": 1990
    },
    {
      "epoch": 0.2971403038427167,
      "grad_norm": 5.4122843742370605,
      "learning_rate": 7.424784033363122e-06,
      "loss": 0.5914,
      "num_input_tokens_seen": 1157792,
      "step": 1995
    },
    {
      "epoch": 0.2978850163836759,
      "grad_norm": 16.908557891845703,
      "learning_rate": 7.443401846887102e-06,
      "loss": 0.8368,
      "num_input_tokens_seen": 1160640,
      "step": 2000
    },
    {
      "epoch": 0.2986297289246351,
      "grad_norm": 6.758546352386475,
      "learning_rate": 7.462019660411082e-06,
      "loss": 0.6973,
      "num_input_tokens_seen": 1163680,
      "step": 2005
    },
    {
      "epoch": 0.2993744414655943,
      "grad_norm": 6.855368137359619,
      "learning_rate": 7.480637473935062e-06,
      "loss": 0.7591,
      "num_input_tokens_seen": 1166560,
      "step": 2010
    },
    {
      "epoch": 0.3001191540065535,
      "grad_norm": 6.3303961753845215,
      "learning_rate": 7.499255287459041e-06,
      "loss": 0.6869,
      "num_input_tokens_seen": 1169504,
      "step": 2015
    },
    {
      "epoch": 0.3008638665475127,
      "grad_norm": 6.578005313873291,
      "learning_rate": 7.517873100983021e-06,
      "loss": 0.6356,
      "num_input_tokens_seen": 1172416,
      "step": 2020
    },
    {
      "epoch": 0.30160857908847183,
      "grad_norm": 4.922375679016113,
      "learning_rate": 7.5364909145070005e-06,
      "loss": 0.5668,
      "num_input_tokens_seen": 1175328,
      "step": 2025
    },
    {
      "epoch": 0.30235329162943103,
      "grad_norm": 5.055123805999756,
      "learning_rate": 7.555108728030981e-06,
      "loss": 0.6967,
      "num_input_tokens_seen": 1178144,
      "step": 2030
    },
    {
      "epoch": 0.30309800417039023,
      "grad_norm": 14.665694236755371,
      "learning_rate": 7.5737265415549595e-06,
      "loss": 0.7275,
      "num_input_tokens_seen": 1180800,
      "step": 2035
    },
    {
      "epoch": 0.30384271671134944,
      "grad_norm": 6.9383111000061035,
      "learning_rate": 7.5923443550789394e-06,
      "loss": 0.8347,
      "num_input_tokens_seen": 1183936,
      "step": 2040
    },
    {
      "epoch": 0.3045874292523086,
      "grad_norm": 4.434513092041016,
      "learning_rate": 7.610962168602919e-06,
      "loss": 0.6506,
      "num_input_tokens_seen": 1186528,
      "step": 2045
    },
    {
      "epoch": 0.3053321417932678,
      "grad_norm": 7.265377998352051,
      "learning_rate": 7.6295799821269e-06,
      "loss": 0.6172,
      "num_input_tokens_seen": 1189696,
      "step": 2050
    },
    {
      "epoch": 0.306076854334227,
      "grad_norm": 4.624415397644043,
      "learning_rate": 7.64819779565088e-06,
      "loss": 0.6759,
      "num_input_tokens_seen": 1192512,
      "step": 2055
    },
    {
      "epoch": 0.3068215668751862,
      "grad_norm": 4.815608501434326,
      "learning_rate": 7.666815609174859e-06,
      "loss": 0.6451,
      "num_input_tokens_seen": 1195392,
      "step": 2060
    },
    {
      "epoch": 0.3075662794161454,
      "grad_norm": 7.823272228240967,
      "learning_rate": 7.685433422698839e-06,
      "loss": 0.7211,
      "num_input_tokens_seen": 1198176,
      "step": 2065
    },
    {
      "epoch": 0.30831099195710454,
      "grad_norm": 6.765330791473389,
      "learning_rate": 7.704051236222819e-06,
      "loss": 0.7489,
      "num_input_tokens_seen": 1201024,
      "step": 2070
    },
    {
      "epoch": 0.30905570449806374,
      "grad_norm": 5.807681560516357,
      "learning_rate": 7.722669049746799e-06,
      "loss": 0.7675,
      "num_input_tokens_seen": 1204288,
      "step": 2075
    },
    {
      "epoch": 0.30980041703902295,
      "grad_norm": 5.1066975593566895,
      "learning_rate": 7.741286863270777e-06,
      "loss": 0.6528,
      "num_input_tokens_seen": 1207616,
      "step": 2080
    },
    {
      "epoch": 0.31054512957998215,
      "grad_norm": 4.855452060699463,
      "learning_rate": 7.759904676794757e-06,
      "loss": 0.7637,
      "num_input_tokens_seen": 1210496,
      "step": 2085
    },
    {
      "epoch": 0.3112898421209413,
      "grad_norm": 10.095232963562012,
      "learning_rate": 7.778522490318737e-06,
      "loss": 0.7003,
      "num_input_tokens_seen": 1213696,
      "step": 2090
    },
    {
      "epoch": 0.3120345546619005,
      "grad_norm": 7.276390075683594,
      "learning_rate": 7.797140303842717e-06,
      "loss": 0.7155,
      "num_input_tokens_seen": 1216800,
      "step": 2095
    },
    {
      "epoch": 0.3127792672028597,
      "grad_norm": 13.213167190551758,
      "learning_rate": 7.815758117366697e-06,
      "loss": 0.8116,
      "num_input_tokens_seen": 1219584,
      "step": 2100
    },
    {
      "epoch": 0.3135239797438189,
      "grad_norm": 5.403084754943848,
      "learning_rate": 7.834375930890677e-06,
      "loss": 0.6822,
      "num_input_tokens_seen": 1222592,
      "step": 2105
    },
    {
      "epoch": 0.31426869228477805,
      "grad_norm": 4.473109722137451,
      "learning_rate": 7.852993744414657e-06,
      "loss": 0.7223,
      "num_input_tokens_seen": 1225504,
      "step": 2110
    },
    {
      "epoch": 0.31501340482573725,
      "grad_norm": 4.751324653625488,
      "learning_rate": 7.871611557938637e-06,
      "loss": 0.5719,
      "num_input_tokens_seen": 1228416,
      "step": 2115
    },
    {
      "epoch": 0.31575811736669646,
      "grad_norm": 3.8469176292419434,
      "learning_rate": 7.890229371462615e-06,
      "loss": 0.543,
      "num_input_tokens_seen": 1231200,
      "step": 2120
    },
    {
      "epoch": 0.31650282990765566,
      "grad_norm": 6.1365227699279785,
      "learning_rate": 7.908847184986595e-06,
      "loss": 0.6752,
      "num_input_tokens_seen": 1234144,
      "step": 2125
    },
    {
      "epoch": 0.31724754244861486,
      "grad_norm": 15.477370262145996,
      "learning_rate": 7.927464998510575e-06,
      "loss": 0.8487,
      "num_input_tokens_seen": 1236704,
      "step": 2130
    },
    {
      "epoch": 0.317992254989574,
      "grad_norm": 4.778254508972168,
      "learning_rate": 7.946082812034555e-06,
      "loss": 0.6485,
      "num_input_tokens_seen": 1239520,
      "step": 2135
    },
    {
      "epoch": 0.3187369675305332,
      "grad_norm": 5.435772895812988,
      "learning_rate": 7.964700625558536e-06,
      "loss": 0.5316,
      "num_input_tokens_seen": 1242176,
      "step": 2140
    },
    {
      "epoch": 0.3194816800714924,
      "grad_norm": 2.8916964530944824,
      "learning_rate": 7.983318439082515e-06,
      "loss": 0.5829,
      "num_input_tokens_seen": 1245120,
      "step": 2145
    },
    {
      "epoch": 0.3202263926124516,
      "grad_norm": 5.349959373474121,
      "learning_rate": 8.001936252606494e-06,
      "loss": 0.5669,
      "num_input_tokens_seen": 1248096,
      "step": 2150
    },
    {
      "epoch": 0.32097110515341076,
      "grad_norm": 5.172191619873047,
      "learning_rate": 8.020554066130474e-06,
      "loss": 0.7921,
      "num_input_tokens_seen": 1251296,
      "step": 2155
    },
    {
      "epoch": 0.32171581769436997,
      "grad_norm": 11.797408103942871,
      "learning_rate": 8.039171879654454e-06,
      "loss": 0.8385,
      "num_input_tokens_seen": 1254368,
      "step": 2160
    },
    {
      "epoch": 0.32246053023532917,
      "grad_norm": 7.646726608276367,
      "learning_rate": 8.057789693178433e-06,
      "loss": 0.7644,
      "num_input_tokens_seen": 1257120,
      "step": 2165
    },
    {
      "epoch": 0.32320524277628837,
      "grad_norm": 5.7939534187316895,
      "learning_rate": 8.076407506702412e-06,
      "loss": 0.7728,
      "num_input_tokens_seen": 1260160,
      "step": 2170
    },
    {
      "epoch": 0.3239499553172475,
      "grad_norm": 8.163076400756836,
      "learning_rate": 8.095025320226392e-06,
      "loss": 0.6021,
      "num_input_tokens_seen": 1262944,
      "step": 2175
    },
    {
      "epoch": 0.3246946678582067,
      "grad_norm": 4.037447452545166,
      "learning_rate": 8.113643133750374e-06,
      "loss": 0.6607,
      "num_input_tokens_seen": 1265728,
      "step": 2180
    },
    {
      "epoch": 0.3254393803991659,
      "grad_norm": 4.84069299697876,
      "learning_rate": 8.132260947274352e-06,
      "loss": 0.5721,
      "num_input_tokens_seen": 1268576,
      "step": 2185
    },
    {
      "epoch": 0.3261840929401251,
      "grad_norm": 3.326575756072998,
      "learning_rate": 8.150878760798332e-06,
      "loss": 0.5634,
      "num_input_tokens_seen": 1271968,
      "step": 2190
    },
    {
      "epoch": 0.32692880548108433,
      "grad_norm": 7.792359352111816,
      "learning_rate": 8.169496574322312e-06,
      "loss": 0.626,
      "num_input_tokens_seen": 1274592,
      "step": 2195
    },
    {
      "epoch": 0.3276735180220435,
      "grad_norm": 6.1247076988220215,
      "learning_rate": 8.188114387846292e-06,
      "loss": 0.9009,
      "num_input_tokens_seen": 1277760,
      "step": 2200
    },
    {
      "epoch": 0.3284182305630027,
      "grad_norm": 9.385472297668457,
      "learning_rate": 8.206732201370272e-06,
      "loss": 0.7204,
      "num_input_tokens_seen": 1280416,
      "step": 2205
    },
    {
      "epoch": 0.3291629431039619,
      "grad_norm": 7.190814018249512,
      "learning_rate": 8.22535001489425e-06,
      "loss": 0.7072,
      "num_input_tokens_seen": 1283552,
      "step": 2210
    },
    {
      "epoch": 0.3299076556449211,
      "grad_norm": 6.663693428039551,
      "learning_rate": 8.24396782841823e-06,
      "loss": 0.6822,
      "num_input_tokens_seen": 1286528,
      "step": 2215
    },
    {
      "epoch": 0.33065236818588023,
      "grad_norm": 4.7763895988464355,
      "learning_rate": 8.262585641942212e-06,
      "loss": 0.6726,
      "num_input_tokens_seen": 1289728,
      "step": 2220
    },
    {
      "epoch": 0.33139708072683943,
      "grad_norm": 5.0969061851501465,
      "learning_rate": 8.281203455466192e-06,
      "loss": 0.6087,
      "num_input_tokens_seen": 1292512,
      "step": 2225
    },
    {
      "epoch": 0.33214179326779864,
      "grad_norm": 6.955960273742676,
      "learning_rate": 8.29982126899017e-06,
      "loss": 0.9222,
      "num_input_tokens_seen": 1295456,
      "step": 2230
    },
    {
      "epoch": 0.33288650580875784,
      "grad_norm": 6.055642127990723,
      "learning_rate": 8.31843908251415e-06,
      "loss": 0.6539,
      "num_input_tokens_seen": 1298240,
      "step": 2235
    },
    {
      "epoch": 0.333631218349717,
      "grad_norm": 5.089178085327148,
      "learning_rate": 8.33705689603813e-06,
      "loss": 0.7034,
      "num_input_tokens_seen": 1301280,
      "step": 2240
    },
    {
      "epoch": 0.3343759308906762,
      "grad_norm": 6.928411483764648,
      "learning_rate": 8.35567470956211e-06,
      "loss": 0.6792,
      "num_input_tokens_seen": 1304448,
      "step": 2245
    },
    {
      "epoch": 0.3351206434316354,
      "grad_norm": 5.187867164611816,
      "learning_rate": 8.374292523086088e-06,
      "loss": 0.6539,
      "num_input_tokens_seen": 1307488,
      "step": 2250
    },
    {
      "epoch": 0.3358653559725946,
      "grad_norm": 9.224844932556152,
      "learning_rate": 8.392910336610068e-06,
      "loss": 0.7377,
      "num_input_tokens_seen": 1310368,
      "step": 2255
    },
    {
      "epoch": 0.3366100685135538,
      "grad_norm": 6.729653835296631,
      "learning_rate": 8.41152815013405e-06,
      "loss": 0.7289,
      "num_input_tokens_seen": 1312928,
      "step": 2260
    },
    {
      "epoch": 0.33735478105451294,
      "grad_norm": 6.221358776092529,
      "learning_rate": 8.43014596365803e-06,
      "loss": 0.6668,
      "num_input_tokens_seen": 1315680,
      "step": 2265
    },
    {
      "epoch": 0.33809949359547214,
      "grad_norm": 6.793342113494873,
      "learning_rate": 8.44876377718201e-06,
      "loss": 0.5335,
      "num_input_tokens_seen": 1318624,
      "step": 2270
    },
    {
      "epoch": 0.33884420613643135,
      "grad_norm": 15.057544708251953,
      "learning_rate": 8.467381590705988e-06,
      "loss": 0.8968,
      "num_input_tokens_seen": 1321152,
      "step": 2275
    },
    {
      "epoch": 0.33958891867739055,
      "grad_norm": 5.649404048919678,
      "learning_rate": 8.485999404229967e-06,
      "loss": 0.663,
      "num_input_tokens_seen": 1324256,
      "step": 2280
    },
    {
      "epoch": 0.3403336312183497,
      "grad_norm": 4.969806671142578,
      "learning_rate": 8.504617217753947e-06,
      "loss": 0.6909,
      "num_input_tokens_seen": 1327392,
      "step": 2285
    },
    {
      "epoch": 0.3410783437593089,
      "grad_norm": 7.652706623077393,
      "learning_rate": 8.523235031277927e-06,
      "loss": 0.531,
      "num_input_tokens_seen": 1330528,
      "step": 2290
    },
    {
      "epoch": 0.3418230563002681,
      "grad_norm": 4.817379951477051,
      "learning_rate": 8.541852844801907e-06,
      "loss": 0.5154,
      "num_input_tokens_seen": 1333472,
      "step": 2295
    },
    {
      "epoch": 0.3425677688412273,
      "grad_norm": 6.765907287597656,
      "learning_rate": 8.560470658325887e-06,
      "loss": 0.6671,
      "num_input_tokens_seen": 1336832,
      "step": 2300
    },
    {
      "epoch": 0.34331248138218645,
      "grad_norm": 5.071691989898682,
      "learning_rate": 8.579088471849867e-06,
      "loss": 0.7374,
      "num_input_tokens_seen": 1339424,
      "step": 2305
    },
    {
      "epoch": 0.34405719392314565,
      "grad_norm": 6.984004974365234,
      "learning_rate": 8.597706285373847e-06,
      "loss": 0.6573,
      "num_input_tokens_seen": 1342656,
      "step": 2310
    },
    {
      "epoch": 0.34480190646410486,
      "grad_norm": 4.558605670928955,
      "learning_rate": 8.616324098897825e-06,
      "loss": 0.6049,
      "num_input_tokens_seen": 1345632,
      "step": 2315
    },
    {
      "epoch": 0.34554661900506406,
      "grad_norm": 14.972941398620605,
      "learning_rate": 8.634941912421805e-06,
      "loss": 0.7373,
      "num_input_tokens_seen": 1348704,
      "step": 2320
    },
    {
      "epoch": 0.34629133154602326,
      "grad_norm": 6.2186970710754395,
      "learning_rate": 8.653559725945785e-06,
      "loss": 0.7277,
      "num_input_tokens_seen": 1351840,
      "step": 2325
    },
    {
      "epoch": 0.3470360440869824,
      "grad_norm": 6.943010330200195,
      "learning_rate": 8.672177539469765e-06,
      "loss": 0.8321,
      "num_input_tokens_seen": 1354688,
      "step": 2330
    },
    {
      "epoch": 0.3477807566279416,
      "grad_norm": 11.142342567443848,
      "learning_rate": 8.690795352993745e-06,
      "loss": 0.7856,
      "num_input_tokens_seen": 1357600,
      "step": 2335
    },
    {
      "epoch": 0.3485254691689008,
      "grad_norm": 4.7075114250183105,
      "learning_rate": 8.709413166517725e-06,
      "loss": 0.6752,
      "num_input_tokens_seen": 1360992,
      "step": 2340
    },
    {
      "epoch": 0.34927018170986,
      "grad_norm": 5.008218288421631,
      "learning_rate": 8.728030980041705e-06,
      "loss": 0.8051,
      "num_input_tokens_seen": 1363680,
      "step": 2345
    },
    {
      "epoch": 0.35001489425081916,
      "grad_norm": 10.698731422424316,
      "learning_rate": 8.746648793565685e-06,
      "loss": 0.702,
      "num_input_tokens_seen": 1366400,
      "step": 2350
    },
    {
      "epoch": 0.35075960679177837,
      "grad_norm": 14.14432430267334,
      "learning_rate": 8.765266607089665e-06,
      "loss": 0.7732,
      "num_input_tokens_seen": 1369312,
      "step": 2355
    },
    {
      "epoch": 0.35150431933273757,
      "grad_norm": 6.316088676452637,
      "learning_rate": 8.783884420613643e-06,
      "loss": 0.8506,
      "num_input_tokens_seen": 1372448,
      "step": 2360
    },
    {
      "epoch": 0.35224903187369677,
      "grad_norm": 6.877076625823975,
      "learning_rate": 8.802502234137623e-06,
      "loss": 0.5954,
      "num_input_tokens_seen": 1375200,
      "step": 2365
    },
    {
      "epoch": 0.3529937444146559,
      "grad_norm": 6.205628395080566,
      "learning_rate": 8.821120047661603e-06,
      "loss": 0.6003,
      "num_input_tokens_seen": 1377696,
      "step": 2370
    },
    {
      "epoch": 0.3537384569556151,
      "grad_norm": 5.841953754425049,
      "learning_rate": 8.839737861185583e-06,
      "loss": 0.6174,
      "num_input_tokens_seen": 1380480,
      "step": 2375
    },
    {
      "epoch": 0.3544831694965743,
      "grad_norm": 7.4359235763549805,
      "learning_rate": 8.858355674709563e-06,
      "loss": 0.5507,
      "num_input_tokens_seen": 1383392,
      "step": 2380
    },
    {
      "epoch": 0.3552278820375335,
      "grad_norm": 4.326643466949463,
      "learning_rate": 8.876973488233543e-06,
      "loss": 0.6751,
      "num_input_tokens_seen": 1386304,
      "step": 2385
    },
    {
      "epoch": 0.35597259457849273,
      "grad_norm": 5.646712303161621,
      "learning_rate": 8.895591301757522e-06,
      "loss": 0.7375,
      "num_input_tokens_seen": 1389440,
      "step": 2390
    },
    {
      "epoch": 0.3567173071194519,
      "grad_norm": 6.158865451812744,
      "learning_rate": 8.914209115281502e-06,
      "loss": 0.6463,
      "num_input_tokens_seen": 1392320,
      "step": 2395
    },
    {
      "epoch": 0.3574620196604111,
      "grad_norm": 6.049370765686035,
      "learning_rate": 8.93282692880548e-06,
      "loss": 0.6638,
      "num_input_tokens_seen": 1395104,
      "step": 2400
    },
    {
      "epoch": 0.3582067322013703,
      "grad_norm": 5.82416296005249,
      "learning_rate": 8.95144474232946e-06,
      "loss": 0.7137,
      "num_input_tokens_seen": 1398016,
      "step": 2405
    },
    {
      "epoch": 0.3589514447423295,
      "grad_norm": 6.752342224121094,
      "learning_rate": 8.97006255585344e-06,
      "loss": 0.7585,
      "num_input_tokens_seen": 1401088,
      "step": 2410
    },
    {
      "epoch": 0.35969615728328863,
      "grad_norm": 4.2596564292907715,
      "learning_rate": 8.98868036937742e-06,
      "loss": 0.6318,
      "num_input_tokens_seen": 1403968,
      "step": 2415
    },
    {
      "epoch": 0.36044086982424783,
      "grad_norm": 6.3292646408081055,
      "learning_rate": 9.0072981829014e-06,
      "loss": 0.6258,
      "num_input_tokens_seen": 1406816,
      "step": 2420
    },
    {
      "epoch": 0.36118558236520704,
      "grad_norm": 7.538887023925781,
      "learning_rate": 9.02591599642538e-06,
      "loss": 0.6609,
      "num_input_tokens_seen": 1409600,
      "step": 2425
    },
    {
      "epoch": 0.36193029490616624,
      "grad_norm": 4.07633113861084,
      "learning_rate": 9.04453380994936e-06,
      "loss": 0.5113,
      "num_input_tokens_seen": 1412608,
      "step": 2430
    },
    {
      "epoch": 0.3626750074471254,
      "grad_norm": 8.92008113861084,
      "learning_rate": 9.06315162347334e-06,
      "loss": 0.797,
      "num_input_tokens_seen": 1415456,
      "step": 2435
    },
    {
      "epoch": 0.3634197199880846,
      "grad_norm": 11.826720237731934,
      "learning_rate": 9.08176943699732e-06,
      "loss": 0.7221,
      "num_input_tokens_seen": 1418752,
      "step": 2440
    },
    {
      "epoch": 0.3641644325290438,
      "grad_norm": 11.070027351379395,
      "learning_rate": 9.100387250521298e-06,
      "loss": 0.7581,
      "num_input_tokens_seen": 1421664,
      "step": 2445
    },
    {
      "epoch": 0.364909145070003,
      "grad_norm": 10.60975456237793,
      "learning_rate": 9.119005064045278e-06,
      "loss": 0.6722,
      "num_input_tokens_seen": 1424704,
      "step": 2450
    },
    {
      "epoch": 0.3656538576109622,
      "grad_norm": 4.265496253967285,
      "learning_rate": 9.137622877569258e-06,
      "loss": 0.6344,
      "num_input_tokens_seen": 1427744,
      "step": 2455
    },
    {
      "epoch": 0.36639857015192134,
      "grad_norm": 7.268688201904297,
      "learning_rate": 9.156240691093238e-06,
      "loss": 0.7088,
      "num_input_tokens_seen": 1430720,
      "step": 2460
    },
    {
      "epoch": 0.36714328269288055,
      "grad_norm": 14.90605640411377,
      "learning_rate": 9.174858504617218e-06,
      "loss": 0.8467,
      "num_input_tokens_seen": 1433504,
      "step": 2465
    },
    {
      "epoch": 0.36788799523383975,
      "grad_norm": 9.125128746032715,
      "learning_rate": 9.193476318141198e-06,
      "loss": 0.8234,
      "num_input_tokens_seen": 1436192,
      "step": 2470
    },
    {
      "epoch": 0.36863270777479895,
      "grad_norm": 7.73360013961792,
      "learning_rate": 9.212094131665178e-06,
      "loss": 0.6521,
      "num_input_tokens_seen": 1439104,
      "step": 2475
    },
    {
      "epoch": 0.3693774203157581,
      "grad_norm": 3.829033374786377,
      "learning_rate": 9.230711945189158e-06,
      "loss": 0.7548,
      "num_input_tokens_seen": 1442272,
      "step": 2480
    },
    {
      "epoch": 0.3701221328567173,
      "grad_norm": 5.079920768737793,
      "learning_rate": 9.249329758713138e-06,
      "loss": 0.6595,
      "num_input_tokens_seen": 1445120,
      "step": 2485
    },
    {
      "epoch": 0.3708668453976765,
      "grad_norm": 7.510920524597168,
      "learning_rate": 9.267947572237116e-06,
      "loss": 0.7087,
      "num_input_tokens_seen": 1448064,
      "step": 2490
    },
    {
      "epoch": 0.3716115579386357,
      "grad_norm": 6.46074104309082,
      "learning_rate": 9.286565385761096e-06,
      "loss": 0.8064,
      "num_input_tokens_seen": 1450784,
      "step": 2495
    },
    {
      "epoch": 0.37235627047959485,
      "grad_norm": 5.257061004638672,
      "learning_rate": 9.305183199285077e-06,
      "loss": 0.6823,
      "num_input_tokens_seen": 1453792,
      "step": 2500
    },
    {
      "epoch": 0.37310098302055406,
      "grad_norm": 4.372637748718262,
      "learning_rate": 9.323801012809057e-06,
      "loss": 0.5777,
      "num_input_tokens_seen": 1457088,
      "step": 2505
    },
    {
      "epoch": 0.37384569556151326,
      "grad_norm": 9.229496955871582,
      "learning_rate": 9.342418826333036e-06,
      "loss": 0.6183,
      "num_input_tokens_seen": 1460000,
      "step": 2510
    },
    {
      "epoch": 0.37459040810247246,
      "grad_norm": 5.195849418640137,
      "learning_rate": 9.361036639857016e-06,
      "loss": 0.6739,
      "num_input_tokens_seen": 1463392,
      "step": 2515
    },
    {
      "epoch": 0.3753351206434316,
      "grad_norm": 7.225694179534912,
      "learning_rate": 9.379654453380995e-06,
      "loss": 0.685,
      "num_input_tokens_seen": 1466240,
      "step": 2520
    },
    {
      "epoch": 0.3760798331843908,
      "grad_norm": 6.214695930480957,
      "learning_rate": 9.398272266904975e-06,
      "loss": 0.6532,
      "num_input_tokens_seen": 1469280,
      "step": 2525
    },
    {
      "epoch": 0.37682454572535,
      "grad_norm": 4.850481033325195,
      "learning_rate": 9.416890080428954e-06,
      "loss": 0.643,
      "num_input_tokens_seen": 1472064,
      "step": 2530
    },
    {
      "epoch": 0.3775692582663092,
      "grad_norm": 6.5118408203125,
      "learning_rate": 9.435507893952934e-06,
      "loss": 0.6616,
      "num_input_tokens_seen": 1474880,
      "step": 2535
    },
    {
      "epoch": 0.3783139708072684,
      "grad_norm": 6.563836097717285,
      "learning_rate": 9.454125707476915e-06,
      "loss": 0.6856,
      "num_input_tokens_seen": 1477632,
      "step": 2540
    },
    {
      "epoch": 0.37905868334822757,
      "grad_norm": 9.89671802520752,
      "learning_rate": 9.472743521000895e-06,
      "loss": 0.7372,
      "num_input_tokens_seen": 1480480,
      "step": 2545
    },
    {
      "epoch": 0.37980339588918677,
      "grad_norm": 5.688991069793701,
      "learning_rate": 9.491361334524875e-06,
      "loss": 0.6204,
      "num_input_tokens_seen": 1483520,
      "step": 2550
    },
    {
      "epoch": 0.38054810843014597,
      "grad_norm": 5.058856964111328,
      "learning_rate": 9.509979148048853e-06,
      "loss": 0.7337,
      "num_input_tokens_seen": 1486720,
      "step": 2555
    },
    {
      "epoch": 0.3812928209711052,
      "grad_norm": 3.541987419128418,
      "learning_rate": 9.528596961572833e-06,
      "loss": 0.7404,
      "num_input_tokens_seen": 1489728,
      "step": 2560
    },
    {
      "epoch": 0.3820375335120643,
      "grad_norm": 5.818763732910156,
      "learning_rate": 9.547214775096813e-06,
      "loss": 0.7044,
      "num_input_tokens_seen": 1492640,
      "step": 2565
    },
    {
      "epoch": 0.3827822460530235,
      "grad_norm": 5.427966117858887,
      "learning_rate": 9.565832588620793e-06,
      "loss": 0.5781,
      "num_input_tokens_seen": 1495360,
      "step": 2570
    },
    {
      "epoch": 0.3835269585939827,
      "grad_norm": 5.194398880004883,
      "learning_rate": 9.584450402144771e-06,
      "loss": 0.6837,
      "num_input_tokens_seen": 1498176,
      "step": 2575
    },
    {
      "epoch": 0.38427167113494193,
      "grad_norm": 6.067778587341309,
      "learning_rate": 9.603068215668753e-06,
      "loss": 0.6341,
      "num_input_tokens_seen": 1501056,
      "step": 2580
    },
    {
      "epoch": 0.3850163836759011,
      "grad_norm": 6.572671890258789,
      "learning_rate": 9.621686029192733e-06,
      "loss": 0.6236,
      "num_input_tokens_seen": 1503840,
      "step": 2585
    },
    {
      "epoch": 0.3857610962168603,
      "grad_norm": 8.516083717346191,
      "learning_rate": 9.640303842716713e-06,
      "loss": 0.7515,
      "num_input_tokens_seen": 1507168,
      "step": 2590
    },
    {
      "epoch": 0.3865058087578195,
      "grad_norm": 6.031203269958496,
      "learning_rate": 9.658921656240691e-06,
      "loss": 0.627,
      "num_input_tokens_seen": 1510080,
      "step": 2595
    },
    {
      "epoch": 0.3872505212987787,
      "grad_norm": 2.9837276935577393,
      "learning_rate": 9.677539469764671e-06,
      "loss": 0.8584,
      "num_input_tokens_seen": 1513120,
      "step": 2600
    },
    {
      "epoch": 0.3879952338397379,
      "grad_norm": 7.384458065032959,
      "learning_rate": 9.69615728328865e-06,
      "loss": 0.6967,
      "num_input_tokens_seen": 1515680,
      "step": 2605
    },
    {
      "epoch": 0.38873994638069703,
      "grad_norm": 4.5352983474731445,
      "learning_rate": 9.71477509681263e-06,
      "loss": 0.6905,
      "num_input_tokens_seen": 1518560,
      "step": 2610
    },
    {
      "epoch": 0.38948465892165623,
      "grad_norm": 3.8179075717926025,
      "learning_rate": 9.73339291033661e-06,
      "loss": 0.667,
      "num_input_tokens_seen": 1521344,
      "step": 2615
    },
    {
      "epoch": 0.39022937146261544,
      "grad_norm": 8.4254732131958,
      "learning_rate": 9.75201072386059e-06,
      "loss": 0.5906,
      "num_input_tokens_seen": 1524192,
      "step": 2620
    },
    {
      "epoch": 0.39097408400357464,
      "grad_norm": 6.201380729675293,
      "learning_rate": 9.77062853738457e-06,
      "loss": 0.6188,
      "num_input_tokens_seen": 1526848,
      "step": 2625
    },
    {
      "epoch": 0.3917187965445338,
      "grad_norm": 4.730014801025391,
      "learning_rate": 9.78924635090855e-06,
      "loss": 0.4186,
      "num_input_tokens_seen": 1529696,
      "step": 2630
    },
    {
      "epoch": 0.392463509085493,
      "grad_norm": 6.496866703033447,
      "learning_rate": 9.80786416443253e-06,
      "loss": 0.4836,
      "num_input_tokens_seen": 1532608,
      "step": 2635
    },
    {
      "epoch": 0.3932082216264522,
      "grad_norm": 8.811853408813477,
      "learning_rate": 9.826481977956509e-06,
      "loss": 0.5241,
      "num_input_tokens_seen": 1535360,
      "step": 2640
    },
    {
      "epoch": 0.3939529341674114,
      "grad_norm": 13.035183906555176,
      "learning_rate": 9.845099791480489e-06,
      "loss": 0.7539,
      "num_input_tokens_seen": 1538176,
      "step": 2645
    },
    {
      "epoch": 0.39469764670837054,
      "grad_norm": 7.200503349304199,
      "learning_rate": 9.863717605004468e-06,
      "loss": 0.8287,
      "num_input_tokens_seen": 1541280,
      "step": 2650
    },
    {
      "epoch": 0.39544235924932974,
      "grad_norm": 15.952465057373047,
      "learning_rate": 9.882335418528448e-06,
      "loss": 0.8017,
      "num_input_tokens_seen": 1544224,
      "step": 2655
    },
    {
      "epoch": 0.39618707179028895,
      "grad_norm": 11.102145195007324,
      "learning_rate": 9.900953232052428e-06,
      "loss": 0.6165,
      "num_input_tokens_seen": 1547136,
      "step": 2660
    },
    {
      "epoch": 0.39693178433124815,
      "grad_norm": 4.901607036590576,
      "learning_rate": 9.919571045576408e-06,
      "loss": 0.4714,
      "num_input_tokens_seen": 1549984,
      "step": 2665
    },
    {
      "epoch": 0.39767649687220735,
      "grad_norm": 21.171558380126953,
      "learning_rate": 9.938188859100388e-06,
      "loss": 0.7536,
      "num_input_tokens_seen": 1552896,
      "step": 2670
    },
    {
      "epoch": 0.3984212094131665,
      "grad_norm": 8.889633178710938,
      "learning_rate": 9.956806672624368e-06,
      "loss": 0.6198,
      "num_input_tokens_seen": 1555712,
      "step": 2675
    },
    {
      "epoch": 0.3991659219541257,
      "grad_norm": 11.611273765563965,
      "learning_rate": 9.975424486148348e-06,
      "loss": 0.9046,
      "num_input_tokens_seen": 1558912,
      "step": 2680
    },
    {
      "epoch": 0.3999106344950849,
      "grad_norm": 12.689085006713867,
      "learning_rate": 9.994042299672326e-06,
      "loss": 0.6389,
      "num_input_tokens_seen": 1561792,
      "step": 2685
    },
    {
      "epoch": 0.4006553470360441,
      "grad_norm": 8.862517356872559,
      "learning_rate": 1.0012660113196306e-05,
      "loss": 0.5926,
      "num_input_tokens_seen": 1564704,
      "step": 2690
    },
    {
      "epoch": 0.40140005957700325,
      "grad_norm": 13.159069061279297,
      "learning_rate": 1.0031277926720286e-05,
      "loss": 0.6096,
      "num_input_tokens_seen": 1567680,
      "step": 2695
    },
    {
      "epoch": 0.40214477211796246,
      "grad_norm": 10.488565444946289,
      "learning_rate": 1.0049895740244266e-05,
      "loss": 0.7357,
      "num_input_tokens_seen": 1570528,
      "step": 2700
    },
    {
      "epoch": 0.40288948465892166,
      "grad_norm": 7.488277912139893,
      "learning_rate": 1.0068513553768246e-05,
      "loss": 0.8583,
      "num_input_tokens_seen": 1573504,
      "step": 2705
    },
    {
      "epoch": 0.40363419719988086,
      "grad_norm": 4.86342191696167,
      "learning_rate": 1.0087131367292226e-05,
      "loss": 0.7363,
      "num_input_tokens_seen": 1576384,
      "step": 2710
    },
    {
      "epoch": 0.40437890974084,
      "grad_norm": 11.43766975402832,
      "learning_rate": 1.0105749180816206e-05,
      "loss": 0.8852,
      "num_input_tokens_seen": 1579296,
      "step": 2715
    },
    {
      "epoch": 0.4051236222817992,
      "grad_norm": 9.465494155883789,
      "learning_rate": 1.0124366994340186e-05,
      "loss": 0.715,
      "num_input_tokens_seen": 1582016,
      "step": 2720
    },
    {
      "epoch": 0.4058683348227584,
      "grad_norm": 5.4388346672058105,
      "learning_rate": 1.0142984807864164e-05,
      "loss": 0.6023,
      "num_input_tokens_seen": 1585120,
      "step": 2725
    },
    {
      "epoch": 0.4066130473637176,
      "grad_norm": 6.03001070022583,
      "learning_rate": 1.0161602621388144e-05,
      "loss": 0.6509,
      "num_input_tokens_seen": 1588224,
      "step": 2730
    },
    {
      "epoch": 0.4073577599046768,
      "grad_norm": 10.143699645996094,
      "learning_rate": 1.0180220434912124e-05,
      "loss": 0.6692,
      "num_input_tokens_seen": 1591040,
      "step": 2735
    },
    {
      "epoch": 0.40810247244563597,
      "grad_norm": 11.004805564880371,
      "learning_rate": 1.0198838248436104e-05,
      "loss": 0.8692,
      "num_input_tokens_seen": 1594016,
      "step": 2740
    },
    {
      "epoch": 0.40884718498659517,
      "grad_norm": 8.875235557556152,
      "learning_rate": 1.0217456061960085e-05,
      "loss": 0.664,
      "num_input_tokens_seen": 1596672,
      "step": 2745
    },
    {
      "epoch": 0.40959189752755437,
      "grad_norm": 5.643774509429932,
      "learning_rate": 1.0236073875484064e-05,
      "loss": 0.7226,
      "num_input_tokens_seen": 1599744,
      "step": 2750
    },
    {
      "epoch": 0.4103366100685136,
      "grad_norm": 10.656463623046875,
      "learning_rate": 1.0254691689008044e-05,
      "loss": 0.7361,
      "num_input_tokens_seen": 1602656,
      "step": 2755
    },
    {
      "epoch": 0.4110813226094727,
      "grad_norm": 7.017780780792236,
      "learning_rate": 1.0273309502532023e-05,
      "loss": 0.4474,
      "num_input_tokens_seen": 1605504,
      "step": 2760
    },
    {
      "epoch": 0.4118260351504319,
      "grad_norm": 6.201373100280762,
      "learning_rate": 1.0291927316056003e-05,
      "loss": 0.7244,
      "num_input_tokens_seen": 1608608,
      "step": 2765
    },
    {
      "epoch": 0.4125707476913911,
      "grad_norm": 8.667122840881348,
      "learning_rate": 1.0310545129579982e-05,
      "loss": 0.8255,
      "num_input_tokens_seen": 1611328,
      "step": 2770
    },
    {
      "epoch": 0.41331546023235033,
      "grad_norm": 5.165857791900635,
      "learning_rate": 1.0329162943103962e-05,
      "loss": 0.6744,
      "num_input_tokens_seen": 1614048,
      "step": 2775
    },
    {
      "epoch": 0.4140601727733095,
      "grad_norm": 5.38069486618042,
      "learning_rate": 1.0347780756627941e-05,
      "loss": 0.5698,
      "num_input_tokens_seen": 1616832,
      "step": 2780
    },
    {
      "epoch": 0.4148048853142687,
      "grad_norm": 6.1488800048828125,
      "learning_rate": 1.0366398570151923e-05,
      "loss": 0.5933,
      "num_input_tokens_seen": 1620352,
      "step": 2785
    },
    {
      "epoch": 0.4155495978552279,
      "grad_norm": 7.428502559661865,
      "learning_rate": 1.0385016383675901e-05,
      "loss": 0.8502,
      "num_input_tokens_seen": 1623296,
      "step": 2790
    },
    {
      "epoch": 0.4162943103961871,
      "grad_norm": 6.347310543060303,
      "learning_rate": 1.0403634197199881e-05,
      "loss": 0.7311,
      "num_input_tokens_seen": 1626368,
      "step": 2795
    },
    {
      "epoch": 0.4170390229371463,
      "grad_norm": 6.236321926116943,
      "learning_rate": 1.0422252010723861e-05,
      "loss": 0.6669,
      "num_input_tokens_seen": 1629632,
      "step": 2800
    },
    {
      "epoch": 0.41778373547810543,
      "grad_norm": 10.041560173034668,
      "learning_rate": 1.0440869824247841e-05,
      "loss": 0.8531,
      "num_input_tokens_seen": 1632608,
      "step": 2805
    },
    {
      "epoch": 0.41852844801906464,
      "grad_norm": 5.260197162628174,
      "learning_rate": 1.0459487637771821e-05,
      "loss": 0.8069,
      "num_input_tokens_seen": 1635520,
      "step": 2810
    },
    {
      "epoch": 0.41927316056002384,
      "grad_norm": 5.80360221862793,
      "learning_rate": 1.04781054512958e-05,
      "loss": 0.5854,
      "num_input_tokens_seen": 1638784,
      "step": 2815
    },
    {
      "epoch": 0.42001787310098304,
      "grad_norm": 5.866530418395996,
      "learning_rate": 1.049672326481978e-05,
      "loss": 0.7905,
      "num_input_tokens_seen": 1641888,
      "step": 2820
    },
    {
      "epoch": 0.4207625856419422,
      "grad_norm": 3.6284077167510986,
      "learning_rate": 1.051534107834376e-05,
      "loss": 0.693,
      "num_input_tokens_seen": 1644832,
      "step": 2825
    },
    {
      "epoch": 0.4215072981829014,
      "grad_norm": 8.876837730407715,
      "learning_rate": 1.053395889186774e-05,
      "loss": 0.5775,
      "num_input_tokens_seen": 1647488,
      "step": 2830
    },
    {
      "epoch": 0.4222520107238606,
      "grad_norm": 4.89879035949707,
      "learning_rate": 1.0552576705391719e-05,
      "loss": 0.6735,
      "num_input_tokens_seen": 1650464,
      "step": 2835
    },
    {
      "epoch": 0.4229967232648198,
      "grad_norm": 4.6154561042785645,
      "learning_rate": 1.0571194518915699e-05,
      "loss": 0.756,
      "num_input_tokens_seen": 1653120,
      "step": 2840
    },
    {
      "epoch": 0.42374143580577894,
      "grad_norm": 6.395246505737305,
      "learning_rate": 1.0589812332439679e-05,
      "loss": 0.636,
      "num_input_tokens_seen": 1655904,
      "step": 2845
    },
    {
      "epoch": 0.42448614834673815,
      "grad_norm": 12.011605262756348,
      "learning_rate": 1.0608430145963659e-05,
      "loss": 0.6783,
      "num_input_tokens_seen": 1658624,
      "step": 2850
    },
    {
      "epoch": 0.42523086088769735,
      "grad_norm": 14.901689529418945,
      "learning_rate": 1.0627047959487637e-05,
      "loss": 0.7592,
      "num_input_tokens_seen": 1661728,
      "step": 2855
    },
    {
      "epoch": 0.42597557342865655,
      "grad_norm": 5.016870975494385,
      "learning_rate": 1.0645665773011617e-05,
      "loss": 0.6202,
      "num_input_tokens_seen": 1664384,
      "step": 2860
    },
    {
      "epoch": 0.42672028596961575,
      "grad_norm": 4.665366172790527,
      "learning_rate": 1.0664283586535598e-05,
      "loss": 0.5134,
      "num_input_tokens_seen": 1667072,
      "step": 2865
    },
    {
      "epoch": 0.4274649985105749,
      "grad_norm": 15.746777534484863,
      "learning_rate": 1.0682901400059578e-05,
      "loss": 0.9137,
      "num_input_tokens_seen": 1670336,
      "step": 2870
    },
    {
      "epoch": 0.4282097110515341,
      "grad_norm": 4.08632230758667,
      "learning_rate": 1.0701519213583558e-05,
      "loss": 0.7369,
      "num_input_tokens_seen": 1673216,
      "step": 2875
    },
    {
      "epoch": 0.4289544235924933,
      "grad_norm": 4.432491302490234,
      "learning_rate": 1.0720137027107537e-05,
      "loss": 0.4928,
      "num_input_tokens_seen": 1675776,
      "step": 2880
    },
    {
      "epoch": 0.4296991361334525,
      "grad_norm": 4.418981552124023,
      "learning_rate": 1.0738754840631517e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 1678720,
      "step": 2885
    },
    {
      "epoch": 0.43044384867441166,
      "grad_norm": 10.45022964477539,
      "learning_rate": 1.0757372654155496e-05,
      "loss": 0.7389,
      "num_input_tokens_seen": 1681728,
      "step": 2890
    },
    {
      "epoch": 0.43118856121537086,
      "grad_norm": 6.702839374542236,
      "learning_rate": 1.0775990467679476e-05,
      "loss": 0.5789,
      "num_input_tokens_seen": 1684640,
      "step": 2895
    },
    {
      "epoch": 0.43193327375633006,
      "grad_norm": 9.937520980834961,
      "learning_rate": 1.0794608281203456e-05,
      "loss": 0.6779,
      "num_input_tokens_seen": 1687552,
      "step": 2900
    },
    {
      "epoch": 0.43267798629728926,
      "grad_norm": 4.842587471008301,
      "learning_rate": 1.0813226094727436e-05,
      "loss": 0.7397,
      "num_input_tokens_seen": 1690464,
      "step": 2905
    },
    {
      "epoch": 0.4334226988382484,
      "grad_norm": 5.685020923614502,
      "learning_rate": 1.0831843908251416e-05,
      "loss": 0.8328,
      "num_input_tokens_seen": 1693376,
      "step": 2910
    },
    {
      "epoch": 0.4341674113792076,
      "grad_norm": 8.284692764282227,
      "learning_rate": 1.0850461721775396e-05,
      "loss": 0.6945,
      "num_input_tokens_seen": 1696512,
      "step": 2915
    },
    {
      "epoch": 0.4349121239201668,
      "grad_norm": 7.5321550369262695,
      "learning_rate": 1.0869079535299374e-05,
      "loss": 0.7057,
      "num_input_tokens_seen": 1699520,
      "step": 2920
    },
    {
      "epoch": 0.435656836461126,
      "grad_norm": 6.067925930023193,
      "learning_rate": 1.0887697348823354e-05,
      "loss": 0.6865,
      "num_input_tokens_seen": 1702080,
      "step": 2925
    },
    {
      "epoch": 0.4364015490020852,
      "grad_norm": 7.888650894165039,
      "learning_rate": 1.0906315162347334e-05,
      "loss": 0.742,
      "num_input_tokens_seen": 1704800,
      "step": 2930
    },
    {
      "epoch": 0.43714626154304437,
      "grad_norm": 6.852509498596191,
      "learning_rate": 1.0924932975871314e-05,
      "loss": 0.6965,
      "num_input_tokens_seen": 1707616,
      "step": 2935
    },
    {
      "epoch": 0.43789097408400357,
      "grad_norm": 5.94553279876709,
      "learning_rate": 1.0943550789395294e-05,
      "loss": 0.7391,
      "num_input_tokens_seen": 1710656,
      "step": 2940
    },
    {
      "epoch": 0.4386356866249628,
      "grad_norm": 8.556136131286621,
      "learning_rate": 1.0962168602919274e-05,
      "loss": 0.7125,
      "num_input_tokens_seen": 1713408,
      "step": 2945
    },
    {
      "epoch": 0.439380399165922,
      "grad_norm": 9.620841026306152,
      "learning_rate": 1.0980786416443254e-05,
      "loss": 0.8061,
      "num_input_tokens_seen": 1716096,
      "step": 2950
    },
    {
      "epoch": 0.4401251117068811,
      "grad_norm": 6.7390923500061035,
      "learning_rate": 1.0999404229967234e-05,
      "loss": 0.6825,
      "num_input_tokens_seen": 1718816,
      "step": 2955
    },
    {
      "epoch": 0.4408698242478403,
      "grad_norm": 4.728219509124756,
      "learning_rate": 1.1018022043491214e-05,
      "loss": 0.6393,
      "num_input_tokens_seen": 1721760,
      "step": 2960
    },
    {
      "epoch": 0.4416145367887995,
      "grad_norm": 11.793132781982422,
      "learning_rate": 1.1036639857015192e-05,
      "loss": 0.5751,
      "num_input_tokens_seen": 1724608,
      "step": 2965
    },
    {
      "epoch": 0.44235924932975873,
      "grad_norm": 7.2527546882629395,
      "learning_rate": 1.1055257670539172e-05,
      "loss": 0.5005,
      "num_input_tokens_seen": 1727264,
      "step": 2970
    },
    {
      "epoch": 0.4431039618707179,
      "grad_norm": 8.411966323852539,
      "learning_rate": 1.1073875484063152e-05,
      "loss": 0.5427,
      "num_input_tokens_seen": 1730240,
      "step": 2975
    },
    {
      "epoch": 0.4438486744116771,
      "grad_norm": 5.183273792266846,
      "learning_rate": 1.1092493297587132e-05,
      "loss": 0.6907,
      "num_input_tokens_seen": 1733376,
      "step": 2980
    },
    {
      "epoch": 0.4445933869526363,
      "grad_norm": 11.116612434387207,
      "learning_rate": 1.1111111111111112e-05,
      "loss": 0.7028,
      "num_input_tokens_seen": 1736352,
      "step": 2985
    },
    {
      "epoch": 0.4453380994935955,
      "grad_norm": 5.2659912109375,
      "learning_rate": 1.1129728924635092e-05,
      "loss": 0.6739,
      "num_input_tokens_seen": 1739200,
      "step": 2990
    },
    {
      "epoch": 0.4460828120345547,
      "grad_norm": 8.11416244506836,
      "learning_rate": 1.1148346738159071e-05,
      "loss": 0.6789,
      "num_input_tokens_seen": 1741920,
      "step": 2995
    },
    {
      "epoch": 0.44682752457551383,
      "grad_norm": 6.414669990539551,
      "learning_rate": 1.1166964551683051e-05,
      "loss": 0.6706,
      "num_input_tokens_seen": 1744864,
      "step": 3000
    },
    {
      "epoch": 0.44757223711647304,
      "grad_norm": 8.056097984313965,
      "learning_rate": 1.1185582365207031e-05,
      "loss": 0.8022,
      "num_input_tokens_seen": 1747808,
      "step": 3005
    },
    {
      "epoch": 0.44831694965743224,
      "grad_norm": 6.970053195953369,
      "learning_rate": 1.120420017873101e-05,
      "loss": 0.7223,
      "num_input_tokens_seen": 1750528,
      "step": 3010
    },
    {
      "epoch": 0.44906166219839144,
      "grad_norm": 5.786576271057129,
      "learning_rate": 1.122281799225499e-05,
      "loss": 0.7428,
      "num_input_tokens_seen": 1753280,
      "step": 3015
    },
    {
      "epoch": 0.4498063747393506,
      "grad_norm": 8.990606307983398,
      "learning_rate": 1.124143580577897e-05,
      "loss": 0.6666,
      "num_input_tokens_seen": 1756352,
      "step": 3020
    },
    {
      "epoch": 0.4505510872803098,
      "grad_norm": 9.754583358764648,
      "learning_rate": 1.126005361930295e-05,
      "loss": 0.7331,
      "num_input_tokens_seen": 1759168,
      "step": 3025
    },
    {
      "epoch": 0.451295799821269,
      "grad_norm": 5.86404275894165,
      "learning_rate": 1.127867143282693e-05,
      "loss": 0.6794,
      "num_input_tokens_seen": 1762240,
      "step": 3030
    },
    {
      "epoch": 0.4520405123622282,
      "grad_norm": 4.716139316558838,
      "learning_rate": 1.129728924635091e-05,
      "loss": 0.7276,
      "num_input_tokens_seen": 1765152,
      "step": 3035
    },
    {
      "epoch": 0.45278522490318734,
      "grad_norm": 5.881112098693848,
      "learning_rate": 1.1315907059874889e-05,
      "loss": 0.711,
      "num_input_tokens_seen": 1767776,
      "step": 3040
    },
    {
      "epoch": 0.45352993744414655,
      "grad_norm": 6.56468391418457,
      "learning_rate": 1.1334524873398869e-05,
      "loss": 0.6759,
      "num_input_tokens_seen": 1770816,
      "step": 3045
    },
    {
      "epoch": 0.45427464998510575,
      "grad_norm": 6.509930610656738,
      "learning_rate": 1.1353142686922847e-05,
      "loss": 0.7172,
      "num_input_tokens_seen": 1773600,
      "step": 3050
    },
    {
      "epoch": 0.45501936252606495,
      "grad_norm": 11.14814567565918,
      "learning_rate": 1.1371760500446827e-05,
      "loss": 0.722,
      "num_input_tokens_seen": 1776480,
      "step": 3055
    },
    {
      "epoch": 0.45576407506702415,
      "grad_norm": 4.738834381103516,
      "learning_rate": 1.1390378313970807e-05,
      "loss": 0.7369,
      "num_input_tokens_seen": 1779040,
      "step": 3060
    },
    {
      "epoch": 0.4565087876079833,
      "grad_norm": 4.262243270874023,
      "learning_rate": 1.1408996127494787e-05,
      "loss": 0.7137,
      "num_input_tokens_seen": 1781952,
      "step": 3065
    },
    {
      "epoch": 0.4572535001489425,
      "grad_norm": 6.363688945770264,
      "learning_rate": 1.1427613941018769e-05,
      "loss": 0.6768,
      "num_input_tokens_seen": 1785056,
      "step": 3070
    },
    {
      "epoch": 0.4579982126899017,
      "grad_norm": 3.6813366413116455,
      "learning_rate": 1.1446231754542747e-05,
      "loss": 0.6143,
      "num_input_tokens_seen": 1788096,
      "step": 3075
    },
    {
      "epoch": 0.4587429252308609,
      "grad_norm": 14.327363967895508,
      "learning_rate": 1.1464849568066727e-05,
      "loss": 0.8229,
      "num_input_tokens_seen": 1790912,
      "step": 3080
    },
    {
      "epoch": 0.45948763777182006,
      "grad_norm": 5.543013572692871,
      "learning_rate": 1.1483467381590707e-05,
      "loss": 0.6871,
      "num_input_tokens_seen": 1793600,
      "step": 3085
    },
    {
      "epoch": 0.46023235031277926,
      "grad_norm": 4.345249176025391,
      "learning_rate": 1.1502085195114687e-05,
      "loss": 0.6018,
      "num_input_tokens_seen": 1796192,
      "step": 3090
    },
    {
      "epoch": 0.46097706285373846,
      "grad_norm": 10.708959579467773,
      "learning_rate": 1.1520703008638665e-05,
      "loss": 0.656,
      "num_input_tokens_seen": 1799392,
      "step": 3095
    },
    {
      "epoch": 0.46172177539469766,
      "grad_norm": 8.176637649536133,
      "learning_rate": 1.1539320822162645e-05,
      "loss": 0.7231,
      "num_input_tokens_seen": 1802304,
      "step": 3100
    },
    {
      "epoch": 0.4624664879356568,
      "grad_norm": 6.309911251068115,
      "learning_rate": 1.1557938635686626e-05,
      "loss": 0.7511,
      "num_input_tokens_seen": 1804896,
      "step": 3105
    },
    {
      "epoch": 0.463211200476616,
      "grad_norm": 5.539852619171143,
      "learning_rate": 1.1576556449210606e-05,
      "loss": 0.6511,
      "num_input_tokens_seen": 1807968,
      "step": 3110
    },
    {
      "epoch": 0.4639559130175752,
      "grad_norm": 8.222433090209961,
      "learning_rate": 1.1595174262734585e-05,
      "loss": 0.5056,
      "num_input_tokens_seen": 1810816,
      "step": 3115
    },
    {
      "epoch": 0.4647006255585344,
      "grad_norm": 6.715847015380859,
      "learning_rate": 1.1613792076258565e-05,
      "loss": 0.6818,
      "num_input_tokens_seen": 1813632,
      "step": 3120
    },
    {
      "epoch": 0.4654453380994936,
      "grad_norm": 12.569226264953613,
      "learning_rate": 1.1632409889782545e-05,
      "loss": 0.6642,
      "num_input_tokens_seen": 1816448,
      "step": 3125
    },
    {
      "epoch": 0.46619005064045277,
      "grad_norm": 6.898530006408691,
      "learning_rate": 1.1651027703306524e-05,
      "loss": 0.7348,
      "num_input_tokens_seen": 1819328,
      "step": 3130
    },
    {
      "epoch": 0.46693476318141197,
      "grad_norm": 5.657400608062744,
      "learning_rate": 1.1669645516830504e-05,
      "loss": 0.7203,
      "num_input_tokens_seen": 1822368,
      "step": 3135
    },
    {
      "epoch": 0.4676794757223712,
      "grad_norm": 4.7539567947387695,
      "learning_rate": 1.1688263330354483e-05,
      "loss": 0.6227,
      "num_input_tokens_seen": 1825152,
      "step": 3140
    },
    {
      "epoch": 0.4684241882633304,
      "grad_norm": 5.6319146156311035,
      "learning_rate": 1.1706881143878464e-05,
      "loss": 0.6378,
      "num_input_tokens_seen": 1827872,
      "step": 3145
    },
    {
      "epoch": 0.4691689008042895,
      "grad_norm": 9.062193870544434,
      "learning_rate": 1.1725498957402444e-05,
      "loss": 0.7218,
      "num_input_tokens_seen": 1830656,
      "step": 3150
    },
    {
      "epoch": 0.4699136133452487,
      "grad_norm": 8.452366828918457,
      "learning_rate": 1.1744116770926424e-05,
      "loss": 0.6403,
      "num_input_tokens_seen": 1833696,
      "step": 3155
    },
    {
      "epoch": 0.47065832588620793,
      "grad_norm": 7.378853797912598,
      "learning_rate": 1.1762734584450402e-05,
      "loss": 0.7073,
      "num_input_tokens_seen": 1836640,
      "step": 3160
    },
    {
      "epoch": 0.47140303842716713,
      "grad_norm": 7.523759365081787,
      "learning_rate": 1.1781352397974382e-05,
      "loss": 0.6274,
      "num_input_tokens_seen": 1839360,
      "step": 3165
    },
    {
      "epoch": 0.4721477509681263,
      "grad_norm": 5.250370979309082,
      "learning_rate": 1.1799970211498362e-05,
      "loss": 0.7239,
      "num_input_tokens_seen": 1842208,
      "step": 3170
    },
    {
      "epoch": 0.4728924635090855,
      "grad_norm": 5.840363502502441,
      "learning_rate": 1.1818588025022342e-05,
      "loss": 0.6708,
      "num_input_tokens_seen": 1845216,
      "step": 3175
    },
    {
      "epoch": 0.4736371760500447,
      "grad_norm": 8.541997909545898,
      "learning_rate": 1.183720583854632e-05,
      "loss": 0.4757,
      "num_input_tokens_seen": 1847968,
      "step": 3180
    },
    {
      "epoch": 0.4743818885910039,
      "grad_norm": 8.326675415039062,
      "learning_rate": 1.1855823652070302e-05,
      "loss": 0.8551,
      "num_input_tokens_seen": 1851040,
      "step": 3185
    },
    {
      "epoch": 0.4751266011319631,
      "grad_norm": 8.328309059143066,
      "learning_rate": 1.1874441465594282e-05,
      "loss": 0.7339,
      "num_input_tokens_seen": 1854080,
      "step": 3190
    },
    {
      "epoch": 0.47587131367292224,
      "grad_norm": 9.058491706848145,
      "learning_rate": 1.1893059279118262e-05,
      "loss": 0.6636,
      "num_input_tokens_seen": 1857152,
      "step": 3195
    },
    {
      "epoch": 0.47661602621388144,
      "grad_norm": 10.02855396270752,
      "learning_rate": 1.1911677092642242e-05,
      "loss": 0.6418,
      "num_input_tokens_seen": 1859872,
      "step": 3200
    },
    {
      "epoch": 0.47736073875484064,
      "grad_norm": 20.132272720336914,
      "learning_rate": 1.193029490616622e-05,
      "loss": 0.7783,
      "num_input_tokens_seen": 1862752,
      "step": 3205
    },
    {
      "epoch": 0.47810545129579984,
      "grad_norm": 20.35120391845703,
      "learning_rate": 1.19489127196902e-05,
      "loss": 0.858,
      "num_input_tokens_seen": 1865824,
      "step": 3210
    },
    {
      "epoch": 0.478850163836759,
      "grad_norm": 6.4755330085754395,
      "learning_rate": 1.196753053321418e-05,
      "loss": 0.6731,
      "num_input_tokens_seen": 1868544,
      "step": 3215
    },
    {
      "epoch": 0.4795948763777182,
      "grad_norm": 6.826872825622559,
      "learning_rate": 1.198614834673816e-05,
      "loss": 0.6991,
      "num_input_tokens_seen": 1871520,
      "step": 3220
    },
    {
      "epoch": 0.4803395889186774,
      "grad_norm": 12.790962219238281,
      "learning_rate": 1.200476616026214e-05,
      "loss": 0.759,
      "num_input_tokens_seen": 1874016,
      "step": 3225
    },
    {
      "epoch": 0.4810843014596366,
      "grad_norm": 5.348520278930664,
      "learning_rate": 1.202338397378612e-05,
      "loss": 0.7081,
      "num_input_tokens_seen": 1876928,
      "step": 3230
    },
    {
      "epoch": 0.48182901400059575,
      "grad_norm": 6.277436256408691,
      "learning_rate": 1.20420017873101e-05,
      "loss": 0.7726,
      "num_input_tokens_seen": 1880288,
      "step": 3235
    },
    {
      "epoch": 0.48257372654155495,
      "grad_norm": 3.7122902870178223,
      "learning_rate": 1.206061960083408e-05,
      "loss": 0.6231,
      "num_input_tokens_seen": 1883136,
      "step": 3240
    },
    {
      "epoch": 0.48331843908251415,
      "grad_norm": 4.101745128631592,
      "learning_rate": 1.2079237414358058e-05,
      "loss": 0.6604,
      "num_input_tokens_seen": 1885824,
      "step": 3245
    },
    {
      "epoch": 0.48406315162347335,
      "grad_norm": 6.0633111000061035,
      "learning_rate": 1.2097855227882038e-05,
      "loss": 0.6841,
      "num_input_tokens_seen": 1888384,
      "step": 3250
    },
    {
      "epoch": 0.48480786416443256,
      "grad_norm": 6.151118755340576,
      "learning_rate": 1.2116473041406018e-05,
      "loss": 0.7096,
      "num_input_tokens_seen": 1891200,
      "step": 3255
    },
    {
      "epoch": 0.4855525767053917,
      "grad_norm": 5.850377082824707,
      "learning_rate": 1.2135090854929997e-05,
      "loss": 0.6284,
      "num_input_tokens_seen": 1894016,
      "step": 3260
    },
    {
      "epoch": 0.4862972892463509,
      "grad_norm": 5.020940780639648,
      "learning_rate": 1.2153708668453977e-05,
      "loss": 0.7067,
      "num_input_tokens_seen": 1896768,
      "step": 3265
    },
    {
      "epoch": 0.4870420017873101,
      "grad_norm": 8.291019439697266,
      "learning_rate": 1.2172326481977957e-05,
      "loss": 0.5647,
      "num_input_tokens_seen": 1899488,
      "step": 3270
    },
    {
      "epoch": 0.4877867143282693,
      "grad_norm": 5.787026405334473,
      "learning_rate": 1.2190944295501937e-05,
      "loss": 0.6325,
      "num_input_tokens_seen": 1902208,
      "step": 3275
    },
    {
      "epoch": 0.48853142686922846,
      "grad_norm": 6.151393890380859,
      "learning_rate": 1.2209562109025917e-05,
      "loss": 0.7596,
      "num_input_tokens_seen": 1904896,
      "step": 3280
    },
    {
      "epoch": 0.48927613941018766,
      "grad_norm": 5.197570323944092,
      "learning_rate": 1.2228179922549897e-05,
      "loss": 0.6839,
      "num_input_tokens_seen": 1907616,
      "step": 3285
    },
    {
      "epoch": 0.49002085195114686,
      "grad_norm": 6.605068683624268,
      "learning_rate": 1.2246797736073875e-05,
      "loss": 0.6728,
      "num_input_tokens_seen": 1910592,
      "step": 3290
    },
    {
      "epoch": 0.49076556449210607,
      "grad_norm": 7.476369857788086,
      "learning_rate": 1.2265415549597855e-05,
      "loss": 0.6614,
      "num_input_tokens_seen": 1913280,
      "step": 3295
    },
    {
      "epoch": 0.4915102770330652,
      "grad_norm": 5.197489261627197,
      "learning_rate": 1.2284033363121835e-05,
      "loss": 0.5624,
      "num_input_tokens_seen": 1916192,
      "step": 3300
    },
    {
      "epoch": 0.4922549895740244,
      "grad_norm": 9.231730461120605,
      "learning_rate": 1.2302651176645815e-05,
      "loss": 0.4877,
      "num_input_tokens_seen": 1918816,
      "step": 3305
    },
    {
      "epoch": 0.4929997021149836,
      "grad_norm": 4.643286228179932,
      "learning_rate": 1.2321268990169795e-05,
      "loss": 0.7776,
      "num_input_tokens_seen": 1921568,
      "step": 3310
    },
    {
      "epoch": 0.4937444146559428,
      "grad_norm": 8.416604042053223,
      "learning_rate": 1.2339886803693775e-05,
      "loss": 0.7087,
      "num_input_tokens_seen": 1924352,
      "step": 3315
    },
    {
      "epoch": 0.494489127196902,
      "grad_norm": 7.595980644226074,
      "learning_rate": 1.2358504617217755e-05,
      "loss": 0.6732,
      "num_input_tokens_seen": 1927040,
      "step": 3320
    },
    {
      "epoch": 0.49523383973786117,
      "grad_norm": 7.908602714538574,
      "learning_rate": 1.2377122430741735e-05,
      "loss": 0.514,
      "num_input_tokens_seen": 1929856,
      "step": 3325
    },
    {
      "epoch": 0.4959785522788204,
      "grad_norm": 8.880431175231934,
      "learning_rate": 1.2395740244265713e-05,
      "loss": 0.6607,
      "num_input_tokens_seen": 1932896,
      "step": 3330
    },
    {
      "epoch": 0.4967232648197796,
      "grad_norm": 3.6931066513061523,
      "learning_rate": 1.2414358057789693e-05,
      "loss": 0.6593,
      "num_input_tokens_seen": 1935584,
      "step": 3335
    },
    {
      "epoch": 0.4974679773607388,
      "grad_norm": 9.717750549316406,
      "learning_rate": 1.2432975871313673e-05,
      "loss": 0.6476,
      "num_input_tokens_seen": 1938400,
      "step": 3340
    },
    {
      "epoch": 0.4982126899016979,
      "grad_norm": 8.324136734008789,
      "learning_rate": 1.2451593684837653e-05,
      "loss": 0.5512,
      "num_input_tokens_seen": 1941280,
      "step": 3345
    },
    {
      "epoch": 0.4989574024426571,
      "grad_norm": 6.297416687011719,
      "learning_rate": 1.2470211498361634e-05,
      "loss": 0.6203,
      "num_input_tokens_seen": 1944000,
      "step": 3350
    },
    {
      "epoch": 0.49970211498361633,
      "grad_norm": 6.374654769897461,
      "learning_rate": 1.2488829311885613e-05,
      "loss": 0.5922,
      "num_input_tokens_seen": 1946624,
      "step": 3355
    },
    {
      "epoch": 0.5004468275245755,
      "grad_norm": 21.75421905517578,
      "learning_rate": 1.2507447125409594e-05,
      "loss": 0.9159,
      "num_input_tokens_seen": 1949568,
      "step": 3360
    },
    {
      "epoch": 0.5011915400655347,
      "grad_norm": 8.412848472595215,
      "learning_rate": 1.252606493893357e-05,
      "loss": 0.559,
      "num_input_tokens_seen": 1952288,
      "step": 3365
    },
    {
      "epoch": 0.5019362526064939,
      "grad_norm": 6.391406536102295,
      "learning_rate": 1.254468275245755e-05,
      "loss": 0.7699,
      "num_input_tokens_seen": 1955104,
      "step": 3370
    },
    {
      "epoch": 0.5026809651474531,
      "grad_norm": 7.193857669830322,
      "learning_rate": 1.256330056598153e-05,
      "loss": 0.6899,
      "num_input_tokens_seen": 1958048,
      "step": 3375
    },
    {
      "epoch": 0.5034256776884123,
      "grad_norm": 10.113065719604492,
      "learning_rate": 1.258191837950551e-05,
      "loss": 0.6338,
      "num_input_tokens_seen": 1961120,
      "step": 3380
    },
    {
      "epoch": 0.5041703902293715,
      "grad_norm": 4.526340961456299,
      "learning_rate": 1.260053619302949e-05,
      "loss": 0.7226,
      "num_input_tokens_seen": 1963904,
      "step": 3385
    },
    {
      "epoch": 0.5049151027703307,
      "grad_norm": 8.730587005615234,
      "learning_rate": 1.2619154006553472e-05,
      "loss": 0.646,
      "num_input_tokens_seen": 1966656,
      "step": 3390
    },
    {
      "epoch": 0.5056598153112899,
      "grad_norm": 8.410605430603027,
      "learning_rate": 1.2637771820077452e-05,
      "loss": 0.5479,
      "num_input_tokens_seen": 1969824,
      "step": 3395
    },
    {
      "epoch": 0.506404527852249,
      "grad_norm": 4.523089408874512,
      "learning_rate": 1.2656389633601432e-05,
      "loss": 0.7089,
      "num_input_tokens_seen": 1972544,
      "step": 3400
    },
    {
      "epoch": 0.5071492403932082,
      "grad_norm": 8.112229347229004,
      "learning_rate": 1.2675007447125412e-05,
      "loss": 0.6147,
      "num_input_tokens_seen": 1975776,
      "step": 3405
    },
    {
      "epoch": 0.5078939529341674,
      "grad_norm": 12.458913803100586,
      "learning_rate": 1.2693625260649388e-05,
      "loss": 0.643,
      "num_input_tokens_seen": 1978688,
      "step": 3410
    },
    {
      "epoch": 0.5086386654751266,
      "grad_norm": 8.29565715789795,
      "learning_rate": 1.2712243074173368e-05,
      "loss": 0.7967,
      "num_input_tokens_seen": 1981760,
      "step": 3415
    },
    {
      "epoch": 0.5093833780160858,
      "grad_norm": 12.910722732543945,
      "learning_rate": 1.2730860887697348e-05,
      "loss": 0.7607,
      "num_input_tokens_seen": 1984672,
      "step": 3420
    },
    {
      "epoch": 0.510128090557045,
      "grad_norm": 4.172557830810547,
      "learning_rate": 1.2749478701221328e-05,
      "loss": 0.55,
      "num_input_tokens_seen": 1987744,
      "step": 3425
    },
    {
      "epoch": 0.5108728030980042,
      "grad_norm": 5.698625564575195,
      "learning_rate": 1.276809651474531e-05,
      "loss": 0.7228,
      "num_input_tokens_seen": 1990816,
      "step": 3430
    },
    {
      "epoch": 0.5116175156389634,
      "grad_norm": 23.964614868164062,
      "learning_rate": 1.278671432826929e-05,
      "loss": 0.7533,
      "num_input_tokens_seen": 1993344,
      "step": 3435
    },
    {
      "epoch": 0.5123622281799225,
      "grad_norm": 4.667630195617676,
      "learning_rate": 1.280533214179327e-05,
      "loss": 0.6466,
      "num_input_tokens_seen": 1996384,
      "step": 3440
    },
    {
      "epoch": 0.5131069407208817,
      "grad_norm": 4.5948052406311035,
      "learning_rate": 1.282394995531725e-05,
      "loss": 0.6664,
      "num_input_tokens_seen": 1999360,
      "step": 3445
    },
    {
      "epoch": 0.5138516532618409,
      "grad_norm": 12.106233596801758,
      "learning_rate": 1.2842567768841226e-05,
      "loss": 0.7181,
      "num_input_tokens_seen": 2002240,
      "step": 3450
    },
    {
      "epoch": 0.5145963658028001,
      "grad_norm": 5.029153823852539,
      "learning_rate": 1.2861185582365206e-05,
      "loss": 0.7467,
      "num_input_tokens_seen": 2005152,
      "step": 3455
    },
    {
      "epoch": 0.5153410783437593,
      "grad_norm": 4.837216854095459,
      "learning_rate": 1.2879803395889186e-05,
      "loss": 0.6755,
      "num_input_tokens_seen": 2008032,
      "step": 3460
    },
    {
      "epoch": 0.5160857908847185,
      "grad_norm": 7.008756637573242,
      "learning_rate": 1.2898421209413166e-05,
      "loss": 0.6195,
      "num_input_tokens_seen": 2010880,
      "step": 3465
    },
    {
      "epoch": 0.5168305034256777,
      "grad_norm": 6.857176303863525,
      "learning_rate": 1.2917039022937148e-05,
      "loss": 0.6863,
      "num_input_tokens_seen": 2013888,
      "step": 3470
    },
    {
      "epoch": 0.5175752159666369,
      "grad_norm": 2.944068431854248,
      "learning_rate": 1.2935656836461127e-05,
      "loss": 0.5406,
      "num_input_tokens_seen": 2016640,
      "step": 3475
    },
    {
      "epoch": 0.5183199285075961,
      "grad_norm": 5.611667156219482,
      "learning_rate": 1.2954274649985107e-05,
      "loss": 0.7281,
      "num_input_tokens_seen": 2019200,
      "step": 3480
    },
    {
      "epoch": 0.5190646410485552,
      "grad_norm": 6.521718502044678,
      "learning_rate": 1.2972892463509087e-05,
      "loss": 0.6931,
      "num_input_tokens_seen": 2022240,
      "step": 3485
    },
    {
      "epoch": 0.5198093535895144,
      "grad_norm": 7.791606426239014,
      "learning_rate": 1.2991510277033067e-05,
      "loss": 0.6244,
      "num_input_tokens_seen": 2025344,
      "step": 3490
    },
    {
      "epoch": 0.5205540661304736,
      "grad_norm": 5.960079193115234,
      "learning_rate": 1.3010128090557044e-05,
      "loss": 0.7043,
      "num_input_tokens_seen": 2028576,
      "step": 3495
    },
    {
      "epoch": 0.5212987786714328,
      "grad_norm": 5.5333733558654785,
      "learning_rate": 1.3028745904081024e-05,
      "loss": 0.6525,
      "num_input_tokens_seen": 2031456,
      "step": 3500
    },
    {
      "epoch": 0.522043491212392,
      "grad_norm": 5.308018207550049,
      "learning_rate": 1.3047363717605005e-05,
      "loss": 0.4686,
      "num_input_tokens_seen": 2034592,
      "step": 3505
    },
    {
      "epoch": 0.5227882037533512,
      "grad_norm": 9.33679485321045,
      "learning_rate": 1.3065981531128985e-05,
      "loss": 0.6406,
      "num_input_tokens_seen": 2037696,
      "step": 3510
    },
    {
      "epoch": 0.5235329162943104,
      "grad_norm": 21.7911434173584,
      "learning_rate": 1.3084599344652965e-05,
      "loss": 0.6722,
      "num_input_tokens_seen": 2040448,
      "step": 3515
    },
    {
      "epoch": 0.5242776288352696,
      "grad_norm": 6.62190055847168,
      "learning_rate": 1.3103217158176945e-05,
      "loss": 0.7123,
      "num_input_tokens_seen": 2043456,
      "step": 3520
    },
    {
      "epoch": 0.5250223413762288,
      "grad_norm": 14.26937198638916,
      "learning_rate": 1.3121834971700925e-05,
      "loss": 0.824,
      "num_input_tokens_seen": 2046240,
      "step": 3525
    },
    {
      "epoch": 0.5257670539171879,
      "grad_norm": 11.892111778259277,
      "learning_rate": 1.3140452785224905e-05,
      "loss": 0.7625,
      "num_input_tokens_seen": 2049024,
      "step": 3530
    },
    {
      "epoch": 0.5265117664581471,
      "grad_norm": 6.032618045806885,
      "learning_rate": 1.3159070598748885e-05,
      "loss": 0.6955,
      "num_input_tokens_seen": 2053088,
      "step": 3535
    },
    {
      "epoch": 0.5272564789991063,
      "grad_norm": 5.769685745239258,
      "learning_rate": 1.3177688412272861e-05,
      "loss": 0.6656,
      "num_input_tokens_seen": 2056000,
      "step": 3540
    },
    {
      "epoch": 0.5280011915400655,
      "grad_norm": 5.645096778869629,
      "learning_rate": 1.3196306225796843e-05,
      "loss": 0.7504,
      "num_input_tokens_seen": 2058912,
      "step": 3545
    },
    {
      "epoch": 0.5287459040810247,
      "grad_norm": 9.154473304748535,
      "learning_rate": 1.3214924039320823e-05,
      "loss": 0.7167,
      "num_input_tokens_seen": 2061664,
      "step": 3550
    },
    {
      "epoch": 0.5294906166219839,
      "grad_norm": 5.560645580291748,
      "learning_rate": 1.3233541852844803e-05,
      "loss": 0.7556,
      "num_input_tokens_seen": 2064672,
      "step": 3555
    },
    {
      "epoch": 0.5302353291629431,
      "grad_norm": 3.8880889415740967,
      "learning_rate": 1.3252159666368783e-05,
      "loss": 0.7365,
      "num_input_tokens_seen": 2067616,
      "step": 3560
    },
    {
      "epoch": 0.5309800417039023,
      "grad_norm": 7.986537933349609,
      "learning_rate": 1.3270777479892763e-05,
      "loss": 0.5373,
      "num_input_tokens_seen": 2070432,
      "step": 3565
    },
    {
      "epoch": 0.5317247542448614,
      "grad_norm": 5.604568958282471,
      "learning_rate": 1.3289395293416743e-05,
      "loss": 0.661,
      "num_input_tokens_seen": 2073504,
      "step": 3570
    },
    {
      "epoch": 0.5324694667858206,
      "grad_norm": 4.581125736236572,
      "learning_rate": 1.3308013106940723e-05,
      "loss": 0.6284,
      "num_input_tokens_seen": 2076384,
      "step": 3575
    },
    {
      "epoch": 0.5332141793267798,
      "grad_norm": 6.896476745605469,
      "learning_rate": 1.33266309204647e-05,
      "loss": 0.6894,
      "num_input_tokens_seen": 2079104,
      "step": 3580
    },
    {
      "epoch": 0.533958891867739,
      "grad_norm": 12.285327911376953,
      "learning_rate": 1.334524873398868e-05,
      "loss": 0.774,
      "num_input_tokens_seen": 2082304,
      "step": 3585
    },
    {
      "epoch": 0.5347036044086982,
      "grad_norm": 5.9491286277771,
      "learning_rate": 1.336386654751266e-05,
      "loss": 0.6649,
      "num_input_tokens_seen": 2084992,
      "step": 3590
    },
    {
      "epoch": 0.5354483169496574,
      "grad_norm": 4.380553245544434,
      "learning_rate": 1.338248436103664e-05,
      "loss": 0.6371,
      "num_input_tokens_seen": 2087744,
      "step": 3595
    },
    {
      "epoch": 0.5361930294906166,
      "grad_norm": 6.6401286125183105,
      "learning_rate": 1.340110217456062e-05,
      "loss": 0.7448,
      "num_input_tokens_seen": 2090720,
      "step": 3600
    },
    {
      "epoch": 0.5369377420315758,
      "grad_norm": 4.977373123168945,
      "learning_rate": 1.34197199880846e-05,
      "loss": 0.653,
      "num_input_tokens_seen": 2093472,
      "step": 3605
    },
    {
      "epoch": 0.537682454572535,
      "grad_norm": 4.988629341125488,
      "learning_rate": 1.343833780160858e-05,
      "loss": 0.7894,
      "num_input_tokens_seen": 2096320,
      "step": 3610
    },
    {
      "epoch": 0.5384271671134941,
      "grad_norm": 6.058993816375732,
      "learning_rate": 1.345695561513256e-05,
      "loss": 0.742,
      "num_input_tokens_seen": 2099584,
      "step": 3615
    },
    {
      "epoch": 0.5391718796544533,
      "grad_norm": 8.076905250549316,
      "learning_rate": 1.347557342865654e-05,
      "loss": 0.6182,
      "num_input_tokens_seen": 2102368,
      "step": 3620
    },
    {
      "epoch": 0.5399165921954125,
      "grad_norm": 7.893552303314209,
      "learning_rate": 1.3494191242180519e-05,
      "loss": 0.6031,
      "num_input_tokens_seen": 2105216,
      "step": 3625
    },
    {
      "epoch": 0.5406613047363718,
      "grad_norm": 5.334425926208496,
      "learning_rate": 1.3512809055704498e-05,
      "loss": 0.7266,
      "num_input_tokens_seen": 2107744,
      "step": 3630
    },
    {
      "epoch": 0.541406017277331,
      "grad_norm": 5.625950813293457,
      "learning_rate": 1.3531426869228478e-05,
      "loss": 0.7782,
      "num_input_tokens_seen": 2110912,
      "step": 3635
    },
    {
      "epoch": 0.5421507298182902,
      "grad_norm": 4.762989521026611,
      "learning_rate": 1.3550044682752458e-05,
      "loss": 0.7685,
      "num_input_tokens_seen": 2113696,
      "step": 3640
    },
    {
      "epoch": 0.5428954423592494,
      "grad_norm": 7.1529860496521,
      "learning_rate": 1.3568662496276438e-05,
      "loss": 0.7672,
      "num_input_tokens_seen": 2116736,
      "step": 3645
    },
    {
      "epoch": 0.5436401549002086,
      "grad_norm": 4.902170658111572,
      "learning_rate": 1.3587280309800418e-05,
      "loss": 0.5368,
      "num_input_tokens_seen": 2119648,
      "step": 3650
    },
    {
      "epoch": 0.5443848674411678,
      "grad_norm": 3.9042463302612305,
      "learning_rate": 1.3605898123324398e-05,
      "loss": 0.8182,
      "num_input_tokens_seen": 2122912,
      "step": 3655
    },
    {
      "epoch": 0.5451295799821269,
      "grad_norm": 5.3921380043029785,
      "learning_rate": 1.3624515936848378e-05,
      "loss": 0.7486,
      "num_input_tokens_seen": 2125536,
      "step": 3660
    },
    {
      "epoch": 0.5458742925230861,
      "grad_norm": 5.161264896392822,
      "learning_rate": 1.3643133750372358e-05,
      "loss": 0.6752,
      "num_input_tokens_seen": 2128416,
      "step": 3665
    },
    {
      "epoch": 0.5466190050640453,
      "grad_norm": 7.489789009094238,
      "learning_rate": 1.3661751563896336e-05,
      "loss": 0.7062,
      "num_input_tokens_seen": 2131424,
      "step": 3670
    },
    {
      "epoch": 0.5473637176050045,
      "grad_norm": 6.33359956741333,
      "learning_rate": 1.3680369377420316e-05,
      "loss": 0.6332,
      "num_input_tokens_seen": 2134112,
      "step": 3675
    },
    {
      "epoch": 0.5481084301459637,
      "grad_norm": 7.973055362701416,
      "learning_rate": 1.3698987190944296e-05,
      "loss": 0.8206,
      "num_input_tokens_seen": 2136864,
      "step": 3680
    },
    {
      "epoch": 0.5488531426869229,
      "grad_norm": 2.8358778953552246,
      "learning_rate": 1.3717605004468276e-05,
      "loss": 0.6058,
      "num_input_tokens_seen": 2139616,
      "step": 3685
    },
    {
      "epoch": 0.5495978552278821,
      "grad_norm": 7.412477493286133,
      "learning_rate": 1.3736222817992256e-05,
      "loss": 0.7888,
      "num_input_tokens_seen": 2142400,
      "step": 3690
    },
    {
      "epoch": 0.5503425677688413,
      "grad_norm": 6.177513122558594,
      "learning_rate": 1.3754840631516236e-05,
      "loss": 0.6785,
      "num_input_tokens_seen": 2145472,
      "step": 3695
    },
    {
      "epoch": 0.5510872803098004,
      "grad_norm": 4.53070592880249,
      "learning_rate": 1.3773458445040216e-05,
      "loss": 0.7767,
      "num_input_tokens_seen": 2148288,
      "step": 3700
    },
    {
      "epoch": 0.5518319928507596,
      "grad_norm": 6.7428083419799805,
      "learning_rate": 1.3792076258564196e-05,
      "loss": 0.7157,
      "num_input_tokens_seen": 2151008,
      "step": 3705
    },
    {
      "epoch": 0.5525767053917188,
      "grad_norm": 7.203738689422607,
      "learning_rate": 1.3810694072088174e-05,
      "loss": 0.579,
      "num_input_tokens_seen": 2153824,
      "step": 3710
    },
    {
      "epoch": 0.553321417932678,
      "grad_norm": 6.311048984527588,
      "learning_rate": 1.3829311885612154e-05,
      "loss": 0.6868,
      "num_input_tokens_seen": 2156768,
      "step": 3715
    },
    {
      "epoch": 0.5540661304736372,
      "grad_norm": 7.627471446990967,
      "learning_rate": 1.3847929699136134e-05,
      "loss": 0.7731,
      "num_input_tokens_seen": 2159680,
      "step": 3720
    },
    {
      "epoch": 0.5548108430145964,
      "grad_norm": 3.8229117393493652,
      "learning_rate": 1.3866547512660114e-05,
      "loss": 0.5469,
      "num_input_tokens_seen": 2162560,
      "step": 3725
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 12.177197456359863,
      "learning_rate": 1.3885165326184094e-05,
      "loss": 0.5053,
      "num_input_tokens_seen": 2165600,
      "step": 3730
    },
    {
      "epoch": 0.5563002680965148,
      "grad_norm": 9.126724243164062,
      "learning_rate": 1.3903783139708073e-05,
      "loss": 0.6799,
      "num_input_tokens_seen": 2168576,
      "step": 3735
    },
    {
      "epoch": 0.557044980637474,
      "grad_norm": 8.871549606323242,
      "learning_rate": 1.3922400953232053e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 2171328,
      "step": 3740
    },
    {
      "epoch": 0.5577896931784331,
      "grad_norm": 6.681153774261475,
      "learning_rate": 1.3941018766756033e-05,
      "loss": 0.8087,
      "num_input_tokens_seen": 2174496,
      "step": 3745
    },
    {
      "epoch": 0.5585344057193923,
      "grad_norm": 5.947589874267578,
      "learning_rate": 1.3959636580280013e-05,
      "loss": 0.7788,
      "num_input_tokens_seen": 2177152,
      "step": 3750
    },
    {
      "epoch": 0.5592791182603515,
      "grad_norm": 6.549715042114258,
      "learning_rate": 1.3978254393803992e-05,
      "loss": 0.7186,
      "num_input_tokens_seen": 2179712,
      "step": 3755
    },
    {
      "epoch": 0.5600238308013107,
      "grad_norm": 6.596383094787598,
      "learning_rate": 1.3996872207327971e-05,
      "loss": 0.7215,
      "num_input_tokens_seen": 2182336,
      "step": 3760
    },
    {
      "epoch": 0.5607685433422699,
      "grad_norm": 12.673967361450195,
      "learning_rate": 1.4015490020851951e-05,
      "loss": 0.658,
      "num_input_tokens_seen": 2185376,
      "step": 3765
    },
    {
      "epoch": 0.5615132558832291,
      "grad_norm": 4.385280132293701,
      "learning_rate": 1.4034107834375931e-05,
      "loss": 0.5836,
      "num_input_tokens_seen": 2188320,
      "step": 3770
    },
    {
      "epoch": 0.5622579684241883,
      "grad_norm": 4.212856292724609,
      "learning_rate": 1.4052725647899911e-05,
      "loss": 0.6597,
      "num_input_tokens_seen": 2191488,
      "step": 3775
    },
    {
      "epoch": 0.5630026809651475,
      "grad_norm": 6.022705554962158,
      "learning_rate": 1.4071343461423891e-05,
      "loss": 0.7079,
      "num_input_tokens_seen": 2194208,
      "step": 3780
    },
    {
      "epoch": 0.5637473935061067,
      "grad_norm": 5.874749183654785,
      "learning_rate": 1.4089961274947871e-05,
      "loss": 0.6535,
      "num_input_tokens_seen": 2197088,
      "step": 3785
    },
    {
      "epoch": 0.5644921060470658,
      "grad_norm": 8.246281623840332,
      "learning_rate": 1.4108579088471851e-05,
      "loss": 0.7602,
      "num_input_tokens_seen": 2200064,
      "step": 3790
    },
    {
      "epoch": 0.565236818588025,
      "grad_norm": 8.170805931091309,
      "learning_rate": 1.412719690199583e-05,
      "loss": 0.8421,
      "num_input_tokens_seen": 2202784,
      "step": 3795
    },
    {
      "epoch": 0.5659815311289842,
      "grad_norm": 10.74629020690918,
      "learning_rate": 1.4145814715519809e-05,
      "loss": 0.7996,
      "num_input_tokens_seen": 2205728,
      "step": 3800
    },
    {
      "epoch": 0.5667262436699434,
      "grad_norm": 6.230238437652588,
      "learning_rate": 1.4164432529043789e-05,
      "loss": 0.7397,
      "num_input_tokens_seen": 2208544,
      "step": 3805
    },
    {
      "epoch": 0.5674709562109026,
      "grad_norm": 8.029755592346191,
      "learning_rate": 1.4183050342567769e-05,
      "loss": 0.6908,
      "num_input_tokens_seen": 2211392,
      "step": 3810
    },
    {
      "epoch": 0.5682156687518618,
      "grad_norm": 5.283493518829346,
      "learning_rate": 1.4201668156091749e-05,
      "loss": 0.6923,
      "num_input_tokens_seen": 2214144,
      "step": 3815
    },
    {
      "epoch": 0.568960381292821,
      "grad_norm": 7.284792423248291,
      "learning_rate": 1.4220285969615729e-05,
      "loss": 0.7785,
      "num_input_tokens_seen": 2217184,
      "step": 3820
    },
    {
      "epoch": 0.5697050938337802,
      "grad_norm": 5.718336582183838,
      "learning_rate": 1.4238903783139709e-05,
      "loss": 0.6186,
      "num_input_tokens_seen": 2219936,
      "step": 3825
    },
    {
      "epoch": 0.5704498063747393,
      "grad_norm": 4.883311748504639,
      "learning_rate": 1.4257521596663689e-05,
      "loss": 0.6782,
      "num_input_tokens_seen": 2222720,
      "step": 3830
    },
    {
      "epoch": 0.5711945189156985,
      "grad_norm": 6.113678455352783,
      "learning_rate": 1.4276139410187669e-05,
      "loss": 0.6316,
      "num_input_tokens_seen": 2225408,
      "step": 3835
    },
    {
      "epoch": 0.5719392314566577,
      "grad_norm": 5.157827377319336,
      "learning_rate": 1.4294757223711647e-05,
      "loss": 0.6641,
      "num_input_tokens_seen": 2228256,
      "step": 3840
    },
    {
      "epoch": 0.5726839439976169,
      "grad_norm": 7.121969699859619,
      "learning_rate": 1.4313375037235627e-05,
      "loss": 0.555,
      "num_input_tokens_seen": 2231168,
      "step": 3845
    },
    {
      "epoch": 0.5734286565385761,
      "grad_norm": 9.698996543884277,
      "learning_rate": 1.4331992850759607e-05,
      "loss": 0.5098,
      "num_input_tokens_seen": 2233760,
      "step": 3850
    },
    {
      "epoch": 0.5741733690795353,
      "grad_norm": 12.690345764160156,
      "learning_rate": 1.4350610664283587e-05,
      "loss": 0.7497,
      "num_input_tokens_seen": 2237120,
      "step": 3855
    },
    {
      "epoch": 0.5749180816204945,
      "grad_norm": 9.254755020141602,
      "learning_rate": 1.4369228477807567e-05,
      "loss": 0.7801,
      "num_input_tokens_seen": 2240000,
      "step": 3860
    },
    {
      "epoch": 0.5756627941614537,
      "grad_norm": 7.508628845214844,
      "learning_rate": 1.4387846291331546e-05,
      "loss": 0.8725,
      "num_input_tokens_seen": 2242976,
      "step": 3865
    },
    {
      "epoch": 0.5764075067024129,
      "grad_norm": 6.386225700378418,
      "learning_rate": 1.4406464104855526e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 2245920,
      "step": 3870
    },
    {
      "epoch": 0.577152219243372,
      "grad_norm": 5.115336894989014,
      "learning_rate": 1.4425081918379506e-05,
      "loss": 0.654,
      "num_input_tokens_seen": 2248800,
      "step": 3875
    },
    {
      "epoch": 0.5778969317843312,
      "grad_norm": 9.04376220703125,
      "learning_rate": 1.4443699731903488e-05,
      "loss": 0.8266,
      "num_input_tokens_seen": 2251776,
      "step": 3880
    },
    {
      "epoch": 0.5786416443252904,
      "grad_norm": 8.87096881866455,
      "learning_rate": 1.4462317545427465e-05,
      "loss": 0.6924,
      "num_input_tokens_seen": 2254656,
      "step": 3885
    },
    {
      "epoch": 0.5793863568662496,
      "grad_norm": 11.602348327636719,
      "learning_rate": 1.4480935358951444e-05,
      "loss": 0.8706,
      "num_input_tokens_seen": 2257664,
      "step": 3890
    },
    {
      "epoch": 0.5801310694072088,
      "grad_norm": 4.84164571762085,
      "learning_rate": 1.4499553172475424e-05,
      "loss": 0.566,
      "num_input_tokens_seen": 2261056,
      "step": 3895
    },
    {
      "epoch": 0.580875781948168,
      "grad_norm": 6.953567028045654,
      "learning_rate": 1.4518170985999404e-05,
      "loss": 0.6197,
      "num_input_tokens_seen": 2264032,
      "step": 3900
    },
    {
      "epoch": 0.5816204944891272,
      "grad_norm": 4.761566162109375,
      "learning_rate": 1.4536788799523384e-05,
      "loss": 0.6728,
      "num_input_tokens_seen": 2266880,
      "step": 3905
    },
    {
      "epoch": 0.5823652070300864,
      "grad_norm": 7.519409656524658,
      "learning_rate": 1.4555406613047364e-05,
      "loss": 0.6754,
      "num_input_tokens_seen": 2269952,
      "step": 3910
    },
    {
      "epoch": 0.5831099195710456,
      "grad_norm": 9.393985748291016,
      "learning_rate": 1.4574024426571346e-05,
      "loss": 0.7512,
      "num_input_tokens_seen": 2272736,
      "step": 3915
    },
    {
      "epoch": 0.5838546321120047,
      "grad_norm": 4.037066459655762,
      "learning_rate": 1.4592642240095326e-05,
      "loss": 0.7467,
      "num_input_tokens_seen": 2275808,
      "step": 3920
    },
    {
      "epoch": 0.5845993446529639,
      "grad_norm": 8.4998779296875,
      "learning_rate": 1.4611260053619302e-05,
      "loss": 0.7153,
      "num_input_tokens_seen": 2278624,
      "step": 3925
    },
    {
      "epoch": 0.5853440571939231,
      "grad_norm": 9.015058517456055,
      "learning_rate": 1.4629877867143282e-05,
      "loss": 0.6902,
      "num_input_tokens_seen": 2281280,
      "step": 3930
    },
    {
      "epoch": 0.5860887697348823,
      "grad_norm": 5.984078407287598,
      "learning_rate": 1.4648495680667262e-05,
      "loss": 0.6665,
      "num_input_tokens_seen": 2284288,
      "step": 3935
    },
    {
      "epoch": 0.5868334822758415,
      "grad_norm": 4.635435581207275,
      "learning_rate": 1.4667113494191242e-05,
      "loss": 0.6882,
      "num_input_tokens_seen": 2287264,
      "step": 3940
    },
    {
      "epoch": 0.5875781948168007,
      "grad_norm": 5.154947757720947,
      "learning_rate": 1.4685731307715222e-05,
      "loss": 0.8384,
      "num_input_tokens_seen": 2289984,
      "step": 3945
    },
    {
      "epoch": 0.5883229073577599,
      "grad_norm": 5.010037422180176,
      "learning_rate": 1.4704349121239202e-05,
      "loss": 0.6409,
      "num_input_tokens_seen": 2292928,
      "step": 3950
    },
    {
      "epoch": 0.5890676198987191,
      "grad_norm": 5.07703161239624,
      "learning_rate": 1.4722966934763183e-05,
      "loss": 0.7217,
      "num_input_tokens_seen": 2295840,
      "step": 3955
    },
    {
      "epoch": 0.5898123324396782,
      "grad_norm": 7.566318511962891,
      "learning_rate": 1.4741584748287163e-05,
      "loss": 0.7232,
      "num_input_tokens_seen": 2298720,
      "step": 3960
    },
    {
      "epoch": 0.5905570449806374,
      "grad_norm": 3.90073561668396,
      "learning_rate": 1.4760202561811143e-05,
      "loss": 0.7195,
      "num_input_tokens_seen": 2301888,
      "step": 3965
    },
    {
      "epoch": 0.5913017575215966,
      "grad_norm": 5.535182952880859,
      "learning_rate": 1.477882037533512e-05,
      "loss": 0.6428,
      "num_input_tokens_seen": 2304736,
      "step": 3970
    },
    {
      "epoch": 0.5920464700625558,
      "grad_norm": 3.447978973388672,
      "learning_rate": 1.47974381888591e-05,
      "loss": 0.6828,
      "num_input_tokens_seen": 2307648,
      "step": 3975
    },
    {
      "epoch": 0.592791182603515,
      "grad_norm": 7.868034362792969,
      "learning_rate": 1.481605600238308e-05,
      "loss": 0.6451,
      "num_input_tokens_seen": 2310496,
      "step": 3980
    },
    {
      "epoch": 0.5935358951444742,
      "grad_norm": 15.920616149902344,
      "learning_rate": 1.483467381590706e-05,
      "loss": 0.7906,
      "num_input_tokens_seen": 2313472,
      "step": 3985
    },
    {
      "epoch": 0.5942806076854334,
      "grad_norm": 6.136862754821777,
      "learning_rate": 1.485329162943104e-05,
      "loss": 0.6773,
      "num_input_tokens_seen": 2316128,
      "step": 3990
    },
    {
      "epoch": 0.5950253202263927,
      "grad_norm": 5.730544090270996,
      "learning_rate": 1.4871909442955021e-05,
      "loss": 0.5779,
      "num_input_tokens_seen": 2318912,
      "step": 3995
    },
    {
      "epoch": 0.5957700327673519,
      "grad_norm": 7.120886325836182,
      "learning_rate": 1.4890527256479001e-05,
      "loss": 0.6581,
      "num_input_tokens_seen": 2321600,
      "step": 4000
    },
    {
      "epoch": 0.596514745308311,
      "grad_norm": 6.194501876831055,
      "learning_rate": 1.4909145070002981e-05,
      "loss": 0.754,
      "num_input_tokens_seen": 2324544,
      "step": 4005
    },
    {
      "epoch": 0.5972594578492701,
      "grad_norm": 6.3861613273620605,
      "learning_rate": 1.4927762883526961e-05,
      "loss": 0.6372,
      "num_input_tokens_seen": 2327552,
      "step": 4010
    },
    {
      "epoch": 0.5980041703902294,
      "grad_norm": 8.863908767700195,
      "learning_rate": 1.4946380697050938e-05,
      "loss": 0.819,
      "num_input_tokens_seen": 2330560,
      "step": 4015
    },
    {
      "epoch": 0.5987488829311886,
      "grad_norm": 10.877945899963379,
      "learning_rate": 1.4964998510574917e-05,
      "loss": 0.7529,
      "num_input_tokens_seen": 2333664,
      "step": 4020
    },
    {
      "epoch": 0.5994935954721478,
      "grad_norm": 4.65805721282959,
      "learning_rate": 1.4983616324098897e-05,
      "loss": 0.6841,
      "num_input_tokens_seen": 2336576,
      "step": 4025
    },
    {
      "epoch": 0.600238308013107,
      "grad_norm": 4.30415153503418,
      "learning_rate": 1.5002234137622877e-05,
      "loss": 0.5812,
      "num_input_tokens_seen": 2339264,
      "step": 4030
    },
    {
      "epoch": 0.6009830205540662,
      "grad_norm": 6.5653862953186035,
      "learning_rate": 1.5020851951146859e-05,
      "loss": 0.8825,
      "num_input_tokens_seen": 2342272,
      "step": 4035
    },
    {
      "epoch": 0.6017277330950254,
      "grad_norm": 4.841387748718262,
      "learning_rate": 1.5039469764670839e-05,
      "loss": 0.7305,
      "num_input_tokens_seen": 2345344,
      "step": 4040
    },
    {
      "epoch": 0.6024724456359845,
      "grad_norm": 5.791164875030518,
      "learning_rate": 1.5058087578194819e-05,
      "loss": 0.6085,
      "num_input_tokens_seen": 2348256,
      "step": 4045
    },
    {
      "epoch": 0.6032171581769437,
      "grad_norm": 7.769582271575928,
      "learning_rate": 1.5076705391718799e-05,
      "loss": 0.6056,
      "num_input_tokens_seen": 2351296,
      "step": 4050
    },
    {
      "epoch": 0.6039618707179029,
      "grad_norm": 6.494863510131836,
      "learning_rate": 1.5095323205242775e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 2353984,
      "step": 4055
    },
    {
      "epoch": 0.6047065832588621,
      "grad_norm": 8.614834785461426,
      "learning_rate": 1.5113941018766755e-05,
      "loss": 0.6311,
      "num_input_tokens_seen": 2356832,
      "step": 4060
    },
    {
      "epoch": 0.6054512957998213,
      "grad_norm": 3.9931118488311768,
      "learning_rate": 1.5132558832290735e-05,
      "loss": 0.7026,
      "num_input_tokens_seen": 2360160,
      "step": 4065
    },
    {
      "epoch": 0.6061960083407805,
      "grad_norm": 4.140937805175781,
      "learning_rate": 1.5151176645814715e-05,
      "loss": 0.7892,
      "num_input_tokens_seen": 2363104,
      "step": 4070
    },
    {
      "epoch": 0.6069407208817397,
      "grad_norm": 11.54456615447998,
      "learning_rate": 1.5169794459338697e-05,
      "loss": 0.7564,
      "num_input_tokens_seen": 2365984,
      "step": 4075
    },
    {
      "epoch": 0.6076854334226989,
      "grad_norm": 6.144469261169434,
      "learning_rate": 1.5188412272862677e-05,
      "loss": 0.8099,
      "num_input_tokens_seen": 2368832,
      "step": 4080
    },
    {
      "epoch": 0.6084301459636581,
      "grad_norm": 6.56599760055542,
      "learning_rate": 1.5207030086386656e-05,
      "loss": 0.6618,
      "num_input_tokens_seen": 2371584,
      "step": 4085
    },
    {
      "epoch": 0.6091748585046172,
      "grad_norm": 7.155376434326172,
      "learning_rate": 1.5225647899910636e-05,
      "loss": 0.6757,
      "num_input_tokens_seen": 2374432,
      "step": 4090
    },
    {
      "epoch": 0.6099195710455764,
      "grad_norm": 4.271437168121338,
      "learning_rate": 1.5244265713434616e-05,
      "loss": 0.6399,
      "num_input_tokens_seen": 2377344,
      "step": 4095
    },
    {
      "epoch": 0.6106642835865356,
      "grad_norm": 6.908851623535156,
      "learning_rate": 1.5262883526958593e-05,
      "loss": 0.6432,
      "num_input_tokens_seen": 2380000,
      "step": 4100
    },
    {
      "epoch": 0.6114089961274948,
      "grad_norm": 4.25631046295166,
      "learning_rate": 1.5281501340482574e-05,
      "loss": 0.7686,
      "num_input_tokens_seen": 2382624,
      "step": 4105
    },
    {
      "epoch": 0.612153708668454,
      "grad_norm": 5.044246196746826,
      "learning_rate": 1.5300119154006553e-05,
      "loss": 0.5969,
      "num_input_tokens_seen": 2385600,
      "step": 4110
    },
    {
      "epoch": 0.6128984212094132,
      "grad_norm": 6.503820896148682,
      "learning_rate": 1.5318736967530534e-05,
      "loss": 0.5682,
      "num_input_tokens_seen": 2388704,
      "step": 4115
    },
    {
      "epoch": 0.6136431337503724,
      "grad_norm": 12.519503593444824,
      "learning_rate": 1.5337354781054513e-05,
      "loss": 0.8048,
      "num_input_tokens_seen": 2391808,
      "step": 4120
    },
    {
      "epoch": 0.6143878462913316,
      "grad_norm": 8.744133949279785,
      "learning_rate": 1.5355972594578494e-05,
      "loss": 0.7979,
      "num_input_tokens_seen": 2394816,
      "step": 4125
    },
    {
      "epoch": 0.6151325588322908,
      "grad_norm": 6.315321445465088,
      "learning_rate": 1.5374590408102472e-05,
      "loss": 0.7302,
      "num_input_tokens_seen": 2397664,
      "step": 4130
    },
    {
      "epoch": 0.6158772713732499,
      "grad_norm": 5.721065998077393,
      "learning_rate": 1.5393208221626454e-05,
      "loss": 0.5831,
      "num_input_tokens_seen": 2400544,
      "step": 4135
    },
    {
      "epoch": 0.6166219839142091,
      "grad_norm": 10.70261001586914,
      "learning_rate": 1.5411826035150436e-05,
      "loss": 0.6343,
      "num_input_tokens_seen": 2403168,
      "step": 4140
    },
    {
      "epoch": 0.6173666964551683,
      "grad_norm": 7.3115925788879395,
      "learning_rate": 1.543044384867441e-05,
      "loss": 0.7012,
      "num_input_tokens_seen": 2406304,
      "step": 4145
    },
    {
      "epoch": 0.6181114089961275,
      "grad_norm": 6.65192985534668,
      "learning_rate": 1.5449061662198392e-05,
      "loss": 0.776,
      "num_input_tokens_seen": 2409184,
      "step": 4150
    },
    {
      "epoch": 0.6188561215370867,
      "grad_norm": 7.434889793395996,
      "learning_rate": 1.546767947572237e-05,
      "loss": 0.7201,
      "num_input_tokens_seen": 2412064,
      "step": 4155
    },
    {
      "epoch": 0.6196008340780459,
      "grad_norm": 13.52412223815918,
      "learning_rate": 1.5486297289246352e-05,
      "loss": 0.7277,
      "num_input_tokens_seen": 2415008,
      "step": 4160
    },
    {
      "epoch": 0.6203455466190051,
      "grad_norm": 5.934350967407227,
      "learning_rate": 1.550491510277033e-05,
      "loss": 0.7618,
      "num_input_tokens_seen": 2417824,
      "step": 4165
    },
    {
      "epoch": 0.6210902591599643,
      "grad_norm": 4.258034706115723,
      "learning_rate": 1.5523532916294312e-05,
      "loss": 0.6,
      "num_input_tokens_seen": 2420736,
      "step": 4170
    },
    {
      "epoch": 0.6218349717009234,
      "grad_norm": 4.8544816970825195,
      "learning_rate": 1.554215072981829e-05,
      "loss": 0.774,
      "num_input_tokens_seen": 2423616,
      "step": 4175
    },
    {
      "epoch": 0.6225796842418826,
      "grad_norm": 8.486263275146484,
      "learning_rate": 1.5560768543342272e-05,
      "loss": 0.5943,
      "num_input_tokens_seen": 2426528,
      "step": 4180
    },
    {
      "epoch": 0.6233243967828418,
      "grad_norm": 6.551331520080566,
      "learning_rate": 1.557938635686625e-05,
      "loss": 0.7518,
      "num_input_tokens_seen": 2429472,
      "step": 4185
    },
    {
      "epoch": 0.624069109323801,
      "grad_norm": 5.9395222663879395,
      "learning_rate": 1.5598004170390228e-05,
      "loss": 0.593,
      "num_input_tokens_seen": 2432416,
      "step": 4190
    },
    {
      "epoch": 0.6248138218647602,
      "grad_norm": 7.986079216003418,
      "learning_rate": 1.561662198391421e-05,
      "loss": 0.6403,
      "num_input_tokens_seen": 2435648,
      "step": 4195
    },
    {
      "epoch": 0.6255585344057194,
      "grad_norm": 7.749395847320557,
      "learning_rate": 1.5635239797438188e-05,
      "loss": 0.7445,
      "num_input_tokens_seen": 2438368,
      "step": 4200
    },
    {
      "epoch": 0.6263032469466786,
      "grad_norm": 13.7421236038208,
      "learning_rate": 1.565385761096217e-05,
      "loss": 0.963,
      "num_input_tokens_seen": 2440960,
      "step": 4205
    },
    {
      "epoch": 0.6270479594876378,
      "grad_norm": 5.328336238861084,
      "learning_rate": 1.5672475424486148e-05,
      "loss": 0.5104,
      "num_input_tokens_seen": 2444000,
      "step": 4210
    },
    {
      "epoch": 0.627792672028597,
      "grad_norm": 5.898955345153809,
      "learning_rate": 1.569109323801013e-05,
      "loss": 0.6365,
      "num_input_tokens_seen": 2446560,
      "step": 4215
    },
    {
      "epoch": 0.6285373845695561,
      "grad_norm": 6.94579553604126,
      "learning_rate": 1.570971105153411e-05,
      "loss": 0.6863,
      "num_input_tokens_seen": 2449472,
      "step": 4220
    },
    {
      "epoch": 0.6292820971105153,
      "grad_norm": 7.584651947021484,
      "learning_rate": 1.572832886505809e-05,
      "loss": 0.672,
      "num_input_tokens_seen": 2452128,
      "step": 4225
    },
    {
      "epoch": 0.6300268096514745,
      "grad_norm": 8.910298347473145,
      "learning_rate": 1.5746946678582068e-05,
      "loss": 0.8743,
      "num_input_tokens_seen": 2454976,
      "step": 4230
    },
    {
      "epoch": 0.6307715221924337,
      "grad_norm": 7.789447784423828,
      "learning_rate": 1.5765564492106046e-05,
      "loss": 0.6878,
      "num_input_tokens_seen": 2457984,
      "step": 4235
    },
    {
      "epoch": 0.6315162347333929,
      "grad_norm": 8.152961730957031,
      "learning_rate": 1.5784182305630027e-05,
      "loss": 0.7326,
      "num_input_tokens_seen": 2460672,
      "step": 4240
    },
    {
      "epoch": 0.6322609472743521,
      "grad_norm": 4.631074905395508,
      "learning_rate": 1.5802800119154006e-05,
      "loss": 0.7378,
      "num_input_tokens_seen": 2463776,
      "step": 4245
    },
    {
      "epoch": 0.6330056598153113,
      "grad_norm": 6.054637908935547,
      "learning_rate": 1.5821417932677987e-05,
      "loss": 0.6539,
      "num_input_tokens_seen": 2466528,
      "step": 4250
    },
    {
      "epoch": 0.6337503723562705,
      "grad_norm": 7.171510696411133,
      "learning_rate": 1.5840035746201966e-05,
      "loss": 0.692,
      "num_input_tokens_seen": 2469568,
      "step": 4255
    },
    {
      "epoch": 0.6344950848972297,
      "grad_norm": 4.66006326675415,
      "learning_rate": 1.5858653559725947e-05,
      "loss": 0.6492,
      "num_input_tokens_seen": 2472352,
      "step": 4260
    },
    {
      "epoch": 0.6352397974381888,
      "grad_norm": 4.44383430480957,
      "learning_rate": 1.587727137324993e-05,
      "loss": 0.7537,
      "num_input_tokens_seen": 2475392,
      "step": 4265
    },
    {
      "epoch": 0.635984509979148,
      "grad_norm": 7.917145729064941,
      "learning_rate": 1.5895889186773907e-05,
      "loss": 0.7197,
      "num_input_tokens_seen": 2478176,
      "step": 4270
    },
    {
      "epoch": 0.6367292225201072,
      "grad_norm": 5.764894008636475,
      "learning_rate": 1.5914507000297885e-05,
      "loss": 0.7409,
      "num_input_tokens_seen": 2480928,
      "step": 4275
    },
    {
      "epoch": 0.6374739350610664,
      "grad_norm": 4.819157600402832,
      "learning_rate": 1.5933124813821863e-05,
      "loss": 0.7029,
      "num_input_tokens_seen": 2483776,
      "step": 4280
    },
    {
      "epoch": 0.6382186476020256,
      "grad_norm": 3.964658737182617,
      "learning_rate": 1.5951742627345845e-05,
      "loss": 0.7046,
      "num_input_tokens_seen": 2486816,
      "step": 4285
    },
    {
      "epoch": 0.6389633601429848,
      "grad_norm": 13.499406814575195,
      "learning_rate": 1.5970360440869823e-05,
      "loss": 0.597,
      "num_input_tokens_seen": 2489728,
      "step": 4290
    },
    {
      "epoch": 0.639708072683944,
      "grad_norm": 6.4562458992004395,
      "learning_rate": 1.5988978254393805e-05,
      "loss": 0.7363,
      "num_input_tokens_seen": 2492608,
      "step": 4295
    },
    {
      "epoch": 0.6404527852249032,
      "grad_norm": 4.122045516967773,
      "learning_rate": 1.6007596067917787e-05,
      "loss": 0.6104,
      "num_input_tokens_seen": 2495424,
      "step": 4300
    },
    {
      "epoch": 0.6411974977658623,
      "grad_norm": 5.517239570617676,
      "learning_rate": 1.6026213881441765e-05,
      "loss": 0.6739,
      "num_input_tokens_seen": 2498400,
      "step": 4305
    },
    {
      "epoch": 0.6419422103068215,
      "grad_norm": 5.444950103759766,
      "learning_rate": 1.6044831694965746e-05,
      "loss": 0.5089,
      "num_input_tokens_seen": 2501536,
      "step": 4310
    },
    {
      "epoch": 0.6426869228477807,
      "grad_norm": 6.8218913078308105,
      "learning_rate": 1.606344950848972e-05,
      "loss": 0.687,
      "num_input_tokens_seen": 2504192,
      "step": 4315
    },
    {
      "epoch": 0.6434316353887399,
      "grad_norm": 7.940580368041992,
      "learning_rate": 1.6082067322013703e-05,
      "loss": 0.7981,
      "num_input_tokens_seen": 2507296,
      "step": 4320
    },
    {
      "epoch": 0.6441763479296991,
      "grad_norm": 4.316683292388916,
      "learning_rate": 1.610068513553768e-05,
      "loss": 0.6853,
      "num_input_tokens_seen": 2510080,
      "step": 4325
    },
    {
      "epoch": 0.6449210604706583,
      "grad_norm": 5.851539134979248,
      "learning_rate": 1.6119302949061663e-05,
      "loss": 0.664,
      "num_input_tokens_seen": 2512992,
      "step": 4330
    },
    {
      "epoch": 0.6456657730116175,
      "grad_norm": 7.136076927185059,
      "learning_rate": 1.6137920762585644e-05,
      "loss": 0.656,
      "num_input_tokens_seen": 2515936,
      "step": 4335
    },
    {
      "epoch": 0.6464104855525767,
      "grad_norm": 11.297274589538574,
      "learning_rate": 1.6156538576109623e-05,
      "loss": 0.7033,
      "num_input_tokens_seen": 2518720,
      "step": 4340
    },
    {
      "epoch": 0.6471551980935359,
      "grad_norm": 3.649686813354492,
      "learning_rate": 1.6175156389633604e-05,
      "loss": 0.6643,
      "num_input_tokens_seen": 2521568,
      "step": 4345
    },
    {
      "epoch": 0.647899910634495,
      "grad_norm": 10.618607521057129,
      "learning_rate": 1.6193774203157582e-05,
      "loss": 0.6388,
      "num_input_tokens_seen": 2524832,
      "step": 4350
    },
    {
      "epoch": 0.6486446231754542,
      "grad_norm": 5.474946022033691,
      "learning_rate": 1.6212392016681564e-05,
      "loss": 0.7186,
      "num_input_tokens_seen": 2527616,
      "step": 4355
    },
    {
      "epoch": 0.6493893357164134,
      "grad_norm": 7.168712615966797,
      "learning_rate": 1.623100983020554e-05,
      "loss": 0.6383,
      "num_input_tokens_seen": 2530368,
      "step": 4360
    },
    {
      "epoch": 0.6501340482573726,
      "grad_norm": 6.153950214385986,
      "learning_rate": 1.624962764372952e-05,
      "loss": 0.6082,
      "num_input_tokens_seen": 2533088,
      "step": 4365
    },
    {
      "epoch": 0.6508787607983318,
      "grad_norm": 6.268706798553467,
      "learning_rate": 1.62682454572535e-05,
      "loss": 0.8143,
      "num_input_tokens_seen": 2536064,
      "step": 4370
    },
    {
      "epoch": 0.651623473339291,
      "grad_norm": 5.935575008392334,
      "learning_rate": 1.628686327077748e-05,
      "loss": 0.7567,
      "num_input_tokens_seen": 2539488,
      "step": 4375
    },
    {
      "epoch": 0.6523681858802503,
      "grad_norm": 4.133208751678467,
      "learning_rate": 1.6305481084301462e-05,
      "loss": 0.746,
      "num_input_tokens_seen": 2542592,
      "step": 4380
    },
    {
      "epoch": 0.6531128984212095,
      "grad_norm": 6.513917922973633,
      "learning_rate": 1.632409889782544e-05,
      "loss": 0.6907,
      "num_input_tokens_seen": 2545248,
      "step": 4385
    },
    {
      "epoch": 0.6538576109621687,
      "grad_norm": 4.1674628257751465,
      "learning_rate": 1.6342716711349422e-05,
      "loss": 0.7508,
      "num_input_tokens_seen": 2548384,
      "step": 4390
    },
    {
      "epoch": 0.6546023235031277,
      "grad_norm": 6.635874271392822,
      "learning_rate": 1.63613345248734e-05,
      "loss": 0.7028,
      "num_input_tokens_seen": 2551456,
      "step": 4395
    },
    {
      "epoch": 0.655347036044087,
      "grad_norm": 5.0585856437683105,
      "learning_rate": 1.637995233839738e-05,
      "loss": 0.6965,
      "num_input_tokens_seen": 2554368,
      "step": 4400
    },
    {
      "epoch": 0.6560917485850462,
      "grad_norm": 3.9964609146118164,
      "learning_rate": 1.6398570151921357e-05,
      "loss": 0.6822,
      "num_input_tokens_seen": 2557088,
      "step": 4405
    },
    {
      "epoch": 0.6568364611260054,
      "grad_norm": 6.10606050491333,
      "learning_rate": 1.6417187965445338e-05,
      "loss": 0.5429,
      "num_input_tokens_seen": 2560288,
      "step": 4410
    },
    {
      "epoch": 0.6575811736669646,
      "grad_norm": 8.336732864379883,
      "learning_rate": 1.643580577896932e-05,
      "loss": 0.708,
      "num_input_tokens_seen": 2563360,
      "step": 4415
    },
    {
      "epoch": 0.6583258862079238,
      "grad_norm": 6.237969875335693,
      "learning_rate": 1.6454423592493298e-05,
      "loss": 0.7079,
      "num_input_tokens_seen": 2566624,
      "step": 4420
    },
    {
      "epoch": 0.659070598748883,
      "grad_norm": 8.937455177307129,
      "learning_rate": 1.647304140601728e-05,
      "loss": 0.6594,
      "num_input_tokens_seen": 2569152,
      "step": 4425
    },
    {
      "epoch": 0.6598153112898422,
      "grad_norm": 5.429337501525879,
      "learning_rate": 1.6491659219541258e-05,
      "loss": 0.6541,
      "num_input_tokens_seen": 2572096,
      "step": 4430
    },
    {
      "epoch": 0.6605600238308013,
      "grad_norm": 7.845927715301514,
      "learning_rate": 1.651027703306524e-05,
      "loss": 0.6537,
      "num_input_tokens_seen": 2575168,
      "step": 4435
    },
    {
      "epoch": 0.6613047363717605,
      "grad_norm": 11.177647590637207,
      "learning_rate": 1.6528894846589218e-05,
      "loss": 0.7133,
      "num_input_tokens_seen": 2578048,
      "step": 4440
    },
    {
      "epoch": 0.6620494489127197,
      "grad_norm": 10.319975852966309,
      "learning_rate": 1.6547512660113196e-05,
      "loss": 0.7127,
      "num_input_tokens_seen": 2581056,
      "step": 4445
    },
    {
      "epoch": 0.6627941614536789,
      "grad_norm": 4.973555564880371,
      "learning_rate": 1.6566130473637174e-05,
      "loss": 0.537,
      "num_input_tokens_seen": 2584096,
      "step": 4450
    },
    {
      "epoch": 0.6635388739946381,
      "grad_norm": 3.5705783367156982,
      "learning_rate": 1.6584748287161156e-05,
      "loss": 0.6476,
      "num_input_tokens_seen": 2587040,
      "step": 4455
    },
    {
      "epoch": 0.6642835865355973,
      "grad_norm": 3.469268798828125,
      "learning_rate": 1.6603366100685137e-05,
      "loss": 0.5708,
      "num_input_tokens_seen": 2589728,
      "step": 4460
    },
    {
      "epoch": 0.6650282990765565,
      "grad_norm": 5.060844421386719,
      "learning_rate": 1.6621983914209116e-05,
      "loss": 0.6038,
      "num_input_tokens_seen": 2592768,
      "step": 4465
    },
    {
      "epoch": 0.6657730116175157,
      "grad_norm": 4.412303447723389,
      "learning_rate": 1.6640601727733097e-05,
      "loss": 0.8229,
      "num_input_tokens_seen": 2595552,
      "step": 4470
    },
    {
      "epoch": 0.6665177241584749,
      "grad_norm": 6.591970443725586,
      "learning_rate": 1.6659219541257075e-05,
      "loss": 0.6773,
      "num_input_tokens_seen": 2598304,
      "step": 4475
    },
    {
      "epoch": 0.667262436699434,
      "grad_norm": 7.074986457824707,
      "learning_rate": 1.6677837354781057e-05,
      "loss": 0.6853,
      "num_input_tokens_seen": 2601024,
      "step": 4480
    },
    {
      "epoch": 0.6680071492403932,
      "grad_norm": 4.27098274230957,
      "learning_rate": 1.6696455168305035e-05,
      "loss": 0.6088,
      "num_input_tokens_seen": 2603840,
      "step": 4485
    },
    {
      "epoch": 0.6687518617813524,
      "grad_norm": 8.874725341796875,
      "learning_rate": 1.6715072981829014e-05,
      "loss": 0.5788,
      "num_input_tokens_seen": 2606784,
      "step": 4490
    },
    {
      "epoch": 0.6694965743223116,
      "grad_norm": 5.698943138122559,
      "learning_rate": 1.6733690795352995e-05,
      "loss": 0.6462,
      "num_input_tokens_seen": 2609728,
      "step": 4495
    },
    {
      "epoch": 0.6702412868632708,
      "grad_norm": 5.960353851318359,
      "learning_rate": 1.6752308608876973e-05,
      "loss": 0.6889,
      "num_input_tokens_seen": 2612576,
      "step": 4500
    },
    {
      "epoch": 0.67098599940423,
      "grad_norm": 7.04441499710083,
      "learning_rate": 1.6770926422400955e-05,
      "loss": 0.5145,
      "num_input_tokens_seen": 2615392,
      "step": 4505
    },
    {
      "epoch": 0.6717307119451892,
      "grad_norm": 8.967514038085938,
      "learning_rate": 1.6789544235924933e-05,
      "loss": 0.6247,
      "num_input_tokens_seen": 2618624,
      "step": 4510
    },
    {
      "epoch": 0.6724754244861484,
      "grad_norm": 12.108433723449707,
      "learning_rate": 1.6808162049448915e-05,
      "loss": 0.6651,
      "num_input_tokens_seen": 2621344,
      "step": 4515
    },
    {
      "epoch": 0.6732201370271076,
      "grad_norm": 11.1613130569458,
      "learning_rate": 1.6826779862972893e-05,
      "loss": 0.832,
      "num_input_tokens_seen": 2624192,
      "step": 4520
    },
    {
      "epoch": 0.6739648495680667,
      "grad_norm": 7.378701210021973,
      "learning_rate": 1.6845397676496875e-05,
      "loss": 0.6494,
      "num_input_tokens_seen": 2626880,
      "step": 4525
    },
    {
      "epoch": 0.6747095621090259,
      "grad_norm": 5.807371616363525,
      "learning_rate": 1.6864015490020853e-05,
      "loss": 0.7391,
      "num_input_tokens_seen": 2629760,
      "step": 4530
    },
    {
      "epoch": 0.6754542746499851,
      "grad_norm": 4.952947616577148,
      "learning_rate": 1.688263330354483e-05,
      "loss": 0.6873,
      "num_input_tokens_seen": 2632800,
      "step": 4535
    },
    {
      "epoch": 0.6761989871909443,
      "grad_norm": 8.225885391235352,
      "learning_rate": 1.6901251117068813e-05,
      "loss": 0.7775,
      "num_input_tokens_seen": 2635776,
      "step": 4540
    },
    {
      "epoch": 0.6769436997319035,
      "grad_norm": 4.4819722175598145,
      "learning_rate": 1.691986893059279e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 2638528,
      "step": 4545
    },
    {
      "epoch": 0.6776884122728627,
      "grad_norm": 6.490544319152832,
      "learning_rate": 1.6938486744116773e-05,
      "loss": 0.705,
      "num_input_tokens_seen": 2641184,
      "step": 4550
    },
    {
      "epoch": 0.6784331248138219,
      "grad_norm": 4.664347171783447,
      "learning_rate": 1.695710455764075e-05,
      "loss": 0.9213,
      "num_input_tokens_seen": 2644000,
      "step": 4555
    },
    {
      "epoch": 0.6791778373547811,
      "grad_norm": 5.081521034240723,
      "learning_rate": 1.6975722371164733e-05,
      "loss": 0.6515,
      "num_input_tokens_seen": 2646880,
      "step": 4560
    },
    {
      "epoch": 0.6799225498957402,
      "grad_norm": 7.383722305297852,
      "learning_rate": 1.699434018468871e-05,
      "loss": 0.65,
      "num_input_tokens_seen": 2649792,
      "step": 4565
    },
    {
      "epoch": 0.6806672624366994,
      "grad_norm": 5.147446632385254,
      "learning_rate": 1.7012957998212692e-05,
      "loss": 0.7042,
      "num_input_tokens_seen": 2652832,
      "step": 4570
    },
    {
      "epoch": 0.6814119749776586,
      "grad_norm": 4.411169528961182,
      "learning_rate": 1.703157581173667e-05,
      "loss": 0.8637,
      "num_input_tokens_seen": 2655744,
      "step": 4575
    },
    {
      "epoch": 0.6821566875186178,
      "grad_norm": 4.996450424194336,
      "learning_rate": 1.705019362526065e-05,
      "loss": 0.591,
      "num_input_tokens_seen": 2658464,
      "step": 4580
    },
    {
      "epoch": 0.682901400059577,
      "grad_norm": 4.2066473960876465,
      "learning_rate": 1.706881143878463e-05,
      "loss": 0.6582,
      "num_input_tokens_seen": 2661376,
      "step": 4585
    },
    {
      "epoch": 0.6836461126005362,
      "grad_norm": 7.000576496124268,
      "learning_rate": 1.708742925230861e-05,
      "loss": 0.5889,
      "num_input_tokens_seen": 2664160,
      "step": 4590
    },
    {
      "epoch": 0.6843908251414954,
      "grad_norm": 8.288961410522461,
      "learning_rate": 1.710604706583259e-05,
      "loss": 0.7516,
      "num_input_tokens_seen": 2666912,
      "step": 4595
    },
    {
      "epoch": 0.6851355376824546,
      "grad_norm": 6.943704605102539,
      "learning_rate": 1.712466487935657e-05,
      "loss": 0.7484,
      "num_input_tokens_seen": 2670048,
      "step": 4600
    },
    {
      "epoch": 0.6858802502234138,
      "grad_norm": 3.8656678199768066,
      "learning_rate": 1.714328269288055e-05,
      "loss": 0.6809,
      "num_input_tokens_seen": 2672896,
      "step": 4605
    },
    {
      "epoch": 0.6866249627643729,
      "grad_norm": 4.352456569671631,
      "learning_rate": 1.716190050640453e-05,
      "loss": 0.7103,
      "num_input_tokens_seen": 2675776,
      "step": 4610
    },
    {
      "epoch": 0.6873696753053321,
      "grad_norm": 6.620601654052734,
      "learning_rate": 1.718051831992851e-05,
      "loss": 0.8319,
      "num_input_tokens_seen": 2678784,
      "step": 4615
    },
    {
      "epoch": 0.6881143878462913,
      "grad_norm": 4.456281661987305,
      "learning_rate": 1.7199136133452488e-05,
      "loss": 0.7307,
      "num_input_tokens_seen": 2681472,
      "step": 4620
    },
    {
      "epoch": 0.6888591003872505,
      "grad_norm": 4.121007919311523,
      "learning_rate": 1.7217753946976467e-05,
      "loss": 0.7124,
      "num_input_tokens_seen": 2684192,
      "step": 4625
    },
    {
      "epoch": 0.6896038129282097,
      "grad_norm": 5.690526962280273,
      "learning_rate": 1.7236371760500448e-05,
      "loss": 0.6689,
      "num_input_tokens_seen": 2687232,
      "step": 4630
    },
    {
      "epoch": 0.6903485254691689,
      "grad_norm": 5.572033882141113,
      "learning_rate": 1.7254989574024426e-05,
      "loss": 0.6482,
      "num_input_tokens_seen": 2690144,
      "step": 4635
    },
    {
      "epoch": 0.6910932380101281,
      "grad_norm": 5.522299766540527,
      "learning_rate": 1.7273607387548408e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 2693120,
      "step": 4640
    },
    {
      "epoch": 0.6918379505510873,
      "grad_norm": 5.968081951141357,
      "learning_rate": 1.7292225201072386e-05,
      "loss": 0.8017,
      "num_input_tokens_seen": 2696128,
      "step": 4645
    },
    {
      "epoch": 0.6925826630920465,
      "grad_norm": 12.386086463928223,
      "learning_rate": 1.7310843014596368e-05,
      "loss": 0.7103,
      "num_input_tokens_seen": 2698848,
      "step": 4650
    },
    {
      "epoch": 0.6933273756330056,
      "grad_norm": 7.920092582702637,
      "learning_rate": 1.7329460828120346e-05,
      "loss": 0.7271,
      "num_input_tokens_seen": 2701920,
      "step": 4655
    },
    {
      "epoch": 0.6940720881739648,
      "grad_norm": 7.6632161140441895,
      "learning_rate": 1.7348078641644328e-05,
      "loss": 0.6484,
      "num_input_tokens_seen": 2704960,
      "step": 4660
    },
    {
      "epoch": 0.694816800714924,
      "grad_norm": 7.09566593170166,
      "learning_rate": 1.7366696455168306e-05,
      "loss": 0.6735,
      "num_input_tokens_seen": 2707648,
      "step": 4665
    },
    {
      "epoch": 0.6955615132558832,
      "grad_norm": 4.737821102142334,
      "learning_rate": 1.7385314268692284e-05,
      "loss": 0.6833,
      "num_input_tokens_seen": 2710784,
      "step": 4670
    },
    {
      "epoch": 0.6963062257968424,
      "grad_norm": 6.402677536010742,
      "learning_rate": 1.7403932082216266e-05,
      "loss": 0.7048,
      "num_input_tokens_seen": 2713792,
      "step": 4675
    },
    {
      "epoch": 0.6970509383378016,
      "grad_norm": 7.620285987854004,
      "learning_rate": 1.7422549895740244e-05,
      "loss": 0.769,
      "num_input_tokens_seen": 2716704,
      "step": 4680
    },
    {
      "epoch": 0.6977956508787608,
      "grad_norm": 3.550445795059204,
      "learning_rate": 1.7441167709264226e-05,
      "loss": 0.531,
      "num_input_tokens_seen": 2719616,
      "step": 4685
    },
    {
      "epoch": 0.69854036341972,
      "grad_norm": 4.874407768249512,
      "learning_rate": 1.7459785522788204e-05,
      "loss": 0.6994,
      "num_input_tokens_seen": 2722400,
      "step": 4690
    },
    {
      "epoch": 0.6992850759606791,
      "grad_norm": 3.917694568634033,
      "learning_rate": 1.7478403336312185e-05,
      "loss": 0.6855,
      "num_input_tokens_seen": 2725184,
      "step": 4695
    },
    {
      "epoch": 0.7000297885016383,
      "grad_norm": 4.463906288146973,
      "learning_rate": 1.7497021149836164e-05,
      "loss": 0.7036,
      "num_input_tokens_seen": 2728416,
      "step": 4700
    },
    {
      "epoch": 0.7007745010425975,
      "grad_norm": 4.914244174957275,
      "learning_rate": 1.7515638963360142e-05,
      "loss": 0.6728,
      "num_input_tokens_seen": 2731616,
      "step": 4705
    },
    {
      "epoch": 0.7015192135835567,
      "grad_norm": 9.608899116516113,
      "learning_rate": 1.7534256776884124e-05,
      "loss": 0.5846,
      "num_input_tokens_seen": 2734752,
      "step": 4710
    },
    {
      "epoch": 0.7022639261245159,
      "grad_norm": 18.4816837310791,
      "learning_rate": 1.7552874590408102e-05,
      "loss": 0.613,
      "num_input_tokens_seen": 2737568,
      "step": 4715
    },
    {
      "epoch": 0.7030086386654751,
      "grad_norm": 6.275391101837158,
      "learning_rate": 1.7571492403932083e-05,
      "loss": 0.6956,
      "num_input_tokens_seen": 2740608,
      "step": 4720
    },
    {
      "epoch": 0.7037533512064343,
      "grad_norm": 4.19154691696167,
      "learning_rate": 1.759011021745606e-05,
      "loss": 0.6671,
      "num_input_tokens_seen": 2743360,
      "step": 4725
    },
    {
      "epoch": 0.7044980637473935,
      "grad_norm": 3.535217046737671,
      "learning_rate": 1.7608728030980043e-05,
      "loss": 0.7193,
      "num_input_tokens_seen": 2746080,
      "step": 4730
    },
    {
      "epoch": 0.7052427762883527,
      "grad_norm": 10.095677375793457,
      "learning_rate": 1.762734584450402e-05,
      "loss": 0.6517,
      "num_input_tokens_seen": 2749152,
      "step": 4735
    },
    {
      "epoch": 0.7059874888293118,
      "grad_norm": 5.913435935974121,
      "learning_rate": 1.7645963658028003e-05,
      "loss": 0.6608,
      "num_input_tokens_seen": 2751904,
      "step": 4740
    },
    {
      "epoch": 0.706732201370271,
      "grad_norm": 6.423817157745361,
      "learning_rate": 1.7664581471551985e-05,
      "loss": 0.7689,
      "num_input_tokens_seen": 2755136,
      "step": 4745
    },
    {
      "epoch": 0.7074769139112302,
      "grad_norm": 8.288962364196777,
      "learning_rate": 1.768319928507596e-05,
      "loss": 0.6808,
      "num_input_tokens_seen": 2758656,
      "step": 4750
    },
    {
      "epoch": 0.7082216264521894,
      "grad_norm": 5.878915786743164,
      "learning_rate": 1.770181709859994e-05,
      "loss": 0.6817,
      "num_input_tokens_seen": 2761568,
      "step": 4755
    },
    {
      "epoch": 0.7089663389931486,
      "grad_norm": 6.053255558013916,
      "learning_rate": 1.772043491212392e-05,
      "loss": 0.6262,
      "num_input_tokens_seen": 2764736,
      "step": 4760
    },
    {
      "epoch": 0.7097110515341079,
      "grad_norm": 8.29864501953125,
      "learning_rate": 1.77390527256479e-05,
      "loss": 0.6677,
      "num_input_tokens_seen": 2767552,
      "step": 4765
    },
    {
      "epoch": 0.710455764075067,
      "grad_norm": 5.008987903594971,
      "learning_rate": 1.775767053917188e-05,
      "loss": 0.7583,
      "num_input_tokens_seen": 2770432,
      "step": 4770
    },
    {
      "epoch": 0.7112004766160263,
      "grad_norm": 9.878438949584961,
      "learning_rate": 1.777628835269586e-05,
      "loss": 0.6395,
      "num_input_tokens_seen": 2773312,
      "step": 4775
    },
    {
      "epoch": 0.7119451891569855,
      "grad_norm": 5.030614376068115,
      "learning_rate": 1.779490616621984e-05,
      "loss": 0.5967,
      "num_input_tokens_seen": 2776416,
      "step": 4780
    },
    {
      "epoch": 0.7126899016979446,
      "grad_norm": 14.129606246948242,
      "learning_rate": 1.781352397974382e-05,
      "loss": 0.7679,
      "num_input_tokens_seen": 2779264,
      "step": 4785
    },
    {
      "epoch": 0.7134346142389038,
      "grad_norm": 6.728447437286377,
      "learning_rate": 1.78321417932678e-05,
      "loss": 0.5389,
      "num_input_tokens_seen": 2782016,
      "step": 4790
    },
    {
      "epoch": 0.714179326779863,
      "grad_norm": 6.532357692718506,
      "learning_rate": 1.7850759606791777e-05,
      "loss": 0.6665,
      "num_input_tokens_seen": 2784992,
      "step": 4795
    },
    {
      "epoch": 0.7149240393208222,
      "grad_norm": 7.872901439666748,
      "learning_rate": 1.786937742031576e-05,
      "loss": 0.6462,
      "num_input_tokens_seen": 2787840,
      "step": 4800
    },
    {
      "epoch": 0.7156687518617814,
      "grad_norm": 6.8748908042907715,
      "learning_rate": 1.7887995233839737e-05,
      "loss": 0.7825,
      "num_input_tokens_seen": 2790400,
      "step": 4805
    },
    {
      "epoch": 0.7164134644027406,
      "grad_norm": 7.024714946746826,
      "learning_rate": 1.790661304736372e-05,
      "loss": 0.5661,
      "num_input_tokens_seen": 2793440,
      "step": 4810
    },
    {
      "epoch": 0.7171581769436998,
      "grad_norm": 11.817014694213867,
      "learning_rate": 1.7925230860887697e-05,
      "loss": 0.783,
      "num_input_tokens_seen": 2796416,
      "step": 4815
    },
    {
      "epoch": 0.717902889484659,
      "grad_norm": 11.604424476623535,
      "learning_rate": 1.794384867441168e-05,
      "loss": 0.5951,
      "num_input_tokens_seen": 2799200,
      "step": 4820
    },
    {
      "epoch": 0.7186476020256181,
      "grad_norm": 4.926516532897949,
      "learning_rate": 1.796246648793566e-05,
      "loss": 0.5376,
      "num_input_tokens_seen": 2802048,
      "step": 4825
    },
    {
      "epoch": 0.7193923145665773,
      "grad_norm": 6.100372314453125,
      "learning_rate": 1.798108430145964e-05,
      "loss": 0.6711,
      "num_input_tokens_seen": 2804800,
      "step": 4830
    },
    {
      "epoch": 0.7201370271075365,
      "grad_norm": 9.432376861572266,
      "learning_rate": 1.7999702114983617e-05,
      "loss": 0.6927,
      "num_input_tokens_seen": 2807488,
      "step": 4835
    },
    {
      "epoch": 0.7208817396484957,
      "grad_norm": 22.678556442260742,
      "learning_rate": 1.8018319928507595e-05,
      "loss": 0.5288,
      "num_input_tokens_seen": 2810240,
      "step": 4840
    },
    {
      "epoch": 0.7216264521894549,
      "grad_norm": 6.641430854797363,
      "learning_rate": 1.8036937742031576e-05,
      "loss": 0.7084,
      "num_input_tokens_seen": 2813152,
      "step": 4845
    },
    {
      "epoch": 0.7223711647304141,
      "grad_norm": 7.337093830108643,
      "learning_rate": 1.8055555555555555e-05,
      "loss": 0.6481,
      "num_input_tokens_seen": 2816160,
      "step": 4850
    },
    {
      "epoch": 0.7231158772713733,
      "grad_norm": 15.490917205810547,
      "learning_rate": 1.8074173369079536e-05,
      "loss": 0.6854,
      "num_input_tokens_seen": 2819136,
      "step": 4855
    },
    {
      "epoch": 0.7238605898123325,
      "grad_norm": 6.948829174041748,
      "learning_rate": 1.8092791182603515e-05,
      "loss": 0.6835,
      "num_input_tokens_seen": 2821952,
      "step": 4860
    },
    {
      "epoch": 0.7246053023532917,
      "grad_norm": 6.3718767166137695,
      "learning_rate": 1.8111408996127496e-05,
      "loss": 0.5685,
      "num_input_tokens_seen": 2824800,
      "step": 4865
    },
    {
      "epoch": 0.7253500148942508,
      "grad_norm": 4.716122627258301,
      "learning_rate": 1.8130026809651478e-05,
      "loss": 0.7367,
      "num_input_tokens_seen": 2827616,
      "step": 4870
    },
    {
      "epoch": 0.72609472743521,
      "grad_norm": 5.63777494430542,
      "learning_rate": 1.8148644623175456e-05,
      "loss": 0.6834,
      "num_input_tokens_seen": 2830528,
      "step": 4875
    },
    {
      "epoch": 0.7268394399761692,
      "grad_norm": 6.150302410125732,
      "learning_rate": 1.8167262436699434e-05,
      "loss": 0.6534,
      "num_input_tokens_seen": 2833600,
      "step": 4880
    },
    {
      "epoch": 0.7275841525171284,
      "grad_norm": 8.263960838317871,
      "learning_rate": 1.8185880250223413e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 2836448,
      "step": 4885
    },
    {
      "epoch": 0.7283288650580876,
      "grad_norm": 7.473502159118652,
      "learning_rate": 1.8204498063747394e-05,
      "loss": 0.4981,
      "num_input_tokens_seen": 2839328,
      "step": 4890
    },
    {
      "epoch": 0.7290735775990468,
      "grad_norm": 10.263741493225098,
      "learning_rate": 1.8223115877271372e-05,
      "loss": 0.7292,
      "num_input_tokens_seen": 2842240,
      "step": 4895
    },
    {
      "epoch": 0.729818290140006,
      "grad_norm": 6.776223182678223,
      "learning_rate": 1.8241733690795354e-05,
      "loss": 0.7691,
      "num_input_tokens_seen": 2845088,
      "step": 4900
    },
    {
      "epoch": 0.7305630026809652,
      "grad_norm": 4.25616979598999,
      "learning_rate": 1.8260351504319336e-05,
      "loss": 0.7502,
      "num_input_tokens_seen": 2847904,
      "step": 4905
    },
    {
      "epoch": 0.7313077152219244,
      "grad_norm": 7.991245746612549,
      "learning_rate": 1.8278969317843314e-05,
      "loss": 0.6493,
      "num_input_tokens_seen": 2850816,
      "step": 4910
    },
    {
      "epoch": 0.7320524277628835,
      "grad_norm": 6.617560863494873,
      "learning_rate": 1.8297587131367295e-05,
      "loss": 0.7788,
      "num_input_tokens_seen": 2853600,
      "step": 4915
    },
    {
      "epoch": 0.7327971403038427,
      "grad_norm": 5.766136169433594,
      "learning_rate": 1.831620494489127e-05,
      "loss": 0.7136,
      "num_input_tokens_seen": 2856384,
      "step": 4920
    },
    {
      "epoch": 0.7335418528448019,
      "grad_norm": 6.176441669464111,
      "learning_rate": 1.8334822758415252e-05,
      "loss": 0.6396,
      "num_input_tokens_seen": 2859136,
      "step": 4925
    },
    {
      "epoch": 0.7342865653857611,
      "grad_norm": 9.104277610778809,
      "learning_rate": 1.835344057193923e-05,
      "loss": 0.8043,
      "num_input_tokens_seen": 2862080,
      "step": 4930
    },
    {
      "epoch": 0.7350312779267203,
      "grad_norm": 3.559868574142456,
      "learning_rate": 1.8372058385463212e-05,
      "loss": 0.588,
      "num_input_tokens_seen": 2865088,
      "step": 4935
    },
    {
      "epoch": 0.7357759904676795,
      "grad_norm": 4.304362773895264,
      "learning_rate": 1.8390676198987193e-05,
      "loss": 0.6453,
      "num_input_tokens_seen": 2868000,
      "step": 4940
    },
    {
      "epoch": 0.7365207030086387,
      "grad_norm": 4.976117134094238,
      "learning_rate": 1.840929401251117e-05,
      "loss": 0.6908,
      "num_input_tokens_seen": 2870880,
      "step": 4945
    },
    {
      "epoch": 0.7372654155495979,
      "grad_norm": 14.501571655273438,
      "learning_rate": 1.8427911826035153e-05,
      "loss": 0.737,
      "num_input_tokens_seen": 2873920,
      "step": 4950
    },
    {
      "epoch": 0.738010128090557,
      "grad_norm": 14.55494213104248,
      "learning_rate": 1.844652963955913e-05,
      "loss": 0.6145,
      "num_input_tokens_seen": 2876864,
      "step": 4955
    },
    {
      "epoch": 0.7387548406315162,
      "grad_norm": 6.8734450340271,
      "learning_rate": 1.8465147453083113e-05,
      "loss": 0.4128,
      "num_input_tokens_seen": 2879808,
      "step": 4960
    },
    {
      "epoch": 0.7394995531724754,
      "grad_norm": 5.320675373077393,
      "learning_rate": 1.8483765266607088e-05,
      "loss": 0.679,
      "num_input_tokens_seen": 2882528,
      "step": 4965
    },
    {
      "epoch": 0.7402442657134346,
      "grad_norm": 9.560523986816406,
      "learning_rate": 1.850238308013107e-05,
      "loss": 0.6976,
      "num_input_tokens_seen": 2885216,
      "step": 4970
    },
    {
      "epoch": 0.7409889782543938,
      "grad_norm": 4.921874046325684,
      "learning_rate": 1.8521000893655048e-05,
      "loss": 0.7566,
      "num_input_tokens_seen": 2888064,
      "step": 4975
    },
    {
      "epoch": 0.741733690795353,
      "grad_norm": 4.201845645904541,
      "learning_rate": 1.853961870717903e-05,
      "loss": 0.6478,
      "num_input_tokens_seen": 2891008,
      "step": 4980
    },
    {
      "epoch": 0.7424784033363122,
      "grad_norm": 7.656910419464111,
      "learning_rate": 1.855823652070301e-05,
      "loss": 0.7655,
      "num_input_tokens_seen": 2894464,
      "step": 4985
    },
    {
      "epoch": 0.7432231158772714,
      "grad_norm": 5.709036827087402,
      "learning_rate": 1.857685433422699e-05,
      "loss": 0.7358,
      "num_input_tokens_seen": 2897568,
      "step": 4990
    },
    {
      "epoch": 0.7439678284182306,
      "grad_norm": 9.812124252319336,
      "learning_rate": 1.859547214775097e-05,
      "loss": 0.7047,
      "num_input_tokens_seen": 2900576,
      "step": 4995
    },
    {
      "epoch": 0.7447125409591897,
      "grad_norm": 4.471138954162598,
      "learning_rate": 1.861408996127495e-05,
      "loss": 0.5735,
      "num_input_tokens_seen": 2903360,
      "step": 5000
    },
    {
      "epoch": 0.7454572535001489,
      "grad_norm": 10.550119400024414,
      "learning_rate": 1.863270777479893e-05,
      "loss": 0.6747,
      "num_input_tokens_seen": 2906880,
      "step": 5005
    },
    {
      "epoch": 0.7462019660411081,
      "grad_norm": 5.727477550506592,
      "learning_rate": 1.8651325588322906e-05,
      "loss": 0.7258,
      "num_input_tokens_seen": 2909888,
      "step": 5010
    },
    {
      "epoch": 0.7469466785820673,
      "grad_norm": 5.979302406311035,
      "learning_rate": 1.8669943401846887e-05,
      "loss": 0.4024,
      "num_input_tokens_seen": 2912704,
      "step": 5015
    },
    {
      "epoch": 0.7476913911230265,
      "grad_norm": 3.9234323501586914,
      "learning_rate": 1.868856121537087e-05,
      "loss": 0.6687,
      "num_input_tokens_seen": 2915520,
      "step": 5020
    },
    {
      "epoch": 0.7484361036639857,
      "grad_norm": 7.689082145690918,
      "learning_rate": 1.8707179028894847e-05,
      "loss": 0.6857,
      "num_input_tokens_seen": 2918368,
      "step": 5025
    },
    {
      "epoch": 0.7491808162049449,
      "grad_norm": 4.236494064331055,
      "learning_rate": 1.872579684241883e-05,
      "loss": 0.6649,
      "num_input_tokens_seen": 2921184,
      "step": 5030
    },
    {
      "epoch": 0.7499255287459041,
      "grad_norm": 5.072592735290527,
      "learning_rate": 1.8744414655942807e-05,
      "loss": 0.6609,
      "num_input_tokens_seen": 2923744,
      "step": 5035
    },
    {
      "epoch": 0.7506702412868632,
      "grad_norm": 4.075509548187256,
      "learning_rate": 1.876303246946679e-05,
      "loss": 0.745,
      "num_input_tokens_seen": 2926720,
      "step": 5040
    },
    {
      "epoch": 0.7514149538278224,
      "grad_norm": 4.2344584465026855,
      "learning_rate": 1.8781650282990767e-05,
      "loss": 0.7077,
      "num_input_tokens_seen": 2929920,
      "step": 5045
    },
    {
      "epoch": 0.7521596663687816,
      "grad_norm": 8.84020709991455,
      "learning_rate": 1.8800268096514745e-05,
      "loss": 0.6256,
      "num_input_tokens_seen": 2932800,
      "step": 5050
    },
    {
      "epoch": 0.7529043789097408,
      "grad_norm": 5.097805023193359,
      "learning_rate": 1.8818885910038723e-05,
      "loss": 0.6945,
      "num_input_tokens_seen": 2935648,
      "step": 5055
    },
    {
      "epoch": 0.7536490914507,
      "grad_norm": 6.346597671508789,
      "learning_rate": 1.8837503723562705e-05,
      "loss": 0.862,
      "num_input_tokens_seen": 2938656,
      "step": 5060
    },
    {
      "epoch": 0.7543938039916592,
      "grad_norm": 4.74780797958374,
      "learning_rate": 1.8856121537086686e-05,
      "loss": 0.7459,
      "num_input_tokens_seen": 2941632,
      "step": 5065
    },
    {
      "epoch": 0.7551385165326184,
      "grad_norm": 6.819411754608154,
      "learning_rate": 1.8874739350610665e-05,
      "loss": 0.7087,
      "num_input_tokens_seen": 2944640,
      "step": 5070
    },
    {
      "epoch": 0.7558832290735776,
      "grad_norm": 3.8518576622009277,
      "learning_rate": 1.8893357164134646e-05,
      "loss": 0.7135,
      "num_input_tokens_seen": 2947264,
      "step": 5075
    },
    {
      "epoch": 0.7566279416145368,
      "grad_norm": 6.499281406402588,
      "learning_rate": 1.8911974977658625e-05,
      "loss": 0.7457,
      "num_input_tokens_seen": 2950048,
      "step": 5080
    },
    {
      "epoch": 0.7573726541554959,
      "grad_norm": 4.855257987976074,
      "learning_rate": 1.8930592791182606e-05,
      "loss": 0.5841,
      "num_input_tokens_seen": 2952896,
      "step": 5085
    },
    {
      "epoch": 0.7581173666964551,
      "grad_norm": 9.373767852783203,
      "learning_rate": 1.8949210604706584e-05,
      "loss": 0.5287,
      "num_input_tokens_seen": 2955616,
      "step": 5090
    },
    {
      "epoch": 0.7588620792374143,
      "grad_norm": 9.876019477844238,
      "learning_rate": 1.8967828418230563e-05,
      "loss": 0.4869,
      "num_input_tokens_seen": 2958272,
      "step": 5095
    },
    {
      "epoch": 0.7596067917783735,
      "grad_norm": 19.695180892944336,
      "learning_rate": 1.8986446231754544e-05,
      "loss": 0.6648,
      "num_input_tokens_seen": 2961184,
      "step": 5100
    },
    {
      "epoch": 0.7603515043193327,
      "grad_norm": 9.055465698242188,
      "learning_rate": 1.9005064045278523e-05,
      "loss": 0.5689,
      "num_input_tokens_seen": 2963872,
      "step": 5105
    },
    {
      "epoch": 0.7610962168602919,
      "grad_norm": 7.3877763748168945,
      "learning_rate": 1.9023681858802504e-05,
      "loss": 0.6171,
      "num_input_tokens_seen": 2967072,
      "step": 5110
    },
    {
      "epoch": 0.7618409294012511,
      "grad_norm": 7.063737392425537,
      "learning_rate": 1.9042299672326482e-05,
      "loss": 0.9746,
      "num_input_tokens_seen": 2969664,
      "step": 5115
    },
    {
      "epoch": 0.7625856419422103,
      "grad_norm": 8.857629776000977,
      "learning_rate": 1.9060917485850464e-05,
      "loss": 0.779,
      "num_input_tokens_seen": 2972672,
      "step": 5120
    },
    {
      "epoch": 0.7633303544831695,
      "grad_norm": 6.069880962371826,
      "learning_rate": 1.9079535299374442e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 2975776,
      "step": 5125
    },
    {
      "epoch": 0.7640750670241286,
      "grad_norm": 4.949235439300537,
      "learning_rate": 1.9098153112898424e-05,
      "loss": 0.728,
      "num_input_tokens_seen": 2978432,
      "step": 5130
    },
    {
      "epoch": 0.7648197795650878,
      "grad_norm": 6.727545261383057,
      "learning_rate": 1.9116770926422402e-05,
      "loss": 0.6612,
      "num_input_tokens_seen": 2981344,
      "step": 5135
    },
    {
      "epoch": 0.765564492106047,
      "grad_norm": 3.969392776489258,
      "learning_rate": 1.913538873994638e-05,
      "loss": 0.5772,
      "num_input_tokens_seen": 2984320,
      "step": 5140
    },
    {
      "epoch": 0.7663092046470062,
      "grad_norm": 3.8220908641815186,
      "learning_rate": 1.9154006553470362e-05,
      "loss": 0.564,
      "num_input_tokens_seen": 2987392,
      "step": 5145
    },
    {
      "epoch": 0.7670539171879655,
      "grad_norm": 8.113106727600098,
      "learning_rate": 1.917262436699434e-05,
      "loss": 0.6432,
      "num_input_tokens_seen": 2990112,
      "step": 5150
    },
    {
      "epoch": 0.7677986297289247,
      "grad_norm": 8.616903305053711,
      "learning_rate": 1.9191242180518322e-05,
      "loss": 0.676,
      "num_input_tokens_seen": 2992992,
      "step": 5155
    },
    {
      "epoch": 0.7685433422698839,
      "grad_norm": 7.452833652496338,
      "learning_rate": 1.92098599940423e-05,
      "loss": 0.8482,
      "num_input_tokens_seen": 2996064,
      "step": 5160
    },
    {
      "epoch": 0.7692880548108431,
      "grad_norm": 5.140490531921387,
      "learning_rate": 1.922847780756628e-05,
      "loss": 0.5608,
      "num_input_tokens_seen": 2998848,
      "step": 5165
    },
    {
      "epoch": 0.7700327673518021,
      "grad_norm": 6.459074974060059,
      "learning_rate": 1.924709562109026e-05,
      "loss": 0.594,
      "num_input_tokens_seen": 3001920,
      "step": 5170
    },
    {
      "epoch": 0.7707774798927614,
      "grad_norm": 13.18014144897461,
      "learning_rate": 1.926571343461424e-05,
      "loss": 0.7554,
      "num_input_tokens_seen": 3004640,
      "step": 5175
    },
    {
      "epoch": 0.7715221924337206,
      "grad_norm": 5.588052749633789,
      "learning_rate": 1.928433124813822e-05,
      "loss": 0.7184,
      "num_input_tokens_seen": 3007648,
      "step": 5180
    },
    {
      "epoch": 0.7722669049746798,
      "grad_norm": 5.5194411277771,
      "learning_rate": 1.9302949061662198e-05,
      "loss": 0.6567,
      "num_input_tokens_seen": 3010528,
      "step": 5185
    },
    {
      "epoch": 0.773011617515639,
      "grad_norm": 6.843568325042725,
      "learning_rate": 1.932156687518618e-05,
      "loss": 0.833,
      "num_input_tokens_seen": 3013120,
      "step": 5190
    },
    {
      "epoch": 0.7737563300565982,
      "grad_norm": 4.374346733093262,
      "learning_rate": 1.9340184688710158e-05,
      "loss": 0.6102,
      "num_input_tokens_seen": 3016384,
      "step": 5195
    },
    {
      "epoch": 0.7745010425975574,
      "grad_norm": 5.791306018829346,
      "learning_rate": 1.935880250223414e-05,
      "loss": 0.6864,
      "num_input_tokens_seen": 3019072,
      "step": 5200
    },
    {
      "epoch": 0.7752457551385166,
      "grad_norm": 5.160871982574463,
      "learning_rate": 1.9377420315758118e-05,
      "loss": 0.7353,
      "num_input_tokens_seen": 3022464,
      "step": 5205
    },
    {
      "epoch": 0.7759904676794758,
      "grad_norm": 3.895620584487915,
      "learning_rate": 1.93960381292821e-05,
      "loss": 0.6351,
      "num_input_tokens_seen": 3025152,
      "step": 5210
    },
    {
      "epoch": 0.7767351802204349,
      "grad_norm": 3.399106740951538,
      "learning_rate": 1.9414655942806077e-05,
      "loss": 0.5687,
      "num_input_tokens_seen": 3027776,
      "step": 5215
    },
    {
      "epoch": 0.7774798927613941,
      "grad_norm": 4.802910804748535,
      "learning_rate": 1.943327375633006e-05,
      "loss": 0.5622,
      "num_input_tokens_seen": 3030784,
      "step": 5220
    },
    {
      "epoch": 0.7782246053023533,
      "grad_norm": 2.5942726135253906,
      "learning_rate": 1.9451891569854037e-05,
      "loss": 0.6824,
      "num_input_tokens_seen": 3034016,
      "step": 5225
    },
    {
      "epoch": 0.7789693178433125,
      "grad_norm": 6.082057476043701,
      "learning_rate": 1.9470509383378016e-05,
      "loss": 0.6289,
      "num_input_tokens_seen": 3037056,
      "step": 5230
    },
    {
      "epoch": 0.7797140303842717,
      "grad_norm": 7.841424942016602,
      "learning_rate": 1.9489127196901997e-05,
      "loss": 0.7393,
      "num_input_tokens_seen": 3039968,
      "step": 5235
    },
    {
      "epoch": 0.7804587429252309,
      "grad_norm": 7.416871070861816,
      "learning_rate": 1.9507745010425975e-05,
      "loss": 0.6138,
      "num_input_tokens_seen": 3042816,
      "step": 5240
    },
    {
      "epoch": 0.7812034554661901,
      "grad_norm": 4.983344078063965,
      "learning_rate": 1.9526362823949957e-05,
      "loss": 0.5777,
      "num_input_tokens_seen": 3046080,
      "step": 5245
    },
    {
      "epoch": 0.7819481680071493,
      "grad_norm": 9.515509605407715,
      "learning_rate": 1.9544980637473935e-05,
      "loss": 0.6028,
      "num_input_tokens_seen": 3049280,
      "step": 5250
    },
    {
      "epoch": 0.7826928805481085,
      "grad_norm": 7.7734055519104,
      "learning_rate": 1.9563598450997917e-05,
      "loss": 0.7781,
      "num_input_tokens_seen": 3052000,
      "step": 5255
    },
    {
      "epoch": 0.7834375930890676,
      "grad_norm": 4.8556952476501465,
      "learning_rate": 1.9582216264521895e-05,
      "loss": 0.7251,
      "num_input_tokens_seen": 3055040,
      "step": 5260
    },
    {
      "epoch": 0.7841823056300268,
      "grad_norm": 9.403595924377441,
      "learning_rate": 1.9600834078045877e-05,
      "loss": 0.6268,
      "num_input_tokens_seen": 3057984,
      "step": 5265
    },
    {
      "epoch": 0.784927018170986,
      "grad_norm": 8.07181167602539,
      "learning_rate": 1.9619451891569855e-05,
      "loss": 0.6996,
      "num_input_tokens_seen": 3061120,
      "step": 5270
    },
    {
      "epoch": 0.7856717307119452,
      "grad_norm": 9.60352611541748,
      "learning_rate": 1.9638069705093833e-05,
      "loss": 0.6607,
      "num_input_tokens_seen": 3063968,
      "step": 5275
    },
    {
      "epoch": 0.7864164432529044,
      "grad_norm": 5.094206809997559,
      "learning_rate": 1.9656687518617815e-05,
      "loss": 0.5159,
      "num_input_tokens_seen": 3066816,
      "step": 5280
    },
    {
      "epoch": 0.7871611557938636,
      "grad_norm": 8.713227272033691,
      "learning_rate": 1.9675305332141793e-05,
      "loss": 0.5867,
      "num_input_tokens_seen": 3069536,
      "step": 5285
    },
    {
      "epoch": 0.7879058683348228,
      "grad_norm": 12.305168151855469,
      "learning_rate": 1.9693923145665775e-05,
      "loss": 0.627,
      "num_input_tokens_seen": 3072224,
      "step": 5290
    },
    {
      "epoch": 0.788650580875782,
      "grad_norm": 8.505409240722656,
      "learning_rate": 1.9712540959189753e-05,
      "loss": 0.8096,
      "num_input_tokens_seen": 3075040,
      "step": 5295
    },
    {
      "epoch": 0.7893952934167411,
      "grad_norm": 7.12858772277832,
      "learning_rate": 1.9731158772713735e-05,
      "loss": 0.5116,
      "num_input_tokens_seen": 3077856,
      "step": 5300
    },
    {
      "epoch": 0.7901400059577003,
      "grad_norm": 3.8851237297058105,
      "learning_rate": 1.9749776586237713e-05,
      "loss": 0.5355,
      "num_input_tokens_seen": 3080768,
      "step": 5305
    },
    {
      "epoch": 0.7908847184986595,
      "grad_norm": 8.848649024963379,
      "learning_rate": 1.976839439976169e-05,
      "loss": 0.5406,
      "num_input_tokens_seen": 3083648,
      "step": 5310
    },
    {
      "epoch": 0.7916294310396187,
      "grad_norm": 4.673511028289795,
      "learning_rate": 1.9787012213285673e-05,
      "loss": 0.772,
      "num_input_tokens_seen": 3086624,
      "step": 5315
    },
    {
      "epoch": 0.7923741435805779,
      "grad_norm": 11.950017929077148,
      "learning_rate": 1.980563002680965e-05,
      "loss": 0.9197,
      "num_input_tokens_seen": 3089600,
      "step": 5320
    },
    {
      "epoch": 0.7931188561215371,
      "grad_norm": 5.729598522186279,
      "learning_rate": 1.9824247840333632e-05,
      "loss": 0.5515,
      "num_input_tokens_seen": 3092576,
      "step": 5325
    },
    {
      "epoch": 0.7938635686624963,
      "grad_norm": 8.279684066772461,
      "learning_rate": 1.984286565385761e-05,
      "loss": 0.6972,
      "num_input_tokens_seen": 3095488,
      "step": 5330
    },
    {
      "epoch": 0.7946082812034555,
      "grad_norm": 5.381699562072754,
      "learning_rate": 1.9861483467381592e-05,
      "loss": 0.5918,
      "num_input_tokens_seen": 3098304,
      "step": 5335
    },
    {
      "epoch": 0.7953529937444147,
      "grad_norm": 4.264830112457275,
      "learning_rate": 1.988010128090557e-05,
      "loss": 0.6001,
      "num_input_tokens_seen": 3101152,
      "step": 5340
    },
    {
      "epoch": 0.7960977062853738,
      "grad_norm": 4.797317981719971,
      "learning_rate": 1.9898719094429552e-05,
      "loss": 0.722,
      "num_input_tokens_seen": 3104000,
      "step": 5345
    },
    {
      "epoch": 0.796842418826333,
      "grad_norm": 9.730934143066406,
      "learning_rate": 1.9917336907953534e-05,
      "loss": 0.5071,
      "num_input_tokens_seen": 3106752,
      "step": 5350
    },
    {
      "epoch": 0.7975871313672922,
      "grad_norm": 6.7038254737854,
      "learning_rate": 1.993595472147751e-05,
      "loss": 0.6739,
      "num_input_tokens_seen": 3109792,
      "step": 5355
    },
    {
      "epoch": 0.7983318439082514,
      "grad_norm": 7.116666793823242,
      "learning_rate": 1.995457253500149e-05,
      "loss": 0.674,
      "num_input_tokens_seen": 3112672,
      "step": 5360
    },
    {
      "epoch": 0.7990765564492106,
      "grad_norm": 7.707449436187744,
      "learning_rate": 1.997319034852547e-05,
      "loss": 0.7274,
      "num_input_tokens_seen": 3115392,
      "step": 5365
    },
    {
      "epoch": 0.7998212689901698,
      "grad_norm": 9.035859107971191,
      "learning_rate": 1.999180816204945e-05,
      "loss": 0.5796,
      "num_input_tokens_seen": 3117984,
      "step": 5370
    },
    {
      "epoch": 0.800565981531129,
      "grad_norm": 14.126900672912598,
      "learning_rate": 2.001042597557343e-05,
      "loss": 0.7692,
      "num_input_tokens_seen": 3120672,
      "step": 5375
    },
    {
      "epoch": 0.8013106940720882,
      "grad_norm": 5.921607494354248,
      "learning_rate": 2.002904378909741e-05,
      "loss": 0.618,
      "num_input_tokens_seen": 3123424,
      "step": 5380
    },
    {
      "epoch": 0.8020554066130474,
      "grad_norm": 6.7382731437683105,
      "learning_rate": 2.0047661602621388e-05,
      "loss": 0.5696,
      "num_input_tokens_seen": 3126240,
      "step": 5385
    },
    {
      "epoch": 0.8028001191540065,
      "grad_norm": 5.138798236846924,
      "learning_rate": 2.006627941614537e-05,
      "loss": 0.7082,
      "num_input_tokens_seen": 3129568,
      "step": 5390
    },
    {
      "epoch": 0.8035448316949657,
      "grad_norm": 4.367193222045898,
      "learning_rate": 2.008489722966935e-05,
      "loss": 0.6154,
      "num_input_tokens_seen": 3132736,
      "step": 5395
    },
    {
      "epoch": 0.8042895442359249,
      "grad_norm": 8.667850494384766,
      "learning_rate": 2.0103515043193326e-05,
      "loss": 0.6528,
      "num_input_tokens_seen": 3135904,
      "step": 5400
    },
    {
      "epoch": 0.8050342567768841,
      "grad_norm": 4.065290927886963,
      "learning_rate": 2.0122132856717308e-05,
      "loss": 0.6276,
      "num_input_tokens_seen": 3138720,
      "step": 5405
    },
    {
      "epoch": 0.8057789693178433,
      "grad_norm": 6.2253098487854,
      "learning_rate": 2.0140750670241286e-05,
      "loss": 0.6209,
      "num_input_tokens_seen": 3141408,
      "step": 5410
    },
    {
      "epoch": 0.8065236818588025,
      "grad_norm": 7.394700527191162,
      "learning_rate": 2.0159368483765268e-05,
      "loss": 0.6186,
      "num_input_tokens_seen": 3144448,
      "step": 5415
    },
    {
      "epoch": 0.8072683943997617,
      "grad_norm": 4.564387321472168,
      "learning_rate": 2.0177986297289246e-05,
      "loss": 0.4189,
      "num_input_tokens_seen": 3147200,
      "step": 5420
    },
    {
      "epoch": 0.8080131069407209,
      "grad_norm": 11.502687454223633,
      "learning_rate": 2.0196604110813228e-05,
      "loss": 0.5548,
      "num_input_tokens_seen": 3149760,
      "step": 5425
    },
    {
      "epoch": 0.80875781948168,
      "grad_norm": 6.731959342956543,
      "learning_rate": 2.021522192433721e-05,
      "loss": 0.6266,
      "num_input_tokens_seen": 3152704,
      "step": 5430
    },
    {
      "epoch": 0.8095025320226392,
      "grad_norm": 10.272679328918457,
      "learning_rate": 2.0233839737861187e-05,
      "loss": 0.7716,
      "num_input_tokens_seen": 3155264,
      "step": 5435
    },
    {
      "epoch": 0.8102472445635984,
      "grad_norm": 5.893675327301025,
      "learning_rate": 2.0252457551385166e-05,
      "loss": 0.4983,
      "num_input_tokens_seen": 3158144,
      "step": 5440
    },
    {
      "epoch": 0.8109919571045576,
      "grad_norm": 8.164847373962402,
      "learning_rate": 2.0271075364909144e-05,
      "loss": 0.7659,
      "num_input_tokens_seen": 3161120,
      "step": 5445
    },
    {
      "epoch": 0.8117366696455168,
      "grad_norm": 9.015469551086426,
      "learning_rate": 2.0289693178433126e-05,
      "loss": 0.7013,
      "num_input_tokens_seen": 3163968,
      "step": 5450
    },
    {
      "epoch": 0.812481382186476,
      "grad_norm": 6.978725433349609,
      "learning_rate": 2.0308310991957104e-05,
      "loss": 0.5897,
      "num_input_tokens_seen": 3167264,
      "step": 5455
    },
    {
      "epoch": 0.8132260947274352,
      "grad_norm": 6.792562007904053,
      "learning_rate": 2.0326928805481085e-05,
      "loss": 0.6436,
      "num_input_tokens_seen": 3170304,
      "step": 5460
    },
    {
      "epoch": 0.8139708072683944,
      "grad_norm": 9.335082054138184,
      "learning_rate": 2.0345546619005064e-05,
      "loss": 0.7328,
      "num_input_tokens_seen": 3173312,
      "step": 5465
    },
    {
      "epoch": 0.8147155198093536,
      "grad_norm": 6.474582195281982,
      "learning_rate": 2.0364164432529045e-05,
      "loss": 0.7584,
      "num_input_tokens_seen": 3176320,
      "step": 5470
    },
    {
      "epoch": 0.8154602323503127,
      "grad_norm": 11.615679740905762,
      "learning_rate": 2.0382782246053027e-05,
      "loss": 0.6437,
      "num_input_tokens_seen": 3179200,
      "step": 5475
    },
    {
      "epoch": 0.8162049448912719,
      "grad_norm": 5.121049880981445,
      "learning_rate": 2.0401400059577005e-05,
      "loss": 0.6268,
      "num_input_tokens_seen": 3181856,
      "step": 5480
    },
    {
      "epoch": 0.8169496574322311,
      "grad_norm": 6.969388008117676,
      "learning_rate": 2.0420017873100983e-05,
      "loss": 0.6315,
      "num_input_tokens_seen": 3184416,
      "step": 5485
    },
    {
      "epoch": 0.8176943699731903,
      "grad_norm": 13.73607349395752,
      "learning_rate": 2.043863568662496e-05,
      "loss": 0.6219,
      "num_input_tokens_seen": 3186976,
      "step": 5490
    },
    {
      "epoch": 0.8184390825141495,
      "grad_norm": 5.44738245010376,
      "learning_rate": 2.0457253500148943e-05,
      "loss": 0.6347,
      "num_input_tokens_seen": 3190240,
      "step": 5495
    },
    {
      "epoch": 0.8191837950551087,
      "grad_norm": 4.290498733520508,
      "learning_rate": 2.047587131367292e-05,
      "loss": 0.6609,
      "num_input_tokens_seen": 3193056,
      "step": 5500
    },
    {
      "epoch": 0.819928507596068,
      "grad_norm": 7.504003047943115,
      "learning_rate": 2.0494489127196903e-05,
      "loss": 0.7898,
      "num_input_tokens_seen": 3195840,
      "step": 5505
    },
    {
      "epoch": 0.8206732201370271,
      "grad_norm": 6.289531230926514,
      "learning_rate": 2.0513106940720885e-05,
      "loss": 0.7764,
      "num_input_tokens_seen": 3198528,
      "step": 5510
    },
    {
      "epoch": 0.8214179326779864,
      "grad_norm": 5.988738536834717,
      "learning_rate": 2.0531724754244863e-05,
      "loss": 0.8237,
      "num_input_tokens_seen": 3201344,
      "step": 5515
    },
    {
      "epoch": 0.8221626452189454,
      "grad_norm": 5.370395660400391,
      "learning_rate": 2.0550342567768845e-05,
      "loss": 0.6691,
      "num_input_tokens_seen": 3204160,
      "step": 5520
    },
    {
      "epoch": 0.8229073577599046,
      "grad_norm": 6.106619834899902,
      "learning_rate": 2.0568960381292823e-05,
      "loss": 0.7047,
      "num_input_tokens_seen": 3207104,
      "step": 5525
    },
    {
      "epoch": 0.8236520703008638,
      "grad_norm": 7.34506368637085,
      "learning_rate": 2.05875781948168e-05,
      "loss": 0.7632,
      "num_input_tokens_seen": 3210016,
      "step": 5530
    },
    {
      "epoch": 0.824396782841823,
      "grad_norm": 3.417581796646118,
      "learning_rate": 2.060619600834078e-05,
      "loss": 0.6478,
      "num_input_tokens_seen": 3213248,
      "step": 5535
    },
    {
      "epoch": 0.8251414953827823,
      "grad_norm": 5.6191887855529785,
      "learning_rate": 2.062481382186476e-05,
      "loss": 0.6083,
      "num_input_tokens_seen": 3216416,
      "step": 5540
    },
    {
      "epoch": 0.8258862079237415,
      "grad_norm": 5.593179702758789,
      "learning_rate": 2.0643431635388742e-05,
      "loss": 0.7777,
      "num_input_tokens_seen": 3219264,
      "step": 5545
    },
    {
      "epoch": 0.8266309204647007,
      "grad_norm": 6.524972438812256,
      "learning_rate": 2.066204944891272e-05,
      "loss": 0.6885,
      "num_input_tokens_seen": 3222048,
      "step": 5550
    },
    {
      "epoch": 0.8273756330056599,
      "grad_norm": 5.484688758850098,
      "learning_rate": 2.0680667262436702e-05,
      "loss": 0.6706,
      "num_input_tokens_seen": 3225024,
      "step": 5555
    },
    {
      "epoch": 0.828120345546619,
      "grad_norm": 3.361213445663452,
      "learning_rate": 2.069928507596068e-05,
      "loss": 0.7361,
      "num_input_tokens_seen": 3227936,
      "step": 5560
    },
    {
      "epoch": 0.8288650580875782,
      "grad_norm": 6.388330459594727,
      "learning_rate": 2.0717902889484662e-05,
      "loss": 0.7082,
      "num_input_tokens_seen": 3230816,
      "step": 5565
    },
    {
      "epoch": 0.8296097706285374,
      "grad_norm": 6.245161056518555,
      "learning_rate": 2.0736520703008637e-05,
      "loss": 0.8004,
      "num_input_tokens_seen": 3233472,
      "step": 5570
    },
    {
      "epoch": 0.8303544831694966,
      "grad_norm": 4.44392204284668,
      "learning_rate": 2.075513851653262e-05,
      "loss": 0.6287,
      "num_input_tokens_seen": 3236096,
      "step": 5575
    },
    {
      "epoch": 0.8310991957104558,
      "grad_norm": 5.758531093597412,
      "learning_rate": 2.0773756330056597e-05,
      "loss": 0.6863,
      "num_input_tokens_seen": 3238976,
      "step": 5580
    },
    {
      "epoch": 0.831843908251415,
      "grad_norm": 8.711481094360352,
      "learning_rate": 2.079237414358058e-05,
      "loss": 0.7459,
      "num_input_tokens_seen": 3242080,
      "step": 5585
    },
    {
      "epoch": 0.8325886207923742,
      "grad_norm": 5.747377872467041,
      "learning_rate": 2.081099195710456e-05,
      "loss": 0.6647,
      "num_input_tokens_seen": 3244896,
      "step": 5590
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 4.002847194671631,
      "learning_rate": 2.082960977062854e-05,
      "loss": 0.6709,
      "num_input_tokens_seen": 3247904,
      "step": 5595
    },
    {
      "epoch": 0.8340780458742926,
      "grad_norm": 9.537887573242188,
      "learning_rate": 2.084822758415252e-05,
      "loss": 0.9081,
      "num_input_tokens_seen": 3250784,
      "step": 5600
    },
    {
      "epoch": 0.8348227584152517,
      "grad_norm": 4.521470069885254,
      "learning_rate": 2.0866845397676498e-05,
      "loss": 0.6115,
      "num_input_tokens_seen": 3253664,
      "step": 5605
    },
    {
      "epoch": 0.8355674709562109,
      "grad_norm": 5.937507629394531,
      "learning_rate": 2.088546321120048e-05,
      "loss": 0.6608,
      "num_input_tokens_seen": 3256512,
      "step": 5610
    },
    {
      "epoch": 0.8363121834971701,
      "grad_norm": 4.934469699859619,
      "learning_rate": 2.0904081024724455e-05,
      "loss": 0.5871,
      "num_input_tokens_seen": 3259872,
      "step": 5615
    },
    {
      "epoch": 0.8370568960381293,
      "grad_norm": 7.691290855407715,
      "learning_rate": 2.0922698838248436e-05,
      "loss": 0.7231,
      "num_input_tokens_seen": 3262656,
      "step": 5620
    },
    {
      "epoch": 0.8378016085790885,
      "grad_norm": 3.952145576477051,
      "learning_rate": 2.0941316651772418e-05,
      "loss": 0.7308,
      "num_input_tokens_seen": 3265472,
      "step": 5625
    },
    {
      "epoch": 0.8385463211200477,
      "grad_norm": 4.566629886627197,
      "learning_rate": 2.0959934465296396e-05,
      "loss": 0.733,
      "num_input_tokens_seen": 3268608,
      "step": 5630
    },
    {
      "epoch": 0.8392910336610069,
      "grad_norm": 8.453615188598633,
      "learning_rate": 2.0978552278820378e-05,
      "loss": 0.7015,
      "num_input_tokens_seen": 3271616,
      "step": 5635
    },
    {
      "epoch": 0.8400357462019661,
      "grad_norm": 4.570528984069824,
      "learning_rate": 2.0997170092344356e-05,
      "loss": 0.6461,
      "num_input_tokens_seen": 3274720,
      "step": 5640
    },
    {
      "epoch": 0.8407804587429253,
      "grad_norm": 11.288946151733398,
      "learning_rate": 2.1015787905868338e-05,
      "loss": 0.7971,
      "num_input_tokens_seen": 3277408,
      "step": 5645
    },
    {
      "epoch": 0.8415251712838844,
      "grad_norm": 4.146596431732178,
      "learning_rate": 2.1034405719392316e-05,
      "loss": 0.5539,
      "num_input_tokens_seen": 3280640,
      "step": 5650
    },
    {
      "epoch": 0.8422698838248436,
      "grad_norm": 7.947688579559326,
      "learning_rate": 2.1053023532916297e-05,
      "loss": 0.7692,
      "num_input_tokens_seen": 3283456,
      "step": 5655
    },
    {
      "epoch": 0.8430145963658028,
      "grad_norm": 6.21015739440918,
      "learning_rate": 2.1071641346440272e-05,
      "loss": 0.7424,
      "num_input_tokens_seen": 3286528,
      "step": 5660
    },
    {
      "epoch": 0.843759308906762,
      "grad_norm": 5.215392589569092,
      "learning_rate": 2.1090259159964254e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 3289376,
      "step": 5665
    },
    {
      "epoch": 0.8445040214477212,
      "grad_norm": 4.114195346832275,
      "learning_rate": 2.1108876973488236e-05,
      "loss": 0.6941,
      "num_input_tokens_seen": 3292384,
      "step": 5670
    },
    {
      "epoch": 0.8452487339886804,
      "grad_norm": 4.039809226989746,
      "learning_rate": 2.1127494787012214e-05,
      "loss": 0.6762,
      "num_input_tokens_seen": 3295456,
      "step": 5675
    },
    {
      "epoch": 0.8459934465296396,
      "grad_norm": 3.7030069828033447,
      "learning_rate": 2.1146112600536195e-05,
      "loss": 0.7123,
      "num_input_tokens_seen": 3298432,
      "step": 5680
    },
    {
      "epoch": 0.8467381590705988,
      "grad_norm": 4.4453125,
      "learning_rate": 2.1164730414060174e-05,
      "loss": 0.7061,
      "num_input_tokens_seen": 3301184,
      "step": 5685
    },
    {
      "epoch": 0.8474828716115579,
      "grad_norm": 5.151430130004883,
      "learning_rate": 2.1183348227584155e-05,
      "loss": 0.6277,
      "num_input_tokens_seen": 3303840,
      "step": 5690
    },
    {
      "epoch": 0.8482275841525171,
      "grad_norm": 4.3366379737854,
      "learning_rate": 2.1201966041108133e-05,
      "loss": 0.6273,
      "num_input_tokens_seen": 3306880,
      "step": 5695
    },
    {
      "epoch": 0.8489722966934763,
      "grad_norm": 8.268400192260742,
      "learning_rate": 2.1220583854632112e-05,
      "loss": 0.5795,
      "num_input_tokens_seen": 3309472,
      "step": 5700
    },
    {
      "epoch": 0.8497170092344355,
      "grad_norm": 5.884958267211914,
      "learning_rate": 2.1239201668156093e-05,
      "loss": 0.5046,
      "num_input_tokens_seen": 3312192,
      "step": 5705
    },
    {
      "epoch": 0.8504617217753947,
      "grad_norm": 10.106549263000488,
      "learning_rate": 2.125781948168007e-05,
      "loss": 0.7571,
      "num_input_tokens_seen": 3315040,
      "step": 5710
    },
    {
      "epoch": 0.8512064343163539,
      "grad_norm": 7.374137878417969,
      "learning_rate": 2.1276437295204053e-05,
      "loss": 0.707,
      "num_input_tokens_seen": 3318048,
      "step": 5715
    },
    {
      "epoch": 0.8519511468573131,
      "grad_norm": 5.597780704498291,
      "learning_rate": 2.129505510872803e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 3320928,
      "step": 5720
    },
    {
      "epoch": 0.8526958593982723,
      "grad_norm": 8.685110092163086,
      "learning_rate": 2.1313672922252013e-05,
      "loss": 0.7983,
      "num_input_tokens_seen": 3323648,
      "step": 5725
    },
    {
      "epoch": 0.8534405719392315,
      "grad_norm": 6.267605304718018,
      "learning_rate": 2.133229073577599e-05,
      "loss": 0.7336,
      "num_input_tokens_seen": 3326944,
      "step": 5730
    },
    {
      "epoch": 0.8541852844801906,
      "grad_norm": 5.635714530944824,
      "learning_rate": 2.1350908549299973e-05,
      "loss": 0.6763,
      "num_input_tokens_seen": 3329888,
      "step": 5735
    },
    {
      "epoch": 0.8549299970211498,
      "grad_norm": 10.630417823791504,
      "learning_rate": 2.136952636282395e-05,
      "loss": 0.7212,
      "num_input_tokens_seen": 3332288,
      "step": 5740
    },
    {
      "epoch": 0.855674709562109,
      "grad_norm": 6.345625400543213,
      "learning_rate": 2.138814417634793e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 3334880,
      "step": 5745
    },
    {
      "epoch": 0.8564194221030682,
      "grad_norm": 11.271733283996582,
      "learning_rate": 2.140676198987191e-05,
      "loss": 0.6718,
      "num_input_tokens_seen": 3338464,
      "step": 5750
    },
    {
      "epoch": 0.8571641346440274,
      "grad_norm": 5.304752826690674,
      "learning_rate": 2.142537980339589e-05,
      "loss": 0.7159,
      "num_input_tokens_seen": 3341376,
      "step": 5755
    },
    {
      "epoch": 0.8579088471849866,
      "grad_norm": 9.881118774414062,
      "learning_rate": 2.144399761691987e-05,
      "loss": 0.8757,
      "num_input_tokens_seen": 3343904,
      "step": 5760
    },
    {
      "epoch": 0.8586535597259458,
      "grad_norm": 4.108044624328613,
      "learning_rate": 2.146261543044385e-05,
      "loss": 0.4923,
      "num_input_tokens_seen": 3346944,
      "step": 5765
    },
    {
      "epoch": 0.859398272266905,
      "grad_norm": 5.472107410430908,
      "learning_rate": 2.148123324396783e-05,
      "loss": 0.7237,
      "num_input_tokens_seen": 3350080,
      "step": 5770
    },
    {
      "epoch": 0.8601429848078642,
      "grad_norm": 3.197721242904663,
      "learning_rate": 2.149985105749181e-05,
      "loss": 0.6859,
      "num_input_tokens_seen": 3353280,
      "step": 5775
    },
    {
      "epoch": 0.8608876973488233,
      "grad_norm": 4.415463447570801,
      "learning_rate": 2.151846887101579e-05,
      "loss": 0.6488,
      "num_input_tokens_seen": 3356096,
      "step": 5780
    },
    {
      "epoch": 0.8616324098897825,
      "grad_norm": 4.331266403198242,
      "learning_rate": 2.153708668453977e-05,
      "loss": 0.6871,
      "num_input_tokens_seen": 3359104,
      "step": 5785
    },
    {
      "epoch": 0.8623771224307417,
      "grad_norm": 5.782515525817871,
      "learning_rate": 2.1555704498063747e-05,
      "loss": 0.5487,
      "num_input_tokens_seen": 3362048,
      "step": 5790
    },
    {
      "epoch": 0.8631218349717009,
      "grad_norm": 7.418590068817139,
      "learning_rate": 2.157432231158773e-05,
      "loss": 0.8114,
      "num_input_tokens_seen": 3364768,
      "step": 5795
    },
    {
      "epoch": 0.8638665475126601,
      "grad_norm": 4.582047462463379,
      "learning_rate": 2.1592940125111707e-05,
      "loss": 0.6335,
      "num_input_tokens_seen": 3367744,
      "step": 5800
    },
    {
      "epoch": 0.8646112600536193,
      "grad_norm": 4.532110691070557,
      "learning_rate": 2.161155793863569e-05,
      "loss": 0.715,
      "num_input_tokens_seen": 3370624,
      "step": 5805
    },
    {
      "epoch": 0.8653559725945785,
      "grad_norm": 7.1704230308532715,
      "learning_rate": 2.1630175752159667e-05,
      "loss": 0.662,
      "num_input_tokens_seen": 3373632,
      "step": 5810
    },
    {
      "epoch": 0.8661006851355377,
      "grad_norm": 5.952321529388428,
      "learning_rate": 2.164879356568365e-05,
      "loss": 0.7659,
      "num_input_tokens_seen": 3376608,
      "step": 5815
    },
    {
      "epoch": 0.8668453976764968,
      "grad_norm": 5.505003929138184,
      "learning_rate": 2.1667411379207627e-05,
      "loss": 0.6474,
      "num_input_tokens_seen": 3379648,
      "step": 5820
    },
    {
      "epoch": 0.867590110217456,
      "grad_norm": 7.08038330078125,
      "learning_rate": 2.1686029192731608e-05,
      "loss": 0.6725,
      "num_input_tokens_seen": 3382496,
      "step": 5825
    },
    {
      "epoch": 0.8683348227584152,
      "grad_norm": 6.895234107971191,
      "learning_rate": 2.1704647006255586e-05,
      "loss": 0.5515,
      "num_input_tokens_seen": 3385120,
      "step": 5830
    },
    {
      "epoch": 0.8690795352993744,
      "grad_norm": 9.387151718139648,
      "learning_rate": 2.1723264819779565e-05,
      "loss": 0.6789,
      "num_input_tokens_seen": 3388096,
      "step": 5835
    },
    {
      "epoch": 0.8698242478403336,
      "grad_norm": 4.953916072845459,
      "learning_rate": 2.1741882633303546e-05,
      "loss": 0.8023,
      "num_input_tokens_seen": 3390976,
      "step": 5840
    },
    {
      "epoch": 0.8705689603812928,
      "grad_norm": 5.8574981689453125,
      "learning_rate": 2.1760500446827525e-05,
      "loss": 0.4476,
      "num_input_tokens_seen": 3393760,
      "step": 5845
    },
    {
      "epoch": 0.871313672922252,
      "grad_norm": 8.352018356323242,
      "learning_rate": 2.1779118260351506e-05,
      "loss": 0.6194,
      "num_input_tokens_seen": 3396992,
      "step": 5850
    },
    {
      "epoch": 0.8720583854632112,
      "grad_norm": 5.670097351074219,
      "learning_rate": 2.1797736073875484e-05,
      "loss": 0.7592,
      "num_input_tokens_seen": 3399776,
      "step": 5855
    },
    {
      "epoch": 0.8728030980041704,
      "grad_norm": 3.438257932662964,
      "learning_rate": 2.1816353887399466e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 3402880,
      "step": 5860
    },
    {
      "epoch": 0.8735478105451295,
      "grad_norm": 11.836706161499023,
      "learning_rate": 2.1834971700923444e-05,
      "loss": 0.6279,
      "num_input_tokens_seen": 3405920,
      "step": 5865
    },
    {
      "epoch": 0.8742925230860887,
      "grad_norm": 5.574734687805176,
      "learning_rate": 2.1853589514447426e-05,
      "loss": 0.7753,
      "num_input_tokens_seen": 3408704,
      "step": 5870
    },
    {
      "epoch": 0.8750372356270479,
      "grad_norm": 8.243979454040527,
      "learning_rate": 2.1872207327971404e-05,
      "loss": 0.5477,
      "num_input_tokens_seen": 3411840,
      "step": 5875
    },
    {
      "epoch": 0.8757819481680071,
      "grad_norm": 10.533713340759277,
      "learning_rate": 2.1890825141495382e-05,
      "loss": 0.7177,
      "num_input_tokens_seen": 3414560,
      "step": 5880
    },
    {
      "epoch": 0.8765266607089663,
      "grad_norm": 6.411656379699707,
      "learning_rate": 2.1909442955019364e-05,
      "loss": 0.7456,
      "num_input_tokens_seen": 3417440,
      "step": 5885
    },
    {
      "epoch": 0.8772713732499255,
      "grad_norm": 4.777632713317871,
      "learning_rate": 2.1928060768543342e-05,
      "loss": 0.583,
      "num_input_tokens_seen": 3420512,
      "step": 5890
    },
    {
      "epoch": 0.8780160857908847,
      "grad_norm": 6.410059928894043,
      "learning_rate": 2.1946678582067324e-05,
      "loss": 0.6384,
      "num_input_tokens_seen": 3423424,
      "step": 5895
    },
    {
      "epoch": 0.878760798331844,
      "grad_norm": 12.400896072387695,
      "learning_rate": 2.1965296395591302e-05,
      "loss": 0.6185,
      "num_input_tokens_seen": 3426368,
      "step": 5900
    },
    {
      "epoch": 0.8795055108728032,
      "grad_norm": 9.428993225097656,
      "learning_rate": 2.1983914209115284e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 3429440,
      "step": 5905
    },
    {
      "epoch": 0.8802502234137622,
      "grad_norm": 9.740345001220703,
      "learning_rate": 2.2002532022639262e-05,
      "loss": 0.8013,
      "num_input_tokens_seen": 3432352,
      "step": 5910
    },
    {
      "epoch": 0.8809949359547214,
      "grad_norm": 6.374721527099609,
      "learning_rate": 2.202114983616324e-05,
      "loss": 0.6074,
      "num_input_tokens_seen": 3435552,
      "step": 5915
    },
    {
      "epoch": 0.8817396484956807,
      "grad_norm": 11.779884338378906,
      "learning_rate": 2.2039767649687222e-05,
      "loss": 0.7727,
      "num_input_tokens_seen": 3438560,
      "step": 5920
    },
    {
      "epoch": 0.8824843610366399,
      "grad_norm": 7.343808650970459,
      "learning_rate": 2.20583854632112e-05,
      "loss": 0.747,
      "num_input_tokens_seen": 3441344,
      "step": 5925
    },
    {
      "epoch": 0.883229073577599,
      "grad_norm": 10.304844856262207,
      "learning_rate": 2.207700327673518e-05,
      "loss": 0.5909,
      "num_input_tokens_seen": 3444448,
      "step": 5930
    },
    {
      "epoch": 0.8839737861185583,
      "grad_norm": 5.493964672088623,
      "learning_rate": 2.209562109025916e-05,
      "loss": 0.7158,
      "num_input_tokens_seen": 3447232,
      "step": 5935
    },
    {
      "epoch": 0.8847184986595175,
      "grad_norm": 4.552948951721191,
      "learning_rate": 2.211423890378314e-05,
      "loss": 0.5146,
      "num_input_tokens_seen": 3449856,
      "step": 5940
    },
    {
      "epoch": 0.8854632112004767,
      "grad_norm": 5.844273090362549,
      "learning_rate": 2.213285671730712e-05,
      "loss": 0.6323,
      "num_input_tokens_seen": 3452640,
      "step": 5945
    },
    {
      "epoch": 0.8862079237414358,
      "grad_norm": 4.904341220855713,
      "learning_rate": 2.21514745308311e-05,
      "loss": 0.6309,
      "num_input_tokens_seen": 3455648,
      "step": 5950
    },
    {
      "epoch": 0.886952636282395,
      "grad_norm": 4.195915699005127,
      "learning_rate": 2.2170092344355083e-05,
      "loss": 0.71,
      "num_input_tokens_seen": 3458592,
      "step": 5955
    },
    {
      "epoch": 0.8876973488233542,
      "grad_norm": 11.132017135620117,
      "learning_rate": 2.2188710157879058e-05,
      "loss": 0.657,
      "num_input_tokens_seen": 3461184,
      "step": 5960
    },
    {
      "epoch": 0.8884420613643134,
      "grad_norm": 7.462666034698486,
      "learning_rate": 2.220732797140304e-05,
      "loss": 0.7404,
      "num_input_tokens_seen": 3464224,
      "step": 5965
    },
    {
      "epoch": 0.8891867739052726,
      "grad_norm": 12.500579833984375,
      "learning_rate": 2.2225945784927018e-05,
      "loss": 0.7917,
      "num_input_tokens_seen": 3467456,
      "step": 5970
    },
    {
      "epoch": 0.8899314864462318,
      "grad_norm": 5.956093788146973,
      "learning_rate": 2.2244563598451e-05,
      "loss": 0.8316,
      "num_input_tokens_seen": 3470272,
      "step": 5975
    },
    {
      "epoch": 0.890676198987191,
      "grad_norm": 8.023602485656738,
      "learning_rate": 2.2263181411974977e-05,
      "loss": 0.7109,
      "num_input_tokens_seen": 3473248,
      "step": 5980
    },
    {
      "epoch": 0.8914209115281502,
      "grad_norm": 9.061275482177734,
      "learning_rate": 2.228179922549896e-05,
      "loss": 0.6483,
      "num_input_tokens_seen": 3475936,
      "step": 5985
    },
    {
      "epoch": 0.8921656240691094,
      "grad_norm": 2.4938955307006836,
      "learning_rate": 2.2300417039022937e-05,
      "loss": 0.5816,
      "num_input_tokens_seen": 3478688,
      "step": 5990
    },
    {
      "epoch": 0.8929103366100685,
      "grad_norm": 9.5554780960083,
      "learning_rate": 2.231903485254692e-05,
      "loss": 0.7848,
      "num_input_tokens_seen": 3481376,
      "step": 5995
    },
    {
      "epoch": 0.8936550491510277,
      "grad_norm": 4.3425517082214355,
      "learning_rate": 2.23376526660709e-05,
      "loss": 0.583,
      "num_input_tokens_seen": 3484064,
      "step": 6000
    },
    {
      "epoch": 0.8943997616919869,
      "grad_norm": 5.554135322570801,
      "learning_rate": 2.2356270479594875e-05,
      "loss": 0.6218,
      "num_input_tokens_seen": 3486912,
      "step": 6005
    },
    {
      "epoch": 0.8951444742329461,
      "grad_norm": 7.878096580505371,
      "learning_rate": 2.2374888293118857e-05,
      "loss": 0.6361,
      "num_input_tokens_seen": 3489984,
      "step": 6010
    },
    {
      "epoch": 0.8958891867739053,
      "grad_norm": 5.14258337020874,
      "learning_rate": 2.2393506106642835e-05,
      "loss": 0.6822,
      "num_input_tokens_seen": 3492896,
      "step": 6015
    },
    {
      "epoch": 0.8966338993148645,
      "grad_norm": 5.589601993560791,
      "learning_rate": 2.2412123920166817e-05,
      "loss": 0.6899,
      "num_input_tokens_seen": 3495808,
      "step": 6020
    },
    {
      "epoch": 0.8973786118558237,
      "grad_norm": 4.9170451164245605,
      "learning_rate": 2.2430741733690795e-05,
      "loss": 0.7059,
      "num_input_tokens_seen": 3498944,
      "step": 6025
    },
    {
      "epoch": 0.8981233243967829,
      "grad_norm": 3.668384313583374,
      "learning_rate": 2.2449359547214777e-05,
      "loss": 0.6148,
      "num_input_tokens_seen": 3501792,
      "step": 6030
    },
    {
      "epoch": 0.898868036937742,
      "grad_norm": 3.817505359649658,
      "learning_rate": 2.246797736073876e-05,
      "loss": 0.6095,
      "num_input_tokens_seen": 3504480,
      "step": 6035
    },
    {
      "epoch": 0.8996127494787012,
      "grad_norm": 3.8551409244537354,
      "learning_rate": 2.2486595174262737e-05,
      "loss": 0.6308,
      "num_input_tokens_seen": 3507584,
      "step": 6040
    },
    {
      "epoch": 0.9003574620196604,
      "grad_norm": 7.272648811340332,
      "learning_rate": 2.2505212987786715e-05,
      "loss": 0.764,
      "num_input_tokens_seen": 3510624,
      "step": 6045
    },
    {
      "epoch": 0.9011021745606196,
      "grad_norm": 5.949704647064209,
      "learning_rate": 2.2523830801310693e-05,
      "loss": 0.8601,
      "num_input_tokens_seen": 3513728,
      "step": 6050
    },
    {
      "epoch": 0.9018468871015788,
      "grad_norm": 6.777688980102539,
      "learning_rate": 2.2542448614834675e-05,
      "loss": 0.5949,
      "num_input_tokens_seen": 3516704,
      "step": 6055
    },
    {
      "epoch": 0.902591599642538,
      "grad_norm": 8.7153959274292,
      "learning_rate": 2.2561066428358653e-05,
      "loss": 0.7264,
      "num_input_tokens_seen": 3519424,
      "step": 6060
    },
    {
      "epoch": 0.9033363121834972,
      "grad_norm": 7.88778829574585,
      "learning_rate": 2.2579684241882634e-05,
      "loss": 0.6768,
      "num_input_tokens_seen": 3522464,
      "step": 6065
    },
    {
      "epoch": 0.9040810247244564,
      "grad_norm": 10.478265762329102,
      "learning_rate": 2.2598302055406613e-05,
      "loss": 0.7996,
      "num_input_tokens_seen": 3525536,
      "step": 6070
    },
    {
      "epoch": 0.9048257372654156,
      "grad_norm": 3.2919511795043945,
      "learning_rate": 2.2616919868930594e-05,
      "loss": 0.7347,
      "num_input_tokens_seen": 3528192,
      "step": 6075
    },
    {
      "epoch": 0.9055704498063747,
      "grad_norm": 4.463881492614746,
      "learning_rate": 2.2635537682454576e-05,
      "loss": 0.7072,
      "num_input_tokens_seen": 3531040,
      "step": 6080
    },
    {
      "epoch": 0.9063151623473339,
      "grad_norm": 4.13511323928833,
      "learning_rate": 2.2654155495978554e-05,
      "loss": 0.6499,
      "num_input_tokens_seen": 3533888,
      "step": 6085
    },
    {
      "epoch": 0.9070598748882931,
      "grad_norm": 4.546114921569824,
      "learning_rate": 2.2672773309502532e-05,
      "loss": 0.6114,
      "num_input_tokens_seen": 3536640,
      "step": 6090
    },
    {
      "epoch": 0.9078045874292523,
      "grad_norm": 3.7408218383789062,
      "learning_rate": 2.269139112302651e-05,
      "loss": 0.6888,
      "num_input_tokens_seen": 3539296,
      "step": 6095
    },
    {
      "epoch": 0.9085492999702115,
      "grad_norm": 6.125711441040039,
      "learning_rate": 2.2710008936550492e-05,
      "loss": 0.652,
      "num_input_tokens_seen": 3542112,
      "step": 6100
    },
    {
      "epoch": 0.9092940125111707,
      "grad_norm": 7.522233009338379,
      "learning_rate": 2.272862675007447e-05,
      "loss": 0.6482,
      "num_input_tokens_seen": 3545056,
      "step": 6105
    },
    {
      "epoch": 0.9100387250521299,
      "grad_norm": 5.52991247177124,
      "learning_rate": 2.2747244563598452e-05,
      "loss": 0.6816,
      "num_input_tokens_seen": 3548000,
      "step": 6110
    },
    {
      "epoch": 0.9107834375930891,
      "grad_norm": 6.625336170196533,
      "learning_rate": 2.2765862377122434e-05,
      "loss": 0.6591,
      "num_input_tokens_seen": 3551072,
      "step": 6115
    },
    {
      "epoch": 0.9115281501340483,
      "grad_norm": 5.319996356964111,
      "learning_rate": 2.2784480190646412e-05,
      "loss": 0.7076,
      "num_input_tokens_seen": 3554048,
      "step": 6120
    },
    {
      "epoch": 0.9122728626750074,
      "grad_norm": 4.41530704498291,
      "learning_rate": 2.2803098004170394e-05,
      "loss": 0.7414,
      "num_input_tokens_seen": 3556992,
      "step": 6125
    },
    {
      "epoch": 0.9130175752159666,
      "grad_norm": 6.326066017150879,
      "learning_rate": 2.2821715817694372e-05,
      "loss": 0.5988,
      "num_input_tokens_seen": 3559616,
      "step": 6130
    },
    {
      "epoch": 0.9137622877569258,
      "grad_norm": 3.947122573852539,
      "learning_rate": 2.284033363121835e-05,
      "loss": 0.7467,
      "num_input_tokens_seen": 3562752,
      "step": 6135
    },
    {
      "epoch": 0.914507000297885,
      "grad_norm": 6.326956272125244,
      "learning_rate": 2.2858951444742328e-05,
      "loss": 0.6733,
      "num_input_tokens_seen": 3565536,
      "step": 6140
    },
    {
      "epoch": 0.9152517128388442,
      "grad_norm": 4.190258026123047,
      "learning_rate": 2.287756925826631e-05,
      "loss": 0.5768,
      "num_input_tokens_seen": 3568160,
      "step": 6145
    },
    {
      "epoch": 0.9159964253798034,
      "grad_norm": 4.4582719802856445,
      "learning_rate": 2.289618707179029e-05,
      "loss": 0.6991,
      "num_input_tokens_seen": 3571008,
      "step": 6150
    },
    {
      "epoch": 0.9167411379207626,
      "grad_norm": 5.097720146179199,
      "learning_rate": 2.291480488531427e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 3573952,
      "step": 6155
    },
    {
      "epoch": 0.9174858504617218,
      "grad_norm": 4.4008660316467285,
      "learning_rate": 2.293342269883825e-05,
      "loss": 0.6851,
      "num_input_tokens_seen": 3576928,
      "step": 6160
    },
    {
      "epoch": 0.9182305630026809,
      "grad_norm": 5.943122863769531,
      "learning_rate": 2.295204051236223e-05,
      "loss": 0.6828,
      "num_input_tokens_seen": 3579616,
      "step": 6165
    },
    {
      "epoch": 0.9189752755436401,
      "grad_norm": 3.010072708129883,
      "learning_rate": 2.297065832588621e-05,
      "loss": 0.7683,
      "num_input_tokens_seen": 3582432,
      "step": 6170
    },
    {
      "epoch": 0.9197199880845993,
      "grad_norm": 3.5599968433380127,
      "learning_rate": 2.2989276139410186e-05,
      "loss": 0.5771,
      "num_input_tokens_seen": 3585536,
      "step": 6175
    },
    {
      "epoch": 0.9204647006255585,
      "grad_norm": 3.868933916091919,
      "learning_rate": 2.3007893952934168e-05,
      "loss": 0.8062,
      "num_input_tokens_seen": 3588448,
      "step": 6180
    },
    {
      "epoch": 0.9212094131665177,
      "grad_norm": 4.417104244232178,
      "learning_rate": 2.3026511766458146e-05,
      "loss": 0.6573,
      "num_input_tokens_seen": 3591200,
      "step": 6185
    },
    {
      "epoch": 0.9219541257074769,
      "grad_norm": 2.951000213623047,
      "learning_rate": 2.3045129579982128e-05,
      "loss": 0.7515,
      "num_input_tokens_seen": 3593888,
      "step": 6190
    },
    {
      "epoch": 0.9226988382484361,
      "grad_norm": 4.098180770874023,
      "learning_rate": 2.306374739350611e-05,
      "loss": 0.7164,
      "num_input_tokens_seen": 3596992,
      "step": 6195
    },
    {
      "epoch": 0.9234435507893953,
      "grad_norm": 4.0110650062561035,
      "learning_rate": 2.3082365207030087e-05,
      "loss": 0.701,
      "num_input_tokens_seen": 3599712,
      "step": 6200
    },
    {
      "epoch": 0.9241882633303545,
      "grad_norm": 4.280454158782959,
      "learning_rate": 2.310098302055407e-05,
      "loss": 0.6289,
      "num_input_tokens_seen": 3602528,
      "step": 6205
    },
    {
      "epoch": 0.9249329758713136,
      "grad_norm": 6.044973850250244,
      "learning_rate": 2.3119600834078047e-05,
      "loss": 0.792,
      "num_input_tokens_seen": 3605440,
      "step": 6210
    },
    {
      "epoch": 0.9256776884122728,
      "grad_norm": 3.260364532470703,
      "learning_rate": 2.313821864760203e-05,
      "loss": 0.7531,
      "num_input_tokens_seen": 3608192,
      "step": 6215
    },
    {
      "epoch": 0.926422400953232,
      "grad_norm": 7.424780368804932,
      "learning_rate": 2.3156836461126004e-05,
      "loss": 0.7233,
      "num_input_tokens_seen": 3610688,
      "step": 6220
    },
    {
      "epoch": 0.9271671134941912,
      "grad_norm": 4.630191326141357,
      "learning_rate": 2.3175454274649985e-05,
      "loss": 0.7313,
      "num_input_tokens_seen": 3613600,
      "step": 6225
    },
    {
      "epoch": 0.9279118260351504,
      "grad_norm": 5.7342400550842285,
      "learning_rate": 2.3194072088173967e-05,
      "loss": 0.6766,
      "num_input_tokens_seen": 3616512,
      "step": 6230
    },
    {
      "epoch": 0.9286565385761096,
      "grad_norm": 3.95565128326416,
      "learning_rate": 2.3212689901697945e-05,
      "loss": 0.53,
      "num_input_tokens_seen": 3619552,
      "step": 6235
    },
    {
      "epoch": 0.9294012511170688,
      "grad_norm": 6.023589611053467,
      "learning_rate": 2.3231307715221927e-05,
      "loss": 0.7164,
      "num_input_tokens_seen": 3622496,
      "step": 6240
    },
    {
      "epoch": 0.930145963658028,
      "grad_norm": 6.8565568923950195,
      "learning_rate": 2.3249925528745905e-05,
      "loss": 0.6271,
      "num_input_tokens_seen": 3625408,
      "step": 6245
    },
    {
      "epoch": 0.9308906761989872,
      "grad_norm": 6.23949670791626,
      "learning_rate": 2.3268543342269887e-05,
      "loss": 0.7195,
      "num_input_tokens_seen": 3628320,
      "step": 6250
    },
    {
      "epoch": 0.9316353887399463,
      "grad_norm": 5.370483875274658,
      "learning_rate": 2.3287161155793865e-05,
      "loss": 0.8127,
      "num_input_tokens_seen": 3631008,
      "step": 6255
    },
    {
      "epoch": 0.9323801012809055,
      "grad_norm": 5.824572563171387,
      "learning_rate": 2.3305778969317847e-05,
      "loss": 0.664,
      "num_input_tokens_seen": 3633728,
      "step": 6260
    },
    {
      "epoch": 0.9331248138218647,
      "grad_norm": 5.174694538116455,
      "learning_rate": 2.332439678284182e-05,
      "loss": 0.7259,
      "num_input_tokens_seen": 3636256,
      "step": 6265
    },
    {
      "epoch": 0.9338695263628239,
      "grad_norm": 4.218231201171875,
      "learning_rate": 2.3343014596365803e-05,
      "loss": 0.6966,
      "num_input_tokens_seen": 3638912,
      "step": 6270
    },
    {
      "epoch": 0.9346142389037831,
      "grad_norm": 5.268651485443115,
      "learning_rate": 2.3361632409889785e-05,
      "loss": 0.5698,
      "num_input_tokens_seen": 3641856,
      "step": 6275
    },
    {
      "epoch": 0.9353589514447423,
      "grad_norm": 4.167572975158691,
      "learning_rate": 2.3380250223413763e-05,
      "loss": 0.6452,
      "num_input_tokens_seen": 3644704,
      "step": 6280
    },
    {
      "epoch": 0.9361036639857016,
      "grad_norm": 5.525144577026367,
      "learning_rate": 2.3398868036937744e-05,
      "loss": 0.6787,
      "num_input_tokens_seen": 3647712,
      "step": 6285
    },
    {
      "epoch": 0.9368483765266608,
      "grad_norm": 4.20106840133667,
      "learning_rate": 2.3417485850461723e-05,
      "loss": 0.5582,
      "num_input_tokens_seen": 3650272,
      "step": 6290
    },
    {
      "epoch": 0.9375930890676198,
      "grad_norm": 3.807166576385498,
      "learning_rate": 2.3436103663985704e-05,
      "loss": 0.7113,
      "num_input_tokens_seen": 3653568,
      "step": 6295
    },
    {
      "epoch": 0.938337801608579,
      "grad_norm": 5.399805545806885,
      "learning_rate": 2.3454721477509683e-05,
      "loss": 0.8113,
      "num_input_tokens_seen": 3656480,
      "step": 6300
    },
    {
      "epoch": 0.9390825141495382,
      "grad_norm": 8.523886680603027,
      "learning_rate": 2.347333929103366e-05,
      "loss": 0.6491,
      "num_input_tokens_seen": 3659360,
      "step": 6305
    },
    {
      "epoch": 0.9398272266904975,
      "grad_norm": 7.302773952484131,
      "learning_rate": 2.3491957104557642e-05,
      "loss": 0.6208,
      "num_input_tokens_seen": 3662336,
      "step": 6310
    },
    {
      "epoch": 0.9405719392314567,
      "grad_norm": 5.25117301940918,
      "learning_rate": 2.351057491808162e-05,
      "loss": 0.6748,
      "num_input_tokens_seen": 3665408,
      "step": 6315
    },
    {
      "epoch": 0.9413166517724159,
      "grad_norm": 5.254406929016113,
      "learning_rate": 2.3529192731605602e-05,
      "loss": 0.6969,
      "num_input_tokens_seen": 3668416,
      "step": 6320
    },
    {
      "epoch": 0.9420613643133751,
      "grad_norm": 3.565851926803589,
      "learning_rate": 2.354781054512958e-05,
      "loss": 0.6681,
      "num_input_tokens_seen": 3671392,
      "step": 6325
    },
    {
      "epoch": 0.9428060768543343,
      "grad_norm": 3.8258566856384277,
      "learning_rate": 2.3566428358653562e-05,
      "loss": 0.6838,
      "num_input_tokens_seen": 3674272,
      "step": 6330
    },
    {
      "epoch": 0.9435507893952935,
      "grad_norm": 9.329683303833008,
      "learning_rate": 2.358504617217754e-05,
      "loss": 0.7055,
      "num_input_tokens_seen": 3677216,
      "step": 6335
    },
    {
      "epoch": 0.9442955019362526,
      "grad_norm": 9.341235160827637,
      "learning_rate": 2.3603663985701522e-05,
      "loss": 0.7723,
      "num_input_tokens_seen": 3680032,
      "step": 6340
    },
    {
      "epoch": 0.9450402144772118,
      "grad_norm": 6.061506271362305,
      "learning_rate": 2.36222817992255e-05,
      "loss": 0.7614,
      "num_input_tokens_seen": 3682784,
      "step": 6345
    },
    {
      "epoch": 0.945784927018171,
      "grad_norm": 5.8559746742248535,
      "learning_rate": 2.364089961274948e-05,
      "loss": 0.682,
      "num_input_tokens_seen": 3685696,
      "step": 6350
    },
    {
      "epoch": 0.9465296395591302,
      "grad_norm": 4.250822067260742,
      "learning_rate": 2.365951742627346e-05,
      "loss": 0.7258,
      "num_input_tokens_seen": 3688704,
      "step": 6355
    },
    {
      "epoch": 0.9472743521000894,
      "grad_norm": 5.330202102661133,
      "learning_rate": 2.3678135239797438e-05,
      "loss": 0.7554,
      "num_input_tokens_seen": 3691968,
      "step": 6360
    },
    {
      "epoch": 0.9480190646410486,
      "grad_norm": 4.30747127532959,
      "learning_rate": 2.369675305332142e-05,
      "loss": 0.5889,
      "num_input_tokens_seen": 3695072,
      "step": 6365
    },
    {
      "epoch": 0.9487637771820078,
      "grad_norm": 5.092556476593018,
      "learning_rate": 2.3715370866845398e-05,
      "loss": 0.592,
      "num_input_tokens_seen": 3697760,
      "step": 6370
    },
    {
      "epoch": 0.949508489722967,
      "grad_norm": 4.152111530303955,
      "learning_rate": 2.373398868036938e-05,
      "loss": 0.762,
      "num_input_tokens_seen": 3700864,
      "step": 6375
    },
    {
      "epoch": 0.9502532022639262,
      "grad_norm": 4.89588737487793,
      "learning_rate": 2.3752606493893358e-05,
      "loss": 0.5835,
      "num_input_tokens_seen": 3703776,
      "step": 6380
    },
    {
      "epoch": 0.9509979148048853,
      "grad_norm": 6.0448079109191895,
      "learning_rate": 2.377122430741734e-05,
      "loss": 0.5764,
      "num_input_tokens_seen": 3706336,
      "step": 6385
    },
    {
      "epoch": 0.9517426273458445,
      "grad_norm": 5.185279846191406,
      "learning_rate": 2.3789842120941318e-05,
      "loss": 0.7426,
      "num_input_tokens_seen": 3709344,
      "step": 6390
    },
    {
      "epoch": 0.9524873398868037,
      "grad_norm": 4.131460189819336,
      "learning_rate": 2.3808459934465296e-05,
      "loss": 0.6549,
      "num_input_tokens_seen": 3712128,
      "step": 6395
    },
    {
      "epoch": 0.9532320524277629,
      "grad_norm": 5.01499605178833,
      "learning_rate": 2.3827077747989278e-05,
      "loss": 0.8375,
      "num_input_tokens_seen": 3715328,
      "step": 6400
    },
    {
      "epoch": 0.9539767649687221,
      "grad_norm": 6.097907543182373,
      "learning_rate": 2.3845695561513256e-05,
      "loss": 0.5848,
      "num_input_tokens_seen": 3718592,
      "step": 6405
    },
    {
      "epoch": 0.9547214775096813,
      "grad_norm": 4.400290012359619,
      "learning_rate": 2.3864313375037238e-05,
      "loss": 0.7084,
      "num_input_tokens_seen": 3721568,
      "step": 6410
    },
    {
      "epoch": 0.9554661900506405,
      "grad_norm": 3.8790905475616455,
      "learning_rate": 2.3882931188561216e-05,
      "loss": 0.6746,
      "num_input_tokens_seen": 3724416,
      "step": 6415
    },
    {
      "epoch": 0.9562109025915997,
      "grad_norm": 8.073317527770996,
      "learning_rate": 2.3901549002085197e-05,
      "loss": 0.6167,
      "num_input_tokens_seen": 3727360,
      "step": 6420
    },
    {
      "epoch": 0.9569556151325588,
      "grad_norm": 5.16888427734375,
      "learning_rate": 2.3920166815609176e-05,
      "loss": 0.6759,
      "num_input_tokens_seen": 3730208,
      "step": 6425
    },
    {
      "epoch": 0.957700327673518,
      "grad_norm": 4.735907554626465,
      "learning_rate": 2.3938784629133157e-05,
      "loss": 0.6513,
      "num_input_tokens_seen": 3732864,
      "step": 6430
    },
    {
      "epoch": 0.9584450402144772,
      "grad_norm": 5.633520126342773,
      "learning_rate": 2.3957402442657135e-05,
      "loss": 0.7551,
      "num_input_tokens_seen": 3735712,
      "step": 6435
    },
    {
      "epoch": 0.9591897527554364,
      "grad_norm": 4.3876214027404785,
      "learning_rate": 2.3976020256181114e-05,
      "loss": 0.8535,
      "num_input_tokens_seen": 3738560,
      "step": 6440
    },
    {
      "epoch": 0.9599344652963956,
      "grad_norm": 2.825713634490967,
      "learning_rate": 2.3994638069705095e-05,
      "loss": 0.63,
      "num_input_tokens_seen": 3741504,
      "step": 6445
    },
    {
      "epoch": 0.9606791778373548,
      "grad_norm": 4.654659748077393,
      "learning_rate": 2.4013255883229074e-05,
      "loss": 0.7477,
      "num_input_tokens_seen": 3744320,
      "step": 6450
    },
    {
      "epoch": 0.961423890378314,
      "grad_norm": 4.081508159637451,
      "learning_rate": 2.4031873696753055e-05,
      "loss": 0.5585,
      "num_input_tokens_seen": 3747040,
      "step": 6455
    },
    {
      "epoch": 0.9621686029192732,
      "grad_norm": 3.285808801651001,
      "learning_rate": 2.4050491510277033e-05,
      "loss": 0.5273,
      "num_input_tokens_seen": 3749856,
      "step": 6460
    },
    {
      "epoch": 0.9629133154602324,
      "grad_norm": 4.673909664154053,
      "learning_rate": 2.4069109323801015e-05,
      "loss": 0.6519,
      "num_input_tokens_seen": 3752544,
      "step": 6465
    },
    {
      "epoch": 0.9636580280011915,
      "grad_norm": 6.603177547454834,
      "learning_rate": 2.4087727137324993e-05,
      "loss": 0.7491,
      "num_input_tokens_seen": 3755456,
      "step": 6470
    },
    {
      "epoch": 0.9644027405421507,
      "grad_norm": 6.331472873687744,
      "learning_rate": 2.4106344950848975e-05,
      "loss": 0.7322,
      "num_input_tokens_seen": 3758176,
      "step": 6475
    },
    {
      "epoch": 0.9651474530831099,
      "grad_norm": 5.650402069091797,
      "learning_rate": 2.4124962764372953e-05,
      "loss": 0.6089,
      "num_input_tokens_seen": 3761152,
      "step": 6480
    },
    {
      "epoch": 0.9658921656240691,
      "grad_norm": 5.324400901794434,
      "learning_rate": 2.414358057789693e-05,
      "loss": 0.7547,
      "num_input_tokens_seen": 3764512,
      "step": 6485
    },
    {
      "epoch": 0.9666368781650283,
      "grad_norm": 5.159728527069092,
      "learning_rate": 2.4162198391420913e-05,
      "loss": 0.5875,
      "num_input_tokens_seen": 3767488,
      "step": 6490
    },
    {
      "epoch": 0.9673815907059875,
      "grad_norm": 6.06925106048584,
      "learning_rate": 2.418081620494489e-05,
      "loss": 0.8102,
      "num_input_tokens_seen": 3770464,
      "step": 6495
    },
    {
      "epoch": 0.9681263032469467,
      "grad_norm": 4.128102779388428,
      "learning_rate": 2.4199434018468873e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 3773376,
      "step": 6500
    },
    {
      "epoch": 0.9688710157879059,
      "grad_norm": 4.965777397155762,
      "learning_rate": 2.421805183199285e-05,
      "loss": 0.5841,
      "num_input_tokens_seen": 3776320,
      "step": 6505
    },
    {
      "epoch": 0.9696157283288651,
      "grad_norm": 7.147095680236816,
      "learning_rate": 2.4236669645516833e-05,
      "loss": 0.7273,
      "num_input_tokens_seen": 3779296,
      "step": 6510
    },
    {
      "epoch": 0.9703604408698242,
      "grad_norm": 3.9680888652801514,
      "learning_rate": 2.425528745904081e-05,
      "loss": 0.7214,
      "num_input_tokens_seen": 3782400,
      "step": 6515
    },
    {
      "epoch": 0.9711051534107834,
      "grad_norm": 9.39133358001709,
      "learning_rate": 2.4273905272564793e-05,
      "loss": 0.7836,
      "num_input_tokens_seen": 3785088,
      "step": 6520
    },
    {
      "epoch": 0.9718498659517426,
      "grad_norm": 3.7295005321502686,
      "learning_rate": 2.429252308608877e-05,
      "loss": 0.6492,
      "num_input_tokens_seen": 3788000,
      "step": 6525
    },
    {
      "epoch": 0.9725945784927018,
      "grad_norm": 4.865349292755127,
      "learning_rate": 2.431114089961275e-05,
      "loss": 0.5182,
      "num_input_tokens_seen": 3791040,
      "step": 6530
    },
    {
      "epoch": 0.973339291033661,
      "grad_norm": 4.054232120513916,
      "learning_rate": 2.432975871313673e-05,
      "loss": 0.7515,
      "num_input_tokens_seen": 3794144,
      "step": 6535
    },
    {
      "epoch": 0.9740840035746202,
      "grad_norm": 8.860464096069336,
      "learning_rate": 2.434837652666071e-05,
      "loss": 0.6747,
      "num_input_tokens_seen": 3797184,
      "step": 6540
    },
    {
      "epoch": 0.9748287161155794,
      "grad_norm": 3.4154210090637207,
      "learning_rate": 2.436699434018469e-05,
      "loss": 0.5874,
      "num_input_tokens_seen": 3800160,
      "step": 6545
    },
    {
      "epoch": 0.9755734286565386,
      "grad_norm": 2.5471351146698,
      "learning_rate": 2.438561215370867e-05,
      "loss": 0.6755,
      "num_input_tokens_seen": 3803072,
      "step": 6550
    },
    {
      "epoch": 0.9763181411974977,
      "grad_norm": 4.103658676147461,
      "learning_rate": 2.440422996723265e-05,
      "loss": 0.4968,
      "num_input_tokens_seen": 3805888,
      "step": 6555
    },
    {
      "epoch": 0.9770628537384569,
      "grad_norm": 6.720520496368408,
      "learning_rate": 2.4422847780756632e-05,
      "loss": 0.6232,
      "num_input_tokens_seen": 3808512,
      "step": 6560
    },
    {
      "epoch": 0.9778075662794161,
      "grad_norm": 5.855038642883301,
      "learning_rate": 2.4441465594280607e-05,
      "loss": 0.6235,
      "num_input_tokens_seen": 3811296,
      "step": 6565
    },
    {
      "epoch": 0.9785522788203753,
      "grad_norm": 7.919464111328125,
      "learning_rate": 2.446008340780459e-05,
      "loss": 0.7033,
      "num_input_tokens_seen": 3813920,
      "step": 6570
    },
    {
      "epoch": 0.9792969913613345,
      "grad_norm": 4.895576000213623,
      "learning_rate": 2.4478701221328567e-05,
      "loss": 0.7566,
      "num_input_tokens_seen": 3816832,
      "step": 6575
    },
    {
      "epoch": 0.9800417039022937,
      "grad_norm": 3.8090929985046387,
      "learning_rate": 2.4497319034852548e-05,
      "loss": 0.6162,
      "num_input_tokens_seen": 3819488,
      "step": 6580
    },
    {
      "epoch": 0.9807864164432529,
      "grad_norm": 4.0637688636779785,
      "learning_rate": 2.4515936848376527e-05,
      "loss": 0.8107,
      "num_input_tokens_seen": 3822304,
      "step": 6585
    },
    {
      "epoch": 0.9815311289842121,
      "grad_norm": 2.8496837615966797,
      "learning_rate": 2.4534554661900508e-05,
      "loss": 0.5668,
      "num_input_tokens_seen": 3825280,
      "step": 6590
    },
    {
      "epoch": 0.9822758415251713,
      "grad_norm": 5.302985191345215,
      "learning_rate": 2.4553172475424486e-05,
      "loss": 0.6232,
      "num_input_tokens_seen": 3828128,
      "step": 6595
    },
    {
      "epoch": 0.9830205540661304,
      "grad_norm": 4.46315860748291,
      "learning_rate": 2.4571790288948468e-05,
      "loss": 0.8337,
      "num_input_tokens_seen": 3831552,
      "step": 6600
    },
    {
      "epoch": 0.9837652666070896,
      "grad_norm": 9.482185363769531,
      "learning_rate": 2.459040810247245e-05,
      "loss": 0.7464,
      "num_input_tokens_seen": 3834176,
      "step": 6605
    },
    {
      "epoch": 0.9845099791480488,
      "grad_norm": 4.085508823394775,
      "learning_rate": 2.4609025915996424e-05,
      "loss": 0.6426,
      "num_input_tokens_seen": 3836864,
      "step": 6610
    },
    {
      "epoch": 0.985254691689008,
      "grad_norm": 9.120491027832031,
      "learning_rate": 2.4627643729520406e-05,
      "loss": 0.8422,
      "num_input_tokens_seen": 3839936,
      "step": 6615
    },
    {
      "epoch": 0.9859994042299672,
      "grad_norm": 8.48677921295166,
      "learning_rate": 2.4646261543044384e-05,
      "loss": 0.7176,
      "num_input_tokens_seen": 3842656,
      "step": 6620
    },
    {
      "epoch": 0.9867441167709264,
      "grad_norm": 6.701483726501465,
      "learning_rate": 2.4664879356568366e-05,
      "loss": 0.6742,
      "num_input_tokens_seen": 3845632,
      "step": 6625
    },
    {
      "epoch": 0.9874888293118856,
      "grad_norm": 7.862650394439697,
      "learning_rate": 2.4683497170092344e-05,
      "loss": 0.6207,
      "num_input_tokens_seen": 3848864,
      "step": 6630
    },
    {
      "epoch": 0.9882335418528448,
      "grad_norm": 9.651752471923828,
      "learning_rate": 2.4702114983616326e-05,
      "loss": 0.6398,
      "num_input_tokens_seen": 3851968,
      "step": 6635
    },
    {
      "epoch": 0.988978254393804,
      "grad_norm": 7.722851753234863,
      "learning_rate": 2.4720732797140307e-05,
      "loss": 0.764,
      "num_input_tokens_seen": 3854752,
      "step": 6640
    },
    {
      "epoch": 0.9897229669347631,
      "grad_norm": 5.400637149810791,
      "learning_rate": 2.4739350610664286e-05,
      "loss": 0.787,
      "num_input_tokens_seen": 3857568,
      "step": 6645
    },
    {
      "epoch": 0.9904676794757223,
      "grad_norm": 5.500351428985596,
      "learning_rate": 2.4757968424188267e-05,
      "loss": 0.6671,
      "num_input_tokens_seen": 3860544,
      "step": 6650
    },
    {
      "epoch": 0.9912123920166815,
      "grad_norm": 4.612310409545898,
      "learning_rate": 2.4776586237712242e-05,
      "loss": 0.6235,
      "num_input_tokens_seen": 3863712,
      "step": 6655
    },
    {
      "epoch": 0.9919571045576407,
      "grad_norm": 5.116146087646484,
      "learning_rate": 2.4795204051236224e-05,
      "loss": 0.6241,
      "num_input_tokens_seen": 3866656,
      "step": 6660
    },
    {
      "epoch": 0.9927018170986,
      "grad_norm": 3.6261680126190186,
      "learning_rate": 2.4813821864760202e-05,
      "loss": 0.7061,
      "num_input_tokens_seen": 3869472,
      "step": 6665
    },
    {
      "epoch": 0.9934465296395592,
      "grad_norm": 3.892378568649292,
      "learning_rate": 2.4832439678284184e-05,
      "loss": 0.6013,
      "num_input_tokens_seen": 3872224,
      "step": 6670
    },
    {
      "epoch": 0.9941912421805184,
      "grad_norm": 6.724386215209961,
      "learning_rate": 2.4851057491808162e-05,
      "loss": 0.5059,
      "num_input_tokens_seen": 3875040,
      "step": 6675
    },
    {
      "epoch": 0.9949359547214776,
      "grad_norm": 6.598402976989746,
      "learning_rate": 2.4869675305332143e-05,
      "loss": 0.6206,
      "num_input_tokens_seen": 3877952,
      "step": 6680
    },
    {
      "epoch": 0.9956806672624366,
      "grad_norm": 9.078231811523438,
      "learning_rate": 2.4888293118856125e-05,
      "loss": 0.7483,
      "num_input_tokens_seen": 3880832,
      "step": 6685
    },
    {
      "epoch": 0.9964253798033958,
      "grad_norm": 4.926999092102051,
      "learning_rate": 2.4906910932380103e-05,
      "loss": 0.7271,
      "num_input_tokens_seen": 3884352,
      "step": 6690
    },
    {
      "epoch": 0.997170092344355,
      "grad_norm": 4.80281400680542,
      "learning_rate": 2.492552874590408e-05,
      "loss": 0.7013,
      "num_input_tokens_seen": 3887296,
      "step": 6695
    },
    {
      "epoch": 0.9979148048853143,
      "grad_norm": 8.143054962158203,
      "learning_rate": 2.494414655942806e-05,
      "loss": 0.6121,
      "num_input_tokens_seen": 3890240,
      "step": 6700
    },
    {
      "epoch": 0.9986595174262735,
      "grad_norm": 5.345491409301758,
      "learning_rate": 2.496276437295204e-05,
      "loss": 0.5752,
      "num_input_tokens_seen": 3893088,
      "step": 6705
    },
    {
      "epoch": 0.9994042299672327,
      "grad_norm": 6.515038013458252,
      "learning_rate": 2.498138218647602e-05,
      "loss": 0.6772,
      "num_input_tokens_seen": 3896256,
      "step": 6710
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.6794493794441223,
      "eval_runtime": 49.2046,
      "eval_samples_per_second": 60.645,
      "eval_steps_per_second": 15.161,
      "num_input_tokens_seen": 3898224,
      "step": 6714
    },
    {
      "epoch": 1.0001489425081918,
      "grad_norm": 3.2982640266418457,
      "learning_rate": 2.5e-05,
      "loss": 0.8096,
      "num_input_tokens_seen": 3898832,
      "step": 6715
    },
    {
      "epoch": 1.000893655049151,
      "grad_norm": 2.726853847503662,
      "learning_rate": 2.5018617813523983e-05,
      "loss": 0.6161,
      "num_input_tokens_seen": 3901872,
      "step": 6720
    },
    {
      "epoch": 1.0016383675901102,
      "grad_norm": 3.847769021987915,
      "learning_rate": 2.503723562704796e-05,
      "loss": 0.4931,
      "num_input_tokens_seen": 3904528,
      "step": 6725
    },
    {
      "epoch": 1.0023830801310694,
      "grad_norm": 5.495029449462891,
      "learning_rate": 2.5055853440571943e-05,
      "loss": 0.6519,
      "num_input_tokens_seen": 3907664,
      "step": 6730
    },
    {
      "epoch": 1.0031277926720286,
      "grad_norm": 4.115055084228516,
      "learning_rate": 2.507447125409592e-05,
      "loss": 0.5983,
      "num_input_tokens_seen": 3910448,
      "step": 6735
    },
    {
      "epoch": 1.0038725052129878,
      "grad_norm": 4.83526086807251,
      "learning_rate": 2.5093089067619903e-05,
      "loss": 0.5261,
      "num_input_tokens_seen": 3913232,
      "step": 6740
    },
    {
      "epoch": 1.004617217753947,
      "grad_norm": 4.125337600708008,
      "learning_rate": 2.511170688114388e-05,
      "loss": 0.5711,
      "num_input_tokens_seen": 3915984,
      "step": 6745
    },
    {
      "epoch": 1.0053619302949062,
      "grad_norm": 10.586759567260742,
      "learning_rate": 2.5130324694667862e-05,
      "loss": 0.6295,
      "num_input_tokens_seen": 3918672,
      "step": 6750
    },
    {
      "epoch": 1.0061066428358654,
      "grad_norm": 6.614789009094238,
      "learning_rate": 2.514894250819184e-05,
      "loss": 0.7025,
      "num_input_tokens_seen": 3921776,
      "step": 6755
    },
    {
      "epoch": 1.0068513553768246,
      "grad_norm": 6.702352046966553,
      "learning_rate": 2.5167560321715815e-05,
      "loss": 0.5655,
      "num_input_tokens_seen": 3924592,
      "step": 6760
    },
    {
      "epoch": 1.0075960679177838,
      "grad_norm": 6.7695488929748535,
      "learning_rate": 2.5186178135239797e-05,
      "loss": 0.877,
      "num_input_tokens_seen": 3927344,
      "step": 6765
    },
    {
      "epoch": 1.008340780458743,
      "grad_norm": 4.12034797668457,
      "learning_rate": 2.5204795948763775e-05,
      "loss": 0.6271,
      "num_input_tokens_seen": 3929936,
      "step": 6770
    },
    {
      "epoch": 1.0090854929997022,
      "grad_norm": 4.5785627365112305,
      "learning_rate": 2.5223413762287757e-05,
      "loss": 0.5715,
      "num_input_tokens_seen": 3932912,
      "step": 6775
    },
    {
      "epoch": 1.0098302055406614,
      "grad_norm": 5.781448841094971,
      "learning_rate": 2.5242031575811735e-05,
      "loss": 0.6736,
      "num_input_tokens_seen": 3936080,
      "step": 6780
    },
    {
      "epoch": 1.0105749180816206,
      "grad_norm": 5.072747707366943,
      "learning_rate": 2.5260649389335717e-05,
      "loss": 0.8028,
      "num_input_tokens_seen": 3938672,
      "step": 6785
    },
    {
      "epoch": 1.0113196306225798,
      "grad_norm": 6.250132083892822,
      "learning_rate": 2.5279267202859695e-05,
      "loss": 0.6912,
      "num_input_tokens_seen": 3941872,
      "step": 6790
    },
    {
      "epoch": 1.0120643431635388,
      "grad_norm": 6.350094318389893,
      "learning_rate": 2.5297885016383677e-05,
      "loss": 0.7534,
      "num_input_tokens_seen": 3944752,
      "step": 6795
    },
    {
      "epoch": 1.012809055704498,
      "grad_norm": 6.371097564697266,
      "learning_rate": 2.5316502829907658e-05,
      "loss": 0.4878,
      "num_input_tokens_seen": 3947536,
      "step": 6800
    },
    {
      "epoch": 1.0135537682454572,
      "grad_norm": 4.181159496307373,
      "learning_rate": 2.5335120643431636e-05,
      "loss": 0.8356,
      "num_input_tokens_seen": 3950352,
      "step": 6805
    },
    {
      "epoch": 1.0142984807864164,
      "grad_norm": 3.022198438644409,
      "learning_rate": 2.5353738456955618e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 3953136,
      "step": 6810
    },
    {
      "epoch": 1.0150431933273756,
      "grad_norm": 4.244931221008301,
      "learning_rate": 2.5372356270479596e-05,
      "loss": 0.7116,
      "num_input_tokens_seen": 3956496,
      "step": 6815
    },
    {
      "epoch": 1.0157879058683348,
      "grad_norm": 11.269311904907227,
      "learning_rate": 2.5390974084003578e-05,
      "loss": 0.7053,
      "num_input_tokens_seen": 3959152,
      "step": 6820
    },
    {
      "epoch": 1.016532618409294,
      "grad_norm": 6.536352634429932,
      "learning_rate": 2.5409591897527556e-05,
      "loss": 0.7538,
      "num_input_tokens_seen": 3961808,
      "step": 6825
    },
    {
      "epoch": 1.0172773309502532,
      "grad_norm": 5.874698162078857,
      "learning_rate": 2.5428209711051538e-05,
      "loss": 0.7631,
      "num_input_tokens_seen": 3965072,
      "step": 6830
    },
    {
      "epoch": 1.0180220434912124,
      "grad_norm": 6.897637367248535,
      "learning_rate": 2.5446827524575516e-05,
      "loss": 0.7113,
      "num_input_tokens_seen": 3967856,
      "step": 6835
    },
    {
      "epoch": 1.0187667560321716,
      "grad_norm": 7.510495662689209,
      "learning_rate": 2.5465445338099498e-05,
      "loss": 0.7714,
      "num_input_tokens_seen": 3970768,
      "step": 6840
    },
    {
      "epoch": 1.0195114685731308,
      "grad_norm": 6.725851535797119,
      "learning_rate": 2.5484063151623473e-05,
      "loss": 0.6629,
      "num_input_tokens_seen": 3973552,
      "step": 6845
    },
    {
      "epoch": 1.02025618111409,
      "grad_norm": 3.6268184185028076,
      "learning_rate": 2.550268096514745e-05,
      "loss": 0.6508,
      "num_input_tokens_seen": 3976592,
      "step": 6850
    },
    {
      "epoch": 1.0210008936550492,
      "grad_norm": 13.504924774169922,
      "learning_rate": 2.5521298778671432e-05,
      "loss": 0.7267,
      "num_input_tokens_seen": 3979408,
      "step": 6855
    },
    {
      "epoch": 1.0217456061960084,
      "grad_norm": 7.916473388671875,
      "learning_rate": 2.553991659219541e-05,
      "loss": 0.6409,
      "num_input_tokens_seen": 3982192,
      "step": 6860
    },
    {
      "epoch": 1.0224903187369676,
      "grad_norm": 5.486695766448975,
      "learning_rate": 2.5558534405719392e-05,
      "loss": 0.7453,
      "num_input_tokens_seen": 3985168,
      "step": 6865
    },
    {
      "epoch": 1.0232350312779268,
      "grad_norm": 7.139247417449951,
      "learning_rate": 2.557715221924337e-05,
      "loss": 0.7099,
      "num_input_tokens_seen": 3988304,
      "step": 6870
    },
    {
      "epoch": 1.023979743818886,
      "grad_norm": 5.135750770568848,
      "learning_rate": 2.5595770032767352e-05,
      "loss": 0.6348,
      "num_input_tokens_seen": 3991024,
      "step": 6875
    },
    {
      "epoch": 1.024724456359845,
      "grad_norm": 5.828945636749268,
      "learning_rate": 2.5614387846291334e-05,
      "loss": 0.5745,
      "num_input_tokens_seen": 3993968,
      "step": 6880
    },
    {
      "epoch": 1.0254691689008042,
      "grad_norm": 3.5133109092712402,
      "learning_rate": 2.5633005659815312e-05,
      "loss": 0.5084,
      "num_input_tokens_seen": 3996688,
      "step": 6885
    },
    {
      "epoch": 1.0262138814417634,
      "grad_norm": 6.915273666381836,
      "learning_rate": 2.5651623473339294e-05,
      "loss": 0.608,
      "num_input_tokens_seen": 3999376,
      "step": 6890
    },
    {
      "epoch": 1.0269585939827226,
      "grad_norm": 8.364130973815918,
      "learning_rate": 2.5670241286863272e-05,
      "loss": 0.7048,
      "num_input_tokens_seen": 4002416,
      "step": 6895
    },
    {
      "epoch": 1.0277033065236818,
      "grad_norm": 5.377875804901123,
      "learning_rate": 2.5688859100387253e-05,
      "loss": 0.6726,
      "num_input_tokens_seen": 4005328,
      "step": 6900
    },
    {
      "epoch": 1.028448019064641,
      "grad_norm": 7.963432788848877,
      "learning_rate": 2.570747691391123e-05,
      "loss": 0.6787,
      "num_input_tokens_seen": 4007984,
      "step": 6905
    },
    {
      "epoch": 1.0291927316056002,
      "grad_norm": 5.298784255981445,
      "learning_rate": 2.5726094727435213e-05,
      "loss": 0.6387,
      "num_input_tokens_seen": 4010704,
      "step": 6910
    },
    {
      "epoch": 1.0299374441465594,
      "grad_norm": 6.805475234985352,
      "learning_rate": 2.574471254095919e-05,
      "loss": 0.5516,
      "num_input_tokens_seen": 4013552,
      "step": 6915
    },
    {
      "epoch": 1.0306821566875186,
      "grad_norm": 10.652243614196777,
      "learning_rate": 2.5763330354483173e-05,
      "loss": 0.6152,
      "num_input_tokens_seen": 4016272,
      "step": 6920
    },
    {
      "epoch": 1.0314268692284778,
      "grad_norm": 4.814909934997559,
      "learning_rate": 2.578194816800715e-05,
      "loss": 0.6986,
      "num_input_tokens_seen": 4019248,
      "step": 6925
    },
    {
      "epoch": 1.032171581769437,
      "grad_norm": 5.004297256469727,
      "learning_rate": 2.5800565981531133e-05,
      "loss": 0.5384,
      "num_input_tokens_seen": 4022448,
      "step": 6930
    },
    {
      "epoch": 1.0329162943103962,
      "grad_norm": 7.088603496551514,
      "learning_rate": 2.5819183795055108e-05,
      "loss": 0.6981,
      "num_input_tokens_seen": 4025424,
      "step": 6935
    },
    {
      "epoch": 1.0336610068513554,
      "grad_norm": 6.1004719734191895,
      "learning_rate": 2.5837801608579086e-05,
      "loss": 0.6026,
      "num_input_tokens_seen": 4028560,
      "step": 6940
    },
    {
      "epoch": 1.0344057193923146,
      "grad_norm": 5.730774402618408,
      "learning_rate": 2.5856419422103068e-05,
      "loss": 0.4825,
      "num_input_tokens_seen": 4031408,
      "step": 6945
    },
    {
      "epoch": 1.0351504319332738,
      "grad_norm": 5.922091960906982,
      "learning_rate": 2.587503723562705e-05,
      "loss": 0.5262,
      "num_input_tokens_seen": 4034384,
      "step": 6950
    },
    {
      "epoch": 1.035895144474233,
      "grad_norm": 16.068410873413086,
      "learning_rate": 2.5893655049151027e-05,
      "loss": 0.7182,
      "num_input_tokens_seen": 4037232,
      "step": 6955
    },
    {
      "epoch": 1.0366398570151922,
      "grad_norm": 9.418469429016113,
      "learning_rate": 2.591227286267501e-05,
      "loss": 0.5356,
      "num_input_tokens_seen": 4040240,
      "step": 6960
    },
    {
      "epoch": 1.0373845695561514,
      "grad_norm": 6.898025989532471,
      "learning_rate": 2.5930890676198987e-05,
      "loss": 0.6301,
      "num_input_tokens_seen": 4043024,
      "step": 6965
    },
    {
      "epoch": 1.0381292820971104,
      "grad_norm": 6.108802318572998,
      "learning_rate": 2.594950848972297e-05,
      "loss": 0.7704,
      "num_input_tokens_seen": 4045840,
      "step": 6970
    },
    {
      "epoch": 1.0388739946380696,
      "grad_norm": 10.531064987182617,
      "learning_rate": 2.5968126303246947e-05,
      "loss": 0.5874,
      "num_input_tokens_seen": 4048560,
      "step": 6975
    },
    {
      "epoch": 1.0396187071790288,
      "grad_norm": 3.8413095474243164,
      "learning_rate": 2.598674411677093e-05,
      "loss": 0.7172,
      "num_input_tokens_seen": 4051248,
      "step": 6980
    },
    {
      "epoch": 1.040363419719988,
      "grad_norm": 4.947990417480469,
      "learning_rate": 2.6005361930294907e-05,
      "loss": 0.7217,
      "num_input_tokens_seen": 4054160,
      "step": 6985
    },
    {
      "epoch": 1.0411081322609472,
      "grad_norm": 5.33466100692749,
      "learning_rate": 2.602397974381889e-05,
      "loss": 0.6555,
      "num_input_tokens_seen": 4057136,
      "step": 6990
    },
    {
      "epoch": 1.0418528448019064,
      "grad_norm": 5.547389507293701,
      "learning_rate": 2.6042597557342867e-05,
      "loss": 0.5478,
      "num_input_tokens_seen": 4059984,
      "step": 6995
    },
    {
      "epoch": 1.0425975573428656,
      "grad_norm": 5.461629867553711,
      "learning_rate": 2.606121537086685e-05,
      "loss": 0.7137,
      "num_input_tokens_seen": 4062992,
      "step": 7000
    },
    {
      "epoch": 1.0433422698838248,
      "grad_norm": 6.505291938781738,
      "learning_rate": 2.6079833184390827e-05,
      "loss": 0.6329,
      "num_input_tokens_seen": 4065680,
      "step": 7005
    },
    {
      "epoch": 1.044086982424784,
      "grad_norm": 4.424020290374756,
      "learning_rate": 2.609845099791481e-05,
      "loss": 0.7067,
      "num_input_tokens_seen": 4068560,
      "step": 7010
    },
    {
      "epoch": 1.0448316949657432,
      "grad_norm": 4.775987148284912,
      "learning_rate": 2.611706881143879e-05,
      "loss": 0.7341,
      "num_input_tokens_seen": 4071248,
      "step": 7015
    },
    {
      "epoch": 1.0455764075067024,
      "grad_norm": 5.843290328979492,
      "learning_rate": 2.613568662496276e-05,
      "loss": 0.7266,
      "num_input_tokens_seen": 4074032,
      "step": 7020
    },
    {
      "epoch": 1.0463211200476616,
      "grad_norm": 4.1479692459106445,
      "learning_rate": 2.6154304438486743e-05,
      "loss": 0.5739,
      "num_input_tokens_seen": 4076816,
      "step": 7025
    },
    {
      "epoch": 1.0470658325886208,
      "grad_norm": 5.382491111755371,
      "learning_rate": 2.6172922252010725e-05,
      "loss": 0.7409,
      "num_input_tokens_seen": 4079760,
      "step": 7030
    },
    {
      "epoch": 1.04781054512958,
      "grad_norm": 4.078346252441406,
      "learning_rate": 2.6191540065534703e-05,
      "loss": 0.5883,
      "num_input_tokens_seen": 4082576,
      "step": 7035
    },
    {
      "epoch": 1.0485552576705393,
      "grad_norm": 4.6765336990356445,
      "learning_rate": 2.6210157879058685e-05,
      "loss": 0.6558,
      "num_input_tokens_seen": 4085392,
      "step": 7040
    },
    {
      "epoch": 1.0492999702114985,
      "grad_norm": 6.444761276245117,
      "learning_rate": 2.6228775692582663e-05,
      "loss": 0.6729,
      "num_input_tokens_seen": 4087920,
      "step": 7045
    },
    {
      "epoch": 1.0500446827524577,
      "grad_norm": 3.9866037368774414,
      "learning_rate": 2.6247393506106644e-05,
      "loss": 0.4886,
      "num_input_tokens_seen": 4090640,
      "step": 7050
    },
    {
      "epoch": 1.0507893952934166,
      "grad_norm": 3.3973827362060547,
      "learning_rate": 2.6266011319630623e-05,
      "loss": 0.7111,
      "num_input_tokens_seen": 4093456,
      "step": 7055
    },
    {
      "epoch": 1.0515341078343758,
      "grad_norm": 6.469499111175537,
      "learning_rate": 2.6284629133154604e-05,
      "loss": 0.8169,
      "num_input_tokens_seen": 4096592,
      "step": 7060
    },
    {
      "epoch": 1.052278820375335,
      "grad_norm": 15.838495254516602,
      "learning_rate": 2.6303246946678582e-05,
      "loss": 0.9524,
      "num_input_tokens_seen": 4099376,
      "step": 7065
    },
    {
      "epoch": 1.0530235329162942,
      "grad_norm": 7.063602924346924,
      "learning_rate": 2.6321864760202564e-05,
      "loss": 0.5301,
      "num_input_tokens_seen": 4102128,
      "step": 7070
    },
    {
      "epoch": 1.0537682454572534,
      "grad_norm": 9.320520401000977,
      "learning_rate": 2.6340482573726542e-05,
      "loss": 0.5628,
      "num_input_tokens_seen": 4105040,
      "step": 7075
    },
    {
      "epoch": 1.0545129579982127,
      "grad_norm": 9.26688003540039,
      "learning_rate": 2.6359100387250524e-05,
      "loss": 0.6208,
      "num_input_tokens_seen": 4108368,
      "step": 7080
    },
    {
      "epoch": 1.0552576705391719,
      "grad_norm": 5.853682041168213,
      "learning_rate": 2.6377718200774502e-05,
      "loss": 0.7356,
      "num_input_tokens_seen": 4111312,
      "step": 7085
    },
    {
      "epoch": 1.056002383080131,
      "grad_norm": 9.414949417114258,
      "learning_rate": 2.6396336014298484e-05,
      "loss": 0.6271,
      "num_input_tokens_seen": 4114224,
      "step": 7090
    },
    {
      "epoch": 1.0567470956210903,
      "grad_norm": 3.6880948543548584,
      "learning_rate": 2.6414953827822465e-05,
      "loss": 0.5218,
      "num_input_tokens_seen": 4116912,
      "step": 7095
    },
    {
      "epoch": 1.0574918081620495,
      "grad_norm": 6.179783821105957,
      "learning_rate": 2.6433571641346444e-05,
      "loss": 0.6315,
      "num_input_tokens_seen": 4119760,
      "step": 7100
    },
    {
      "epoch": 1.0582365207030087,
      "grad_norm": 2.623769998550415,
      "learning_rate": 2.645218945487042e-05,
      "loss": 0.533,
      "num_input_tokens_seen": 4122896,
      "step": 7105
    },
    {
      "epoch": 1.0589812332439679,
      "grad_norm": 13.103944778442383,
      "learning_rate": 2.64708072683944e-05,
      "loss": 0.6676,
      "num_input_tokens_seen": 4125840,
      "step": 7110
    },
    {
      "epoch": 1.059725945784927,
      "grad_norm": 6.386934280395508,
      "learning_rate": 2.648942508191838e-05,
      "loss": 0.6197,
      "num_input_tokens_seen": 4128688,
      "step": 7115
    },
    {
      "epoch": 1.0604706583258863,
      "grad_norm": 7.171514987945557,
      "learning_rate": 2.650804289544236e-05,
      "loss": 0.6017,
      "num_input_tokens_seen": 4131696,
      "step": 7120
    },
    {
      "epoch": 1.0612153708668455,
      "grad_norm": 6.070732116699219,
      "learning_rate": 2.6526660708966338e-05,
      "loss": 0.7307,
      "num_input_tokens_seen": 4134640,
      "step": 7125
    },
    {
      "epoch": 1.0619600834078047,
      "grad_norm": 6.573723316192627,
      "learning_rate": 2.654527852249032e-05,
      "loss": 0.6053,
      "num_input_tokens_seen": 4137200,
      "step": 7130
    },
    {
      "epoch": 1.0627047959487639,
      "grad_norm": 7.139074325561523,
      "learning_rate": 2.6563896336014298e-05,
      "loss": 0.6107,
      "num_input_tokens_seen": 4140048,
      "step": 7135
    },
    {
      "epoch": 1.063449508489723,
      "grad_norm": 7.310503959655762,
      "learning_rate": 2.658251414953828e-05,
      "loss": 0.772,
      "num_input_tokens_seen": 4142896,
      "step": 7140
    },
    {
      "epoch": 1.064194221030682,
      "grad_norm": 4.173062324523926,
      "learning_rate": 2.6601131963062258e-05,
      "loss": 0.7307,
      "num_input_tokens_seen": 4146000,
      "step": 7145
    },
    {
      "epoch": 1.0649389335716413,
      "grad_norm": 7.567355632781982,
      "learning_rate": 2.661974977658624e-05,
      "loss": 0.7797,
      "num_input_tokens_seen": 4149136,
      "step": 7150
    },
    {
      "epoch": 1.0656836461126005,
      "grad_norm": 7.37352991104126,
      "learning_rate": 2.6638367590110218e-05,
      "loss": 0.5646,
      "num_input_tokens_seen": 4152176,
      "step": 7155
    },
    {
      "epoch": 1.0664283586535597,
      "grad_norm": 7.038994312286377,
      "learning_rate": 2.66569854036342e-05,
      "loss": 0.871,
      "num_input_tokens_seen": 4154864,
      "step": 7160
    },
    {
      "epoch": 1.0671730711945189,
      "grad_norm": 4.34475564956665,
      "learning_rate": 2.667560321715818e-05,
      "loss": 0.7201,
      "num_input_tokens_seen": 4157872,
      "step": 7165
    },
    {
      "epoch": 1.067917783735478,
      "grad_norm": 5.253493309020996,
      "learning_rate": 2.669422103068216e-05,
      "loss": 0.6563,
      "num_input_tokens_seen": 4160496,
      "step": 7170
    },
    {
      "epoch": 1.0686624962764373,
      "grad_norm": 4.708065032958984,
      "learning_rate": 2.671283884420614e-05,
      "loss": 0.7056,
      "num_input_tokens_seen": 4163376,
      "step": 7175
    },
    {
      "epoch": 1.0694072088173965,
      "grad_norm": 4.344693660736084,
      "learning_rate": 2.673145665773012e-05,
      "loss": 0.763,
      "num_input_tokens_seen": 4165936,
      "step": 7180
    },
    {
      "epoch": 1.0701519213583557,
      "grad_norm": 4.480022430419922,
      "learning_rate": 2.67500744712541e-05,
      "loss": 0.6122,
      "num_input_tokens_seen": 4168848,
      "step": 7185
    },
    {
      "epoch": 1.0708966338993149,
      "grad_norm": 8.713203430175781,
      "learning_rate": 2.676869228477808e-05,
      "loss": 0.6753,
      "num_input_tokens_seen": 4171824,
      "step": 7190
    },
    {
      "epoch": 1.071641346440274,
      "grad_norm": 3.978783130645752,
      "learning_rate": 2.6787310098302054e-05,
      "loss": 0.6274,
      "num_input_tokens_seen": 4175024,
      "step": 7195
    },
    {
      "epoch": 1.0723860589812333,
      "grad_norm": 9.906412124633789,
      "learning_rate": 2.6805927911826035e-05,
      "loss": 0.7005,
      "num_input_tokens_seen": 4177936,
      "step": 7200
    },
    {
      "epoch": 1.0731307715221925,
      "grad_norm": 5.437760353088379,
      "learning_rate": 2.6824545725350014e-05,
      "loss": 0.5958,
      "num_input_tokens_seen": 4180720,
      "step": 7205
    },
    {
      "epoch": 1.0738754840631517,
      "grad_norm": 5.93809700012207,
      "learning_rate": 2.6843163538873995e-05,
      "loss": 0.8012,
      "num_input_tokens_seen": 4183376,
      "step": 7210
    },
    {
      "epoch": 1.074620196604111,
      "grad_norm": 7.947364330291748,
      "learning_rate": 2.6861781352397974e-05,
      "loss": 0.5879,
      "num_input_tokens_seen": 4186256,
      "step": 7215
    },
    {
      "epoch": 1.07536490914507,
      "grad_norm": 4.829092979431152,
      "learning_rate": 2.6880399165921955e-05,
      "loss": 0.7511,
      "num_input_tokens_seen": 4188944,
      "step": 7220
    },
    {
      "epoch": 1.076109621686029,
      "grad_norm": 4.186745643615723,
      "learning_rate": 2.6899016979445933e-05,
      "loss": 0.6411,
      "num_input_tokens_seen": 4191952,
      "step": 7225
    },
    {
      "epoch": 1.0768543342269883,
      "grad_norm": 5.350904941558838,
      "learning_rate": 2.6917634792969915e-05,
      "loss": 0.5408,
      "num_input_tokens_seen": 4194640,
      "step": 7230
    },
    {
      "epoch": 1.0775990467679475,
      "grad_norm": 5.204269886016846,
      "learning_rate": 2.6936252606493893e-05,
      "loss": 0.498,
      "num_input_tokens_seen": 4197520,
      "step": 7235
    },
    {
      "epoch": 1.0783437593089067,
      "grad_norm": 5.523002624511719,
      "learning_rate": 2.6954870420017875e-05,
      "loss": 0.523,
      "num_input_tokens_seen": 4200464,
      "step": 7240
    },
    {
      "epoch": 1.079088471849866,
      "grad_norm": 9.622580528259277,
      "learning_rate": 2.6973488233541856e-05,
      "loss": 0.7353,
      "num_input_tokens_seen": 4203280,
      "step": 7245
    },
    {
      "epoch": 1.079833184390825,
      "grad_norm": 17.725200653076172,
      "learning_rate": 2.6992106047065835e-05,
      "loss": 0.7768,
      "num_input_tokens_seen": 4206192,
      "step": 7250
    },
    {
      "epoch": 1.0805778969317843,
      "grad_norm": 6.665311813354492,
      "learning_rate": 2.7010723860589816e-05,
      "loss": 0.591,
      "num_input_tokens_seen": 4208912,
      "step": 7255
    },
    {
      "epoch": 1.0813226094727435,
      "grad_norm": 7.837207794189453,
      "learning_rate": 2.7029341674113795e-05,
      "loss": 0.4992,
      "num_input_tokens_seen": 4211696,
      "step": 7260
    },
    {
      "epoch": 1.0820673220137027,
      "grad_norm": 6.454596042633057,
      "learning_rate": 2.7047959487637776e-05,
      "loss": 0.5937,
      "num_input_tokens_seen": 4214384,
      "step": 7265
    },
    {
      "epoch": 1.082812034554662,
      "grad_norm": 9.158539772033691,
      "learning_rate": 2.7066577301161754e-05,
      "loss": 0.5601,
      "num_input_tokens_seen": 4217168,
      "step": 7270
    },
    {
      "epoch": 1.083556747095621,
      "grad_norm": 10.652846336364746,
      "learning_rate": 2.7085195114685736e-05,
      "loss": 0.5633,
      "num_input_tokens_seen": 4219760,
      "step": 7275
    },
    {
      "epoch": 1.0843014596365803,
      "grad_norm": 16.699678421020508,
      "learning_rate": 2.710381292820971e-05,
      "loss": 0.5279,
      "num_input_tokens_seen": 4222352,
      "step": 7280
    },
    {
      "epoch": 1.0850461721775395,
      "grad_norm": 4.790888786315918,
      "learning_rate": 2.712243074173369e-05,
      "loss": 0.5096,
      "num_input_tokens_seen": 4225520,
      "step": 7285
    },
    {
      "epoch": 1.0857908847184987,
      "grad_norm": 6.821751594543457,
      "learning_rate": 2.714104855525767e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 4228240,
      "step": 7290
    },
    {
      "epoch": 1.086535597259458,
      "grad_norm": 8.543950080871582,
      "learning_rate": 2.715966636878165e-05,
      "loss": 0.6225,
      "num_input_tokens_seen": 4231344,
      "step": 7295
    },
    {
      "epoch": 1.0872803098004171,
      "grad_norm": 9.735129356384277,
      "learning_rate": 2.717828418230563e-05,
      "loss": 0.5859,
      "num_input_tokens_seen": 4234352,
      "step": 7300
    },
    {
      "epoch": 1.0880250223413763,
      "grad_norm": 11.873169898986816,
      "learning_rate": 2.719690199582961e-05,
      "loss": 0.753,
      "num_input_tokens_seen": 4237136,
      "step": 7305
    },
    {
      "epoch": 1.0887697348823355,
      "grad_norm": 9.007246971130371,
      "learning_rate": 2.721551980935359e-05,
      "loss": 0.6269,
      "num_input_tokens_seen": 4239920,
      "step": 7310
    },
    {
      "epoch": 1.0895144474232945,
      "grad_norm": 4.236055374145508,
      "learning_rate": 2.723413762287757e-05,
      "loss": 0.5204,
      "num_input_tokens_seen": 4242864,
      "step": 7315
    },
    {
      "epoch": 1.0902591599642537,
      "grad_norm": 8.567368507385254,
      "learning_rate": 2.725275543640155e-05,
      "loss": 0.47,
      "num_input_tokens_seen": 4245872,
      "step": 7320
    },
    {
      "epoch": 1.091003872505213,
      "grad_norm": 6.7523417472839355,
      "learning_rate": 2.7271373249925532e-05,
      "loss": 0.5914,
      "num_input_tokens_seen": 4248784,
      "step": 7325
    },
    {
      "epoch": 1.0917485850461721,
      "grad_norm": 11.740954399108887,
      "learning_rate": 2.728999106344951e-05,
      "loss": 0.6865,
      "num_input_tokens_seen": 4251824,
      "step": 7330
    },
    {
      "epoch": 1.0924932975871313,
      "grad_norm": 8.181896209716797,
      "learning_rate": 2.7308608876973492e-05,
      "loss": 0.6737,
      "num_input_tokens_seen": 4255024,
      "step": 7335
    },
    {
      "epoch": 1.0932380101280905,
      "grad_norm": 6.820430755615234,
      "learning_rate": 2.732722669049747e-05,
      "loss": 0.7579,
      "num_input_tokens_seen": 4257872,
      "step": 7340
    },
    {
      "epoch": 1.0939827226690497,
      "grad_norm": 10.806343078613281,
      "learning_rate": 2.734584450402145e-05,
      "loss": 0.9685,
      "num_input_tokens_seen": 4260784,
      "step": 7345
    },
    {
      "epoch": 1.094727435210009,
      "grad_norm": 3.865142583847046,
      "learning_rate": 2.736446231754543e-05,
      "loss": 0.5852,
      "num_input_tokens_seen": 4263856,
      "step": 7350
    },
    {
      "epoch": 1.0954721477509681,
      "grad_norm": 6.3090643882751465,
      "learning_rate": 2.738308013106941e-05,
      "loss": 0.6197,
      "num_input_tokens_seen": 4266640,
      "step": 7355
    },
    {
      "epoch": 1.0962168602919273,
      "grad_norm": 4.030726909637451,
      "learning_rate": 2.740169794459339e-05,
      "loss": 0.6447,
      "num_input_tokens_seen": 4269552,
      "step": 7360
    },
    {
      "epoch": 1.0969615728328865,
      "grad_norm": 4.512044429779053,
      "learning_rate": 2.7420315758117365e-05,
      "loss": 0.6508,
      "num_input_tokens_seen": 4272656,
      "step": 7365
    },
    {
      "epoch": 1.0977062853738457,
      "grad_norm": 10.21164608001709,
      "learning_rate": 2.7438933571641346e-05,
      "loss": 0.7954,
      "num_input_tokens_seen": 4275344,
      "step": 7370
    },
    {
      "epoch": 1.098450997914805,
      "grad_norm": 9.26087760925293,
      "learning_rate": 2.7457551385165324e-05,
      "loss": 0.6335,
      "num_input_tokens_seen": 4278480,
      "step": 7375
    },
    {
      "epoch": 1.0991957104557641,
      "grad_norm": 7.0081610679626465,
      "learning_rate": 2.7476169198689306e-05,
      "loss": 0.6573,
      "num_input_tokens_seen": 4281648,
      "step": 7380
    },
    {
      "epoch": 1.0999404229967233,
      "grad_norm": 5.7620768547058105,
      "learning_rate": 2.7494787012213284e-05,
      "loss": 0.6896,
      "num_input_tokens_seen": 4284720,
      "step": 7385
    },
    {
      "epoch": 1.1006851355376825,
      "grad_norm": 2.7842111587524414,
      "learning_rate": 2.7513404825737266e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 4287696,
      "step": 7390
    },
    {
      "epoch": 1.1014298480786415,
      "grad_norm": 6.857781410217285,
      "learning_rate": 2.7532022639261244e-05,
      "loss": 0.6474,
      "num_input_tokens_seen": 4290736,
      "step": 7395
    },
    {
      "epoch": 1.1021745606196007,
      "grad_norm": 6.294366359710693,
      "learning_rate": 2.7550640452785226e-05,
      "loss": 0.6062,
      "num_input_tokens_seen": 4293424,
      "step": 7400
    },
    {
      "epoch": 1.10291927316056,
      "grad_norm": 7.968329429626465,
      "learning_rate": 2.7569258266309207e-05,
      "loss": 0.5594,
      "num_input_tokens_seen": 4296368,
      "step": 7405
    },
    {
      "epoch": 1.1036639857015191,
      "grad_norm": 8.997769355773926,
      "learning_rate": 2.7587876079833186e-05,
      "loss": 0.804,
      "num_input_tokens_seen": 4298992,
      "step": 7410
    },
    {
      "epoch": 1.1044086982424783,
      "grad_norm": 3.2494029998779297,
      "learning_rate": 2.7606493893357167e-05,
      "loss": 0.4194,
      "num_input_tokens_seen": 4301744,
      "step": 7415
    },
    {
      "epoch": 1.1051534107834375,
      "grad_norm": 6.240291118621826,
      "learning_rate": 2.7625111706881145e-05,
      "loss": 0.7694,
      "num_input_tokens_seen": 4304784,
      "step": 7420
    },
    {
      "epoch": 1.1058981233243967,
      "grad_norm": 7.308358192443848,
      "learning_rate": 2.7643729520405127e-05,
      "loss": 0.8019,
      "num_input_tokens_seen": 4307536,
      "step": 7425
    },
    {
      "epoch": 1.106642835865356,
      "grad_norm": 5.9664626121521,
      "learning_rate": 2.7662347333929105e-05,
      "loss": 0.6982,
      "num_input_tokens_seen": 4310608,
      "step": 7430
    },
    {
      "epoch": 1.1073875484063151,
      "grad_norm": 5.347683429718018,
      "learning_rate": 2.7680965147453087e-05,
      "loss": 0.695,
      "num_input_tokens_seen": 4313488,
      "step": 7435
    },
    {
      "epoch": 1.1081322609472744,
      "grad_norm": 4.5851216316223145,
      "learning_rate": 2.7699582960977065e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 4316624,
      "step": 7440
    },
    {
      "epoch": 1.1088769734882336,
      "grad_norm": 5.866750240325928,
      "learning_rate": 2.7718200774501047e-05,
      "loss": 0.736,
      "num_input_tokens_seen": 4319408,
      "step": 7445
    },
    {
      "epoch": 1.1096216860291928,
      "grad_norm": 5.099590301513672,
      "learning_rate": 2.7736818588025025e-05,
      "loss": 0.7164,
      "num_input_tokens_seen": 4322448,
      "step": 7450
    },
    {
      "epoch": 1.110366398570152,
      "grad_norm": 4.774487495422363,
      "learning_rate": 2.7755436401549e-05,
      "loss": 0.647,
      "num_input_tokens_seen": 4325168,
      "step": 7455
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 4.885721206665039,
      "learning_rate": 2.777405421507298e-05,
      "loss": 0.6636,
      "num_input_tokens_seen": 4327888,
      "step": 7460
    },
    {
      "epoch": 1.1118558236520704,
      "grad_norm": 3.1299548149108887,
      "learning_rate": 2.779267202859696e-05,
      "loss": 0.6146,
      "num_input_tokens_seen": 4330736,
      "step": 7465
    },
    {
      "epoch": 1.1126005361930296,
      "grad_norm": 3.5708508491516113,
      "learning_rate": 2.781128984212094e-05,
      "loss": 0.7572,
      "num_input_tokens_seen": 4333648,
      "step": 7470
    },
    {
      "epoch": 1.1133452487339888,
      "grad_norm": 8.371269226074219,
      "learning_rate": 2.782990765564492e-05,
      "loss": 0.7811,
      "num_input_tokens_seen": 4336720,
      "step": 7475
    },
    {
      "epoch": 1.114089961274948,
      "grad_norm": 7.580954551696777,
      "learning_rate": 2.78485254691689e-05,
      "loss": 0.6866,
      "num_input_tokens_seen": 4339760,
      "step": 7480
    },
    {
      "epoch": 1.1148346738159072,
      "grad_norm": 3.7196106910705566,
      "learning_rate": 2.7867143282692883e-05,
      "loss": 0.6993,
      "num_input_tokens_seen": 4342512,
      "step": 7485
    },
    {
      "epoch": 1.1155793863568662,
      "grad_norm": 4.836356163024902,
      "learning_rate": 2.788576109621686e-05,
      "loss": 0.6227,
      "num_input_tokens_seen": 4345168,
      "step": 7490
    },
    {
      "epoch": 1.1163240988978254,
      "grad_norm": 8.82239818572998,
      "learning_rate": 2.7904378909740843e-05,
      "loss": 0.6248,
      "num_input_tokens_seen": 4347952,
      "step": 7495
    },
    {
      "epoch": 1.1170688114387846,
      "grad_norm": 7.554818630218506,
      "learning_rate": 2.792299672326482e-05,
      "loss": 0.709,
      "num_input_tokens_seen": 4350640,
      "step": 7500
    },
    {
      "epoch": 1.1178135239797438,
      "grad_norm": 7.183084964752197,
      "learning_rate": 2.7941614536788802e-05,
      "loss": 0.7398,
      "num_input_tokens_seen": 4353488,
      "step": 7505
    },
    {
      "epoch": 1.118558236520703,
      "grad_norm": 3.644305944442749,
      "learning_rate": 2.796023235031278e-05,
      "loss": 0.6736,
      "num_input_tokens_seen": 4356368,
      "step": 7510
    },
    {
      "epoch": 1.1193029490616622,
      "grad_norm": 5.444058895111084,
      "learning_rate": 2.7978850163836762e-05,
      "loss": 0.5957,
      "num_input_tokens_seen": 4359344,
      "step": 7515
    },
    {
      "epoch": 1.1200476616026214,
      "grad_norm": 8.865693092346191,
      "learning_rate": 2.799746797736074e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 4362128,
      "step": 7520
    },
    {
      "epoch": 1.1207923741435806,
      "grad_norm": 15.720476150512695,
      "learning_rate": 2.8016085790884722e-05,
      "loss": 0.5264,
      "num_input_tokens_seen": 4364688,
      "step": 7525
    },
    {
      "epoch": 1.1215370866845398,
      "grad_norm": 8.517816543579102,
      "learning_rate": 2.80347036044087e-05,
      "loss": 0.5997,
      "num_input_tokens_seen": 4367824,
      "step": 7530
    },
    {
      "epoch": 1.122281799225499,
      "grad_norm": 8.025410652160645,
      "learning_rate": 2.8053321417932682e-05,
      "loss": 0.6526,
      "num_input_tokens_seen": 4370768,
      "step": 7535
    },
    {
      "epoch": 1.1230265117664582,
      "grad_norm": 8.792993545532227,
      "learning_rate": 2.8071939231456657e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 4373520,
      "step": 7540
    },
    {
      "epoch": 1.1237712243074174,
      "grad_norm": 5.474987030029297,
      "learning_rate": 2.8090557044980635e-05,
      "loss": 0.6302,
      "num_input_tokens_seen": 4376368,
      "step": 7545
    },
    {
      "epoch": 1.1245159368483766,
      "grad_norm": 8.246917724609375,
      "learning_rate": 2.8109174858504617e-05,
      "loss": 0.519,
      "num_input_tokens_seen": 4379504,
      "step": 7550
    },
    {
      "epoch": 1.1252606493893358,
      "grad_norm": 5.883001327514648,
      "learning_rate": 2.81277926720286e-05,
      "loss": 0.6693,
      "num_input_tokens_seen": 4382704,
      "step": 7555
    },
    {
      "epoch": 1.126005361930295,
      "grad_norm": 7.511792182922363,
      "learning_rate": 2.8146410485552577e-05,
      "loss": 0.7221,
      "num_input_tokens_seen": 4385424,
      "step": 7560
    },
    {
      "epoch": 1.1267500744712542,
      "grad_norm": 8.627278327941895,
      "learning_rate": 2.8165028299076558e-05,
      "loss": 0.7333,
      "num_input_tokens_seen": 4388496,
      "step": 7565
    },
    {
      "epoch": 1.1274947870122132,
      "grad_norm": 4.4562883377075195,
      "learning_rate": 2.8183646112600536e-05,
      "loss": 0.6318,
      "num_input_tokens_seen": 4391568,
      "step": 7570
    },
    {
      "epoch": 1.1282394995531724,
      "grad_norm": 7.77092981338501,
      "learning_rate": 2.8202263926124518e-05,
      "loss": 0.6726,
      "num_input_tokens_seen": 4394480,
      "step": 7575
    },
    {
      "epoch": 1.1289842120941316,
      "grad_norm": 6.834763526916504,
      "learning_rate": 2.8220881739648496e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 4397264,
      "step": 7580
    },
    {
      "epoch": 1.1297289246350908,
      "grad_norm": 7.915698528289795,
      "learning_rate": 2.8239499553172478e-05,
      "loss": 0.603,
      "num_input_tokens_seen": 4400304,
      "step": 7585
    },
    {
      "epoch": 1.13047363717605,
      "grad_norm": 8.151449203491211,
      "learning_rate": 2.8258117366696456e-05,
      "loss": 0.6488,
      "num_input_tokens_seen": 4402928,
      "step": 7590
    },
    {
      "epoch": 1.1312183497170092,
      "grad_norm": 9.312790870666504,
      "learning_rate": 2.8276735180220438e-05,
      "loss": 0.7591,
      "num_input_tokens_seen": 4405904,
      "step": 7595
    },
    {
      "epoch": 1.1319630622579684,
      "grad_norm": 6.602758407592773,
      "learning_rate": 2.8295352993744416e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 4408432,
      "step": 7600
    },
    {
      "epoch": 1.1327077747989276,
      "grad_norm": 4.970848083496094,
      "learning_rate": 2.8313970807268398e-05,
      "loss": 0.6548,
      "num_input_tokens_seen": 4411376,
      "step": 7605
    },
    {
      "epoch": 1.1334524873398868,
      "grad_norm": 9.85558032989502,
      "learning_rate": 2.8332588620792376e-05,
      "loss": 0.7068,
      "num_input_tokens_seen": 4414384,
      "step": 7610
    },
    {
      "epoch": 1.134197199880846,
      "grad_norm": 13.026637077331543,
      "learning_rate": 2.8351206434316357e-05,
      "loss": 0.7913,
      "num_input_tokens_seen": 4417232,
      "step": 7615
    },
    {
      "epoch": 1.1349419124218052,
      "grad_norm": 5.586695194244385,
      "learning_rate": 2.836982424784034e-05,
      "loss": 0.5504,
      "num_input_tokens_seen": 4420016,
      "step": 7620
    },
    {
      "epoch": 1.1356866249627644,
      "grad_norm": 8.448630332946777,
      "learning_rate": 2.838844206136431e-05,
      "loss": 0.5193,
      "num_input_tokens_seen": 4423152,
      "step": 7625
    },
    {
      "epoch": 1.1364313375037236,
      "grad_norm": 5.211484909057617,
      "learning_rate": 2.8407059874888292e-05,
      "loss": 0.7236,
      "num_input_tokens_seen": 4425840,
      "step": 7630
    },
    {
      "epoch": 1.1371760500446828,
      "grad_norm": 8.765284538269043,
      "learning_rate": 2.8425677688412274e-05,
      "loss": 0.6992,
      "num_input_tokens_seen": 4428912,
      "step": 7635
    },
    {
      "epoch": 1.137920762585642,
      "grad_norm": 6.000418663024902,
      "learning_rate": 2.8444295501936252e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 4431696,
      "step": 7640
    },
    {
      "epoch": 1.1386654751266012,
      "grad_norm": 5.181818008422852,
      "learning_rate": 2.8462913315460234e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 4434384,
      "step": 7645
    },
    {
      "epoch": 1.1394101876675604,
      "grad_norm": 8.619953155517578,
      "learning_rate": 2.8481531128984212e-05,
      "loss": 0.6876,
      "num_input_tokens_seen": 4437232,
      "step": 7650
    },
    {
      "epoch": 1.1401549002085196,
      "grad_norm": 6.218711853027344,
      "learning_rate": 2.8500148942508193e-05,
      "loss": 0.6517,
      "num_input_tokens_seen": 4440080,
      "step": 7655
    },
    {
      "epoch": 1.1408996127494788,
      "grad_norm": 4.8012895584106445,
      "learning_rate": 2.8518766756032172e-05,
      "loss": 0.5621,
      "num_input_tokens_seen": 4442992,
      "step": 7660
    },
    {
      "epoch": 1.1416443252904378,
      "grad_norm": 7.544801712036133,
      "learning_rate": 2.8537384569556153e-05,
      "loss": 0.6341,
      "num_input_tokens_seen": 4446192,
      "step": 7665
    },
    {
      "epoch": 1.142389037831397,
      "grad_norm": 13.299918174743652,
      "learning_rate": 2.855600238308013e-05,
      "loss": 0.5667,
      "num_input_tokens_seen": 4449168,
      "step": 7670
    },
    {
      "epoch": 1.1431337503723562,
      "grad_norm": 7.180131912231445,
      "learning_rate": 2.8574620196604113e-05,
      "loss": 0.7014,
      "num_input_tokens_seen": 4452144,
      "step": 7675
    },
    {
      "epoch": 1.1438784629133154,
      "grad_norm": 12.542247772216797,
      "learning_rate": 2.859323801012809e-05,
      "loss": 0.6824,
      "num_input_tokens_seen": 4455024,
      "step": 7680
    },
    {
      "epoch": 1.1446231754542746,
      "grad_norm": 6.513339996337891,
      "learning_rate": 2.8611855823652073e-05,
      "loss": 0.8368,
      "num_input_tokens_seen": 4458096,
      "step": 7685
    },
    {
      "epoch": 1.1453678879952338,
      "grad_norm": 6.631070613861084,
      "learning_rate": 2.863047363717605e-05,
      "loss": 0.632,
      "num_input_tokens_seen": 4461232,
      "step": 7690
    },
    {
      "epoch": 1.146112600536193,
      "grad_norm": 4.390570640563965,
      "learning_rate": 2.8649091450700033e-05,
      "loss": 0.7822,
      "num_input_tokens_seen": 4464016,
      "step": 7695
    },
    {
      "epoch": 1.1468573130771522,
      "grad_norm": 3.0071208477020264,
      "learning_rate": 2.8667709264224015e-05,
      "loss": 0.6393,
      "num_input_tokens_seen": 4467184,
      "step": 7700
    },
    {
      "epoch": 1.1476020256181114,
      "grad_norm": 4.8077473640441895,
      "learning_rate": 2.8686327077747993e-05,
      "loss": 0.7134,
      "num_input_tokens_seen": 4470256,
      "step": 7705
    },
    {
      "epoch": 1.1483467381590706,
      "grad_norm": 3.2470266819000244,
      "learning_rate": 2.8704944891271968e-05,
      "loss": 0.5858,
      "num_input_tokens_seen": 4473040,
      "step": 7710
    },
    {
      "epoch": 1.1490914507000298,
      "grad_norm": 4.014322757720947,
      "learning_rate": 2.872356270479595e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 4475856,
      "step": 7715
    },
    {
      "epoch": 1.149836163240989,
      "grad_norm": 9.968981742858887,
      "learning_rate": 2.8742180518319927e-05,
      "loss": 0.7445,
      "num_input_tokens_seen": 4478992,
      "step": 7720
    },
    {
      "epoch": 1.1505808757819482,
      "grad_norm": 5.243616104125977,
      "learning_rate": 2.876079833184391e-05,
      "loss": 0.6749,
      "num_input_tokens_seen": 4482000,
      "step": 7725
    },
    {
      "epoch": 1.1513255883229074,
      "grad_norm": 3.8526244163513184,
      "learning_rate": 2.8779416145367887e-05,
      "loss": 0.6061,
      "num_input_tokens_seen": 4484816,
      "step": 7730
    },
    {
      "epoch": 1.1520703008638666,
      "grad_norm": 5.673233985900879,
      "learning_rate": 2.879803395889187e-05,
      "loss": 0.5274,
      "num_input_tokens_seen": 4487696,
      "step": 7735
    },
    {
      "epoch": 1.1528150134048256,
      "grad_norm": 3.5634000301361084,
      "learning_rate": 2.8816651772415847e-05,
      "loss": 0.6437,
      "num_input_tokens_seen": 4490736,
      "step": 7740
    },
    {
      "epoch": 1.1535597259457848,
      "grad_norm": 6.472267150878906,
      "learning_rate": 2.883526958593983e-05,
      "loss": 0.7354,
      "num_input_tokens_seen": 4493520,
      "step": 7745
    },
    {
      "epoch": 1.154304438486744,
      "grad_norm": 4.320767879486084,
      "learning_rate": 2.8853887399463807e-05,
      "loss": 0.461,
      "num_input_tokens_seen": 4496816,
      "step": 7750
    },
    {
      "epoch": 1.1550491510277032,
      "grad_norm": 7.55242919921875,
      "learning_rate": 2.887250521298779e-05,
      "loss": 0.6269,
      "num_input_tokens_seen": 4499600,
      "step": 7755
    },
    {
      "epoch": 1.1557938635686624,
      "grad_norm": 9.918648719787598,
      "learning_rate": 2.8891123026511767e-05,
      "loss": 0.7035,
      "num_input_tokens_seen": 4502096,
      "step": 7760
    },
    {
      "epoch": 1.1565385761096216,
      "grad_norm": 8.460087776184082,
      "learning_rate": 2.890974084003575e-05,
      "loss": 0.553,
      "num_input_tokens_seen": 4504944,
      "step": 7765
    },
    {
      "epoch": 1.1572832886505808,
      "grad_norm": 5.617012977600098,
      "learning_rate": 2.892835865355973e-05,
      "loss": 0.5982,
      "num_input_tokens_seen": 4507792,
      "step": 7770
    },
    {
      "epoch": 1.15802800119154,
      "grad_norm": 3.6603689193725586,
      "learning_rate": 2.894697646708371e-05,
      "loss": 0.6387,
      "num_input_tokens_seen": 4511024,
      "step": 7775
    },
    {
      "epoch": 1.1587727137324992,
      "grad_norm": 6.376064300537109,
      "learning_rate": 2.896559428060769e-05,
      "loss": 0.5506,
      "num_input_tokens_seen": 4513968,
      "step": 7780
    },
    {
      "epoch": 1.1595174262734584,
      "grad_norm": 5.062800407409668,
      "learning_rate": 2.8984212094131668e-05,
      "loss": 0.677,
      "num_input_tokens_seen": 4516784,
      "step": 7785
    },
    {
      "epoch": 1.1602621388144176,
      "grad_norm": 6.347738265991211,
      "learning_rate": 2.900282990765565e-05,
      "loss": 0.4517,
      "num_input_tokens_seen": 4519728,
      "step": 7790
    },
    {
      "epoch": 1.1610068513553768,
      "grad_norm": 8.765605926513672,
      "learning_rate": 2.9021447721179628e-05,
      "loss": 0.7133,
      "num_input_tokens_seen": 4522608,
      "step": 7795
    },
    {
      "epoch": 1.161751563896336,
      "grad_norm": 4.827874183654785,
      "learning_rate": 2.9040065534703603e-05,
      "loss": 0.5445,
      "num_input_tokens_seen": 4525488,
      "step": 7800
    },
    {
      "epoch": 1.1624962764372953,
      "grad_norm": 9.132015228271484,
      "learning_rate": 2.9058683348227584e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 4528528,
      "step": 7805
    },
    {
      "epoch": 1.1632409889782545,
      "grad_norm": 10.128777503967285,
      "learning_rate": 2.9077301161751563e-05,
      "loss": 0.59,
      "num_input_tokens_seen": 4531344,
      "step": 7810
    },
    {
      "epoch": 1.1639857015192137,
      "grad_norm": 9.595534324645996,
      "learning_rate": 2.9095918975275544e-05,
      "loss": 0.6016,
      "num_input_tokens_seen": 4534416,
      "step": 7815
    },
    {
      "epoch": 1.1647304140601729,
      "grad_norm": 4.109169960021973,
      "learning_rate": 2.9114536788799523e-05,
      "loss": 0.512,
      "num_input_tokens_seen": 4537296,
      "step": 7820
    },
    {
      "epoch": 1.165475126601132,
      "grad_norm": 10.139205932617188,
      "learning_rate": 2.9133154602323504e-05,
      "loss": 0.4716,
      "num_input_tokens_seen": 4540048,
      "step": 7825
    },
    {
      "epoch": 1.1662198391420913,
      "grad_norm": 10.921209335327148,
      "learning_rate": 2.9151772415847482e-05,
      "loss": 0.6469,
      "num_input_tokens_seen": 4543248,
      "step": 7830
    },
    {
      "epoch": 1.1669645516830505,
      "grad_norm": 12.217683792114258,
      "learning_rate": 2.9170390229371464e-05,
      "loss": 0.7159,
      "num_input_tokens_seen": 4546160,
      "step": 7835
    },
    {
      "epoch": 1.1677092642240094,
      "grad_norm": 3.3456711769104004,
      "learning_rate": 2.9189008042895442e-05,
      "loss": 0.6752,
      "num_input_tokens_seen": 4548848,
      "step": 7840
    },
    {
      "epoch": 1.1684539767649686,
      "grad_norm": 10.002901077270508,
      "learning_rate": 2.9207625856419424e-05,
      "loss": 0.7205,
      "num_input_tokens_seen": 4551856,
      "step": 7845
    },
    {
      "epoch": 1.1691986893059279,
      "grad_norm": 4.430977821350098,
      "learning_rate": 2.9226243669943406e-05,
      "loss": 0.5929,
      "num_input_tokens_seen": 4555056,
      "step": 7850
    },
    {
      "epoch": 1.169943401846887,
      "grad_norm": 6.772362232208252,
      "learning_rate": 2.9244861483467384e-05,
      "loss": 0.669,
      "num_input_tokens_seen": 4558032,
      "step": 7855
    },
    {
      "epoch": 1.1706881143878463,
      "grad_norm": 4.563364505767822,
      "learning_rate": 2.9263479296991365e-05,
      "loss": 0.7404,
      "num_input_tokens_seen": 4560944,
      "step": 7860
    },
    {
      "epoch": 1.1714328269288055,
      "grad_norm": 5.33528995513916,
      "learning_rate": 2.9282097110515344e-05,
      "loss": 0.8157,
      "num_input_tokens_seen": 4563824,
      "step": 7865
    },
    {
      "epoch": 1.1721775394697647,
      "grad_norm": 4.381211280822754,
      "learning_rate": 2.9300714924039325e-05,
      "loss": 0.5766,
      "num_input_tokens_seen": 4566864,
      "step": 7870
    },
    {
      "epoch": 1.1729222520107239,
      "grad_norm": 6.245542526245117,
      "learning_rate": 2.9319332737563303e-05,
      "loss": 0.7494,
      "num_input_tokens_seen": 4569712,
      "step": 7875
    },
    {
      "epoch": 1.173666964551683,
      "grad_norm": 14.342650413513184,
      "learning_rate": 2.9337950551087285e-05,
      "loss": 0.6144,
      "num_input_tokens_seen": 4572528,
      "step": 7880
    },
    {
      "epoch": 1.1744116770926423,
      "grad_norm": 6.277785778045654,
      "learning_rate": 2.935656836461126e-05,
      "loss": 0.6557,
      "num_input_tokens_seen": 4575280,
      "step": 7885
    },
    {
      "epoch": 1.1751563896336015,
      "grad_norm": 8.341279983520508,
      "learning_rate": 2.9375186178135238e-05,
      "loss": 0.6147,
      "num_input_tokens_seen": 4578000,
      "step": 7890
    },
    {
      "epoch": 1.1759011021745607,
      "grad_norm": 4.536736011505127,
      "learning_rate": 2.939380399165922e-05,
      "loss": 0.634,
      "num_input_tokens_seen": 4581136,
      "step": 7895
    },
    {
      "epoch": 1.1766458147155199,
      "grad_norm": 5.169911861419678,
      "learning_rate": 2.9412421805183198e-05,
      "loss": 0.5866,
      "num_input_tokens_seen": 4583792,
      "step": 7900
    },
    {
      "epoch": 1.177390527256479,
      "grad_norm": 6.719707012176514,
      "learning_rate": 2.943103961870718e-05,
      "loss": 0.8541,
      "num_input_tokens_seen": 4586768,
      "step": 7905
    },
    {
      "epoch": 1.1781352397974383,
      "grad_norm": 5.9349870681762695,
      "learning_rate": 2.9449657432231158e-05,
      "loss": 0.6682,
      "num_input_tokens_seen": 4589328,
      "step": 7910
    },
    {
      "epoch": 1.1788799523383973,
      "grad_norm": 9.672456741333008,
      "learning_rate": 2.946827524575514e-05,
      "loss": 0.6174,
      "num_input_tokens_seen": 4592048,
      "step": 7915
    },
    {
      "epoch": 1.1796246648793565,
      "grad_norm": 5.147502422332764,
      "learning_rate": 2.9486893059279118e-05,
      "loss": 0.6128,
      "num_input_tokens_seen": 4594800,
      "step": 7920
    },
    {
      "epoch": 1.1803693774203157,
      "grad_norm": 5.9969987869262695,
      "learning_rate": 2.95055108728031e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 4598032,
      "step": 7925
    },
    {
      "epoch": 1.1811140899612749,
      "grad_norm": 6.9139180183410645,
      "learning_rate": 2.952412868632708e-05,
      "loss": 0.5103,
      "num_input_tokens_seen": 4601200,
      "step": 7930
    },
    {
      "epoch": 1.181858802502234,
      "grad_norm": 5.764384746551514,
      "learning_rate": 2.954274649985106e-05,
      "loss": 0.5757,
      "num_input_tokens_seen": 4604272,
      "step": 7935
    },
    {
      "epoch": 1.1826035150431933,
      "grad_norm": 7.62462043762207,
      "learning_rate": 2.956136431337504e-05,
      "loss": 0.6359,
      "num_input_tokens_seen": 4607024,
      "step": 7940
    },
    {
      "epoch": 1.1833482275841525,
      "grad_norm": 8.700769424438477,
      "learning_rate": 2.957998212689902e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 4609648,
      "step": 7945
    },
    {
      "epoch": 1.1840929401251117,
      "grad_norm": 8.582849502563477,
      "learning_rate": 2.9598599940423e-05,
      "loss": 0.6192,
      "num_input_tokens_seen": 4612624,
      "step": 7950
    },
    {
      "epoch": 1.1848376526660709,
      "grad_norm": 6.16618013381958,
      "learning_rate": 2.961721775394698e-05,
      "loss": 0.7869,
      "num_input_tokens_seen": 4615632,
      "step": 7955
    },
    {
      "epoch": 1.18558236520703,
      "grad_norm": 9.601877212524414,
      "learning_rate": 2.963583556747096e-05,
      "loss": 0.6665,
      "num_input_tokens_seen": 4618320,
      "step": 7960
    },
    {
      "epoch": 1.1863270777479893,
      "grad_norm": 9.532756805419922,
      "learning_rate": 2.965445338099494e-05,
      "loss": 0.5741,
      "num_input_tokens_seen": 4621136,
      "step": 7965
    },
    {
      "epoch": 1.1870717902889485,
      "grad_norm": 10.72852611541748,
      "learning_rate": 2.9673071194518914e-05,
      "loss": 0.7707,
      "num_input_tokens_seen": 4623952,
      "step": 7970
    },
    {
      "epoch": 1.1878165028299077,
      "grad_norm": 4.885071754455566,
      "learning_rate": 2.9691689008042895e-05,
      "loss": 0.4262,
      "num_input_tokens_seen": 4627056,
      "step": 7975
    },
    {
      "epoch": 1.188561215370867,
      "grad_norm": 6.663228511810303,
      "learning_rate": 2.9710306821566873e-05,
      "loss": 0.7725,
      "num_input_tokens_seen": 4630064,
      "step": 7980
    },
    {
      "epoch": 1.189305927911826,
      "grad_norm": 5.744906425476074,
      "learning_rate": 2.9728924635090855e-05,
      "loss": 0.7179,
      "num_input_tokens_seen": 4632752,
      "step": 7985
    },
    {
      "epoch": 1.1900506404527853,
      "grad_norm": 5.20806884765625,
      "learning_rate": 2.9747542448614833e-05,
      "loss": 0.7454,
      "num_input_tokens_seen": 4635568,
      "step": 7990
    },
    {
      "epoch": 1.1907953529937445,
      "grad_norm": 7.926801681518555,
      "learning_rate": 2.9766160262138815e-05,
      "loss": 0.6134,
      "num_input_tokens_seen": 4638512,
      "step": 7995
    },
    {
      "epoch": 1.1915400655347037,
      "grad_norm": 5.487691879272461,
      "learning_rate": 2.9784778075662793e-05,
      "loss": 0.6414,
      "num_input_tokens_seen": 4641552,
      "step": 8000
    },
    {
      "epoch": 1.192284778075663,
      "grad_norm": 8.297619819641113,
      "learning_rate": 2.9803395889186775e-05,
      "loss": 0.6244,
      "num_input_tokens_seen": 4644144,
      "step": 8005
    },
    {
      "epoch": 1.193029490616622,
      "grad_norm": 3.7315587997436523,
      "learning_rate": 2.9822013702710756e-05,
      "loss": 0.7062,
      "num_input_tokens_seen": 4647120,
      "step": 8010
    },
    {
      "epoch": 1.193774203157581,
      "grad_norm": 4.108560085296631,
      "learning_rate": 2.9840631516234735e-05,
      "loss": 0.4818,
      "num_input_tokens_seen": 4649808,
      "step": 8015
    },
    {
      "epoch": 1.1945189156985403,
      "grad_norm": 3.753405809402466,
      "learning_rate": 2.9859249329758716e-05,
      "loss": 0.5202,
      "num_input_tokens_seen": 4652720,
      "step": 8020
    },
    {
      "epoch": 1.1952636282394995,
      "grad_norm": 13.350369453430176,
      "learning_rate": 2.9877867143282694e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 4656112,
      "step": 8025
    },
    {
      "epoch": 1.1960083407804587,
      "grad_norm": 13.54926872253418,
      "learning_rate": 2.9896484956806676e-05,
      "loss": 0.7036,
      "num_input_tokens_seen": 4658928,
      "step": 8030
    },
    {
      "epoch": 1.196753053321418,
      "grad_norm": 8.42082405090332,
      "learning_rate": 2.9915102770330654e-05,
      "loss": 0.636,
      "num_input_tokens_seen": 4661872,
      "step": 8035
    },
    {
      "epoch": 1.197497765862377,
      "grad_norm": 6.592918872833252,
      "learning_rate": 2.9933720583854636e-05,
      "loss": 0.6246,
      "num_input_tokens_seen": 4664752,
      "step": 8040
    },
    {
      "epoch": 1.1982424784033363,
      "grad_norm": 6.708645343780518,
      "learning_rate": 2.9952338397378614e-05,
      "loss": 0.6759,
      "num_input_tokens_seen": 4667536,
      "step": 8045
    },
    {
      "epoch": 1.1989871909442955,
      "grad_norm": 6.881433963775635,
      "learning_rate": 2.9970956210902596e-05,
      "loss": 0.6335,
      "num_input_tokens_seen": 4670352,
      "step": 8050
    },
    {
      "epoch": 1.1997319034852547,
      "grad_norm": 6.2346272468566895,
      "learning_rate": 2.9989574024426574e-05,
      "loss": 0.5654,
      "num_input_tokens_seen": 4673072,
      "step": 8055
    },
    {
      "epoch": 1.200476616026214,
      "grad_norm": 6.251811981201172,
      "learning_rate": 3.000819183795055e-05,
      "loss": 0.7299,
      "num_input_tokens_seen": 4676112,
      "step": 8060
    },
    {
      "epoch": 1.2012213285671731,
      "grad_norm": 10.83620834350586,
      "learning_rate": 3.002680965147453e-05,
      "loss": 0.6874,
      "num_input_tokens_seen": 4678928,
      "step": 8065
    },
    {
      "epoch": 1.2019660411081323,
      "grad_norm": 4.910730361938477,
      "learning_rate": 3.004542746499851e-05,
      "loss": 0.4908,
      "num_input_tokens_seen": 4682192,
      "step": 8070
    },
    {
      "epoch": 1.2027107536490915,
      "grad_norm": 8.497601509094238,
      "learning_rate": 3.006404527852249e-05,
      "loss": 0.4785,
      "num_input_tokens_seen": 4685520,
      "step": 8075
    },
    {
      "epoch": 1.2034554661900507,
      "grad_norm": 8.198345184326172,
      "learning_rate": 3.008266309204647e-05,
      "loss": 0.5514,
      "num_input_tokens_seen": 4688208,
      "step": 8080
    },
    {
      "epoch": 1.2042001787310097,
      "grad_norm": 27.187400817871094,
      "learning_rate": 3.010128090557045e-05,
      "loss": 0.7296,
      "num_input_tokens_seen": 4690928,
      "step": 8085
    },
    {
      "epoch": 1.204944891271969,
      "grad_norm": 6.4938435554504395,
      "learning_rate": 3.0119898719094432e-05,
      "loss": 0.6213,
      "num_input_tokens_seen": 4693808,
      "step": 8090
    },
    {
      "epoch": 1.2056896038129281,
      "grad_norm": 6.525735855102539,
      "learning_rate": 3.013851653261841e-05,
      "loss": 0.8327,
      "num_input_tokens_seen": 4696400,
      "step": 8095
    },
    {
      "epoch": 1.2064343163538873,
      "grad_norm": 11.342395782470703,
      "learning_rate": 3.015713434614239e-05,
      "loss": 0.7896,
      "num_input_tokens_seen": 4699056,
      "step": 8100
    },
    {
      "epoch": 1.2071790288948465,
      "grad_norm": 4.24444055557251,
      "learning_rate": 3.017575215966637e-05,
      "loss": 0.7198,
      "num_input_tokens_seen": 4702032,
      "step": 8105
    },
    {
      "epoch": 1.2079237414358057,
      "grad_norm": 3.8433895111083984,
      "learning_rate": 3.019436997319035e-05,
      "loss": 0.6019,
      "num_input_tokens_seen": 4704912,
      "step": 8110
    },
    {
      "epoch": 1.208668453976765,
      "grad_norm": 6.908116817474365,
      "learning_rate": 3.021298778671433e-05,
      "loss": 0.6386,
      "num_input_tokens_seen": 4707664,
      "step": 8115
    },
    {
      "epoch": 1.2094131665177241,
      "grad_norm": 4.154566287994385,
      "learning_rate": 3.023160560023831e-05,
      "loss": 0.6914,
      "num_input_tokens_seen": 4710896,
      "step": 8120
    },
    {
      "epoch": 1.2101578790586833,
      "grad_norm": 4.593899250030518,
      "learning_rate": 3.025022341376229e-05,
      "loss": 0.532,
      "num_input_tokens_seen": 4713904,
      "step": 8125
    },
    {
      "epoch": 1.2109025915996425,
      "grad_norm": 3.8111627101898193,
      "learning_rate": 3.026884122728627e-05,
      "loss": 0.6596,
      "num_input_tokens_seen": 4716720,
      "step": 8130
    },
    {
      "epoch": 1.2116473041406017,
      "grad_norm": 6.815147876739502,
      "learning_rate": 3.028745904081025e-05,
      "loss": 0.6451,
      "num_input_tokens_seen": 4719632,
      "step": 8135
    },
    {
      "epoch": 1.212392016681561,
      "grad_norm": 4.094995498657227,
      "learning_rate": 3.030607685433423e-05,
      "loss": 0.6083,
      "num_input_tokens_seen": 4722416,
      "step": 8140
    },
    {
      "epoch": 1.2131367292225201,
      "grad_norm": 7.0547194480896,
      "learning_rate": 3.0324694667858206e-05,
      "loss": 0.5917,
      "num_input_tokens_seen": 4725040,
      "step": 8145
    },
    {
      "epoch": 1.2138814417634793,
      "grad_norm": 7.316985130310059,
      "learning_rate": 3.0343312481382184e-05,
      "loss": 0.6091,
      "num_input_tokens_seen": 4727888,
      "step": 8150
    },
    {
      "epoch": 1.2146261543044385,
      "grad_norm": 6.470601558685303,
      "learning_rate": 3.0361930294906166e-05,
      "loss": 0.6292,
      "num_input_tokens_seen": 4730800,
      "step": 8155
    },
    {
      "epoch": 1.2153708668453977,
      "grad_norm": 4.938437461853027,
      "learning_rate": 3.0380548108430147e-05,
      "loss": 0.6713,
      "num_input_tokens_seen": 4733680,
      "step": 8160
    },
    {
      "epoch": 1.216115579386357,
      "grad_norm": 5.489327907562256,
      "learning_rate": 3.0399165921954126e-05,
      "loss": 0.5792,
      "num_input_tokens_seen": 4736240,
      "step": 8165
    },
    {
      "epoch": 1.2168602919273162,
      "grad_norm": 12.264336585998535,
      "learning_rate": 3.0417783735478107e-05,
      "loss": 1.0414,
      "num_input_tokens_seen": 4739376,
      "step": 8170
    },
    {
      "epoch": 1.2176050044682754,
      "grad_norm": 3.3436567783355713,
      "learning_rate": 3.0436401549002085e-05,
      "loss": 0.6806,
      "num_input_tokens_seen": 4742224,
      "step": 8175
    },
    {
      "epoch": 1.2183497170092346,
      "grad_norm": 5.329315662384033,
      "learning_rate": 3.0455019362526067e-05,
      "loss": 0.5916,
      "num_input_tokens_seen": 4745200,
      "step": 8180
    },
    {
      "epoch": 1.2190944295501935,
      "grad_norm": 6.529811382293701,
      "learning_rate": 3.0473637176050045e-05,
      "loss": 0.7548,
      "num_input_tokens_seen": 4748336,
      "step": 8185
    },
    {
      "epoch": 1.2198391420911527,
      "grad_norm": 5.9577956199646,
      "learning_rate": 3.0492254989574027e-05,
      "loss": 0.5331,
      "num_input_tokens_seen": 4751024,
      "step": 8190
    },
    {
      "epoch": 1.220583854632112,
      "grad_norm": 3.489863634109497,
      "learning_rate": 3.0510872803098005e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 4753872,
      "step": 8195
    },
    {
      "epoch": 1.2213285671730711,
      "grad_norm": 3.1923022270202637,
      "learning_rate": 3.052949061662199e-05,
      "loss": 0.5511,
      "num_input_tokens_seen": 4756912,
      "step": 8200
    },
    {
      "epoch": 1.2220732797140303,
      "grad_norm": 4.898452281951904,
      "learning_rate": 3.0548108430145965e-05,
      "loss": 0.701,
      "num_input_tokens_seen": 4759632,
      "step": 8205
    },
    {
      "epoch": 1.2228179922549895,
      "grad_norm": 5.56227970123291,
      "learning_rate": 3.056672624366994e-05,
      "loss": 0.5618,
      "num_input_tokens_seen": 4763152,
      "step": 8210
    },
    {
      "epoch": 1.2235627047959488,
      "grad_norm": 5.603654861450195,
      "learning_rate": 3.058534405719393e-05,
      "loss": 0.4459,
      "num_input_tokens_seen": 4766256,
      "step": 8215
    },
    {
      "epoch": 1.224307417336908,
      "grad_norm": 14.258618354797363,
      "learning_rate": 3.0603961870717907e-05,
      "loss": 0.7134,
      "num_input_tokens_seen": 4769040,
      "step": 8220
    },
    {
      "epoch": 1.2250521298778672,
      "grad_norm": 7.119193077087402,
      "learning_rate": 3.0622579684241885e-05,
      "loss": 0.6589,
      "num_input_tokens_seen": 4771760,
      "step": 8225
    },
    {
      "epoch": 1.2257968424188264,
      "grad_norm": 7.611753940582275,
      "learning_rate": 3.064119749776586e-05,
      "loss": 0.4992,
      "num_input_tokens_seen": 4774480,
      "step": 8230
    },
    {
      "epoch": 1.2265415549597856,
      "grad_norm": 4.308287620544434,
      "learning_rate": 3.065981531128984e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 4777488,
      "step": 8235
    },
    {
      "epoch": 1.2272862675007448,
      "grad_norm": 12.846203804016113,
      "learning_rate": 3.067843312481382e-05,
      "loss": 0.5669,
      "num_input_tokens_seen": 4780208,
      "step": 8240
    },
    {
      "epoch": 1.228030980041704,
      "grad_norm": 12.373738288879395,
      "learning_rate": 3.0697050938337804e-05,
      "loss": 0.7437,
      "num_input_tokens_seen": 4783248,
      "step": 8245
    },
    {
      "epoch": 1.2287756925826632,
      "grad_norm": 5.035680294036865,
      "learning_rate": 3.071566875186178e-05,
      "loss": 0.5585,
      "num_input_tokens_seen": 4786064,
      "step": 8250
    },
    {
      "epoch": 1.2295204051236224,
      "grad_norm": 3.830967664718628,
      "learning_rate": 3.073428656538576e-05,
      "loss": 0.6766,
      "num_input_tokens_seen": 4789104,
      "step": 8255
    },
    {
      "epoch": 1.2302651176645814,
      "grad_norm": 8.460280418395996,
      "learning_rate": 3.075290437890974e-05,
      "loss": 0.5818,
      "num_input_tokens_seen": 4792144,
      "step": 8260
    },
    {
      "epoch": 1.2310098302055406,
      "grad_norm": 6.205758094787598,
      "learning_rate": 3.0771522192433724e-05,
      "loss": 0.5627,
      "num_input_tokens_seen": 4794928,
      "step": 8265
    },
    {
      "epoch": 1.2317545427464998,
      "grad_norm": 5.95863151550293,
      "learning_rate": 3.07901400059577e-05,
      "loss": 0.5285,
      "num_input_tokens_seen": 4797680,
      "step": 8270
    },
    {
      "epoch": 1.232499255287459,
      "grad_norm": 5.165158271789551,
      "learning_rate": 3.080875781948168e-05,
      "loss": 0.7611,
      "num_input_tokens_seen": 4800720,
      "step": 8275
    },
    {
      "epoch": 1.2332439678284182,
      "grad_norm": 5.607398986816406,
      "learning_rate": 3.082737563300566e-05,
      "loss": 0.7601,
      "num_input_tokens_seen": 4803696,
      "step": 8280
    },
    {
      "epoch": 1.2339886803693774,
      "grad_norm": 8.532130241394043,
      "learning_rate": 3.0845993446529644e-05,
      "loss": 0.6785,
      "num_input_tokens_seen": 4806352,
      "step": 8285
    },
    {
      "epoch": 1.2347333929103366,
      "grad_norm": 5.466090679168701,
      "learning_rate": 3.086461126005362e-05,
      "loss": 0.6979,
      "num_input_tokens_seen": 4809520,
      "step": 8290
    },
    {
      "epoch": 1.2354781054512958,
      "grad_norm": 5.054904937744141,
      "learning_rate": 3.08832290735776e-05,
      "loss": 0.7232,
      "num_input_tokens_seen": 4812496,
      "step": 8295
    },
    {
      "epoch": 1.236222817992255,
      "grad_norm": 3.44281005859375,
      "learning_rate": 3.0901846887101585e-05,
      "loss": 0.7435,
      "num_input_tokens_seen": 4815248,
      "step": 8300
    },
    {
      "epoch": 1.2369675305332142,
      "grad_norm": 2.217679262161255,
      "learning_rate": 3.0920464700625564e-05,
      "loss": 0.4862,
      "num_input_tokens_seen": 4817904,
      "step": 8305
    },
    {
      "epoch": 1.2377122430741734,
      "grad_norm": 5.2358317375183105,
      "learning_rate": 3.093908251414954e-05,
      "loss": 0.712,
      "num_input_tokens_seen": 4821168,
      "step": 8310
    },
    {
      "epoch": 1.2384569556151326,
      "grad_norm": 4.2635345458984375,
      "learning_rate": 3.095770032767352e-05,
      "loss": 0.5565,
      "num_input_tokens_seen": 4824080,
      "step": 8315
    },
    {
      "epoch": 1.2392016681560918,
      "grad_norm": 14.601978302001953,
      "learning_rate": 3.09763181411975e-05,
      "loss": 0.6741,
      "num_input_tokens_seen": 4826960,
      "step": 8320
    },
    {
      "epoch": 1.239946380697051,
      "grad_norm": 5.14318323135376,
      "learning_rate": 3.0994935954721477e-05,
      "loss": 0.7289,
      "num_input_tokens_seen": 4830384,
      "step": 8325
    },
    {
      "epoch": 1.2406910932380102,
      "grad_norm": 6.583096504211426,
      "learning_rate": 3.1013553768245455e-05,
      "loss": 0.6319,
      "num_input_tokens_seen": 4833104,
      "step": 8330
    },
    {
      "epoch": 1.2414358057789694,
      "grad_norm": 4.6682305335998535,
      "learning_rate": 3.103217158176944e-05,
      "loss": 0.6324,
      "num_input_tokens_seen": 4836112,
      "step": 8335
    },
    {
      "epoch": 1.2421805183199286,
      "grad_norm": 4.462765693664551,
      "learning_rate": 3.105078939529342e-05,
      "loss": 0.8169,
      "num_input_tokens_seen": 4838928,
      "step": 8340
    },
    {
      "epoch": 1.2429252308608878,
      "grad_norm": 4.263877868652344,
      "learning_rate": 3.1069407208817396e-05,
      "loss": 0.6316,
      "num_input_tokens_seen": 4842160,
      "step": 8345
    },
    {
      "epoch": 1.243669943401847,
      "grad_norm": 4.183856964111328,
      "learning_rate": 3.1088025022341374e-05,
      "loss": 0.4986,
      "num_input_tokens_seen": 4845072,
      "step": 8350
    },
    {
      "epoch": 1.244414655942806,
      "grad_norm": 8.165029525756836,
      "learning_rate": 3.110664283586536e-05,
      "loss": 0.7173,
      "num_input_tokens_seen": 4847952,
      "step": 8355
    },
    {
      "epoch": 1.2451593684837652,
      "grad_norm": 4.637636184692383,
      "learning_rate": 3.112526064938934e-05,
      "loss": 0.5824,
      "num_input_tokens_seen": 4850832,
      "step": 8360
    },
    {
      "epoch": 1.2459040810247244,
      "grad_norm": 5.4173712730407715,
      "learning_rate": 3.1143878462913316e-05,
      "loss": 0.6295,
      "num_input_tokens_seen": 4853680,
      "step": 8365
    },
    {
      "epoch": 1.2466487935656836,
      "grad_norm": 5.520802021026611,
      "learning_rate": 3.1162496276437294e-05,
      "loss": 0.5348,
      "num_input_tokens_seen": 4856496,
      "step": 8370
    },
    {
      "epoch": 1.2473935061066428,
      "grad_norm": 12.05077075958252,
      "learning_rate": 3.118111408996128e-05,
      "loss": 0.6955,
      "num_input_tokens_seen": 4859600,
      "step": 8375
    },
    {
      "epoch": 1.248138218647602,
      "grad_norm": 7.459420680999756,
      "learning_rate": 3.119973190348526e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 4862544,
      "step": 8380
    },
    {
      "epoch": 1.2488829311885612,
      "grad_norm": 4.605321884155273,
      "learning_rate": 3.1218349717009236e-05,
      "loss": 0.5538,
      "num_input_tokens_seen": 4865296,
      "step": 8385
    },
    {
      "epoch": 1.2496276437295204,
      "grad_norm": 12.578893661499023,
      "learning_rate": 3.123696753053322e-05,
      "loss": 0.8411,
      "num_input_tokens_seen": 4868368,
      "step": 8390
    },
    {
      "epoch": 1.2503723562704796,
      "grad_norm": 4.331946849822998,
      "learning_rate": 3.12555853440572e-05,
      "loss": 0.6015,
      "num_input_tokens_seen": 4871280,
      "step": 8395
    },
    {
      "epoch": 1.2511170688114388,
      "grad_norm": 8.291468620300293,
      "learning_rate": 3.127420315758118e-05,
      "loss": 0.5391,
      "num_input_tokens_seen": 4874224,
      "step": 8400
    },
    {
      "epoch": 1.251861781352398,
      "grad_norm": 6.416120529174805,
      "learning_rate": 3.1292820971105155e-05,
      "loss": 0.7202,
      "num_input_tokens_seen": 4877008,
      "step": 8405
    },
    {
      "epoch": 1.2526064938933572,
      "grad_norm": 4.990129470825195,
      "learning_rate": 3.1311438784629134e-05,
      "loss": 0.4215,
      "num_input_tokens_seen": 4880400,
      "step": 8410
    },
    {
      "epoch": 1.2533512064343164,
      "grad_norm": 5.9212775230407715,
      "learning_rate": 3.133005659815311e-05,
      "loss": 0.5955,
      "num_input_tokens_seen": 4883408,
      "step": 8415
    },
    {
      "epoch": 1.2540959189752756,
      "grad_norm": 5.878710746765137,
      "learning_rate": 3.134867441167709e-05,
      "loss": 0.6075,
      "num_input_tokens_seen": 4886768,
      "step": 8420
    },
    {
      "epoch": 1.2548406315162346,
      "grad_norm": 4.115811347961426,
      "learning_rate": 3.1367292225201075e-05,
      "loss": 0.511,
      "num_input_tokens_seen": 4889744,
      "step": 8425
    },
    {
      "epoch": 1.2555853440571938,
      "grad_norm": 11.8770170211792,
      "learning_rate": 3.138591003872505e-05,
      "loss": 0.4721,
      "num_input_tokens_seen": 4892816,
      "step": 8430
    },
    {
      "epoch": 1.256330056598153,
      "grad_norm": 7.877593517303467,
      "learning_rate": 3.140452785224903e-05,
      "loss": 0.8745,
      "num_input_tokens_seen": 4895920,
      "step": 8435
    },
    {
      "epoch": 1.2570747691391122,
      "grad_norm": 9.513197898864746,
      "learning_rate": 3.142314566577301e-05,
      "loss": 0.7295,
      "num_input_tokens_seen": 4898960,
      "step": 8440
    },
    {
      "epoch": 1.2578194816800714,
      "grad_norm": 13.999074935913086,
      "learning_rate": 3.1441763479296995e-05,
      "loss": 0.5802,
      "num_input_tokens_seen": 4901776,
      "step": 8445
    },
    {
      "epoch": 1.2585641942210306,
      "grad_norm": 6.631912708282471,
      "learning_rate": 3.146038129282097e-05,
      "loss": 0.5785,
      "num_input_tokens_seen": 4904528,
      "step": 8450
    },
    {
      "epoch": 1.2593089067619898,
      "grad_norm": 5.9720778465271,
      "learning_rate": 3.147899910634495e-05,
      "loss": 0.6203,
      "num_input_tokens_seen": 4907408,
      "step": 8455
    },
    {
      "epoch": 1.260053619302949,
      "grad_norm": 7.213840007781982,
      "learning_rate": 3.1497616919868936e-05,
      "loss": 0.6778,
      "num_input_tokens_seen": 4910416,
      "step": 8460
    },
    {
      "epoch": 1.2607983318439082,
      "grad_norm": 11.26734733581543,
      "learning_rate": 3.1516234733392914e-05,
      "loss": 0.6507,
      "num_input_tokens_seen": 4913232,
      "step": 8465
    },
    {
      "epoch": 1.2615430443848674,
      "grad_norm": 5.141410827636719,
      "learning_rate": 3.153485254691689e-05,
      "loss": 0.6204,
      "num_input_tokens_seen": 4916112,
      "step": 8470
    },
    {
      "epoch": 1.2622877569258266,
      "grad_norm": 9.927802085876465,
      "learning_rate": 3.155347036044087e-05,
      "loss": 0.7088,
      "num_input_tokens_seen": 4918864,
      "step": 8475
    },
    {
      "epoch": 1.2630324694667858,
      "grad_norm": 4.658847332000732,
      "learning_rate": 3.1572088173964856e-05,
      "loss": 0.7048,
      "num_input_tokens_seen": 4921616,
      "step": 8480
    },
    {
      "epoch": 1.263777182007745,
      "grad_norm": 5.685226917266846,
      "learning_rate": 3.1590705987488834e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 4924528,
      "step": 8485
    },
    {
      "epoch": 1.2645218945487042,
      "grad_norm": 14.687165260314941,
      "learning_rate": 3.1609323801012806e-05,
      "loss": 0.5711,
      "num_input_tokens_seen": 4927504,
      "step": 8490
    },
    {
      "epoch": 1.2652666070896634,
      "grad_norm": 3.776371479034424,
      "learning_rate": 3.162794161453679e-05,
      "loss": 0.5556,
      "num_input_tokens_seen": 4930704,
      "step": 8495
    },
    {
      "epoch": 1.2660113196306226,
      "grad_norm": 6.955134391784668,
      "learning_rate": 3.164655942806077e-05,
      "loss": 0.7216,
      "num_input_tokens_seen": 4933392,
      "step": 8500
    },
    {
      "epoch": 1.2667560321715818,
      "grad_norm": 4.210282325744629,
      "learning_rate": 3.166517724158475e-05,
      "loss": 0.6369,
      "num_input_tokens_seen": 4936464,
      "step": 8505
    },
    {
      "epoch": 1.267500744712541,
      "grad_norm": 6.841038227081299,
      "learning_rate": 3.1683795055108725e-05,
      "loss": 0.6593,
      "num_input_tokens_seen": 4939600,
      "step": 8510
    },
    {
      "epoch": 1.2682454572535002,
      "grad_norm": 9.829462051391602,
      "learning_rate": 3.170241286863271e-05,
      "loss": 0.6618,
      "num_input_tokens_seen": 4942672,
      "step": 8515
    },
    {
      "epoch": 1.2689901697944594,
      "grad_norm": 8.56392765045166,
      "learning_rate": 3.172103068215669e-05,
      "loss": 0.6599,
      "num_input_tokens_seen": 4945296,
      "step": 8520
    },
    {
      "epoch": 1.2697348823354186,
      "grad_norm": 4.708609580993652,
      "learning_rate": 3.173964849568067e-05,
      "loss": 0.6684,
      "num_input_tokens_seen": 4948208,
      "step": 8525
    },
    {
      "epoch": 1.2704795948763778,
      "grad_norm": 7.105782985687256,
      "learning_rate": 3.1758266309204645e-05,
      "loss": 0.6971,
      "num_input_tokens_seen": 4950992,
      "step": 8530
    },
    {
      "epoch": 1.2712243074173368,
      "grad_norm": 4.501831531524658,
      "learning_rate": 3.177688412272863e-05,
      "loss": 0.5852,
      "num_input_tokens_seen": 4953840,
      "step": 8535
    },
    {
      "epoch": 1.271969019958296,
      "grad_norm": 8.67954158782959,
      "learning_rate": 3.179550193625261e-05,
      "loss": 0.7513,
      "num_input_tokens_seen": 4956624,
      "step": 8540
    },
    {
      "epoch": 1.2727137324992552,
      "grad_norm": 7.458250045776367,
      "learning_rate": 3.1814119749776586e-05,
      "loss": 0.6566,
      "num_input_tokens_seen": 4959440,
      "step": 8545
    },
    {
      "epoch": 1.2734584450402144,
      "grad_norm": 5.118346214294434,
      "learning_rate": 3.183273756330057e-05,
      "loss": 0.6075,
      "num_input_tokens_seen": 4962576,
      "step": 8550
    },
    {
      "epoch": 1.2742031575811736,
      "grad_norm": 3.153256893157959,
      "learning_rate": 3.185135537682455e-05,
      "loss": 0.5798,
      "num_input_tokens_seen": 4965360,
      "step": 8555
    },
    {
      "epoch": 1.2749478701221328,
      "grad_norm": 6.669140815734863,
      "learning_rate": 3.186997319034853e-05,
      "loss": 0.558,
      "num_input_tokens_seen": 4968144,
      "step": 8560
    },
    {
      "epoch": 1.275692582663092,
      "grad_norm": 13.399828910827637,
      "learning_rate": 3.1888591003872506e-05,
      "loss": 0.7864,
      "num_input_tokens_seen": 4970832,
      "step": 8565
    },
    {
      "epoch": 1.2764372952040512,
      "grad_norm": 7.17203950881958,
      "learning_rate": 3.190720881739649e-05,
      "loss": 0.7274,
      "num_input_tokens_seen": 4973680,
      "step": 8570
    },
    {
      "epoch": 1.2771820077450105,
      "grad_norm": 11.76150131225586,
      "learning_rate": 3.192582663092047e-05,
      "loss": 0.709,
      "num_input_tokens_seen": 4976464,
      "step": 8575
    },
    {
      "epoch": 1.2779267202859697,
      "grad_norm": 3.673994541168213,
      "learning_rate": 3.194444444444444e-05,
      "loss": 0.5172,
      "num_input_tokens_seen": 4979120,
      "step": 8580
    },
    {
      "epoch": 1.2786714328269289,
      "grad_norm": 6.720418930053711,
      "learning_rate": 3.1963062257968426e-05,
      "loss": 0.5522,
      "num_input_tokens_seen": 4982000,
      "step": 8585
    },
    {
      "epoch": 1.279416145367888,
      "grad_norm": 5.353666305541992,
      "learning_rate": 3.1981680071492404e-05,
      "loss": 0.6942,
      "num_input_tokens_seen": 4984560,
      "step": 8590
    },
    {
      "epoch": 1.2801608579088473,
      "grad_norm": 4.987988471984863,
      "learning_rate": 3.200029788501638e-05,
      "loss": 0.619,
      "num_input_tokens_seen": 4987408,
      "step": 8595
    },
    {
      "epoch": 1.2809055704498062,
      "grad_norm": 3.4816722869873047,
      "learning_rate": 3.201891569854036e-05,
      "loss": 0.6721,
      "num_input_tokens_seen": 4990384,
      "step": 8600
    },
    {
      "epoch": 1.2816502829907654,
      "grad_norm": 5.735522747039795,
      "learning_rate": 3.2037533512064346e-05,
      "loss": 0.6863,
      "num_input_tokens_seen": 4993296,
      "step": 8605
    },
    {
      "epoch": 1.2823949955317246,
      "grad_norm": 4.273618221282959,
      "learning_rate": 3.2056151325588324e-05,
      "loss": 0.7304,
      "num_input_tokens_seen": 4996272,
      "step": 8610
    },
    {
      "epoch": 1.2831397080726838,
      "grad_norm": 3.5010743141174316,
      "learning_rate": 3.20747691391123e-05,
      "loss": 0.7363,
      "num_input_tokens_seen": 4998960,
      "step": 8615
    },
    {
      "epoch": 1.283884420613643,
      "grad_norm": 4.520600318908691,
      "learning_rate": 3.209338695263629e-05,
      "loss": 0.5373,
      "num_input_tokens_seen": 5001648,
      "step": 8620
    },
    {
      "epoch": 1.2846291331546023,
      "grad_norm": 7.273340225219727,
      "learning_rate": 3.2112004766160265e-05,
      "loss": 0.5578,
      "num_input_tokens_seen": 5004752,
      "step": 8625
    },
    {
      "epoch": 1.2853738456955615,
      "grad_norm": 9.431781768798828,
      "learning_rate": 3.2130622579684244e-05,
      "loss": 0.821,
      "num_input_tokens_seen": 5007664,
      "step": 8630
    },
    {
      "epoch": 1.2861185582365207,
      "grad_norm": 5.422025203704834,
      "learning_rate": 3.214924039320822e-05,
      "loss": 0.6948,
      "num_input_tokens_seen": 5010480,
      "step": 8635
    },
    {
      "epoch": 1.2868632707774799,
      "grad_norm": 5.030128002166748,
      "learning_rate": 3.216785820673221e-05,
      "loss": 0.5424,
      "num_input_tokens_seen": 5013552,
      "step": 8640
    },
    {
      "epoch": 1.287607983318439,
      "grad_norm": 4.92227840423584,
      "learning_rate": 3.2186476020256185e-05,
      "loss": 0.5062,
      "num_input_tokens_seen": 5016592,
      "step": 8645
    },
    {
      "epoch": 1.2883526958593983,
      "grad_norm": 4.249793529510498,
      "learning_rate": 3.220509383378016e-05,
      "loss": 0.6642,
      "num_input_tokens_seen": 5019536,
      "step": 8650
    },
    {
      "epoch": 1.2890974084003575,
      "grad_norm": 3.2766098976135254,
      "learning_rate": 3.222371164730414e-05,
      "loss": 0.6246,
      "num_input_tokens_seen": 5023664,
      "step": 8655
    },
    {
      "epoch": 1.2898421209413167,
      "grad_norm": 9.133602142333984,
      "learning_rate": 3.2242329460828126e-05,
      "loss": 0.7809,
      "num_input_tokens_seen": 5026576,
      "step": 8660
    },
    {
      "epoch": 1.2905868334822759,
      "grad_norm": 5.441171169281006,
      "learning_rate": 3.22609472743521e-05,
      "loss": 0.5835,
      "num_input_tokens_seen": 5029456,
      "step": 8665
    },
    {
      "epoch": 1.291331546023235,
      "grad_norm": 7.171587944030762,
      "learning_rate": 3.2279565087876076e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 5032144,
      "step": 8670
    },
    {
      "epoch": 1.2920762585641943,
      "grad_norm": 10.43079662322998,
      "learning_rate": 3.229818290140006e-05,
      "loss": 0.7186,
      "num_input_tokens_seen": 5035056,
      "step": 8675
    },
    {
      "epoch": 1.2928209711051535,
      "grad_norm": 8.673574447631836,
      "learning_rate": 3.231680071492404e-05,
      "loss": 0.7637,
      "num_input_tokens_seen": 5037680,
      "step": 8680
    },
    {
      "epoch": 1.2935656836461127,
      "grad_norm": 8.765291213989258,
      "learning_rate": 3.233541852844802e-05,
      "loss": 0.6288,
      "num_input_tokens_seen": 5040912,
      "step": 8685
    },
    {
      "epoch": 1.2943103961870719,
      "grad_norm": 5.5406622886657715,
      "learning_rate": 3.2354036341972e-05,
      "loss": 0.6268,
      "num_input_tokens_seen": 5043504,
      "step": 8690
    },
    {
      "epoch": 1.295055108728031,
      "grad_norm": 7.500641822814941,
      "learning_rate": 3.237265415549598e-05,
      "loss": 0.6947,
      "num_input_tokens_seen": 5046448,
      "step": 8695
    },
    {
      "epoch": 1.2957998212689903,
      "grad_norm": 10.66749382019043,
      "learning_rate": 3.239127196901996e-05,
      "loss": 0.6604,
      "num_input_tokens_seen": 5049360,
      "step": 8700
    },
    {
      "epoch": 1.2965445338099495,
      "grad_norm": 6.238873481750488,
      "learning_rate": 3.240988978254394e-05,
      "loss": 0.689,
      "num_input_tokens_seen": 5051952,
      "step": 8705
    },
    {
      "epoch": 1.2972892463509085,
      "grad_norm": 6.820693492889404,
      "learning_rate": 3.242850759606792e-05,
      "loss": 0.7241,
      "num_input_tokens_seen": 5055120,
      "step": 8710
    },
    {
      "epoch": 1.2980339588918677,
      "grad_norm": 9.965055465698242,
      "learning_rate": 3.24471254095919e-05,
      "loss": 0.6165,
      "num_input_tokens_seen": 5058640,
      "step": 8715
    },
    {
      "epoch": 1.2987786714328269,
      "grad_norm": 8.480232238769531,
      "learning_rate": 3.246574322311588e-05,
      "loss": 0.6982,
      "num_input_tokens_seen": 5061328,
      "step": 8720
    },
    {
      "epoch": 1.299523383973786,
      "grad_norm": 5.67422342300415,
      "learning_rate": 3.248436103663986e-05,
      "loss": 0.7368,
      "num_input_tokens_seen": 5063888,
      "step": 8725
    },
    {
      "epoch": 1.3002680965147453,
      "grad_norm": 4.570556640625,
      "learning_rate": 3.250297885016384e-05,
      "loss": 0.8343,
      "num_input_tokens_seen": 5066928,
      "step": 8730
    },
    {
      "epoch": 1.3010128090557045,
      "grad_norm": 3.235067844390869,
      "learning_rate": 3.252159666368782e-05,
      "loss": 0.5913,
      "num_input_tokens_seen": 5069776,
      "step": 8735
    },
    {
      "epoch": 1.3017575215966637,
      "grad_norm": 5.029292106628418,
      "learning_rate": 3.25402144772118e-05,
      "loss": 0.666,
      "num_input_tokens_seen": 5072400,
      "step": 8740
    },
    {
      "epoch": 1.302502234137623,
      "grad_norm": 7.510842800140381,
      "learning_rate": 3.255883229073578e-05,
      "loss": 0.6263,
      "num_input_tokens_seen": 5075120,
      "step": 8745
    },
    {
      "epoch": 1.303246946678582,
      "grad_norm": 9.016340255737305,
      "learning_rate": 3.2577450104259755e-05,
      "loss": 0.6472,
      "num_input_tokens_seen": 5078160,
      "step": 8750
    },
    {
      "epoch": 1.3039916592195413,
      "grad_norm": 8.054205894470215,
      "learning_rate": 3.259606791778373e-05,
      "loss": 0.5609,
      "num_input_tokens_seen": 5081104,
      "step": 8755
    },
    {
      "epoch": 1.3047363717605005,
      "grad_norm": 12.394956588745117,
      "learning_rate": 3.261468573130771e-05,
      "loss": 0.7142,
      "num_input_tokens_seen": 5083888,
      "step": 8760
    },
    {
      "epoch": 1.3054810843014597,
      "grad_norm": 4.908011436462402,
      "learning_rate": 3.2633303544831696e-05,
      "loss": 0.5675,
      "num_input_tokens_seen": 5086704,
      "step": 8765
    },
    {
      "epoch": 1.306225796842419,
      "grad_norm": 8.057450294494629,
      "learning_rate": 3.2651921358355675e-05,
      "loss": 0.4818,
      "num_input_tokens_seen": 5089616,
      "step": 8770
    },
    {
      "epoch": 1.3069705093833779,
      "grad_norm": 6.747277736663818,
      "learning_rate": 3.267053917187965e-05,
      "loss": 0.5866,
      "num_input_tokens_seen": 5092240,
      "step": 8775
    },
    {
      "epoch": 1.307715221924337,
      "grad_norm": 4.7372260093688965,
      "learning_rate": 3.268915698540364e-05,
      "loss": 0.7385,
      "num_input_tokens_seen": 5095152,
      "step": 8780
    },
    {
      "epoch": 1.3084599344652963,
      "grad_norm": 1.6218528747558594,
      "learning_rate": 3.2707774798927616e-05,
      "loss": 0.6555,
      "num_input_tokens_seen": 5097968,
      "step": 8785
    },
    {
      "epoch": 1.3092046470062555,
      "grad_norm": 6.2941975593566895,
      "learning_rate": 3.2726392612451594e-05,
      "loss": 0.7565,
      "num_input_tokens_seen": 5100848,
      "step": 8790
    },
    {
      "epoch": 1.3099493595472147,
      "grad_norm": 4.880821704864502,
      "learning_rate": 3.274501042597557e-05,
      "loss": 0.6436,
      "num_input_tokens_seen": 5103888,
      "step": 8795
    },
    {
      "epoch": 1.310694072088174,
      "grad_norm": 2.039999008178711,
      "learning_rate": 3.276362823949956e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 5106832,
      "step": 8800
    },
    {
      "epoch": 1.311438784629133,
      "grad_norm": 7.439066410064697,
      "learning_rate": 3.2782246053023536e-05,
      "loss": 0.6065,
      "num_input_tokens_seen": 5109296,
      "step": 8805
    },
    {
      "epoch": 1.3121834971700923,
      "grad_norm": 4.7617621421813965,
      "learning_rate": 3.2800863866547514e-05,
      "loss": 0.664,
      "num_input_tokens_seen": 5112272,
      "step": 8810
    },
    {
      "epoch": 1.3129282097110515,
      "grad_norm": 3.2241947650909424,
      "learning_rate": 3.281948168007149e-05,
      "loss": 0.7682,
      "num_input_tokens_seen": 5115280,
      "step": 8815
    },
    {
      "epoch": 1.3136729222520107,
      "grad_norm": 5.928152561187744,
      "learning_rate": 3.283809949359548e-05,
      "loss": 0.5836,
      "num_input_tokens_seen": 5118128,
      "step": 8820
    },
    {
      "epoch": 1.31441763479297,
      "grad_norm": 6.8065361976623535,
      "learning_rate": 3.2856717307119456e-05,
      "loss": 0.6932,
      "num_input_tokens_seen": 5121040,
      "step": 8825
    },
    {
      "epoch": 1.3151623473339291,
      "grad_norm": 2.9548451900482178,
      "learning_rate": 3.2875335120643434e-05,
      "loss": 0.6704,
      "num_input_tokens_seen": 5123696,
      "step": 8830
    },
    {
      "epoch": 1.3159070598748883,
      "grad_norm": 4.017117977142334,
      "learning_rate": 3.289395293416741e-05,
      "loss": 0.6274,
      "num_input_tokens_seen": 5126704,
      "step": 8835
    },
    {
      "epoch": 1.3166517724158475,
      "grad_norm": 6.450010776519775,
      "learning_rate": 3.291257074769139e-05,
      "loss": 0.6409,
      "num_input_tokens_seen": 5129552,
      "step": 8840
    },
    {
      "epoch": 1.3173964849568067,
      "grad_norm": 3.7605772018432617,
      "learning_rate": 3.293118856121537e-05,
      "loss": 0.5284,
      "num_input_tokens_seen": 5132560,
      "step": 8845
    },
    {
      "epoch": 1.318141197497766,
      "grad_norm": 6.153946399688721,
      "learning_rate": 3.2949806374739354e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 5135472,
      "step": 8850
    },
    {
      "epoch": 1.3188859100387251,
      "grad_norm": 11.699694633483887,
      "learning_rate": 3.296842418826333e-05,
      "loss": 0.6047,
      "num_input_tokens_seen": 5138608,
      "step": 8855
    },
    {
      "epoch": 1.3196306225796843,
      "grad_norm": 7.038031101226807,
      "learning_rate": 3.298704200178731e-05,
      "loss": 0.5931,
      "num_input_tokens_seen": 5141712,
      "step": 8860
    },
    {
      "epoch": 1.3203753351206435,
      "grad_norm": 9.774517059326172,
      "learning_rate": 3.300565981531129e-05,
      "loss": 0.6314,
      "num_input_tokens_seen": 5144432,
      "step": 8865
    },
    {
      "epoch": 1.3211200476616027,
      "grad_norm": 7.264188289642334,
      "learning_rate": 3.302427762883527e-05,
      "loss": 0.7108,
      "num_input_tokens_seen": 5147120,
      "step": 8870
    },
    {
      "epoch": 1.321864760202562,
      "grad_norm": 5.244665145874023,
      "learning_rate": 3.304289544235925e-05,
      "loss": 0.5805,
      "num_input_tokens_seen": 5149904,
      "step": 8875
    },
    {
      "epoch": 1.322609472743521,
      "grad_norm": 3.993072748184204,
      "learning_rate": 3.306151325588323e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 5152944,
      "step": 8880
    },
    {
      "epoch": 1.3233541852844801,
      "grad_norm": 3.1807639598846436,
      "learning_rate": 3.308013106940721e-05,
      "loss": 0.6358,
      "num_input_tokens_seen": 5155568,
      "step": 8885
    },
    {
      "epoch": 1.3240988978254393,
      "grad_norm": 3.440845012664795,
      "learning_rate": 3.309874888293119e-05,
      "loss": 0.7672,
      "num_input_tokens_seen": 5158512,
      "step": 8890
    },
    {
      "epoch": 1.3248436103663985,
      "grad_norm": 5.711264133453369,
      "learning_rate": 3.311736669645517e-05,
      "loss": 0.7345,
      "num_input_tokens_seen": 5161488,
      "step": 8895
    },
    {
      "epoch": 1.3255883229073577,
      "grad_norm": 3.280482769012451,
      "learning_rate": 3.313598450997915e-05,
      "loss": 0.5618,
      "num_input_tokens_seen": 5164592,
      "step": 8900
    },
    {
      "epoch": 1.326333035448317,
      "grad_norm": 5.539214611053467,
      "learning_rate": 3.3154602323503134e-05,
      "loss": 0.6046,
      "num_input_tokens_seen": 5167312,
      "step": 8905
    },
    {
      "epoch": 1.3270777479892761,
      "grad_norm": 5.576236724853516,
      "learning_rate": 3.317322013702711e-05,
      "loss": 0.6587,
      "num_input_tokens_seen": 5170256,
      "step": 8910
    },
    {
      "epoch": 1.3278224605302353,
      "grad_norm": 12.015692710876465,
      "learning_rate": 3.319183795055109e-05,
      "loss": 0.6514,
      "num_input_tokens_seen": 5173008,
      "step": 8915
    },
    {
      "epoch": 1.3285671730711945,
      "grad_norm": 5.014492988586426,
      "learning_rate": 3.321045576407507e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 5175824,
      "step": 8920
    },
    {
      "epoch": 1.3293118856121537,
      "grad_norm": 10.14188003540039,
      "learning_rate": 3.322907357759905e-05,
      "loss": 0.796,
      "num_input_tokens_seen": 5178608,
      "step": 8925
    },
    {
      "epoch": 1.330056598153113,
      "grad_norm": 7.251431465148926,
      "learning_rate": 3.3247691391123026e-05,
      "loss": 0.639,
      "num_input_tokens_seen": 5182672,
      "step": 8930
    },
    {
      "epoch": 1.3308013106940721,
      "grad_norm": 6.63376522064209,
      "learning_rate": 3.3266309204647004e-05,
      "loss": 0.6891,
      "num_input_tokens_seen": 5185648,
      "step": 8935
    },
    {
      "epoch": 1.3315460232350314,
      "grad_norm": 6.2669806480407715,
      "learning_rate": 3.328492701817099e-05,
      "loss": 0.7222,
      "num_input_tokens_seen": 5188400,
      "step": 8940
    },
    {
      "epoch": 1.3322907357759903,
      "grad_norm": 3.6652207374572754,
      "learning_rate": 3.330354483169497e-05,
      "loss": 0.6111,
      "num_input_tokens_seen": 5191280,
      "step": 8945
    },
    {
      "epoch": 1.3330354483169495,
      "grad_norm": 3.426942825317383,
      "learning_rate": 3.3322162645218945e-05,
      "loss": 0.4531,
      "num_input_tokens_seen": 5194064,
      "step": 8950
    },
    {
      "epoch": 1.3337801608579087,
      "grad_norm": 3.969825267791748,
      "learning_rate": 3.3340780458742924e-05,
      "loss": 0.4967,
      "num_input_tokens_seen": 5197200,
      "step": 8955
    },
    {
      "epoch": 1.334524873398868,
      "grad_norm": 2.740037202835083,
      "learning_rate": 3.335939827226691e-05,
      "loss": 0.6487,
      "num_input_tokens_seen": 5200048,
      "step": 8960
    },
    {
      "epoch": 1.3352695859398271,
      "grad_norm": 5.565757751464844,
      "learning_rate": 3.337801608579089e-05,
      "loss": 0.4419,
      "num_input_tokens_seen": 5202896,
      "step": 8965
    },
    {
      "epoch": 1.3360142984807863,
      "grad_norm": 5.141536235809326,
      "learning_rate": 3.3396633899314865e-05,
      "loss": 0.8276,
      "num_input_tokens_seen": 5205904,
      "step": 8970
    },
    {
      "epoch": 1.3367590110217455,
      "grad_norm": 8.036504745483398,
      "learning_rate": 3.341525171283884e-05,
      "loss": 0.8313,
      "num_input_tokens_seen": 5208656,
      "step": 8975
    },
    {
      "epoch": 1.3375037235627047,
      "grad_norm": 5.619026184082031,
      "learning_rate": 3.343386952636283e-05,
      "loss": 0.8678,
      "num_input_tokens_seen": 5211664,
      "step": 8980
    },
    {
      "epoch": 1.338248436103664,
      "grad_norm": 7.680543422698975,
      "learning_rate": 3.3452487339886806e-05,
      "loss": 0.5407,
      "num_input_tokens_seen": 5214480,
      "step": 8985
    },
    {
      "epoch": 1.3389931486446232,
      "grad_norm": 3.977938175201416,
      "learning_rate": 3.3471105153410785e-05,
      "loss": 0.6963,
      "num_input_tokens_seen": 5217328,
      "step": 8990
    },
    {
      "epoch": 1.3397378611855824,
      "grad_norm": 9.72509765625,
      "learning_rate": 3.348972296693477e-05,
      "loss": 0.7092,
      "num_input_tokens_seen": 5220272,
      "step": 8995
    },
    {
      "epoch": 1.3404825737265416,
      "grad_norm": 6.642051696777344,
      "learning_rate": 3.350834078045875e-05,
      "loss": 0.458,
      "num_input_tokens_seen": 5222832,
      "step": 9000
    },
    {
      "epoch": 1.3412272862675008,
      "grad_norm": 2.985062837600708,
      "learning_rate": 3.3526958593982726e-05,
      "loss": 0.6069,
      "num_input_tokens_seen": 5225808,
      "step": 9005
    },
    {
      "epoch": 1.34197199880846,
      "grad_norm": 6.290186405181885,
      "learning_rate": 3.3545576407506704e-05,
      "loss": 0.8337,
      "num_input_tokens_seen": 5228688,
      "step": 9010
    },
    {
      "epoch": 1.3427167113494192,
      "grad_norm": 4.7535176277160645,
      "learning_rate": 3.356419422103068e-05,
      "loss": 0.5286,
      "num_input_tokens_seen": 5231632,
      "step": 9015
    },
    {
      "epoch": 1.3434614238903784,
      "grad_norm": 14.60498332977295,
      "learning_rate": 3.358281203455466e-05,
      "loss": 0.7545,
      "num_input_tokens_seen": 5234288,
      "step": 9020
    },
    {
      "epoch": 1.3442061364313376,
      "grad_norm": 8.147562980651855,
      "learning_rate": 3.360142984807864e-05,
      "loss": 0.6326,
      "num_input_tokens_seen": 5237328,
      "step": 9025
    },
    {
      "epoch": 1.3449508489722968,
      "grad_norm": 3.54667067527771,
      "learning_rate": 3.3620047661602624e-05,
      "loss": 0.6056,
      "num_input_tokens_seen": 5240464,
      "step": 9030
    },
    {
      "epoch": 1.345695561513256,
      "grad_norm": 7.673705101013184,
      "learning_rate": 3.36386654751266e-05,
      "loss": 0.6183,
      "num_input_tokens_seen": 5243056,
      "step": 9035
    },
    {
      "epoch": 1.3464402740542152,
      "grad_norm": 3.8837552070617676,
      "learning_rate": 3.365728328865058e-05,
      "loss": 0.7189,
      "num_input_tokens_seen": 5246224,
      "step": 9040
    },
    {
      "epoch": 1.3471849865951744,
      "grad_norm": 10.59272575378418,
      "learning_rate": 3.367590110217456e-05,
      "loss": 0.6255,
      "num_input_tokens_seen": 5248912,
      "step": 9045
    },
    {
      "epoch": 1.3479296991361336,
      "grad_norm": 4.466331958770752,
      "learning_rate": 3.3694518915698544e-05,
      "loss": 0.431,
      "num_input_tokens_seen": 5251984,
      "step": 9050
    },
    {
      "epoch": 1.3486744116770926,
      "grad_norm": 7.962965965270996,
      "learning_rate": 3.371313672922252e-05,
      "loss": 0.7311,
      "num_input_tokens_seen": 5254736,
      "step": 9055
    },
    {
      "epoch": 1.3494191242180518,
      "grad_norm": 8.308462142944336,
      "learning_rate": 3.37317545427465e-05,
      "loss": 0.6847,
      "num_input_tokens_seen": 5257456,
      "step": 9060
    },
    {
      "epoch": 1.350163836759011,
      "grad_norm": 4.794134140014648,
      "learning_rate": 3.3750372356270485e-05,
      "loss": 0.7895,
      "num_input_tokens_seen": 5260592,
      "step": 9065
    },
    {
      "epoch": 1.3509085492999702,
      "grad_norm": 8.04987907409668,
      "learning_rate": 3.3768990169794464e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 5263408,
      "step": 9070
    },
    {
      "epoch": 1.3516532618409294,
      "grad_norm": 5.705087184906006,
      "learning_rate": 3.378760798331844e-05,
      "loss": 0.5752,
      "num_input_tokens_seen": 5266416,
      "step": 9075
    },
    {
      "epoch": 1.3523979743818886,
      "grad_norm": 3.7542355060577393,
      "learning_rate": 3.380622579684242e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 5269264,
      "step": 9080
    },
    {
      "epoch": 1.3531426869228478,
      "grad_norm": 7.3735527992248535,
      "learning_rate": 3.3824843610366405e-05,
      "loss": 0.4893,
      "num_input_tokens_seen": 5272528,
      "step": 9085
    },
    {
      "epoch": 1.353887399463807,
      "grad_norm": 5.174143314361572,
      "learning_rate": 3.384346142389038e-05,
      "loss": 0.8797,
      "num_input_tokens_seen": 5275376,
      "step": 9090
    },
    {
      "epoch": 1.3546321120047662,
      "grad_norm": 5.237623691558838,
      "learning_rate": 3.3862079237414355e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 5278064,
      "step": 9095
    },
    {
      "epoch": 1.3553768245457254,
      "grad_norm": 8.723995208740234,
      "learning_rate": 3.388069705093834e-05,
      "loss": 0.5784,
      "num_input_tokens_seen": 5281264,
      "step": 9100
    },
    {
      "epoch": 1.3561215370866846,
      "grad_norm": 5.045828819274902,
      "learning_rate": 3.389931486446232e-05,
      "loss": 0.7248,
      "num_input_tokens_seen": 5284080,
      "step": 9105
    },
    {
      "epoch": 1.3568662496276438,
      "grad_norm": 8.014779090881348,
      "learning_rate": 3.3917932677986296e-05,
      "loss": 0.824,
      "num_input_tokens_seen": 5286800,
      "step": 9110
    },
    {
      "epoch": 1.357610962168603,
      "grad_norm": 4.376061916351318,
      "learning_rate": 3.3936550491510274e-05,
      "loss": 0.622,
      "num_input_tokens_seen": 5289808,
      "step": 9115
    },
    {
      "epoch": 1.358355674709562,
      "grad_norm": 6.447899341583252,
      "learning_rate": 3.395516830503426e-05,
      "loss": 0.7568,
      "num_input_tokens_seen": 5292816,
      "step": 9120
    },
    {
      "epoch": 1.3591003872505212,
      "grad_norm": 3.734684705734253,
      "learning_rate": 3.397378611855824e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 5296816,
      "step": 9125
    },
    {
      "epoch": 1.3598450997914804,
      "grad_norm": 7.2600836753845215,
      "learning_rate": 3.3992403932082216e-05,
      "loss": 0.6668,
      "num_input_tokens_seen": 5299760,
      "step": 9130
    },
    {
      "epoch": 1.3605898123324396,
      "grad_norm": 4.887232303619385,
      "learning_rate": 3.4011021745606194e-05,
      "loss": 0.6417,
      "num_input_tokens_seen": 5302736,
      "step": 9135
    },
    {
      "epoch": 1.3613345248733988,
      "grad_norm": 4.701660633087158,
      "learning_rate": 3.402963955913018e-05,
      "loss": 0.6559,
      "num_input_tokens_seen": 5305616,
      "step": 9140
    },
    {
      "epoch": 1.362079237414358,
      "grad_norm": 5.147284507751465,
      "learning_rate": 3.404825737265416e-05,
      "loss": 0.5573,
      "num_input_tokens_seen": 5308304,
      "step": 9145
    },
    {
      "epoch": 1.3628239499553172,
      "grad_norm": 3.857531785964966,
      "learning_rate": 3.4066875186178136e-05,
      "loss": 0.5623,
      "num_input_tokens_seen": 5311088,
      "step": 9150
    },
    {
      "epoch": 1.3635686624962764,
      "grad_norm": 6.223707675933838,
      "learning_rate": 3.408549299970212e-05,
      "loss": 0.6068,
      "num_input_tokens_seen": 5313776,
      "step": 9155
    },
    {
      "epoch": 1.3643133750372356,
      "grad_norm": 8.898775100708008,
      "learning_rate": 3.41041108132261e-05,
      "loss": 0.6725,
      "num_input_tokens_seen": 5316592,
      "step": 9160
    },
    {
      "epoch": 1.3650580875781948,
      "grad_norm": 3.6227991580963135,
      "learning_rate": 3.412272862675008e-05,
      "loss": 0.7239,
      "num_input_tokens_seen": 5319760,
      "step": 9165
    },
    {
      "epoch": 1.365802800119154,
      "grad_norm": 2.9062581062316895,
      "learning_rate": 3.4141346440274055e-05,
      "loss": 0.6814,
      "num_input_tokens_seen": 5323184,
      "step": 9170
    },
    {
      "epoch": 1.3665475126601132,
      "grad_norm": 3.653681516647339,
      "learning_rate": 3.415996425379804e-05,
      "loss": 0.731,
      "num_input_tokens_seen": 5326160,
      "step": 9175
    },
    {
      "epoch": 1.3672922252010724,
      "grad_norm": 8.683180809020996,
      "learning_rate": 3.417858206732202e-05,
      "loss": 0.7576,
      "num_input_tokens_seen": 5328880,
      "step": 9180
    },
    {
      "epoch": 1.3680369377420316,
      "grad_norm": 4.638722896575928,
      "learning_rate": 3.419719988084599e-05,
      "loss": 0.5912,
      "num_input_tokens_seen": 5331888,
      "step": 9185
    },
    {
      "epoch": 1.3687816502829908,
      "grad_norm": 3.0747909545898438,
      "learning_rate": 3.4215817694369975e-05,
      "loss": 0.5709,
      "num_input_tokens_seen": 5334608,
      "step": 9190
    },
    {
      "epoch": 1.36952636282395,
      "grad_norm": 10.523948669433594,
      "learning_rate": 3.423443550789395e-05,
      "loss": 0.8175,
      "num_input_tokens_seen": 5337296,
      "step": 9195
    },
    {
      "epoch": 1.3702710753649092,
      "grad_norm": 3.793564796447754,
      "learning_rate": 3.425305332141793e-05,
      "loss": 0.6704,
      "num_input_tokens_seen": 5340304,
      "step": 9200
    },
    {
      "epoch": 1.3710157879058684,
      "grad_norm": 3.560676097869873,
      "learning_rate": 3.427167113494191e-05,
      "loss": 0.7172,
      "num_input_tokens_seen": 5343120,
      "step": 9205
    },
    {
      "epoch": 1.3717605004468276,
      "grad_norm": 3.4618871212005615,
      "learning_rate": 3.4290288948465895e-05,
      "loss": 0.5956,
      "num_input_tokens_seen": 5345936,
      "step": 9210
    },
    {
      "epoch": 1.3725052129877868,
      "grad_norm": 3.572618246078491,
      "learning_rate": 3.430890676198987e-05,
      "loss": 0.6873,
      "num_input_tokens_seen": 5348848,
      "step": 9215
    },
    {
      "epoch": 1.373249925528746,
      "grad_norm": 3.681652069091797,
      "learning_rate": 3.432752457551385e-05,
      "loss": 0.6523,
      "num_input_tokens_seen": 5351696,
      "step": 9220
    },
    {
      "epoch": 1.3739946380697052,
      "grad_norm": 3.8141074180603027,
      "learning_rate": 3.4346142389037836e-05,
      "loss": 0.6184,
      "num_input_tokens_seen": 5354448,
      "step": 9225
    },
    {
      "epoch": 1.3747393506106642,
      "grad_norm": 5.107001781463623,
      "learning_rate": 3.4364760202561814e-05,
      "loss": 0.6879,
      "num_input_tokens_seen": 5357296,
      "step": 9230
    },
    {
      "epoch": 1.3754840631516234,
      "grad_norm": 11.530668258666992,
      "learning_rate": 3.438337801608579e-05,
      "loss": 0.6378,
      "num_input_tokens_seen": 5360080,
      "step": 9235
    },
    {
      "epoch": 1.3762287756925826,
      "grad_norm": 5.8586530685424805,
      "learning_rate": 3.440199582960977e-05,
      "loss": 0.7768,
      "num_input_tokens_seen": 5362800,
      "step": 9240
    },
    {
      "epoch": 1.3769734882335418,
      "grad_norm": 4.526534080505371,
      "learning_rate": 3.4420613643133756e-05,
      "loss": 0.6806,
      "num_input_tokens_seen": 5365680,
      "step": 9245
    },
    {
      "epoch": 1.377718200774501,
      "grad_norm": 6.280908107757568,
      "learning_rate": 3.4439231456657734e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 5368336,
      "step": 9250
    },
    {
      "epoch": 1.3784629133154602,
      "grad_norm": 4.289607048034668,
      "learning_rate": 3.445784927018171e-05,
      "loss": 0.6868,
      "num_input_tokens_seen": 5371344,
      "step": 9255
    },
    {
      "epoch": 1.3792076258564194,
      "grad_norm": 7.3772406578063965,
      "learning_rate": 3.447646708370569e-05,
      "loss": 0.7359,
      "num_input_tokens_seen": 5374224,
      "step": 9260
    },
    {
      "epoch": 1.3799523383973786,
      "grad_norm": 6.872852325439453,
      "learning_rate": 3.4495084897229676e-05,
      "loss": 0.6453,
      "num_input_tokens_seen": 5377456,
      "step": 9265
    },
    {
      "epoch": 1.3806970509383378,
      "grad_norm": 10.145419120788574,
      "learning_rate": 3.451370271075365e-05,
      "loss": 0.643,
      "num_input_tokens_seen": 5380464,
      "step": 9270
    },
    {
      "epoch": 1.381441763479297,
      "grad_norm": 7.425685405731201,
      "learning_rate": 3.4532320524277625e-05,
      "loss": 0.6449,
      "num_input_tokens_seen": 5383344,
      "step": 9275
    },
    {
      "epoch": 1.3821864760202562,
      "grad_norm": 5.83053731918335,
      "learning_rate": 3.455093833780161e-05,
      "loss": 0.6264,
      "num_input_tokens_seen": 5386416,
      "step": 9280
    },
    {
      "epoch": 1.3829311885612154,
      "grad_norm": 8.667386054992676,
      "learning_rate": 3.456955615132559e-05,
      "loss": 0.5376,
      "num_input_tokens_seen": 5389104,
      "step": 9285
    },
    {
      "epoch": 1.3836759011021746,
      "grad_norm": 9.378460884094238,
      "learning_rate": 3.458817396484957e-05,
      "loss": 0.6312,
      "num_input_tokens_seen": 5391824,
      "step": 9290
    },
    {
      "epoch": 1.3844206136431336,
      "grad_norm": 6.370473861694336,
      "learning_rate": 3.460679177837355e-05,
      "loss": 0.5941,
      "num_input_tokens_seen": 5394768,
      "step": 9295
    },
    {
      "epoch": 1.3851653261840928,
      "grad_norm": 5.679222583770752,
      "learning_rate": 3.462540959189753e-05,
      "loss": 0.5421,
      "num_input_tokens_seen": 5398032,
      "step": 9300
    },
    {
      "epoch": 1.385910038725052,
      "grad_norm": 4.716279029846191,
      "learning_rate": 3.464402740542151e-05,
      "loss": 0.5914,
      "num_input_tokens_seen": 5401360,
      "step": 9305
    },
    {
      "epoch": 1.3866547512660112,
      "grad_norm": 3.360175848007202,
      "learning_rate": 3.4662645218945486e-05,
      "loss": 0.497,
      "num_input_tokens_seen": 5404304,
      "step": 9310
    },
    {
      "epoch": 1.3873994638069704,
      "grad_norm": 5.1914896965026855,
      "learning_rate": 3.468126303246947e-05,
      "loss": 0.6688,
      "num_input_tokens_seen": 5407248,
      "step": 9315
    },
    {
      "epoch": 1.3881441763479296,
      "grad_norm": 4.77293586730957,
      "learning_rate": 3.469988084599345e-05,
      "loss": 0.5224,
      "num_input_tokens_seen": 5410128,
      "step": 9320
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 4.140130519866943,
      "learning_rate": 3.471849865951743e-05,
      "loss": 0.7701,
      "num_input_tokens_seen": 5413360,
      "step": 9325
    },
    {
      "epoch": 1.389633601429848,
      "grad_norm": 11.985727310180664,
      "learning_rate": 3.4737116473041406e-05,
      "loss": 0.6725,
      "num_input_tokens_seen": 5416240,
      "step": 9330
    },
    {
      "epoch": 1.3903783139708072,
      "grad_norm": 7.3341546058654785,
      "learning_rate": 3.475573428656539e-05,
      "loss": 0.675,
      "num_input_tokens_seen": 5419216,
      "step": 9335
    },
    {
      "epoch": 1.3911230265117664,
      "grad_norm": 3.938965082168579,
      "learning_rate": 3.477435210008937e-05,
      "loss": 0.7955,
      "num_input_tokens_seen": 5421968,
      "step": 9340
    },
    {
      "epoch": 1.3918677390527256,
      "grad_norm": 2.826845645904541,
      "learning_rate": 3.479296991361335e-05,
      "loss": 0.4878,
      "num_input_tokens_seen": 5424560,
      "step": 9345
    },
    {
      "epoch": 1.3926124515936849,
      "grad_norm": 5.046499252319336,
      "learning_rate": 3.4811587727137326e-05,
      "loss": 0.6398,
      "num_input_tokens_seen": 5427728,
      "step": 9350
    },
    {
      "epoch": 1.393357164134644,
      "grad_norm": 7.707835674285889,
      "learning_rate": 3.4830205540661304e-05,
      "loss": 0.7324,
      "num_input_tokens_seen": 5430768,
      "step": 9355
    },
    {
      "epoch": 1.3941018766756033,
      "grad_norm": 2.9950110912323,
      "learning_rate": 3.484882335418528e-05,
      "loss": 0.7093,
      "num_input_tokens_seen": 5433296,
      "step": 9360
    },
    {
      "epoch": 1.3948465892165625,
      "grad_norm": 4.937357425689697,
      "learning_rate": 3.486744116770926e-05,
      "loss": 0.6176,
      "num_input_tokens_seen": 5436112,
      "step": 9365
    },
    {
      "epoch": 1.3955913017575217,
      "grad_norm": 4.928353309631348,
      "learning_rate": 3.4886058981233246e-05,
      "loss": 0.7681,
      "num_input_tokens_seen": 5439056,
      "step": 9370
    },
    {
      "epoch": 1.3963360142984809,
      "grad_norm": 5.544419288635254,
      "learning_rate": 3.4904676794757224e-05,
      "loss": 0.6213,
      "num_input_tokens_seen": 5441744,
      "step": 9375
    },
    {
      "epoch": 1.39708072683944,
      "grad_norm": 6.478586196899414,
      "learning_rate": 3.49232946082812e-05,
      "loss": 0.5539,
      "num_input_tokens_seen": 5444560,
      "step": 9380
    },
    {
      "epoch": 1.3978254393803993,
      "grad_norm": 5.127868175506592,
      "learning_rate": 3.494191242180519e-05,
      "loss": 0.6874,
      "num_input_tokens_seen": 5447504,
      "step": 9385
    },
    {
      "epoch": 1.3985701519213585,
      "grad_norm": 16.031299591064453,
      "learning_rate": 3.4960530235329165e-05,
      "loss": 0.7612,
      "num_input_tokens_seen": 5450640,
      "step": 9390
    },
    {
      "epoch": 1.3993148644623177,
      "grad_norm": 3.1358120441436768,
      "learning_rate": 3.4979148048853143e-05,
      "loss": 0.5731,
      "num_input_tokens_seen": 5453520,
      "step": 9395
    },
    {
      "epoch": 1.4000595770032767,
      "grad_norm": 4.240811347961426,
      "learning_rate": 3.499776586237712e-05,
      "loss": 0.8057,
      "num_input_tokens_seen": 5456240,
      "step": 9400
    },
    {
      "epoch": 1.4008042895442359,
      "grad_norm": 15.657968521118164,
      "learning_rate": 3.501638367590111e-05,
      "loss": 0.7244,
      "num_input_tokens_seen": 5459024,
      "step": 9405
    },
    {
      "epoch": 1.401549002085195,
      "grad_norm": 9.231889724731445,
      "learning_rate": 3.5035001489425085e-05,
      "loss": 0.6179,
      "num_input_tokens_seen": 5462128,
      "step": 9410
    },
    {
      "epoch": 1.4022937146261543,
      "grad_norm": 6.961194038391113,
      "learning_rate": 3.505361930294906e-05,
      "loss": 0.5348,
      "num_input_tokens_seen": 5464944,
      "step": 9415
    },
    {
      "epoch": 1.4030384271671135,
      "grad_norm": 7.050736427307129,
      "learning_rate": 3.507223711647304e-05,
      "loss": 0.6083,
      "num_input_tokens_seen": 5467632,
      "step": 9420
    },
    {
      "epoch": 1.4037831397080727,
      "grad_norm": 15.48366928100586,
      "learning_rate": 3.5090854929997026e-05,
      "loss": 0.6618,
      "num_input_tokens_seen": 5470288,
      "step": 9425
    },
    {
      "epoch": 1.4045278522490319,
      "grad_norm": 4.941931247711182,
      "learning_rate": 3.5109472743521005e-05,
      "loss": 0.7585,
      "num_input_tokens_seen": 5473104,
      "step": 9430
    },
    {
      "epoch": 1.405272564789991,
      "grad_norm": 7.082414150238037,
      "learning_rate": 3.512809055704498e-05,
      "loss": 0.7647,
      "num_input_tokens_seen": 5475952,
      "step": 9435
    },
    {
      "epoch": 1.4060172773309503,
      "grad_norm": 7.776483058929443,
      "learning_rate": 3.514670837056897e-05,
      "loss": 0.7514,
      "num_input_tokens_seen": 5478704,
      "step": 9440
    },
    {
      "epoch": 1.4067619898719095,
      "grad_norm": 4.001280784606934,
      "learning_rate": 3.516532618409294e-05,
      "loss": 0.5439,
      "num_input_tokens_seen": 5481520,
      "step": 9445
    },
    {
      "epoch": 1.4075067024128687,
      "grad_norm": 4.439387321472168,
      "learning_rate": 3.518394399761692e-05,
      "loss": 0.495,
      "num_input_tokens_seen": 5484304,
      "step": 9450
    },
    {
      "epoch": 1.4082514149538279,
      "grad_norm": 6.742158889770508,
      "learning_rate": 3.52025618111409e-05,
      "loss": 0.5237,
      "num_input_tokens_seen": 5487376,
      "step": 9455
    },
    {
      "epoch": 1.408996127494787,
      "grad_norm": 4.151934623718262,
      "learning_rate": 3.522117962466488e-05,
      "loss": 0.849,
      "num_input_tokens_seen": 5490352,
      "step": 9460
    },
    {
      "epoch": 1.409740840035746,
      "grad_norm": 9.846993446350098,
      "learning_rate": 3.523979743818886e-05,
      "loss": 0.7365,
      "num_input_tokens_seen": 5493232,
      "step": 9465
    },
    {
      "epoch": 1.4104855525767053,
      "grad_norm": 5.632735729217529,
      "learning_rate": 3.525841525171284e-05,
      "loss": 0.5096,
      "num_input_tokens_seen": 5496368,
      "step": 9470
    },
    {
      "epoch": 1.4112302651176645,
      "grad_norm": 3.7491204738616943,
      "learning_rate": 3.527703306523682e-05,
      "loss": 0.4306,
      "num_input_tokens_seen": 5499408,
      "step": 9475
    },
    {
      "epoch": 1.4119749776586237,
      "grad_norm": 12.147137641906738,
      "learning_rate": 3.52956508787608e-05,
      "loss": 0.7356,
      "num_input_tokens_seen": 5502128,
      "step": 9480
    },
    {
      "epoch": 1.4127196901995829,
      "grad_norm": 7.488126277923584,
      "learning_rate": 3.531426869228478e-05,
      "loss": 0.5739,
      "num_input_tokens_seen": 5504976,
      "step": 9485
    },
    {
      "epoch": 1.413464402740542,
      "grad_norm": 4.401258945465088,
      "learning_rate": 3.533288650580876e-05,
      "loss": 0.7495,
      "num_input_tokens_seen": 5507984,
      "step": 9490
    },
    {
      "epoch": 1.4142091152815013,
      "grad_norm": 10.975855827331543,
      "learning_rate": 3.535150431933274e-05,
      "loss": 0.7362,
      "num_input_tokens_seen": 5510736,
      "step": 9495
    },
    {
      "epoch": 1.4149538278224605,
      "grad_norm": 6.444790840148926,
      "learning_rate": 3.537012213285672e-05,
      "loss": 0.519,
      "num_input_tokens_seen": 5513616,
      "step": 9500
    },
    {
      "epoch": 1.4156985403634197,
      "grad_norm": 14.859332084655762,
      "learning_rate": 3.53887399463807e-05,
      "loss": 0.5085,
      "num_input_tokens_seen": 5516624,
      "step": 9505
    },
    {
      "epoch": 1.416443252904379,
      "grad_norm": 7.636591911315918,
      "learning_rate": 3.5407357759904683e-05,
      "loss": 0.5095,
      "num_input_tokens_seen": 5519312,
      "step": 9510
    },
    {
      "epoch": 1.417187965445338,
      "grad_norm": 2.9183855056762695,
      "learning_rate": 3.542597557342866e-05,
      "loss": 0.4729,
      "num_input_tokens_seen": 5522352,
      "step": 9515
    },
    {
      "epoch": 1.4179326779862973,
      "grad_norm": 14.992430686950684,
      "learning_rate": 3.544459338695264e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 5525360,
      "step": 9520
    },
    {
      "epoch": 1.4186773905272565,
      "grad_norm": 8.874112129211426,
      "learning_rate": 3.546321120047662e-05,
      "loss": 0.7227,
      "num_input_tokens_seen": 5528144,
      "step": 9525
    },
    {
      "epoch": 1.4194221030682157,
      "grad_norm": 4.130344867706299,
      "learning_rate": 3.5481829014000596e-05,
      "loss": 0.7178,
      "num_input_tokens_seen": 5531184,
      "step": 9530
    },
    {
      "epoch": 1.420166815609175,
      "grad_norm": 5.179030895233154,
      "learning_rate": 3.5500446827524575e-05,
      "loss": 0.5748,
      "num_input_tokens_seen": 5534288,
      "step": 9535
    },
    {
      "epoch": 1.420911528150134,
      "grad_norm": 8.728877067565918,
      "learning_rate": 3.551906464104855e-05,
      "loss": 0.9077,
      "num_input_tokens_seen": 5537232,
      "step": 9540
    },
    {
      "epoch": 1.4216562406910933,
      "grad_norm": 9.74942398071289,
      "learning_rate": 3.553768245457254e-05,
      "loss": 0.5649,
      "num_input_tokens_seen": 5540080,
      "step": 9545
    },
    {
      "epoch": 1.4224009532320525,
      "grad_norm": 6.589258670806885,
      "learning_rate": 3.5556300268096516e-05,
      "loss": 0.644,
      "num_input_tokens_seen": 5542896,
      "step": 9550
    },
    {
      "epoch": 1.4231456657730117,
      "grad_norm": 4.948784828186035,
      "learning_rate": 3.5574918081620494e-05,
      "loss": 0.4925,
      "num_input_tokens_seen": 5546000,
      "step": 9555
    },
    {
      "epoch": 1.423890378313971,
      "grad_norm": 5.9781317710876465,
      "learning_rate": 3.559353589514447e-05,
      "loss": 0.633,
      "num_input_tokens_seen": 5548976,
      "step": 9560
    },
    {
      "epoch": 1.4246350908549301,
      "grad_norm": 6.585631847381592,
      "learning_rate": 3.561215370866846e-05,
      "loss": 0.7626,
      "num_input_tokens_seen": 5551600,
      "step": 9565
    },
    {
      "epoch": 1.4253798033958893,
      "grad_norm": 3.5532233715057373,
      "learning_rate": 3.5630771522192436e-05,
      "loss": 0.6135,
      "num_input_tokens_seen": 5554416,
      "step": 9570
    },
    {
      "epoch": 1.4261245159368483,
      "grad_norm": 4.652130603790283,
      "learning_rate": 3.5649389335716414e-05,
      "loss": 0.6228,
      "num_input_tokens_seen": 5557200,
      "step": 9575
    },
    {
      "epoch": 1.4268692284778075,
      "grad_norm": 5.759954929351807,
      "learning_rate": 3.566800714924039e-05,
      "loss": 0.576,
      "num_input_tokens_seen": 5559824,
      "step": 9580
    },
    {
      "epoch": 1.4276139410187667,
      "grad_norm": 5.449275970458984,
      "learning_rate": 3.568662496276438e-05,
      "loss": 0.6901,
      "num_input_tokens_seen": 5562864,
      "step": 9585
    },
    {
      "epoch": 1.428358653559726,
      "grad_norm": 5.171864986419678,
      "learning_rate": 3.5705242776288356e-05,
      "loss": 0.572,
      "num_input_tokens_seen": 5565584,
      "step": 9590
    },
    {
      "epoch": 1.4291033661006851,
      "grad_norm": 3.5481529235839844,
      "learning_rate": 3.5723860589812334e-05,
      "loss": 0.7657,
      "num_input_tokens_seen": 5568368,
      "step": 9595
    },
    {
      "epoch": 1.4298480786416443,
      "grad_norm": 7.938810348510742,
      "learning_rate": 3.574247840333632e-05,
      "loss": 0.6693,
      "num_input_tokens_seen": 5571280,
      "step": 9600
    },
    {
      "epoch": 1.4305927911826035,
      "grad_norm": 4.265320777893066,
      "learning_rate": 3.57610962168603e-05,
      "loss": 0.6383,
      "num_input_tokens_seen": 5574704,
      "step": 9605
    },
    {
      "epoch": 1.4313375037235627,
      "grad_norm": 3.8572490215301514,
      "learning_rate": 3.5779714030384275e-05,
      "loss": 0.6027,
      "num_input_tokens_seen": 5577456,
      "step": 9610
    },
    {
      "epoch": 1.432082216264522,
      "grad_norm": 4.414903163909912,
      "learning_rate": 3.5798331843908253e-05,
      "loss": 0.5457,
      "num_input_tokens_seen": 5580400,
      "step": 9615
    },
    {
      "epoch": 1.4328269288054811,
      "grad_norm": 5.060644626617432,
      "learning_rate": 3.581694965743223e-05,
      "loss": 0.7301,
      "num_input_tokens_seen": 5583120,
      "step": 9620
    },
    {
      "epoch": 1.4335716413464403,
      "grad_norm": 5.17930269241333,
      "learning_rate": 3.583556747095621e-05,
      "loss": 0.5901,
      "num_input_tokens_seen": 5586096,
      "step": 9625
    },
    {
      "epoch": 1.4343163538873995,
      "grad_norm": 6.506036281585693,
      "learning_rate": 3.585418528448019e-05,
      "loss": 0.4661,
      "num_input_tokens_seen": 5588912,
      "step": 9630
    },
    {
      "epoch": 1.4350610664283587,
      "grad_norm": 13.006978034973145,
      "learning_rate": 3.587280309800417e-05,
      "loss": 0.7853,
      "num_input_tokens_seen": 5591536,
      "step": 9635
    },
    {
      "epoch": 1.4358057789693177,
      "grad_norm": 3.8656952381134033,
      "learning_rate": 3.589142091152815e-05,
      "loss": 0.5803,
      "num_input_tokens_seen": 5594480,
      "step": 9640
    },
    {
      "epoch": 1.436550491510277,
      "grad_norm": 8.983935356140137,
      "learning_rate": 3.591003872505213e-05,
      "loss": 0.8645,
      "num_input_tokens_seen": 5597584,
      "step": 9645
    },
    {
      "epoch": 1.4372952040512361,
      "grad_norm": 6.94374942779541,
      "learning_rate": 3.592865653857611e-05,
      "loss": 0.6904,
      "num_input_tokens_seen": 5600304,
      "step": 9650
    },
    {
      "epoch": 1.4380399165921953,
      "grad_norm": 2.2138521671295166,
      "learning_rate": 3.594727435210009e-05,
      "loss": 0.6193,
      "num_input_tokens_seen": 5603152,
      "step": 9655
    },
    {
      "epoch": 1.4387846291331545,
      "grad_norm": 5.1675262451171875,
      "learning_rate": 3.596589216562407e-05,
      "loss": 0.458,
      "num_input_tokens_seen": 5606000,
      "step": 9660
    },
    {
      "epoch": 1.4395293416741137,
      "grad_norm": 3.1434574127197266,
      "learning_rate": 3.598450997914805e-05,
      "loss": 0.7388,
      "num_input_tokens_seen": 5608880,
      "step": 9665
    },
    {
      "epoch": 1.440274054215073,
      "grad_norm": 4.58596134185791,
      "learning_rate": 3.6003127792672034e-05,
      "loss": 0.6091,
      "num_input_tokens_seen": 5611888,
      "step": 9670
    },
    {
      "epoch": 1.4410187667560321,
      "grad_norm": 5.99615478515625,
      "learning_rate": 3.602174560619601e-05,
      "loss": 0.7189,
      "num_input_tokens_seen": 5614736,
      "step": 9675
    },
    {
      "epoch": 1.4417634792969913,
      "grad_norm": 6.140894889831543,
      "learning_rate": 3.604036341971999e-05,
      "loss": 0.4887,
      "num_input_tokens_seen": 5617456,
      "step": 9680
    },
    {
      "epoch": 1.4425081918379505,
      "grad_norm": 7.7771759033203125,
      "learning_rate": 3.605898123324397e-05,
      "loss": 0.7153,
      "num_input_tokens_seen": 5620464,
      "step": 9685
    },
    {
      "epoch": 1.4432529043789097,
      "grad_norm": 8.974827766418457,
      "learning_rate": 3.6077599046767954e-05,
      "loss": 0.5861,
      "num_input_tokens_seen": 5622928,
      "step": 9690
    },
    {
      "epoch": 1.443997616919869,
      "grad_norm": 3.3516151905059814,
      "learning_rate": 3.609621686029193e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 5625552,
      "step": 9695
    },
    {
      "epoch": 1.4447423294608281,
      "grad_norm": 5.30762243270874,
      "learning_rate": 3.6114834673815904e-05,
      "loss": 0.7693,
      "num_input_tokens_seen": 5628848,
      "step": 9700
    },
    {
      "epoch": 1.4454870420017873,
      "grad_norm": 29.417320251464844,
      "learning_rate": 3.613345248733989e-05,
      "loss": 0.7477,
      "num_input_tokens_seen": 5631760,
      "step": 9705
    },
    {
      "epoch": 1.4462317545427466,
      "grad_norm": 6.256459712982178,
      "learning_rate": 3.615207030086387e-05,
      "loss": 0.6583,
      "num_input_tokens_seen": 5634768,
      "step": 9710
    },
    {
      "epoch": 1.4469764670837058,
      "grad_norm": 8.06849479675293,
      "learning_rate": 3.6170688114387845e-05,
      "loss": 0.7168,
      "num_input_tokens_seen": 5637744,
      "step": 9715
    },
    {
      "epoch": 1.447721179624665,
      "grad_norm": 8.142598152160645,
      "learning_rate": 3.6189305927911823e-05,
      "loss": 0.6212,
      "num_input_tokens_seen": 5640624,
      "step": 9720
    },
    {
      "epoch": 1.4484658921656242,
      "grad_norm": 3.278038740158081,
      "learning_rate": 3.620792374143581e-05,
      "loss": 0.5752,
      "num_input_tokens_seen": 5643600,
      "step": 9725
    },
    {
      "epoch": 1.4492106047065834,
      "grad_norm": 5.261359691619873,
      "learning_rate": 3.622654155495979e-05,
      "loss": 0.5886,
      "num_input_tokens_seen": 5646448,
      "step": 9730
    },
    {
      "epoch": 1.4499553172475426,
      "grad_norm": 3.4971892833709717,
      "learning_rate": 3.6245159368483765e-05,
      "loss": 0.5483,
      "num_input_tokens_seen": 5649712,
      "step": 9735
    },
    {
      "epoch": 1.4507000297885018,
      "grad_norm": 5.04097318649292,
      "learning_rate": 3.626377718200774e-05,
      "loss": 0.5643,
      "num_input_tokens_seen": 5652688,
      "step": 9740
    },
    {
      "epoch": 1.4514447423294607,
      "grad_norm": 5.064505100250244,
      "learning_rate": 3.628239499553173e-05,
      "loss": 0.7587,
      "num_input_tokens_seen": 5655536,
      "step": 9745
    },
    {
      "epoch": 1.45218945487042,
      "grad_norm": 10.022522926330566,
      "learning_rate": 3.6301012809055706e-05,
      "loss": 0.7359,
      "num_input_tokens_seen": 5658128,
      "step": 9750
    },
    {
      "epoch": 1.4529341674113792,
      "grad_norm": 5.783235549926758,
      "learning_rate": 3.6319630622579685e-05,
      "loss": 0.7868,
      "num_input_tokens_seen": 5661200,
      "step": 9755
    },
    {
      "epoch": 1.4536788799523384,
      "grad_norm": 7.496980667114258,
      "learning_rate": 3.633824843610367e-05,
      "loss": 0.6538,
      "num_input_tokens_seen": 5663984,
      "step": 9760
    },
    {
      "epoch": 1.4544235924932976,
      "grad_norm": 4.161779403686523,
      "learning_rate": 3.635686624962765e-05,
      "loss": 0.5732,
      "num_input_tokens_seen": 5666800,
      "step": 9765
    },
    {
      "epoch": 1.4551683050342568,
      "grad_norm": 4.513342380523682,
      "learning_rate": 3.6375484063151626e-05,
      "loss": 0.6248,
      "num_input_tokens_seen": 5669584,
      "step": 9770
    },
    {
      "epoch": 1.455913017575216,
      "grad_norm": 13.349617004394531,
      "learning_rate": 3.6394101876675604e-05,
      "loss": 0.5714,
      "num_input_tokens_seen": 5672432,
      "step": 9775
    },
    {
      "epoch": 1.4566577301161752,
      "grad_norm": 7.3927388191223145,
      "learning_rate": 3.641271969019959e-05,
      "loss": 0.7205,
      "num_input_tokens_seen": 5675280,
      "step": 9780
    },
    {
      "epoch": 1.4574024426571344,
      "grad_norm": 5.542367458343506,
      "learning_rate": 3.643133750372357e-05,
      "loss": 0.6521,
      "num_input_tokens_seen": 5678032,
      "step": 9785
    },
    {
      "epoch": 1.4581471551980936,
      "grad_norm": 3.4678733348846436,
      "learning_rate": 3.644995531724754e-05,
      "loss": 0.518,
      "num_input_tokens_seen": 5680720,
      "step": 9790
    },
    {
      "epoch": 1.4588918677390528,
      "grad_norm": 6.319240570068359,
      "learning_rate": 3.6468573130771524e-05,
      "loss": 0.7792,
      "num_input_tokens_seen": 5683920,
      "step": 9795
    },
    {
      "epoch": 1.459636580280012,
      "grad_norm": 4.566172122955322,
      "learning_rate": 3.64871909442955e-05,
      "loss": 0.6646,
      "num_input_tokens_seen": 5687056,
      "step": 9800
    },
    {
      "epoch": 1.4603812928209712,
      "grad_norm": 5.327859401702881,
      "learning_rate": 3.650580875781948e-05,
      "loss": 0.6751,
      "num_input_tokens_seen": 5690224,
      "step": 9805
    },
    {
      "epoch": 1.4611260053619302,
      "grad_norm": 4.897525787353516,
      "learning_rate": 3.652442657134346e-05,
      "loss": 0.567,
      "num_input_tokens_seen": 5693360,
      "step": 9810
    },
    {
      "epoch": 1.4618707179028894,
      "grad_norm": 4.5387983322143555,
      "learning_rate": 3.6543044384867444e-05,
      "loss": 0.5218,
      "num_input_tokens_seen": 5696240,
      "step": 9815
    },
    {
      "epoch": 1.4626154304438486,
      "grad_norm": 4.30064582824707,
      "learning_rate": 3.656166219839142e-05,
      "loss": 0.6867,
      "num_input_tokens_seen": 5699632,
      "step": 9820
    },
    {
      "epoch": 1.4633601429848078,
      "grad_norm": 6.241215229034424,
      "learning_rate": 3.65802800119154e-05,
      "loss": 0.73,
      "num_input_tokens_seen": 5702704,
      "step": 9825
    },
    {
      "epoch": 1.464104855525767,
      "grad_norm": 5.983163833618164,
      "learning_rate": 3.6598897825439385e-05,
      "loss": 0.6253,
      "num_input_tokens_seen": 5705552,
      "step": 9830
    },
    {
      "epoch": 1.4648495680667262,
      "grad_norm": 5.251165866851807,
      "learning_rate": 3.6617515638963363e-05,
      "loss": 0.7011,
      "num_input_tokens_seen": 5708368,
      "step": 9835
    },
    {
      "epoch": 1.4655942806076854,
      "grad_norm": 4.425938606262207,
      "learning_rate": 3.663613345248734e-05,
      "loss": 0.7156,
      "num_input_tokens_seen": 5711344,
      "step": 9840
    },
    {
      "epoch": 1.4663389931486446,
      "grad_norm": 4.167834758758545,
      "learning_rate": 3.665475126601132e-05,
      "loss": 0.6864,
      "num_input_tokens_seen": 5714256,
      "step": 9845
    },
    {
      "epoch": 1.4670837056896038,
      "grad_norm": 5.235864162445068,
      "learning_rate": 3.6673369079535305e-05,
      "loss": 0.6652,
      "num_input_tokens_seen": 5717104,
      "step": 9850
    },
    {
      "epoch": 1.467828418230563,
      "grad_norm": 4.014362812042236,
      "learning_rate": 3.669198689305928e-05,
      "loss": 0.6284,
      "num_input_tokens_seen": 5719792,
      "step": 9855
    },
    {
      "epoch": 1.4685731307715222,
      "grad_norm": 6.583972454071045,
      "learning_rate": 3.671060470658326e-05,
      "loss": 0.6645,
      "num_input_tokens_seen": 5722736,
      "step": 9860
    },
    {
      "epoch": 1.4693178433124814,
      "grad_norm": 5.038694381713867,
      "learning_rate": 3.672922252010724e-05,
      "loss": 0.6867,
      "num_input_tokens_seen": 5725808,
      "step": 9865
    },
    {
      "epoch": 1.4700625558534406,
      "grad_norm": 5.010748863220215,
      "learning_rate": 3.6747840333631225e-05,
      "loss": 0.548,
      "num_input_tokens_seen": 5728752,
      "step": 9870
    },
    {
      "epoch": 1.4708072683943998,
      "grad_norm": 5.798693656921387,
      "learning_rate": 3.6766458147155196e-05,
      "loss": 0.6441,
      "num_input_tokens_seen": 5731312,
      "step": 9875
    },
    {
      "epoch": 1.471551980935359,
      "grad_norm": 5.945957660675049,
      "learning_rate": 3.6785075960679174e-05,
      "loss": 0.6158,
      "num_input_tokens_seen": 5734288,
      "step": 9880
    },
    {
      "epoch": 1.4722966934763182,
      "grad_norm": 7.243865013122559,
      "learning_rate": 3.680369377420316e-05,
      "loss": 0.5513,
      "num_input_tokens_seen": 5737328,
      "step": 9885
    },
    {
      "epoch": 1.4730414060172774,
      "grad_norm": 8.656342506408691,
      "learning_rate": 3.682231158772714e-05,
      "loss": 0.6168,
      "num_input_tokens_seen": 5740144,
      "step": 9890
    },
    {
      "epoch": 1.4737861185582366,
      "grad_norm": 5.49567174911499,
      "learning_rate": 3.6840929401251116e-05,
      "loss": 0.5107,
      "num_input_tokens_seen": 5743184,
      "step": 9895
    },
    {
      "epoch": 1.4745308310991958,
      "grad_norm": 9.29732608795166,
      "learning_rate": 3.68595472147751e-05,
      "loss": 0.5122,
      "num_input_tokens_seen": 5746256,
      "step": 9900
    },
    {
      "epoch": 1.475275543640155,
      "grad_norm": 10.48102855682373,
      "learning_rate": 3.687816502829908e-05,
      "loss": 0.5339,
      "num_input_tokens_seen": 5748880,
      "step": 9905
    },
    {
      "epoch": 1.4760202561811142,
      "grad_norm": 5.314157009124756,
      "learning_rate": 3.689678284182306e-05,
      "loss": 0.6234,
      "num_input_tokens_seen": 5751728,
      "step": 9910
    },
    {
      "epoch": 1.4767649687220734,
      "grad_norm": 6.022843360900879,
      "learning_rate": 3.6915400655347035e-05,
      "loss": 0.4854,
      "num_input_tokens_seen": 5754448,
      "step": 9915
    },
    {
      "epoch": 1.4775096812630324,
      "grad_norm": 5.993952751159668,
      "learning_rate": 3.693401846887102e-05,
      "loss": 0.6621,
      "num_input_tokens_seen": 5757328,
      "step": 9920
    },
    {
      "epoch": 1.4782543938039916,
      "grad_norm": 3.8269336223602295,
      "learning_rate": 3.6952636282395e-05,
      "loss": 0.4277,
      "num_input_tokens_seen": 5759888,
      "step": 9925
    },
    {
      "epoch": 1.4789991063449508,
      "grad_norm": 4.932721138000488,
      "learning_rate": 3.697125409591898e-05,
      "loss": 0.5584,
      "num_input_tokens_seen": 5762640,
      "step": 9930
    },
    {
      "epoch": 1.47974381888591,
      "grad_norm": 6.507839202880859,
      "learning_rate": 3.6989871909442955e-05,
      "loss": 0.612,
      "num_input_tokens_seen": 5765648,
      "step": 9935
    },
    {
      "epoch": 1.4804885314268692,
      "grad_norm": 4.698249340057373,
      "learning_rate": 3.700848972296694e-05,
      "loss": 0.604,
      "num_input_tokens_seen": 5768496,
      "step": 9940
    },
    {
      "epoch": 1.4812332439678284,
      "grad_norm": 7.13945198059082,
      "learning_rate": 3.702710753649092e-05,
      "loss": 0.6446,
      "num_input_tokens_seen": 5771280,
      "step": 9945
    },
    {
      "epoch": 1.4819779565087876,
      "grad_norm": 6.476027488708496,
      "learning_rate": 3.70457253500149e-05,
      "loss": 0.5909,
      "num_input_tokens_seen": 5774128,
      "step": 9950
    },
    {
      "epoch": 1.4827226690497468,
      "grad_norm": 5.47372579574585,
      "learning_rate": 3.7064343163538875e-05,
      "loss": 0.5423,
      "num_input_tokens_seen": 5776912,
      "step": 9955
    },
    {
      "epoch": 1.483467381590706,
      "grad_norm": 9.523104667663574,
      "learning_rate": 3.708296097706285e-05,
      "loss": 0.6213,
      "num_input_tokens_seen": 5779696,
      "step": 9960
    },
    {
      "epoch": 1.4842120941316652,
      "grad_norm": 4.557043552398682,
      "learning_rate": 3.710157879058683e-05,
      "loss": 0.677,
      "num_input_tokens_seen": 5782544,
      "step": 9965
    },
    {
      "epoch": 1.4849568066726244,
      "grad_norm": 8.760732650756836,
      "learning_rate": 3.712019660411081e-05,
      "loss": 0.5937,
      "num_input_tokens_seen": 5785456,
      "step": 9970
    },
    {
      "epoch": 1.4857015192135836,
      "grad_norm": 4.7091569900512695,
      "learning_rate": 3.7138814417634795e-05,
      "loss": 0.5928,
      "num_input_tokens_seen": 5788144,
      "step": 9975
    },
    {
      "epoch": 1.4864462317545428,
      "grad_norm": 9.919229507446289,
      "learning_rate": 3.715743223115877e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 5791248,
      "step": 9980
    },
    {
      "epoch": 1.4871909442955018,
      "grad_norm": 7.532589435577393,
      "learning_rate": 3.717605004468275e-05,
      "loss": 0.6587,
      "num_input_tokens_seen": 5794096,
      "step": 9985
    },
    {
      "epoch": 1.487935656836461,
      "grad_norm": 10.350847244262695,
      "learning_rate": 3.7194667858206736e-05,
      "loss": 0.6901,
      "num_input_tokens_seen": 5797072,
      "step": 9990
    },
    {
      "epoch": 1.4886803693774202,
      "grad_norm": 5.03419303894043,
      "learning_rate": 3.7213285671730714e-05,
      "loss": 0.694,
      "num_input_tokens_seen": 5800080,
      "step": 9995
    },
    {
      "epoch": 1.4894250819183794,
      "grad_norm": 3.387766122817993,
      "learning_rate": 3.723190348525469e-05,
      "loss": 0.6283,
      "num_input_tokens_seen": 5803216,
      "step": 10000
    },
    {
      "epoch": 1.4901697944593386,
      "grad_norm": 4.8029255867004395,
      "learning_rate": 3.725052129877867e-05,
      "loss": 0.6867,
      "num_input_tokens_seen": 5806096,
      "step": 10005
    },
    {
      "epoch": 1.4909145070002978,
      "grad_norm": 6.476761817932129,
      "learning_rate": 3.7269139112302656e-05,
      "loss": 0.5966,
      "num_input_tokens_seen": 5808848,
      "step": 10010
    },
    {
      "epoch": 1.491659219541257,
      "grad_norm": 3.7197461128234863,
      "learning_rate": 3.7287756925826634e-05,
      "loss": 0.4923,
      "num_input_tokens_seen": 5811536,
      "step": 10015
    },
    {
      "epoch": 1.4924039320822162,
      "grad_norm": 4.662827491760254,
      "learning_rate": 3.730637473935061e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 5814128,
      "step": 10020
    },
    {
      "epoch": 1.4931486446231754,
      "grad_norm": 5.080814361572266,
      "learning_rate": 3.732499255287459e-05,
      "loss": 0.6051,
      "num_input_tokens_seen": 5817104,
      "step": 10025
    },
    {
      "epoch": 1.4938933571641346,
      "grad_norm": 3.375839948654175,
      "learning_rate": 3.7343610366398575e-05,
      "loss": 0.6641,
      "num_input_tokens_seen": 5820144,
      "step": 10030
    },
    {
      "epoch": 1.4946380697050938,
      "grad_norm": 6.925379753112793,
      "learning_rate": 3.7362228179922554e-05,
      "loss": 0.7055,
      "num_input_tokens_seen": 5823120,
      "step": 10035
    },
    {
      "epoch": 1.495382782246053,
      "grad_norm": 4.156999111175537,
      "learning_rate": 3.738084599344653e-05,
      "loss": 0.6525,
      "num_input_tokens_seen": 5825872,
      "step": 10040
    },
    {
      "epoch": 1.4961274947870122,
      "grad_norm": 5.878690719604492,
      "learning_rate": 3.739946380697052e-05,
      "loss": 0.6066,
      "num_input_tokens_seen": 5828336,
      "step": 10045
    },
    {
      "epoch": 1.4968722073279714,
      "grad_norm": 5.395509719848633,
      "learning_rate": 3.741808162049449e-05,
      "loss": 0.5241,
      "num_input_tokens_seen": 5830928,
      "step": 10050
    },
    {
      "epoch": 1.4976169198689306,
      "grad_norm": 6.8286848068237305,
      "learning_rate": 3.743669943401847e-05,
      "loss": 0.6566,
      "num_input_tokens_seen": 5833808,
      "step": 10055
    },
    {
      "epoch": 1.4983616324098898,
      "grad_norm": 3.8334946632385254,
      "learning_rate": 3.745531724754245e-05,
      "loss": 0.619,
      "num_input_tokens_seen": 5837104,
      "step": 10060
    },
    {
      "epoch": 1.499106344950849,
      "grad_norm": 6.245970726013184,
      "learning_rate": 3.747393506106643e-05,
      "loss": 0.6038,
      "num_input_tokens_seen": 5839792,
      "step": 10065
    },
    {
      "epoch": 1.4998510574918082,
      "grad_norm": 6.186527729034424,
      "learning_rate": 3.749255287459041e-05,
      "loss": 0.557,
      "num_input_tokens_seen": 5842704,
      "step": 10070
    },
    {
      "epoch": 1.5005957700327675,
      "grad_norm": 6.1172566413879395,
      "learning_rate": 3.7511170688114386e-05,
      "loss": 0.8055,
      "num_input_tokens_seen": 5845456,
      "step": 10075
    },
    {
      "epoch": 1.5013404825737267,
      "grad_norm": 4.815858840942383,
      "learning_rate": 3.752978850163837e-05,
      "loss": 0.6209,
      "num_input_tokens_seen": 5848208,
      "step": 10080
    },
    {
      "epoch": 1.5020851951146859,
      "grad_norm": 6.061220645904541,
      "learning_rate": 3.754840631516235e-05,
      "loss": 0.7204,
      "num_input_tokens_seen": 5851024,
      "step": 10085
    },
    {
      "epoch": 1.502829907655645,
      "grad_norm": 4.487346172332764,
      "learning_rate": 3.756702412868633e-05,
      "loss": 0.7028,
      "num_input_tokens_seen": 5853968,
      "step": 10090
    },
    {
      "epoch": 1.5035746201966043,
      "grad_norm": 4.132174015045166,
      "learning_rate": 3.7585641942210306e-05,
      "loss": 0.527,
      "num_input_tokens_seen": 5856848,
      "step": 10095
    },
    {
      "epoch": 1.5043193327375635,
      "grad_norm": 5.036207675933838,
      "learning_rate": 3.760425975573429e-05,
      "loss": 0.6876,
      "num_input_tokens_seen": 5859568,
      "step": 10100
    },
    {
      "epoch": 1.5050640452785224,
      "grad_norm": 9.032074928283691,
      "learning_rate": 3.762287756925827e-05,
      "loss": 0.5682,
      "num_input_tokens_seen": 5862448,
      "step": 10105
    },
    {
      "epoch": 1.5058087578194816,
      "grad_norm": 7.547544002532959,
      "learning_rate": 3.764149538278225e-05,
      "loss": 0.4249,
      "num_input_tokens_seen": 5865232,
      "step": 10110
    },
    {
      "epoch": 1.5065534703604408,
      "grad_norm": 9.59201717376709,
      "learning_rate": 3.766011319630623e-05,
      "loss": 0.661,
      "num_input_tokens_seen": 5867952,
      "step": 10115
    },
    {
      "epoch": 1.5072981829014,
      "grad_norm": 3.346644401550293,
      "learning_rate": 3.767873100983021e-05,
      "loss": 0.694,
      "num_input_tokens_seen": 5870800,
      "step": 10120
    },
    {
      "epoch": 1.5080428954423593,
      "grad_norm": 6.761830806732178,
      "learning_rate": 3.769734882335419e-05,
      "loss": 0.497,
      "num_input_tokens_seen": 5874128,
      "step": 10125
    },
    {
      "epoch": 1.5087876079833185,
      "grad_norm": 6.062354564666748,
      "learning_rate": 3.771596663687817e-05,
      "loss": 0.6119,
      "num_input_tokens_seen": 5877200,
      "step": 10130
    },
    {
      "epoch": 1.5095323205242777,
      "grad_norm": 11.358773231506348,
      "learning_rate": 3.7734584450402145e-05,
      "loss": 0.5502,
      "num_input_tokens_seen": 5880176,
      "step": 10135
    },
    {
      "epoch": 1.5102770330652369,
      "grad_norm": 5.687936305999756,
      "learning_rate": 3.7753202263926124e-05,
      "loss": 0.7338,
      "num_input_tokens_seen": 5883184,
      "step": 10140
    },
    {
      "epoch": 1.5110217456061958,
      "grad_norm": 4.8518218994140625,
      "learning_rate": 3.77718200774501e-05,
      "loss": 0.6234,
      "num_input_tokens_seen": 5886544,
      "step": 10145
    },
    {
      "epoch": 1.511766458147155,
      "grad_norm": 4.94875955581665,
      "learning_rate": 3.779043789097409e-05,
      "loss": 0.682,
      "num_input_tokens_seen": 5889360,
      "step": 10150
    },
    {
      "epoch": 1.5125111706881142,
      "grad_norm": 4.410008907318115,
      "learning_rate": 3.7809055704498065e-05,
      "loss": 0.5664,
      "num_input_tokens_seen": 5892240,
      "step": 10155
    },
    {
      "epoch": 1.5132558832290735,
      "grad_norm": 4.149490833282471,
      "learning_rate": 3.7827673518022043e-05,
      "loss": 0.4791,
      "num_input_tokens_seen": 5895024,
      "step": 10160
    },
    {
      "epoch": 1.5140005957700327,
      "grad_norm": 4.800408363342285,
      "learning_rate": 3.784629133154602e-05,
      "loss": 0.6386,
      "num_input_tokens_seen": 5898160,
      "step": 10165
    },
    {
      "epoch": 1.5147453083109919,
      "grad_norm": 10.200188636779785,
      "learning_rate": 3.786490914507001e-05,
      "loss": 0.7289,
      "num_input_tokens_seen": 5900944,
      "step": 10170
    },
    {
      "epoch": 1.515490020851951,
      "grad_norm": 7.059491157531738,
      "learning_rate": 3.7883526958593985e-05,
      "loss": 0.5799,
      "num_input_tokens_seen": 5903984,
      "step": 10175
    },
    {
      "epoch": 1.5162347333929103,
      "grad_norm": 4.801868438720703,
      "learning_rate": 3.790214477211796e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 5906800,
      "step": 10180
    },
    {
      "epoch": 1.5169794459338695,
      "grad_norm": 16.43023109436035,
      "learning_rate": 3.792076258564194e-05,
      "loss": 0.8381,
      "num_input_tokens_seen": 5909360,
      "step": 10185
    },
    {
      "epoch": 1.5177241584748287,
      "grad_norm": 13.638550758361816,
      "learning_rate": 3.7939380399165926e-05,
      "loss": 0.5176,
      "num_input_tokens_seen": 5912304,
      "step": 10190
    },
    {
      "epoch": 1.5184688710157879,
      "grad_norm": 6.480174541473389,
      "learning_rate": 3.7957998212689905e-05,
      "loss": 0.6876,
      "num_input_tokens_seen": 5915312,
      "step": 10195
    },
    {
      "epoch": 1.519213583556747,
      "grad_norm": 5.416293144226074,
      "learning_rate": 3.797661602621388e-05,
      "loss": 0.6406,
      "num_input_tokens_seen": 5918256,
      "step": 10200
    },
    {
      "epoch": 1.5199582960977063,
      "grad_norm": 4.897355079650879,
      "learning_rate": 3.799523383973787e-05,
      "loss": 0.5472,
      "num_input_tokens_seen": 5920912,
      "step": 10205
    },
    {
      "epoch": 1.5207030086386655,
      "grad_norm": 7.946313381195068,
      "learning_rate": 3.8013851653261846e-05,
      "loss": 0.6381,
      "num_input_tokens_seen": 5923696,
      "step": 10210
    },
    {
      "epoch": 1.5214477211796247,
      "grad_norm": 3.4684271812438965,
      "learning_rate": 3.8032469466785824e-05,
      "loss": 0.5385,
      "num_input_tokens_seen": 5927024,
      "step": 10215
    },
    {
      "epoch": 1.5221924337205839,
      "grad_norm": 5.280168056488037,
      "learning_rate": 3.80510872803098e-05,
      "loss": 0.7481,
      "num_input_tokens_seen": 5930256,
      "step": 10220
    },
    {
      "epoch": 1.522937146261543,
      "grad_norm": 3.8558926582336426,
      "learning_rate": 3.806970509383378e-05,
      "loss": 0.6383,
      "num_input_tokens_seen": 5933072,
      "step": 10225
    },
    {
      "epoch": 1.5236818588025023,
      "grad_norm": 5.033586025238037,
      "learning_rate": 3.808832290735776e-05,
      "loss": 0.5266,
      "num_input_tokens_seen": 5936176,
      "step": 10230
    },
    {
      "epoch": 1.5244265713434615,
      "grad_norm": 6.303696632385254,
      "learning_rate": 3.810694072088174e-05,
      "loss": 0.7,
      "num_input_tokens_seen": 5938960,
      "step": 10235
    },
    {
      "epoch": 1.5251712838844207,
      "grad_norm": 4.00230598449707,
      "learning_rate": 3.812555853440572e-05,
      "loss": 0.5186,
      "num_input_tokens_seen": 5941584,
      "step": 10240
    },
    {
      "epoch": 1.52591599642538,
      "grad_norm": 4.266071319580078,
      "learning_rate": 3.81441763479297e-05,
      "loss": 0.4848,
      "num_input_tokens_seen": 5944752,
      "step": 10245
    },
    {
      "epoch": 1.526660708966339,
      "grad_norm": 6.075389385223389,
      "learning_rate": 3.816279416145368e-05,
      "loss": 0.598,
      "num_input_tokens_seen": 5947760,
      "step": 10250
    },
    {
      "epoch": 1.5274054215072983,
      "grad_norm": 5.341028690338135,
      "learning_rate": 3.818141197497766e-05,
      "loss": 0.6391,
      "num_input_tokens_seen": 5951088,
      "step": 10255
    },
    {
      "epoch": 1.5281501340482575,
      "grad_norm": 4.359286785125732,
      "learning_rate": 3.820002978850164e-05,
      "loss": 0.804,
      "num_input_tokens_seen": 5954032,
      "step": 10260
    },
    {
      "epoch": 1.5288948465892167,
      "grad_norm": 4.508108615875244,
      "learning_rate": 3.821864760202562e-05,
      "loss": 0.762,
      "num_input_tokens_seen": 5956688,
      "step": 10265
    },
    {
      "epoch": 1.529639559130176,
      "grad_norm": 10.107489585876465,
      "learning_rate": 3.82372654155496e-05,
      "loss": 0.6449,
      "num_input_tokens_seen": 5959440,
      "step": 10270
    },
    {
      "epoch": 1.5303842716711349,
      "grad_norm": 5.150254249572754,
      "learning_rate": 3.8255883229073583e-05,
      "loss": 0.782,
      "num_input_tokens_seen": 5962320,
      "step": 10275
    },
    {
      "epoch": 1.531128984212094,
      "grad_norm": 4.239105701446533,
      "learning_rate": 3.827450104259756e-05,
      "loss": 0.622,
      "num_input_tokens_seen": 5965328,
      "step": 10280
    },
    {
      "epoch": 1.5318736967530533,
      "grad_norm": 7.840906620025635,
      "learning_rate": 3.829311885612154e-05,
      "loss": 0.6473,
      "num_input_tokens_seen": 5968464,
      "step": 10285
    },
    {
      "epoch": 1.5326184092940125,
      "grad_norm": 5.682801246643066,
      "learning_rate": 3.831173666964552e-05,
      "loss": 0.5887,
      "num_input_tokens_seen": 5971568,
      "step": 10290
    },
    {
      "epoch": 1.5333631218349717,
      "grad_norm": 5.586325168609619,
      "learning_rate": 3.83303544831695e-05,
      "loss": 0.4651,
      "num_input_tokens_seen": 5974288,
      "step": 10295
    },
    {
      "epoch": 1.534107834375931,
      "grad_norm": 6.185433864593506,
      "learning_rate": 3.834897229669348e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 5977424,
      "step": 10300
    },
    {
      "epoch": 1.53485254691689,
      "grad_norm": 14.169986724853516,
      "learning_rate": 3.836759011021746e-05,
      "loss": 0.8942,
      "num_input_tokens_seen": 5980784,
      "step": 10305
    },
    {
      "epoch": 1.5355972594578493,
      "grad_norm": 7.981348991394043,
      "learning_rate": 3.838620792374144e-05,
      "loss": 0.9326,
      "num_input_tokens_seen": 5983664,
      "step": 10310
    },
    {
      "epoch": 1.5363419719988085,
      "grad_norm": 5.395859718322754,
      "learning_rate": 3.8404825737265416e-05,
      "loss": 0.6206,
      "num_input_tokens_seen": 5986672,
      "step": 10315
    },
    {
      "epoch": 1.5370866845397675,
      "grad_norm": 7.425637722015381,
      "learning_rate": 3.8423443550789394e-05,
      "loss": 0.738,
      "num_input_tokens_seen": 5989488,
      "step": 10320
    },
    {
      "epoch": 1.5378313970807267,
      "grad_norm": 5.308243751525879,
      "learning_rate": 3.844206136431337e-05,
      "loss": 0.5935,
      "num_input_tokens_seen": 5992208,
      "step": 10325
    },
    {
      "epoch": 1.538576109621686,
      "grad_norm": 4.005063533782959,
      "learning_rate": 3.846067917783736e-05,
      "loss": 0.809,
      "num_input_tokens_seen": 5995024,
      "step": 10330
    },
    {
      "epoch": 1.539320822162645,
      "grad_norm": 3.1422858238220215,
      "learning_rate": 3.8479296991361336e-05,
      "loss": 0.502,
      "num_input_tokens_seen": 5997904,
      "step": 10335
    },
    {
      "epoch": 1.5400655347036043,
      "grad_norm": 3.970276117324829,
      "learning_rate": 3.8497914804885314e-05,
      "loss": 0.5912,
      "num_input_tokens_seen": 6000944,
      "step": 10340
    },
    {
      "epoch": 1.5408102472445635,
      "grad_norm": 3.7695629596710205,
      "learning_rate": 3.851653261840929e-05,
      "loss": 0.5512,
      "num_input_tokens_seen": 6004016,
      "step": 10345
    },
    {
      "epoch": 1.5415549597855227,
      "grad_norm": 3.7361795902252197,
      "learning_rate": 3.853515043193328e-05,
      "loss": 0.6123,
      "num_input_tokens_seen": 6006896,
      "step": 10350
    },
    {
      "epoch": 1.542299672326482,
      "grad_norm": 6.631446838378906,
      "learning_rate": 3.8553768245457255e-05,
      "loss": 0.6452,
      "num_input_tokens_seen": 6009648,
      "step": 10355
    },
    {
      "epoch": 1.543044384867441,
      "grad_norm": 6.326446056365967,
      "learning_rate": 3.8572386058981234e-05,
      "loss": 0.61,
      "num_input_tokens_seen": 6012720,
      "step": 10360
    },
    {
      "epoch": 1.5437890974084003,
      "grad_norm": 5.604846477508545,
      "learning_rate": 3.859100387250522e-05,
      "loss": 0.675,
      "num_input_tokens_seen": 6015792,
      "step": 10365
    },
    {
      "epoch": 1.5445338099493595,
      "grad_norm": 7.197737693786621,
      "learning_rate": 3.86096216860292e-05,
      "loss": 0.6643,
      "num_input_tokens_seen": 6018800,
      "step": 10370
    },
    {
      "epoch": 1.5452785224903187,
      "grad_norm": 8.363579750061035,
      "learning_rate": 3.8628239499553175e-05,
      "loss": 0.7714,
      "num_input_tokens_seen": 6021712,
      "step": 10375
    },
    {
      "epoch": 1.546023235031278,
      "grad_norm": 4.281072616577148,
      "learning_rate": 3.8646857313077153e-05,
      "loss": 0.607,
      "num_input_tokens_seen": 6024432,
      "step": 10380
    },
    {
      "epoch": 1.5467679475722371,
      "grad_norm": 7.3206868171691895,
      "learning_rate": 3.866547512660114e-05,
      "loss": 0.6971,
      "num_input_tokens_seen": 6027504,
      "step": 10385
    },
    {
      "epoch": 1.5475126601131963,
      "grad_norm": 4.710747241973877,
      "learning_rate": 3.868409294012512e-05,
      "loss": 0.5912,
      "num_input_tokens_seen": 6030608,
      "step": 10390
    },
    {
      "epoch": 1.5482573726541555,
      "grad_norm": 12.38815689086914,
      "learning_rate": 3.870271075364909e-05,
      "loss": 0.5437,
      "num_input_tokens_seen": 6033264,
      "step": 10395
    },
    {
      "epoch": 1.5490020851951147,
      "grad_norm": 7.7783074378967285,
      "learning_rate": 3.872132856717307e-05,
      "loss": 0.6349,
      "num_input_tokens_seen": 6036144,
      "step": 10400
    },
    {
      "epoch": 1.549746797736074,
      "grad_norm": 4.243633270263672,
      "learning_rate": 3.873994638069705e-05,
      "loss": 0.7939,
      "num_input_tokens_seen": 6039248,
      "step": 10405
    },
    {
      "epoch": 1.5504915102770331,
      "grad_norm": 4.187114238739014,
      "learning_rate": 3.875856419422103e-05,
      "loss": 0.5088,
      "num_input_tokens_seen": 6042480,
      "step": 10410
    },
    {
      "epoch": 1.5512362228179923,
      "grad_norm": 11.200992584228516,
      "learning_rate": 3.877718200774501e-05,
      "loss": 0.7347,
      "num_input_tokens_seen": 6045296,
      "step": 10415
    },
    {
      "epoch": 1.5519809353589515,
      "grad_norm": 9.173301696777344,
      "learning_rate": 3.879579982126899e-05,
      "loss": 0.742,
      "num_input_tokens_seen": 6047888,
      "step": 10420
    },
    {
      "epoch": 1.5527256478999107,
      "grad_norm": 5.548672199249268,
      "learning_rate": 3.881441763479297e-05,
      "loss": 0.5769,
      "num_input_tokens_seen": 6050896,
      "step": 10425
    },
    {
      "epoch": 1.55347036044087,
      "grad_norm": 2.9727184772491455,
      "learning_rate": 3.883303544831695e-05,
      "loss": 0.4918,
      "num_input_tokens_seen": 6053840,
      "step": 10430
    },
    {
      "epoch": 1.5542150729818291,
      "grad_norm": 3.4053807258605957,
      "learning_rate": 3.8851653261840934e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 6056464,
      "step": 10435
    },
    {
      "epoch": 1.5549597855227884,
      "grad_norm": 5.892752647399902,
      "learning_rate": 3.887027107536491e-05,
      "loss": 0.6549,
      "num_input_tokens_seen": 6059312,
      "step": 10440
    },
    {
      "epoch": 1.5557044980637476,
      "grad_norm": 5.11885404586792,
      "learning_rate": 3.888888888888889e-05,
      "loss": 0.5481,
      "num_input_tokens_seen": 6062256,
      "step": 10445
    },
    {
      "epoch": 1.5564492106047065,
      "grad_norm": 4.714384078979492,
      "learning_rate": 3.890750670241287e-05,
      "loss": 0.709,
      "num_input_tokens_seen": 6065136,
      "step": 10450
    },
    {
      "epoch": 1.5571939231456657,
      "grad_norm": 7.526451110839844,
      "learning_rate": 3.8926124515936854e-05,
      "loss": 0.525,
      "num_input_tokens_seen": 6068176,
      "step": 10455
    },
    {
      "epoch": 1.557938635686625,
      "grad_norm": 5.090629577636719,
      "learning_rate": 3.894474232946083e-05,
      "loss": 0.6351,
      "num_input_tokens_seen": 6071088,
      "step": 10460
    },
    {
      "epoch": 1.5586833482275841,
      "grad_norm": 5.283367156982422,
      "learning_rate": 3.896336014298481e-05,
      "loss": 0.5867,
      "num_input_tokens_seen": 6073840,
      "step": 10465
    },
    {
      "epoch": 1.5594280607685433,
      "grad_norm": 6.048449993133545,
      "learning_rate": 3.898197795650879e-05,
      "loss": 0.6873,
      "num_input_tokens_seen": 6076784,
      "step": 10470
    },
    {
      "epoch": 1.5601727733095025,
      "grad_norm": 10.526573181152344,
      "learning_rate": 3.9000595770032774e-05,
      "loss": 0.8669,
      "num_input_tokens_seen": 6079696,
      "step": 10475
    },
    {
      "epoch": 1.5609174858504618,
      "grad_norm": 4.266149044036865,
      "learning_rate": 3.9019213583556745e-05,
      "loss": 0.6667,
      "num_input_tokens_seen": 6082640,
      "step": 10480
    },
    {
      "epoch": 1.561662198391421,
      "grad_norm": 5.485856056213379,
      "learning_rate": 3.903783139708072e-05,
      "loss": 0.5479,
      "num_input_tokens_seen": 6085520,
      "step": 10485
    },
    {
      "epoch": 1.5624069109323802,
      "grad_norm": 5.366034030914307,
      "learning_rate": 3.905644921060471e-05,
      "loss": 0.7091,
      "num_input_tokens_seen": 6088400,
      "step": 10490
    },
    {
      "epoch": 1.5631516234733391,
      "grad_norm": 6.152120590209961,
      "learning_rate": 3.907506702412869e-05,
      "loss": 0.5393,
      "num_input_tokens_seen": 6091024,
      "step": 10495
    },
    {
      "epoch": 1.5638963360142983,
      "grad_norm": 3.0684003829956055,
      "learning_rate": 3.9093684837652665e-05,
      "loss": 0.5437,
      "num_input_tokens_seen": 6093968,
      "step": 10500
    },
    {
      "epoch": 1.5646410485552575,
      "grad_norm": 5.448507308959961,
      "learning_rate": 3.911230265117665e-05,
      "loss": 0.4714,
      "num_input_tokens_seen": 6096624,
      "step": 10505
    },
    {
      "epoch": 1.5653857610962167,
      "grad_norm": 6.2256622314453125,
      "learning_rate": 3.913092046470063e-05,
      "loss": 0.6011,
      "num_input_tokens_seen": 6099344,
      "step": 10510
    },
    {
      "epoch": 1.566130473637176,
      "grad_norm": 7.902606964111328,
      "learning_rate": 3.9149538278224606e-05,
      "loss": 0.7561,
      "num_input_tokens_seen": 6102640,
      "step": 10515
    },
    {
      "epoch": 1.5668751861781351,
      "grad_norm": 9.198742866516113,
      "learning_rate": 3.9168156091748585e-05,
      "loss": 0.6192,
      "num_input_tokens_seen": 6105360,
      "step": 10520
    },
    {
      "epoch": 1.5676198987190944,
      "grad_norm": 3.647944927215576,
      "learning_rate": 3.918677390527257e-05,
      "loss": 0.4592,
      "num_input_tokens_seen": 6108272,
      "step": 10525
    },
    {
      "epoch": 1.5683646112600536,
      "grad_norm": 3.8580973148345947,
      "learning_rate": 3.920539171879655e-05,
      "loss": 0.5414,
      "num_input_tokens_seen": 6111056,
      "step": 10530
    },
    {
      "epoch": 1.5691093238010128,
      "grad_norm": 4.723999977111816,
      "learning_rate": 3.9224009532320526e-05,
      "loss": 0.5813,
      "num_input_tokens_seen": 6114224,
      "step": 10535
    },
    {
      "epoch": 1.569854036341972,
      "grad_norm": 9.802143096923828,
      "learning_rate": 3.9242627345844504e-05,
      "loss": 0.75,
      "num_input_tokens_seen": 6117168,
      "step": 10540
    },
    {
      "epoch": 1.5705987488829312,
      "grad_norm": 4.915914058685303,
      "learning_rate": 3.926124515936849e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 6119984,
      "step": 10545
    },
    {
      "epoch": 1.5713434614238904,
      "grad_norm": 6.979549884796143,
      "learning_rate": 3.927986297289247e-05,
      "loss": 0.5747,
      "num_input_tokens_seen": 6122608,
      "step": 10550
    },
    {
      "epoch": 1.5720881739648496,
      "grad_norm": 5.0768513679504395,
      "learning_rate": 3.9298480786416446e-05,
      "loss": 0.6009,
      "num_input_tokens_seen": 6125712,
      "step": 10555
    },
    {
      "epoch": 1.5728328865058088,
      "grad_norm": 4.904839992523193,
      "learning_rate": 3.9317098599940424e-05,
      "loss": 0.6172,
      "num_input_tokens_seen": 6128624,
      "step": 10560
    },
    {
      "epoch": 1.573577599046768,
      "grad_norm": 7.655905246734619,
      "learning_rate": 3.933571641346441e-05,
      "loss": 0.6326,
      "num_input_tokens_seen": 6131600,
      "step": 10565
    },
    {
      "epoch": 1.5743223115877272,
      "grad_norm": 12.498486518859863,
      "learning_rate": 3.935433422698838e-05,
      "loss": 0.6961,
      "num_input_tokens_seen": 6134288,
      "step": 10570
    },
    {
      "epoch": 1.5750670241286864,
      "grad_norm": 13.728894233703613,
      "learning_rate": 3.937295204051236e-05,
      "loss": 0.5079,
      "num_input_tokens_seen": 6137040,
      "step": 10575
    },
    {
      "epoch": 1.5758117366696456,
      "grad_norm": 5.272921562194824,
      "learning_rate": 3.9391569854036344e-05,
      "loss": 0.6351,
      "num_input_tokens_seen": 6139888,
      "step": 10580
    },
    {
      "epoch": 1.5765564492106048,
      "grad_norm": 5.044829368591309,
      "learning_rate": 3.941018766756032e-05,
      "loss": 0.6758,
      "num_input_tokens_seen": 6142672,
      "step": 10585
    },
    {
      "epoch": 1.577301161751564,
      "grad_norm": 7.948925018310547,
      "learning_rate": 3.94288054810843e-05,
      "loss": 0.6301,
      "num_input_tokens_seen": 6145648,
      "step": 10590
    },
    {
      "epoch": 1.5780458742925232,
      "grad_norm": 7.78000545501709,
      "learning_rate": 3.9447423294608285e-05,
      "loss": 0.5309,
      "num_input_tokens_seen": 6148592,
      "step": 10595
    },
    {
      "epoch": 1.5787905868334824,
      "grad_norm": 10.063987731933594,
      "learning_rate": 3.946604110813226e-05,
      "loss": 0.6924,
      "num_input_tokens_seen": 6151440,
      "step": 10600
    },
    {
      "epoch": 1.5795352993744416,
      "grad_norm": 8.234304428100586,
      "learning_rate": 3.948465892165624e-05,
      "loss": 0.5765,
      "num_input_tokens_seen": 6154448,
      "step": 10605
    },
    {
      "epoch": 1.5802800119154008,
      "grad_norm": 5.875218391418457,
      "learning_rate": 3.950327673518022e-05,
      "loss": 0.5331,
      "num_input_tokens_seen": 6157008,
      "step": 10610
    },
    {
      "epoch": 1.58102472445636,
      "grad_norm": 9.946127891540527,
      "learning_rate": 3.9521894548704205e-05,
      "loss": 0.6408,
      "num_input_tokens_seen": 6159824,
      "step": 10615
    },
    {
      "epoch": 1.5817694369973192,
      "grad_norm": 5.697083950042725,
      "learning_rate": 3.954051236222818e-05,
      "loss": 0.5159,
      "num_input_tokens_seen": 6162544,
      "step": 10620
    },
    {
      "epoch": 1.5825141495382782,
      "grad_norm": 3.0127527713775635,
      "learning_rate": 3.955913017575216e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 6165840,
      "step": 10625
    },
    {
      "epoch": 1.5832588620792374,
      "grad_norm": 7.043849468231201,
      "learning_rate": 3.957774798927614e-05,
      "loss": 0.7864,
      "num_input_tokens_seen": 6168688,
      "step": 10630
    },
    {
      "epoch": 1.5840035746201966,
      "grad_norm": 6.059579849243164,
      "learning_rate": 3.9596365802800125e-05,
      "loss": 0.7534,
      "num_input_tokens_seen": 6171600,
      "step": 10635
    },
    {
      "epoch": 1.5847482871611558,
      "grad_norm": 7.614648818969727,
      "learning_rate": 3.96149836163241e-05,
      "loss": 0.7015,
      "num_input_tokens_seen": 6174800,
      "step": 10640
    },
    {
      "epoch": 1.585492999702115,
      "grad_norm": 4.510063648223877,
      "learning_rate": 3.963360142984808e-05,
      "loss": 0.7435,
      "num_input_tokens_seen": 6177616,
      "step": 10645
    },
    {
      "epoch": 1.5862377122430742,
      "grad_norm": 8.695941925048828,
      "learning_rate": 3.9652219243372066e-05,
      "loss": 0.6621,
      "num_input_tokens_seen": 6180880,
      "step": 10650
    },
    {
      "epoch": 1.5869824247840334,
      "grad_norm": 5.239269733428955,
      "learning_rate": 3.967083705689604e-05,
      "loss": 0.6135,
      "num_input_tokens_seen": 6183600,
      "step": 10655
    },
    {
      "epoch": 1.5877271373249926,
      "grad_norm": 8.671432495117188,
      "learning_rate": 3.9689454870420016e-05,
      "loss": 0.5282,
      "num_input_tokens_seen": 6186640,
      "step": 10660
    },
    {
      "epoch": 1.5884718498659516,
      "grad_norm": 10.737825393676758,
      "learning_rate": 3.9708072683944e-05,
      "loss": 0.8442,
      "num_input_tokens_seen": 6189488,
      "step": 10665
    },
    {
      "epoch": 1.5892165624069108,
      "grad_norm": 8.433082580566406,
      "learning_rate": 3.972669049746798e-05,
      "loss": 0.8386,
      "num_input_tokens_seen": 6192688,
      "step": 10670
    },
    {
      "epoch": 1.58996127494787,
      "grad_norm": 3.868687868118286,
      "learning_rate": 3.974530831099196e-05,
      "loss": 0.6237,
      "num_input_tokens_seen": 6195216,
      "step": 10675
    },
    {
      "epoch": 1.5907059874888292,
      "grad_norm": 3.5301012992858887,
      "learning_rate": 3.9763926124515935e-05,
      "loss": 0.6543,
      "num_input_tokens_seen": 6198064,
      "step": 10680
    },
    {
      "epoch": 1.5914507000297884,
      "grad_norm": 6.947014808654785,
      "learning_rate": 3.978254393803992e-05,
      "loss": 0.5902,
      "num_input_tokens_seen": 6200976,
      "step": 10685
    },
    {
      "epoch": 1.5921954125707476,
      "grad_norm": 5.358218193054199,
      "learning_rate": 3.98011617515639e-05,
      "loss": 0.4553,
      "num_input_tokens_seen": 6203696,
      "step": 10690
    },
    {
      "epoch": 1.5929401251117068,
      "grad_norm": 8.15463924407959,
      "learning_rate": 3.981977956508788e-05,
      "loss": 0.4781,
      "num_input_tokens_seen": 6206480,
      "step": 10695
    },
    {
      "epoch": 1.593684837652666,
      "grad_norm": 5.381471157073975,
      "learning_rate": 3.9838397378611855e-05,
      "loss": 0.7356,
      "num_input_tokens_seen": 6209392,
      "step": 10700
    },
    {
      "epoch": 1.5944295501936252,
      "grad_norm": 6.832440376281738,
      "learning_rate": 3.985701519213584e-05,
      "loss": 0.469,
      "num_input_tokens_seen": 6212400,
      "step": 10705
    },
    {
      "epoch": 1.5951742627345844,
      "grad_norm": 4.720885753631592,
      "learning_rate": 3.987563300565982e-05,
      "loss": 0.6904,
      "num_input_tokens_seen": 6215600,
      "step": 10710
    },
    {
      "epoch": 1.5959189752755436,
      "grad_norm": 6.233437538146973,
      "learning_rate": 3.98942508191838e-05,
      "loss": 0.6279,
      "num_input_tokens_seen": 6218256,
      "step": 10715
    },
    {
      "epoch": 1.5966636878165028,
      "grad_norm": 9.582728385925293,
      "learning_rate": 3.991286863270778e-05,
      "loss": 0.5788,
      "num_input_tokens_seen": 6221072,
      "step": 10720
    },
    {
      "epoch": 1.597408400357462,
      "grad_norm": 4.899106025695801,
      "learning_rate": 3.993148644623176e-05,
      "loss": 0.4896,
      "num_input_tokens_seen": 6223888,
      "step": 10725
    },
    {
      "epoch": 1.5981531128984212,
      "grad_norm": 3.785816192626953,
      "learning_rate": 3.995010425975574e-05,
      "loss": 0.7319,
      "num_input_tokens_seen": 6227152,
      "step": 10730
    },
    {
      "epoch": 1.5988978254393804,
      "grad_norm": 7.066386699676514,
      "learning_rate": 3.9968722073279716e-05,
      "loss": 0.5956,
      "num_input_tokens_seen": 6230064,
      "step": 10735
    },
    {
      "epoch": 1.5996425379803396,
      "grad_norm": 7.5343337059021,
      "learning_rate": 3.9987339886803695e-05,
      "loss": 0.7416,
      "num_input_tokens_seen": 6233168,
      "step": 10740
    },
    {
      "epoch": 1.6003872505212988,
      "grad_norm": 7.127985000610352,
      "learning_rate": 4.000595770032767e-05,
      "loss": 0.6913,
      "num_input_tokens_seen": 6235824,
      "step": 10745
    },
    {
      "epoch": 1.601131963062258,
      "grad_norm": 6.1765336990356445,
      "learning_rate": 4.002457551385165e-05,
      "loss": 0.7334,
      "num_input_tokens_seen": 6238672,
      "step": 10750
    },
    {
      "epoch": 1.6018766756032172,
      "grad_norm": 6.196300029754639,
      "learning_rate": 4.0043193327375636e-05,
      "loss": 0.7144,
      "num_input_tokens_seen": 6241520,
      "step": 10755
    },
    {
      "epoch": 1.6026213881441764,
      "grad_norm": 3.5517659187316895,
      "learning_rate": 4.0061811140899614e-05,
      "loss": 0.5386,
      "num_input_tokens_seen": 6244336,
      "step": 10760
    },
    {
      "epoch": 1.6033661006851356,
      "grad_norm": 2.963224172592163,
      "learning_rate": 4.008042895442359e-05,
      "loss": 0.4987,
      "num_input_tokens_seen": 6246864,
      "step": 10765
    },
    {
      "epoch": 1.6041108132260948,
      "grad_norm": 3.7234597206115723,
      "learning_rate": 4.009904676794757e-05,
      "loss": 0.6362,
      "num_input_tokens_seen": 6249648,
      "step": 10770
    },
    {
      "epoch": 1.604855525767054,
      "grad_norm": 2.811275005340576,
      "learning_rate": 4.0117664581471556e-05,
      "loss": 0.5528,
      "num_input_tokens_seen": 6252464,
      "step": 10775
    },
    {
      "epoch": 1.6056002383080132,
      "grad_norm": 4.639360427856445,
      "learning_rate": 4.0136282394995534e-05,
      "loss": 0.7169,
      "num_input_tokens_seen": 6255408,
      "step": 10780
    },
    {
      "epoch": 1.6063449508489724,
      "grad_norm": 5.526094913482666,
      "learning_rate": 4.015490020851951e-05,
      "loss": 0.6562,
      "num_input_tokens_seen": 6258160,
      "step": 10785
    },
    {
      "epoch": 1.6070896633899316,
      "grad_norm": 4.840692520141602,
      "learning_rate": 4.017351802204349e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 6261232,
      "step": 10790
    },
    {
      "epoch": 1.6078343759308906,
      "grad_norm": 6.289129257202148,
      "learning_rate": 4.0192135835567475e-05,
      "loss": 0.6547,
      "num_input_tokens_seen": 6263920,
      "step": 10795
    },
    {
      "epoch": 1.6085790884718498,
      "grad_norm": 7.970500469207764,
      "learning_rate": 4.0210753649091454e-05,
      "loss": 0.6305,
      "num_input_tokens_seen": 6266768,
      "step": 10800
    },
    {
      "epoch": 1.609323801012809,
      "grad_norm": 5.148937225341797,
      "learning_rate": 4.022937146261543e-05,
      "loss": 0.4011,
      "num_input_tokens_seen": 6269456,
      "step": 10805
    },
    {
      "epoch": 1.6100685135537682,
      "grad_norm": 3.756464719772339,
      "learning_rate": 4.024798927613942e-05,
      "loss": 0.5829,
      "num_input_tokens_seen": 6272304,
      "step": 10810
    },
    {
      "epoch": 1.6108132260947274,
      "grad_norm": 6.995572566986084,
      "learning_rate": 4.0266607089663395e-05,
      "loss": 0.631,
      "num_input_tokens_seen": 6275056,
      "step": 10815
    },
    {
      "epoch": 1.6115579386356866,
      "grad_norm": 11.663308143615723,
      "learning_rate": 4.028522490318737e-05,
      "loss": 0.6117,
      "num_input_tokens_seen": 6277840,
      "step": 10820
    },
    {
      "epoch": 1.6123026511766458,
      "grad_norm": 5.84595251083374,
      "learning_rate": 4.030384271671135e-05,
      "loss": 0.5782,
      "num_input_tokens_seen": 6280656,
      "step": 10825
    },
    {
      "epoch": 1.613047363717605,
      "grad_norm": 12.148557662963867,
      "learning_rate": 4.032246053023533e-05,
      "loss": 0.6736,
      "num_input_tokens_seen": 6283248,
      "step": 10830
    },
    {
      "epoch": 1.6137920762585642,
      "grad_norm": 9.01501178741455,
      "learning_rate": 4.034107834375931e-05,
      "loss": 0.7358,
      "num_input_tokens_seen": 6286192,
      "step": 10835
    },
    {
      "epoch": 1.6145367887995232,
      "grad_norm": 5.57360315322876,
      "learning_rate": 4.0359696157283286e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 6288912,
      "step": 10840
    },
    {
      "epoch": 1.6152815013404824,
      "grad_norm": 6.171676158905029,
      "learning_rate": 4.037831397080727e-05,
      "loss": 0.6334,
      "num_input_tokens_seen": 6291600,
      "step": 10845
    },
    {
      "epoch": 1.6160262138814416,
      "grad_norm": 8.175347328186035,
      "learning_rate": 4.039693178433125e-05,
      "loss": 0.5364,
      "num_input_tokens_seen": 6294640,
      "step": 10850
    },
    {
      "epoch": 1.6167709264224008,
      "grad_norm": 7.7015886306762695,
      "learning_rate": 4.041554959785523e-05,
      "loss": 0.6774,
      "num_input_tokens_seen": 6297616,
      "step": 10855
    },
    {
      "epoch": 1.61751563896336,
      "grad_norm": 7.350677490234375,
      "learning_rate": 4.0434167411379206e-05,
      "loss": 0.7159,
      "num_input_tokens_seen": 6300432,
      "step": 10860
    },
    {
      "epoch": 1.6182603515043192,
      "grad_norm": 3.150412082672119,
      "learning_rate": 4.045278522490319e-05,
      "loss": 0.4927,
      "num_input_tokens_seen": 6303120,
      "step": 10865
    },
    {
      "epoch": 1.6190050640452784,
      "grad_norm": 8.01225757598877,
      "learning_rate": 4.047140303842717e-05,
      "loss": 0.7579,
      "num_input_tokens_seen": 6305808,
      "step": 10870
    },
    {
      "epoch": 1.6197497765862376,
      "grad_norm": 8.568215370178223,
      "learning_rate": 4.049002085195115e-05,
      "loss": 0.7399,
      "num_input_tokens_seen": 6308944,
      "step": 10875
    },
    {
      "epoch": 1.6204944891271968,
      "grad_norm": 9.540796279907227,
      "learning_rate": 4.050863866547513e-05,
      "loss": 0.64,
      "num_input_tokens_seen": 6311728,
      "step": 10880
    },
    {
      "epoch": 1.621239201668156,
      "grad_norm": 5.04524040222168,
      "learning_rate": 4.052725647899911e-05,
      "loss": 0.6235,
      "num_input_tokens_seen": 6314640,
      "step": 10885
    },
    {
      "epoch": 1.6219839142091153,
      "grad_norm": 7.836004257202148,
      "learning_rate": 4.054587429252309e-05,
      "loss": 0.6927,
      "num_input_tokens_seen": 6317520,
      "step": 10890
    },
    {
      "epoch": 1.6227286267500745,
      "grad_norm": 4.349467754364014,
      "learning_rate": 4.056449210604707e-05,
      "loss": 0.7404,
      "num_input_tokens_seen": 6320752,
      "step": 10895
    },
    {
      "epoch": 1.6234733392910337,
      "grad_norm": 8.832501411437988,
      "learning_rate": 4.058310991957105e-05,
      "loss": 0.6045,
      "num_input_tokens_seen": 6323504,
      "step": 10900
    },
    {
      "epoch": 1.6242180518319929,
      "grad_norm": 7.382561206817627,
      "learning_rate": 4.060172773309503e-05,
      "loss": 0.5585,
      "num_input_tokens_seen": 6326512,
      "step": 10905
    },
    {
      "epoch": 1.624962764372952,
      "grad_norm": 4.787539482116699,
      "learning_rate": 4.062034554661901e-05,
      "loss": 0.7461,
      "num_input_tokens_seen": 6329392,
      "step": 10910
    },
    {
      "epoch": 1.6257074769139113,
      "grad_norm": 8.802613258361816,
      "learning_rate": 4.063896336014299e-05,
      "loss": 0.7321,
      "num_input_tokens_seen": 6332016,
      "step": 10915
    },
    {
      "epoch": 1.6264521894548705,
      "grad_norm": 4.291042327880859,
      "learning_rate": 4.0657581173666965e-05,
      "loss": 0.5075,
      "num_input_tokens_seen": 6334704,
      "step": 10920
    },
    {
      "epoch": 1.6271969019958297,
      "grad_norm": 5.680602073669434,
      "learning_rate": 4.067619898719094e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 6338000,
      "step": 10925
    },
    {
      "epoch": 1.6279416145367889,
      "grad_norm": 6.0385613441467285,
      "learning_rate": 4.069481680071492e-05,
      "loss": 0.6368,
      "num_input_tokens_seen": 6341168,
      "step": 10930
    },
    {
      "epoch": 1.628686327077748,
      "grad_norm": 5.4400715827941895,
      "learning_rate": 4.0713434614238907e-05,
      "loss": 0.6724,
      "num_input_tokens_seen": 6344144,
      "step": 10935
    },
    {
      "epoch": 1.6294310396187073,
      "grad_norm": 7.211303234100342,
      "learning_rate": 4.0732052427762885e-05,
      "loss": 0.6234,
      "num_input_tokens_seen": 6347056,
      "step": 10940
    },
    {
      "epoch": 1.6301757521596665,
      "grad_norm": 8.704266548156738,
      "learning_rate": 4.075067024128686e-05,
      "loss": 0.8632,
      "num_input_tokens_seen": 6350032,
      "step": 10945
    },
    {
      "epoch": 1.6309204647006257,
      "grad_norm": 3.7871081829071045,
      "learning_rate": 4.076928805481084e-05,
      "loss": 0.5738,
      "num_input_tokens_seen": 6352656,
      "step": 10950
    },
    {
      "epoch": 1.6316651772415849,
      "grad_norm": 8.864567756652832,
      "learning_rate": 4.0787905868334826e-05,
      "loss": 0.6376,
      "num_input_tokens_seen": 6355472,
      "step": 10955
    },
    {
      "epoch": 1.632409889782544,
      "grad_norm": 4.811338424682617,
      "learning_rate": 4.0806523681858805e-05,
      "loss": 0.6522,
      "num_input_tokens_seen": 6358480,
      "step": 10960
    },
    {
      "epoch": 1.6331546023235033,
      "grad_norm": 2.906463384628296,
      "learning_rate": 4.082514149538278e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 6361392,
      "step": 10965
    },
    {
      "epoch": 1.6338993148644623,
      "grad_norm": 6.590907573699951,
      "learning_rate": 4.084375930890677e-05,
      "loss": 0.8755,
      "num_input_tokens_seen": 6364176,
      "step": 10970
    },
    {
      "epoch": 1.6346440274054215,
      "grad_norm": 11.340551376342773,
      "learning_rate": 4.0862377122430746e-05,
      "loss": 0.8301,
      "num_input_tokens_seen": 6366928,
      "step": 10975
    },
    {
      "epoch": 1.6353887399463807,
      "grad_norm": 4.478617191314697,
      "learning_rate": 4.0880994935954724e-05,
      "loss": 0.5758,
      "num_input_tokens_seen": 6369744,
      "step": 10980
    },
    {
      "epoch": 1.6361334524873399,
      "grad_norm": 3.939033269882202,
      "learning_rate": 4.08996127494787e-05,
      "loss": 0.5324,
      "num_input_tokens_seen": 6372432,
      "step": 10985
    },
    {
      "epoch": 1.636878165028299,
      "grad_norm": 5.208873271942139,
      "learning_rate": 4.091823056300269e-05,
      "loss": 0.6504,
      "num_input_tokens_seen": 6375408,
      "step": 10990
    },
    {
      "epoch": 1.6376228775692583,
      "grad_norm": 6.355453968048096,
      "learning_rate": 4.0936848376526666e-05,
      "loss": 0.4711,
      "num_input_tokens_seen": 6378096,
      "step": 10995
    },
    {
      "epoch": 1.6383675901102175,
      "grad_norm": 5.148810863494873,
      "learning_rate": 4.095546619005064e-05,
      "loss": 0.7252,
      "num_input_tokens_seen": 6380880,
      "step": 11000
    },
    {
      "epoch": 1.6391123026511767,
      "grad_norm": 6.46132230758667,
      "learning_rate": 4.097408400357462e-05,
      "loss": 0.6083,
      "num_input_tokens_seen": 6384080,
      "step": 11005
    },
    {
      "epoch": 1.6398570151921357,
      "grad_norm": 9.657020568847656,
      "learning_rate": 4.09927018170986e-05,
      "loss": 0.6973,
      "num_input_tokens_seen": 6386896,
      "step": 11010
    },
    {
      "epoch": 1.6406017277330949,
      "grad_norm": 3.871798038482666,
      "learning_rate": 4.101131963062258e-05,
      "loss": 0.5748,
      "num_input_tokens_seen": 6389968,
      "step": 11015
    },
    {
      "epoch": 1.641346440274054,
      "grad_norm": 6.113072395324707,
      "learning_rate": 4.102993744414656e-05,
      "loss": 0.5976,
      "num_input_tokens_seen": 6392816,
      "step": 11020
    },
    {
      "epoch": 1.6420911528150133,
      "grad_norm": 4.931529998779297,
      "learning_rate": 4.104855525767054e-05,
      "loss": 0.5083,
      "num_input_tokens_seen": 6395728,
      "step": 11025
    },
    {
      "epoch": 1.6428358653559725,
      "grad_norm": 6.9431538581848145,
      "learning_rate": 4.106717307119452e-05,
      "loss": 0.6807,
      "num_input_tokens_seen": 6398672,
      "step": 11030
    },
    {
      "epoch": 1.6435805778969317,
      "grad_norm": 4.058627605438232,
      "learning_rate": 4.10857908847185e-05,
      "loss": 0.4586,
      "num_input_tokens_seen": 6401296,
      "step": 11035
    },
    {
      "epoch": 1.6443252904378909,
      "grad_norm": 5.475338935852051,
      "learning_rate": 4.110440869824248e-05,
      "loss": 0.7176,
      "num_input_tokens_seen": 6404176,
      "step": 11040
    },
    {
      "epoch": 1.64507000297885,
      "grad_norm": 8.393402099609375,
      "learning_rate": 4.112302651176646e-05,
      "loss": 0.8451,
      "num_input_tokens_seen": 6407344,
      "step": 11045
    },
    {
      "epoch": 1.6458147155198093,
      "grad_norm": 5.2986321449279785,
      "learning_rate": 4.114164432529044e-05,
      "loss": 0.6136,
      "num_input_tokens_seen": 6410320,
      "step": 11050
    },
    {
      "epoch": 1.6465594280607685,
      "grad_norm": 2.966115951538086,
      "learning_rate": 4.116026213881442e-05,
      "loss": 0.7268,
      "num_input_tokens_seen": 6413328,
      "step": 11055
    },
    {
      "epoch": 1.6473041406017277,
      "grad_norm": 5.640233516693115,
      "learning_rate": 4.11788799523384e-05,
      "loss": 0.5722,
      "num_input_tokens_seen": 6416304,
      "step": 11060
    },
    {
      "epoch": 1.648048853142687,
      "grad_norm": 3.54468035697937,
      "learning_rate": 4.119749776586238e-05,
      "loss": 0.6204,
      "num_input_tokens_seen": 6419056,
      "step": 11065
    },
    {
      "epoch": 1.648793565683646,
      "grad_norm": 5.1551408767700195,
      "learning_rate": 4.121611557938636e-05,
      "loss": 0.5052,
      "num_input_tokens_seen": 6422160,
      "step": 11070
    },
    {
      "epoch": 1.6495382782246053,
      "grad_norm": 6.946098327636719,
      "learning_rate": 4.123473339291034e-05,
      "loss": 0.8586,
      "num_input_tokens_seen": 6424912,
      "step": 11075
    },
    {
      "epoch": 1.6502829907655645,
      "grad_norm": 3.5954511165618896,
      "learning_rate": 4.125335120643432e-05,
      "loss": 0.5533,
      "num_input_tokens_seen": 6428112,
      "step": 11080
    },
    {
      "epoch": 1.6510277033065237,
      "grad_norm": 2.9413726329803467,
      "learning_rate": 4.1271969019958294e-05,
      "loss": 0.6034,
      "num_input_tokens_seen": 6431536,
      "step": 11085
    },
    {
      "epoch": 1.651772415847483,
      "grad_norm": 5.632594108581543,
      "learning_rate": 4.129058683348227e-05,
      "loss": 0.6198,
      "num_input_tokens_seen": 6434352,
      "step": 11090
    },
    {
      "epoch": 1.6525171283884421,
      "grad_norm": 3.332681179046631,
      "learning_rate": 4.130920464700626e-05,
      "loss": 0.4484,
      "num_input_tokens_seen": 6437040,
      "step": 11095
    },
    {
      "epoch": 1.6532618409294013,
      "grad_norm": 7.505239963531494,
      "learning_rate": 4.1327822460530236e-05,
      "loss": 0.6936,
      "num_input_tokens_seen": 6439952,
      "step": 11100
    },
    {
      "epoch": 1.6540065534703605,
      "grad_norm": 3.9467525482177734,
      "learning_rate": 4.1346440274054214e-05,
      "loss": 0.4093,
      "num_input_tokens_seen": 6442768,
      "step": 11105
    },
    {
      "epoch": 1.6547512660113197,
      "grad_norm": 6.437226295471191,
      "learning_rate": 4.13650580875782e-05,
      "loss": 0.674,
      "num_input_tokens_seen": 6445328,
      "step": 11110
    },
    {
      "epoch": 1.655495978552279,
      "grad_norm": 3.0347232818603516,
      "learning_rate": 4.138367590110218e-05,
      "loss": 0.7882,
      "num_input_tokens_seen": 6448528,
      "step": 11115
    },
    {
      "epoch": 1.6562406910932381,
      "grad_norm": 8.866206169128418,
      "learning_rate": 4.1402293714626155e-05,
      "loss": 0.773,
      "num_input_tokens_seen": 6451376,
      "step": 11120
    },
    {
      "epoch": 1.6569854036341973,
      "grad_norm": 6.500965118408203,
      "learning_rate": 4.1420911528150134e-05,
      "loss": 0.7606,
      "num_input_tokens_seen": 6454256,
      "step": 11125
    },
    {
      "epoch": 1.6577301161751565,
      "grad_norm": 5.421432971954346,
      "learning_rate": 4.143952934167412e-05,
      "loss": 0.7349,
      "num_input_tokens_seen": 6457264,
      "step": 11130
    },
    {
      "epoch": 1.6584748287161157,
      "grad_norm": 8.748956680297852,
      "learning_rate": 4.14581471551981e-05,
      "loss": 0.6633,
      "num_input_tokens_seen": 6460304,
      "step": 11135
    },
    {
      "epoch": 1.6592195412570747,
      "grad_norm": 2.2449707984924316,
      "learning_rate": 4.1476764968722075e-05,
      "loss": 0.7007,
      "num_input_tokens_seen": 6463056,
      "step": 11140
    },
    {
      "epoch": 1.659964253798034,
      "grad_norm": 4.6747307777404785,
      "learning_rate": 4.149538278224605e-05,
      "loss": 0.5693,
      "num_input_tokens_seen": 6465680,
      "step": 11145
    },
    {
      "epoch": 1.6607089663389931,
      "grad_norm": 7.128996849060059,
      "learning_rate": 4.151400059577004e-05,
      "loss": 0.7622,
      "num_input_tokens_seen": 6468592,
      "step": 11150
    },
    {
      "epoch": 1.6614536788799523,
      "grad_norm": 5.185785293579102,
      "learning_rate": 4.1532618409294017e-05,
      "loss": 0.5328,
      "num_input_tokens_seen": 6471760,
      "step": 11155
    },
    {
      "epoch": 1.6621983914209115,
      "grad_norm": 4.34820032119751,
      "learning_rate": 4.1551236222817995e-05,
      "loss": 0.6514,
      "num_input_tokens_seen": 6474832,
      "step": 11160
    },
    {
      "epoch": 1.6629431039618707,
      "grad_norm": 5.006421089172363,
      "learning_rate": 4.156985403634197e-05,
      "loss": 0.5827,
      "num_input_tokens_seen": 6477712,
      "step": 11165
    },
    {
      "epoch": 1.66368781650283,
      "grad_norm": 3.473456859588623,
      "learning_rate": 4.158847184986596e-05,
      "loss": 0.6423,
      "num_input_tokens_seen": 6480272,
      "step": 11170
    },
    {
      "epoch": 1.6644325290437891,
      "grad_norm": 6.594043254852295,
      "learning_rate": 4.160708966338993e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 6483088,
      "step": 11175
    },
    {
      "epoch": 1.6651772415847483,
      "grad_norm": 9.78159236907959,
      "learning_rate": 4.162570747691391e-05,
      "loss": 0.6637,
      "num_input_tokens_seen": 6485968,
      "step": 11180
    },
    {
      "epoch": 1.6659219541257073,
      "grad_norm": 6.170324325561523,
      "learning_rate": 4.164432529043789e-05,
      "loss": 0.7257,
      "num_input_tokens_seen": 6489104,
      "step": 11185
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 5.593109130859375,
      "learning_rate": 4.166294310396187e-05,
      "loss": 0.6605,
      "num_input_tokens_seen": 6492240,
      "step": 11190
    },
    {
      "epoch": 1.6674113792076257,
      "grad_norm": 6.004934787750244,
      "learning_rate": 4.168156091748585e-05,
      "loss": 0.5662,
      "num_input_tokens_seen": 6495184,
      "step": 11195
    },
    {
      "epoch": 1.668156091748585,
      "grad_norm": 7.407375335693359,
      "learning_rate": 4.1700178731009834e-05,
      "loss": 0.595,
      "num_input_tokens_seen": 6498448,
      "step": 11200
    },
    {
      "epoch": 1.6689008042895441,
      "grad_norm": 5.004771709442139,
      "learning_rate": 4.171879654453381e-05,
      "loss": 0.6547,
      "num_input_tokens_seen": 6501136,
      "step": 11205
    },
    {
      "epoch": 1.6696455168305033,
      "grad_norm": 6.844715595245361,
      "learning_rate": 4.173741435805779e-05,
      "loss": 0.6968,
      "num_input_tokens_seen": 6504176,
      "step": 11210
    },
    {
      "epoch": 1.6703902293714625,
      "grad_norm": 3.1945996284484863,
      "learning_rate": 4.175603217158177e-05,
      "loss": 0.7625,
      "num_input_tokens_seen": 6507344,
      "step": 11215
    },
    {
      "epoch": 1.6711349419124217,
      "grad_norm": 4.959662914276123,
      "learning_rate": 4.1774649985105754e-05,
      "loss": 0.6176,
      "num_input_tokens_seen": 6510192,
      "step": 11220
    },
    {
      "epoch": 1.671879654453381,
      "grad_norm": 8.775592803955078,
      "learning_rate": 4.179326779862973e-05,
      "loss": 0.7719,
      "num_input_tokens_seen": 6513328,
      "step": 11225
    },
    {
      "epoch": 1.6726243669943401,
      "grad_norm": 7.964684963226318,
      "learning_rate": 4.181188561215371e-05,
      "loss": 0.7381,
      "num_input_tokens_seen": 6515984,
      "step": 11230
    },
    {
      "epoch": 1.6733690795352993,
      "grad_norm": 3.788335084915161,
      "learning_rate": 4.183050342567769e-05,
      "loss": 0.6993,
      "num_input_tokens_seen": 6518864,
      "step": 11235
    },
    {
      "epoch": 1.6741137920762585,
      "grad_norm": 4.538243293762207,
      "learning_rate": 4.1849121239201674e-05,
      "loss": 0.6249,
      "num_input_tokens_seen": 6521872,
      "step": 11240
    },
    {
      "epoch": 1.6748585046172177,
      "grad_norm": 6.224193096160889,
      "learning_rate": 4.186773905272565e-05,
      "loss": 0.4786,
      "num_input_tokens_seen": 6524720,
      "step": 11245
    },
    {
      "epoch": 1.675603217158177,
      "grad_norm": 2.8224599361419678,
      "learning_rate": 4.188635686624963e-05,
      "loss": 0.6248,
      "num_input_tokens_seen": 6527664,
      "step": 11250
    },
    {
      "epoch": 1.6763479296991362,
      "grad_norm": 5.97847843170166,
      "learning_rate": 4.1904974679773615e-05,
      "loss": 0.6819,
      "num_input_tokens_seen": 6530736,
      "step": 11255
    },
    {
      "epoch": 1.6770926422400954,
      "grad_norm": 9.06290340423584,
      "learning_rate": 4.1923592493297587e-05,
      "loss": 0.6729,
      "num_input_tokens_seen": 6533776,
      "step": 11260
    },
    {
      "epoch": 1.6778373547810546,
      "grad_norm": 4.854811668395996,
      "learning_rate": 4.1942210306821565e-05,
      "loss": 0.6686,
      "num_input_tokens_seen": 6536688,
      "step": 11265
    },
    {
      "epoch": 1.6785820673220138,
      "grad_norm": 2.9095942974090576,
      "learning_rate": 4.196082812034555e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 6539408,
      "step": 11270
    },
    {
      "epoch": 1.679326779862973,
      "grad_norm": 2.6868033409118652,
      "learning_rate": 4.197944593386953e-05,
      "loss": 0.6392,
      "num_input_tokens_seen": 6542192,
      "step": 11275
    },
    {
      "epoch": 1.6800714924039322,
      "grad_norm": 10.405282020568848,
      "learning_rate": 4.1998063747393506e-05,
      "loss": 0.6279,
      "num_input_tokens_seen": 6544848,
      "step": 11280
    },
    {
      "epoch": 1.6808162049448914,
      "grad_norm": 6.521907329559326,
      "learning_rate": 4.2016681560917485e-05,
      "loss": 0.6312,
      "num_input_tokens_seen": 6547312,
      "step": 11285
    },
    {
      "epoch": 1.6815609174858506,
      "grad_norm": 4.777712821960449,
      "learning_rate": 4.203529937444147e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 6550320,
      "step": 11290
    },
    {
      "epoch": 1.6823056300268098,
      "grad_norm": 6.214349746704102,
      "learning_rate": 4.205391718796545e-05,
      "loss": 0.6699,
      "num_input_tokens_seen": 6553008,
      "step": 11295
    },
    {
      "epoch": 1.683050342567769,
      "grad_norm": 6.135350704193115,
      "learning_rate": 4.2072535001489426e-05,
      "loss": 0.6454,
      "num_input_tokens_seen": 6556080,
      "step": 11300
    },
    {
      "epoch": 1.6837950551087282,
      "grad_norm": 11.298095703125,
      "learning_rate": 4.2091152815013404e-05,
      "loss": 0.7053,
      "num_input_tokens_seen": 6559248,
      "step": 11305
    },
    {
      "epoch": 1.6845397676496874,
      "grad_norm": 6.971270561218262,
      "learning_rate": 4.210977062853739e-05,
      "loss": 0.6711,
      "num_input_tokens_seen": 6562448,
      "step": 11310
    },
    {
      "epoch": 1.6852844801906464,
      "grad_norm": 12.474242210388184,
      "learning_rate": 4.212838844206137e-05,
      "loss": 0.7068,
      "num_input_tokens_seen": 6565232,
      "step": 11315
    },
    {
      "epoch": 1.6860291927316056,
      "grad_norm": 10.31404972076416,
      "learning_rate": 4.2147006255585346e-05,
      "loss": 0.9126,
      "num_input_tokens_seen": 6568336,
      "step": 11320
    },
    {
      "epoch": 1.6867739052725648,
      "grad_norm": 5.345808982849121,
      "learning_rate": 4.216562406910933e-05,
      "loss": 0.483,
      "num_input_tokens_seen": 6571184,
      "step": 11325
    },
    {
      "epoch": 1.687518617813524,
      "grad_norm": 6.3758440017700195,
      "learning_rate": 4.218424188263331e-05,
      "loss": 0.7432,
      "num_input_tokens_seen": 6573904,
      "step": 11330
    },
    {
      "epoch": 1.6882633303544832,
      "grad_norm": 3.5242977142333984,
      "learning_rate": 4.220285969615729e-05,
      "loss": 0.5733,
      "num_input_tokens_seen": 6576560,
      "step": 11335
    },
    {
      "epoch": 1.6890080428954424,
      "grad_norm": 4.004409313201904,
      "learning_rate": 4.2221477509681265e-05,
      "loss": 0.6508,
      "num_input_tokens_seen": 6579792,
      "step": 11340
    },
    {
      "epoch": 1.6897527554364016,
      "grad_norm": 5.827804088592529,
      "learning_rate": 4.2240095323205244e-05,
      "loss": 0.6551,
      "num_input_tokens_seen": 6582576,
      "step": 11345
    },
    {
      "epoch": 1.6904974679773608,
      "grad_norm": 3.2494378089904785,
      "learning_rate": 4.225871313672922e-05,
      "loss": 0.5118,
      "num_input_tokens_seen": 6585520,
      "step": 11350
    },
    {
      "epoch": 1.69124218051832,
      "grad_norm": 7.606400489807129,
      "learning_rate": 4.22773309502532e-05,
      "loss": 0.6394,
      "num_input_tokens_seen": 6588432,
      "step": 11355
    },
    {
      "epoch": 1.691986893059279,
      "grad_norm": 3.3531744480133057,
      "learning_rate": 4.2295948763777185e-05,
      "loss": 0.5394,
      "num_input_tokens_seen": 6591152,
      "step": 11360
    },
    {
      "epoch": 1.6927316056002382,
      "grad_norm": 5.2250752449035645,
      "learning_rate": 4.231456657730116e-05,
      "loss": 0.667,
      "num_input_tokens_seen": 6593840,
      "step": 11365
    },
    {
      "epoch": 1.6934763181411974,
      "grad_norm": 8.555270195007324,
      "learning_rate": 4.233318439082514e-05,
      "loss": 0.6356,
      "num_input_tokens_seen": 6596720,
      "step": 11370
    },
    {
      "epoch": 1.6942210306821566,
      "grad_norm": 9.177809715270996,
      "learning_rate": 4.235180220434912e-05,
      "loss": 0.9171,
      "num_input_tokens_seen": 6599664,
      "step": 11375
    },
    {
      "epoch": 1.6949657432231158,
      "grad_norm": 4.337943077087402,
      "learning_rate": 4.2370420017873105e-05,
      "loss": 0.6213,
      "num_input_tokens_seen": 6602384,
      "step": 11380
    },
    {
      "epoch": 1.695710455764075,
      "grad_norm": 3.6060080528259277,
      "learning_rate": 4.238903783139708e-05,
      "loss": 0.6962,
      "num_input_tokens_seen": 6605040,
      "step": 11385
    },
    {
      "epoch": 1.6964551683050342,
      "grad_norm": 10.689486503601074,
      "learning_rate": 4.240765564492106e-05,
      "loss": 0.6947,
      "num_input_tokens_seen": 6608080,
      "step": 11390
    },
    {
      "epoch": 1.6971998808459934,
      "grad_norm": 11.054376602172852,
      "learning_rate": 4.242627345844504e-05,
      "loss": 0.6716,
      "num_input_tokens_seen": 6610768,
      "step": 11395
    },
    {
      "epoch": 1.6979445933869526,
      "grad_norm": 2.8831756114959717,
      "learning_rate": 4.2444891271969025e-05,
      "loss": 0.6017,
      "num_input_tokens_seen": 6613936,
      "step": 11400
    },
    {
      "epoch": 1.6986893059279118,
      "grad_norm": 9.790265083312988,
      "learning_rate": 4.2463509085493e-05,
      "loss": 0.7274,
      "num_input_tokens_seen": 6617168,
      "step": 11405
    },
    {
      "epoch": 1.699434018468871,
      "grad_norm": 3.929413318634033,
      "learning_rate": 4.248212689901698e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 6620336,
      "step": 11410
    },
    {
      "epoch": 1.7001787310098302,
      "grad_norm": 6.807938098907471,
      "learning_rate": 4.2500744712540966e-05,
      "loss": 0.889,
      "num_input_tokens_seen": 6623280,
      "step": 11415
    },
    {
      "epoch": 1.7009234435507894,
      "grad_norm": 5.68832540512085,
      "learning_rate": 4.2519362526064944e-05,
      "loss": 0.7338,
      "num_input_tokens_seen": 6626288,
      "step": 11420
    },
    {
      "epoch": 1.7016681560917486,
      "grad_norm": 5.298638343811035,
      "learning_rate": 4.253798033958892e-05,
      "loss": 0.6591,
      "num_input_tokens_seen": 6629008,
      "step": 11425
    },
    {
      "epoch": 1.7024128686327078,
      "grad_norm": 7.696490287780762,
      "learning_rate": 4.25565981531129e-05,
      "loss": 0.8331,
      "num_input_tokens_seen": 6631760,
      "step": 11430
    },
    {
      "epoch": 1.703157581173667,
      "grad_norm": 5.530379295349121,
      "learning_rate": 4.257521596663688e-05,
      "loss": 0.5009,
      "num_input_tokens_seen": 6634768,
      "step": 11435
    },
    {
      "epoch": 1.7039022937146262,
      "grad_norm": 5.137158393859863,
      "learning_rate": 4.259383378016086e-05,
      "loss": 0.6688,
      "num_input_tokens_seen": 6637712,
      "step": 11440
    },
    {
      "epoch": 1.7046470062555854,
      "grad_norm": 7.668385028839111,
      "learning_rate": 4.2612451593684835e-05,
      "loss": 0.5996,
      "num_input_tokens_seen": 6640624,
      "step": 11445
    },
    {
      "epoch": 1.7053917187965446,
      "grad_norm": 6.500908851623535,
      "learning_rate": 4.263106940720882e-05,
      "loss": 0.8175,
      "num_input_tokens_seen": 6643440,
      "step": 11450
    },
    {
      "epoch": 1.7061364313375038,
      "grad_norm": 5.339328289031982,
      "learning_rate": 4.26496872207328e-05,
      "loss": 0.7117,
      "num_input_tokens_seen": 6646320,
      "step": 11455
    },
    {
      "epoch": 1.706881143878463,
      "grad_norm": 4.0540852546691895,
      "learning_rate": 4.266830503425678e-05,
      "loss": 0.6564,
      "num_input_tokens_seen": 6649296,
      "step": 11460
    },
    {
      "epoch": 1.7076258564194222,
      "grad_norm": 8.353867530822754,
      "learning_rate": 4.2686922847780755e-05,
      "loss": 0.798,
      "num_input_tokens_seen": 6652272,
      "step": 11465
    },
    {
      "epoch": 1.7083705689603814,
      "grad_norm": 5.532768726348877,
      "learning_rate": 4.270554066130474e-05,
      "loss": 0.5594,
      "num_input_tokens_seen": 6655280,
      "step": 11470
    },
    {
      "epoch": 1.7091152815013406,
      "grad_norm": 6.182382106781006,
      "learning_rate": 4.272415847482872e-05,
      "loss": 0.5942,
      "num_input_tokens_seen": 6658448,
      "step": 11475
    },
    {
      "epoch": 1.7098599940422998,
      "grad_norm": 6.85594367980957,
      "learning_rate": 4.2742776288352697e-05,
      "loss": 0.604,
      "num_input_tokens_seen": 6661264,
      "step": 11480
    },
    {
      "epoch": 1.710604706583259,
      "grad_norm": 10.262438774108887,
      "learning_rate": 4.276139410187668e-05,
      "loss": 0.5858,
      "num_input_tokens_seen": 6664272,
      "step": 11485
    },
    {
      "epoch": 1.711349419124218,
      "grad_norm": 7.005817413330078,
      "learning_rate": 4.278001191540066e-05,
      "loss": 0.6669,
      "num_input_tokens_seen": 6667728,
      "step": 11490
    },
    {
      "epoch": 1.7120941316651772,
      "grad_norm": 3.5629615783691406,
      "learning_rate": 4.279862972892464e-05,
      "loss": 0.4307,
      "num_input_tokens_seen": 6670544,
      "step": 11495
    },
    {
      "epoch": 1.7128388442061364,
      "grad_norm": 4.846259593963623,
      "learning_rate": 4.2817247542448616e-05,
      "loss": 0.653,
      "num_input_tokens_seen": 6673648,
      "step": 11500
    },
    {
      "epoch": 1.7135835567470956,
      "grad_norm": 6.4564971923828125,
      "learning_rate": 4.28358653559726e-05,
      "loss": 0.4419,
      "num_input_tokens_seen": 6676272,
      "step": 11505
    },
    {
      "epoch": 1.7143282692880548,
      "grad_norm": 12.182254791259766,
      "learning_rate": 4.285448316949658e-05,
      "loss": 0.6843,
      "num_input_tokens_seen": 6679280,
      "step": 11510
    },
    {
      "epoch": 1.715072981829014,
      "grad_norm": 5.349236965179443,
      "learning_rate": 4.287310098302056e-05,
      "loss": 0.5191,
      "num_input_tokens_seen": 6682416,
      "step": 11515
    },
    {
      "epoch": 1.7158176943699732,
      "grad_norm": 10.366759300231934,
      "learning_rate": 4.2891718796544536e-05,
      "loss": 0.7606,
      "num_input_tokens_seen": 6685392,
      "step": 11520
    },
    {
      "epoch": 1.7165624069109324,
      "grad_norm": 6.844699859619141,
      "learning_rate": 4.2910336610068514e-05,
      "loss": 0.7926,
      "num_input_tokens_seen": 6688656,
      "step": 11525
    },
    {
      "epoch": 1.7173071194518914,
      "grad_norm": 7.932475566864014,
      "learning_rate": 4.292895442359249e-05,
      "loss": 0.5275,
      "num_input_tokens_seen": 6691376,
      "step": 11530
    },
    {
      "epoch": 1.7180518319928506,
      "grad_norm": 5.435731410980225,
      "learning_rate": 4.294757223711647e-05,
      "loss": 0.8536,
      "num_input_tokens_seen": 6694160,
      "step": 11535
    },
    {
      "epoch": 1.7187965445338098,
      "grad_norm": 5.619255542755127,
      "learning_rate": 4.2966190050640456e-05,
      "loss": 0.5192,
      "num_input_tokens_seen": 6697136,
      "step": 11540
    },
    {
      "epoch": 1.719541257074769,
      "grad_norm": 5.251706600189209,
      "learning_rate": 4.2984807864164434e-05,
      "loss": 0.4861,
      "num_input_tokens_seen": 6700144,
      "step": 11545
    },
    {
      "epoch": 1.7202859696157282,
      "grad_norm": 3.6738836765289307,
      "learning_rate": 4.300342567768841e-05,
      "loss": 0.559,
      "num_input_tokens_seen": 6703760,
      "step": 11550
    },
    {
      "epoch": 1.7210306821566874,
      "grad_norm": 7.581058979034424,
      "learning_rate": 4.302204349121239e-05,
      "loss": 0.6906,
      "num_input_tokens_seen": 6706864,
      "step": 11555
    },
    {
      "epoch": 1.7217753946976466,
      "grad_norm": 4.02880859375,
      "learning_rate": 4.3040661304736375e-05,
      "loss": 0.5488,
      "num_input_tokens_seen": 6710000,
      "step": 11560
    },
    {
      "epoch": 1.7225201072386058,
      "grad_norm": 7.402703285217285,
      "learning_rate": 4.3059279118260354e-05,
      "loss": 0.5964,
      "num_input_tokens_seen": 6712976,
      "step": 11565
    },
    {
      "epoch": 1.723264819779565,
      "grad_norm": 3.333522081375122,
      "learning_rate": 4.307789693178433e-05,
      "loss": 0.6818,
      "num_input_tokens_seen": 6716304,
      "step": 11570
    },
    {
      "epoch": 1.7240095323205242,
      "grad_norm": 6.295049667358398,
      "learning_rate": 4.309651474530832e-05,
      "loss": 0.6369,
      "num_input_tokens_seen": 6719312,
      "step": 11575
    },
    {
      "epoch": 1.7247542448614834,
      "grad_norm": 9.486566543579102,
      "learning_rate": 4.3115132558832295e-05,
      "loss": 0.6684,
      "num_input_tokens_seen": 6722544,
      "step": 11580
    },
    {
      "epoch": 1.7254989574024426,
      "grad_norm": 3.8501694202423096,
      "learning_rate": 4.313375037235627e-05,
      "loss": 0.642,
      "num_input_tokens_seen": 6725200,
      "step": 11585
    },
    {
      "epoch": 1.7262436699434018,
      "grad_norm": 5.61874532699585,
      "learning_rate": 4.315236818588025e-05,
      "loss": 0.4925,
      "num_input_tokens_seen": 6727856,
      "step": 11590
    },
    {
      "epoch": 1.726988382484361,
      "grad_norm": 6.805541038513184,
      "learning_rate": 4.3170985999404237e-05,
      "loss": 0.4784,
      "num_input_tokens_seen": 6730480,
      "step": 11595
    },
    {
      "epoch": 1.7277330950253202,
      "grad_norm": 4.6943254470825195,
      "learning_rate": 4.3189603812928215e-05,
      "loss": 0.7302,
      "num_input_tokens_seen": 6733456,
      "step": 11600
    },
    {
      "epoch": 1.7284778075662794,
      "grad_norm": 8.371994972229004,
      "learning_rate": 4.3208221626452186e-05,
      "loss": 0.5519,
      "num_input_tokens_seen": 6736432,
      "step": 11605
    },
    {
      "epoch": 1.7292225201072386,
      "grad_norm": 9.239631652832031,
      "learning_rate": 4.322683943997617e-05,
      "loss": 0.7644,
      "num_input_tokens_seen": 6739696,
      "step": 11610
    },
    {
      "epoch": 1.7299672326481979,
      "grad_norm": 7.380918979644775,
      "learning_rate": 4.324545725350015e-05,
      "loss": 0.6715,
      "num_input_tokens_seen": 6742576,
      "step": 11615
    },
    {
      "epoch": 1.730711945189157,
      "grad_norm": 4.263557434082031,
      "learning_rate": 4.326407506702413e-05,
      "loss": 0.6057,
      "num_input_tokens_seen": 6745456,
      "step": 11620
    },
    {
      "epoch": 1.7314566577301163,
      "grad_norm": 3.782041072845459,
      "learning_rate": 4.3282692880548106e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 6748336,
      "step": 11625
    },
    {
      "epoch": 1.7322013702710755,
      "grad_norm": 11.590326309204102,
      "learning_rate": 4.330131069407209e-05,
      "loss": 0.5484,
      "num_input_tokens_seen": 6752048,
      "step": 11630
    },
    {
      "epoch": 1.7329460828120347,
      "grad_norm": 6.4368205070495605,
      "learning_rate": 4.331992850759607e-05,
      "loss": 0.6658,
      "num_input_tokens_seen": 6754672,
      "step": 11635
    },
    {
      "epoch": 1.7336907953529939,
      "grad_norm": 2.1955478191375732,
      "learning_rate": 4.333854632112005e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 6757616,
      "step": 11640
    },
    {
      "epoch": 1.734435507893953,
      "grad_norm": 6.828707218170166,
      "learning_rate": 4.335716413464403e-05,
      "loss": 0.6054,
      "num_input_tokens_seen": 6760496,
      "step": 11645
    },
    {
      "epoch": 1.7351802204349123,
      "grad_norm": 6.726932048797607,
      "learning_rate": 4.337578194816801e-05,
      "loss": 0.6522,
      "num_input_tokens_seen": 6763536,
      "step": 11650
    },
    {
      "epoch": 1.7359249329758715,
      "grad_norm": 7.78802490234375,
      "learning_rate": 4.339439976169199e-05,
      "loss": 0.7478,
      "num_input_tokens_seen": 6766448,
      "step": 11655
    },
    {
      "epoch": 1.7366696455168305,
      "grad_norm": 5.628200054168701,
      "learning_rate": 4.341301757521597e-05,
      "loss": 0.4752,
      "num_input_tokens_seen": 6769136,
      "step": 11660
    },
    {
      "epoch": 1.7374143580577897,
      "grad_norm": 5.568410873413086,
      "learning_rate": 4.343163538873995e-05,
      "loss": 0.529,
      "num_input_tokens_seen": 6771984,
      "step": 11665
    },
    {
      "epoch": 1.7381590705987489,
      "grad_norm": 4.47161340713501,
      "learning_rate": 4.345025320226393e-05,
      "loss": 0.5358,
      "num_input_tokens_seen": 6775024,
      "step": 11670
    },
    {
      "epoch": 1.738903783139708,
      "grad_norm": 7.787275314331055,
      "learning_rate": 4.346887101578791e-05,
      "loss": 0.8453,
      "num_input_tokens_seen": 6777936,
      "step": 11675
    },
    {
      "epoch": 1.7396484956806673,
      "grad_norm": 3.460629940032959,
      "learning_rate": 4.348748882931189e-05,
      "loss": 0.5195,
      "num_input_tokens_seen": 6780880,
      "step": 11680
    },
    {
      "epoch": 1.7403932082216265,
      "grad_norm": 5.5257649421691895,
      "learning_rate": 4.350610664283587e-05,
      "loss": 0.6563,
      "num_input_tokens_seen": 6783824,
      "step": 11685
    },
    {
      "epoch": 1.7411379207625857,
      "grad_norm": 8.913311958312988,
      "learning_rate": 4.352472445635984e-05,
      "loss": 0.594,
      "num_input_tokens_seen": 6786736,
      "step": 11690
    },
    {
      "epoch": 1.7418826333035449,
      "grad_norm": 9.120609283447266,
      "learning_rate": 4.354334226988382e-05,
      "loss": 0.7505,
      "num_input_tokens_seen": 6789840,
      "step": 11695
    },
    {
      "epoch": 1.742627345844504,
      "grad_norm": 8.017889022827148,
      "learning_rate": 4.3561960083407807e-05,
      "loss": 0.5872,
      "num_input_tokens_seen": 6792688,
      "step": 11700
    },
    {
      "epoch": 1.743372058385463,
      "grad_norm": 4.983219146728516,
      "learning_rate": 4.3580577896931785e-05,
      "loss": 0.7735,
      "num_input_tokens_seen": 6795824,
      "step": 11705
    },
    {
      "epoch": 1.7441167709264223,
      "grad_norm": 4.419098377227783,
      "learning_rate": 4.359919571045576e-05,
      "loss": 0.7341,
      "num_input_tokens_seen": 6798544,
      "step": 11710
    },
    {
      "epoch": 1.7448614834673815,
      "grad_norm": 5.85152006149292,
      "learning_rate": 4.361781352397975e-05,
      "loss": 0.6713,
      "num_input_tokens_seen": 6801616,
      "step": 11715
    },
    {
      "epoch": 1.7456061960083407,
      "grad_norm": 4.532442092895508,
      "learning_rate": 4.3636431337503726e-05,
      "loss": 0.6597,
      "num_input_tokens_seen": 6804400,
      "step": 11720
    },
    {
      "epoch": 1.7463509085492999,
      "grad_norm": 5.980685710906982,
      "learning_rate": 4.3655049151027704e-05,
      "loss": 0.63,
      "num_input_tokens_seen": 6807152,
      "step": 11725
    },
    {
      "epoch": 1.747095621090259,
      "grad_norm": 5.074282646179199,
      "learning_rate": 4.367366696455168e-05,
      "loss": 0.6754,
      "num_input_tokens_seen": 6810256,
      "step": 11730
    },
    {
      "epoch": 1.7478403336312183,
      "grad_norm": 5.998413562774658,
      "learning_rate": 4.369228477807567e-05,
      "loss": 0.6309,
      "num_input_tokens_seen": 6813072,
      "step": 11735
    },
    {
      "epoch": 1.7485850461721775,
      "grad_norm": 2.3908965587615967,
      "learning_rate": 4.3710902591599646e-05,
      "loss": 0.5708,
      "num_input_tokens_seen": 6815824,
      "step": 11740
    },
    {
      "epoch": 1.7493297587131367,
      "grad_norm": 4.876801490783691,
      "learning_rate": 4.3729520405123624e-05,
      "loss": 0.6636,
      "num_input_tokens_seen": 6818544,
      "step": 11745
    },
    {
      "epoch": 1.7500744712540959,
      "grad_norm": 3.070601224899292,
      "learning_rate": 4.37481382186476e-05,
      "loss": 0.565,
      "num_input_tokens_seen": 6821584,
      "step": 11750
    },
    {
      "epoch": 1.750819183795055,
      "grad_norm": 4.553543567657471,
      "learning_rate": 4.376675603217159e-05,
      "loss": 0.4821,
      "num_input_tokens_seen": 6824784,
      "step": 11755
    },
    {
      "epoch": 1.7515638963360143,
      "grad_norm": 5.577878952026367,
      "learning_rate": 4.3785373845695566e-05,
      "loss": 0.6009,
      "num_input_tokens_seen": 6827664,
      "step": 11760
    },
    {
      "epoch": 1.7523086088769735,
      "grad_norm": 8.8206787109375,
      "learning_rate": 4.3803991659219544e-05,
      "loss": 0.5902,
      "num_input_tokens_seen": 6830352,
      "step": 11765
    },
    {
      "epoch": 1.7530533214179327,
      "grad_norm": 5.853115558624268,
      "learning_rate": 4.382260947274352e-05,
      "loss": 0.7326,
      "num_input_tokens_seen": 6833424,
      "step": 11770
    },
    {
      "epoch": 1.7537980339588919,
      "grad_norm": 2.6142969131469727,
      "learning_rate": 4.384122728626751e-05,
      "loss": 0.6332,
      "num_input_tokens_seen": 6836432,
      "step": 11775
    },
    {
      "epoch": 1.754542746499851,
      "grad_norm": 6.486393928527832,
      "learning_rate": 4.385984509979148e-05,
      "loss": 0.5246,
      "num_input_tokens_seen": 6839440,
      "step": 11780
    },
    {
      "epoch": 1.7552874590408103,
      "grad_norm": 5.064384460449219,
      "learning_rate": 4.387846291331546e-05,
      "loss": 0.7222,
      "num_input_tokens_seen": 6842416,
      "step": 11785
    },
    {
      "epoch": 1.7560321715817695,
      "grad_norm": 5.763477802276611,
      "learning_rate": 4.389708072683944e-05,
      "loss": 0.6295,
      "num_input_tokens_seen": 6845136,
      "step": 11790
    },
    {
      "epoch": 1.7567768841227287,
      "grad_norm": 5.430312156677246,
      "learning_rate": 4.391569854036342e-05,
      "loss": 0.6989,
      "num_input_tokens_seen": 6848272,
      "step": 11795
    },
    {
      "epoch": 1.757521596663688,
      "grad_norm": 2.809929370880127,
      "learning_rate": 4.39343163538874e-05,
      "loss": 0.672,
      "num_input_tokens_seen": 6851248,
      "step": 11800
    },
    {
      "epoch": 1.758266309204647,
      "grad_norm": 7.727682590484619,
      "learning_rate": 4.395293416741138e-05,
      "loss": 0.6373,
      "num_input_tokens_seen": 6853840,
      "step": 11805
    },
    {
      "epoch": 1.7590110217456063,
      "grad_norm": 5.65981912612915,
      "learning_rate": 4.397155198093536e-05,
      "loss": 0.6614,
      "num_input_tokens_seen": 6856784,
      "step": 11810
    },
    {
      "epoch": 1.7597557342865655,
      "grad_norm": 5.399720191955566,
      "learning_rate": 4.399016979445934e-05,
      "loss": 0.633,
      "num_input_tokens_seen": 6859824,
      "step": 11815
    },
    {
      "epoch": 1.7605004468275247,
      "grad_norm": 5.35707950592041,
      "learning_rate": 4.400878760798332e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 6862928,
      "step": 11820
    },
    {
      "epoch": 1.761245159368484,
      "grad_norm": 8.046804428100586,
      "learning_rate": 4.40274054215073e-05,
      "loss": 0.5998,
      "num_input_tokens_seen": 6865744,
      "step": 11825
    },
    {
      "epoch": 1.7619898719094431,
      "grad_norm": 5.142611026763916,
      "learning_rate": 4.404602323503128e-05,
      "loss": 0.6127,
      "num_input_tokens_seen": 6868816,
      "step": 11830
    },
    {
      "epoch": 1.762734584450402,
      "grad_norm": 11.390116691589355,
      "learning_rate": 4.406464104855526e-05,
      "loss": 0.6499,
      "num_input_tokens_seen": 6871952,
      "step": 11835
    },
    {
      "epoch": 1.7634792969913613,
      "grad_norm": 8.44645881652832,
      "learning_rate": 4.408325886207924e-05,
      "loss": 0.5477,
      "num_input_tokens_seen": 6875056,
      "step": 11840
    },
    {
      "epoch": 1.7642240095323205,
      "grad_norm": 10.291984558105469,
      "learning_rate": 4.410187667560322e-05,
      "loss": 0.6882,
      "num_input_tokens_seen": 6878032,
      "step": 11845
    },
    {
      "epoch": 1.7649687220732797,
      "grad_norm": 7.276983261108398,
      "learning_rate": 4.41204944891272e-05,
      "loss": 0.5344,
      "num_input_tokens_seen": 6881008,
      "step": 11850
    },
    {
      "epoch": 1.765713434614239,
      "grad_norm": 5.530241966247559,
      "learning_rate": 4.413911230265118e-05,
      "loss": 0.6715,
      "num_input_tokens_seen": 6883664,
      "step": 11855
    },
    {
      "epoch": 1.766458147155198,
      "grad_norm": 12.464231491088867,
      "learning_rate": 4.4157730116175164e-05,
      "loss": 0.7366,
      "num_input_tokens_seen": 6886768,
      "step": 11860
    },
    {
      "epoch": 1.7672028596961573,
      "grad_norm": 7.249408721923828,
      "learning_rate": 4.4176347929699136e-05,
      "loss": 0.6388,
      "num_input_tokens_seen": 6889584,
      "step": 11865
    },
    {
      "epoch": 1.7679475722371165,
      "grad_norm": 6.011494159698486,
      "learning_rate": 4.4194965743223114e-05,
      "loss": 0.6417,
      "num_input_tokens_seen": 6892528,
      "step": 11870
    },
    {
      "epoch": 1.7686922847780755,
      "grad_norm": 3.736539363861084,
      "learning_rate": 4.42135835567471e-05,
      "loss": 0.8604,
      "num_input_tokens_seen": 6895568,
      "step": 11875
    },
    {
      "epoch": 1.7694369973190347,
      "grad_norm": 3.2767703533172607,
      "learning_rate": 4.423220137027108e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 6898608,
      "step": 11880
    },
    {
      "epoch": 1.770181709859994,
      "grad_norm": 3.528724431991577,
      "learning_rate": 4.4250819183795055e-05,
      "loss": 0.5335,
      "num_input_tokens_seen": 6901744,
      "step": 11885
    },
    {
      "epoch": 1.770926422400953,
      "grad_norm": 3.5142698287963867,
      "learning_rate": 4.4269436997319034e-05,
      "loss": 0.8028,
      "num_input_tokens_seen": 6904656,
      "step": 11890
    },
    {
      "epoch": 1.7716711349419123,
      "grad_norm": 3.1007447242736816,
      "learning_rate": 4.428805481084302e-05,
      "loss": 0.6104,
      "num_input_tokens_seen": 6907728,
      "step": 11895
    },
    {
      "epoch": 1.7724158474828715,
      "grad_norm": 6.287915229797363,
      "learning_rate": 4.4306672624367e-05,
      "loss": 0.6253,
      "num_input_tokens_seen": 6910512,
      "step": 11900
    },
    {
      "epoch": 1.7731605600238307,
      "grad_norm": 3.8672351837158203,
      "learning_rate": 4.4325290437890975e-05,
      "loss": 0.6538,
      "num_input_tokens_seen": 6913328,
      "step": 11905
    },
    {
      "epoch": 1.77390527256479,
      "grad_norm": 6.504075527191162,
      "learning_rate": 4.434390825141495e-05,
      "loss": 0.5243,
      "num_input_tokens_seen": 6916176,
      "step": 11910
    },
    {
      "epoch": 1.7746499851057491,
      "grad_norm": 6.123526096343994,
      "learning_rate": 4.436252606493894e-05,
      "loss": 0.6245,
      "num_input_tokens_seen": 6919280,
      "step": 11915
    },
    {
      "epoch": 1.7753946976467083,
      "grad_norm": 3.54787540435791,
      "learning_rate": 4.4381143878462917e-05,
      "loss": 0.5161,
      "num_input_tokens_seen": 6922256,
      "step": 11920
    },
    {
      "epoch": 1.7761394101876675,
      "grad_norm": 0.8924983143806458,
      "learning_rate": 4.4399761691986895e-05,
      "loss": 0.4884,
      "num_input_tokens_seen": 6924944,
      "step": 11925
    },
    {
      "epoch": 1.7768841227286267,
      "grad_norm": 11.195321083068848,
      "learning_rate": 4.441837950551088e-05,
      "loss": 0.6824,
      "num_input_tokens_seen": 6928048,
      "step": 11930
    },
    {
      "epoch": 1.777628835269586,
      "grad_norm": 12.76041030883789,
      "learning_rate": 4.443699731903486e-05,
      "loss": 0.5903,
      "num_input_tokens_seen": 6931216,
      "step": 11935
    },
    {
      "epoch": 1.7783735478105451,
      "grad_norm": 13.23200798034668,
      "learning_rate": 4.4455615132558836e-05,
      "loss": 0.7008,
      "num_input_tokens_seen": 6934608,
      "step": 11940
    },
    {
      "epoch": 1.7791182603515043,
      "grad_norm": 7.1012492179870605,
      "learning_rate": 4.4474232946082814e-05,
      "loss": 0.7331,
      "num_input_tokens_seen": 6937456,
      "step": 11945
    },
    {
      "epoch": 1.7798629728924635,
      "grad_norm": 5.832941055297852,
      "learning_rate": 4.449285075960679e-05,
      "loss": 0.6334,
      "num_input_tokens_seen": 6940432,
      "step": 11950
    },
    {
      "epoch": 1.7806076854334227,
      "grad_norm": 6.657458782196045,
      "learning_rate": 4.451146857313077e-05,
      "loss": 0.5526,
      "num_input_tokens_seen": 6943440,
      "step": 11955
    },
    {
      "epoch": 1.781352397974382,
      "grad_norm": 3.2912230491638184,
      "learning_rate": 4.453008638665475e-05,
      "loss": 0.4535,
      "num_input_tokens_seen": 6946096,
      "step": 11960
    },
    {
      "epoch": 1.7820971105153411,
      "grad_norm": 8.356324195861816,
      "learning_rate": 4.4548704200178734e-05,
      "loss": 0.6234,
      "num_input_tokens_seen": 6948976,
      "step": 11965
    },
    {
      "epoch": 1.7828418230563003,
      "grad_norm": 4.366537570953369,
      "learning_rate": 4.456732201370271e-05,
      "loss": 0.9388,
      "num_input_tokens_seen": 6951984,
      "step": 11970
    },
    {
      "epoch": 1.7835865355972595,
      "grad_norm": 5.382023811340332,
      "learning_rate": 4.458593982722669e-05,
      "loss": 0.7365,
      "num_input_tokens_seen": 6954768,
      "step": 11975
    },
    {
      "epoch": 1.7843312481382188,
      "grad_norm": 3.9545786380767822,
      "learning_rate": 4.460455764075067e-05,
      "loss": 0.6881,
      "num_input_tokens_seen": 6958000,
      "step": 11980
    },
    {
      "epoch": 1.785075960679178,
      "grad_norm": 4.2322611808776855,
      "learning_rate": 4.4623175454274654e-05,
      "loss": 0.6566,
      "num_input_tokens_seen": 6961072,
      "step": 11985
    },
    {
      "epoch": 1.7858206732201372,
      "grad_norm": 4.1508259773254395,
      "learning_rate": 4.464179326779863e-05,
      "loss": 0.6394,
      "num_input_tokens_seen": 6964144,
      "step": 11990
    },
    {
      "epoch": 1.7865653857610964,
      "grad_norm": 9.46218490600586,
      "learning_rate": 4.466041108132261e-05,
      "loss": 0.7129,
      "num_input_tokens_seen": 6966896,
      "step": 11995
    },
    {
      "epoch": 1.7873100983020556,
      "grad_norm": 4.331863880157471,
      "learning_rate": 4.467902889484659e-05,
      "loss": 0.5753,
      "num_input_tokens_seen": 6969584,
      "step": 12000
    },
    {
      "epoch": 1.7880548108430145,
      "grad_norm": 3.7324912548065186,
      "learning_rate": 4.4697646708370574e-05,
      "loss": 0.5646,
      "num_input_tokens_seen": 6972464,
      "step": 12005
    },
    {
      "epoch": 1.7887995233839737,
      "grad_norm": 8.094411849975586,
      "learning_rate": 4.471626452189455e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 6975312,
      "step": 12010
    },
    {
      "epoch": 1.789544235924933,
      "grad_norm": 4.883504390716553,
      "learning_rate": 4.473488233541853e-05,
      "loss": 0.6937,
      "num_input_tokens_seen": 6978288,
      "step": 12015
    },
    {
      "epoch": 1.7902889484658921,
      "grad_norm": 3.416468620300293,
      "learning_rate": 4.4753500148942515e-05,
      "loss": 0.7193,
      "num_input_tokens_seen": 6981456,
      "step": 12020
    },
    {
      "epoch": 1.7910336610068514,
      "grad_norm": 9.798948287963867,
      "learning_rate": 4.477211796246649e-05,
      "loss": 0.7414,
      "num_input_tokens_seen": 6984336,
      "step": 12025
    },
    {
      "epoch": 1.7917783735478106,
      "grad_norm": 3.4717748165130615,
      "learning_rate": 4.479073577599047e-05,
      "loss": 0.6509,
      "num_input_tokens_seen": 6987216,
      "step": 12030
    },
    {
      "epoch": 1.7925230860887698,
      "grad_norm": 4.4511332511901855,
      "learning_rate": 4.480935358951445e-05,
      "loss": 0.5718,
      "num_input_tokens_seen": 6990192,
      "step": 12035
    },
    {
      "epoch": 1.793267798629729,
      "grad_norm": 5.703512668609619,
      "learning_rate": 4.482797140303843e-05,
      "loss": 0.5881,
      "num_input_tokens_seen": 6993136,
      "step": 12040
    },
    {
      "epoch": 1.7940125111706882,
      "grad_norm": 3.8805134296417236,
      "learning_rate": 4.4846589216562406e-05,
      "loss": 0.6443,
      "num_input_tokens_seen": 6996240,
      "step": 12045
    },
    {
      "epoch": 1.7947572237116471,
      "grad_norm": 6.021976470947266,
      "learning_rate": 4.4865207030086384e-05,
      "loss": 0.5617,
      "num_input_tokens_seen": 6999280,
      "step": 12050
    },
    {
      "epoch": 1.7955019362526063,
      "grad_norm": 8.42906665802002,
      "learning_rate": 4.488382484361037e-05,
      "loss": 0.5567,
      "num_input_tokens_seen": 7002096,
      "step": 12055
    },
    {
      "epoch": 1.7962466487935655,
      "grad_norm": 6.076883316040039,
      "learning_rate": 4.490244265713435e-05,
      "loss": 0.5015,
      "num_input_tokens_seen": 7005040,
      "step": 12060
    },
    {
      "epoch": 1.7969913613345248,
      "grad_norm": 7.943991184234619,
      "learning_rate": 4.4921060470658326e-05,
      "loss": 0.7366,
      "num_input_tokens_seen": 7007856,
      "step": 12065
    },
    {
      "epoch": 1.797736073875484,
      "grad_norm": 3.033504009246826,
      "learning_rate": 4.4939678284182304e-05,
      "loss": 0.6118,
      "num_input_tokens_seen": 7010384,
      "step": 12070
    },
    {
      "epoch": 1.7984807864164432,
      "grad_norm": 8.081151008605957,
      "learning_rate": 4.495829609770629e-05,
      "loss": 0.5836,
      "num_input_tokens_seen": 7013328,
      "step": 12075
    },
    {
      "epoch": 1.7992254989574024,
      "grad_norm": 6.661342620849609,
      "learning_rate": 4.497691391123027e-05,
      "loss": 0.6605,
      "num_input_tokens_seen": 7016176,
      "step": 12080
    },
    {
      "epoch": 1.7999702114983616,
      "grad_norm": 3.9047253131866455,
      "learning_rate": 4.4995531724754246e-05,
      "loss": 0.6283,
      "num_input_tokens_seen": 7019024,
      "step": 12085
    },
    {
      "epoch": 1.8007149240393208,
      "grad_norm": 8.390288352966309,
      "learning_rate": 4.501414953827823e-05,
      "loss": 0.7406,
      "num_input_tokens_seen": 7021680,
      "step": 12090
    },
    {
      "epoch": 1.80145963658028,
      "grad_norm": 3.5723016262054443,
      "learning_rate": 4.503276735180221e-05,
      "loss": 0.5853,
      "num_input_tokens_seen": 7024432,
      "step": 12095
    },
    {
      "epoch": 1.8022043491212392,
      "grad_norm": 7.328670978546143,
      "learning_rate": 4.505138516532619e-05,
      "loss": 0.8125,
      "num_input_tokens_seen": 7027504,
      "step": 12100
    },
    {
      "epoch": 1.8029490616621984,
      "grad_norm": 4.626162052154541,
      "learning_rate": 4.5070002978850165e-05,
      "loss": 0.7351,
      "num_input_tokens_seen": 7030352,
      "step": 12105
    },
    {
      "epoch": 1.8036937742031576,
      "grad_norm": 2.7961161136627197,
      "learning_rate": 4.508862079237415e-05,
      "loss": 0.5674,
      "num_input_tokens_seen": 7033200,
      "step": 12110
    },
    {
      "epoch": 1.8044384867441168,
      "grad_norm": 2.9794771671295166,
      "learning_rate": 4.510723860589813e-05,
      "loss": 0.6548,
      "num_input_tokens_seen": 7036016,
      "step": 12115
    },
    {
      "epoch": 1.805183199285076,
      "grad_norm": 5.230706691741943,
      "learning_rate": 4.512585641942211e-05,
      "loss": 0.7005,
      "num_input_tokens_seen": 7038800,
      "step": 12120
    },
    {
      "epoch": 1.8059279118260352,
      "grad_norm": 6.186646461486816,
      "learning_rate": 4.5144474232946085e-05,
      "loss": 0.6523,
      "num_input_tokens_seen": 7041840,
      "step": 12125
    },
    {
      "epoch": 1.8066726243669944,
      "grad_norm": 2.794323682785034,
      "learning_rate": 4.516309204647006e-05,
      "loss": 0.5479,
      "num_input_tokens_seen": 7044336,
      "step": 12130
    },
    {
      "epoch": 1.8074173369079536,
      "grad_norm": 3.606353998184204,
      "learning_rate": 4.518170985999404e-05,
      "loss": 0.5413,
      "num_input_tokens_seen": 7047408,
      "step": 12135
    },
    {
      "epoch": 1.8081620494489128,
      "grad_norm": 5.202810764312744,
      "learning_rate": 4.520032767351802e-05,
      "loss": 0.6733,
      "num_input_tokens_seen": 7050512,
      "step": 12140
    },
    {
      "epoch": 1.808906761989872,
      "grad_norm": 3.993255853652954,
      "learning_rate": 4.5218945487042005e-05,
      "loss": 0.4234,
      "num_input_tokens_seen": 7053392,
      "step": 12145
    },
    {
      "epoch": 1.8096514745308312,
      "grad_norm": 3.5650405883789062,
      "learning_rate": 4.523756330056598e-05,
      "loss": 0.516,
      "num_input_tokens_seen": 7056208,
      "step": 12150
    },
    {
      "epoch": 1.8103961870717904,
      "grad_norm": 5.434254169464111,
      "learning_rate": 4.525618111408996e-05,
      "loss": 0.4418,
      "num_input_tokens_seen": 7059376,
      "step": 12155
    },
    {
      "epoch": 1.8111408996127496,
      "grad_norm": 6.234169006347656,
      "learning_rate": 4.527479892761394e-05,
      "loss": 0.4921,
      "num_input_tokens_seen": 7062096,
      "step": 12160
    },
    {
      "epoch": 1.8118856121537088,
      "grad_norm": 9.486045837402344,
      "learning_rate": 4.5293416741137924e-05,
      "loss": 0.5984,
      "num_input_tokens_seen": 7065360,
      "step": 12165
    },
    {
      "epoch": 1.812630324694668,
      "grad_norm": 5.156540870666504,
      "learning_rate": 4.53120345546619e-05,
      "loss": 0.809,
      "num_input_tokens_seen": 7068144,
      "step": 12170
    },
    {
      "epoch": 1.8133750372356272,
      "grad_norm": 12.079154968261719,
      "learning_rate": 4.533065236818588e-05,
      "loss": 0.7269,
      "num_input_tokens_seen": 7071088,
      "step": 12175
    },
    {
      "epoch": 1.8141197497765862,
      "grad_norm": 7.4929938316345215,
      "learning_rate": 4.5349270181709866e-05,
      "loss": 0.5756,
      "num_input_tokens_seen": 7073776,
      "step": 12180
    },
    {
      "epoch": 1.8148644623175454,
      "grad_norm": 5.981169700622559,
      "learning_rate": 4.5367887995233844e-05,
      "loss": 0.6423,
      "num_input_tokens_seen": 7076688,
      "step": 12185
    },
    {
      "epoch": 1.8156091748585046,
      "grad_norm": 6.011754512786865,
      "learning_rate": 4.538650580875782e-05,
      "loss": 0.5266,
      "num_input_tokens_seen": 7079408,
      "step": 12190
    },
    {
      "epoch": 1.8163538873994638,
      "grad_norm": 3.1373543739318848,
      "learning_rate": 4.54051236222818e-05,
      "loss": 0.6149,
      "num_input_tokens_seen": 7082672,
      "step": 12195
    },
    {
      "epoch": 1.817098599940423,
      "grad_norm": 4.288485527038574,
      "learning_rate": 4.5423741435805786e-05,
      "loss": 0.5955,
      "num_input_tokens_seen": 7085232,
      "step": 12200
    },
    {
      "epoch": 1.8178433124813822,
      "grad_norm": 5.697449207305908,
      "learning_rate": 4.5442359249329764e-05,
      "loss": 0.6599,
      "num_input_tokens_seen": 7087824,
      "step": 12205
    },
    {
      "epoch": 1.8185880250223414,
      "grad_norm": 5.3583149909973145,
      "learning_rate": 4.5460977062853735e-05,
      "loss": 0.4007,
      "num_input_tokens_seen": 7090672,
      "step": 12210
    },
    {
      "epoch": 1.8193327375633006,
      "grad_norm": 4.358618259429932,
      "learning_rate": 4.547959487637772e-05,
      "loss": 0.6555,
      "num_input_tokens_seen": 7093584,
      "step": 12215
    },
    {
      "epoch": 1.8200774501042598,
      "grad_norm": 6.066667079925537,
      "learning_rate": 4.54982126899017e-05,
      "loss": 0.5617,
      "num_input_tokens_seen": 7096560,
      "step": 12220
    },
    {
      "epoch": 1.8208221626452188,
      "grad_norm": 6.938803195953369,
      "learning_rate": 4.551683050342568e-05,
      "loss": 0.614,
      "num_input_tokens_seen": 7099216,
      "step": 12225
    },
    {
      "epoch": 1.821566875186178,
      "grad_norm": 9.372395515441895,
      "learning_rate": 4.5535448316949655e-05,
      "loss": 0.8017,
      "num_input_tokens_seen": 7102256,
      "step": 12230
    },
    {
      "epoch": 1.8223115877271372,
      "grad_norm": 6.224864959716797,
      "learning_rate": 4.555406613047364e-05,
      "loss": 0.6401,
      "num_input_tokens_seen": 7105200,
      "step": 12235
    },
    {
      "epoch": 1.8230563002680964,
      "grad_norm": 3.450011968612671,
      "learning_rate": 4.557268394399762e-05,
      "loss": 0.63,
      "num_input_tokens_seen": 7108016,
      "step": 12240
    },
    {
      "epoch": 1.8238010128090556,
      "grad_norm": 5.2865190505981445,
      "learning_rate": 4.5591301757521596e-05,
      "loss": 0.6041,
      "num_input_tokens_seen": 7110864,
      "step": 12245
    },
    {
      "epoch": 1.8245457253500148,
      "grad_norm": 7.69120454788208,
      "learning_rate": 4.560991957104558e-05,
      "loss": 0.4645,
      "num_input_tokens_seen": 7113616,
      "step": 12250
    },
    {
      "epoch": 1.825290437890974,
      "grad_norm": 4.975401878356934,
      "learning_rate": 4.562853738456956e-05,
      "loss": 0.7177,
      "num_input_tokens_seen": 7116528,
      "step": 12255
    },
    {
      "epoch": 1.8260351504319332,
      "grad_norm": 4.383700847625732,
      "learning_rate": 4.564715519809354e-05,
      "loss": 0.5041,
      "num_input_tokens_seen": 7119216,
      "step": 12260
    },
    {
      "epoch": 1.8267798629728924,
      "grad_norm": 11.592494010925293,
      "learning_rate": 4.5665773011617516e-05,
      "loss": 0.7357,
      "num_input_tokens_seen": 7122640,
      "step": 12265
    },
    {
      "epoch": 1.8275245755138516,
      "grad_norm": 4.9709696769714355,
      "learning_rate": 4.56843908251415e-05,
      "loss": 0.586,
      "num_input_tokens_seen": 7125552,
      "step": 12270
    },
    {
      "epoch": 1.8282692880548108,
      "grad_norm": 6.992618083953857,
      "learning_rate": 4.570300863866548e-05,
      "loss": 0.6344,
      "num_input_tokens_seen": 7128656,
      "step": 12275
    },
    {
      "epoch": 1.82901400059577,
      "grad_norm": 4.030160427093506,
      "learning_rate": 4.572162645218946e-05,
      "loss": 0.6575,
      "num_input_tokens_seen": 7131504,
      "step": 12280
    },
    {
      "epoch": 1.8297587131367292,
      "grad_norm": 9.15867805480957,
      "learning_rate": 4.5740244265713436e-05,
      "loss": 0.7007,
      "num_input_tokens_seen": 7134608,
      "step": 12285
    },
    {
      "epoch": 1.8305034256776884,
      "grad_norm": 7.438465595245361,
      "learning_rate": 4.575886207923742e-05,
      "loss": 0.583,
      "num_input_tokens_seen": 7137328,
      "step": 12290
    },
    {
      "epoch": 1.8312481382186476,
      "grad_norm": 4.339417457580566,
      "learning_rate": 4.57774798927614e-05,
      "loss": 0.8308,
      "num_input_tokens_seen": 7140080,
      "step": 12295
    },
    {
      "epoch": 1.8319928507596068,
      "grad_norm": 3.9798922538757324,
      "learning_rate": 4.579609770628537e-05,
      "loss": 0.6062,
      "num_input_tokens_seen": 7142960,
      "step": 12300
    },
    {
      "epoch": 1.832737563300566,
      "grad_norm": 3.1814167499542236,
      "learning_rate": 4.5814715519809356e-05,
      "loss": 0.6218,
      "num_input_tokens_seen": 7145872,
      "step": 12305
    },
    {
      "epoch": 1.8334822758415252,
      "grad_norm": 6.25989294052124,
      "learning_rate": 4.5833333333333334e-05,
      "loss": 0.6241,
      "num_input_tokens_seen": 7148464,
      "step": 12310
    },
    {
      "epoch": 1.8342269883824844,
      "grad_norm": 6.7591872215271,
      "learning_rate": 4.585195114685731e-05,
      "loss": 0.5731,
      "num_input_tokens_seen": 7151440,
      "step": 12315
    },
    {
      "epoch": 1.8349717009234436,
      "grad_norm": 9.120156288146973,
      "learning_rate": 4.58705689603813e-05,
      "loss": 0.6495,
      "num_input_tokens_seen": 7154672,
      "step": 12320
    },
    {
      "epoch": 1.8357164134644028,
      "grad_norm": 4.825533390045166,
      "learning_rate": 4.5889186773905275e-05,
      "loss": 0.8472,
      "num_input_tokens_seen": 7157904,
      "step": 12325
    },
    {
      "epoch": 1.836461126005362,
      "grad_norm": 2.923574209213257,
      "learning_rate": 4.5907804587429254e-05,
      "loss": 0.7293,
      "num_input_tokens_seen": 7160752,
      "step": 12330
    },
    {
      "epoch": 1.8372058385463212,
      "grad_norm": 4.516318321228027,
      "learning_rate": 4.592642240095323e-05,
      "loss": 0.5188,
      "num_input_tokens_seen": 7163760,
      "step": 12335
    },
    {
      "epoch": 1.8379505510872804,
      "grad_norm": 6.346925735473633,
      "learning_rate": 4.594504021447722e-05,
      "loss": 0.5845,
      "num_input_tokens_seen": 7166704,
      "step": 12340
    },
    {
      "epoch": 1.8386952636282397,
      "grad_norm": 4.447810649871826,
      "learning_rate": 4.5963658028001195e-05,
      "loss": 0.6535,
      "num_input_tokens_seen": 7169520,
      "step": 12345
    },
    {
      "epoch": 1.8394399761691989,
      "grad_norm": 8.387784004211426,
      "learning_rate": 4.598227584152517e-05,
      "loss": 0.6083,
      "num_input_tokens_seen": 7172464,
      "step": 12350
    },
    {
      "epoch": 1.8401846887101578,
      "grad_norm": 6.328629016876221,
      "learning_rate": 4.600089365504915e-05,
      "loss": 0.6959,
      "num_input_tokens_seen": 7175312,
      "step": 12355
    },
    {
      "epoch": 1.840929401251117,
      "grad_norm": 6.177081108093262,
      "learning_rate": 4.6019511468573136e-05,
      "loss": 0.7057,
      "num_input_tokens_seen": 7178128,
      "step": 12360
    },
    {
      "epoch": 1.8416741137920762,
      "grad_norm": 4.306445121765137,
      "learning_rate": 4.6038129282097115e-05,
      "loss": 0.6887,
      "num_input_tokens_seen": 7181104,
      "step": 12365
    },
    {
      "epoch": 1.8424188263330354,
      "grad_norm": 4.250378131866455,
      "learning_rate": 4.605674709562109e-05,
      "loss": 0.5167,
      "num_input_tokens_seen": 7184208,
      "step": 12370
    },
    {
      "epoch": 1.8431635388739946,
      "grad_norm": 9.295553207397461,
      "learning_rate": 4.607536490914507e-05,
      "loss": 0.659,
      "num_input_tokens_seen": 7187088,
      "step": 12375
    },
    {
      "epoch": 1.8439082514149538,
      "grad_norm": 4.612778186798096,
      "learning_rate": 4.6093982722669056e-05,
      "loss": 0.7015,
      "num_input_tokens_seen": 7190032,
      "step": 12380
    },
    {
      "epoch": 1.844652963955913,
      "grad_norm": 4.3662848472595215,
      "learning_rate": 4.611260053619303e-05,
      "loss": 0.5922,
      "num_input_tokens_seen": 7192816,
      "step": 12385
    },
    {
      "epoch": 1.8453976764968723,
      "grad_norm": 7.581298828125,
      "learning_rate": 4.6131218349717006e-05,
      "loss": 0.5512,
      "num_input_tokens_seen": 7195728,
      "step": 12390
    },
    {
      "epoch": 1.8461423890378312,
      "grad_norm": 4.991930961608887,
      "learning_rate": 4.614983616324099e-05,
      "loss": 0.8209,
      "num_input_tokens_seen": 7198576,
      "step": 12395
    },
    {
      "epoch": 1.8468871015787904,
      "grad_norm": 5.728287696838379,
      "learning_rate": 4.616845397676497e-05,
      "loss": 0.5403,
      "num_input_tokens_seen": 7201520,
      "step": 12400
    },
    {
      "epoch": 1.8476318141197496,
      "grad_norm": 5.831258296966553,
      "learning_rate": 4.618707179028895e-05,
      "loss": 0.6422,
      "num_input_tokens_seen": 7204080,
      "step": 12405
    },
    {
      "epoch": 1.8483765266607088,
      "grad_norm": 4.647578239440918,
      "learning_rate": 4.620568960381293e-05,
      "loss": 0.5732,
      "num_input_tokens_seen": 7206576,
      "step": 12410
    },
    {
      "epoch": 1.849121239201668,
      "grad_norm": 8.114839553833008,
      "learning_rate": 4.622430741733691e-05,
      "loss": 0.6659,
      "num_input_tokens_seen": 7209680,
      "step": 12415
    },
    {
      "epoch": 1.8498659517426272,
      "grad_norm": 2.4443624019622803,
      "learning_rate": 4.624292523086089e-05,
      "loss": 0.6118,
      "num_input_tokens_seen": 7212304,
      "step": 12420
    },
    {
      "epoch": 1.8506106642835864,
      "grad_norm": 8.667398452758789,
      "learning_rate": 4.626154304438487e-05,
      "loss": 0.7217,
      "num_input_tokens_seen": 7215248,
      "step": 12425
    },
    {
      "epoch": 1.8513553768245457,
      "grad_norm": 6.726574897766113,
      "learning_rate": 4.628016085790885e-05,
      "loss": 0.4561,
      "num_input_tokens_seen": 7218000,
      "step": 12430
    },
    {
      "epoch": 1.8521000893655049,
      "grad_norm": 5.516637802124023,
      "learning_rate": 4.629877867143283e-05,
      "loss": 0.6249,
      "num_input_tokens_seen": 7220752,
      "step": 12435
    },
    {
      "epoch": 1.852844801906464,
      "grad_norm": 5.330766677856445,
      "learning_rate": 4.631739648495681e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 7223568,
      "step": 12440
    },
    {
      "epoch": 1.8535895144474233,
      "grad_norm": 8.648941040039062,
      "learning_rate": 4.633601429848079e-05,
      "loss": 0.7248,
      "num_input_tokens_seen": 7226448,
      "step": 12445
    },
    {
      "epoch": 1.8543342269883825,
      "grad_norm": 10.64572811126709,
      "learning_rate": 4.635463211200477e-05,
      "loss": 0.5483,
      "num_input_tokens_seen": 7229360,
      "step": 12450
    },
    {
      "epoch": 1.8550789395293417,
      "grad_norm": 6.571235179901123,
      "learning_rate": 4.637324992552875e-05,
      "loss": 0.7105,
      "num_input_tokens_seen": 7232272,
      "step": 12455
    },
    {
      "epoch": 1.8558236520703009,
      "grad_norm": 8.945197105407715,
      "learning_rate": 4.639186773905273e-05,
      "loss": 0.7278,
      "num_input_tokens_seen": 7235152,
      "step": 12460
    },
    {
      "epoch": 1.85656836461126,
      "grad_norm": 9.507739067077637,
      "learning_rate": 4.641048555257671e-05,
      "loss": 0.5197,
      "num_input_tokens_seen": 7238224,
      "step": 12465
    },
    {
      "epoch": 1.8573130771522193,
      "grad_norm": 6.3081841468811035,
      "learning_rate": 4.6429103366100685e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 7241104,
      "step": 12470
    },
    {
      "epoch": 1.8580577896931785,
      "grad_norm": 8.168660163879395,
      "learning_rate": 4.644772117962466e-05,
      "loss": 0.5772,
      "num_input_tokens_seen": 7243824,
      "step": 12475
    },
    {
      "epoch": 1.8588025022341377,
      "grad_norm": 17.187076568603516,
      "learning_rate": 4.646633899314865e-05,
      "loss": 0.6469,
      "num_input_tokens_seen": 7246832,
      "step": 12480
    },
    {
      "epoch": 1.8595472147750969,
      "grad_norm": 3.660198926925659,
      "learning_rate": 4.6484956806672626e-05,
      "loss": 0.6999,
      "num_input_tokens_seen": 7249808,
      "step": 12485
    },
    {
      "epoch": 1.860291927316056,
      "grad_norm": 5.255853652954102,
      "learning_rate": 4.6503574620196604e-05,
      "loss": 0.7051,
      "num_input_tokens_seen": 7252848,
      "step": 12490
    },
    {
      "epoch": 1.8610366398570153,
      "grad_norm": 9.919438362121582,
      "learning_rate": 4.652219243372058e-05,
      "loss": 0.6638,
      "num_input_tokens_seen": 7255472,
      "step": 12495
    },
    {
      "epoch": 1.8617813523979745,
      "grad_norm": 5.168148040771484,
      "learning_rate": 4.654081024724457e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 7258320,
      "step": 12500
    },
    {
      "epoch": 1.8625260649389337,
      "grad_norm": 5.694692134857178,
      "learning_rate": 4.6559428060768546e-05,
      "loss": 0.4758,
      "num_input_tokens_seen": 7261200,
      "step": 12505
    },
    {
      "epoch": 1.863270777479893,
      "grad_norm": 3.6522815227508545,
      "learning_rate": 4.6578045874292524e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 7263952,
      "step": 12510
    },
    {
      "epoch": 1.864015490020852,
      "grad_norm": 4.717827796936035,
      "learning_rate": 4.65966636878165e-05,
      "loss": 0.6967,
      "num_input_tokens_seen": 7266960,
      "step": 12515
    },
    {
      "epoch": 1.8647602025618113,
      "grad_norm": 9.71110725402832,
      "learning_rate": 4.661528150134049e-05,
      "loss": 0.6478,
      "num_input_tokens_seen": 7270160,
      "step": 12520
    },
    {
      "epoch": 1.8655049151027703,
      "grad_norm": 4.6855340003967285,
      "learning_rate": 4.6633899314864466e-05,
      "loss": 0.7266,
      "num_input_tokens_seen": 7273296,
      "step": 12525
    },
    {
      "epoch": 1.8662496276437295,
      "grad_norm": 4.567287921905518,
      "learning_rate": 4.6652517128388444e-05,
      "loss": 0.7188,
      "num_input_tokens_seen": 7276304,
      "step": 12530
    },
    {
      "epoch": 1.8669943401846887,
      "grad_norm": 3.4494788646698,
      "learning_rate": 4.667113494191243e-05,
      "loss": 0.708,
      "num_input_tokens_seen": 7279536,
      "step": 12535
    },
    {
      "epoch": 1.8677390527256479,
      "grad_norm": 2.6915502548217773,
      "learning_rate": 4.668975275543641e-05,
      "loss": 0.6888,
      "num_input_tokens_seen": 7282288,
      "step": 12540
    },
    {
      "epoch": 1.868483765266607,
      "grad_norm": 3.4486799240112305,
      "learning_rate": 4.6708370568960385e-05,
      "loss": 0.6843,
      "num_input_tokens_seen": 7285264,
      "step": 12545
    },
    {
      "epoch": 1.8692284778075663,
      "grad_norm": 2.855875015258789,
      "learning_rate": 4.6726988382484364e-05,
      "loss": 0.7343,
      "num_input_tokens_seen": 7288208,
      "step": 12550
    },
    {
      "epoch": 1.8699731903485255,
      "grad_norm": 3.1423537731170654,
      "learning_rate": 4.674560619600835e-05,
      "loss": 0.5992,
      "num_input_tokens_seen": 7291088,
      "step": 12555
    },
    {
      "epoch": 1.8707179028894847,
      "grad_norm": 3.428858995437622,
      "learning_rate": 4.676422400953232e-05,
      "loss": 0.7012,
      "num_input_tokens_seen": 7294160,
      "step": 12560
    },
    {
      "epoch": 1.871462615430444,
      "grad_norm": 2.5968079566955566,
      "learning_rate": 4.67828418230563e-05,
      "loss": 0.6251,
      "num_input_tokens_seen": 7297328,
      "step": 12565
    },
    {
      "epoch": 1.8722073279714029,
      "grad_norm": 4.813645839691162,
      "learning_rate": 4.680145963658028e-05,
      "loss": 0.6202,
      "num_input_tokens_seen": 7300240,
      "step": 12570
    },
    {
      "epoch": 1.872952040512362,
      "grad_norm": 6.303688049316406,
      "learning_rate": 4.682007745010426e-05,
      "loss": 0.821,
      "num_input_tokens_seen": 7302864,
      "step": 12575
    },
    {
      "epoch": 1.8736967530533213,
      "grad_norm": 5.975924968719482,
      "learning_rate": 4.683869526362824e-05,
      "loss": 0.7337,
      "num_input_tokens_seen": 7305904,
      "step": 12580
    },
    {
      "epoch": 1.8744414655942805,
      "grad_norm": 3.8161349296569824,
      "learning_rate": 4.685731307715222e-05,
      "loss": 0.4761,
      "num_input_tokens_seen": 7308880,
      "step": 12585
    },
    {
      "epoch": 1.8751861781352397,
      "grad_norm": 4.734649181365967,
      "learning_rate": 4.68759308906762e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 7311472,
      "step": 12590
    },
    {
      "epoch": 1.875930890676199,
      "grad_norm": 13.552545547485352,
      "learning_rate": 4.689454870420018e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 7314288,
      "step": 12595
    },
    {
      "epoch": 1.876675603217158,
      "grad_norm": 11.378068923950195,
      "learning_rate": 4.691316651772416e-05,
      "loss": 0.6364,
      "num_input_tokens_seen": 7317392,
      "step": 12600
    },
    {
      "epoch": 1.8774203157581173,
      "grad_norm": 5.142022132873535,
      "learning_rate": 4.693178433124814e-05,
      "loss": 0.864,
      "num_input_tokens_seen": 7320368,
      "step": 12605
    },
    {
      "epoch": 1.8781650282990765,
      "grad_norm": 5.44531774520874,
      "learning_rate": 4.695040214477212e-05,
      "loss": 0.6198,
      "num_input_tokens_seen": 7323120,
      "step": 12610
    },
    {
      "epoch": 1.8789097408400357,
      "grad_norm": 7.167947769165039,
      "learning_rate": 4.69690199582961e-05,
      "loss": 0.5508,
      "num_input_tokens_seen": 7326000,
      "step": 12615
    },
    {
      "epoch": 1.879654453380995,
      "grad_norm": 5.992428302764893,
      "learning_rate": 4.698763777182008e-05,
      "loss": 0.5421,
      "num_input_tokens_seen": 7328784,
      "step": 12620
    },
    {
      "epoch": 1.880399165921954,
      "grad_norm": 6.295119762420654,
      "learning_rate": 4.7006255585344064e-05,
      "loss": 0.8471,
      "num_input_tokens_seen": 7331568,
      "step": 12625
    },
    {
      "epoch": 1.8811438784629133,
      "grad_norm": 7.195689678192139,
      "learning_rate": 4.702487339886804e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 7334384,
      "step": 12630
    },
    {
      "epoch": 1.8818885910038725,
      "grad_norm": 3.314444065093994,
      "learning_rate": 4.704349121239202e-05,
      "loss": 0.6655,
      "num_input_tokens_seen": 7337872,
      "step": 12635
    },
    {
      "epoch": 1.8826333035448317,
      "grad_norm": 4.19277286529541,
      "learning_rate": 4.7062109025916e-05,
      "loss": 0.9517,
      "num_input_tokens_seen": 7340656,
      "step": 12640
    },
    {
      "epoch": 1.883378016085791,
      "grad_norm": 6.1630940437316895,
      "learning_rate": 4.708072683943998e-05,
      "loss": 0.5839,
      "num_input_tokens_seen": 7343440,
      "step": 12645
    },
    {
      "epoch": 1.8841227286267501,
      "grad_norm": 2.9764039516448975,
      "learning_rate": 4.7099344652963955e-05,
      "loss": 0.6516,
      "num_input_tokens_seen": 7346416,
      "step": 12650
    },
    {
      "epoch": 1.8848674411677093,
      "grad_norm": 3.235497236251831,
      "learning_rate": 4.7117962466487934e-05,
      "loss": 0.6864,
      "num_input_tokens_seen": 7349136,
      "step": 12655
    },
    {
      "epoch": 1.8856121537086685,
      "grad_norm": 5.793682098388672,
      "learning_rate": 4.713658028001192e-05,
      "loss": 0.6468,
      "num_input_tokens_seen": 7351984,
      "step": 12660
    },
    {
      "epoch": 1.8863568662496277,
      "grad_norm": 6.390041351318359,
      "learning_rate": 4.71551980935359e-05,
      "loss": 0.7732,
      "num_input_tokens_seen": 7355088,
      "step": 12665
    },
    {
      "epoch": 1.887101578790587,
      "grad_norm": 9.145276069641113,
      "learning_rate": 4.7173815907059875e-05,
      "loss": 0.8964,
      "num_input_tokens_seen": 7358000,
      "step": 12670
    },
    {
      "epoch": 1.8878462913315461,
      "grad_norm": 6.383190631866455,
      "learning_rate": 4.719243372058385e-05,
      "loss": 0.7521,
      "num_input_tokens_seen": 7360656,
      "step": 12675
    },
    {
      "epoch": 1.8885910038725053,
      "grad_norm": 3.302269220352173,
      "learning_rate": 4.721105153410784e-05,
      "loss": 0.7352,
      "num_input_tokens_seen": 7363440,
      "step": 12680
    },
    {
      "epoch": 1.8893357164134645,
      "grad_norm": 3.5406317710876465,
      "learning_rate": 4.7229669347631816e-05,
      "loss": 0.5841,
      "num_input_tokens_seen": 7366512,
      "step": 12685
    },
    {
      "epoch": 1.8900804289544237,
      "grad_norm": 1.8264621496200562,
      "learning_rate": 4.7248287161155795e-05,
      "loss": 0.7644,
      "num_input_tokens_seen": 7369072,
      "step": 12690
    },
    {
      "epoch": 1.890825141495383,
      "grad_norm": 2.5677902698516846,
      "learning_rate": 4.726690497467978e-05,
      "loss": 0.575,
      "num_input_tokens_seen": 7371856,
      "step": 12695
    },
    {
      "epoch": 1.891569854036342,
      "grad_norm": 5.1737961769104,
      "learning_rate": 4.728552278820376e-05,
      "loss": 0.5744,
      "num_input_tokens_seen": 7374768,
      "step": 12700
    },
    {
      "epoch": 1.8923145665773011,
      "grad_norm": 2.8205208778381348,
      "learning_rate": 4.7304140601727736e-05,
      "loss": 0.4639,
      "num_input_tokens_seen": 7377456,
      "step": 12705
    },
    {
      "epoch": 1.8930592791182603,
      "grad_norm": 4.473176956176758,
      "learning_rate": 4.7322758415251714e-05,
      "loss": 0.7158,
      "num_input_tokens_seen": 7380528,
      "step": 12710
    },
    {
      "epoch": 1.8938039916592195,
      "grad_norm": 8.46728229522705,
      "learning_rate": 4.73413762287757e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 7383280,
      "step": 12715
    },
    {
      "epoch": 1.8945487042001787,
      "grad_norm": 7.299935340881348,
      "learning_rate": 4.735999404229968e-05,
      "loss": 0.8174,
      "num_input_tokens_seen": 7386128,
      "step": 12720
    },
    {
      "epoch": 1.895293416741138,
      "grad_norm": 3.686614751815796,
      "learning_rate": 4.7378611855823656e-05,
      "loss": 0.5802,
      "num_input_tokens_seen": 7389264,
      "step": 12725
    },
    {
      "epoch": 1.8960381292820971,
      "grad_norm": 8.763166427612305,
      "learning_rate": 4.7397229669347634e-05,
      "loss": 0.685,
      "num_input_tokens_seen": 7391952,
      "step": 12730
    },
    {
      "epoch": 1.8967828418230563,
      "grad_norm": 3.4914870262145996,
      "learning_rate": 4.741584748287161e-05,
      "loss": 0.7026,
      "num_input_tokens_seen": 7395024,
      "step": 12735
    },
    {
      "epoch": 1.8975275543640155,
      "grad_norm": 5.440298557281494,
      "learning_rate": 4.743446529639559e-05,
      "loss": 0.6711,
      "num_input_tokens_seen": 7397616,
      "step": 12740
    },
    {
      "epoch": 1.8982722669049745,
      "grad_norm": 3.0878915786743164,
      "learning_rate": 4.745308310991957e-05,
      "loss": 0.4322,
      "num_input_tokens_seen": 7400624,
      "step": 12745
    },
    {
      "epoch": 1.8990169794459337,
      "grad_norm": 4.901490211486816,
      "learning_rate": 4.7471700923443554e-05,
      "loss": 0.5293,
      "num_input_tokens_seen": 7403344,
      "step": 12750
    },
    {
      "epoch": 1.899761691986893,
      "grad_norm": 7.777531623840332,
      "learning_rate": 4.749031873696753e-05,
      "loss": 0.6962,
      "num_input_tokens_seen": 7406064,
      "step": 12755
    },
    {
      "epoch": 1.9005064045278521,
      "grad_norm": 7.000358581542969,
      "learning_rate": 4.750893655049151e-05,
      "loss": 0.7856,
      "num_input_tokens_seen": 7409008,
      "step": 12760
    },
    {
      "epoch": 1.9012511170688113,
      "grad_norm": 6.570576190948486,
      "learning_rate": 4.752755436401549e-05,
      "loss": 0.7769,
      "num_input_tokens_seen": 7411984,
      "step": 12765
    },
    {
      "epoch": 1.9019958296097705,
      "grad_norm": 5.986055850982666,
      "learning_rate": 4.7546172177539474e-05,
      "loss": 0.6249,
      "num_input_tokens_seen": 7414736,
      "step": 12770
    },
    {
      "epoch": 1.9027405421507297,
      "grad_norm": 6.6317243576049805,
      "learning_rate": 4.756478999106345e-05,
      "loss": 0.5143,
      "num_input_tokens_seen": 7417488,
      "step": 12775
    },
    {
      "epoch": 1.903485254691689,
      "grad_norm": 4.2048516273498535,
      "learning_rate": 4.758340780458743e-05,
      "loss": 0.5926,
      "num_input_tokens_seen": 7420400,
      "step": 12780
    },
    {
      "epoch": 1.9042299672326481,
      "grad_norm": 3.0903635025024414,
      "learning_rate": 4.7602025618111415e-05,
      "loss": 0.6196,
      "num_input_tokens_seen": 7423056,
      "step": 12785
    },
    {
      "epoch": 1.9049746797736073,
      "grad_norm": 3.975471019744873,
      "learning_rate": 4.762064343163539e-05,
      "loss": 0.5928,
      "num_input_tokens_seen": 7425936,
      "step": 12790
    },
    {
      "epoch": 1.9057193923145666,
      "grad_norm": 6.444363117218018,
      "learning_rate": 4.763926124515937e-05,
      "loss": 0.6282,
      "num_input_tokens_seen": 7429008,
      "step": 12795
    },
    {
      "epoch": 1.9064641048555258,
      "grad_norm": 7.655731678009033,
      "learning_rate": 4.765787905868335e-05,
      "loss": 0.5745,
      "num_input_tokens_seen": 7431664,
      "step": 12800
    },
    {
      "epoch": 1.907208817396485,
      "grad_norm": 3.4574992656707764,
      "learning_rate": 4.7676496872207335e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 7434608,
      "step": 12805
    },
    {
      "epoch": 1.9079535299374442,
      "grad_norm": 5.213352680206299,
      "learning_rate": 4.769511468573131e-05,
      "loss": 0.6217,
      "num_input_tokens_seen": 7437680,
      "step": 12810
    },
    {
      "epoch": 1.9086982424784034,
      "grad_norm": 5.891660690307617,
      "learning_rate": 4.7713732499255284e-05,
      "loss": 0.7533,
      "num_input_tokens_seen": 7440848,
      "step": 12815
    },
    {
      "epoch": 1.9094429550193626,
      "grad_norm": 3.542508363723755,
      "learning_rate": 4.773235031277927e-05,
      "loss": 0.5433,
      "num_input_tokens_seen": 7443632,
      "step": 12820
    },
    {
      "epoch": 1.9101876675603218,
      "grad_norm": 5.2189621925354,
      "learning_rate": 4.775096812630325e-05,
      "loss": 0.6012,
      "num_input_tokens_seen": 7446608,
      "step": 12825
    },
    {
      "epoch": 1.910932380101281,
      "grad_norm": 11.128175735473633,
      "learning_rate": 4.7769585939827226e-05,
      "loss": 0.6684,
      "num_input_tokens_seen": 7449744,
      "step": 12830
    },
    {
      "epoch": 1.9116770926422402,
      "grad_norm": 5.677229881286621,
      "learning_rate": 4.7788203753351204e-05,
      "loss": 0.6359,
      "num_input_tokens_seen": 7452304,
      "step": 12835
    },
    {
      "epoch": 1.9124218051831994,
      "grad_norm": 7.286279201507568,
      "learning_rate": 4.780682156687519e-05,
      "loss": 0.5818,
      "num_input_tokens_seen": 7455088,
      "step": 12840
    },
    {
      "epoch": 1.9131665177241586,
      "grad_norm": 4.728972911834717,
      "learning_rate": 4.782543938039917e-05,
      "loss": 0.6984,
      "num_input_tokens_seen": 7457936,
      "step": 12845
    },
    {
      "epoch": 1.9139112302651178,
      "grad_norm": 5.75598669052124,
      "learning_rate": 4.7844057193923146e-05,
      "loss": 0.6914,
      "num_input_tokens_seen": 7461104,
      "step": 12850
    },
    {
      "epoch": 1.914655942806077,
      "grad_norm": 5.442032814025879,
      "learning_rate": 4.786267500744713e-05,
      "loss": 0.5591,
      "num_input_tokens_seen": 7463888,
      "step": 12855
    },
    {
      "epoch": 1.9154006553470362,
      "grad_norm": 5.329195022583008,
      "learning_rate": 4.788129282097111e-05,
      "loss": 0.4773,
      "num_input_tokens_seen": 7466832,
      "step": 12860
    },
    {
      "epoch": 1.9161453678879954,
      "grad_norm": 5.754310607910156,
      "learning_rate": 4.789991063449509e-05,
      "loss": 0.7274,
      "num_input_tokens_seen": 7469872,
      "step": 12865
    },
    {
      "epoch": 1.9168900804289544,
      "grad_norm": 3.67336106300354,
      "learning_rate": 4.7918528448019065e-05,
      "loss": 0.8052,
      "num_input_tokens_seen": 7472400,
      "step": 12870
    },
    {
      "epoch": 1.9176347929699136,
      "grad_norm": 3.223116636276245,
      "learning_rate": 4.793714626154305e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 7475280,
      "step": 12875
    },
    {
      "epoch": 1.9183795055108728,
      "grad_norm": 6.496967315673828,
      "learning_rate": 4.795576407506703e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 7478448,
      "step": 12880
    },
    {
      "epoch": 1.919124218051832,
      "grad_norm": 4.019629955291748,
      "learning_rate": 4.797438188859101e-05,
      "loss": 0.6502,
      "num_input_tokens_seen": 7481616,
      "step": 12885
    },
    {
      "epoch": 1.9198689305927912,
      "grad_norm": 4.7866926193237305,
      "learning_rate": 4.7992999702114985e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 7484336,
      "step": 12890
    },
    {
      "epoch": 1.9206136431337504,
      "grad_norm": 8.121084213256836,
      "learning_rate": 4.801161751563897e-05,
      "loss": 0.6245,
      "num_input_tokens_seen": 7487248,
      "step": 12895
    },
    {
      "epoch": 1.9213583556747096,
      "grad_norm": 2.571427583694458,
      "learning_rate": 4.803023532916295e-05,
      "loss": 0.5589,
      "num_input_tokens_seen": 7490096,
      "step": 12900
    },
    {
      "epoch": 1.9221030682156688,
      "grad_norm": 7.354588031768799,
      "learning_rate": 4.804885314268692e-05,
      "loss": 0.5612,
      "num_input_tokens_seen": 7493200,
      "step": 12905
    },
    {
      "epoch": 1.922847780756628,
      "grad_norm": 10.280787467956543,
      "learning_rate": 4.8067470956210905e-05,
      "loss": 0.82,
      "num_input_tokens_seen": 7496208,
      "step": 12910
    },
    {
      "epoch": 1.923592493297587,
      "grad_norm": 4.961966514587402,
      "learning_rate": 4.808608876973488e-05,
      "loss": 0.78,
      "num_input_tokens_seen": 7499024,
      "step": 12915
    },
    {
      "epoch": 1.9243372058385462,
      "grad_norm": 4.228631973266602,
      "learning_rate": 4.810470658325886e-05,
      "loss": 0.5836,
      "num_input_tokens_seen": 7501808,
      "step": 12920
    },
    {
      "epoch": 1.9250819183795054,
      "grad_norm": 5.572614669799805,
      "learning_rate": 4.8123324396782846e-05,
      "loss": 0.6116,
      "num_input_tokens_seen": 7504720,
      "step": 12925
    },
    {
      "epoch": 1.9258266309204646,
      "grad_norm": 3.6281185150146484,
      "learning_rate": 4.8141942210306824e-05,
      "loss": 0.6433,
      "num_input_tokens_seen": 7507216,
      "step": 12930
    },
    {
      "epoch": 1.9265713434614238,
      "grad_norm": 4.7116169929504395,
      "learning_rate": 4.81605600238308e-05,
      "loss": 0.5474,
      "num_input_tokens_seen": 7510000,
      "step": 12935
    },
    {
      "epoch": 1.927316056002383,
      "grad_norm": 6.765039443969727,
      "learning_rate": 4.817917783735478e-05,
      "loss": 0.6819,
      "num_input_tokens_seen": 7513040,
      "step": 12940
    },
    {
      "epoch": 1.9280607685433422,
      "grad_norm": 4.794769763946533,
      "learning_rate": 4.8197795650878766e-05,
      "loss": 0.6632,
      "num_input_tokens_seen": 7515664,
      "step": 12945
    },
    {
      "epoch": 1.9288054810843014,
      "grad_norm": 4.403292655944824,
      "learning_rate": 4.8216413464402744e-05,
      "loss": 0.7087,
      "num_input_tokens_seen": 7518800,
      "step": 12950
    },
    {
      "epoch": 1.9295501936252606,
      "grad_norm": 4.184394836425781,
      "learning_rate": 4.823503127792672e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 7521552,
      "step": 12955
    },
    {
      "epoch": 1.9302949061662198,
      "grad_norm": 3.301274299621582,
      "learning_rate": 4.82536490914507e-05,
      "loss": 0.5852,
      "num_input_tokens_seen": 7524240,
      "step": 12960
    },
    {
      "epoch": 1.931039618707179,
      "grad_norm": 3.9158544540405273,
      "learning_rate": 4.8272266904974686e-05,
      "loss": 0.5718,
      "num_input_tokens_seen": 7527056,
      "step": 12965
    },
    {
      "epoch": 1.9317843312481382,
      "grad_norm": 5.527446269989014,
      "learning_rate": 4.8290884718498664e-05,
      "loss": 0.6502,
      "num_input_tokens_seen": 7529744,
      "step": 12970
    },
    {
      "epoch": 1.9325290437890974,
      "grad_norm": 3.938624620437622,
      "learning_rate": 4.830950253202264e-05,
      "loss": 0.7226,
      "num_input_tokens_seen": 7532848,
      "step": 12975
    },
    {
      "epoch": 1.9332737563300566,
      "grad_norm": 2.734748363494873,
      "learning_rate": 4.832812034554662e-05,
      "loss": 0.7628,
      "num_input_tokens_seen": 7535600,
      "step": 12980
    },
    {
      "epoch": 1.9340184688710158,
      "grad_norm": 3.5923781394958496,
      "learning_rate": 4.8346738159070605e-05,
      "loss": 0.4717,
      "num_input_tokens_seen": 7538640,
      "step": 12985
    },
    {
      "epoch": 1.934763181411975,
      "grad_norm": 4.93988037109375,
      "learning_rate": 4.836535597259458e-05,
      "loss": 0.5964,
      "num_input_tokens_seen": 7541360,
      "step": 12990
    },
    {
      "epoch": 1.9355078939529342,
      "grad_norm": 6.465025901794434,
      "learning_rate": 4.8383973786118555e-05,
      "loss": 0.741,
      "num_input_tokens_seen": 7544240,
      "step": 12995
    },
    {
      "epoch": 1.9362526064938934,
      "grad_norm": 7.180584907531738,
      "learning_rate": 4.840259159964254e-05,
      "loss": 0.6865,
      "num_input_tokens_seen": 7547056,
      "step": 13000
    },
    {
      "epoch": 1.9369973190348526,
      "grad_norm": 2.8333489894866943,
      "learning_rate": 4.842120941316652e-05,
      "loss": 0.5824,
      "num_input_tokens_seen": 7549936,
      "step": 13005
    },
    {
      "epoch": 1.9377420315758118,
      "grad_norm": 5.800988674163818,
      "learning_rate": 4.8439827226690496e-05,
      "loss": 0.5015,
      "num_input_tokens_seen": 7552912,
      "step": 13010
    },
    {
      "epoch": 1.938486744116771,
      "grad_norm": 3.9904396533966064,
      "learning_rate": 4.845844504021448e-05,
      "loss": 0.6678,
      "num_input_tokens_seen": 7555952,
      "step": 13015
    },
    {
      "epoch": 1.9392314566577302,
      "grad_norm": 6.123791217803955,
      "learning_rate": 4.847706285373846e-05,
      "loss": 0.6301,
      "num_input_tokens_seen": 7558832,
      "step": 13020
    },
    {
      "epoch": 1.9399761691986894,
      "grad_norm": 3.916491746902466,
      "learning_rate": 4.849568066726244e-05,
      "loss": 0.7447,
      "num_input_tokens_seen": 7561456,
      "step": 13025
    },
    {
      "epoch": 1.9407208817396486,
      "grad_norm": 2.4333302974700928,
      "learning_rate": 4.8514298480786416e-05,
      "loss": 0.6672,
      "num_input_tokens_seen": 7564112,
      "step": 13030
    },
    {
      "epoch": 1.9414655942806078,
      "grad_norm": 6.785693168640137,
      "learning_rate": 4.85329162943104e-05,
      "loss": 0.6147,
      "num_input_tokens_seen": 7566928,
      "step": 13035
    },
    {
      "epoch": 1.942210306821567,
      "grad_norm": 3.6326417922973633,
      "learning_rate": 4.855153410783438e-05,
      "loss": 0.7487,
      "num_input_tokens_seen": 7570192,
      "step": 13040
    },
    {
      "epoch": 1.942955019362526,
      "grad_norm": 3.535165786743164,
      "learning_rate": 4.857015192135836e-05,
      "loss": 0.5708,
      "num_input_tokens_seen": 7573072,
      "step": 13045
    },
    {
      "epoch": 1.9436997319034852,
      "grad_norm": 15.095500946044922,
      "learning_rate": 4.8588769734882336e-05,
      "loss": 0.7596,
      "num_input_tokens_seen": 7576272,
      "step": 13050
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 8.508149147033691,
      "learning_rate": 4.860738754840632e-05,
      "loss": 0.8709,
      "num_input_tokens_seen": 7579376,
      "step": 13055
    },
    {
      "epoch": 1.9451891569854036,
      "grad_norm": 3.1967644691467285,
      "learning_rate": 4.86260053619303e-05,
      "loss": 0.5255,
      "num_input_tokens_seen": 7582512,
      "step": 13060
    },
    {
      "epoch": 1.9459338695263628,
      "grad_norm": 3.5212295055389404,
      "learning_rate": 4.864462317545428e-05,
      "loss": 0.5108,
      "num_input_tokens_seen": 7585104,
      "step": 13065
    },
    {
      "epoch": 1.946678582067322,
      "grad_norm": 7.756559371948242,
      "learning_rate": 4.866324098897826e-05,
      "loss": 0.7734,
      "num_input_tokens_seen": 7587888,
      "step": 13070
    },
    {
      "epoch": 1.9474232946082812,
      "grad_norm": 4.817250728607178,
      "learning_rate": 4.8681858802502234e-05,
      "loss": 0.6563,
      "num_input_tokens_seen": 7590608,
      "step": 13075
    },
    {
      "epoch": 1.9481680071492404,
      "grad_norm": 6.075811386108398,
      "learning_rate": 4.870047661602621e-05,
      "loss": 0.547,
      "num_input_tokens_seen": 7593552,
      "step": 13080
    },
    {
      "epoch": 1.9489127196901996,
      "grad_norm": 7.83961296081543,
      "learning_rate": 4.87190944295502e-05,
      "loss": 0.6653,
      "num_input_tokens_seen": 7596144,
      "step": 13085
    },
    {
      "epoch": 1.9496574322311586,
      "grad_norm": 3.6737053394317627,
      "learning_rate": 4.8737712243074175e-05,
      "loss": 0.6407,
      "num_input_tokens_seen": 7599600,
      "step": 13090
    },
    {
      "epoch": 1.9504021447721178,
      "grad_norm": 3.8782551288604736,
      "learning_rate": 4.8756330056598153e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 7602704,
      "step": 13095
    },
    {
      "epoch": 1.951146857313077,
      "grad_norm": 4.223367691040039,
      "learning_rate": 4.877494787012213e-05,
      "loss": 0.4925,
      "num_input_tokens_seen": 7605808,
      "step": 13100
    },
    {
      "epoch": 1.9518915698540362,
      "grad_norm": 4.420717239379883,
      "learning_rate": 4.879356568364612e-05,
      "loss": 0.6251,
      "num_input_tokens_seen": 7608720,
      "step": 13105
    },
    {
      "epoch": 1.9526362823949954,
      "grad_norm": 12.278519630432129,
      "learning_rate": 4.8812183497170095e-05,
      "loss": 0.7306,
      "num_input_tokens_seen": 7611760,
      "step": 13110
    },
    {
      "epoch": 1.9533809949359546,
      "grad_norm": 5.634176254272461,
      "learning_rate": 4.883080131069407e-05,
      "loss": 0.6939,
      "num_input_tokens_seen": 7614672,
      "step": 13115
    },
    {
      "epoch": 1.9541257074769138,
      "grad_norm": 4.179139137268066,
      "learning_rate": 4.884941912421805e-05,
      "loss": 0.6133,
      "num_input_tokens_seen": 7617648,
      "step": 13120
    },
    {
      "epoch": 1.954870420017873,
      "grad_norm": 6.627964496612549,
      "learning_rate": 4.8868036937742036e-05,
      "loss": 0.8342,
      "num_input_tokens_seen": 7620496,
      "step": 13125
    },
    {
      "epoch": 1.9556151325588322,
      "grad_norm": 9.035704612731934,
      "learning_rate": 4.8886654751266015e-05,
      "loss": 0.7084,
      "num_input_tokens_seen": 7623408,
      "step": 13130
    },
    {
      "epoch": 1.9563598450997914,
      "grad_norm": 5.537559509277344,
      "learning_rate": 4.890527256478999e-05,
      "loss": 0.7256,
      "num_input_tokens_seen": 7626256,
      "step": 13135
    },
    {
      "epoch": 1.9571045576407506,
      "grad_norm": 3.0351712703704834,
      "learning_rate": 4.892389037831398e-05,
      "loss": 0.6515,
      "num_input_tokens_seen": 7629136,
      "step": 13140
    },
    {
      "epoch": 1.9578492701817098,
      "grad_norm": 3.6480724811553955,
      "learning_rate": 4.8942508191837956e-05,
      "loss": 0.5616,
      "num_input_tokens_seen": 7631920,
      "step": 13145
    },
    {
      "epoch": 1.958593982722669,
      "grad_norm": 4.120198726654053,
      "learning_rate": 4.8961126005361934e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 7635184,
      "step": 13150
    },
    {
      "epoch": 1.9593386952636282,
      "grad_norm": 4.905094623565674,
      "learning_rate": 4.897974381888591e-05,
      "loss": 0.6712,
      "num_input_tokens_seen": 7638224,
      "step": 13155
    },
    {
      "epoch": 1.9600834078045875,
      "grad_norm": 5.585944652557373,
      "learning_rate": 4.89983616324099e-05,
      "loss": 0.4545,
      "num_input_tokens_seen": 7641040,
      "step": 13160
    },
    {
      "epoch": 1.9608281203455467,
      "grad_norm": 6.783759117126465,
      "learning_rate": 4.901697944593387e-05,
      "loss": 0.4654,
      "num_input_tokens_seen": 7643888,
      "step": 13165
    },
    {
      "epoch": 1.9615728328865059,
      "grad_norm": 2.8553245067596436,
      "learning_rate": 4.903559725945785e-05,
      "loss": 0.8211,
      "num_input_tokens_seen": 7646576,
      "step": 13170
    },
    {
      "epoch": 1.962317545427465,
      "grad_norm": 10.884623527526855,
      "learning_rate": 4.905421507298183e-05,
      "loss": 0.7431,
      "num_input_tokens_seen": 7649392,
      "step": 13175
    },
    {
      "epoch": 1.9630622579684243,
      "grad_norm": 5.205915927886963,
      "learning_rate": 4.907283288650581e-05,
      "loss": 0.6983,
      "num_input_tokens_seen": 7652144,
      "step": 13180
    },
    {
      "epoch": 1.9638069705093835,
      "grad_norm": 4.060675144195557,
      "learning_rate": 4.909145070002979e-05,
      "loss": 0.5762,
      "num_input_tokens_seen": 7654800,
      "step": 13185
    },
    {
      "epoch": 1.9645516830503427,
      "grad_norm": 4.278374671936035,
      "learning_rate": 4.911006851355377e-05,
      "loss": 0.7354,
      "num_input_tokens_seen": 7657456,
      "step": 13190
    },
    {
      "epoch": 1.9652963955913019,
      "grad_norm": 8.334388732910156,
      "learning_rate": 4.912868632707775e-05,
      "loss": 0.6704,
      "num_input_tokens_seen": 7660816,
      "step": 13195
    },
    {
      "epoch": 1.966041108132261,
      "grad_norm": 2.981036424636841,
      "learning_rate": 4.914730414060173e-05,
      "loss": 0.5798,
      "num_input_tokens_seen": 7663760,
      "step": 13200
    },
    {
      "epoch": 1.9667858206732203,
      "grad_norm": 3.883517265319824,
      "learning_rate": 4.916592195412571e-05,
      "loss": 0.6562,
      "num_input_tokens_seen": 7666704,
      "step": 13205
    },
    {
      "epoch": 1.9675305332141795,
      "grad_norm": 3.4646475315093994,
      "learning_rate": 4.918453976764969e-05,
      "loss": 0.5768,
      "num_input_tokens_seen": 7669840,
      "step": 13210
    },
    {
      "epoch": 1.9682752457551387,
      "grad_norm": 4.466014862060547,
      "learning_rate": 4.920315758117367e-05,
      "loss": 0.6052,
      "num_input_tokens_seen": 7672688,
      "step": 13215
    },
    {
      "epoch": 1.9690199582960977,
      "grad_norm": 5.59370756149292,
      "learning_rate": 4.922177539469765e-05,
      "loss": 0.5615,
      "num_input_tokens_seen": 7675568,
      "step": 13220
    },
    {
      "epoch": 1.9697646708370569,
      "grad_norm": 8.089789390563965,
      "learning_rate": 4.924039320822163e-05,
      "loss": 0.5119,
      "num_input_tokens_seen": 7678576,
      "step": 13225
    },
    {
      "epoch": 1.970509383378016,
      "grad_norm": 10.927756309509277,
      "learning_rate": 4.925901102174561e-05,
      "loss": 0.5679,
      "num_input_tokens_seen": 7681200,
      "step": 13230
    },
    {
      "epoch": 1.9712540959189753,
      "grad_norm": 6.842087745666504,
      "learning_rate": 4.927762883526959e-05,
      "loss": 0.7931,
      "num_input_tokens_seen": 7683984,
      "step": 13235
    },
    {
      "epoch": 1.9719988084599345,
      "grad_norm": 9.203083038330078,
      "learning_rate": 4.929624664879357e-05,
      "loss": 0.4917,
      "num_input_tokens_seen": 7686672,
      "step": 13240
    },
    {
      "epoch": 1.9727435210008937,
      "grad_norm": 3.641469955444336,
      "learning_rate": 4.931486446231755e-05,
      "loss": 0.7308,
      "num_input_tokens_seen": 7689744,
      "step": 13245
    },
    {
      "epoch": 1.9734882335418529,
      "grad_norm": 3.2028350830078125,
      "learning_rate": 4.9333482275841526e-05,
      "loss": 0.5274,
      "num_input_tokens_seen": 7692560,
      "step": 13250
    },
    {
      "epoch": 1.974232946082812,
      "grad_norm": 5.884035110473633,
      "learning_rate": 4.9352100089365504e-05,
      "loss": 0.5802,
      "num_input_tokens_seen": 7695184,
      "step": 13255
    },
    {
      "epoch": 1.974977658623771,
      "grad_norm": 6.320506572723389,
      "learning_rate": 4.937071790288948e-05,
      "loss": 0.7026,
      "num_input_tokens_seen": 7698384,
      "step": 13260
    },
    {
      "epoch": 1.9757223711647303,
      "grad_norm": 2.9452314376831055,
      "learning_rate": 4.938933571641347e-05,
      "loss": 0.6606,
      "num_input_tokens_seen": 7701200,
      "step": 13265
    },
    {
      "epoch": 1.9764670837056895,
      "grad_norm": 5.0796051025390625,
      "learning_rate": 4.9407953529937446e-05,
      "loss": 0.7007,
      "num_input_tokens_seen": 7704080,
      "step": 13270
    },
    {
      "epoch": 1.9772117962466487,
      "grad_norm": 4.1329498291015625,
      "learning_rate": 4.9426571343461424e-05,
      "loss": 0.7716,
      "num_input_tokens_seen": 7707088,
      "step": 13275
    },
    {
      "epoch": 1.9779565087876079,
      "grad_norm": 4.309398174285889,
      "learning_rate": 4.94451891569854e-05,
      "loss": 0.4813,
      "num_input_tokens_seen": 7709840,
      "step": 13280
    },
    {
      "epoch": 1.978701221328567,
      "grad_norm": 4.261471748352051,
      "learning_rate": 4.946380697050939e-05,
      "loss": 0.6031,
      "num_input_tokens_seen": 7712944,
      "step": 13285
    },
    {
      "epoch": 1.9794459338695263,
      "grad_norm": 4.644237041473389,
      "learning_rate": 4.9482424784033366e-05,
      "loss": 0.7111,
      "num_input_tokens_seen": 7715536,
      "step": 13290
    },
    {
      "epoch": 1.9801906464104855,
      "grad_norm": 5.116137981414795,
      "learning_rate": 4.9501042597557344e-05,
      "loss": 0.5061,
      "num_input_tokens_seen": 7718192,
      "step": 13295
    },
    {
      "epoch": 1.9809353589514447,
      "grad_norm": 5.624262809753418,
      "learning_rate": 4.951966041108133e-05,
      "loss": 0.6047,
      "num_input_tokens_seen": 7721232,
      "step": 13300
    },
    {
      "epoch": 1.9816800714924039,
      "grad_norm": 5.067042827606201,
      "learning_rate": 4.953827822460531e-05,
      "loss": 0.5156,
      "num_input_tokens_seen": 7724336,
      "step": 13305
    },
    {
      "epoch": 1.982424784033363,
      "grad_norm": 7.065749645233154,
      "learning_rate": 4.9556896038129285e-05,
      "loss": 0.689,
      "num_input_tokens_seen": 7727056,
      "step": 13310
    },
    {
      "epoch": 1.9831694965743223,
      "grad_norm": 7.877884387969971,
      "learning_rate": 4.9575513851653263e-05,
      "loss": 0.6922,
      "num_input_tokens_seen": 7729840,
      "step": 13315
    },
    {
      "epoch": 1.9839142091152815,
      "grad_norm": 9.05908489227295,
      "learning_rate": 4.959413166517725e-05,
      "loss": 0.4874,
      "num_input_tokens_seen": 7732560,
      "step": 13320
    },
    {
      "epoch": 1.9846589216562407,
      "grad_norm": 10.942636489868164,
      "learning_rate": 4.961274947870123e-05,
      "loss": 0.6355,
      "num_input_tokens_seen": 7735376,
      "step": 13325
    },
    {
      "epoch": 1.9854036341972,
      "grad_norm": 9.022662162780762,
      "learning_rate": 4.9631367292225205e-05,
      "loss": 0.5744,
      "num_input_tokens_seen": 7738224,
      "step": 13330
    },
    {
      "epoch": 1.986148346738159,
      "grad_norm": 7.902331829071045,
      "learning_rate": 4.964998510574918e-05,
      "loss": 0.6155,
      "num_input_tokens_seen": 7741296,
      "step": 13335
    },
    {
      "epoch": 1.9868930592791183,
      "grad_norm": 4.018329620361328,
      "learning_rate": 4.966860291927316e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 7744592,
      "step": 13340
    },
    {
      "epoch": 1.9876377718200775,
      "grad_norm": 6.3062896728515625,
      "learning_rate": 4.968722073279714e-05,
      "loss": 0.6696,
      "num_input_tokens_seen": 7747664,
      "step": 13345
    },
    {
      "epoch": 1.9883824843610367,
      "grad_norm": 5.870581150054932,
      "learning_rate": 4.970583854632112e-05,
      "loss": 0.5989,
      "num_input_tokens_seen": 7750448,
      "step": 13350
    },
    {
      "epoch": 1.989127196901996,
      "grad_norm": 4.26153039932251,
      "learning_rate": 4.97244563598451e-05,
      "loss": 0.6165,
      "num_input_tokens_seen": 7753424,
      "step": 13355
    },
    {
      "epoch": 1.9898719094429551,
      "grad_norm": 4.60116720199585,
      "learning_rate": 4.974307417336908e-05,
      "loss": 0.5916,
      "num_input_tokens_seen": 7756400,
      "step": 13360
    },
    {
      "epoch": 1.9906166219839143,
      "grad_norm": 5.105969429016113,
      "learning_rate": 4.976169198689306e-05,
      "loss": 0.7087,
      "num_input_tokens_seen": 7759248,
      "step": 13365
    },
    {
      "epoch": 1.9913613345248735,
      "grad_norm": 5.313179016113281,
      "learning_rate": 4.978030980041704e-05,
      "loss": 0.6416,
      "num_input_tokens_seen": 7762224,
      "step": 13370
    },
    {
      "epoch": 1.9921060470658327,
      "grad_norm": 4.286059379577637,
      "learning_rate": 4.979892761394102e-05,
      "loss": 0.526,
      "num_input_tokens_seen": 7765200,
      "step": 13375
    },
    {
      "epoch": 1.992850759606792,
      "grad_norm": 7.257487773895264,
      "learning_rate": 4.9817545427465e-05,
      "loss": 0.5346,
      "num_input_tokens_seen": 7768304,
      "step": 13380
    },
    {
      "epoch": 1.9935954721477511,
      "grad_norm": 5.828198432922363,
      "learning_rate": 4.983616324098898e-05,
      "loss": 0.6651,
      "num_input_tokens_seen": 7771184,
      "step": 13385
    },
    {
      "epoch": 1.99434018468871,
      "grad_norm": 5.186532974243164,
      "learning_rate": 4.9854781054512964e-05,
      "loss": 0.4944,
      "num_input_tokens_seen": 7774000,
      "step": 13390
    },
    {
      "epoch": 1.9950848972296693,
      "grad_norm": 7.46665620803833,
      "learning_rate": 4.987339886803694e-05,
      "loss": 0.6725,
      "num_input_tokens_seen": 7777008,
      "step": 13395
    },
    {
      "epoch": 1.9958296097706285,
      "grad_norm": 6.6962361335754395,
      "learning_rate": 4.989201668156092e-05,
      "loss": 0.6758,
      "num_input_tokens_seen": 7780080,
      "step": 13400
    },
    {
      "epoch": 1.9965743223115877,
      "grad_norm": 9.847099304199219,
      "learning_rate": 4.99106344950849e-05,
      "loss": 0.7394,
      "num_input_tokens_seen": 7783056,
      "step": 13405
    },
    {
      "epoch": 1.997319034852547,
      "grad_norm": 3.138808250427246,
      "learning_rate": 4.9929252308608884e-05,
      "loss": 0.6583,
      "num_input_tokens_seen": 7785872,
      "step": 13410
    },
    {
      "epoch": 1.9980637473935061,
      "grad_norm": 3.7220468521118164,
      "learning_rate": 4.994787012213286e-05,
      "loss": 0.6693,
      "num_input_tokens_seen": 7788848,
      "step": 13415
    },
    {
      "epoch": 1.9988084599344653,
      "grad_norm": 9.3099365234375,
      "learning_rate": 4.996648793565684e-05,
      "loss": 0.6893,
      "num_input_tokens_seen": 7792272,
      "step": 13420
    },
    {
      "epoch": 1.9995531724754245,
      "grad_norm": 5.116647243499756,
      "learning_rate": 4.998510574918082e-05,
      "loss": 0.6364,
      "num_input_tokens_seen": 7795280,
      "step": 13425
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.6400110721588135,
      "eval_runtime": 49.1726,
      "eval_samples_per_second": 60.684,
      "eval_steps_per_second": 15.171,
      "num_input_tokens_seen": 7796616,
      "step": 13428
    },
    {
      "epoch": 2.0002978850163835,
      "grad_norm": 4.940647602081299,
      "learning_rate": 4.999999999155301e-05,
      "loss": 0.5248,
      "num_input_tokens_seen": 7797704,
      "step": 13430
    },
    {
      "epoch": 2.0010425975573427,
      "grad_norm": 6.183917999267578,
      "learning_rate": 4.9999999695908296e-05,
      "loss": 0.4932,
      "num_input_tokens_seen": 7800264,
      "step": 13435
    },
    {
      "epoch": 2.001787310098302,
      "grad_norm": 7.072678089141846,
      "learning_rate": 4.9999998977913995e-05,
      "loss": 0.4764,
      "num_input_tokens_seen": 7803080,
      "step": 13440
    },
    {
      "epoch": 2.002532022639261,
      "grad_norm": 4.259335994720459,
      "learning_rate": 4.999999783757012e-05,
      "loss": 0.5558,
      "num_input_tokens_seen": 7805768,
      "step": 13445
    },
    {
      "epoch": 2.0032767351802203,
      "grad_norm": 5.198948860168457,
      "learning_rate": 4.999999627487669e-05,
      "loss": 0.4282,
      "num_input_tokens_seen": 7808424,
      "step": 13450
    },
    {
      "epoch": 2.0040214477211795,
      "grad_norm": 4.320239067077637,
      "learning_rate": 4.999999428983374e-05,
      "loss": 0.8102,
      "num_input_tokens_seen": 7811144,
      "step": 13455
    },
    {
      "epoch": 2.0047661602621387,
      "grad_norm": 4.065017223358154,
      "learning_rate": 4.999999188244129e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 7813992,
      "step": 13460
    },
    {
      "epoch": 2.005510872803098,
      "grad_norm": 4.097270965576172,
      "learning_rate": 4.999998905269938e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 7816904,
      "step": 13465
    },
    {
      "epoch": 2.006255585344057,
      "grad_norm": 6.841333389282227,
      "learning_rate": 4.9999985800608076e-05,
      "loss": 0.6385,
      "num_input_tokens_seen": 7819912,
      "step": 13470
    },
    {
      "epoch": 2.0070002978850163,
      "grad_norm": 6.859801769256592,
      "learning_rate": 4.9999982126167414e-05,
      "loss": 0.4948,
      "num_input_tokens_seen": 7822504,
      "step": 13475
    },
    {
      "epoch": 2.0077450104259755,
      "grad_norm": 6.5521039962768555,
      "learning_rate": 4.9999978029377456e-05,
      "loss": 0.5412,
      "num_input_tokens_seen": 7825480,
      "step": 13480
    },
    {
      "epoch": 2.0084897229669347,
      "grad_norm": 9.938323020935059,
      "learning_rate": 4.9999973510238284e-05,
      "loss": 0.7188,
      "num_input_tokens_seen": 7828456,
      "step": 13485
    },
    {
      "epoch": 2.009234435507894,
      "grad_norm": 4.515039443969727,
      "learning_rate": 4.999996856874997e-05,
      "loss": 0.3913,
      "num_input_tokens_seen": 7831272,
      "step": 13490
    },
    {
      "epoch": 2.009979148048853,
      "grad_norm": 12.981618881225586,
      "learning_rate": 4.99999632049126e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 7834024,
      "step": 13495
    },
    {
      "epoch": 2.0107238605898123,
      "grad_norm": 5.933149337768555,
      "learning_rate": 4.999995741872625e-05,
      "loss": 0.408,
      "num_input_tokens_seen": 7836904,
      "step": 13500
    },
    {
      "epoch": 2.0114685731307715,
      "grad_norm": 5.262482643127441,
      "learning_rate": 4.999995121019103e-05,
      "loss": 0.6503,
      "num_input_tokens_seen": 7840104,
      "step": 13505
    },
    {
      "epoch": 2.0122132856717307,
      "grad_norm": 7.549306392669678,
      "learning_rate": 4.999994457930705e-05,
      "loss": 0.7057,
      "num_input_tokens_seen": 7843016,
      "step": 13510
    },
    {
      "epoch": 2.01295799821269,
      "grad_norm": 16.243589401245117,
      "learning_rate": 4.999993752607441e-05,
      "loss": 0.4275,
      "num_input_tokens_seen": 7845832,
      "step": 13515
    },
    {
      "epoch": 2.013702710753649,
      "grad_norm": 10.93038558959961,
      "learning_rate": 4.999993005049324e-05,
      "loss": 0.6494,
      "num_input_tokens_seen": 7848840,
      "step": 13520
    },
    {
      "epoch": 2.0144474232946084,
      "grad_norm": 5.754338264465332,
      "learning_rate": 4.999992215256365e-05,
      "loss": 0.3483,
      "num_input_tokens_seen": 7851624,
      "step": 13525
    },
    {
      "epoch": 2.0151921358355676,
      "grad_norm": 5.103790283203125,
      "learning_rate": 4.9999913832285796e-05,
      "loss": 0.6153,
      "num_input_tokens_seen": 7854632,
      "step": 13530
    },
    {
      "epoch": 2.0159368483765268,
      "grad_norm": 3.762983798980713,
      "learning_rate": 4.99999050896598e-05,
      "loss": 0.6755,
      "num_input_tokens_seen": 7857608,
      "step": 13535
    },
    {
      "epoch": 2.016681560917486,
      "grad_norm": 5.8765058517456055,
      "learning_rate": 4.999989592468582e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 7860392,
      "step": 13540
    },
    {
      "epoch": 2.017426273458445,
      "grad_norm": 5.400338172912598,
      "learning_rate": 4.9999886337364004e-05,
      "loss": 0.5132,
      "num_input_tokens_seen": 7863432,
      "step": 13545
    },
    {
      "epoch": 2.0181709859994044,
      "grad_norm": 5.980248928070068,
      "learning_rate": 4.999987632769452e-05,
      "loss": 0.5793,
      "num_input_tokens_seen": 7866280,
      "step": 13550
    },
    {
      "epoch": 2.0189156985403636,
      "grad_norm": 3.2516252994537354,
      "learning_rate": 4.9999865895677534e-05,
      "loss": 0.3526,
      "num_input_tokens_seen": 7868936,
      "step": 13555
    },
    {
      "epoch": 2.0196604110813228,
      "grad_norm": 10.628983497619629,
      "learning_rate": 4.999985504131322e-05,
      "loss": 0.5254,
      "num_input_tokens_seen": 7871624,
      "step": 13560
    },
    {
      "epoch": 2.020405123622282,
      "grad_norm": 7.453330039978027,
      "learning_rate": 4.999984376460176e-05,
      "loss": 0.8773,
      "num_input_tokens_seen": 7874344,
      "step": 13565
    },
    {
      "epoch": 2.021149836163241,
      "grad_norm": 4.7929487228393555,
      "learning_rate": 4.999983206554335e-05,
      "loss": 0.5994,
      "num_input_tokens_seen": 7877064,
      "step": 13570
    },
    {
      "epoch": 2.0218945487042004,
      "grad_norm": 8.665371894836426,
      "learning_rate": 4.9999819944138194e-05,
      "loss": 0.6834,
      "num_input_tokens_seen": 7879944,
      "step": 13575
    },
    {
      "epoch": 2.0226392612451596,
      "grad_norm": 2.73482084274292,
      "learning_rate": 4.999980740038648e-05,
      "loss": 0.7351,
      "num_input_tokens_seen": 7883080,
      "step": 13580
    },
    {
      "epoch": 2.0233839737861183,
      "grad_norm": 9.338541030883789,
      "learning_rate": 4.9999794434288434e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 7885928,
      "step": 13585
    },
    {
      "epoch": 2.0241286863270775,
      "grad_norm": 3.9912030696868896,
      "learning_rate": 4.9999781045844266e-05,
      "loss": 0.5779,
      "num_input_tokens_seen": 7888808,
      "step": 13590
    },
    {
      "epoch": 2.0248733988680367,
      "grad_norm": 4.818613529205322,
      "learning_rate": 4.999976723505421e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 7891528,
      "step": 13595
    },
    {
      "epoch": 2.025618111408996,
      "grad_norm": 9.573747634887695,
      "learning_rate": 4.999975300191849e-05,
      "loss": 0.5431,
      "num_input_tokens_seen": 7894280,
      "step": 13600
    },
    {
      "epoch": 2.026362823949955,
      "grad_norm": 4.364753723144531,
      "learning_rate": 4.9999738346437355e-05,
      "loss": 0.3296,
      "num_input_tokens_seen": 7897256,
      "step": 13605
    },
    {
      "epoch": 2.0271075364909144,
      "grad_norm": 10.15860652923584,
      "learning_rate": 4.9999723268611046e-05,
      "loss": 0.5657,
      "num_input_tokens_seen": 7900008,
      "step": 13610
    },
    {
      "epoch": 2.0278522490318736,
      "grad_norm": 14.921961784362793,
      "learning_rate": 4.9999707768439824e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 7902984,
      "step": 13615
    },
    {
      "epoch": 2.0285969615728328,
      "grad_norm": 7.265478134155273,
      "learning_rate": 4.999969184592395e-05,
      "loss": 0.3779,
      "num_input_tokens_seen": 7905832,
      "step": 13620
    },
    {
      "epoch": 2.029341674113792,
      "grad_norm": 6.015668869018555,
      "learning_rate": 4.999967550106368e-05,
      "loss": 0.5707,
      "num_input_tokens_seen": 7908808,
      "step": 13625
    },
    {
      "epoch": 2.030086386654751,
      "grad_norm": 7.437707424163818,
      "learning_rate": 4.999965873385931e-05,
      "loss": 0.5202,
      "num_input_tokens_seen": 7912040,
      "step": 13630
    },
    {
      "epoch": 2.0308310991957104,
      "grad_norm": 5.85977029800415,
      "learning_rate": 4.999964154431112e-05,
      "loss": 0.4663,
      "num_input_tokens_seen": 7915016,
      "step": 13635
    },
    {
      "epoch": 2.0315758117366696,
      "grad_norm": 6.7819085121154785,
      "learning_rate": 4.999962393241938e-05,
      "loss": 0.4053,
      "num_input_tokens_seen": 7918024,
      "step": 13640
    },
    {
      "epoch": 2.0323205242776288,
      "grad_norm": 10.10924243927002,
      "learning_rate": 4.999960589818441e-05,
      "loss": 0.6634,
      "num_input_tokens_seen": 7921512,
      "step": 13645
    },
    {
      "epoch": 2.033065236818588,
      "grad_norm": 4.232185363769531,
      "learning_rate": 4.999958744160651e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 7924488,
      "step": 13650
    },
    {
      "epoch": 2.033809949359547,
      "grad_norm": 13.208155632019043,
      "learning_rate": 4.9999568562685986e-05,
      "loss": 0.3939,
      "num_input_tokens_seen": 7927432,
      "step": 13655
    },
    {
      "epoch": 2.0345546619005064,
      "grad_norm": 11.701324462890625,
      "learning_rate": 4.999954926142316e-05,
      "loss": 0.6048,
      "num_input_tokens_seen": 7930792,
      "step": 13660
    },
    {
      "epoch": 2.0352993744414656,
      "grad_norm": 4.983366012573242,
      "learning_rate": 4.999952953781836e-05,
      "loss": 0.5375,
      "num_input_tokens_seen": 7933384,
      "step": 13665
    },
    {
      "epoch": 2.036044086982425,
      "grad_norm": 7.307387351989746,
      "learning_rate": 4.9999509391871905e-05,
      "loss": 0.6028,
      "num_input_tokens_seen": 7936360,
      "step": 13670
    },
    {
      "epoch": 2.036788799523384,
      "grad_norm": 5.7925028800964355,
      "learning_rate": 4.999948882358416e-05,
      "loss": 0.5038,
      "num_input_tokens_seen": 7939560,
      "step": 13675
    },
    {
      "epoch": 2.037533512064343,
      "grad_norm": 6.062636375427246,
      "learning_rate": 4.9999467832955454e-05,
      "loss": 0.5234,
      "num_input_tokens_seen": 7942376,
      "step": 13680
    },
    {
      "epoch": 2.0382782246053024,
      "grad_norm": 7.199304103851318,
      "learning_rate": 4.999944641998615e-05,
      "loss": 0.4396,
      "num_input_tokens_seen": 7945448,
      "step": 13685
    },
    {
      "epoch": 2.0390229371462616,
      "grad_norm": 4.74168062210083,
      "learning_rate": 4.99994245846766e-05,
      "loss": 0.6094,
      "num_input_tokens_seen": 7948232,
      "step": 13690
    },
    {
      "epoch": 2.039767649687221,
      "grad_norm": 3.7332582473754883,
      "learning_rate": 4.999940232702719e-05,
      "loss": 0.4109,
      "num_input_tokens_seen": 7951560,
      "step": 13695
    },
    {
      "epoch": 2.04051236222818,
      "grad_norm": 6.716434478759766,
      "learning_rate": 4.999937964703828e-05,
      "loss": 0.4179,
      "num_input_tokens_seen": 7954472,
      "step": 13700
    },
    {
      "epoch": 2.041257074769139,
      "grad_norm": 6.036475658416748,
      "learning_rate": 4.999935654471026e-05,
      "loss": 0.6668,
      "num_input_tokens_seen": 7957064,
      "step": 13705
    },
    {
      "epoch": 2.0420017873100984,
      "grad_norm": 5.609048843383789,
      "learning_rate": 4.999933302004352e-05,
      "loss": 0.4274,
      "num_input_tokens_seen": 7959720,
      "step": 13710
    },
    {
      "epoch": 2.0427464998510576,
      "grad_norm": 9.127130508422852,
      "learning_rate": 4.999930907303846e-05,
      "loss": 0.6796,
      "num_input_tokens_seen": 7962280,
      "step": 13715
    },
    {
      "epoch": 2.043491212392017,
      "grad_norm": 6.954188823699951,
      "learning_rate": 4.9999284703695474e-05,
      "loss": 0.7006,
      "num_input_tokens_seen": 7965512,
      "step": 13720
    },
    {
      "epoch": 2.044235924932976,
      "grad_norm": 11.218246459960938,
      "learning_rate": 4.9999259912014986e-05,
      "loss": 0.5245,
      "num_input_tokens_seen": 7968424,
      "step": 13725
    },
    {
      "epoch": 2.044980637473935,
      "grad_norm": 8.50581169128418,
      "learning_rate": 4.999923469799741e-05,
      "loss": 0.4139,
      "num_input_tokens_seen": 7971144,
      "step": 13730
    },
    {
      "epoch": 2.0457253500148944,
      "grad_norm": 7.9998393058776855,
      "learning_rate": 4.9999209061643174e-05,
      "loss": 0.6135,
      "num_input_tokens_seen": 7974440,
      "step": 13735
    },
    {
      "epoch": 2.0464700625558536,
      "grad_norm": 6.707798004150391,
      "learning_rate": 4.99991830029527e-05,
      "loss": 0.4509,
      "num_input_tokens_seen": 7977288,
      "step": 13740
    },
    {
      "epoch": 2.047214775096813,
      "grad_norm": 11.950923919677734,
      "learning_rate": 4.999915652192645e-05,
      "loss": 0.9034,
      "num_input_tokens_seen": 7980232,
      "step": 13745
    },
    {
      "epoch": 2.047959487637772,
      "grad_norm": 12.065587997436523,
      "learning_rate": 4.9999129618564844e-05,
      "loss": 0.4018,
      "num_input_tokens_seen": 7983336,
      "step": 13750
    },
    {
      "epoch": 2.0487042001787312,
      "grad_norm": 5.57039737701416,
      "learning_rate": 4.999910229286836e-05,
      "loss": 0.6543,
      "num_input_tokens_seen": 7986344,
      "step": 13755
    },
    {
      "epoch": 2.04944891271969,
      "grad_norm": 4.56239128112793,
      "learning_rate": 4.999907454483745e-05,
      "loss": 0.5105,
      "num_input_tokens_seen": 7989000,
      "step": 13760
    },
    {
      "epoch": 2.050193625260649,
      "grad_norm": 5.747657775878906,
      "learning_rate": 4.999904637447258e-05,
      "loss": 0.5878,
      "num_input_tokens_seen": 7991976,
      "step": 13765
    },
    {
      "epoch": 2.0509383378016084,
      "grad_norm": 7.4232177734375,
      "learning_rate": 4.9999017781774236e-05,
      "loss": 0.5236,
      "num_input_tokens_seen": 7994696,
      "step": 13770
    },
    {
      "epoch": 2.0516830503425676,
      "grad_norm": 3.090627431869507,
      "learning_rate": 4.999898876674289e-05,
      "loss": 0.4346,
      "num_input_tokens_seen": 7997608,
      "step": 13775
    },
    {
      "epoch": 2.052427762883527,
      "grad_norm": 6.394764423370361,
      "learning_rate": 4.9998959329379036e-05,
      "loss": 0.5639,
      "num_input_tokens_seen": 8000840,
      "step": 13780
    },
    {
      "epoch": 2.053172475424486,
      "grad_norm": 5.372195243835449,
      "learning_rate": 4.999892946968318e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 8003688,
      "step": 13785
    },
    {
      "epoch": 2.053917187965445,
      "grad_norm": 4.153975009918213,
      "learning_rate": 4.999889918765581e-05,
      "loss": 0.2229,
      "num_input_tokens_seen": 8006920,
      "step": 13790
    },
    {
      "epoch": 2.0546619005064044,
      "grad_norm": 12.6155424118042,
      "learning_rate": 4.999886848329744e-05,
      "loss": 0.5103,
      "num_input_tokens_seen": 8009928,
      "step": 13795
    },
    {
      "epoch": 2.0554066130473636,
      "grad_norm": 10.996525764465332,
      "learning_rate": 4.999883735660861e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 8012776,
      "step": 13800
    },
    {
      "epoch": 2.056151325588323,
      "grad_norm": 11.2341890335083,
      "learning_rate": 4.999880580758982e-05,
      "loss": 0.5966,
      "num_input_tokens_seen": 8015560,
      "step": 13805
    },
    {
      "epoch": 2.056896038129282,
      "grad_norm": 15.873997688293457,
      "learning_rate": 4.999877383624162e-05,
      "loss": 0.5592,
      "num_input_tokens_seen": 8018472,
      "step": 13810
    },
    {
      "epoch": 2.057640750670241,
      "grad_norm": 15.081986427307129,
      "learning_rate": 4.9998741442564535e-05,
      "loss": 0.3649,
      "num_input_tokens_seen": 8021352,
      "step": 13815
    },
    {
      "epoch": 2.0583854632112004,
      "grad_norm": 5.487681865692139,
      "learning_rate": 4.999870862655913e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 8024104,
      "step": 13820
    },
    {
      "epoch": 2.0591301757521596,
      "grad_norm": 6.9426727294921875,
      "learning_rate": 4.999867538822595e-05,
      "loss": 0.4798,
      "num_input_tokens_seen": 8026952,
      "step": 13825
    },
    {
      "epoch": 2.059874888293119,
      "grad_norm": 8.28182315826416,
      "learning_rate": 4.999864172756554e-05,
      "loss": 0.6184,
      "num_input_tokens_seen": 8029960,
      "step": 13830
    },
    {
      "epoch": 2.060619600834078,
      "grad_norm": 2.197813034057617,
      "learning_rate": 4.9998607644578505e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 8033064,
      "step": 13835
    },
    {
      "epoch": 2.0613643133750372,
      "grad_norm": 13.754308700561523,
      "learning_rate": 4.9998573139265395e-05,
      "loss": 0.624,
      "num_input_tokens_seen": 8035816,
      "step": 13840
    },
    {
      "epoch": 2.0621090259159964,
      "grad_norm": 6.814214706420898,
      "learning_rate": 4.99985382116268e-05,
      "loss": 0.4912,
      "num_input_tokens_seen": 8039144,
      "step": 13845
    },
    {
      "epoch": 2.0628537384569556,
      "grad_norm": 4.607189655303955,
      "learning_rate": 4.999850286166331e-05,
      "loss": 0.569,
      "num_input_tokens_seen": 8042088,
      "step": 13850
    },
    {
      "epoch": 2.063598450997915,
      "grad_norm": 5.504354000091553,
      "learning_rate": 4.999846708937552e-05,
      "loss": 0.4406,
      "num_input_tokens_seen": 8044744,
      "step": 13855
    },
    {
      "epoch": 2.064343163538874,
      "grad_norm": 6.850924968719482,
      "learning_rate": 4.9998430894764034e-05,
      "loss": 0.7166,
      "num_input_tokens_seen": 8047432,
      "step": 13860
    },
    {
      "epoch": 2.0650878760798332,
      "grad_norm": 9.26366901397705,
      "learning_rate": 4.9998394277829466e-05,
      "loss": 0.4382,
      "num_input_tokens_seen": 8050152,
      "step": 13865
    },
    {
      "epoch": 2.0658325886207924,
      "grad_norm": 5.788776397705078,
      "learning_rate": 4.9998357238572435e-05,
      "loss": 0.4,
      "num_input_tokens_seen": 8053064,
      "step": 13870
    },
    {
      "epoch": 2.0665773011617516,
      "grad_norm": 2.210942268371582,
      "learning_rate": 4.9998319776993566e-05,
      "loss": 0.4524,
      "num_input_tokens_seen": 8056040,
      "step": 13875
    },
    {
      "epoch": 2.067322013702711,
      "grad_norm": 6.585726737976074,
      "learning_rate": 4.999828189309349e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 8059208,
      "step": 13880
    },
    {
      "epoch": 2.06806672624367,
      "grad_norm": 8.143445014953613,
      "learning_rate": 4.999824358687285e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 8062120,
      "step": 13885
    },
    {
      "epoch": 2.0688114387846293,
      "grad_norm": 11.765053749084473,
      "learning_rate": 4.9998204858332295e-05,
      "loss": 0.5606,
      "num_input_tokens_seen": 8065000,
      "step": 13890
    },
    {
      "epoch": 2.0695561513255885,
      "grad_norm": 3.4106476306915283,
      "learning_rate": 4.999816570747247e-05,
      "loss": 0.477,
      "num_input_tokens_seen": 8068072,
      "step": 13895
    },
    {
      "epoch": 2.0703008638665477,
      "grad_norm": 7.750053882598877,
      "learning_rate": 4.999812613429404e-05,
      "loss": 0.5091,
      "num_input_tokens_seen": 8071080,
      "step": 13900
    },
    {
      "epoch": 2.071045576407507,
      "grad_norm": 7.851662635803223,
      "learning_rate": 4.9998086138797685e-05,
      "loss": 0.5499,
      "num_input_tokens_seen": 8074120,
      "step": 13905
    },
    {
      "epoch": 2.071790288948466,
      "grad_norm": 13.079171180725098,
      "learning_rate": 4.9998045720984065e-05,
      "loss": 0.5803,
      "num_input_tokens_seen": 8077096,
      "step": 13910
    },
    {
      "epoch": 2.0725350014894253,
      "grad_norm": 10.240507125854492,
      "learning_rate": 4.999800488085388e-05,
      "loss": 0.5783,
      "num_input_tokens_seen": 8080424,
      "step": 13915
    },
    {
      "epoch": 2.0732797140303845,
      "grad_norm": 6.398679733276367,
      "learning_rate": 4.9997963618407794e-05,
      "loss": 0.3329,
      "num_input_tokens_seen": 8083304,
      "step": 13920
    },
    {
      "epoch": 2.0740244265713437,
      "grad_norm": 11.469195365905762,
      "learning_rate": 4.999792193364653e-05,
      "loss": 0.7129,
      "num_input_tokens_seen": 8086056,
      "step": 13925
    },
    {
      "epoch": 2.074769139112303,
      "grad_norm": 17.272188186645508,
      "learning_rate": 4.999787982657077e-05,
      "loss": 0.7324,
      "num_input_tokens_seen": 8089288,
      "step": 13930
    },
    {
      "epoch": 2.0755138516532616,
      "grad_norm": 8.914350509643555,
      "learning_rate": 4.999783729718125e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 8092008,
      "step": 13935
    },
    {
      "epoch": 2.076258564194221,
      "grad_norm": 9.149046897888184,
      "learning_rate": 4.999779434547867e-05,
      "loss": 0.6851,
      "num_input_tokens_seen": 8095048,
      "step": 13940
    },
    {
      "epoch": 2.07700327673518,
      "grad_norm": 9.87932014465332,
      "learning_rate": 4.999775097146376e-05,
      "loss": 0.6871,
      "num_input_tokens_seen": 8097928,
      "step": 13945
    },
    {
      "epoch": 2.0777479892761392,
      "grad_norm": 3.1080868244171143,
      "learning_rate": 4.999770717513726e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 8101192,
      "step": 13950
    },
    {
      "epoch": 2.0784927018170984,
      "grad_norm": 9.842741012573242,
      "learning_rate": 4.99976629564999e-05,
      "loss": 0.5646,
      "num_input_tokens_seen": 8104040,
      "step": 13955
    },
    {
      "epoch": 2.0792374143580576,
      "grad_norm": 13.226774215698242,
      "learning_rate": 4.999761831555243e-05,
      "loss": 0.6033,
      "num_input_tokens_seen": 8106856,
      "step": 13960
    },
    {
      "epoch": 2.079982126899017,
      "grad_norm": 6.261058807373047,
      "learning_rate": 4.9997573252295604e-05,
      "loss": 0.5203,
      "num_input_tokens_seen": 8109480,
      "step": 13965
    },
    {
      "epoch": 2.080726839439976,
      "grad_norm": 8.521832466125488,
      "learning_rate": 4.999752776673018e-05,
      "loss": 0.4412,
      "num_input_tokens_seen": 8112840,
      "step": 13970
    },
    {
      "epoch": 2.0814715519809353,
      "grad_norm": 13.994709014892578,
      "learning_rate": 4.999748185885694e-05,
      "loss": 0.6028,
      "num_input_tokens_seen": 8116040,
      "step": 13975
    },
    {
      "epoch": 2.0822162645218945,
      "grad_norm": 7.636285781860352,
      "learning_rate": 4.999743552867665e-05,
      "loss": 0.4592,
      "num_input_tokens_seen": 8119016,
      "step": 13980
    },
    {
      "epoch": 2.0829609770628537,
      "grad_norm": 7.108560085296631,
      "learning_rate": 4.999738877619009e-05,
      "loss": 0.5686,
      "num_input_tokens_seen": 8121704,
      "step": 13985
    },
    {
      "epoch": 2.083705689603813,
      "grad_norm": 7.172829627990723,
      "learning_rate": 4.999734160139805e-05,
      "loss": 0.4242,
      "num_input_tokens_seen": 8124392,
      "step": 13990
    },
    {
      "epoch": 2.084450402144772,
      "grad_norm": 6.363297462463379,
      "learning_rate": 4.999729400430133e-05,
      "loss": 0.6026,
      "num_input_tokens_seen": 8127560,
      "step": 13995
    },
    {
      "epoch": 2.0851951146857313,
      "grad_norm": 3.5607120990753174,
      "learning_rate": 4.9997245984900745e-05,
      "loss": 0.6579,
      "num_input_tokens_seen": 8130504,
      "step": 14000
    },
    {
      "epoch": 2.0859398272266905,
      "grad_norm": 2.7326154708862305,
      "learning_rate": 4.999719754319708e-05,
      "loss": 0.577,
      "num_input_tokens_seen": 8133416,
      "step": 14005
    },
    {
      "epoch": 2.0866845397676497,
      "grad_norm": 12.512272834777832,
      "learning_rate": 4.9997148679191174e-05,
      "loss": 0.663,
      "num_input_tokens_seen": 8136264,
      "step": 14010
    },
    {
      "epoch": 2.087429252308609,
      "grad_norm": 5.716521263122559,
      "learning_rate": 4.999709939288385e-05,
      "loss": 0.5218,
      "num_input_tokens_seen": 8139368,
      "step": 14015
    },
    {
      "epoch": 2.088173964849568,
      "grad_norm": 11.166872024536133,
      "learning_rate": 4.9997049684275936e-05,
      "loss": 0.5566,
      "num_input_tokens_seen": 8142504,
      "step": 14020
    },
    {
      "epoch": 2.0889186773905273,
      "grad_norm": 7.890047073364258,
      "learning_rate": 4.999699955336827e-05,
      "loss": 0.4868,
      "num_input_tokens_seen": 8145416,
      "step": 14025
    },
    {
      "epoch": 2.0896633899314865,
      "grad_norm": 11.005860328674316,
      "learning_rate": 4.9996949000161705e-05,
      "loss": 0.532,
      "num_input_tokens_seen": 8148520,
      "step": 14030
    },
    {
      "epoch": 2.0904081024724457,
      "grad_norm": 8.745940208435059,
      "learning_rate": 4.99968980246571e-05,
      "loss": 0.6622,
      "num_input_tokens_seen": 8151304,
      "step": 14035
    },
    {
      "epoch": 2.091152815013405,
      "grad_norm": 7.5960164070129395,
      "learning_rate": 4.99968466268553e-05,
      "loss": 0.5962,
      "num_input_tokens_seen": 8154216,
      "step": 14040
    },
    {
      "epoch": 2.091897527554364,
      "grad_norm": 3.2283918857574463,
      "learning_rate": 4.999679480675719e-05,
      "loss": 0.3923,
      "num_input_tokens_seen": 8156936,
      "step": 14045
    },
    {
      "epoch": 2.0926422400953233,
      "grad_norm": 7.127298831939697,
      "learning_rate": 4.9996742564363616e-05,
      "loss": 0.5803,
      "num_input_tokens_seen": 8159560,
      "step": 14050
    },
    {
      "epoch": 2.0933869526362825,
      "grad_norm": 5.4829816818237305,
      "learning_rate": 4.99966898996755e-05,
      "loss": 0.7036,
      "num_input_tokens_seen": 8162312,
      "step": 14055
    },
    {
      "epoch": 2.0941316651772417,
      "grad_norm": 7.3350067138671875,
      "learning_rate": 4.999663681269372e-05,
      "loss": 0.2902,
      "num_input_tokens_seen": 8165032,
      "step": 14060
    },
    {
      "epoch": 2.094876377718201,
      "grad_norm": 12.549046516418457,
      "learning_rate": 4.999658330341915e-05,
      "loss": 0.6334,
      "num_input_tokens_seen": 8167816,
      "step": 14065
    },
    {
      "epoch": 2.09562109025916,
      "grad_norm": 3.2275633811950684,
      "learning_rate": 4.9996529371852716e-05,
      "loss": 0.5126,
      "num_input_tokens_seen": 8170856,
      "step": 14070
    },
    {
      "epoch": 2.0963658028001193,
      "grad_norm": 13.645853996276855,
      "learning_rate": 4.999647501799532e-05,
      "loss": 0.5679,
      "num_input_tokens_seen": 8173704,
      "step": 14075
    },
    {
      "epoch": 2.0971105153410785,
      "grad_norm": 7.85186767578125,
      "learning_rate": 4.99964202418479e-05,
      "loss": 0.7234,
      "num_input_tokens_seen": 8176616,
      "step": 14080
    },
    {
      "epoch": 2.0978552278820377,
      "grad_norm": 8.269667625427246,
      "learning_rate": 4.999636504341135e-05,
      "loss": 0.4173,
      "num_input_tokens_seen": 8180648,
      "step": 14085
    },
    {
      "epoch": 2.098599940422997,
      "grad_norm": 7.355828285217285,
      "learning_rate": 4.9996309422686624e-05,
      "loss": 0.5631,
      "num_input_tokens_seen": 8184040,
      "step": 14090
    },
    {
      "epoch": 2.099344652963956,
      "grad_norm": 4.323216915130615,
      "learning_rate": 4.999625337967465e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 8186760,
      "step": 14095
    },
    {
      "epoch": 2.1000893655049153,
      "grad_norm": 8.694894790649414,
      "learning_rate": 4.999619691437638e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 8189480,
      "step": 14100
    },
    {
      "epoch": 2.1008340780458745,
      "grad_norm": 7.140665054321289,
      "learning_rate": 4.9996140026792774e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 8192456,
      "step": 14105
    },
    {
      "epoch": 2.1015787905868333,
      "grad_norm": 7.946056365966797,
      "learning_rate": 4.999608271692479e-05,
      "loss": 0.5588,
      "num_input_tokens_seen": 8195560,
      "step": 14110
    },
    {
      "epoch": 2.1023235031277925,
      "grad_norm": 5.654351234436035,
      "learning_rate": 4.999602498477338e-05,
      "loss": 0.4398,
      "num_input_tokens_seen": 8198280,
      "step": 14115
    },
    {
      "epoch": 2.1030682156687517,
      "grad_norm": 16.869394302368164,
      "learning_rate": 4.999596683033955e-05,
      "loss": 0.673,
      "num_input_tokens_seen": 8201416,
      "step": 14120
    },
    {
      "epoch": 2.103812928209711,
      "grad_norm": 10.444408416748047,
      "learning_rate": 4.999590825362425e-05,
      "loss": 0.3911,
      "num_input_tokens_seen": 8204136,
      "step": 14125
    },
    {
      "epoch": 2.10455764075067,
      "grad_norm": 9.613611221313477,
      "learning_rate": 4.999584925462849e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 8206952,
      "step": 14130
    },
    {
      "epoch": 2.1053023532916293,
      "grad_norm": 7.783419609069824,
      "learning_rate": 4.999578983335327e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 8209800,
      "step": 14135
    },
    {
      "epoch": 2.1060470658325885,
      "grad_norm": 11.325416564941406,
      "learning_rate": 4.999572998979957e-05,
      "loss": 0.6565,
      "num_input_tokens_seen": 8212712,
      "step": 14140
    },
    {
      "epoch": 2.1067917783735477,
      "grad_norm": 20.801986694335938,
      "learning_rate": 4.9995669723968426e-05,
      "loss": 0.8108,
      "num_input_tokens_seen": 8215336,
      "step": 14145
    },
    {
      "epoch": 2.107536490914507,
      "grad_norm": 7.771245956420898,
      "learning_rate": 4.9995609035860845e-05,
      "loss": 0.5181,
      "num_input_tokens_seen": 8218056,
      "step": 14150
    },
    {
      "epoch": 2.108281203455466,
      "grad_norm": 7.633901119232178,
      "learning_rate": 4.9995547925477856e-05,
      "loss": 0.5378,
      "num_input_tokens_seen": 8220904,
      "step": 14155
    },
    {
      "epoch": 2.1090259159964253,
      "grad_norm": 7.805025577545166,
      "learning_rate": 4.999548639282048e-05,
      "loss": 0.4413,
      "num_input_tokens_seen": 8223944,
      "step": 14160
    },
    {
      "epoch": 2.1097706285373845,
      "grad_norm": 8.35785961151123,
      "learning_rate": 4.9995424437889774e-05,
      "loss": 0.5639,
      "num_input_tokens_seen": 8227016,
      "step": 14165
    },
    {
      "epoch": 2.1105153410783437,
      "grad_norm": 9.78000545501709,
      "learning_rate": 4.999536206068678e-05,
      "loss": 0.5945,
      "num_input_tokens_seen": 8229832,
      "step": 14170
    },
    {
      "epoch": 2.111260053619303,
      "grad_norm": 8.310178756713867,
      "learning_rate": 4.9995299261212536e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 8232488,
      "step": 14175
    },
    {
      "epoch": 2.112004766160262,
      "grad_norm": 6.103928565979004,
      "learning_rate": 4.999523603946812e-05,
      "loss": 0.633,
      "num_input_tokens_seen": 8235528,
      "step": 14180
    },
    {
      "epoch": 2.1127494787012213,
      "grad_norm": 9.007923126220703,
      "learning_rate": 4.9995172395454606e-05,
      "loss": 0.5508,
      "num_input_tokens_seen": 8238440,
      "step": 14185
    },
    {
      "epoch": 2.1134941912421805,
      "grad_norm": 4.1171722412109375,
      "learning_rate": 4.999510832917304e-05,
      "loss": 0.5238,
      "num_input_tokens_seen": 8241128,
      "step": 14190
    },
    {
      "epoch": 2.1142389037831397,
      "grad_norm": 11.550673484802246,
      "learning_rate": 4.9995043840624536e-05,
      "loss": 0.6186,
      "num_input_tokens_seen": 8243752,
      "step": 14195
    },
    {
      "epoch": 2.114983616324099,
      "grad_norm": 10.45862102508545,
      "learning_rate": 4.999497892981017e-05,
      "loss": 0.7779,
      "num_input_tokens_seen": 8246696,
      "step": 14200
    },
    {
      "epoch": 2.115728328865058,
      "grad_norm": 5.663314342498779,
      "learning_rate": 4.999491359673103e-05,
      "loss": 0.5534,
      "num_input_tokens_seen": 8249832,
      "step": 14205
    },
    {
      "epoch": 2.1164730414060173,
      "grad_norm": 9.49239730834961,
      "learning_rate": 4.999484784138823e-05,
      "loss": 0.6344,
      "num_input_tokens_seen": 8252712,
      "step": 14210
    },
    {
      "epoch": 2.1172177539469765,
      "grad_norm": 12.175888061523438,
      "learning_rate": 4.9994781663782884e-05,
      "loss": 0.3687,
      "num_input_tokens_seen": 8255816,
      "step": 14215
    },
    {
      "epoch": 2.1179624664879357,
      "grad_norm": 4.582615375518799,
      "learning_rate": 4.99947150639161e-05,
      "loss": 0.6246,
      "num_input_tokens_seen": 8258728,
      "step": 14220
    },
    {
      "epoch": 2.118707179028895,
      "grad_norm": 10.735285758972168,
      "learning_rate": 4.9994648041789016e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 8261640,
      "step": 14225
    },
    {
      "epoch": 2.119451891569854,
      "grad_norm": 5.611935615539551,
      "learning_rate": 4.999458059740275e-05,
      "loss": 0.697,
      "num_input_tokens_seen": 8264328,
      "step": 14230
    },
    {
      "epoch": 2.1201966041108133,
      "grad_norm": 9.522770881652832,
      "learning_rate": 4.9994512730758454e-05,
      "loss": 0.5492,
      "num_input_tokens_seen": 8267272,
      "step": 14235
    },
    {
      "epoch": 2.1209413166517725,
      "grad_norm": 5.256514072418213,
      "learning_rate": 4.999444444185727e-05,
      "loss": 0.6526,
      "num_input_tokens_seen": 8270216,
      "step": 14240
    },
    {
      "epoch": 2.1216860291927317,
      "grad_norm": 7.339016914367676,
      "learning_rate": 4.999437573070034e-05,
      "loss": 0.5524,
      "num_input_tokens_seen": 8273032,
      "step": 14245
    },
    {
      "epoch": 2.122430741733691,
      "grad_norm": 8.817954063415527,
      "learning_rate": 4.999430659728884e-05,
      "loss": 0.4448,
      "num_input_tokens_seen": 8276136,
      "step": 14250
    },
    {
      "epoch": 2.12317545427465,
      "grad_norm": 8.458477973937988,
      "learning_rate": 4.9994237041623935e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 8279080,
      "step": 14255
    },
    {
      "epoch": 2.1239201668156094,
      "grad_norm": 3.031203269958496,
      "learning_rate": 4.99941670637068e-05,
      "loss": 0.3633,
      "num_input_tokens_seen": 8281928,
      "step": 14260
    },
    {
      "epoch": 2.1246648793565686,
      "grad_norm": 10.57689380645752,
      "learning_rate": 4.999409666353861e-05,
      "loss": 0.498,
      "num_input_tokens_seen": 8284712,
      "step": 14265
    },
    {
      "epoch": 2.1254095918975278,
      "grad_norm": 8.73574161529541,
      "learning_rate": 4.999402584112057e-05,
      "loss": 0.3186,
      "num_input_tokens_seen": 8287368,
      "step": 14270
    },
    {
      "epoch": 2.1261543044384865,
      "grad_norm": 11.31124210357666,
      "learning_rate": 4.999395459645385e-05,
      "loss": 0.5174,
      "num_input_tokens_seen": 8290440,
      "step": 14275
    },
    {
      "epoch": 2.126899016979446,
      "grad_norm": 9.420060157775879,
      "learning_rate": 4.999388292953968e-05,
      "loss": 0.6026,
      "num_input_tokens_seen": 8293512,
      "step": 14280
    },
    {
      "epoch": 2.127643729520405,
      "grad_norm": 4.821666717529297,
      "learning_rate": 4.999381084037926e-05,
      "loss": 0.5106,
      "num_input_tokens_seen": 8296456,
      "step": 14285
    },
    {
      "epoch": 2.128388442061364,
      "grad_norm": 7.901785373687744,
      "learning_rate": 4.999373832897381e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 8299176,
      "step": 14290
    },
    {
      "epoch": 2.1291331546023233,
      "grad_norm": 10.630995750427246,
      "learning_rate": 4.9993665395324554e-05,
      "loss": 0.5211,
      "num_input_tokens_seen": 8302216,
      "step": 14295
    },
    {
      "epoch": 2.1298778671432825,
      "grad_norm": 5.215348720550537,
      "learning_rate": 4.999359203943272e-05,
      "loss": 0.5116,
      "num_input_tokens_seen": 8305096,
      "step": 14300
    },
    {
      "epoch": 2.1306225796842417,
      "grad_norm": 1.6166188716888428,
      "learning_rate": 4.999351826129955e-05,
      "loss": 0.7337,
      "num_input_tokens_seen": 8307912,
      "step": 14305
    },
    {
      "epoch": 2.131367292225201,
      "grad_norm": 3.949294328689575,
      "learning_rate": 4.9993444060926296e-05,
      "loss": 0.5258,
      "num_input_tokens_seen": 8310696,
      "step": 14310
    },
    {
      "epoch": 2.13211200476616,
      "grad_norm": 10.436524391174316,
      "learning_rate": 4.9993369438314204e-05,
      "loss": 0.4501,
      "num_input_tokens_seen": 8313448,
      "step": 14315
    },
    {
      "epoch": 2.1328567173071193,
      "grad_norm": 13.09153938293457,
      "learning_rate": 4.9993294393464536e-05,
      "loss": 0.5905,
      "num_input_tokens_seen": 8316584,
      "step": 14320
    },
    {
      "epoch": 2.1336014298480785,
      "grad_norm": 12.675372123718262,
      "learning_rate": 4.999321892637856e-05,
      "loss": 0.5405,
      "num_input_tokens_seen": 8319496,
      "step": 14325
    },
    {
      "epoch": 2.1343461423890377,
      "grad_norm": 3.150535821914673,
      "learning_rate": 4.9993143037057554e-05,
      "loss": 0.4566,
      "num_input_tokens_seen": 8322152,
      "step": 14330
    },
    {
      "epoch": 2.135090854929997,
      "grad_norm": 6.476726055145264,
      "learning_rate": 4.99930667255028e-05,
      "loss": 0.66,
      "num_input_tokens_seen": 8325288,
      "step": 14335
    },
    {
      "epoch": 2.135835567470956,
      "grad_norm": 6.599856853485107,
      "learning_rate": 4.999298999171559e-05,
      "loss": 0.5351,
      "num_input_tokens_seen": 8328072,
      "step": 14340
    },
    {
      "epoch": 2.1365802800119154,
      "grad_norm": 11.151019096374512,
      "learning_rate": 4.99929128356972e-05,
      "loss": 0.5557,
      "num_input_tokens_seen": 8331144,
      "step": 14345
    },
    {
      "epoch": 2.1373249925528746,
      "grad_norm": 5.848687171936035,
      "learning_rate": 4.9992835257448965e-05,
      "loss": 0.5502,
      "num_input_tokens_seen": 8333896,
      "step": 14350
    },
    {
      "epoch": 2.1380697050938338,
      "grad_norm": 6.803758144378662,
      "learning_rate": 4.999275725697218e-05,
      "loss": 0.4714,
      "num_input_tokens_seen": 8337128,
      "step": 14355
    },
    {
      "epoch": 2.138814417634793,
      "grad_norm": 6.969655990600586,
      "learning_rate": 4.9992678834268154e-05,
      "loss": 0.5097,
      "num_input_tokens_seen": 8339688,
      "step": 14360
    },
    {
      "epoch": 2.139559130175752,
      "grad_norm": 22.09510612487793,
      "learning_rate": 4.999259998933822e-05,
      "loss": 0.7417,
      "num_input_tokens_seen": 8342568,
      "step": 14365
    },
    {
      "epoch": 2.1403038427167114,
      "grad_norm": 8.497086524963379,
      "learning_rate": 4.9992520722183714e-05,
      "loss": 0.7149,
      "num_input_tokens_seen": 8345256,
      "step": 14370
    },
    {
      "epoch": 2.1410485552576706,
      "grad_norm": 4.388582229614258,
      "learning_rate": 4.999244103280597e-05,
      "loss": 0.3805,
      "num_input_tokens_seen": 8348232,
      "step": 14375
    },
    {
      "epoch": 2.1417932677986298,
      "grad_norm": 9.489879608154297,
      "learning_rate": 4.999236092120634e-05,
      "loss": 0.5259,
      "num_input_tokens_seen": 8351016,
      "step": 14380
    },
    {
      "epoch": 2.142537980339589,
      "grad_norm": 7.3919830322265625,
      "learning_rate": 4.999228038738617e-05,
      "loss": 0.3833,
      "num_input_tokens_seen": 8353672,
      "step": 14385
    },
    {
      "epoch": 2.143282692880548,
      "grad_norm": 6.9644975662231445,
      "learning_rate": 4.999219943134683e-05,
      "loss": 0.5931,
      "num_input_tokens_seen": 8356296,
      "step": 14390
    },
    {
      "epoch": 2.1440274054215074,
      "grad_norm": 10.399843215942383,
      "learning_rate": 4.9992118053089675e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 8359048,
      "step": 14395
    },
    {
      "epoch": 2.1447721179624666,
      "grad_norm": 10.492452621459961,
      "learning_rate": 4.999203625261609e-05,
      "loss": 0.5856,
      "num_input_tokens_seen": 8361992,
      "step": 14400
    },
    {
      "epoch": 2.145516830503426,
      "grad_norm": 12.606103897094727,
      "learning_rate": 4.999195402992745e-05,
      "loss": 0.3966,
      "num_input_tokens_seen": 8364968,
      "step": 14405
    },
    {
      "epoch": 2.146261543044385,
      "grad_norm": 3.5523715019226074,
      "learning_rate": 4.999187138502515e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 8368072,
      "step": 14410
    },
    {
      "epoch": 2.147006255585344,
      "grad_norm": 16.343379974365234,
      "learning_rate": 4.999178831791058e-05,
      "loss": 0.3879,
      "num_input_tokens_seen": 8370952,
      "step": 14415
    },
    {
      "epoch": 2.1477509681263034,
      "grad_norm": 20.657596588134766,
      "learning_rate": 4.999170482858515e-05,
      "loss": 0.8792,
      "num_input_tokens_seen": 8373992,
      "step": 14420
    },
    {
      "epoch": 2.1484956806672626,
      "grad_norm": 8.275550842285156,
      "learning_rate": 4.999162091705026e-05,
      "loss": 0.7421,
      "num_input_tokens_seen": 8376904,
      "step": 14425
    },
    {
      "epoch": 2.149240393208222,
      "grad_norm": 6.277027606964111,
      "learning_rate": 4.9991536583307344e-05,
      "loss": 0.6352,
      "num_input_tokens_seen": 8379624,
      "step": 14430
    },
    {
      "epoch": 2.149985105749181,
      "grad_norm": 11.007490158081055,
      "learning_rate": 4.999145182735782e-05,
      "loss": 0.6301,
      "num_input_tokens_seen": 8382472,
      "step": 14435
    },
    {
      "epoch": 2.15072981829014,
      "grad_norm": 2.025071620941162,
      "learning_rate": 4.999136664920311e-05,
      "loss": 0.4677,
      "num_input_tokens_seen": 8385224,
      "step": 14440
    },
    {
      "epoch": 2.1514745308310994,
      "grad_norm": 8.00236701965332,
      "learning_rate": 4.999128104884466e-05,
      "loss": 0.5835,
      "num_input_tokens_seen": 8388008,
      "step": 14445
    },
    {
      "epoch": 2.152219243372058,
      "grad_norm": 5.033447742462158,
      "learning_rate": 4.999119502628392e-05,
      "loss": 0.4349,
      "num_input_tokens_seen": 8390856,
      "step": 14450
    },
    {
      "epoch": 2.1529639559130174,
      "grad_norm": 5.004720211029053,
      "learning_rate": 4.999110858152234e-05,
      "loss": 0.5235,
      "num_input_tokens_seen": 8393544,
      "step": 14455
    },
    {
      "epoch": 2.1537086684539766,
      "grad_norm": 6.017798900604248,
      "learning_rate": 4.999102171456138e-05,
      "loss": 0.6492,
      "num_input_tokens_seen": 8396392,
      "step": 14460
    },
    {
      "epoch": 2.1544533809949358,
      "grad_norm": 12.466346740722656,
      "learning_rate": 4.999093442540251e-05,
      "loss": 0.5013,
      "num_input_tokens_seen": 8399400,
      "step": 14465
    },
    {
      "epoch": 2.155198093535895,
      "grad_norm": 13.500009536743164,
      "learning_rate": 4.9990846714047204e-05,
      "loss": 0.6357,
      "num_input_tokens_seen": 8402696,
      "step": 14470
    },
    {
      "epoch": 2.155942806076854,
      "grad_norm": 3.311793088912964,
      "learning_rate": 4.9990758580496935e-05,
      "loss": 0.5043,
      "num_input_tokens_seen": 8405704,
      "step": 14475
    },
    {
      "epoch": 2.1566875186178134,
      "grad_norm": 7.876296043395996,
      "learning_rate": 4.99906700247532e-05,
      "loss": 0.6273,
      "num_input_tokens_seen": 8408424,
      "step": 14480
    },
    {
      "epoch": 2.1574322311587726,
      "grad_norm": 14.454840660095215,
      "learning_rate": 4.99905810468175e-05,
      "loss": 0.66,
      "num_input_tokens_seen": 8411464,
      "step": 14485
    },
    {
      "epoch": 2.158176943699732,
      "grad_norm": 6.649043083190918,
      "learning_rate": 4.999049164669133e-05,
      "loss": 0.4545,
      "num_input_tokens_seen": 8414280,
      "step": 14490
    },
    {
      "epoch": 2.158921656240691,
      "grad_norm": 11.4496488571167,
      "learning_rate": 4.9990401824376196e-05,
      "loss": 0.4578,
      "num_input_tokens_seen": 8417032,
      "step": 14495
    },
    {
      "epoch": 2.15966636878165,
      "grad_norm": 5.554367542266846,
      "learning_rate": 4.999031157987364e-05,
      "loss": 0.3639,
      "num_input_tokens_seen": 8419720,
      "step": 14500
    },
    {
      "epoch": 2.1604110813226094,
      "grad_norm": 14.622608184814453,
      "learning_rate": 4.9990220913185146e-05,
      "loss": 0.5996,
      "num_input_tokens_seen": 8422632,
      "step": 14505
    },
    {
      "epoch": 2.1611557938635686,
      "grad_norm": 11.575715065002441,
      "learning_rate": 4.9990129824312285e-05,
      "loss": 0.6179,
      "num_input_tokens_seen": 8425480,
      "step": 14510
    },
    {
      "epoch": 2.161900506404528,
      "grad_norm": 10.742682456970215,
      "learning_rate": 4.9990038313256573e-05,
      "loss": 0.8186,
      "num_input_tokens_seen": 8428744,
      "step": 14515
    },
    {
      "epoch": 2.162645218945487,
      "grad_norm": 9.059289932250977,
      "learning_rate": 4.998994638001957e-05,
      "loss": 0.4072,
      "num_input_tokens_seen": 8431816,
      "step": 14520
    },
    {
      "epoch": 2.163389931486446,
      "grad_norm": 11.74833869934082,
      "learning_rate": 4.998985402460281e-05,
      "loss": 0.5581,
      "num_input_tokens_seen": 8434920,
      "step": 14525
    },
    {
      "epoch": 2.1641346440274054,
      "grad_norm": 8.336345672607422,
      "learning_rate": 4.998976124700787e-05,
      "loss": 0.5282,
      "num_input_tokens_seen": 8438088,
      "step": 14530
    },
    {
      "epoch": 2.1648793565683646,
      "grad_norm": 5.192952632904053,
      "learning_rate": 4.9989668047236316e-05,
      "loss": 0.3993,
      "num_input_tokens_seen": 8440744,
      "step": 14535
    },
    {
      "epoch": 2.165624069109324,
      "grad_norm": 5.525366306304932,
      "learning_rate": 4.998957442528972e-05,
      "loss": 0.5656,
      "num_input_tokens_seen": 8443560,
      "step": 14540
    },
    {
      "epoch": 2.166368781650283,
      "grad_norm": 9.82941722869873,
      "learning_rate": 4.998948038116965e-05,
      "loss": 0.4069,
      "num_input_tokens_seen": 8446536,
      "step": 14545
    },
    {
      "epoch": 2.167113494191242,
      "grad_norm": 3.2257492542266846,
      "learning_rate": 4.9989385914877717e-05,
      "loss": 0.3178,
      "num_input_tokens_seen": 8449192,
      "step": 14550
    },
    {
      "epoch": 2.1678582067322014,
      "grad_norm": 8.399843215942383,
      "learning_rate": 4.998929102641551e-05,
      "loss": 0.5023,
      "num_input_tokens_seen": 8452008,
      "step": 14555
    },
    {
      "epoch": 2.1686029192731606,
      "grad_norm": 19.05413246154785,
      "learning_rate": 4.998919571578462e-05,
      "loss": 0.7512,
      "num_input_tokens_seen": 8454856,
      "step": 14560
    },
    {
      "epoch": 2.16934763181412,
      "grad_norm": 8.119253158569336,
      "learning_rate": 4.998909998298668e-05,
      "loss": 0.5591,
      "num_input_tokens_seen": 8457704,
      "step": 14565
    },
    {
      "epoch": 2.170092344355079,
      "grad_norm": 4.002544403076172,
      "learning_rate": 4.998900382802327e-05,
      "loss": 0.6769,
      "num_input_tokens_seen": 8460776,
      "step": 14570
    },
    {
      "epoch": 2.1708370568960382,
      "grad_norm": 3.736981153488159,
      "learning_rate": 4.9988907250896056e-05,
      "loss": 0.5806,
      "num_input_tokens_seen": 8463752,
      "step": 14575
    },
    {
      "epoch": 2.1715817694369974,
      "grad_norm": 9.2062406539917,
      "learning_rate": 4.998881025160665e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 8466984,
      "step": 14580
    },
    {
      "epoch": 2.1723264819779566,
      "grad_norm": 5.143993377685547,
      "learning_rate": 4.9988712830156694e-05,
      "loss": 0.5682,
      "num_input_tokens_seen": 8469704,
      "step": 14585
    },
    {
      "epoch": 2.173071194518916,
      "grad_norm": 4.13518762588501,
      "learning_rate": 4.998861498654782e-05,
      "loss": 0.3974,
      "num_input_tokens_seen": 8472456,
      "step": 14590
    },
    {
      "epoch": 2.173815907059875,
      "grad_norm": 18.645540237426758,
      "learning_rate": 4.9988516720781705e-05,
      "loss": 0.4268,
      "num_input_tokens_seen": 8475304,
      "step": 14595
    },
    {
      "epoch": 2.1745606196008342,
      "grad_norm": 4.042535305023193,
      "learning_rate": 4.998841803286e-05,
      "loss": 0.7302,
      "num_input_tokens_seen": 8478472,
      "step": 14600
    },
    {
      "epoch": 2.1753053321417934,
      "grad_norm": 12.876869201660156,
      "learning_rate": 4.9988318922784364e-05,
      "loss": 0.5276,
      "num_input_tokens_seen": 8481224,
      "step": 14605
    },
    {
      "epoch": 2.1760500446827526,
      "grad_norm": 8.639076232910156,
      "learning_rate": 4.9988219390556466e-05,
      "loss": 0.6055,
      "num_input_tokens_seen": 8484040,
      "step": 14610
    },
    {
      "epoch": 2.176794757223712,
      "grad_norm": 8.77112102508545,
      "learning_rate": 4.998811943617801e-05,
      "loss": 0.6604,
      "num_input_tokens_seen": 8486984,
      "step": 14615
    },
    {
      "epoch": 2.177539469764671,
      "grad_norm": 4.979919910430908,
      "learning_rate": 4.998801905965067e-05,
      "loss": 0.4789,
      "num_input_tokens_seen": 8489928,
      "step": 14620
    },
    {
      "epoch": 2.17828418230563,
      "grad_norm": 7.909618854522705,
      "learning_rate": 4.998791826097615e-05,
      "loss": 0.6109,
      "num_input_tokens_seen": 8492744,
      "step": 14625
    },
    {
      "epoch": 2.179028894846589,
      "grad_norm": 4.559884548187256,
      "learning_rate": 4.998781704015614e-05,
      "loss": 0.4589,
      "num_input_tokens_seen": 8495848,
      "step": 14630
    },
    {
      "epoch": 2.179773607387548,
      "grad_norm": 4.52140998840332,
      "learning_rate": 4.998771539719236e-05,
      "loss": 0.5489,
      "num_input_tokens_seen": 8498696,
      "step": 14635
    },
    {
      "epoch": 2.1805183199285074,
      "grad_norm": 5.722970962524414,
      "learning_rate": 4.998761333208652e-05,
      "loss": 0.4858,
      "num_input_tokens_seen": 8501448,
      "step": 14640
    },
    {
      "epoch": 2.1812630324694666,
      "grad_norm": 8.594826698303223,
      "learning_rate": 4.9987510844840354e-05,
      "loss": 0.8009,
      "num_input_tokens_seen": 8504488,
      "step": 14645
    },
    {
      "epoch": 2.182007745010426,
      "grad_norm": 4.570127010345459,
      "learning_rate": 4.998740793545559e-05,
      "loss": 0.559,
      "num_input_tokens_seen": 8507400,
      "step": 14650
    },
    {
      "epoch": 2.182752457551385,
      "grad_norm": 3.0993235111236572,
      "learning_rate": 4.998730460393397e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 8510312,
      "step": 14655
    },
    {
      "epoch": 2.1834971700923442,
      "grad_norm": 5.803529262542725,
      "learning_rate": 4.998720085027723e-05,
      "loss": 0.4527,
      "num_input_tokens_seen": 8512936,
      "step": 14660
    },
    {
      "epoch": 2.1842418826333034,
      "grad_norm": 12.225214958190918,
      "learning_rate": 4.998709667448712e-05,
      "loss": 0.2959,
      "num_input_tokens_seen": 8515944,
      "step": 14665
    },
    {
      "epoch": 2.1849865951742626,
      "grad_norm": 18.153942108154297,
      "learning_rate": 4.998699207656542e-05,
      "loss": 0.5773,
      "num_input_tokens_seen": 8519112,
      "step": 14670
    },
    {
      "epoch": 2.185731307715222,
      "grad_norm": 3.7847938537597656,
      "learning_rate": 4.9986887056513874e-05,
      "loss": 0.4302,
      "num_input_tokens_seen": 8521864,
      "step": 14675
    },
    {
      "epoch": 2.186476020256181,
      "grad_norm": 12.549823760986328,
      "learning_rate": 4.998678161433427e-05,
      "loss": 0.763,
      "num_input_tokens_seen": 8524648,
      "step": 14680
    },
    {
      "epoch": 2.1872207327971402,
      "grad_norm": 10.9635591506958,
      "learning_rate": 4.998667575002839e-05,
      "loss": 0.3992,
      "num_input_tokens_seen": 8527912,
      "step": 14685
    },
    {
      "epoch": 2.1879654453380994,
      "grad_norm": 8.37598705291748,
      "learning_rate": 4.998656946359801e-05,
      "loss": 0.6646,
      "num_input_tokens_seen": 8531016,
      "step": 14690
    },
    {
      "epoch": 2.1887101578790586,
      "grad_norm": 3.980771541595459,
      "learning_rate": 4.998646275504494e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 8533928,
      "step": 14695
    },
    {
      "epoch": 2.189454870420018,
      "grad_norm": 2.576890230178833,
      "learning_rate": 4.998635562437098e-05,
      "loss": 0.5249,
      "num_input_tokens_seen": 8536904,
      "step": 14700
    },
    {
      "epoch": 2.190199582960977,
      "grad_norm": 5.131392955780029,
      "learning_rate": 4.9986248071577934e-05,
      "loss": 0.4999,
      "num_input_tokens_seen": 8541224,
      "step": 14705
    },
    {
      "epoch": 2.1909442955019363,
      "grad_norm": 4.944754600524902,
      "learning_rate": 4.998614009666762e-05,
      "loss": 0.5125,
      "num_input_tokens_seen": 8543784,
      "step": 14710
    },
    {
      "epoch": 2.1916890080428955,
      "grad_norm": 13.047646522521973,
      "learning_rate": 4.9986031699641866e-05,
      "loss": 0.6762,
      "num_input_tokens_seen": 8546632,
      "step": 14715
    },
    {
      "epoch": 2.1924337205838547,
      "grad_norm": 7.709140777587891,
      "learning_rate": 4.99859228805025e-05,
      "loss": 0.5621,
      "num_input_tokens_seen": 8549480,
      "step": 14720
    },
    {
      "epoch": 2.193178433124814,
      "grad_norm": 10.949090003967285,
      "learning_rate": 4.9985813639251355e-05,
      "loss": 0.6041,
      "num_input_tokens_seen": 8552328,
      "step": 14725
    },
    {
      "epoch": 2.193923145665773,
      "grad_norm": 4.949531078338623,
      "learning_rate": 4.9985703975890294e-05,
      "loss": 0.7341,
      "num_input_tokens_seen": 8554888,
      "step": 14730
    },
    {
      "epoch": 2.1946678582067323,
      "grad_norm": 8.245899200439453,
      "learning_rate": 4.998559389042115e-05,
      "loss": 0.4732,
      "num_input_tokens_seen": 8557448,
      "step": 14735
    },
    {
      "epoch": 2.1954125707476915,
      "grad_norm": 4.821515083312988,
      "learning_rate": 4.99854833828458e-05,
      "loss": 0.5058,
      "num_input_tokens_seen": 8560328,
      "step": 14740
    },
    {
      "epoch": 2.1961572832886507,
      "grad_norm": 4.954288005828857,
      "learning_rate": 4.998537245316609e-05,
      "loss": 0.5905,
      "num_input_tokens_seen": 8563304,
      "step": 14745
    },
    {
      "epoch": 2.19690199582961,
      "grad_norm": 3.9487788677215576,
      "learning_rate": 4.998526110138392e-05,
      "loss": 0.4959,
      "num_input_tokens_seen": 8566120,
      "step": 14750
    },
    {
      "epoch": 2.197646708370569,
      "grad_norm": 6.831159591674805,
      "learning_rate": 4.9985149327501146e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 8568872,
      "step": 14755
    },
    {
      "epoch": 2.1983914209115283,
      "grad_norm": 12.16343879699707,
      "learning_rate": 4.998503713151967e-05,
      "loss": 0.6148,
      "num_input_tokens_seen": 8571336,
      "step": 14760
    },
    {
      "epoch": 2.1991361334524875,
      "grad_norm": 11.27084732055664,
      "learning_rate": 4.9984924513441397e-05,
      "loss": 0.5515,
      "num_input_tokens_seen": 8575080,
      "step": 14765
    },
    {
      "epoch": 2.1998808459934467,
      "grad_norm": 7.941813945770264,
      "learning_rate": 4.9984811473268214e-05,
      "loss": 0.4724,
      "num_input_tokens_seen": 8578024,
      "step": 14770
    },
    {
      "epoch": 2.200625558534406,
      "grad_norm": 12.751936912536621,
      "learning_rate": 4.998469801100203e-05,
      "loss": 0.5855,
      "num_input_tokens_seen": 8580744,
      "step": 14775
    },
    {
      "epoch": 2.201370271075365,
      "grad_norm": 15.98477840423584,
      "learning_rate": 4.998458412664476e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 8583624,
      "step": 14780
    },
    {
      "epoch": 2.2021149836163243,
      "grad_norm": 11.840389251708984,
      "learning_rate": 4.9984469820198345e-05,
      "loss": 0.5649,
      "num_input_tokens_seen": 8586248,
      "step": 14785
    },
    {
      "epoch": 2.202859696157283,
      "grad_norm": 4.620337009429932,
      "learning_rate": 4.9984355091664705e-05,
      "loss": 0.5892,
      "num_input_tokens_seen": 8589384,
      "step": 14790
    },
    {
      "epoch": 2.2036044086982427,
      "grad_norm": 10.091560363769531,
      "learning_rate": 4.9984239941045766e-05,
      "loss": 0.4935,
      "num_input_tokens_seen": 8592360,
      "step": 14795
    },
    {
      "epoch": 2.2043491212392015,
      "grad_norm": 11.010174751281738,
      "learning_rate": 4.99841243683435e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 8595240,
      "step": 14800
    },
    {
      "epoch": 2.2050938337801607,
      "grad_norm": 10.844103813171387,
      "learning_rate": 4.998400837355984e-05,
      "loss": 0.6135,
      "num_input_tokens_seen": 8598120,
      "step": 14805
    },
    {
      "epoch": 2.20583854632112,
      "grad_norm": 6.566157817840576,
      "learning_rate": 4.998389195669675e-05,
      "loss": 0.5238,
      "num_input_tokens_seen": 8601256,
      "step": 14810
    },
    {
      "epoch": 2.206583258862079,
      "grad_norm": 16.291179656982422,
      "learning_rate": 4.998377511775621e-05,
      "loss": 0.4095,
      "num_input_tokens_seen": 8604328,
      "step": 14815
    },
    {
      "epoch": 2.2073279714030383,
      "grad_norm": 4.686046123504639,
      "learning_rate": 4.9983657856740165e-05,
      "loss": 0.3945,
      "num_input_tokens_seen": 8607272,
      "step": 14820
    },
    {
      "epoch": 2.2080726839439975,
      "grad_norm": 6.110774993896484,
      "learning_rate": 4.9983540173650614e-05,
      "loss": 0.3599,
      "num_input_tokens_seen": 8610120,
      "step": 14825
    },
    {
      "epoch": 2.2088173964849567,
      "grad_norm": 6.625394821166992,
      "learning_rate": 4.9983422068489546e-05,
      "loss": 0.3757,
      "num_input_tokens_seen": 8613128,
      "step": 14830
    },
    {
      "epoch": 2.209562109025916,
      "grad_norm": 10.510429382324219,
      "learning_rate": 4.998330354125896e-05,
      "loss": 0.4871,
      "num_input_tokens_seen": 8615976,
      "step": 14835
    },
    {
      "epoch": 2.210306821566875,
      "grad_norm": 15.6785306930542,
      "learning_rate": 4.998318459196085e-05,
      "loss": 0.5153,
      "num_input_tokens_seen": 8618952,
      "step": 14840
    },
    {
      "epoch": 2.2110515341078343,
      "grad_norm": 11.777153015136719,
      "learning_rate": 4.998306522059723e-05,
      "loss": 0.5884,
      "num_input_tokens_seen": 8621768,
      "step": 14845
    },
    {
      "epoch": 2.2117962466487935,
      "grad_norm": 19.799596786499023,
      "learning_rate": 4.9982945427170115e-05,
      "loss": 0.5059,
      "num_input_tokens_seen": 8624648,
      "step": 14850
    },
    {
      "epoch": 2.2125409591897527,
      "grad_norm": 12.556475639343262,
      "learning_rate": 4.998282521168153e-05,
      "loss": 0.4976,
      "num_input_tokens_seen": 8627560,
      "step": 14855
    },
    {
      "epoch": 2.213285671730712,
      "grad_norm": 7.18005895614624,
      "learning_rate": 4.9982704574133497e-05,
      "loss": 0.5083,
      "num_input_tokens_seen": 8630824,
      "step": 14860
    },
    {
      "epoch": 2.214030384271671,
      "grad_norm": 6.842937469482422,
      "learning_rate": 4.998258351452806e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 8633960,
      "step": 14865
    },
    {
      "epoch": 2.2147750968126303,
      "grad_norm": 7.726894855499268,
      "learning_rate": 4.998246203286727e-05,
      "loss": 0.4332,
      "num_input_tokens_seen": 8636744,
      "step": 14870
    },
    {
      "epoch": 2.2155198093535895,
      "grad_norm": 10.629903793334961,
      "learning_rate": 4.9982340129153185e-05,
      "loss": 0.5402,
      "num_input_tokens_seen": 8639656,
      "step": 14875
    },
    {
      "epoch": 2.2162645218945487,
      "grad_norm": 11.608863830566406,
      "learning_rate": 4.9982217803387844e-05,
      "loss": 0.5022,
      "num_input_tokens_seen": 8642536,
      "step": 14880
    },
    {
      "epoch": 2.217009234435508,
      "grad_norm": 8.70860481262207,
      "learning_rate": 4.998209505557333e-05,
      "loss": 0.4598,
      "num_input_tokens_seen": 8645384,
      "step": 14885
    },
    {
      "epoch": 2.217753946976467,
      "grad_norm": 13.532801628112793,
      "learning_rate": 4.99819718857117e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 8648424,
      "step": 14890
    },
    {
      "epoch": 2.2184986595174263,
      "grad_norm": 11.177718162536621,
      "learning_rate": 4.998184829380505e-05,
      "loss": 0.6782,
      "num_input_tokens_seen": 8651496,
      "step": 14895
    },
    {
      "epoch": 2.2192433720583855,
      "grad_norm": 11.775919914245605,
      "learning_rate": 4.9981724279855466e-05,
      "loss": 0.5428,
      "num_input_tokens_seen": 8654344,
      "step": 14900
    },
    {
      "epoch": 2.2199880845993447,
      "grad_norm": 3.226573944091797,
      "learning_rate": 4.998159984386504e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 8657096,
      "step": 14905
    },
    {
      "epoch": 2.220732797140304,
      "grad_norm": 6.68265438079834,
      "learning_rate": 4.9981474985835875e-05,
      "loss": 0.4791,
      "num_input_tokens_seen": 8659848,
      "step": 14910
    },
    {
      "epoch": 2.221477509681263,
      "grad_norm": 9.412454605102539,
      "learning_rate": 4.9981349705770074e-05,
      "loss": 0.5656,
      "num_input_tokens_seen": 8662856,
      "step": 14915
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 12.345864295959473,
      "learning_rate": 4.998122400366977e-05,
      "loss": 0.5784,
      "num_input_tokens_seen": 8665608,
      "step": 14920
    },
    {
      "epoch": 2.2229669347631815,
      "grad_norm": 6.258597373962402,
      "learning_rate": 4.998109787953708e-05,
      "loss": 0.6272,
      "num_input_tokens_seen": 8668392,
      "step": 14925
    },
    {
      "epoch": 2.2237116473041407,
      "grad_norm": 3.6756949424743652,
      "learning_rate": 4.998097133337412e-05,
      "loss": 0.5947,
      "num_input_tokens_seen": 8671304,
      "step": 14930
    },
    {
      "epoch": 2.2244563598451,
      "grad_norm": 8.445570945739746,
      "learning_rate": 4.998084436518303e-05,
      "loss": 0.7487,
      "num_input_tokens_seen": 8673992,
      "step": 14935
    },
    {
      "epoch": 2.225201072386059,
      "grad_norm": 4.87009859085083,
      "learning_rate": 4.998071697496598e-05,
      "loss": 0.5542,
      "num_input_tokens_seen": 8676712,
      "step": 14940
    },
    {
      "epoch": 2.2259457849270183,
      "grad_norm": 10.258899688720703,
      "learning_rate": 4.99805891627251e-05,
      "loss": 0.4711,
      "num_input_tokens_seen": 8679848,
      "step": 14945
    },
    {
      "epoch": 2.2266904974679775,
      "grad_norm": 8.512736320495605,
      "learning_rate": 4.998046092846256e-05,
      "loss": 0.5654,
      "num_input_tokens_seen": 8682920,
      "step": 14950
    },
    {
      "epoch": 2.2274352100089367,
      "grad_norm": 8.043708801269531,
      "learning_rate": 4.998033227218052e-05,
      "loss": 0.5165,
      "num_input_tokens_seen": 8685512,
      "step": 14955
    },
    {
      "epoch": 2.228179922549896,
      "grad_norm": 7.986515998840332,
      "learning_rate": 4.998020319388115e-05,
      "loss": 0.5433,
      "num_input_tokens_seen": 8688360,
      "step": 14960
    },
    {
      "epoch": 2.2289246350908547,
      "grad_norm": 17.39081573486328,
      "learning_rate": 4.998007369356664e-05,
      "loss": 0.5281,
      "num_input_tokens_seen": 8691112,
      "step": 14965
    },
    {
      "epoch": 2.2296693476318143,
      "grad_norm": 11.213326454162598,
      "learning_rate": 4.997994377123917e-05,
      "loss": 0.6496,
      "num_input_tokens_seen": 8693704,
      "step": 14970
    },
    {
      "epoch": 2.230414060172773,
      "grad_norm": 4.208767890930176,
      "learning_rate": 4.997981342690095e-05,
      "loss": 0.38,
      "num_input_tokens_seen": 8696680,
      "step": 14975
    },
    {
      "epoch": 2.2311587727137323,
      "grad_norm": 5.147491931915283,
      "learning_rate": 4.9979682660554154e-05,
      "loss": 0.6461,
      "num_input_tokens_seen": 8699688,
      "step": 14980
    },
    {
      "epoch": 2.2319034852546915,
      "grad_norm": 8.759658813476562,
      "learning_rate": 4.997955147220101e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 8702600,
      "step": 14985
    },
    {
      "epoch": 2.2326481977956507,
      "grad_norm": 4.117583274841309,
      "learning_rate": 4.997941986184375e-05,
      "loss": 0.5724,
      "num_input_tokens_seen": 8705768,
      "step": 14990
    },
    {
      "epoch": 2.23339291033661,
      "grad_norm": 13.044609069824219,
      "learning_rate": 4.9979287829484555e-05,
      "loss": 0.4636,
      "num_input_tokens_seen": 8708488,
      "step": 14995
    },
    {
      "epoch": 2.234137622877569,
      "grad_norm": 10.510481834411621,
      "learning_rate": 4.99791553751257e-05,
      "loss": 0.495,
      "num_input_tokens_seen": 8711304,
      "step": 15000
    },
    {
      "epoch": 2.2348823354185283,
      "grad_norm": 15.211423873901367,
      "learning_rate": 4.997902249876939e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 8714152,
      "step": 15005
    },
    {
      "epoch": 2.2356270479594875,
      "grad_norm": 5.924125671386719,
      "learning_rate": 4.997888920041789e-05,
      "loss": 0.7515,
      "num_input_tokens_seen": 8717032,
      "step": 15010
    },
    {
      "epoch": 2.2363717605004467,
      "grad_norm": 6.852327823638916,
      "learning_rate": 4.997875548007343e-05,
      "loss": 0.531,
      "num_input_tokens_seen": 8720072,
      "step": 15015
    },
    {
      "epoch": 2.237116473041406,
      "grad_norm": 9.882232666015625,
      "learning_rate": 4.99786213377383e-05,
      "loss": 0.6202,
      "num_input_tokens_seen": 8723048,
      "step": 15020
    },
    {
      "epoch": 2.237861185582365,
      "grad_norm": 7.311913013458252,
      "learning_rate": 4.997848677341474e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 8725928,
      "step": 15025
    },
    {
      "epoch": 2.2386058981233243,
      "grad_norm": 4.304491996765137,
      "learning_rate": 4.997835178710504e-05,
      "loss": 0.609,
      "num_input_tokens_seen": 8728840,
      "step": 15030
    },
    {
      "epoch": 2.2393506106642835,
      "grad_norm": 6.097153663635254,
      "learning_rate": 4.997821637881147e-05,
      "loss": 0.394,
      "num_input_tokens_seen": 8731688,
      "step": 15035
    },
    {
      "epoch": 2.2400953232052427,
      "grad_norm": 5.0989885330200195,
      "learning_rate": 4.997808054853632e-05,
      "loss": 0.6223,
      "num_input_tokens_seen": 8734568,
      "step": 15040
    },
    {
      "epoch": 2.240840035746202,
      "grad_norm": 10.063130378723145,
      "learning_rate": 4.9977944296281895e-05,
      "loss": 0.4463,
      "num_input_tokens_seen": 8737544,
      "step": 15045
    },
    {
      "epoch": 2.241584748287161,
      "grad_norm": 5.800334453582764,
      "learning_rate": 4.997780762205047e-05,
      "loss": 0.4596,
      "num_input_tokens_seen": 8740392,
      "step": 15050
    },
    {
      "epoch": 2.2423294608281203,
      "grad_norm": 5.973026275634766,
      "learning_rate": 4.997767052584439e-05,
      "loss": 0.6055,
      "num_input_tokens_seen": 8743528,
      "step": 15055
    },
    {
      "epoch": 2.2430741733690795,
      "grad_norm": 9.42966365814209,
      "learning_rate": 4.9977533007665944e-05,
      "loss": 0.6933,
      "num_input_tokens_seen": 8746632,
      "step": 15060
    },
    {
      "epoch": 2.2438188859100388,
      "grad_norm": 8.084695816040039,
      "learning_rate": 4.9977395067517464e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 8749832,
      "step": 15065
    },
    {
      "epoch": 2.244563598450998,
      "grad_norm": 8.124307632446289,
      "learning_rate": 4.997725670540128e-05,
      "loss": 0.5064,
      "num_input_tokens_seen": 8752680,
      "step": 15070
    },
    {
      "epoch": 2.245308310991957,
      "grad_norm": 5.321526527404785,
      "learning_rate": 4.997711792131973e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 8755528,
      "step": 15075
    },
    {
      "epoch": 2.2460530235329164,
      "grad_norm": 7.740446090698242,
      "learning_rate": 4.9976978715275155e-05,
      "loss": 0.5555,
      "num_input_tokens_seen": 8758504,
      "step": 15080
    },
    {
      "epoch": 2.2467977360738756,
      "grad_norm": 4.63511848449707,
      "learning_rate": 4.997683908726991e-05,
      "loss": 0.5565,
      "num_input_tokens_seen": 8761320,
      "step": 15085
    },
    {
      "epoch": 2.2475424486148348,
      "grad_norm": 5.592957973480225,
      "learning_rate": 4.9976699037306356e-05,
      "loss": 0.5828,
      "num_input_tokens_seen": 8764392,
      "step": 15090
    },
    {
      "epoch": 2.248287161155794,
      "grad_norm": 5.5571393966674805,
      "learning_rate": 4.997655856538686e-05,
      "loss": 0.7236,
      "num_input_tokens_seen": 8767176,
      "step": 15095
    },
    {
      "epoch": 2.249031873696753,
      "grad_norm": 5.093819618225098,
      "learning_rate": 4.9976417671513787e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 8770120,
      "step": 15100
    },
    {
      "epoch": 2.2497765862377124,
      "grad_norm": 5.110243320465088,
      "learning_rate": 4.997627635568953e-05,
      "loss": 0.4684,
      "num_input_tokens_seen": 8773096,
      "step": 15105
    },
    {
      "epoch": 2.2505212987786716,
      "grad_norm": 3.7371327877044678,
      "learning_rate": 4.997613461791646e-05,
      "loss": 0.4294,
      "num_input_tokens_seen": 8776072,
      "step": 15110
    },
    {
      "epoch": 2.2512660113196308,
      "grad_norm": 6.671916961669922,
      "learning_rate": 4.9975992458196986e-05,
      "loss": 0.5107,
      "num_input_tokens_seen": 8779112,
      "step": 15115
    },
    {
      "epoch": 2.25201072386059,
      "grad_norm": 7.7298173904418945,
      "learning_rate": 4.99758498765335e-05,
      "loss": 0.6255,
      "num_input_tokens_seen": 8782088,
      "step": 15120
    },
    {
      "epoch": 2.252755436401549,
      "grad_norm": 11.1091947555542,
      "learning_rate": 4.997570687292842e-05,
      "loss": 0.5139,
      "num_input_tokens_seen": 8784936,
      "step": 15125
    },
    {
      "epoch": 2.2535001489425084,
      "grad_norm": 5.5798211097717285,
      "learning_rate": 4.9975563447384156e-05,
      "loss": 0.6482,
      "num_input_tokens_seen": 8787912,
      "step": 15130
    },
    {
      "epoch": 2.2542448614834676,
      "grad_norm": 6.155276298522949,
      "learning_rate": 4.997541959990313e-05,
      "loss": 0.4502,
      "num_input_tokens_seen": 8790792,
      "step": 15135
    },
    {
      "epoch": 2.2549895740244263,
      "grad_norm": 6.206262588500977,
      "learning_rate": 4.997527533048777e-05,
      "loss": 0.5633,
      "num_input_tokens_seen": 8793416,
      "step": 15140
    },
    {
      "epoch": 2.255734286565386,
      "grad_norm": 9.444748878479004,
      "learning_rate": 4.997513063914052e-05,
      "loss": 0.6692,
      "num_input_tokens_seen": 8796552,
      "step": 15145
    },
    {
      "epoch": 2.2564789991063448,
      "grad_norm": 3.5276663303375244,
      "learning_rate": 4.997498552586382e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 8799496,
      "step": 15150
    },
    {
      "epoch": 2.257223711647304,
      "grad_norm": 5.502992153167725,
      "learning_rate": 4.9974839990660124e-05,
      "loss": 0.6054,
      "num_input_tokens_seen": 8802376,
      "step": 15155
    },
    {
      "epoch": 2.257968424188263,
      "grad_norm": 9.883878707885742,
      "learning_rate": 4.997469403353189e-05,
      "loss": 0.5451,
      "num_input_tokens_seen": 8805288,
      "step": 15160
    },
    {
      "epoch": 2.2587131367292224,
      "grad_norm": 9.842723846435547,
      "learning_rate": 4.9974547654481585e-05,
      "loss": 0.4319,
      "num_input_tokens_seen": 8808200,
      "step": 15165
    },
    {
      "epoch": 2.2594578492701816,
      "grad_norm": 5.522241592407227,
      "learning_rate": 4.997440085351168e-05,
      "loss": 0.5242,
      "num_input_tokens_seen": 8811112,
      "step": 15170
    },
    {
      "epoch": 2.2602025618111408,
      "grad_norm": 9.289767265319824,
      "learning_rate": 4.9974253630624654e-05,
      "loss": 0.5477,
      "num_input_tokens_seen": 8813800,
      "step": 15175
    },
    {
      "epoch": 2.2609472743521,
      "grad_norm": 6.693668365478516,
      "learning_rate": 4.9974105985822996e-05,
      "loss": 0.4261,
      "num_input_tokens_seen": 8816488,
      "step": 15180
    },
    {
      "epoch": 2.261691986893059,
      "grad_norm": 2.3935766220092773,
      "learning_rate": 4.997395791910919e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 8819304,
      "step": 15185
    },
    {
      "epoch": 2.2624366994340184,
      "grad_norm": 4.978869438171387,
      "learning_rate": 4.997380943048576e-05,
      "loss": 0.2161,
      "num_input_tokens_seen": 8822248,
      "step": 15190
    },
    {
      "epoch": 2.2631814119749776,
      "grad_norm": 12.446481704711914,
      "learning_rate": 4.99736605199552e-05,
      "loss": 0.4663,
      "num_input_tokens_seen": 8824904,
      "step": 15195
    },
    {
      "epoch": 2.2639261245159368,
      "grad_norm": 8.341961860656738,
      "learning_rate": 4.9973511187520025e-05,
      "loss": 0.8946,
      "num_input_tokens_seen": 8827880,
      "step": 15200
    },
    {
      "epoch": 2.264670837056896,
      "grad_norm": 18.258338928222656,
      "learning_rate": 4.9973361433182764e-05,
      "loss": 0.6087,
      "num_input_tokens_seen": 8830440,
      "step": 15205
    },
    {
      "epoch": 2.265415549597855,
      "grad_norm": 7.8631510734558105,
      "learning_rate": 4.997321125694594e-05,
      "loss": 0.5468,
      "num_input_tokens_seen": 8833544,
      "step": 15210
    },
    {
      "epoch": 2.2661602621388144,
      "grad_norm": 11.60019588470459,
      "learning_rate": 4.99730606588121e-05,
      "loss": 0.5088,
      "num_input_tokens_seen": 8836520,
      "step": 15215
    },
    {
      "epoch": 2.2669049746797736,
      "grad_norm": 8.370277404785156,
      "learning_rate": 4.997290963878377e-05,
      "loss": 0.5487,
      "num_input_tokens_seen": 8839336,
      "step": 15220
    },
    {
      "epoch": 2.267649687220733,
      "grad_norm": 4.890322208404541,
      "learning_rate": 4.9972758196863524e-05,
      "loss": 0.6799,
      "num_input_tokens_seen": 8842312,
      "step": 15225
    },
    {
      "epoch": 2.268394399761692,
      "grad_norm": 5.205677509307861,
      "learning_rate": 4.9972606333053903e-05,
      "loss": 0.5881,
      "num_input_tokens_seen": 8845256,
      "step": 15230
    },
    {
      "epoch": 2.269139112302651,
      "grad_norm": 5.991873264312744,
      "learning_rate": 4.997245404735748e-05,
      "loss": 0.5312,
      "num_input_tokens_seen": 8848488,
      "step": 15235
    },
    {
      "epoch": 2.2698838248436104,
      "grad_norm": 5.393682479858398,
      "learning_rate": 4.997230133977683e-05,
      "loss": 0.5685,
      "num_input_tokens_seen": 8851624,
      "step": 15240
    },
    {
      "epoch": 2.2706285373845696,
      "grad_norm": 6.556438446044922,
      "learning_rate": 4.997214821031453e-05,
      "loss": 0.5235,
      "num_input_tokens_seen": 8854376,
      "step": 15245
    },
    {
      "epoch": 2.271373249925529,
      "grad_norm": 5.093841552734375,
      "learning_rate": 4.997199465897316e-05,
      "loss": 0.6056,
      "num_input_tokens_seen": 8857544,
      "step": 15250
    },
    {
      "epoch": 2.272117962466488,
      "grad_norm": 7.348211288452148,
      "learning_rate": 4.9971840685755324e-05,
      "loss": 0.451,
      "num_input_tokens_seen": 8860328,
      "step": 15255
    },
    {
      "epoch": 2.272862675007447,
      "grad_norm": 2.969709634780884,
      "learning_rate": 4.997168629066362e-05,
      "loss": 0.4898,
      "num_input_tokens_seen": 8863400,
      "step": 15260
    },
    {
      "epoch": 2.2736073875484064,
      "grad_norm": 6.473138809204102,
      "learning_rate": 4.9971531473700654e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 8866184,
      "step": 15265
    },
    {
      "epoch": 2.2743521000893656,
      "grad_norm": 5.250321865081787,
      "learning_rate": 4.997137623486905e-05,
      "loss": 0.4056,
      "num_input_tokens_seen": 8869480,
      "step": 15270
    },
    {
      "epoch": 2.275096812630325,
      "grad_norm": 11.988497734069824,
      "learning_rate": 4.9971220574171415e-05,
      "loss": 0.5557,
      "num_input_tokens_seen": 8872328,
      "step": 15275
    },
    {
      "epoch": 2.275841525171284,
      "grad_norm": 7.971912384033203,
      "learning_rate": 4.9971064491610396e-05,
      "loss": 0.5622,
      "num_input_tokens_seen": 8875240,
      "step": 15280
    },
    {
      "epoch": 2.276586237712243,
      "grad_norm": 2.1904587745666504,
      "learning_rate": 4.997090798718862e-05,
      "loss": 0.3973,
      "num_input_tokens_seen": 8877992,
      "step": 15285
    },
    {
      "epoch": 2.2773309502532024,
      "grad_norm": 12.62092113494873,
      "learning_rate": 4.9970751060908735e-05,
      "loss": 0.4452,
      "num_input_tokens_seen": 8880904,
      "step": 15290
    },
    {
      "epoch": 2.2780756627941616,
      "grad_norm": 12.123600959777832,
      "learning_rate": 4.997059371277339e-05,
      "loss": 0.6173,
      "num_input_tokens_seen": 8883912,
      "step": 15295
    },
    {
      "epoch": 2.278820375335121,
      "grad_norm": 8.91528034210205,
      "learning_rate": 4.997043594278523e-05,
      "loss": 0.5838,
      "num_input_tokens_seen": 8886728,
      "step": 15300
    },
    {
      "epoch": 2.2795650878760796,
      "grad_norm": 11.414225578308105,
      "learning_rate": 4.997027775094695e-05,
      "loss": 0.7694,
      "num_input_tokens_seen": 8889672,
      "step": 15305
    },
    {
      "epoch": 2.2803098004170392,
      "grad_norm": 5.7163310050964355,
      "learning_rate": 4.99701191372612e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 8892488,
      "step": 15310
    },
    {
      "epoch": 2.281054512957998,
      "grad_norm": 5.419609069824219,
      "learning_rate": 4.9969960101730664e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 8895112,
      "step": 15315
    },
    {
      "epoch": 2.2817992254989576,
      "grad_norm": 7.95657205581665,
      "learning_rate": 4.996980064435803e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 8898088,
      "step": 15320
    },
    {
      "epoch": 2.2825439380399164,
      "grad_norm": 3.4932987689971924,
      "learning_rate": 4.9969640765145996e-05,
      "loss": 0.3573,
      "num_input_tokens_seen": 8901352,
      "step": 15325
    },
    {
      "epoch": 2.2832886505808756,
      "grad_norm": 12.041500091552734,
      "learning_rate": 4.9969480464097255e-05,
      "loss": 0.5064,
      "num_input_tokens_seen": 8903976,
      "step": 15330
    },
    {
      "epoch": 2.284033363121835,
      "grad_norm": 8.253522872924805,
      "learning_rate": 4.9969319741214525e-05,
      "loss": 0.5949,
      "num_input_tokens_seen": 8907112,
      "step": 15335
    },
    {
      "epoch": 2.284778075662794,
      "grad_norm": 10.366082191467285,
      "learning_rate": 4.996915859650051e-05,
      "loss": 0.7989,
      "num_input_tokens_seen": 8909800,
      "step": 15340
    },
    {
      "epoch": 2.285522788203753,
      "grad_norm": 6.90175199508667,
      "learning_rate": 4.996899702995794e-05,
      "loss": 0.5166,
      "num_input_tokens_seen": 8912776,
      "step": 15345
    },
    {
      "epoch": 2.2862675007447124,
      "grad_norm": 6.349534034729004,
      "learning_rate": 4.9968835041589546e-05,
      "loss": 0.3823,
      "num_input_tokens_seen": 8915656,
      "step": 15350
    },
    {
      "epoch": 2.2870122132856716,
      "grad_norm": 1.6858351230621338,
      "learning_rate": 4.996867263139806e-05,
      "loss": 0.4389,
      "num_input_tokens_seen": 8918376,
      "step": 15355
    },
    {
      "epoch": 2.287756925826631,
      "grad_norm": 4.964190483093262,
      "learning_rate": 4.996850979938622e-05,
      "loss": 0.5823,
      "num_input_tokens_seen": 8921000,
      "step": 15360
    },
    {
      "epoch": 2.28850163836759,
      "grad_norm": 6.783538818359375,
      "learning_rate": 4.996834654555679e-05,
      "loss": 0.3107,
      "num_input_tokens_seen": 8923784,
      "step": 15365
    },
    {
      "epoch": 2.289246350908549,
      "grad_norm": 10.974350929260254,
      "learning_rate": 4.9968182869912525e-05,
      "loss": 0.6921,
      "num_input_tokens_seen": 8926632,
      "step": 15370
    },
    {
      "epoch": 2.2899910634495084,
      "grad_norm": 7.984938144683838,
      "learning_rate": 4.9968018772456185e-05,
      "loss": 0.5551,
      "num_input_tokens_seen": 8929640,
      "step": 15375
    },
    {
      "epoch": 2.2907357759904676,
      "grad_norm": 5.73866081237793,
      "learning_rate": 4.9967854253190536e-05,
      "loss": 0.5738,
      "num_input_tokens_seen": 8932296,
      "step": 15380
    },
    {
      "epoch": 2.291480488531427,
      "grad_norm": 5.1191086769104,
      "learning_rate": 4.996768931211837e-05,
      "loss": 0.5024,
      "num_input_tokens_seen": 8935016,
      "step": 15385
    },
    {
      "epoch": 2.292225201072386,
      "grad_norm": 11.758270263671875,
      "learning_rate": 4.996752394924247e-05,
      "loss": 0.5489,
      "num_input_tokens_seen": 8937864,
      "step": 15390
    },
    {
      "epoch": 2.2929699136133452,
      "grad_norm": 7.034584045410156,
      "learning_rate": 4.996735816456564e-05,
      "loss": 0.4964,
      "num_input_tokens_seen": 8940552,
      "step": 15395
    },
    {
      "epoch": 2.2937146261543044,
      "grad_norm": 6.3434157371521,
      "learning_rate": 4.9967191958090656e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 8943112,
      "step": 15400
    },
    {
      "epoch": 2.2944593386952636,
      "grad_norm": 10.06978988647461,
      "learning_rate": 4.996702532982034e-05,
      "loss": 0.7841,
      "num_input_tokens_seen": 8945800,
      "step": 15405
    },
    {
      "epoch": 2.295204051236223,
      "grad_norm": 4.102841854095459,
      "learning_rate": 4.99668582797575e-05,
      "loss": 0.6635,
      "num_input_tokens_seen": 8948616,
      "step": 15410
    },
    {
      "epoch": 2.295948763777182,
      "grad_norm": 12.941375732421875,
      "learning_rate": 4.996669080790498e-05,
      "loss": 0.6376,
      "num_input_tokens_seen": 8951528,
      "step": 15415
    },
    {
      "epoch": 2.2966934763181412,
      "grad_norm": 5.527368068695068,
      "learning_rate": 4.996652291426559e-05,
      "loss": 0.2759,
      "num_input_tokens_seen": 8954504,
      "step": 15420
    },
    {
      "epoch": 2.2974381888591004,
      "grad_norm": 14.11815071105957,
      "learning_rate": 4.996635459884216e-05,
      "loss": 0.8601,
      "num_input_tokens_seen": 8957320,
      "step": 15425
    },
    {
      "epoch": 2.2981829014000597,
      "grad_norm": 5.224531650543213,
      "learning_rate": 4.996618586163755e-05,
      "loss": 0.4812,
      "num_input_tokens_seen": 8960264,
      "step": 15430
    },
    {
      "epoch": 2.298927613941019,
      "grad_norm": 8.263169288635254,
      "learning_rate": 4.996601670265461e-05,
      "loss": 0.7157,
      "num_input_tokens_seen": 8963208,
      "step": 15435
    },
    {
      "epoch": 2.299672326481978,
      "grad_norm": 11.134286880493164,
      "learning_rate": 4.996584712189618e-05,
      "loss": 0.6312,
      "num_input_tokens_seen": 8965896,
      "step": 15440
    },
    {
      "epoch": 2.3004170390229373,
      "grad_norm": 19.622419357299805,
      "learning_rate": 4.996567711936515e-05,
      "loss": 0.6893,
      "num_input_tokens_seen": 8968680,
      "step": 15445
    },
    {
      "epoch": 2.3011617515638965,
      "grad_norm": 5.983244895935059,
      "learning_rate": 4.996550669506438e-05,
      "loss": 0.6571,
      "num_input_tokens_seen": 8971784,
      "step": 15450
    },
    {
      "epoch": 2.3019064641048557,
      "grad_norm": 3.919656991958618,
      "learning_rate": 4.996533584899674e-05,
      "loss": 0.4639,
      "num_input_tokens_seen": 8974664,
      "step": 15455
    },
    {
      "epoch": 2.302651176645815,
      "grad_norm": 4.883657932281494,
      "learning_rate": 4.996516458116512e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 8978120,
      "step": 15460
    },
    {
      "epoch": 2.303395889186774,
      "grad_norm": 9.783519744873047,
      "learning_rate": 4.9964992891572425e-05,
      "loss": 0.7366,
      "num_input_tokens_seen": 8981320,
      "step": 15465
    },
    {
      "epoch": 2.3041406017277333,
      "grad_norm": 2.4993271827697754,
      "learning_rate": 4.996482078022155e-05,
      "loss": 0.6319,
      "num_input_tokens_seen": 8984488,
      "step": 15470
    },
    {
      "epoch": 2.3048853142686925,
      "grad_norm": 4.009057998657227,
      "learning_rate": 4.9964648247115395e-05,
      "loss": 0.5248,
      "num_input_tokens_seen": 8987368,
      "step": 15475
    },
    {
      "epoch": 2.3056300268096512,
      "grad_norm": 7.773391246795654,
      "learning_rate": 4.9964475292256884e-05,
      "loss": 0.5986,
      "num_input_tokens_seen": 8990472,
      "step": 15480
    },
    {
      "epoch": 2.306374739350611,
      "grad_norm": 3.586780548095703,
      "learning_rate": 4.996430191564894e-05,
      "loss": 0.5599,
      "num_input_tokens_seen": 8993448,
      "step": 15485
    },
    {
      "epoch": 2.3071194518915696,
      "grad_norm": 6.806610107421875,
      "learning_rate": 4.996412811729448e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 8996328,
      "step": 15490
    },
    {
      "epoch": 2.3078641644325293,
      "grad_norm": 6.734481334686279,
      "learning_rate": 4.996395389719646e-05,
      "loss": 0.579,
      "num_input_tokens_seen": 8998824,
      "step": 15495
    },
    {
      "epoch": 2.308608876973488,
      "grad_norm": 10.89413833618164,
      "learning_rate": 4.99637792553578e-05,
      "loss": 0.5357,
      "num_input_tokens_seen": 9001608,
      "step": 15500
    },
    {
      "epoch": 2.3093535895144472,
      "grad_norm": 2.099490165710449,
      "learning_rate": 4.996360419178147e-05,
      "loss": 0.5686,
      "num_input_tokens_seen": 9004456,
      "step": 15505
    },
    {
      "epoch": 2.3100983020554064,
      "grad_norm": 8.612221717834473,
      "learning_rate": 4.9963428706470405e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 9007720,
      "step": 15510
    },
    {
      "epoch": 2.3108430145963657,
      "grad_norm": 6.420801639556885,
      "learning_rate": 4.9963252799427594e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 9010664,
      "step": 15515
    },
    {
      "epoch": 2.311587727137325,
      "grad_norm": 11.637338638305664,
      "learning_rate": 4.9963076470655995e-05,
      "loss": 0.4499,
      "num_input_tokens_seen": 9013608,
      "step": 15520
    },
    {
      "epoch": 2.312332439678284,
      "grad_norm": 13.912803649902344,
      "learning_rate": 4.996289972015859e-05,
      "loss": 0.6625,
      "num_input_tokens_seen": 9016360,
      "step": 15525
    },
    {
      "epoch": 2.3130771522192433,
      "grad_norm": 13.599077224731445,
      "learning_rate": 4.9962722547938365e-05,
      "loss": 0.7122,
      "num_input_tokens_seen": 9019496,
      "step": 15530
    },
    {
      "epoch": 2.3138218647602025,
      "grad_norm": 7.2266340255737305,
      "learning_rate": 4.9962544953998316e-05,
      "loss": 0.622,
      "num_input_tokens_seen": 9022344,
      "step": 15535
    },
    {
      "epoch": 2.3145665773011617,
      "grad_norm": 4.280980587005615,
      "learning_rate": 4.996236693834144e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 9025352,
      "step": 15540
    },
    {
      "epoch": 2.315311289842121,
      "grad_norm": 7.394837379455566,
      "learning_rate": 4.996218850097075e-05,
      "loss": 0.8361,
      "num_input_tokens_seen": 9028136,
      "step": 15545
    },
    {
      "epoch": 2.31605600238308,
      "grad_norm": 5.220242977142334,
      "learning_rate": 4.996200964188925e-05,
      "loss": 0.5152,
      "num_input_tokens_seen": 9031144,
      "step": 15550
    },
    {
      "epoch": 2.3168007149240393,
      "grad_norm": 13.642300605773926,
      "learning_rate": 4.996183036109997e-05,
      "loss": 0.5115,
      "num_input_tokens_seen": 9034120,
      "step": 15555
    },
    {
      "epoch": 2.3175454274649985,
      "grad_norm": 4.097108364105225,
      "learning_rate": 4.996165065860594e-05,
      "loss": 0.4406,
      "num_input_tokens_seen": 9036840,
      "step": 15560
    },
    {
      "epoch": 2.3182901400059577,
      "grad_norm": 5.319685459136963,
      "learning_rate": 4.996147053441018e-05,
      "loss": 0.4374,
      "num_input_tokens_seen": 9039784,
      "step": 15565
    },
    {
      "epoch": 2.319034852546917,
      "grad_norm": 10.884939193725586,
      "learning_rate": 4.996128998851575e-05,
      "loss": 0.5043,
      "num_input_tokens_seen": 9042696,
      "step": 15570
    },
    {
      "epoch": 2.319779565087876,
      "grad_norm": 4.26300573348999,
      "learning_rate": 4.99611090209257e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 9045864,
      "step": 15575
    },
    {
      "epoch": 2.3205242776288353,
      "grad_norm": 9.002732276916504,
      "learning_rate": 4.9960927631643086e-05,
      "loss": 0.5583,
      "num_input_tokens_seen": 9048744,
      "step": 15580
    },
    {
      "epoch": 2.3212689901697945,
      "grad_norm": 16.770103454589844,
      "learning_rate": 4.996074582067096e-05,
      "loss": 0.5812,
      "num_input_tokens_seen": 9051592,
      "step": 15585
    },
    {
      "epoch": 2.3220137027107537,
      "grad_norm": 4.844848155975342,
      "learning_rate": 4.9960563588012396e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 9054568,
      "step": 15590
    },
    {
      "epoch": 2.322758415251713,
      "grad_norm": 9.390178680419922,
      "learning_rate": 4.9960380933670495e-05,
      "loss": 0.7184,
      "num_input_tokens_seen": 9057544,
      "step": 15595
    },
    {
      "epoch": 2.323503127792672,
      "grad_norm": 4.629108428955078,
      "learning_rate": 4.996019785764832e-05,
      "loss": 0.4843,
      "num_input_tokens_seen": 9060264,
      "step": 15600
    },
    {
      "epoch": 2.3242478403336313,
      "grad_norm": 4.66224479675293,
      "learning_rate": 4.996001435994897e-05,
      "loss": 0.605,
      "num_input_tokens_seen": 9063112,
      "step": 15605
    },
    {
      "epoch": 2.3249925528745905,
      "grad_norm": 8.214091300964355,
      "learning_rate": 4.995983044057554e-05,
      "loss": 0.4719,
      "num_input_tokens_seen": 9065896,
      "step": 15610
    },
    {
      "epoch": 2.3257372654155497,
      "grad_norm": 11.14837646484375,
      "learning_rate": 4.9959646099531156e-05,
      "loss": 0.3466,
      "num_input_tokens_seen": 9068968,
      "step": 15615
    },
    {
      "epoch": 2.326481977956509,
      "grad_norm": 6.695839881896973,
      "learning_rate": 4.99594613368189e-05,
      "loss": 0.5862,
      "num_input_tokens_seen": 9071976,
      "step": 15620
    },
    {
      "epoch": 2.327226690497468,
      "grad_norm": 5.626602649688721,
      "learning_rate": 4.995927615244193e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 9075016,
      "step": 15625
    },
    {
      "epoch": 2.3279714030384273,
      "grad_norm": 6.142465591430664,
      "learning_rate": 4.9959090546403356e-05,
      "loss": 0.5982,
      "num_input_tokens_seen": 9078088,
      "step": 15630
    },
    {
      "epoch": 2.3287161155793865,
      "grad_norm": 8.261138916015625,
      "learning_rate": 4.9958904518706305e-05,
      "loss": 0.7092,
      "num_input_tokens_seen": 9081224,
      "step": 15635
    },
    {
      "epoch": 2.3294608281203457,
      "grad_norm": 11.146541595458984,
      "learning_rate": 4.9958718069353935e-05,
      "loss": 0.4234,
      "num_input_tokens_seen": 9084200,
      "step": 15640
    },
    {
      "epoch": 2.330205540661305,
      "grad_norm": 3.8604917526245117,
      "learning_rate": 4.9958531198349384e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 9086952,
      "step": 15645
    },
    {
      "epoch": 2.330950253202264,
      "grad_norm": 3.801811933517456,
      "learning_rate": 4.9958343905695823e-05,
      "loss": 0.4032,
      "num_input_tokens_seen": 9090024,
      "step": 15650
    },
    {
      "epoch": 2.331694965743223,
      "grad_norm": 14.659889221191406,
      "learning_rate": 4.99581561913964e-05,
      "loss": 0.4484,
      "num_input_tokens_seen": 9092872,
      "step": 15655
    },
    {
      "epoch": 2.3324396782841825,
      "grad_norm": 6.901055335998535,
      "learning_rate": 4.99579680554543e-05,
      "loss": 0.5727,
      "num_input_tokens_seen": 9095752,
      "step": 15660
    },
    {
      "epoch": 2.3331843908251413,
      "grad_norm": 7.114753246307373,
      "learning_rate": 4.99577794978727e-05,
      "loss": 0.5115,
      "num_input_tokens_seen": 9099048,
      "step": 15665
    },
    {
      "epoch": 2.333929103366101,
      "grad_norm": 3.6860876083374023,
      "learning_rate": 4.995759051865477e-05,
      "loss": 0.5489,
      "num_input_tokens_seen": 9101928,
      "step": 15670
    },
    {
      "epoch": 2.3346738159070597,
      "grad_norm": 9.0664644241333,
      "learning_rate": 4.995740111780372e-05,
      "loss": 0.8451,
      "num_input_tokens_seen": 9105352,
      "step": 15675
    },
    {
      "epoch": 2.335418528448019,
      "grad_norm": 5.752729415893555,
      "learning_rate": 4.995721129532275e-05,
      "loss": 0.6442,
      "num_input_tokens_seen": 9108264,
      "step": 15680
    },
    {
      "epoch": 2.336163240988978,
      "grad_norm": 9.82129955291748,
      "learning_rate": 4.9957021051215055e-05,
      "loss": 0.529,
      "num_input_tokens_seen": 9111144,
      "step": 15685
    },
    {
      "epoch": 2.3369079535299373,
      "grad_norm": 3.3688457012176514,
      "learning_rate": 4.995683038548385e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 9114088,
      "step": 15690
    },
    {
      "epoch": 2.3376526660708965,
      "grad_norm": 6.261267185211182,
      "learning_rate": 4.995663929813237e-05,
      "loss": 0.6073,
      "num_input_tokens_seen": 9117256,
      "step": 15695
    },
    {
      "epoch": 2.3383973786118557,
      "grad_norm": 14.220641136169434,
      "learning_rate": 4.995644778916383e-05,
      "loss": 0.523,
      "num_input_tokens_seen": 9120200,
      "step": 15700
    },
    {
      "epoch": 2.339142091152815,
      "grad_norm": 15.368054389953613,
      "learning_rate": 4.995625585858146e-05,
      "loss": 0.518,
      "num_input_tokens_seen": 9122920,
      "step": 15705
    },
    {
      "epoch": 2.339886803693774,
      "grad_norm": 13.83393383026123,
      "learning_rate": 4.9956063506388524e-05,
      "loss": 0.4605,
      "num_input_tokens_seen": 9125800,
      "step": 15710
    },
    {
      "epoch": 2.3406315162347333,
      "grad_norm": 3.838599443435669,
      "learning_rate": 4.995587073258825e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 9128968,
      "step": 15715
    },
    {
      "epoch": 2.3413762287756925,
      "grad_norm": 5.220848083496094,
      "learning_rate": 4.995567753718391e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 9131848,
      "step": 15720
    },
    {
      "epoch": 2.3421209413166517,
      "grad_norm": 4.2813544273376465,
      "learning_rate": 4.995548392017876e-05,
      "loss": 0.4604,
      "num_input_tokens_seen": 9134568,
      "step": 15725
    },
    {
      "epoch": 2.342865653857611,
      "grad_norm": 5.174298286437988,
      "learning_rate": 4.995528988157608e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 9137096,
      "step": 15730
    },
    {
      "epoch": 2.34361036639857,
      "grad_norm": 8.550566673278809,
      "learning_rate": 4.995509542137913e-05,
      "loss": 0.6358,
      "num_input_tokens_seen": 9140424,
      "step": 15735
    },
    {
      "epoch": 2.3443550789395293,
      "grad_norm": 12.448356628417969,
      "learning_rate": 4.995490053959121e-05,
      "loss": 0.4077,
      "num_input_tokens_seen": 9143560,
      "step": 15740
    },
    {
      "epoch": 2.3450997914804885,
      "grad_norm": 7.399427890777588,
      "learning_rate": 4.995470523621561e-05,
      "loss": 0.4752,
      "num_input_tokens_seen": 9146792,
      "step": 15745
    },
    {
      "epoch": 2.3458445040214477,
      "grad_norm": 10.099397659301758,
      "learning_rate": 4.9954509511255625e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 9149384,
      "step": 15750
    },
    {
      "epoch": 2.346589216562407,
      "grad_norm": 3.9753713607788086,
      "learning_rate": 4.9954313364714565e-05,
      "loss": 0.4227,
      "num_input_tokens_seen": 9152136,
      "step": 15755
    },
    {
      "epoch": 2.347333929103366,
      "grad_norm": 13.820009231567383,
      "learning_rate": 4.9954116796595754e-05,
      "loss": 0.5372,
      "num_input_tokens_seen": 9154888,
      "step": 15760
    },
    {
      "epoch": 2.3480786416443253,
      "grad_norm": 1.900229811668396,
      "learning_rate": 4.9953919806902486e-05,
      "loss": 0.4068,
      "num_input_tokens_seen": 9157576,
      "step": 15765
    },
    {
      "epoch": 2.3488233541852845,
      "grad_norm": 14.0820894241333,
      "learning_rate": 4.9953722395638115e-05,
      "loss": 0.4696,
      "num_input_tokens_seen": 9160264,
      "step": 15770
    },
    {
      "epoch": 2.3495680667262437,
      "grad_norm": 3.414233922958374,
      "learning_rate": 4.995352456280596e-05,
      "loss": 0.5038,
      "num_input_tokens_seen": 9163208,
      "step": 15775
    },
    {
      "epoch": 2.350312779267203,
      "grad_norm": 5.967093467712402,
      "learning_rate": 4.9953326308409364e-05,
      "loss": 0.5828,
      "num_input_tokens_seen": 9166024,
      "step": 15780
    },
    {
      "epoch": 2.351057491808162,
      "grad_norm": 7.481500148773193,
      "learning_rate": 4.9953127632451694e-05,
      "loss": 0.7272,
      "num_input_tokens_seen": 9168936,
      "step": 15785
    },
    {
      "epoch": 2.3518022043491214,
      "grad_norm": 4.191404819488525,
      "learning_rate": 4.995292853493629e-05,
      "loss": 0.4367,
      "num_input_tokens_seen": 9171720,
      "step": 15790
    },
    {
      "epoch": 2.3525469168900806,
      "grad_norm": 8.701382637023926,
      "learning_rate": 4.995272901586652e-05,
      "loss": 0.7776,
      "num_input_tokens_seen": 9174792,
      "step": 15795
    },
    {
      "epoch": 2.3532916294310398,
      "grad_norm": 5.605074882507324,
      "learning_rate": 4.9952529075245744e-05,
      "loss": 0.5518,
      "num_input_tokens_seen": 9177832,
      "step": 15800
    },
    {
      "epoch": 2.354036341971999,
      "grad_norm": 2.7402939796447754,
      "learning_rate": 4.995232871307736e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 9180680,
      "step": 15805
    },
    {
      "epoch": 2.354781054512958,
      "grad_norm": 11.411480903625488,
      "learning_rate": 4.9952127929364746e-05,
      "loss": 0.5821,
      "num_input_tokens_seen": 9183432,
      "step": 15810
    },
    {
      "epoch": 2.3555257670539174,
      "grad_norm": 5.534420967102051,
      "learning_rate": 4.995192672411128e-05,
      "loss": 0.5003,
      "num_input_tokens_seen": 9186184,
      "step": 15815
    },
    {
      "epoch": 2.3562704795948766,
      "grad_norm": 11.762029647827148,
      "learning_rate": 4.995172509732038e-05,
      "loss": 0.5776,
      "num_input_tokens_seen": 9189064,
      "step": 15820
    },
    {
      "epoch": 2.3570151921358358,
      "grad_norm": 3.122443199157715,
      "learning_rate": 4.995152304899544e-05,
      "loss": 0.5134,
      "num_input_tokens_seen": 9192296,
      "step": 15825
    },
    {
      "epoch": 2.3577599046767945,
      "grad_norm": 2.5169336795806885,
      "learning_rate": 4.9951320579139884e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 9195336,
      "step": 15830
    },
    {
      "epoch": 2.358504617217754,
      "grad_norm": 10.492056846618652,
      "learning_rate": 4.995111768775712e-05,
      "loss": 0.5536,
      "num_input_tokens_seen": 9198216,
      "step": 15835
    },
    {
      "epoch": 2.359249329758713,
      "grad_norm": 8.401945114135742,
      "learning_rate": 4.995091437485058e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 9201256,
      "step": 15840
    },
    {
      "epoch": 2.359994042299672,
      "grad_norm": 10.595887184143066,
      "learning_rate": 4.9950710640423705e-05,
      "loss": 0.5109,
      "num_input_tokens_seen": 9204232,
      "step": 15845
    },
    {
      "epoch": 2.3607387548406313,
      "grad_norm": 12.100330352783203,
      "learning_rate": 4.9950506484479934e-05,
      "loss": 0.7518,
      "num_input_tokens_seen": 9207272,
      "step": 15850
    },
    {
      "epoch": 2.3614834673815905,
      "grad_norm": 14.892801284790039,
      "learning_rate": 4.995030190702271e-05,
      "loss": 0.6693,
      "num_input_tokens_seen": 9210120,
      "step": 15855
    },
    {
      "epoch": 2.3622281799225497,
      "grad_norm": 6.349918842315674,
      "learning_rate": 4.99500969080555e-05,
      "loss": 0.548,
      "num_input_tokens_seen": 9213160,
      "step": 15860
    },
    {
      "epoch": 2.362972892463509,
      "grad_norm": 7.9314775466918945,
      "learning_rate": 4.994989148758176e-05,
      "loss": 0.6494,
      "num_input_tokens_seen": 9216296,
      "step": 15865
    },
    {
      "epoch": 2.363717605004468,
      "grad_norm": 8.85185718536377,
      "learning_rate": 4.994968564560495e-05,
      "loss": 0.5729,
      "num_input_tokens_seen": 9219016,
      "step": 15870
    },
    {
      "epoch": 2.3644623175454274,
      "grad_norm": 5.621850967407227,
      "learning_rate": 4.994947938212857e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 9221928,
      "step": 15875
    },
    {
      "epoch": 2.3652070300863866,
      "grad_norm": 3.6089131832122803,
      "learning_rate": 4.994927269715609e-05,
      "loss": 0.6,
      "num_input_tokens_seen": 9224968,
      "step": 15880
    },
    {
      "epoch": 2.3659517426273458,
      "grad_norm": 3.4823830127716064,
      "learning_rate": 4.9949065590691e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 9227656,
      "step": 15885
    },
    {
      "epoch": 2.366696455168305,
      "grad_norm": 5.361920356750488,
      "learning_rate": 4.9948858062736814e-05,
      "loss": 0.4585,
      "num_input_tokens_seen": 9230568,
      "step": 15890
    },
    {
      "epoch": 2.367441167709264,
      "grad_norm": 6.0961012840271,
      "learning_rate": 4.994865011329702e-05,
      "loss": 0.4251,
      "num_input_tokens_seen": 9233576,
      "step": 15895
    },
    {
      "epoch": 2.3681858802502234,
      "grad_norm": 9.276161193847656,
      "learning_rate": 4.994844174237514e-05,
      "loss": 0.6022,
      "num_input_tokens_seen": 9236328,
      "step": 15900
    },
    {
      "epoch": 2.3689305927911826,
      "grad_norm": 12.348986625671387,
      "learning_rate": 4.99482329499747e-05,
      "loss": 0.5807,
      "num_input_tokens_seen": 9239272,
      "step": 15905
    },
    {
      "epoch": 2.3696753053321418,
      "grad_norm": 7.457466125488281,
      "learning_rate": 4.994802373609922e-05,
      "loss": 0.389,
      "num_input_tokens_seen": 9242024,
      "step": 15910
    },
    {
      "epoch": 2.370420017873101,
      "grad_norm": 2.4895670413970947,
      "learning_rate": 4.9947814100752226e-05,
      "loss": 0.2614,
      "num_input_tokens_seen": 9244776,
      "step": 15915
    },
    {
      "epoch": 2.37116473041406,
      "grad_norm": 6.6995463371276855,
      "learning_rate": 4.994760404393727e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 9247560,
      "step": 15920
    },
    {
      "epoch": 2.3719094429550194,
      "grad_norm": 9.619256973266602,
      "learning_rate": 4.994739356565791e-05,
      "loss": 0.6402,
      "num_input_tokens_seen": 9250312,
      "step": 15925
    },
    {
      "epoch": 2.3726541554959786,
      "grad_norm": 7.479992389678955,
      "learning_rate": 4.994718266591768e-05,
      "loss": 0.4361,
      "num_input_tokens_seen": 9253192,
      "step": 15930
    },
    {
      "epoch": 2.373398868036938,
      "grad_norm": 10.209127426147461,
      "learning_rate": 4.994697134472016e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 9256072,
      "step": 15935
    },
    {
      "epoch": 2.374143580577897,
      "grad_norm": 11.106033325195312,
      "learning_rate": 4.994675960206891e-05,
      "loss": 0.6081,
      "num_input_tokens_seen": 9258856,
      "step": 15940
    },
    {
      "epoch": 2.374888293118856,
      "grad_norm": 12.710901260375977,
      "learning_rate": 4.9946547437967515e-05,
      "loss": 0.7351,
      "num_input_tokens_seen": 9261640,
      "step": 15945
    },
    {
      "epoch": 2.3756330056598154,
      "grad_norm": 13.808201789855957,
      "learning_rate": 4.9946334852419555e-05,
      "loss": 0.5512,
      "num_input_tokens_seen": 9264296,
      "step": 15950
    },
    {
      "epoch": 2.3763777182007746,
      "grad_norm": 6.204489231109619,
      "learning_rate": 4.9946121845428616e-05,
      "loss": 0.6232,
      "num_input_tokens_seen": 9267176,
      "step": 15955
    },
    {
      "epoch": 2.377122430741734,
      "grad_norm": 11.0833101272583,
      "learning_rate": 4.994590841699831e-05,
      "loss": 0.5268,
      "num_input_tokens_seen": 9270056,
      "step": 15960
    },
    {
      "epoch": 2.377867143282693,
      "grad_norm": 8.266550064086914,
      "learning_rate": 4.9945694567132227e-05,
      "loss": 0.5721,
      "num_input_tokens_seen": 9273128,
      "step": 15965
    },
    {
      "epoch": 2.378611855823652,
      "grad_norm": 4.718210697174072,
      "learning_rate": 4.9945480295834e-05,
      "loss": 0.6321,
      "num_input_tokens_seen": 9275848,
      "step": 15970
    },
    {
      "epoch": 2.3793565683646114,
      "grad_norm": 5.0812578201293945,
      "learning_rate": 4.994526560310723e-05,
      "loss": 0.4334,
      "num_input_tokens_seen": 9278696,
      "step": 15975
    },
    {
      "epoch": 2.3801012809055706,
      "grad_norm": 7.974705696105957,
      "learning_rate": 4.994505048895555e-05,
      "loss": 0.5114,
      "num_input_tokens_seen": 9281320,
      "step": 15980
    },
    {
      "epoch": 2.38084599344653,
      "grad_norm": 4.145394802093506,
      "learning_rate": 4.99448349533826e-05,
      "loss": 0.4195,
      "num_input_tokens_seen": 9284008,
      "step": 15985
    },
    {
      "epoch": 2.381590705987489,
      "grad_norm": 8.396504402160645,
      "learning_rate": 4.9944618996392014e-05,
      "loss": 0.5168,
      "num_input_tokens_seen": 9286984,
      "step": 15990
    },
    {
      "epoch": 2.382335418528448,
      "grad_norm": 8.85058879852295,
      "learning_rate": 4.994440261798743e-05,
      "loss": 0.5599,
      "num_input_tokens_seen": 9289832,
      "step": 15995
    },
    {
      "epoch": 2.3830801310694074,
      "grad_norm": 15.124116897583008,
      "learning_rate": 4.994418581817254e-05,
      "loss": 0.5878,
      "num_input_tokens_seen": 9292616,
      "step": 16000
    },
    {
      "epoch": 2.383824843610366,
      "grad_norm": 6.967005729675293,
      "learning_rate": 4.994396859695096e-05,
      "loss": 0.4163,
      "num_input_tokens_seen": 9295656,
      "step": 16005
    },
    {
      "epoch": 2.384569556151326,
      "grad_norm": 3.9745051860809326,
      "learning_rate": 4.99437509543264e-05,
      "loss": 0.6311,
      "num_input_tokens_seen": 9298600,
      "step": 16010
    },
    {
      "epoch": 2.3853142686922846,
      "grad_norm": 9.453948020935059,
      "learning_rate": 4.994353289030251e-05,
      "loss": 0.6119,
      "num_input_tokens_seen": 9301416,
      "step": 16015
    },
    {
      "epoch": 2.386058981233244,
      "grad_norm": 4.900882244110107,
      "learning_rate": 4.994331440488298e-05,
      "loss": 0.749,
      "num_input_tokens_seen": 9304232,
      "step": 16020
    },
    {
      "epoch": 2.386803693774203,
      "grad_norm": 8.097768783569336,
      "learning_rate": 4.994309549807151e-05,
      "loss": 0.5366,
      "num_input_tokens_seen": 9307240,
      "step": 16025
    },
    {
      "epoch": 2.387548406315162,
      "grad_norm": 8.559426307678223,
      "learning_rate": 4.9942876169871794e-05,
      "loss": 0.5745,
      "num_input_tokens_seen": 9310248,
      "step": 16030
    },
    {
      "epoch": 2.3882931188561214,
      "grad_norm": 12.072259902954102,
      "learning_rate": 4.9942656420287535e-05,
      "loss": 0.607,
      "num_input_tokens_seen": 9313192,
      "step": 16035
    },
    {
      "epoch": 2.3890378313970806,
      "grad_norm": 6.968328952789307,
      "learning_rate": 4.9942436249322444e-05,
      "loss": 0.5534,
      "num_input_tokens_seen": 9316456,
      "step": 16040
    },
    {
      "epoch": 2.38978254393804,
      "grad_norm": 7.389357566833496,
      "learning_rate": 4.994221565698025e-05,
      "loss": 0.5935,
      "num_input_tokens_seen": 9319624,
      "step": 16045
    },
    {
      "epoch": 2.390527256478999,
      "grad_norm": 8.92838191986084,
      "learning_rate": 4.9941994643264665e-05,
      "loss": 0.5482,
      "num_input_tokens_seen": 9322600,
      "step": 16050
    },
    {
      "epoch": 2.391271969019958,
      "grad_norm": 7.125492572784424,
      "learning_rate": 4.994177320817943e-05,
      "loss": 0.609,
      "num_input_tokens_seen": 9325640,
      "step": 16055
    },
    {
      "epoch": 2.3920166815609174,
      "grad_norm": 7.240635871887207,
      "learning_rate": 4.9941551351728286e-05,
      "loss": 0.5333,
      "num_input_tokens_seen": 9328584,
      "step": 16060
    },
    {
      "epoch": 2.3927613941018766,
      "grad_norm": 7.508950233459473,
      "learning_rate": 4.994132907391499e-05,
      "loss": 0.3937,
      "num_input_tokens_seen": 9331464,
      "step": 16065
    },
    {
      "epoch": 2.393506106642836,
      "grad_norm": 7.668947696685791,
      "learning_rate": 4.994110637474327e-05,
      "loss": 0.4509,
      "num_input_tokens_seen": 9334216,
      "step": 16070
    },
    {
      "epoch": 2.394250819183795,
      "grad_norm": 11.455750465393066,
      "learning_rate": 4.994088325421693e-05,
      "loss": 0.5166,
      "num_input_tokens_seen": 9337416,
      "step": 16075
    },
    {
      "epoch": 2.394995531724754,
      "grad_norm": 7.504952430725098,
      "learning_rate": 4.99406597123397e-05,
      "loss": 0.5119,
      "num_input_tokens_seen": 9340296,
      "step": 16080
    },
    {
      "epoch": 2.3957402442657134,
      "grad_norm": 4.251559734344482,
      "learning_rate": 4.994043574911538e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 9343112,
      "step": 16085
    },
    {
      "epoch": 2.3964849568066726,
      "grad_norm": 7.285301208496094,
      "learning_rate": 4.9940211364547744e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 9345832,
      "step": 16090
    },
    {
      "epoch": 2.397229669347632,
      "grad_norm": 4.653781890869141,
      "learning_rate": 4.9939986558640585e-05,
      "loss": 0.613,
      "num_input_tokens_seen": 9348680,
      "step": 16095
    },
    {
      "epoch": 2.397974381888591,
      "grad_norm": 6.910616874694824,
      "learning_rate": 4.99397613313977e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 9351624,
      "step": 16100
    },
    {
      "epoch": 2.3987190944295502,
      "grad_norm": 14.353314399719238,
      "learning_rate": 4.99395356828229e-05,
      "loss": 0.5948,
      "num_input_tokens_seen": 9354376,
      "step": 16105
    },
    {
      "epoch": 2.3994638069705094,
      "grad_norm": 11.000021934509277,
      "learning_rate": 4.993930961291999e-05,
      "loss": 0.5162,
      "num_input_tokens_seen": 9357256,
      "step": 16110
    },
    {
      "epoch": 2.4002085195114686,
      "grad_norm": 5.550011157989502,
      "learning_rate": 4.993908312169279e-05,
      "loss": 0.5865,
      "num_input_tokens_seen": 9360200,
      "step": 16115
    },
    {
      "epoch": 2.400953232052428,
      "grad_norm": 7.9361772537231445,
      "learning_rate": 4.9938856209145123e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 9363272,
      "step": 16120
    },
    {
      "epoch": 2.401697944593387,
      "grad_norm": 4.4051899909973145,
      "learning_rate": 4.993862887528083e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 9366504,
      "step": 16125
    },
    {
      "epoch": 2.4024426571343462,
      "grad_norm": 7.661440849304199,
      "learning_rate": 4.9938401120103755e-05,
      "loss": 0.6268,
      "num_input_tokens_seen": 9369512,
      "step": 16130
    },
    {
      "epoch": 2.4031873696753054,
      "grad_norm": 6.8978190422058105,
      "learning_rate": 4.9938172943617735e-05,
      "loss": 0.2967,
      "num_input_tokens_seen": 9372456,
      "step": 16135
    },
    {
      "epoch": 2.4039320822162646,
      "grad_norm": 7.104681015014648,
      "learning_rate": 4.993794434582663e-05,
      "loss": 0.5709,
      "num_input_tokens_seen": 9375464,
      "step": 16140
    },
    {
      "epoch": 2.404676794757224,
      "grad_norm": 7.127620697021484,
      "learning_rate": 4.99377153267343e-05,
      "loss": 0.5179,
      "num_input_tokens_seen": 9378312,
      "step": 16145
    },
    {
      "epoch": 2.405421507298183,
      "grad_norm": 7.773772716522217,
      "learning_rate": 4.9937485886344614e-05,
      "loss": 0.6089,
      "num_input_tokens_seen": 9381064,
      "step": 16150
    },
    {
      "epoch": 2.4061662198391423,
      "grad_norm": 8.415525436401367,
      "learning_rate": 4.993725602466145e-05,
      "loss": 0.4841,
      "num_input_tokens_seen": 9384104,
      "step": 16155
    },
    {
      "epoch": 2.4069109323801015,
      "grad_norm": 11.054091453552246,
      "learning_rate": 4.9937025741688694e-05,
      "loss": 0.6443,
      "num_input_tokens_seen": 9387112,
      "step": 16160
    },
    {
      "epoch": 2.4076556449210607,
      "grad_norm": 7.614118576049805,
      "learning_rate": 4.993679503743023e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 9389960,
      "step": 16165
    },
    {
      "epoch": 2.4084003574620194,
      "grad_norm": 2.494917154312134,
      "learning_rate": 4.993656391188995e-05,
      "loss": 0.442,
      "num_input_tokens_seen": 9392872,
      "step": 16170
    },
    {
      "epoch": 2.409145070002979,
      "grad_norm": 6.410074234008789,
      "learning_rate": 4.993633236507178e-05,
      "loss": 0.5541,
      "num_input_tokens_seen": 9395624,
      "step": 16175
    },
    {
      "epoch": 2.409889782543938,
      "grad_norm": 13.44320297241211,
      "learning_rate": 4.9936100396979614e-05,
      "loss": 0.6178,
      "num_input_tokens_seen": 9398824,
      "step": 16180
    },
    {
      "epoch": 2.4106344950848975,
      "grad_norm": 5.294328689575195,
      "learning_rate": 4.993586800761738e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 9401672,
      "step": 16185
    },
    {
      "epoch": 2.4113792076258562,
      "grad_norm": 2.9656243324279785,
      "learning_rate": 4.9935635196989e-05,
      "loss": 0.6208,
      "num_input_tokens_seen": 9404744,
      "step": 16190
    },
    {
      "epoch": 2.4121239201668154,
      "grad_norm": 8.70779800415039,
      "learning_rate": 4.9935401965098395e-05,
      "loss": 0.5432,
      "num_input_tokens_seen": 9407560,
      "step": 16195
    },
    {
      "epoch": 2.4128686327077746,
      "grad_norm": 3.2457728385925293,
      "learning_rate": 4.9935168311949524e-05,
      "loss": 0.3848,
      "num_input_tokens_seen": 9410440,
      "step": 16200
    },
    {
      "epoch": 2.413613345248734,
      "grad_norm": 5.665261268615723,
      "learning_rate": 4.9934934237546326e-05,
      "loss": 0.5624,
      "num_input_tokens_seen": 9413128,
      "step": 16205
    },
    {
      "epoch": 2.414358057789693,
      "grad_norm": 5.565680027008057,
      "learning_rate": 4.993469974189275e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 9416008,
      "step": 16210
    },
    {
      "epoch": 2.4151027703306522,
      "grad_norm": 16.25494956970215,
      "learning_rate": 4.993446482499278e-05,
      "loss": 0.6532,
      "num_input_tokens_seen": 9418888,
      "step": 16215
    },
    {
      "epoch": 2.4158474828716114,
      "grad_norm": 12.945655822753906,
      "learning_rate": 4.993422948685036e-05,
      "loss": 0.5322,
      "num_input_tokens_seen": 9422088,
      "step": 16220
    },
    {
      "epoch": 2.4165921954125706,
      "grad_norm": 14.359081268310547,
      "learning_rate": 4.993399372746948e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 9424936,
      "step": 16225
    },
    {
      "epoch": 2.41733690795353,
      "grad_norm": 7.704720973968506,
      "learning_rate": 4.9933757546854115e-05,
      "loss": 0.4026,
      "num_input_tokens_seen": 9427816,
      "step": 16230
    },
    {
      "epoch": 2.418081620494489,
      "grad_norm": 3.5080032348632812,
      "learning_rate": 4.993352094500825e-05,
      "loss": 0.4356,
      "num_input_tokens_seen": 9430728,
      "step": 16235
    },
    {
      "epoch": 2.4188263330354483,
      "grad_norm": 4.951023578643799,
      "learning_rate": 4.99332839219359e-05,
      "loss": 0.4921,
      "num_input_tokens_seen": 9433416,
      "step": 16240
    },
    {
      "epoch": 2.4195710455764075,
      "grad_norm": 5.677424430847168,
      "learning_rate": 4.993304647764106e-05,
      "loss": 0.6172,
      "num_input_tokens_seen": 9436168,
      "step": 16245
    },
    {
      "epoch": 2.4203157581173667,
      "grad_norm": 7.500931262969971,
      "learning_rate": 4.993280861212773e-05,
      "loss": 0.5028,
      "num_input_tokens_seen": 9439176,
      "step": 16250
    },
    {
      "epoch": 2.421060470658326,
      "grad_norm": 26.129472732543945,
      "learning_rate": 4.993257032539995e-05,
      "loss": 0.7343,
      "num_input_tokens_seen": 9441768,
      "step": 16255
    },
    {
      "epoch": 2.421805183199285,
      "grad_norm": 11.33833122253418,
      "learning_rate": 4.993233161746174e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 9444552,
      "step": 16260
    },
    {
      "epoch": 2.4225498957402443,
      "grad_norm": 19.188688278198242,
      "learning_rate": 4.993209248831711e-05,
      "loss": 0.6637,
      "num_input_tokens_seen": 9447752,
      "step": 16265
    },
    {
      "epoch": 2.4232946082812035,
      "grad_norm": 10.677291870117188,
      "learning_rate": 4.9931852937970124e-05,
      "loss": 0.5158,
      "num_input_tokens_seen": 9450568,
      "step": 16270
    },
    {
      "epoch": 2.4240393208221627,
      "grad_norm": 7.116137981414795,
      "learning_rate": 4.9931612966424824e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 9453448,
      "step": 16275
    },
    {
      "epoch": 2.424784033363122,
      "grad_norm": 11.659902572631836,
      "learning_rate": 4.993137257368526e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 9456264,
      "step": 16280
    },
    {
      "epoch": 2.425528745904081,
      "grad_norm": 9.590519905090332,
      "learning_rate": 4.99311317597555e-05,
      "loss": 0.7248,
      "num_input_tokens_seen": 9458984,
      "step": 16285
    },
    {
      "epoch": 2.4262734584450403,
      "grad_norm": 4.081055164337158,
      "learning_rate": 4.993089052463961e-05,
      "loss": 0.4524,
      "num_input_tokens_seen": 9462120,
      "step": 16290
    },
    {
      "epoch": 2.4270181709859995,
      "grad_norm": 4.263123035430908,
      "learning_rate": 4.993064886834166e-05,
      "loss": 0.5344,
      "num_input_tokens_seen": 9465160,
      "step": 16295
    },
    {
      "epoch": 2.4277628835269587,
      "grad_norm": 7.900761604309082,
      "learning_rate": 4.993040679086573e-05,
      "loss": 0.5945,
      "num_input_tokens_seen": 9467912,
      "step": 16300
    },
    {
      "epoch": 2.428507596067918,
      "grad_norm": 8.637985229492188,
      "learning_rate": 4.993016429221592e-05,
      "loss": 0.5325,
      "num_input_tokens_seen": 9471176,
      "step": 16305
    },
    {
      "epoch": 2.429252308608877,
      "grad_norm": 15.335583686828613,
      "learning_rate": 4.992992137239632e-05,
      "loss": 0.6338,
      "num_input_tokens_seen": 9474344,
      "step": 16310
    },
    {
      "epoch": 2.4299970211498363,
      "grad_norm": 6.601934432983398,
      "learning_rate": 4.992967803141104e-05,
      "loss": 0.6771,
      "num_input_tokens_seen": 9477544,
      "step": 16315
    },
    {
      "epoch": 2.4307417336907955,
      "grad_norm": 6.226349830627441,
      "learning_rate": 4.992943426926419e-05,
      "loss": 0.5823,
      "num_input_tokens_seen": 9480456,
      "step": 16320
    },
    {
      "epoch": 2.4314864462317547,
      "grad_norm": 7.5234246253967285,
      "learning_rate": 4.9929190085959874e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 9483336,
      "step": 16325
    },
    {
      "epoch": 2.432231158772714,
      "grad_norm": 7.10690450668335,
      "learning_rate": 4.9928945481502234e-05,
      "loss": 0.6487,
      "num_input_tokens_seen": 9486120,
      "step": 16330
    },
    {
      "epoch": 2.432975871313673,
      "grad_norm": 5.184370994567871,
      "learning_rate": 4.9928700455895394e-05,
      "loss": 0.5305,
      "num_input_tokens_seen": 9489064,
      "step": 16335
    },
    {
      "epoch": 2.4337205838546323,
      "grad_norm": 7.569916725158691,
      "learning_rate": 4.99284550091435e-05,
      "loss": 0.7476,
      "num_input_tokens_seen": 9491784,
      "step": 16340
    },
    {
      "epoch": 2.434465296395591,
      "grad_norm": 6.548126697540283,
      "learning_rate": 4.992820914125069e-05,
      "loss": 0.4879,
      "num_input_tokens_seen": 9494728,
      "step": 16345
    },
    {
      "epoch": 2.4352100089365507,
      "grad_norm": 22.808879852294922,
      "learning_rate": 4.9927962852221136e-05,
      "loss": 0.4766,
      "num_input_tokens_seen": 9497448,
      "step": 16350
    },
    {
      "epoch": 2.4359547214775095,
      "grad_norm": 10.739038467407227,
      "learning_rate": 4.9927716142058976e-05,
      "loss": 0.7044,
      "num_input_tokens_seen": 9500360,
      "step": 16355
    },
    {
      "epoch": 2.436699434018469,
      "grad_norm": 5.773002624511719,
      "learning_rate": 4.992746901076838e-05,
      "loss": 0.5299,
      "num_input_tokens_seen": 9503080,
      "step": 16360
    },
    {
      "epoch": 2.437444146559428,
      "grad_norm": 4.435699939727783,
      "learning_rate": 4.992722145835354e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 9506088,
      "step": 16365
    },
    {
      "epoch": 2.438188859100387,
      "grad_norm": 4.258272171020508,
      "learning_rate": 4.992697348481863e-05,
      "loss": 0.5032,
      "num_input_tokens_seen": 9509000,
      "step": 16370
    },
    {
      "epoch": 2.4389335716413463,
      "grad_norm": 4.791280269622803,
      "learning_rate": 4.992672509016782e-05,
      "loss": 0.6483,
      "num_input_tokens_seen": 9511752,
      "step": 16375
    },
    {
      "epoch": 2.4396782841823055,
      "grad_norm": 5.445240020751953,
      "learning_rate": 4.992647627440534e-05,
      "loss": 0.5906,
      "num_input_tokens_seen": 9514568,
      "step": 16380
    },
    {
      "epoch": 2.4404229967232647,
      "grad_norm": 2.989915370941162,
      "learning_rate": 4.992622703753538e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 9517448,
      "step": 16385
    },
    {
      "epoch": 2.441167709264224,
      "grad_norm": 5.869160175323486,
      "learning_rate": 4.9925977379562145e-05,
      "loss": 0.5609,
      "num_input_tokens_seen": 9520200,
      "step": 16390
    },
    {
      "epoch": 2.441912421805183,
      "grad_norm": 8.969233512878418,
      "learning_rate": 4.9925727300489853e-05,
      "loss": 0.5006,
      "num_input_tokens_seen": 9523016,
      "step": 16395
    },
    {
      "epoch": 2.4426571343461423,
      "grad_norm": 2.112682342529297,
      "learning_rate": 4.9925476800322735e-05,
      "loss": 0.4277,
      "num_input_tokens_seen": 9526024,
      "step": 16400
    },
    {
      "epoch": 2.4434018468871015,
      "grad_norm": 12.734076499938965,
      "learning_rate": 4.992522587906501e-05,
      "loss": 0.5955,
      "num_input_tokens_seen": 9529064,
      "step": 16405
    },
    {
      "epoch": 2.4441465594280607,
      "grad_norm": 14.179634094238281,
      "learning_rate": 4.992497453672094e-05,
      "loss": 0.488,
      "num_input_tokens_seen": 9531944,
      "step": 16410
    },
    {
      "epoch": 2.44489127196902,
      "grad_norm": 9.401070594787598,
      "learning_rate": 4.9924722773294745e-05,
      "loss": 0.5794,
      "num_input_tokens_seen": 9534728,
      "step": 16415
    },
    {
      "epoch": 2.445635984509979,
      "grad_norm": 10.48552417755127,
      "learning_rate": 4.99244705887907e-05,
      "loss": 0.476,
      "num_input_tokens_seen": 9537576,
      "step": 16420
    },
    {
      "epoch": 2.4463806970509383,
      "grad_norm": 5.1570210456848145,
      "learning_rate": 4.992421798321305e-05,
      "loss": 0.3975,
      "num_input_tokens_seen": 9540584,
      "step": 16425
    },
    {
      "epoch": 2.4471254095918975,
      "grad_norm": 13.114190101623535,
      "learning_rate": 4.992396495656608e-05,
      "loss": 0.4646,
      "num_input_tokens_seen": 9543208,
      "step": 16430
    },
    {
      "epoch": 2.4478701221328567,
      "grad_norm": 9.687195777893066,
      "learning_rate": 4.992371150885404e-05,
      "loss": 0.4319,
      "num_input_tokens_seen": 9546120,
      "step": 16435
    },
    {
      "epoch": 2.448614834673816,
      "grad_norm": 6.123678684234619,
      "learning_rate": 4.9923457640081236e-05,
      "loss": 0.4521,
      "num_input_tokens_seen": 9548936,
      "step": 16440
    },
    {
      "epoch": 2.449359547214775,
      "grad_norm": 12.16956615447998,
      "learning_rate": 4.992320335025194e-05,
      "loss": 0.6002,
      "num_input_tokens_seen": 9551816,
      "step": 16445
    },
    {
      "epoch": 2.4501042597557343,
      "grad_norm": 8.663850784301758,
      "learning_rate": 4.992294863937046e-05,
      "loss": 0.6279,
      "num_input_tokens_seen": 9554568,
      "step": 16450
    },
    {
      "epoch": 2.4508489722966935,
      "grad_norm": 5.832496166229248,
      "learning_rate": 4.9922693507441084e-05,
      "loss": 0.5961,
      "num_input_tokens_seen": 9557160,
      "step": 16455
    },
    {
      "epoch": 2.4515936848376527,
      "grad_norm": 11.41639232635498,
      "learning_rate": 4.9922437954468136e-05,
      "loss": 0.4645,
      "num_input_tokens_seen": 9559880,
      "step": 16460
    },
    {
      "epoch": 2.452338397378612,
      "grad_norm": 14.983637809753418,
      "learning_rate": 4.992218198045593e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 9562536,
      "step": 16465
    },
    {
      "epoch": 2.453083109919571,
      "grad_norm": 7.6963677406311035,
      "learning_rate": 4.992192558540879e-05,
      "loss": 0.5397,
      "num_input_tokens_seen": 9565096,
      "step": 16470
    },
    {
      "epoch": 2.4538278224605303,
      "grad_norm": 4.536294460296631,
      "learning_rate": 4.992166876933105e-05,
      "loss": 0.5281,
      "num_input_tokens_seen": 9568136,
      "step": 16475
    },
    {
      "epoch": 2.4545725350014895,
      "grad_norm": 7.255583763122559,
      "learning_rate": 4.9921411532227036e-05,
      "loss": 0.4961,
      "num_input_tokens_seen": 9571272,
      "step": 16480
    },
    {
      "epoch": 2.4553172475424487,
      "grad_norm": 4.410303115844727,
      "learning_rate": 4.992115387410111e-05,
      "loss": 0.3005,
      "num_input_tokens_seen": 9574312,
      "step": 16485
    },
    {
      "epoch": 2.456061960083408,
      "grad_norm": 1.925456166267395,
      "learning_rate": 4.992089579495762e-05,
      "loss": 0.3663,
      "num_input_tokens_seen": 9576904,
      "step": 16490
    },
    {
      "epoch": 2.456806672624367,
      "grad_norm": 7.064794540405273,
      "learning_rate": 4.992063729480092e-05,
      "loss": 0.5864,
      "num_input_tokens_seen": 9579720,
      "step": 16495
    },
    {
      "epoch": 2.4575513851653263,
      "grad_norm": 10.658196449279785,
      "learning_rate": 4.992037837363538e-05,
      "loss": 0.3617,
      "num_input_tokens_seen": 9583272,
      "step": 16500
    },
    {
      "epoch": 2.4582960977062855,
      "grad_norm": 15.405153274536133,
      "learning_rate": 4.992011903146537e-05,
      "loss": 0.6146,
      "num_input_tokens_seen": 9586088,
      "step": 16505
    },
    {
      "epoch": 2.4590408102472447,
      "grad_norm": 8.985763549804688,
      "learning_rate": 4.991985926829529e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 9588776,
      "step": 16510
    },
    {
      "epoch": 2.459785522788204,
      "grad_norm": 11.063061714172363,
      "learning_rate": 4.991959908412951e-05,
      "loss": 0.7917,
      "num_input_tokens_seen": 9591592,
      "step": 16515
    },
    {
      "epoch": 2.4605302353291627,
      "grad_norm": 3.518256425857544,
      "learning_rate": 4.9919338478972424e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 9594696,
      "step": 16520
    },
    {
      "epoch": 2.4612749478701224,
      "grad_norm": 10.044922828674316,
      "learning_rate": 4.991907745282845e-05,
      "loss": 0.6712,
      "num_input_tokens_seen": 9597800,
      "step": 16525
    },
    {
      "epoch": 2.462019660411081,
      "grad_norm": 6.8313422203063965,
      "learning_rate": 4.9918816005701986e-05,
      "loss": 0.6003,
      "num_input_tokens_seen": 9600424,
      "step": 16530
    },
    {
      "epoch": 2.4627643729520408,
      "grad_norm": 7.468563556671143,
      "learning_rate": 4.9918554137597454e-05,
      "loss": 0.5316,
      "num_input_tokens_seen": 9603304,
      "step": 16535
    },
    {
      "epoch": 2.4635090854929995,
      "grad_norm": 11.349886894226074,
      "learning_rate": 4.9918291848519275e-05,
      "loss": 0.5416,
      "num_input_tokens_seen": 9606088,
      "step": 16540
    },
    {
      "epoch": 2.4642537980339587,
      "grad_norm": 6.323465347290039,
      "learning_rate": 4.991802913847188e-05,
      "loss": 0.6372,
      "num_input_tokens_seen": 9609000,
      "step": 16545
    },
    {
      "epoch": 2.464998510574918,
      "grad_norm": 8.304409980773926,
      "learning_rate": 4.9917766007459696e-05,
      "loss": 0.5684,
      "num_input_tokens_seen": 9612008,
      "step": 16550
    },
    {
      "epoch": 2.465743223115877,
      "grad_norm": 7.908799171447754,
      "learning_rate": 4.99175024554872e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 9614888,
      "step": 16555
    },
    {
      "epoch": 2.4664879356568363,
      "grad_norm": 4.697253704071045,
      "learning_rate": 4.991723848255881e-05,
      "loss": 0.4295,
      "num_input_tokens_seen": 9617736,
      "step": 16560
    },
    {
      "epoch": 2.4672326481977955,
      "grad_norm": 8.852505683898926,
      "learning_rate": 4.9916974088679015e-05,
      "loss": 0.623,
      "num_input_tokens_seen": 9620456,
      "step": 16565
    },
    {
      "epoch": 2.4679773607387547,
      "grad_norm": 8.127141952514648,
      "learning_rate": 4.991670927385226e-05,
      "loss": 0.3325,
      "num_input_tokens_seen": 9623208,
      "step": 16570
    },
    {
      "epoch": 2.468722073279714,
      "grad_norm": 12.089054107666016,
      "learning_rate": 4.9916444038083024e-05,
      "loss": 0.6038,
      "num_input_tokens_seen": 9626024,
      "step": 16575
    },
    {
      "epoch": 2.469466785820673,
      "grad_norm": 12.667500495910645,
      "learning_rate": 4.991617838137579e-05,
      "loss": 0.6117,
      "num_input_tokens_seen": 9628744,
      "step": 16580
    },
    {
      "epoch": 2.4702114983616323,
      "grad_norm": 18.338422775268555,
      "learning_rate": 4.991591230373505e-05,
      "loss": 0.9479,
      "num_input_tokens_seen": 9631624,
      "step": 16585
    },
    {
      "epoch": 2.4709562109025915,
      "grad_norm": 9.430607795715332,
      "learning_rate": 4.99156458051653e-05,
      "loss": 0.5429,
      "num_input_tokens_seen": 9634728,
      "step": 16590
    },
    {
      "epoch": 2.4717009234435507,
      "grad_norm": 5.111169338226318,
      "learning_rate": 4.9915378885671026e-05,
      "loss": 0.7841,
      "num_input_tokens_seen": 9637672,
      "step": 16595
    },
    {
      "epoch": 2.47244563598451,
      "grad_norm": 6.828671455383301,
      "learning_rate": 4.9915111545256754e-05,
      "loss": 0.8478,
      "num_input_tokens_seen": 9640616,
      "step": 16600
    },
    {
      "epoch": 2.473190348525469,
      "grad_norm": 5.8460612297058105,
      "learning_rate": 4.991484378392699e-05,
      "loss": 0.6635,
      "num_input_tokens_seen": 9643496,
      "step": 16605
    },
    {
      "epoch": 2.4739350610664284,
      "grad_norm": 3.3765666484832764,
      "learning_rate": 4.9914575601686266e-05,
      "loss": 0.5738,
      "num_input_tokens_seen": 9646568,
      "step": 16610
    },
    {
      "epoch": 2.4746797736073876,
      "grad_norm": 8.843521118164062,
      "learning_rate": 4.9914306998539115e-05,
      "loss": 0.6151,
      "num_input_tokens_seen": 9649416,
      "step": 16615
    },
    {
      "epoch": 2.4754244861483468,
      "grad_norm": 2.973968505859375,
      "learning_rate": 4.991403797449006e-05,
      "loss": 0.4452,
      "num_input_tokens_seen": 9652136,
      "step": 16620
    },
    {
      "epoch": 2.476169198689306,
      "grad_norm": 10.272741317749023,
      "learning_rate": 4.9913768529543656e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 9654792,
      "step": 16625
    },
    {
      "epoch": 2.476913911230265,
      "grad_norm": 7.215299129486084,
      "learning_rate": 4.991349866370446e-05,
      "loss": 0.5577,
      "num_input_tokens_seen": 9657832,
      "step": 16630
    },
    {
      "epoch": 2.4776586237712244,
      "grad_norm": 5.695775985717773,
      "learning_rate": 4.9913228376977026e-05,
      "loss": 0.5862,
      "num_input_tokens_seen": 9660680,
      "step": 16635
    },
    {
      "epoch": 2.4784033363121836,
      "grad_norm": 6.978471279144287,
      "learning_rate": 4.991295766936591e-05,
      "loss": 0.5808,
      "num_input_tokens_seen": 9663432,
      "step": 16640
    },
    {
      "epoch": 2.4791480488531428,
      "grad_norm": 9.952554702758789,
      "learning_rate": 4.9912686540875696e-05,
      "loss": 0.5566,
      "num_input_tokens_seen": 9666280,
      "step": 16645
    },
    {
      "epoch": 2.479892761394102,
      "grad_norm": 4.553226947784424,
      "learning_rate": 4.991241499151097e-05,
      "loss": 0.5108,
      "num_input_tokens_seen": 9669096,
      "step": 16650
    },
    {
      "epoch": 2.480637473935061,
      "grad_norm": 14.89257526397705,
      "learning_rate": 4.9912143021276306e-05,
      "loss": 0.4715,
      "num_input_tokens_seen": 9671816,
      "step": 16655
    },
    {
      "epoch": 2.4813821864760204,
      "grad_norm": 11.781952857971191,
      "learning_rate": 4.991187063017631e-05,
      "loss": 0.6716,
      "num_input_tokens_seen": 9674664,
      "step": 16660
    },
    {
      "epoch": 2.4821268990169796,
      "grad_norm": 5.227149486541748,
      "learning_rate": 4.9911597818215575e-05,
      "loss": 0.5569,
      "num_input_tokens_seen": 9677544,
      "step": 16665
    },
    {
      "epoch": 2.482871611557939,
      "grad_norm": 6.64699125289917,
      "learning_rate": 4.9911324585398724e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 9680808,
      "step": 16670
    },
    {
      "epoch": 2.483616324098898,
      "grad_norm": 5.807165622711182,
      "learning_rate": 4.9911050931730354e-05,
      "loss": 0.5024,
      "num_input_tokens_seen": 9683496,
      "step": 16675
    },
    {
      "epoch": 2.484361036639857,
      "grad_norm": 5.038367748260498,
      "learning_rate": 4.9910776857215094e-05,
      "loss": 0.5114,
      "num_input_tokens_seen": 9686312,
      "step": 16680
    },
    {
      "epoch": 2.4851057491808164,
      "grad_norm": 5.8790974617004395,
      "learning_rate": 4.991050236185758e-05,
      "loss": 0.464,
      "num_input_tokens_seen": 9689128,
      "step": 16685
    },
    {
      "epoch": 2.4858504617217756,
      "grad_norm": 15.750570297241211,
      "learning_rate": 4.991022744566245e-05,
      "loss": 0.5361,
      "num_input_tokens_seen": 9692296,
      "step": 16690
    },
    {
      "epoch": 2.4865951742627344,
      "grad_norm": 7.800281524658203,
      "learning_rate": 4.990995210863434e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 9695240,
      "step": 16695
    },
    {
      "epoch": 2.487339886803694,
      "grad_norm": 8.206984519958496,
      "learning_rate": 4.9909676350777914e-05,
      "loss": 0.4912,
      "num_input_tokens_seen": 9698024,
      "step": 16700
    },
    {
      "epoch": 2.4880845993446528,
      "grad_norm": 5.714966297149658,
      "learning_rate": 4.990940017209782e-05,
      "loss": 0.6944,
      "num_input_tokens_seen": 9700840,
      "step": 16705
    },
    {
      "epoch": 2.488829311885612,
      "grad_norm": 8.20299243927002,
      "learning_rate": 4.990912357259872e-05,
      "loss": 0.5656,
      "num_input_tokens_seen": 9703784,
      "step": 16710
    },
    {
      "epoch": 2.489574024426571,
      "grad_norm": 16.10639762878418,
      "learning_rate": 4.99088465522853e-05,
      "loss": 0.6589,
      "num_input_tokens_seen": 9707048,
      "step": 16715
    },
    {
      "epoch": 2.4903187369675304,
      "grad_norm": 5.826104164123535,
      "learning_rate": 4.9908569111162226e-05,
      "loss": 0.682,
      "num_input_tokens_seen": 9710024,
      "step": 16720
    },
    {
      "epoch": 2.4910634495084896,
      "grad_norm": 3.7507712841033936,
      "learning_rate": 4.9908291249234207e-05,
      "loss": 0.398,
      "num_input_tokens_seen": 9712712,
      "step": 16725
    },
    {
      "epoch": 2.4918081620494488,
      "grad_norm": 4.432494640350342,
      "learning_rate": 4.990801296650591e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 9715880,
      "step": 16730
    },
    {
      "epoch": 2.492552874590408,
      "grad_norm": 11.710012435913086,
      "learning_rate": 4.9907734262982056e-05,
      "loss": 0.6193,
      "num_input_tokens_seen": 9718792,
      "step": 16735
    },
    {
      "epoch": 2.493297587131367,
      "grad_norm": 2.4327807426452637,
      "learning_rate": 4.990745513866735e-05,
      "loss": 0.5471,
      "num_input_tokens_seen": 9721832,
      "step": 16740
    },
    {
      "epoch": 2.4940422996723264,
      "grad_norm": 10.190570831298828,
      "learning_rate": 4.99071755935665e-05,
      "loss": 0.6238,
      "num_input_tokens_seen": 9724680,
      "step": 16745
    },
    {
      "epoch": 2.4947870122132856,
      "grad_norm": 9.093544960021973,
      "learning_rate": 4.990689562768423e-05,
      "loss": 0.8149,
      "num_input_tokens_seen": 9727688,
      "step": 16750
    },
    {
      "epoch": 2.495531724754245,
      "grad_norm": 6.741811275482178,
      "learning_rate": 4.990661524102528e-05,
      "loss": 0.4477,
      "num_input_tokens_seen": 9730536,
      "step": 16755
    },
    {
      "epoch": 2.496276437295204,
      "grad_norm": 7.78579568862915,
      "learning_rate": 4.990633443359437e-05,
      "loss": 0.5461,
      "num_input_tokens_seen": 9733576,
      "step": 16760
    },
    {
      "epoch": 2.497021149836163,
      "grad_norm": 9.172891616821289,
      "learning_rate": 4.990605320539626e-05,
      "loss": 0.6181,
      "num_input_tokens_seen": 9736264,
      "step": 16765
    },
    {
      "epoch": 2.4977658623771224,
      "grad_norm": 8.636612892150879,
      "learning_rate": 4.990577155643569e-05,
      "loss": 0.6615,
      "num_input_tokens_seen": 9739336,
      "step": 16770
    },
    {
      "epoch": 2.4985105749180816,
      "grad_norm": 4.958657741546631,
      "learning_rate": 4.9905489486717425e-05,
      "loss": 0.4278,
      "num_input_tokens_seen": 9742280,
      "step": 16775
    },
    {
      "epoch": 2.499255287459041,
      "grad_norm": 13.76211166381836,
      "learning_rate": 4.990520699624623e-05,
      "loss": 0.5119,
      "num_input_tokens_seen": 9745128,
      "step": 16780
    },
    {
      "epoch": 2.5,
      "grad_norm": 8.214317321777344,
      "learning_rate": 4.990492408502687e-05,
      "loss": 0.511,
      "num_input_tokens_seen": 9747880,
      "step": 16785
    },
    {
      "epoch": 2.500744712540959,
      "grad_norm": 7.261569499969482,
      "learning_rate": 4.9904640753064135e-05,
      "loss": 0.591,
      "num_input_tokens_seen": 9750568,
      "step": 16790
    },
    {
      "epoch": 2.5014894250819184,
      "grad_norm": 11.5028076171875,
      "learning_rate": 4.99043570003628e-05,
      "loss": 0.6187,
      "num_input_tokens_seen": 9753256,
      "step": 16795
    },
    {
      "epoch": 2.5022341376228776,
      "grad_norm": 8.05069351196289,
      "learning_rate": 4.990407282692767e-05,
      "loss": 0.2971,
      "num_input_tokens_seen": 9756200,
      "step": 16800
    },
    {
      "epoch": 2.502978850163837,
      "grad_norm": 5.883923530578613,
      "learning_rate": 4.9903788232763545e-05,
      "loss": 0.5513,
      "num_input_tokens_seen": 9759048,
      "step": 16805
    },
    {
      "epoch": 2.503723562704796,
      "grad_norm": 8.837096214294434,
      "learning_rate": 4.9903503217875227e-05,
      "loss": 0.4775,
      "num_input_tokens_seen": 9761992,
      "step": 16810
    },
    {
      "epoch": 2.504468275245755,
      "grad_norm": 5.924067497253418,
      "learning_rate": 4.990321778226753e-05,
      "loss": 0.3114,
      "num_input_tokens_seen": 9764680,
      "step": 16815
    },
    {
      "epoch": 2.5052129877867144,
      "grad_norm": 12.755584716796875,
      "learning_rate": 4.990293192594527e-05,
      "loss": 0.5162,
      "num_input_tokens_seen": 9767880,
      "step": 16820
    },
    {
      "epoch": 2.5059577003276736,
      "grad_norm": 11.440308570861816,
      "learning_rate": 4.9902645648913305e-05,
      "loss": 0.6207,
      "num_input_tokens_seen": 9770600,
      "step": 16825
    },
    {
      "epoch": 2.506702412868633,
      "grad_norm": 7.03326940536499,
      "learning_rate": 4.990235895117644e-05,
      "loss": 0.4029,
      "num_input_tokens_seen": 9773640,
      "step": 16830
    },
    {
      "epoch": 2.507447125409592,
      "grad_norm": 7.791196823120117,
      "learning_rate": 4.990207183273953e-05,
      "loss": 0.464,
      "num_input_tokens_seen": 9776712,
      "step": 16835
    },
    {
      "epoch": 2.5081918379505512,
      "grad_norm": 14.246228218078613,
      "learning_rate": 4.9901784293607424e-05,
      "loss": 0.548,
      "num_input_tokens_seen": 9779752,
      "step": 16840
    },
    {
      "epoch": 2.5089365504915104,
      "grad_norm": 5.6763997077941895,
      "learning_rate": 4.990149633378499e-05,
      "loss": 0.5965,
      "num_input_tokens_seen": 9782664,
      "step": 16845
    },
    {
      "epoch": 2.509681263032469,
      "grad_norm": 7.589389324188232,
      "learning_rate": 4.990120795327707e-05,
      "loss": 0.45,
      "num_input_tokens_seen": 9785480,
      "step": 16850
    },
    {
      "epoch": 2.510425975573429,
      "grad_norm": 21.969018936157227,
      "learning_rate": 4.990091915208857e-05,
      "loss": 0.6656,
      "num_input_tokens_seen": 9788200,
      "step": 16855
    },
    {
      "epoch": 2.5111706881143876,
      "grad_norm": 8.84365463256836,
      "learning_rate": 4.990062993022433e-05,
      "loss": 0.5317,
      "num_input_tokens_seen": 9791464,
      "step": 16860
    },
    {
      "epoch": 2.5119154006553472,
      "grad_norm": 12.833304405212402,
      "learning_rate": 4.990034028768927e-05,
      "loss": 0.5034,
      "num_input_tokens_seen": 9794184,
      "step": 16865
    },
    {
      "epoch": 2.512660113196306,
      "grad_norm": 5.429385185241699,
      "learning_rate": 4.990005022448826e-05,
      "loss": 0.623,
      "num_input_tokens_seen": 9796904,
      "step": 16870
    },
    {
      "epoch": 2.5134048257372656,
      "grad_norm": 9.534062385559082,
      "learning_rate": 4.989975974062621e-05,
      "loss": 0.6534,
      "num_input_tokens_seen": 9799720,
      "step": 16875
    },
    {
      "epoch": 2.5141495382782244,
      "grad_norm": 5.986251354217529,
      "learning_rate": 4.989946883610803e-05,
      "loss": 0.3826,
      "num_input_tokens_seen": 9802376,
      "step": 16880
    },
    {
      "epoch": 2.514894250819184,
      "grad_norm": 5.290286064147949,
      "learning_rate": 4.9899177510938624e-05,
      "loss": 0.5466,
      "num_input_tokens_seen": 9805224,
      "step": 16885
    },
    {
      "epoch": 2.515638963360143,
      "grad_norm": 13.95582389831543,
      "learning_rate": 4.9898885765122927e-05,
      "loss": 0.6071,
      "num_input_tokens_seen": 9808040,
      "step": 16890
    },
    {
      "epoch": 2.516383675901102,
      "grad_norm": 4.6651177406311035,
      "learning_rate": 4.9898593598665856e-05,
      "loss": 0.5194,
      "num_input_tokens_seen": 9810728,
      "step": 16895
    },
    {
      "epoch": 2.517128388442061,
      "grad_norm": 7.506781578063965,
      "learning_rate": 4.989830101157235e-05,
      "loss": 0.6884,
      "num_input_tokens_seen": 9813640,
      "step": 16900
    },
    {
      "epoch": 2.5178731009830204,
      "grad_norm": 4.7553887367248535,
      "learning_rate": 4.9898008003847363e-05,
      "loss": 0.5596,
      "num_input_tokens_seen": 9816520,
      "step": 16905
    },
    {
      "epoch": 2.5186178135239796,
      "grad_norm": 5.411109447479248,
      "learning_rate": 4.989771457549582e-05,
      "loss": 0.5387,
      "num_input_tokens_seen": 9819400,
      "step": 16910
    },
    {
      "epoch": 2.519362526064939,
      "grad_norm": 8.696967124938965,
      "learning_rate": 4.989742072652271e-05,
      "loss": 0.4291,
      "num_input_tokens_seen": 9822248,
      "step": 16915
    },
    {
      "epoch": 2.520107238605898,
      "grad_norm": 4.058489799499512,
      "learning_rate": 4.989712645693297e-05,
      "loss": 0.5793,
      "num_input_tokens_seen": 9825256,
      "step": 16920
    },
    {
      "epoch": 2.5208519511468572,
      "grad_norm": 6.564947605133057,
      "learning_rate": 4.98968317667316e-05,
      "loss": 0.5628,
      "num_input_tokens_seen": 9828296,
      "step": 16925
    },
    {
      "epoch": 2.5215966636878164,
      "grad_norm": 8.961936950683594,
      "learning_rate": 4.989653665592355e-05,
      "loss": 0.5215,
      "num_input_tokens_seen": 9831144,
      "step": 16930
    },
    {
      "epoch": 2.5223413762287756,
      "grad_norm": 10.824865341186523,
      "learning_rate": 4.989624112451381e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 9834088,
      "step": 16935
    },
    {
      "epoch": 2.523086088769735,
      "grad_norm": 7.135443687438965,
      "learning_rate": 4.989594517250739e-05,
      "loss": 0.4538,
      "num_input_tokens_seen": 9836776,
      "step": 16940
    },
    {
      "epoch": 2.523830801310694,
      "grad_norm": 6.816062927246094,
      "learning_rate": 4.989564879990928e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 9839624,
      "step": 16945
    },
    {
      "epoch": 2.5245755138516532,
      "grad_norm": 10.36745548248291,
      "learning_rate": 4.9895352006724485e-05,
      "loss": 0.7052,
      "num_input_tokens_seen": 9842728,
      "step": 16950
    },
    {
      "epoch": 2.5253202263926124,
      "grad_norm": 17.961458206176758,
      "learning_rate": 4.9895054792958015e-05,
      "loss": 0.7135,
      "num_input_tokens_seen": 9845992,
      "step": 16955
    },
    {
      "epoch": 2.5260649389335716,
      "grad_norm": 10.59056282043457,
      "learning_rate": 4.98947571586149e-05,
      "loss": 0.5752,
      "num_input_tokens_seen": 9849224,
      "step": 16960
    },
    {
      "epoch": 2.526809651474531,
      "grad_norm": 14.96894359588623,
      "learning_rate": 4.9894459103700166e-05,
      "loss": 0.9291,
      "num_input_tokens_seen": 9852200,
      "step": 16965
    },
    {
      "epoch": 2.52755436401549,
      "grad_norm": 5.392165184020996,
      "learning_rate": 4.989416062821884e-05,
      "loss": 0.5325,
      "num_input_tokens_seen": 9855304,
      "step": 16970
    },
    {
      "epoch": 2.5282990765564493,
      "grad_norm": 5.458474636077881,
      "learning_rate": 4.989386173217598e-05,
      "loss": 0.3798,
      "num_input_tokens_seen": 9858056,
      "step": 16975
    },
    {
      "epoch": 2.5290437890974085,
      "grad_norm": 5.8224053382873535,
      "learning_rate": 4.989356241557662e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 9861160,
      "step": 16980
    },
    {
      "epoch": 2.5297885016383677,
      "grad_norm": 9.52746868133545,
      "learning_rate": 4.989326267842583e-05,
      "loss": 0.5374,
      "num_input_tokens_seen": 9864136,
      "step": 16985
    },
    {
      "epoch": 2.530533214179327,
      "grad_norm": 6.907002925872803,
      "learning_rate": 4.9892962520728664e-05,
      "loss": 0.573,
      "num_input_tokens_seen": 9866824,
      "step": 16990
    },
    {
      "epoch": 2.531277926720286,
      "grad_norm": 13.7288179397583,
      "learning_rate": 4.989266194249019e-05,
      "loss": 0.6695,
      "num_input_tokens_seen": 9869704,
      "step": 16995
    },
    {
      "epoch": 2.5320226392612453,
      "grad_norm": 17.377243041992188,
      "learning_rate": 4.989236094371551e-05,
      "loss": 0.6276,
      "num_input_tokens_seen": 9872456,
      "step": 17000
    },
    {
      "epoch": 2.5327673518022045,
      "grad_norm": 10.342082977294922,
      "learning_rate": 4.9892059524409676e-05,
      "loss": 0.5779,
      "num_input_tokens_seen": 9875368,
      "step": 17005
    },
    {
      "epoch": 2.5335120643431637,
      "grad_norm": 6.98455286026001,
      "learning_rate": 4.98917576845778e-05,
      "loss": 0.4874,
      "num_input_tokens_seen": 9878280,
      "step": 17010
    },
    {
      "epoch": 2.534256776884123,
      "grad_norm": 12.76962947845459,
      "learning_rate": 4.989145542422498e-05,
      "loss": 0.4665,
      "num_input_tokens_seen": 9881640,
      "step": 17015
    },
    {
      "epoch": 2.535001489425082,
      "grad_norm": 13.325979232788086,
      "learning_rate": 4.989115274335632e-05,
      "loss": 0.6386,
      "num_input_tokens_seen": 9884680,
      "step": 17020
    },
    {
      "epoch": 2.535746201966041,
      "grad_norm": 4.61385440826416,
      "learning_rate": 4.9890849641976924e-05,
      "loss": 0.3809,
      "num_input_tokens_seen": 9887272,
      "step": 17025
    },
    {
      "epoch": 2.5364909145070005,
      "grad_norm": 12.975810050964355,
      "learning_rate": 4.989054612009192e-05,
      "loss": 0.5886,
      "num_input_tokens_seen": 9890120,
      "step": 17030
    },
    {
      "epoch": 2.5372356270479592,
      "grad_norm": 3.8304145336151123,
      "learning_rate": 4.989024217770645e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 9892904,
      "step": 17035
    },
    {
      "epoch": 2.537980339588919,
      "grad_norm": 10.107430458068848,
      "learning_rate": 4.988993781482563e-05,
      "loss": 0.4951,
      "num_input_tokens_seen": 9895784,
      "step": 17040
    },
    {
      "epoch": 2.5387250521298776,
      "grad_norm": 2.83788800239563,
      "learning_rate": 4.9889633031454604e-05,
      "loss": 0.5657,
      "num_input_tokens_seen": 9898376,
      "step": 17045
    },
    {
      "epoch": 2.5394697646708373,
      "grad_norm": 6.832793235778809,
      "learning_rate": 4.9889327827598526e-05,
      "loss": 0.5113,
      "num_input_tokens_seen": 9901224,
      "step": 17050
    },
    {
      "epoch": 2.540214477211796,
      "grad_norm": 6.724180698394775,
      "learning_rate": 4.988902220326255e-05,
      "loss": 0.6775,
      "num_input_tokens_seen": 9904264,
      "step": 17055
    },
    {
      "epoch": 2.5409591897527557,
      "grad_norm": 8.64857292175293,
      "learning_rate": 4.9888716158451844e-05,
      "loss": 0.3605,
      "num_input_tokens_seen": 9906792,
      "step": 17060
    },
    {
      "epoch": 2.5417039022937145,
      "grad_norm": 9.497455596923828,
      "learning_rate": 4.988840969317157e-05,
      "loss": 0.5061,
      "num_input_tokens_seen": 9909992,
      "step": 17065
    },
    {
      "epoch": 2.5424486148346737,
      "grad_norm": 13.843401908874512,
      "learning_rate": 4.988810280742691e-05,
      "loss": 0.4457,
      "num_input_tokens_seen": 9912872,
      "step": 17070
    },
    {
      "epoch": 2.543193327375633,
      "grad_norm": 8.5072021484375,
      "learning_rate": 4.988779550122305e-05,
      "loss": 0.5779,
      "num_input_tokens_seen": 9915624,
      "step": 17075
    },
    {
      "epoch": 2.543938039916592,
      "grad_norm": 10.286012649536133,
      "learning_rate": 4.9887487774565176e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 9918760,
      "step": 17080
    },
    {
      "epoch": 2.5446827524575513,
      "grad_norm": 12.837139129638672,
      "learning_rate": 4.98871796274585e-05,
      "loss": 0.5315,
      "num_input_tokens_seen": 9921672,
      "step": 17085
    },
    {
      "epoch": 2.5454274649985105,
      "grad_norm": 10.611956596374512,
      "learning_rate": 4.9886871059908213e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 9924328,
      "step": 17090
    },
    {
      "epoch": 2.5461721775394697,
      "grad_norm": 8.796038627624512,
      "learning_rate": 4.988656207191953e-05,
      "loss": 0.5205,
      "num_input_tokens_seen": 9927496,
      "step": 17095
    },
    {
      "epoch": 2.546916890080429,
      "grad_norm": 12.310460090637207,
      "learning_rate": 4.988625266349768e-05,
      "loss": 0.6738,
      "num_input_tokens_seen": 9930696,
      "step": 17100
    },
    {
      "epoch": 2.547661602621388,
      "grad_norm": 4.767838001251221,
      "learning_rate": 4.988594283464788e-05,
      "loss": 0.5959,
      "num_input_tokens_seen": 9933864,
      "step": 17105
    },
    {
      "epoch": 2.5484063151623473,
      "grad_norm": 6.9850358963012695,
      "learning_rate": 4.988563258537537e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 9936840,
      "step": 17110
    },
    {
      "epoch": 2.5491510277033065,
      "grad_norm": 20.71234130859375,
      "learning_rate": 4.988532191568539e-05,
      "loss": 0.6272,
      "num_input_tokens_seen": 9940040,
      "step": 17115
    },
    {
      "epoch": 2.5498957402442657,
      "grad_norm": 5.463264465332031,
      "learning_rate": 4.988501082558319e-05,
      "loss": 0.4681,
      "num_input_tokens_seen": 9943016,
      "step": 17120
    },
    {
      "epoch": 2.550640452785225,
      "grad_norm": 15.213398933410645,
      "learning_rate": 4.988469931507402e-05,
      "loss": 0.356,
      "num_input_tokens_seen": 9945832,
      "step": 17125
    },
    {
      "epoch": 2.551385165326184,
      "grad_norm": 2.6553096771240234,
      "learning_rate": 4.988438738416316e-05,
      "loss": 0.4149,
      "num_input_tokens_seen": 9948840,
      "step": 17130
    },
    {
      "epoch": 2.5521298778671433,
      "grad_norm": 9.227697372436523,
      "learning_rate": 4.988407503285585e-05,
      "loss": 0.6416,
      "num_input_tokens_seen": 9951784,
      "step": 17135
    },
    {
      "epoch": 2.5528745904081025,
      "grad_norm": 3.654773235321045,
      "learning_rate": 4.988376226115739e-05,
      "loss": 0.5624,
      "num_input_tokens_seen": 9954376,
      "step": 17140
    },
    {
      "epoch": 2.5536193029490617,
      "grad_norm": 4.096073150634766,
      "learning_rate": 4.9883449069073055e-05,
      "loss": 0.5582,
      "num_input_tokens_seen": 9957192,
      "step": 17145
    },
    {
      "epoch": 2.554364015490021,
      "grad_norm": 11.399857521057129,
      "learning_rate": 4.9883135456608146e-05,
      "loss": 0.4789,
      "num_input_tokens_seen": 9960296,
      "step": 17150
    },
    {
      "epoch": 2.55510872803098,
      "grad_norm": 9.84174633026123,
      "learning_rate": 4.988282142376795e-05,
      "loss": 0.5571,
      "num_input_tokens_seen": 9963016,
      "step": 17155
    },
    {
      "epoch": 2.5558534405719393,
      "grad_norm": 7.056084632873535,
      "learning_rate": 4.9882506970557766e-05,
      "loss": 0.9202,
      "num_input_tokens_seen": 9965640,
      "step": 17160
    },
    {
      "epoch": 2.5565981531128985,
      "grad_norm": 7.075411319732666,
      "learning_rate": 4.988219209698293e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 9968488,
      "step": 17165
    },
    {
      "epoch": 2.5573428656538577,
      "grad_norm": 7.630146503448486,
      "learning_rate": 4.988187680304874e-05,
      "loss": 0.5804,
      "num_input_tokens_seen": 9971208,
      "step": 17170
    },
    {
      "epoch": 2.558087578194817,
      "grad_norm": 6.740781784057617,
      "learning_rate": 4.988156108876053e-05,
      "loss": 0.6317,
      "num_input_tokens_seen": 9974376,
      "step": 17175
    },
    {
      "epoch": 2.558832290735776,
      "grad_norm": 3.570460319519043,
      "learning_rate": 4.988124495412364e-05,
      "loss": 0.4927,
      "num_input_tokens_seen": 9977128,
      "step": 17180
    },
    {
      "epoch": 2.5595770032767353,
      "grad_norm": 9.090068817138672,
      "learning_rate": 4.98809283991434e-05,
      "loss": 0.5482,
      "num_input_tokens_seen": 9980264,
      "step": 17185
    },
    {
      "epoch": 2.5603217158176945,
      "grad_norm": 18.19847869873047,
      "learning_rate": 4.988061142382516e-05,
      "loss": 0.5986,
      "num_input_tokens_seen": 9983080,
      "step": 17190
    },
    {
      "epoch": 2.5610664283586537,
      "grad_norm": 3.31289005279541,
      "learning_rate": 4.988029402817428e-05,
      "loss": 0.6326,
      "num_input_tokens_seen": 9985544,
      "step": 17195
    },
    {
      "epoch": 2.5618111408996125,
      "grad_norm": 5.509426593780518,
      "learning_rate": 4.9879976212196124e-05,
      "loss": 0.6487,
      "num_input_tokens_seen": 9988456,
      "step": 17200
    },
    {
      "epoch": 2.562555853440572,
      "grad_norm": 3.2983832359313965,
      "learning_rate": 4.987965797589605e-05,
      "loss": 0.5246,
      "num_input_tokens_seen": 9991496,
      "step": 17205
    },
    {
      "epoch": 2.563300565981531,
      "grad_norm": 5.892419338226318,
      "learning_rate": 4.987933931927944e-05,
      "loss": 0.6942,
      "num_input_tokens_seen": 9994376,
      "step": 17210
    },
    {
      "epoch": 2.5640452785224905,
      "grad_norm": 4.198731899261475,
      "learning_rate": 4.987902024235169e-05,
      "loss": 0.5086,
      "num_input_tokens_seen": 9997416,
      "step": 17215
    },
    {
      "epoch": 2.5647899910634493,
      "grad_norm": 5.013500690460205,
      "learning_rate": 4.987870074511817e-05,
      "loss": 0.4853,
      "num_input_tokens_seen": 10000232,
      "step": 17220
    },
    {
      "epoch": 2.565534703604409,
      "grad_norm": 2.9323365688323975,
      "learning_rate": 4.987838082758428e-05,
      "loss": 0.5088,
      "num_input_tokens_seen": 10003400,
      "step": 17225
    },
    {
      "epoch": 2.5662794161453677,
      "grad_norm": 12.20966625213623,
      "learning_rate": 4.987806048975544e-05,
      "loss": 0.5364,
      "num_input_tokens_seen": 10006280,
      "step": 17230
    },
    {
      "epoch": 2.5670241286863273,
      "grad_norm": 8.869243621826172,
      "learning_rate": 4.987773973163706e-05,
      "loss": 0.4913,
      "num_input_tokens_seen": 10009064,
      "step": 17235
    },
    {
      "epoch": 2.567768841227286,
      "grad_norm": 3.5102498531341553,
      "learning_rate": 4.987741855323454e-05,
      "loss": 0.4287,
      "num_input_tokens_seen": 10011912,
      "step": 17240
    },
    {
      "epoch": 2.5685135537682453,
      "grad_norm": 8.220947265625,
      "learning_rate": 4.9877096954553324e-05,
      "loss": 0.5217,
      "num_input_tokens_seen": 10015016,
      "step": 17245
    },
    {
      "epoch": 2.5692582663092045,
      "grad_norm": 7.80265474319458,
      "learning_rate": 4.987677493559883e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 10018024,
      "step": 17250
    },
    {
      "epoch": 2.5700029788501637,
      "grad_norm": 2.652651786804199,
      "learning_rate": 4.987645249637652e-05,
      "loss": 0.6309,
      "num_input_tokens_seen": 10020968,
      "step": 17255
    },
    {
      "epoch": 2.570747691391123,
      "grad_norm": 13.062893867492676,
      "learning_rate": 4.987612963689182e-05,
      "loss": 0.4949,
      "num_input_tokens_seen": 10023720,
      "step": 17260
    },
    {
      "epoch": 2.571492403932082,
      "grad_norm": 9.413169860839844,
      "learning_rate": 4.987580635715019e-05,
      "loss": 0.5885,
      "num_input_tokens_seen": 10026440,
      "step": 17265
    },
    {
      "epoch": 2.5722371164730413,
      "grad_norm": 16.382539749145508,
      "learning_rate": 4.98754826571571e-05,
      "loss": 0.8637,
      "num_input_tokens_seen": 10029096,
      "step": 17270
    },
    {
      "epoch": 2.5729818290140005,
      "grad_norm": 6.383627414703369,
      "learning_rate": 4.9875158536918015e-05,
      "loss": 0.5276,
      "num_input_tokens_seen": 10031880,
      "step": 17275
    },
    {
      "epoch": 2.5737265415549597,
      "grad_norm": 3.912156820297241,
      "learning_rate": 4.987483399643841e-05,
      "loss": 0.3653,
      "num_input_tokens_seen": 10034696,
      "step": 17280
    },
    {
      "epoch": 2.574471254095919,
      "grad_norm": 11.11195182800293,
      "learning_rate": 4.987450903572376e-05,
      "loss": 0.5054,
      "num_input_tokens_seen": 10037416,
      "step": 17285
    },
    {
      "epoch": 2.575215966636878,
      "grad_norm": 8.88219928741455,
      "learning_rate": 4.987418365477956e-05,
      "loss": 0.59,
      "num_input_tokens_seen": 10040616,
      "step": 17290
    },
    {
      "epoch": 2.5759606791778373,
      "grad_norm": 6.476867198944092,
      "learning_rate": 4.987385785361131e-05,
      "loss": 0.478,
      "num_input_tokens_seen": 10043848,
      "step": 17295
    },
    {
      "epoch": 2.5767053917187965,
      "grad_norm": 8.139985084533691,
      "learning_rate": 4.987353163222451e-05,
      "loss": 0.73,
      "num_input_tokens_seen": 10046952,
      "step": 17300
    },
    {
      "epoch": 2.5774501042597557,
      "grad_norm": 8.231704711914062,
      "learning_rate": 4.9873204990624676e-05,
      "loss": 0.6051,
      "num_input_tokens_seen": 10050088,
      "step": 17305
    },
    {
      "epoch": 2.578194816800715,
      "grad_norm": 7.2619805335998535,
      "learning_rate": 4.987287792881733e-05,
      "loss": 0.4702,
      "num_input_tokens_seen": 10052776,
      "step": 17310
    },
    {
      "epoch": 2.578939529341674,
      "grad_norm": 8.618282318115234,
      "learning_rate": 4.9872550446807986e-05,
      "loss": 0.3047,
      "num_input_tokens_seen": 10055656,
      "step": 17315
    },
    {
      "epoch": 2.5796842418826333,
      "grad_norm": 12.37187671661377,
      "learning_rate": 4.987222254460218e-05,
      "loss": 0.7065,
      "num_input_tokens_seen": 10058344,
      "step": 17320
    },
    {
      "epoch": 2.5804289544235925,
      "grad_norm": 10.189504623413086,
      "learning_rate": 4.987189422220545e-05,
      "loss": 0.4835,
      "num_input_tokens_seen": 10061320,
      "step": 17325
    },
    {
      "epoch": 2.5811736669645517,
      "grad_norm": 4.851808071136475,
      "learning_rate": 4.987156547962335e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 10064264,
      "step": 17330
    },
    {
      "epoch": 2.581918379505511,
      "grad_norm": 6.532479763031006,
      "learning_rate": 4.987123631686143e-05,
      "loss": 0.7921,
      "num_input_tokens_seen": 10067272,
      "step": 17335
    },
    {
      "epoch": 2.58266309204647,
      "grad_norm": 6.397891521453857,
      "learning_rate": 4.987090673392525e-05,
      "loss": 0.6529,
      "num_input_tokens_seen": 10070408,
      "step": 17340
    },
    {
      "epoch": 2.5834078045874294,
      "grad_norm": 5.847008228302002,
      "learning_rate": 4.987057673082038e-05,
      "loss": 0.481,
      "num_input_tokens_seen": 10073416,
      "step": 17345
    },
    {
      "epoch": 2.5841525171283886,
      "grad_norm": 12.448391914367676,
      "learning_rate": 4.987024630755239e-05,
      "loss": 0.5238,
      "num_input_tokens_seen": 10076296,
      "step": 17350
    },
    {
      "epoch": 2.5848972296693478,
      "grad_norm": 0.5127082467079163,
      "learning_rate": 4.986991546412687e-05,
      "loss": 0.332,
      "num_input_tokens_seen": 10079336,
      "step": 17355
    },
    {
      "epoch": 2.585641942210307,
      "grad_norm": 10.402837753295898,
      "learning_rate": 4.98695842005494e-05,
      "loss": 0.7181,
      "num_input_tokens_seen": 10082184,
      "step": 17360
    },
    {
      "epoch": 2.586386654751266,
      "grad_norm": 12.351682662963867,
      "learning_rate": 4.9869252516825585e-05,
      "loss": 0.6214,
      "num_input_tokens_seen": 10085224,
      "step": 17365
    },
    {
      "epoch": 2.5871313672922254,
      "grad_norm": 4.842513561248779,
      "learning_rate": 4.986892041296102e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 10088104,
      "step": 17370
    },
    {
      "epoch": 2.587876079833184,
      "grad_norm": 9.988330841064453,
      "learning_rate": 4.9868587888961325e-05,
      "loss": 0.5662,
      "num_input_tokens_seen": 10090888,
      "step": 17375
    },
    {
      "epoch": 2.5886207923741438,
      "grad_norm": 9.470600128173828,
      "learning_rate": 4.986825494483211e-05,
      "loss": 0.4075,
      "num_input_tokens_seen": 10093544,
      "step": 17380
    },
    {
      "epoch": 2.5893655049151025,
      "grad_norm": 6.466564655303955,
      "learning_rate": 4.9867921580579e-05,
      "loss": 0.5235,
      "num_input_tokens_seen": 10096680,
      "step": 17385
    },
    {
      "epoch": 2.590110217456062,
      "grad_norm": 8.31414794921875,
      "learning_rate": 4.986758779620764e-05,
      "loss": 0.4105,
      "num_input_tokens_seen": 10099528,
      "step": 17390
    },
    {
      "epoch": 2.590854929997021,
      "grad_norm": 3.429821252822876,
      "learning_rate": 4.986725359172365e-05,
      "loss": 0.3826,
      "num_input_tokens_seen": 10102248,
      "step": 17395
    },
    {
      "epoch": 2.5915996425379806,
      "grad_norm": 10.808798789978027,
      "learning_rate": 4.986691896713269e-05,
      "loss": 0.6108,
      "num_input_tokens_seen": 10105128,
      "step": 17400
    },
    {
      "epoch": 2.5923443550789393,
      "grad_norm": 1.9911729097366333,
      "learning_rate": 4.98665839224404e-05,
      "loss": 0.5417,
      "num_input_tokens_seen": 10107944,
      "step": 17405
    },
    {
      "epoch": 2.593089067619899,
      "grad_norm": 10.359171867370605,
      "learning_rate": 4.9866248457652455e-05,
      "loss": 0.5811,
      "num_input_tokens_seen": 10110920,
      "step": 17410
    },
    {
      "epoch": 2.5938337801608577,
      "grad_norm": 2.4981701374053955,
      "learning_rate": 4.986591257277451e-05,
      "loss": 0.3377,
      "num_input_tokens_seen": 10114088,
      "step": 17415
    },
    {
      "epoch": 2.594578492701817,
      "grad_norm": 4.3272385597229,
      "learning_rate": 4.986557626781224e-05,
      "loss": 0.3327,
      "num_input_tokens_seen": 10117064,
      "step": 17420
    },
    {
      "epoch": 2.595323205242776,
      "grad_norm": 6.992086410522461,
      "learning_rate": 4.9865239542771345e-05,
      "loss": 0.7265,
      "num_input_tokens_seen": 10119944,
      "step": 17425
    },
    {
      "epoch": 2.5960679177837354,
      "grad_norm": 6.538588047027588,
      "learning_rate": 4.986490239765749e-05,
      "loss": 0.501,
      "num_input_tokens_seen": 10122856,
      "step": 17430
    },
    {
      "epoch": 2.5968126303246946,
      "grad_norm": 10.597033500671387,
      "learning_rate": 4.9864564832476386e-05,
      "loss": 0.5951,
      "num_input_tokens_seen": 10125896,
      "step": 17435
    },
    {
      "epoch": 2.5975573428656538,
      "grad_norm": 8.852124214172363,
      "learning_rate": 4.986422684723373e-05,
      "loss": 0.4433,
      "num_input_tokens_seen": 10128776,
      "step": 17440
    },
    {
      "epoch": 2.598302055406613,
      "grad_norm": 16.858562469482422,
      "learning_rate": 4.986388844193523e-05,
      "loss": 0.5879,
      "num_input_tokens_seen": 10131944,
      "step": 17445
    },
    {
      "epoch": 2.599046767947572,
      "grad_norm": 5.164399147033691,
      "learning_rate": 4.9863549616586604e-05,
      "loss": 0.4232,
      "num_input_tokens_seen": 10134568,
      "step": 17450
    },
    {
      "epoch": 2.5997914804885314,
      "grad_norm": 6.718430995941162,
      "learning_rate": 4.986321037119358e-05,
      "loss": 0.6042,
      "num_input_tokens_seen": 10137416,
      "step": 17455
    },
    {
      "epoch": 2.6005361930294906,
      "grad_norm": 6.123995304107666,
      "learning_rate": 4.986287070576188e-05,
      "loss": 0.4031,
      "num_input_tokens_seen": 10140328,
      "step": 17460
    },
    {
      "epoch": 2.6012809055704498,
      "grad_norm": 7.181763172149658,
      "learning_rate": 4.986253062029725e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 10143432,
      "step": 17465
    },
    {
      "epoch": 2.602025618111409,
      "grad_norm": 7.216494083404541,
      "learning_rate": 4.986219011480544e-05,
      "loss": 0.6033,
      "num_input_tokens_seen": 10146216,
      "step": 17470
    },
    {
      "epoch": 2.602770330652368,
      "grad_norm": 8.772706985473633,
      "learning_rate": 4.98618491892922e-05,
      "loss": 0.5217,
      "num_input_tokens_seen": 10149032,
      "step": 17475
    },
    {
      "epoch": 2.6035150431933274,
      "grad_norm": 14.303850173950195,
      "learning_rate": 4.986150784376328e-05,
      "loss": 0.7755,
      "num_input_tokens_seen": 10151816,
      "step": 17480
    },
    {
      "epoch": 2.6042597557342866,
      "grad_norm": 8.692756652832031,
      "learning_rate": 4.986116607822445e-05,
      "loss": 0.5583,
      "num_input_tokens_seen": 10154536,
      "step": 17485
    },
    {
      "epoch": 2.605004468275246,
      "grad_norm": 11.07236385345459,
      "learning_rate": 4.9860823892681496e-05,
      "loss": 0.5913,
      "num_input_tokens_seen": 10157192,
      "step": 17490
    },
    {
      "epoch": 2.605749180816205,
      "grad_norm": 8.72646713256836,
      "learning_rate": 4.986048128714019e-05,
      "loss": 0.5384,
      "num_input_tokens_seen": 10160072,
      "step": 17495
    },
    {
      "epoch": 2.606493893357164,
      "grad_norm": 4.17401123046875,
      "learning_rate": 4.986013826160631e-05,
      "loss": 0.4836,
      "num_input_tokens_seen": 10162952,
      "step": 17500
    },
    {
      "epoch": 2.6072386058981234,
      "grad_norm": 7.179362773895264,
      "learning_rate": 4.985979481608567e-05,
      "loss": 0.5299,
      "num_input_tokens_seen": 10165864,
      "step": 17505
    },
    {
      "epoch": 2.6079833184390826,
      "grad_norm": 8.465401649475098,
      "learning_rate": 4.9859450950584056e-05,
      "loss": 0.5178,
      "num_input_tokens_seen": 10168936,
      "step": 17510
    },
    {
      "epoch": 2.608728030980042,
      "grad_norm": 8.324714660644531,
      "learning_rate": 4.9859106665107294e-05,
      "loss": 0.5781,
      "num_input_tokens_seen": 10171912,
      "step": 17515
    },
    {
      "epoch": 2.609472743521001,
      "grad_norm": 6.368244647979736,
      "learning_rate": 4.985876195966118e-05,
      "loss": 0.5189,
      "num_input_tokens_seen": 10174568,
      "step": 17520
    },
    {
      "epoch": 2.61021745606196,
      "grad_norm": 7.983875274658203,
      "learning_rate": 4.985841683425155e-05,
      "loss": 0.7407,
      "num_input_tokens_seen": 10177448,
      "step": 17525
    },
    {
      "epoch": 2.6109621686029194,
      "grad_norm": 5.409242153167725,
      "learning_rate": 4.9858071288884236e-05,
      "loss": 0.493,
      "num_input_tokens_seen": 10180200,
      "step": 17530
    },
    {
      "epoch": 2.6117068811438786,
      "grad_norm": 9.959151268005371,
      "learning_rate": 4.985772532356507e-05,
      "loss": 0.5429,
      "num_input_tokens_seen": 10182824,
      "step": 17535
    },
    {
      "epoch": 2.612451593684838,
      "grad_norm": 8.624419212341309,
      "learning_rate": 4.9857378938299895e-05,
      "loss": 0.5722,
      "num_input_tokens_seen": 10185832,
      "step": 17540
    },
    {
      "epoch": 2.613196306225797,
      "grad_norm": 6.458856582641602,
      "learning_rate": 4.985703213309457e-05,
      "loss": 0.4132,
      "num_input_tokens_seen": 10188648,
      "step": 17545
    },
    {
      "epoch": 2.6139410187667558,
      "grad_norm": 8.0798978805542,
      "learning_rate": 4.9856684907954955e-05,
      "loss": 0.703,
      "num_input_tokens_seen": 10191592,
      "step": 17550
    },
    {
      "epoch": 2.6146857313077154,
      "grad_norm": 8.112404823303223,
      "learning_rate": 4.985633726288691e-05,
      "loss": 0.7306,
      "num_input_tokens_seen": 10194408,
      "step": 17555
    },
    {
      "epoch": 2.615430443848674,
      "grad_norm": 7.776292324066162,
      "learning_rate": 4.985598919789631e-05,
      "loss": 0.4603,
      "num_input_tokens_seen": 10197192,
      "step": 17560
    },
    {
      "epoch": 2.616175156389634,
      "grad_norm": 5.032985687255859,
      "learning_rate": 4.9855640712989035e-05,
      "loss": 0.4744,
      "num_input_tokens_seen": 10200200,
      "step": 17565
    },
    {
      "epoch": 2.6169198689305926,
      "grad_norm": 5.566280364990234,
      "learning_rate": 4.9855291808170966e-05,
      "loss": 0.4426,
      "num_input_tokens_seen": 10203144,
      "step": 17570
    },
    {
      "epoch": 2.6176645814715522,
      "grad_norm": 10.09458065032959,
      "learning_rate": 4.985494248344801e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 10206376,
      "step": 17575
    },
    {
      "epoch": 2.618409294012511,
      "grad_norm": 9.206341743469238,
      "learning_rate": 4.9854592738826054e-05,
      "loss": 0.5746,
      "num_input_tokens_seen": 10209192,
      "step": 17580
    },
    {
      "epoch": 2.6191540065534706,
      "grad_norm": 4.531547546386719,
      "learning_rate": 4.985424257431103e-05,
      "loss": 0.6369,
      "num_input_tokens_seen": 10212072,
      "step": 17585
    },
    {
      "epoch": 2.6198987190944294,
      "grad_norm": 15.198715209960938,
      "learning_rate": 4.985389198990883e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 10215208,
      "step": 17590
    },
    {
      "epoch": 2.6206434316353886,
      "grad_norm": 5.83381462097168,
      "learning_rate": 4.985354098562538e-05,
      "loss": 0.429,
      "num_input_tokens_seen": 10217960,
      "step": 17595
    },
    {
      "epoch": 2.621388144176348,
      "grad_norm": 7.852031230926514,
      "learning_rate": 4.985318956146662e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 10220616,
      "step": 17600
    },
    {
      "epoch": 2.622132856717307,
      "grad_norm": 14.063558578491211,
      "learning_rate": 4.9852837717438485e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 10223368,
      "step": 17605
    },
    {
      "epoch": 2.622877569258266,
      "grad_norm": 5.250162124633789,
      "learning_rate": 4.985248545354692e-05,
      "loss": 0.5346,
      "num_input_tokens_seen": 10226280,
      "step": 17610
    },
    {
      "epoch": 2.6236222817992254,
      "grad_norm": 7.615530490875244,
      "learning_rate": 4.985213276979785e-05,
      "loss": 0.5201,
      "num_input_tokens_seen": 10228904,
      "step": 17615
    },
    {
      "epoch": 2.6243669943401846,
      "grad_norm": 1.9538958072662354,
      "learning_rate": 4.985177966619727e-05,
      "loss": 0.4327,
      "num_input_tokens_seen": 10231816,
      "step": 17620
    },
    {
      "epoch": 2.625111706881144,
      "grad_norm": 13.443737030029297,
      "learning_rate": 4.985142614275114e-05,
      "loss": 0.6609,
      "num_input_tokens_seen": 10234920,
      "step": 17625
    },
    {
      "epoch": 2.625856419422103,
      "grad_norm": 8.343194961547852,
      "learning_rate": 4.985107219946541e-05,
      "loss": 0.6368,
      "num_input_tokens_seen": 10237736,
      "step": 17630
    },
    {
      "epoch": 2.626601131963062,
      "grad_norm": 12.770162582397461,
      "learning_rate": 4.985071783634608e-05,
      "loss": 0.6981,
      "num_input_tokens_seen": 10240584,
      "step": 17635
    },
    {
      "epoch": 2.6273458445040214,
      "grad_norm": 4.975498199462891,
      "learning_rate": 4.985036305339913e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 10243400,
      "step": 17640
    },
    {
      "epoch": 2.6280905570449806,
      "grad_norm": 9.695116996765137,
      "learning_rate": 4.9850007850630545e-05,
      "loss": 0.7234,
      "num_input_tokens_seen": 10246312,
      "step": 17645
    },
    {
      "epoch": 2.62883526958594,
      "grad_norm": 14.882200241088867,
      "learning_rate": 4.984965222804634e-05,
      "loss": 0.7452,
      "num_input_tokens_seen": 10249096,
      "step": 17650
    },
    {
      "epoch": 2.629579982126899,
      "grad_norm": 3.941439628601074,
      "learning_rate": 4.984929618565252e-05,
      "loss": 0.7203,
      "num_input_tokens_seen": 10251880,
      "step": 17655
    },
    {
      "epoch": 2.6303246946678582,
      "grad_norm": 3.072657823562622,
      "learning_rate": 4.9848939723455085e-05,
      "loss": 0.7616,
      "num_input_tokens_seen": 10254728,
      "step": 17660
    },
    {
      "epoch": 2.6310694072088174,
      "grad_norm": 5.454130172729492,
      "learning_rate": 4.984858284146008e-05,
      "loss": 0.5924,
      "num_input_tokens_seen": 10257640,
      "step": 17665
    },
    {
      "epoch": 2.6318141197497766,
      "grad_norm": 3.8152904510498047,
      "learning_rate": 4.9848225539673513e-05,
      "loss": 0.4721,
      "num_input_tokens_seen": 10260424,
      "step": 17670
    },
    {
      "epoch": 2.632558832290736,
      "grad_norm": 5.935312271118164,
      "learning_rate": 4.9847867818101436e-05,
      "loss": 0.6393,
      "num_input_tokens_seen": 10263432,
      "step": 17675
    },
    {
      "epoch": 2.633303544831695,
      "grad_norm": 4.215588092803955,
      "learning_rate": 4.984750967674989e-05,
      "loss": 0.4799,
      "num_input_tokens_seen": 10266792,
      "step": 17680
    },
    {
      "epoch": 2.6340482573726542,
      "grad_norm": 6.862462043762207,
      "learning_rate": 4.9847151115624916e-05,
      "loss": 0.5528,
      "num_input_tokens_seen": 10269640,
      "step": 17685
    },
    {
      "epoch": 2.6347929699136134,
      "grad_norm": 5.802215099334717,
      "learning_rate": 4.984679213473258e-05,
      "loss": 0.5702,
      "num_input_tokens_seen": 10272520,
      "step": 17690
    },
    {
      "epoch": 2.6355376824545726,
      "grad_norm": 6.123918533325195,
      "learning_rate": 4.984643273407894e-05,
      "loss": 0.488,
      "num_input_tokens_seen": 10275528,
      "step": 17695
    },
    {
      "epoch": 2.636282394995532,
      "grad_norm": 7.685450553894043,
      "learning_rate": 4.984607291367007e-05,
      "loss": 0.4398,
      "num_input_tokens_seen": 10278248,
      "step": 17700
    },
    {
      "epoch": 2.637027107536491,
      "grad_norm": 14.057068824768066,
      "learning_rate": 4.984571267351206e-05,
      "loss": 0.7538,
      "num_input_tokens_seen": 10281192,
      "step": 17705
    },
    {
      "epoch": 2.6377718200774503,
      "grad_norm": 12.606832504272461,
      "learning_rate": 4.984535201361098e-05,
      "loss": 0.7266,
      "num_input_tokens_seen": 10284488,
      "step": 17710
    },
    {
      "epoch": 2.6385165326184095,
      "grad_norm": 7.414283752441406,
      "learning_rate": 4.984499093397294e-05,
      "loss": 0.7477,
      "num_input_tokens_seen": 10287176,
      "step": 17715
    },
    {
      "epoch": 2.6392612451593687,
      "grad_norm": 7.867629051208496,
      "learning_rate": 4.984462943460402e-05,
      "loss": 0.5848,
      "num_input_tokens_seen": 10289864,
      "step": 17720
    },
    {
      "epoch": 2.6400059577003274,
      "grad_norm": 3.7269980907440186,
      "learning_rate": 4.984426751551033e-05,
      "loss": 0.5116,
      "num_input_tokens_seen": 10292904,
      "step": 17725
    },
    {
      "epoch": 2.640750670241287,
      "grad_norm": 8.783077239990234,
      "learning_rate": 4.9843905176698004e-05,
      "loss": 0.6219,
      "num_input_tokens_seen": 10295624,
      "step": 17730
    },
    {
      "epoch": 2.641495382782246,
      "grad_norm": 5.280723571777344,
      "learning_rate": 4.984354241817314e-05,
      "loss": 0.3788,
      "num_input_tokens_seen": 10298472,
      "step": 17735
    },
    {
      "epoch": 2.6422400953232055,
      "grad_norm": 8.76933479309082,
      "learning_rate": 4.984317923994188e-05,
      "loss": 0.3824,
      "num_input_tokens_seen": 10301480,
      "step": 17740
    },
    {
      "epoch": 2.6429848078641642,
      "grad_norm": 6.5324249267578125,
      "learning_rate": 4.984281564201036e-05,
      "loss": 0.5914,
      "num_input_tokens_seen": 10304616,
      "step": 17745
    },
    {
      "epoch": 2.643729520405124,
      "grad_norm": 4.863656044006348,
      "learning_rate": 4.9842451624384715e-05,
      "loss": 0.4092,
      "num_input_tokens_seen": 10307304,
      "step": 17750
    },
    {
      "epoch": 2.6444742329460826,
      "grad_norm": 4.222534656524658,
      "learning_rate": 4.98420871870711e-05,
      "loss": 0.3382,
      "num_input_tokens_seen": 10309960,
      "step": 17755
    },
    {
      "epoch": 2.645218945487042,
      "grad_norm": 7.509449481964111,
      "learning_rate": 4.984172233007567e-05,
      "loss": 0.7233,
      "num_input_tokens_seen": 10312840,
      "step": 17760
    },
    {
      "epoch": 2.645963658028001,
      "grad_norm": 13.025643348693848,
      "learning_rate": 4.984135705340459e-05,
      "loss": 0.4658,
      "num_input_tokens_seen": 10315304,
      "step": 17765
    },
    {
      "epoch": 2.6467083705689602,
      "grad_norm": 5.820111274719238,
      "learning_rate": 4.984099135706402e-05,
      "loss": 0.7683,
      "num_input_tokens_seen": 10317960,
      "step": 17770
    },
    {
      "epoch": 2.6474530831099194,
      "grad_norm": 6.915773868560791,
      "learning_rate": 4.984062524106017e-05,
      "loss": 0.7616,
      "num_input_tokens_seen": 10320840,
      "step": 17775
    },
    {
      "epoch": 2.6481977956508786,
      "grad_norm": 5.892279148101807,
      "learning_rate": 4.984025870539919e-05,
      "loss": 0.3124,
      "num_input_tokens_seen": 10323656,
      "step": 17780
    },
    {
      "epoch": 2.648942508191838,
      "grad_norm": 10.235767364501953,
      "learning_rate": 4.983989175008729e-05,
      "loss": 0.5956,
      "num_input_tokens_seen": 10326440,
      "step": 17785
    },
    {
      "epoch": 2.649687220732797,
      "grad_norm": 10.644432067871094,
      "learning_rate": 4.983952437513066e-05,
      "loss": 0.5321,
      "num_input_tokens_seen": 10329064,
      "step": 17790
    },
    {
      "epoch": 2.6504319332737563,
      "grad_norm": 10.408453941345215,
      "learning_rate": 4.983915658053551e-05,
      "loss": 0.6396,
      "num_input_tokens_seen": 10331912,
      "step": 17795
    },
    {
      "epoch": 2.6511766458147155,
      "grad_norm": 9.28220272064209,
      "learning_rate": 4.983878836630806e-05,
      "loss": 0.4729,
      "num_input_tokens_seen": 10334504,
      "step": 17800
    },
    {
      "epoch": 2.6519213583556747,
      "grad_norm": 8.108624458312988,
      "learning_rate": 4.983841973245452e-05,
      "loss": 0.5921,
      "num_input_tokens_seen": 10337032,
      "step": 17805
    },
    {
      "epoch": 2.652666070896634,
      "grad_norm": 8.668726921081543,
      "learning_rate": 4.983805067898113e-05,
      "loss": 0.6624,
      "num_input_tokens_seen": 10339848,
      "step": 17810
    },
    {
      "epoch": 2.653410783437593,
      "grad_norm": 9.79434585571289,
      "learning_rate": 4.983768120589411e-05,
      "loss": 0.518,
      "num_input_tokens_seen": 10342888,
      "step": 17815
    },
    {
      "epoch": 2.6541554959785523,
      "grad_norm": 7.296470642089844,
      "learning_rate": 4.983731131319972e-05,
      "loss": 0.5194,
      "num_input_tokens_seen": 10345608,
      "step": 17820
    },
    {
      "epoch": 2.6549002085195115,
      "grad_norm": 6.886600494384766,
      "learning_rate": 4.98369410009042e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 10348648,
      "step": 17825
    },
    {
      "epoch": 2.6556449210604707,
      "grad_norm": 4.208512783050537,
      "learning_rate": 4.9836570269013796e-05,
      "loss": 0.4813,
      "num_input_tokens_seen": 10351592,
      "step": 17830
    },
    {
      "epoch": 2.65638963360143,
      "grad_norm": 14.157655715942383,
      "learning_rate": 4.983619911753478e-05,
      "loss": 0.4617,
      "num_input_tokens_seen": 10354728,
      "step": 17835
    },
    {
      "epoch": 2.657134346142389,
      "grad_norm": 24.917247772216797,
      "learning_rate": 4.983582754647343e-05,
      "loss": 0.6838,
      "num_input_tokens_seen": 10357608,
      "step": 17840
    },
    {
      "epoch": 2.6578790586833483,
      "grad_norm": 6.016544818878174,
      "learning_rate": 4.983545555583601e-05,
      "loss": 0.618,
      "num_input_tokens_seen": 10360520,
      "step": 17845
    },
    {
      "epoch": 2.6586237712243075,
      "grad_norm": 6.308850288391113,
      "learning_rate": 4.9835083145628816e-05,
      "loss": 0.5419,
      "num_input_tokens_seen": 10363336,
      "step": 17850
    },
    {
      "epoch": 2.6593684837652667,
      "grad_norm": 4.655909061431885,
      "learning_rate": 4.9834710315858125e-05,
      "loss": 0.6202,
      "num_input_tokens_seen": 10366152,
      "step": 17855
    },
    {
      "epoch": 2.660113196306226,
      "grad_norm": 8.38505744934082,
      "learning_rate": 4.983433706653024e-05,
      "loss": 0.5382,
      "num_input_tokens_seen": 10369064,
      "step": 17860
    },
    {
      "epoch": 2.660857908847185,
      "grad_norm": 3.9048314094543457,
      "learning_rate": 4.9833963397651485e-05,
      "loss": 0.5621,
      "num_input_tokens_seen": 10371816,
      "step": 17865
    },
    {
      "epoch": 2.6616026213881443,
      "grad_norm": 3.191345453262329,
      "learning_rate": 4.9833589309228154e-05,
      "loss": 0.8417,
      "num_input_tokens_seen": 10374568,
      "step": 17870
    },
    {
      "epoch": 2.6623473339291035,
      "grad_norm": 9.755988121032715,
      "learning_rate": 4.9833214801266565e-05,
      "loss": 0.5685,
      "num_input_tokens_seen": 10377288,
      "step": 17875
    },
    {
      "epoch": 2.6630920464700627,
      "grad_norm": 5.101620197296143,
      "learning_rate": 4.9832839873773054e-05,
      "loss": 0.6152,
      "num_input_tokens_seen": 10380264,
      "step": 17880
    },
    {
      "epoch": 2.663836759011022,
      "grad_norm": 4.880669116973877,
      "learning_rate": 4.983246452675395e-05,
      "loss": 0.3965,
      "num_input_tokens_seen": 10382952,
      "step": 17885
    },
    {
      "epoch": 2.6645814715519807,
      "grad_norm": 2.907400608062744,
      "learning_rate": 4.983208876021561e-05,
      "loss": 0.595,
      "num_input_tokens_seen": 10385800,
      "step": 17890
    },
    {
      "epoch": 2.6653261840929403,
      "grad_norm": 3.755676031112671,
      "learning_rate": 4.983171257416436e-05,
      "loss": 0.5486,
      "num_input_tokens_seen": 10388584,
      "step": 17895
    },
    {
      "epoch": 2.666070896633899,
      "grad_norm": 4.5355095863342285,
      "learning_rate": 4.983133596860656e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 10391304,
      "step": 17900
    },
    {
      "epoch": 2.6668156091748587,
      "grad_norm": 6.319450378417969,
      "learning_rate": 4.983095894354858e-05,
      "loss": 0.4569,
      "num_input_tokens_seen": 10394152,
      "step": 17905
    },
    {
      "epoch": 2.6675603217158175,
      "grad_norm": 3.3211476802825928,
      "learning_rate": 4.9830581498996784e-05,
      "loss": 0.63,
      "num_input_tokens_seen": 10397064,
      "step": 17910
    },
    {
      "epoch": 2.668305034256777,
      "grad_norm": 6.266026973724365,
      "learning_rate": 4.983020363495755e-05,
      "loss": 0.7759,
      "num_input_tokens_seen": 10399848,
      "step": 17915
    },
    {
      "epoch": 2.669049746797736,
      "grad_norm": 10.881843566894531,
      "learning_rate": 4.982982535143727e-05,
      "loss": 0.6296,
      "num_input_tokens_seen": 10402504,
      "step": 17920
    },
    {
      "epoch": 2.6697944593386955,
      "grad_norm": 3.97267746925354,
      "learning_rate": 4.982944664844231e-05,
      "loss": 0.5232,
      "num_input_tokens_seen": 10404808,
      "step": 17925
    },
    {
      "epoch": 2.6705391718796543,
      "grad_norm": 3.1864888668060303,
      "learning_rate": 4.98290675259791e-05,
      "loss": 0.5956,
      "num_input_tokens_seen": 10407624,
      "step": 17930
    },
    {
      "epoch": 2.6712838844206135,
      "grad_norm": 6.8169169425964355,
      "learning_rate": 4.9828687984054015e-05,
      "loss": 0.4659,
      "num_input_tokens_seen": 10411048,
      "step": 17935
    },
    {
      "epoch": 2.6720285969615727,
      "grad_norm": 5.1798834800720215,
      "learning_rate": 4.9828308022673494e-05,
      "loss": 0.5627,
      "num_input_tokens_seen": 10413896,
      "step": 17940
    },
    {
      "epoch": 2.672773309502532,
      "grad_norm": 6.734514236450195,
      "learning_rate": 4.9827927641843944e-05,
      "loss": 0.4536,
      "num_input_tokens_seen": 10416616,
      "step": 17945
    },
    {
      "epoch": 2.673518022043491,
      "grad_norm": 7.93834924697876,
      "learning_rate": 4.982754684157178e-05,
      "loss": 0.5684,
      "num_input_tokens_seen": 10419400,
      "step": 17950
    },
    {
      "epoch": 2.6742627345844503,
      "grad_norm": 10.038628578186035,
      "learning_rate": 4.982716562186345e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 10422248,
      "step": 17955
    },
    {
      "epoch": 2.6750074471254095,
      "grad_norm": 7.655985355377197,
      "learning_rate": 4.982678398272539e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 10425224,
      "step": 17960
    },
    {
      "epoch": 2.6757521596663687,
      "grad_norm": 3.4761581420898438,
      "learning_rate": 4.982640192416404e-05,
      "loss": 0.4767,
      "num_input_tokens_seen": 10428072,
      "step": 17965
    },
    {
      "epoch": 2.676496872207328,
      "grad_norm": 9.960405349731445,
      "learning_rate": 4.982601944618588e-05,
      "loss": 0.5256,
      "num_input_tokens_seen": 10430920,
      "step": 17970
    },
    {
      "epoch": 2.677241584748287,
      "grad_norm": 5.366156578063965,
      "learning_rate": 4.982563654879734e-05,
      "loss": 0.5745,
      "num_input_tokens_seen": 10434184,
      "step": 17975
    },
    {
      "epoch": 2.6779862972892463,
      "grad_norm": 15.359594345092773,
      "learning_rate": 4.982525323200491e-05,
      "loss": 0.445,
      "num_input_tokens_seen": 10436936,
      "step": 17980
    },
    {
      "epoch": 2.6787310098302055,
      "grad_norm": 5.604239463806152,
      "learning_rate": 4.982486949581505e-05,
      "loss": 0.5714,
      "num_input_tokens_seen": 10440072,
      "step": 17985
    },
    {
      "epoch": 2.6794757223711647,
      "grad_norm": 5.552456855773926,
      "learning_rate": 4.982448534023426e-05,
      "loss": 0.385,
      "num_input_tokens_seen": 10442856,
      "step": 17990
    },
    {
      "epoch": 2.680220434912124,
      "grad_norm": 8.652215003967285,
      "learning_rate": 4.982410076526901e-05,
      "loss": 0.9003,
      "num_input_tokens_seen": 10445608,
      "step": 17995
    },
    {
      "epoch": 2.680965147453083,
      "grad_norm": 2.963895082473755,
      "learning_rate": 4.9823715770925814e-05,
      "loss": 0.52,
      "num_input_tokens_seen": 10448136,
      "step": 18000
    },
    {
      "epoch": 2.6817098599940423,
      "grad_norm": 4.860193729400635,
      "learning_rate": 4.982333035721117e-05,
      "loss": 0.5506,
      "num_input_tokens_seen": 10451176,
      "step": 18005
    },
    {
      "epoch": 2.6824545725350015,
      "grad_norm": 9.847002029418945,
      "learning_rate": 4.982294452413159e-05,
      "loss": 0.4367,
      "num_input_tokens_seen": 10454248,
      "step": 18010
    },
    {
      "epoch": 2.6831992850759607,
      "grad_norm": 6.662006855010986,
      "learning_rate": 4.982255827169359e-05,
      "loss": 0.6866,
      "num_input_tokens_seen": 10457160,
      "step": 18015
    },
    {
      "epoch": 2.68394399761692,
      "grad_norm": 9.63629150390625,
      "learning_rate": 4.982217159990369e-05,
      "loss": 0.5539,
      "num_input_tokens_seen": 10460328,
      "step": 18020
    },
    {
      "epoch": 2.684688710157879,
      "grad_norm": 8.194223403930664,
      "learning_rate": 4.982178450876843e-05,
      "loss": 0.4483,
      "num_input_tokens_seen": 10463112,
      "step": 18025
    },
    {
      "epoch": 2.6854334226988383,
      "grad_norm": 2.2856695652008057,
      "learning_rate": 4.9821396998294356e-05,
      "loss": 0.5068,
      "num_input_tokens_seen": 10466152,
      "step": 18030
    },
    {
      "epoch": 2.6861781352397975,
      "grad_norm": 16.823867797851562,
      "learning_rate": 4.982100906848801e-05,
      "loss": 0.5415,
      "num_input_tokens_seen": 10468968,
      "step": 18035
    },
    {
      "epoch": 2.6869228477807567,
      "grad_norm": 3.1070897579193115,
      "learning_rate": 4.9820620719355934e-05,
      "loss": 0.3947,
      "num_input_tokens_seen": 10471976,
      "step": 18040
    },
    {
      "epoch": 2.687667560321716,
      "grad_norm": 9.522725105285645,
      "learning_rate": 4.982023195090469e-05,
      "loss": 0.5405,
      "num_input_tokens_seen": 10474792,
      "step": 18045
    },
    {
      "epoch": 2.688412272862675,
      "grad_norm": 5.725188255310059,
      "learning_rate": 4.981984276314087e-05,
      "loss": 0.517,
      "num_input_tokens_seen": 10477928,
      "step": 18050
    },
    {
      "epoch": 2.6891569854036343,
      "grad_norm": 5.600059509277344,
      "learning_rate": 4.981945315607103e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 10480872,
      "step": 18055
    },
    {
      "epoch": 2.6899016979445936,
      "grad_norm": 8.803838729858398,
      "learning_rate": 4.981906312970175e-05,
      "loss": 0.6534,
      "num_input_tokens_seen": 10483720,
      "step": 18060
    },
    {
      "epoch": 2.6906464104855523,
      "grad_norm": 6.6716814041137695,
      "learning_rate": 4.981867268403962e-05,
      "loss": 0.5007,
      "num_input_tokens_seen": 10486792,
      "step": 18065
    },
    {
      "epoch": 2.691391123026512,
      "grad_norm": 19.33487319946289,
      "learning_rate": 4.981828181909124e-05,
      "loss": 0.5589,
      "num_input_tokens_seen": 10489864,
      "step": 18070
    },
    {
      "epoch": 2.6921358355674707,
      "grad_norm": 10.493311882019043,
      "learning_rate": 4.981789053486322e-05,
      "loss": 0.5108,
      "num_input_tokens_seen": 10492584,
      "step": 18075
    },
    {
      "epoch": 2.6928805481084304,
      "grad_norm": 5.482553005218506,
      "learning_rate": 4.981749883136215e-05,
      "loss": 0.586,
      "num_input_tokens_seen": 10495624,
      "step": 18080
    },
    {
      "epoch": 2.693625260649389,
      "grad_norm": 11.65964126586914,
      "learning_rate": 4.981710670859467e-05,
      "loss": 0.5198,
      "num_input_tokens_seen": 10498376,
      "step": 18085
    },
    {
      "epoch": 2.6943699731903488,
      "grad_norm": 4.638423919677734,
      "learning_rate": 4.98167141665674e-05,
      "loss": 0.4814,
      "num_input_tokens_seen": 10501352,
      "step": 18090
    },
    {
      "epoch": 2.6951146857313075,
      "grad_norm": 8.623753547668457,
      "learning_rate": 4.981632120528696e-05,
      "loss": 0.5304,
      "num_input_tokens_seen": 10504392,
      "step": 18095
    },
    {
      "epoch": 2.695859398272267,
      "grad_norm": 7.003963947296143,
      "learning_rate": 4.981592782476e-05,
      "loss": 0.6805,
      "num_input_tokens_seen": 10507400,
      "step": 18100
    },
    {
      "epoch": 2.696604110813226,
      "grad_norm": 12.763322830200195,
      "learning_rate": 4.981553402499316e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 10510024,
      "step": 18105
    },
    {
      "epoch": 2.697348823354185,
      "grad_norm": 15.381129264831543,
      "learning_rate": 4.9815139805993086e-05,
      "loss": 0.4844,
      "num_input_tokens_seen": 10512840,
      "step": 18110
    },
    {
      "epoch": 2.6980935358951443,
      "grad_norm": 5.109135150909424,
      "learning_rate": 4.9814745167766455e-05,
      "loss": 0.2333,
      "num_input_tokens_seen": 10515944,
      "step": 18115
    },
    {
      "epoch": 2.6988382484361035,
      "grad_norm": 14.336880683898926,
      "learning_rate": 4.981435011031992e-05,
      "loss": 0.4842,
      "num_input_tokens_seen": 10518856,
      "step": 18120
    },
    {
      "epoch": 2.6995829609770627,
      "grad_norm": 8.253846168518066,
      "learning_rate": 4.9813954633660166e-05,
      "loss": 0.5746,
      "num_input_tokens_seen": 10521544,
      "step": 18125
    },
    {
      "epoch": 2.700327673518022,
      "grad_norm": 15.472481727600098,
      "learning_rate": 4.9813558737793865e-05,
      "loss": 0.7555,
      "num_input_tokens_seen": 10524520,
      "step": 18130
    },
    {
      "epoch": 2.701072386058981,
      "grad_norm": 11.52798080444336,
      "learning_rate": 4.9813162422727705e-05,
      "loss": 0.6269,
      "num_input_tokens_seen": 10527656,
      "step": 18135
    },
    {
      "epoch": 2.7018170985999403,
      "grad_norm": 6.253864288330078,
      "learning_rate": 4.981276568846839e-05,
      "loss": 0.6325,
      "num_input_tokens_seen": 10530344,
      "step": 18140
    },
    {
      "epoch": 2.7025618111408996,
      "grad_norm": 7.348077774047852,
      "learning_rate": 4.981236853502261e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 10533704,
      "step": 18145
    },
    {
      "epoch": 2.7033065236818588,
      "grad_norm": 46.00407409667969,
      "learning_rate": 4.9811970962397095e-05,
      "loss": 0.7141,
      "num_input_tokens_seen": 10536712,
      "step": 18150
    },
    {
      "epoch": 2.704051236222818,
      "grad_norm": 4.5649261474609375,
      "learning_rate": 4.981157297059853e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 10539688,
      "step": 18155
    },
    {
      "epoch": 2.704795948763777,
      "grad_norm": 7.833418846130371,
      "learning_rate": 4.981117455963367e-05,
      "loss": 0.3931,
      "num_input_tokens_seen": 10542600,
      "step": 18160
    },
    {
      "epoch": 2.7055406613047364,
      "grad_norm": 34.01420593261719,
      "learning_rate": 4.981077572950923e-05,
      "loss": 0.4668,
      "num_input_tokens_seen": 10545160,
      "step": 18165
    },
    {
      "epoch": 2.7062853738456956,
      "grad_norm": 3.553359031677246,
      "learning_rate": 4.9810376480231944e-05,
      "loss": 0.6894,
      "num_input_tokens_seen": 10547944,
      "step": 18170
    },
    {
      "epoch": 2.7070300863866548,
      "grad_norm": 8.784829139709473,
      "learning_rate": 4.980997681180858e-05,
      "loss": 0.705,
      "num_input_tokens_seen": 10551080,
      "step": 18175
    },
    {
      "epoch": 2.707774798927614,
      "grad_norm": 1.940363883972168,
      "learning_rate": 4.980957672424586e-05,
      "loss": 0.432,
      "num_input_tokens_seen": 10553864,
      "step": 18180
    },
    {
      "epoch": 2.708519511468573,
      "grad_norm": 7.969923973083496,
      "learning_rate": 4.980917621755056e-05,
      "loss": 0.6296,
      "num_input_tokens_seen": 10557000,
      "step": 18185
    },
    {
      "epoch": 2.7092642240095324,
      "grad_norm": 8.039013862609863,
      "learning_rate": 4.9808775291729445e-05,
      "loss": 0.5539,
      "num_input_tokens_seen": 10559848,
      "step": 18190
    },
    {
      "epoch": 2.7100089365504916,
      "grad_norm": 6.950710773468018,
      "learning_rate": 4.980837394678928e-05,
      "loss": 0.571,
      "num_input_tokens_seen": 10562472,
      "step": 18195
    },
    {
      "epoch": 2.710753649091451,
      "grad_norm": 7.031771659851074,
      "learning_rate": 4.980797218273685e-05,
      "loss": 0.5219,
      "num_input_tokens_seen": 10565192,
      "step": 18200
    },
    {
      "epoch": 2.71149836163241,
      "grad_norm": 5.91987419128418,
      "learning_rate": 4.980756999957895e-05,
      "loss": 0.7407,
      "num_input_tokens_seen": 10567880,
      "step": 18205
    },
    {
      "epoch": 2.712243074173369,
      "grad_norm": 5.748086452484131,
      "learning_rate": 4.9807167397322376e-05,
      "loss": 0.5993,
      "num_input_tokens_seen": 10570888,
      "step": 18210
    },
    {
      "epoch": 2.7129877867143284,
      "grad_norm": 5.146896839141846,
      "learning_rate": 4.980676437597391e-05,
      "loss": 0.3652,
      "num_input_tokens_seen": 10573704,
      "step": 18215
    },
    {
      "epoch": 2.7137324992552876,
      "grad_norm": 8.556525230407715,
      "learning_rate": 4.980636093554038e-05,
      "loss": 0.3673,
      "num_input_tokens_seen": 10576552,
      "step": 18220
    },
    {
      "epoch": 2.714477211796247,
      "grad_norm": 11.270803451538086,
      "learning_rate": 4.980595707602858e-05,
      "loss": 0.3075,
      "num_input_tokens_seen": 10579816,
      "step": 18225
    },
    {
      "epoch": 2.715221924337206,
      "grad_norm": 7.851454734802246,
      "learning_rate": 4.980555279744535e-05,
      "loss": 0.6547,
      "num_input_tokens_seen": 10582920,
      "step": 18230
    },
    {
      "epoch": 2.715966636878165,
      "grad_norm": 5.8739142417907715,
      "learning_rate": 4.980514809979753e-05,
      "loss": 0.4813,
      "num_input_tokens_seen": 10586216,
      "step": 18235
    },
    {
      "epoch": 2.716711349419124,
      "grad_norm": 4.524412155151367,
      "learning_rate": 4.9804742983091934e-05,
      "loss": 0.7817,
      "num_input_tokens_seen": 10589000,
      "step": 18240
    },
    {
      "epoch": 2.7174560619600836,
      "grad_norm": 6.185978412628174,
      "learning_rate": 4.9804337447335414e-05,
      "loss": 0.4208,
      "num_input_tokens_seen": 10591784,
      "step": 18245
    },
    {
      "epoch": 2.7182007745010424,
      "grad_norm": 9.654125213623047,
      "learning_rate": 4.980393149253483e-05,
      "loss": 0.5813,
      "num_input_tokens_seen": 10594824,
      "step": 18250
    },
    {
      "epoch": 2.718945487042002,
      "grad_norm": 8.810297966003418,
      "learning_rate": 4.980352511869703e-05,
      "loss": 0.6348,
      "num_input_tokens_seen": 10597704,
      "step": 18255
    },
    {
      "epoch": 2.7196901995829608,
      "grad_norm": 10.839332580566406,
      "learning_rate": 4.980311832582888e-05,
      "loss": 0.6118,
      "num_input_tokens_seen": 10600648,
      "step": 18260
    },
    {
      "epoch": 2.7204349121239204,
      "grad_norm": 8.739725112915039,
      "learning_rate": 4.980271111393726e-05,
      "loss": 0.4947,
      "num_input_tokens_seen": 10603784,
      "step": 18265
    },
    {
      "epoch": 2.721179624664879,
      "grad_norm": 5.022011756896973,
      "learning_rate": 4.980230348302904e-05,
      "loss": 0.5901,
      "num_input_tokens_seen": 10606632,
      "step": 18270
    },
    {
      "epoch": 2.721924337205839,
      "grad_norm": 11.010653495788574,
      "learning_rate": 4.9801895433111115e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 10609256,
      "step": 18275
    },
    {
      "epoch": 2.7226690497467976,
      "grad_norm": 8.967120170593262,
      "learning_rate": 4.9801486964190366e-05,
      "loss": 0.5471,
      "num_input_tokens_seen": 10612232,
      "step": 18280
    },
    {
      "epoch": 2.723413762287757,
      "grad_norm": 4.29794454574585,
      "learning_rate": 4.9801078076273704e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 10615080,
      "step": 18285
    },
    {
      "epoch": 2.724158474828716,
      "grad_norm": 6.7148871421813965,
      "learning_rate": 4.980066876936804e-05,
      "loss": 0.5484,
      "num_input_tokens_seen": 10618120,
      "step": 18290
    },
    {
      "epoch": 2.724903187369675,
      "grad_norm": 4.847373008728027,
      "learning_rate": 4.980025904348028e-05,
      "loss": 0.5518,
      "num_input_tokens_seen": 10620936,
      "step": 18295
    },
    {
      "epoch": 2.7256478999106344,
      "grad_norm": 6.570140838623047,
      "learning_rate": 4.979984889861735e-05,
      "loss": 0.6472,
      "num_input_tokens_seen": 10623592,
      "step": 18300
    },
    {
      "epoch": 2.7263926124515936,
      "grad_norm": 14.164107322692871,
      "learning_rate": 4.9799438334786174e-05,
      "loss": 0.5523,
      "num_input_tokens_seen": 10626568,
      "step": 18305
    },
    {
      "epoch": 2.727137324992553,
      "grad_norm": 5.910220623016357,
      "learning_rate": 4.97990273519937e-05,
      "loss": 0.4277,
      "num_input_tokens_seen": 10629512,
      "step": 18310
    },
    {
      "epoch": 2.727882037533512,
      "grad_norm": 2.8565845489501953,
      "learning_rate": 4.9798615950246855e-05,
      "loss": 0.4934,
      "num_input_tokens_seen": 10632584,
      "step": 18315
    },
    {
      "epoch": 2.728626750074471,
      "grad_norm": 9.554633140563965,
      "learning_rate": 4.97982041295526e-05,
      "loss": 0.4658,
      "num_input_tokens_seen": 10635112,
      "step": 18320
    },
    {
      "epoch": 2.7293714626154304,
      "grad_norm": 4.022365570068359,
      "learning_rate": 4.97977918899179e-05,
      "loss": 0.5215,
      "num_input_tokens_seen": 10637928,
      "step": 18325
    },
    {
      "epoch": 2.7301161751563896,
      "grad_norm": 4.021359443664551,
      "learning_rate": 4.97973792313497e-05,
      "loss": 0.5414,
      "num_input_tokens_seen": 10640648,
      "step": 18330
    },
    {
      "epoch": 2.730860887697349,
      "grad_norm": 19.501476287841797,
      "learning_rate": 4.979696615385499e-05,
      "loss": 0.728,
      "num_input_tokens_seen": 10643272,
      "step": 18335
    },
    {
      "epoch": 2.731605600238308,
      "grad_norm": 4.865406036376953,
      "learning_rate": 4.979655265744072e-05,
      "loss": 0.5972,
      "num_input_tokens_seen": 10646088,
      "step": 18340
    },
    {
      "epoch": 2.732350312779267,
      "grad_norm": 4.525192737579346,
      "learning_rate": 4.979613874211391e-05,
      "loss": 0.5334,
      "num_input_tokens_seen": 10649160,
      "step": 18345
    },
    {
      "epoch": 2.7330950253202264,
      "grad_norm": 8.653180122375488,
      "learning_rate": 4.979572440788154e-05,
      "loss": 0.3714,
      "num_input_tokens_seen": 10651848,
      "step": 18350
    },
    {
      "epoch": 2.7338397378611856,
      "grad_norm": 7.494598388671875,
      "learning_rate": 4.97953096547506e-05,
      "loss": 0.54,
      "num_input_tokens_seen": 10654824,
      "step": 18355
    },
    {
      "epoch": 2.734584450402145,
      "grad_norm": 7.039859294891357,
      "learning_rate": 4.9794894482728105e-05,
      "loss": 0.6344,
      "num_input_tokens_seen": 10657608,
      "step": 18360
    },
    {
      "epoch": 2.735329162943104,
      "grad_norm": 12.010205268859863,
      "learning_rate": 4.979447889182107e-05,
      "loss": 0.8036,
      "num_input_tokens_seen": 10660456,
      "step": 18365
    },
    {
      "epoch": 2.7360738754840632,
      "grad_norm": 3.620445489883423,
      "learning_rate": 4.979406288203651e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 10663528,
      "step": 18370
    },
    {
      "epoch": 2.7368185880250224,
      "grad_norm": 12.80266284942627,
      "learning_rate": 4.979364645338146e-05,
      "loss": 0.4786,
      "num_input_tokens_seen": 10666344,
      "step": 18375
    },
    {
      "epoch": 2.7375633005659816,
      "grad_norm": 10.827272415161133,
      "learning_rate": 4.979322960586296e-05,
      "loss": 0.4096,
      "num_input_tokens_seen": 10669544,
      "step": 18380
    },
    {
      "epoch": 2.738308013106941,
      "grad_norm": 3.4145939350128174,
      "learning_rate": 4.979281233948803e-05,
      "loss": 0.4311,
      "num_input_tokens_seen": 10672456,
      "step": 18385
    },
    {
      "epoch": 2.7390527256479,
      "grad_norm": 11.13960075378418,
      "learning_rate": 4.9792394654263744e-05,
      "loss": 0.8032,
      "num_input_tokens_seen": 10675528,
      "step": 18390
    },
    {
      "epoch": 2.7397974381888592,
      "grad_norm": 7.450015068054199,
      "learning_rate": 4.9791976550197144e-05,
      "loss": 0.4678,
      "num_input_tokens_seen": 10678504,
      "step": 18395
    },
    {
      "epoch": 2.7405421507298184,
      "grad_norm": 5.33181619644165,
      "learning_rate": 4.9791558027295296e-05,
      "loss": 0.5393,
      "num_input_tokens_seen": 10681256,
      "step": 18400
    },
    {
      "epoch": 2.7412868632707776,
      "grad_norm": 8.191022872924805,
      "learning_rate": 4.9791139085565274e-05,
      "loss": 0.4549,
      "num_input_tokens_seen": 10684232,
      "step": 18405
    },
    {
      "epoch": 2.742031575811737,
      "grad_norm": 9.270662307739258,
      "learning_rate": 4.9790719725014154e-05,
      "loss": 0.6099,
      "num_input_tokens_seen": 10687048,
      "step": 18410
    },
    {
      "epoch": 2.7427762883526956,
      "grad_norm": 11.961053848266602,
      "learning_rate": 4.979029994564902e-05,
      "loss": 0.5755,
      "num_input_tokens_seen": 10689864,
      "step": 18415
    },
    {
      "epoch": 2.7435210008936552,
      "grad_norm": 6.594865798950195,
      "learning_rate": 4.978987974747697e-05,
      "loss": 0.4119,
      "num_input_tokens_seen": 10692648,
      "step": 18420
    },
    {
      "epoch": 2.744265713434614,
      "grad_norm": 7.776862144470215,
      "learning_rate": 4.9789459130505086e-05,
      "loss": 0.8511,
      "num_input_tokens_seen": 10695688,
      "step": 18425
    },
    {
      "epoch": 2.7450104259755737,
      "grad_norm": 4.5364909172058105,
      "learning_rate": 4.97890380947405e-05,
      "loss": 0.4716,
      "num_input_tokens_seen": 10698568,
      "step": 18430
    },
    {
      "epoch": 2.7457551385165324,
      "grad_norm": 5.81976842880249,
      "learning_rate": 4.97886166401903e-05,
      "loss": 0.6214,
      "num_input_tokens_seen": 10701384,
      "step": 18435
    },
    {
      "epoch": 2.746499851057492,
      "grad_norm": 6.699230194091797,
      "learning_rate": 4.978819476686162e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 10704424,
      "step": 18440
    },
    {
      "epoch": 2.747244563598451,
      "grad_norm": 3.469250440597534,
      "learning_rate": 4.9787772474761575e-05,
      "loss": 0.6154,
      "num_input_tokens_seen": 10707656,
      "step": 18445
    },
    {
      "epoch": 2.7479892761394105,
      "grad_norm": 2.757535696029663,
      "learning_rate": 4.978734976389732e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 10710600,
      "step": 18450
    },
    {
      "epoch": 2.7487339886803692,
      "grad_norm": 8.654007911682129,
      "learning_rate": 4.9786926634275964e-05,
      "loss": 0.6319,
      "num_input_tokens_seen": 10713384,
      "step": 18455
    },
    {
      "epoch": 2.7494787012213284,
      "grad_norm": 4.672093868255615,
      "learning_rate": 4.978650308590469e-05,
      "loss": 0.5667,
      "num_input_tokens_seen": 10716456,
      "step": 18460
    },
    {
      "epoch": 2.7502234137622876,
      "grad_norm": 5.530479431152344,
      "learning_rate": 4.9786079118790635e-05,
      "loss": 0.4576,
      "num_input_tokens_seen": 10719208,
      "step": 18465
    },
    {
      "epoch": 2.750968126303247,
      "grad_norm": 5.357398509979248,
      "learning_rate": 4.9785654732940964e-05,
      "loss": 0.4367,
      "num_input_tokens_seen": 10722184,
      "step": 18470
    },
    {
      "epoch": 2.751712838844206,
      "grad_norm": 11.726668357849121,
      "learning_rate": 4.9785229928362854e-05,
      "loss": 0.4803,
      "num_input_tokens_seen": 10724936,
      "step": 18475
    },
    {
      "epoch": 2.7524575513851652,
      "grad_norm": 9.637711524963379,
      "learning_rate": 4.9784804705063465e-05,
      "loss": 0.5759,
      "num_input_tokens_seen": 10727560,
      "step": 18480
    },
    {
      "epoch": 2.7532022639261244,
      "grad_norm": 1.5960344076156616,
      "learning_rate": 4.978437906304999e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 10730536,
      "step": 18485
    },
    {
      "epoch": 2.7539469764670836,
      "grad_norm": 5.04035758972168,
      "learning_rate": 4.978395300232963e-05,
      "loss": 0.4263,
      "num_input_tokens_seen": 10733864,
      "step": 18490
    },
    {
      "epoch": 2.754691689008043,
      "grad_norm": 11.250383377075195,
      "learning_rate": 4.978352652290956e-05,
      "loss": 0.499,
      "num_input_tokens_seen": 10736552,
      "step": 18495
    },
    {
      "epoch": 2.755436401549002,
      "grad_norm": 4.851387023925781,
      "learning_rate": 4.978309962479701e-05,
      "loss": 0.4418,
      "num_input_tokens_seen": 10739592,
      "step": 18500
    },
    {
      "epoch": 2.7561811140899612,
      "grad_norm": 13.768181800842285,
      "learning_rate": 4.978267230799918e-05,
      "loss": 0.4238,
      "num_input_tokens_seen": 10742696,
      "step": 18505
    },
    {
      "epoch": 2.7569258266309205,
      "grad_norm": 8.650434494018555,
      "learning_rate": 4.9782244572523284e-05,
      "loss": 0.4413,
      "num_input_tokens_seen": 10745768,
      "step": 18510
    },
    {
      "epoch": 2.7576705391718797,
      "grad_norm": 13.21891975402832,
      "learning_rate": 4.978181641837656e-05,
      "loss": 0.5346,
      "num_input_tokens_seen": 10748840,
      "step": 18515
    },
    {
      "epoch": 2.758415251712839,
      "grad_norm": 4.341299057006836,
      "learning_rate": 4.978138784556623e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 10751816,
      "step": 18520
    },
    {
      "epoch": 2.759159964253798,
      "grad_norm": 18.155969619750977,
      "learning_rate": 4.9780958854099535e-05,
      "loss": 0.7302,
      "num_input_tokens_seen": 10754792,
      "step": 18525
    },
    {
      "epoch": 2.7599046767947573,
      "grad_norm": 10.534083366394043,
      "learning_rate": 4.978052944398373e-05,
      "loss": 0.6796,
      "num_input_tokens_seen": 10757352,
      "step": 18530
    },
    {
      "epoch": 2.7606493893357165,
      "grad_norm": 6.765362739562988,
      "learning_rate": 4.978009961522607e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 10760264,
      "step": 18535
    },
    {
      "epoch": 2.7613941018766757,
      "grad_norm": 8.549689292907715,
      "learning_rate": 4.9779669367833804e-05,
      "loss": 0.4758,
      "num_input_tokens_seen": 10763272,
      "step": 18540
    },
    {
      "epoch": 2.762138814417635,
      "grad_norm": 5.163153171539307,
      "learning_rate": 4.9779238701814214e-05,
      "loss": 0.388,
      "num_input_tokens_seen": 10765960,
      "step": 18545
    },
    {
      "epoch": 2.762883526958594,
      "grad_norm": 8.093245506286621,
      "learning_rate": 4.977880761717457e-05,
      "loss": 0.584,
      "num_input_tokens_seen": 10768936,
      "step": 18550
    },
    {
      "epoch": 2.7636282394995533,
      "grad_norm": 9.058525085449219,
      "learning_rate": 4.977837611392216e-05,
      "loss": 0.5918,
      "num_input_tokens_seen": 10771656,
      "step": 18555
    },
    {
      "epoch": 2.7643729520405125,
      "grad_norm": 16.96668243408203,
      "learning_rate": 4.9777944192064264e-05,
      "loss": 0.6915,
      "num_input_tokens_seen": 10774632,
      "step": 18560
    },
    {
      "epoch": 2.7651176645814717,
      "grad_norm": 6.416694164276123,
      "learning_rate": 4.9777511851608185e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 10777416,
      "step": 18565
    },
    {
      "epoch": 2.765862377122431,
      "grad_norm": 3.2117695808410645,
      "learning_rate": 4.9777079092561224e-05,
      "loss": 0.4019,
      "num_input_tokens_seen": 10780232,
      "step": 18570
    },
    {
      "epoch": 2.76660708966339,
      "grad_norm": 7.085266590118408,
      "learning_rate": 4.97766459149307e-05,
      "loss": 0.3319,
      "num_input_tokens_seen": 10783048,
      "step": 18575
    },
    {
      "epoch": 2.7673518022043493,
      "grad_norm": 6.378611087799072,
      "learning_rate": 4.977621231872392e-05,
      "loss": 0.3937,
      "num_input_tokens_seen": 10785896,
      "step": 18580
    },
    {
      "epoch": 2.7680965147453085,
      "grad_norm": 11.249753952026367,
      "learning_rate": 4.977577830394822e-05,
      "loss": 0.4949,
      "num_input_tokens_seen": 10788744,
      "step": 18585
    },
    {
      "epoch": 2.7688412272862672,
      "grad_norm": 5.944679260253906,
      "learning_rate": 4.977534387061091e-05,
      "loss": 0.4134,
      "num_input_tokens_seen": 10791464,
      "step": 18590
    },
    {
      "epoch": 2.769585939827227,
      "grad_norm": 14.2613525390625,
      "learning_rate": 4.977490901871936e-05,
      "loss": 0.5754,
      "num_input_tokens_seen": 10794280,
      "step": 18595
    },
    {
      "epoch": 2.7703306523681857,
      "grad_norm": 6.684981346130371,
      "learning_rate": 4.97744737482809e-05,
      "loss": 0.3475,
      "num_input_tokens_seen": 10797320,
      "step": 18600
    },
    {
      "epoch": 2.7710753649091453,
      "grad_norm": 10.322687149047852,
      "learning_rate": 4.977403805930288e-05,
      "loss": 0.6273,
      "num_input_tokens_seen": 10800168,
      "step": 18605
    },
    {
      "epoch": 2.771820077450104,
      "grad_norm": 9.304837226867676,
      "learning_rate": 4.977360195179268e-05,
      "loss": 0.609,
      "num_input_tokens_seen": 10802856,
      "step": 18610
    },
    {
      "epoch": 2.7725647899910637,
      "grad_norm": 7.566854476928711,
      "learning_rate": 4.9773165425757646e-05,
      "loss": 0.4725,
      "num_input_tokens_seen": 10805896,
      "step": 18615
    },
    {
      "epoch": 2.7733095025320225,
      "grad_norm": 3.8975350856781006,
      "learning_rate": 4.977272848120516e-05,
      "loss": 0.5861,
      "num_input_tokens_seen": 10809096,
      "step": 18620
    },
    {
      "epoch": 2.7740542150729817,
      "grad_norm": 11.055654525756836,
      "learning_rate": 4.9772291118142604e-05,
      "loss": 0.6722,
      "num_input_tokens_seen": 10811912,
      "step": 18625
    },
    {
      "epoch": 2.774798927613941,
      "grad_norm": 5.51736307144165,
      "learning_rate": 4.9771853336577366e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 10814984,
      "step": 18630
    },
    {
      "epoch": 2.7755436401549,
      "grad_norm": 8.719532012939453,
      "learning_rate": 4.9771415136516846e-05,
      "loss": 0.623,
      "num_input_tokens_seen": 10817736,
      "step": 18635
    },
    {
      "epoch": 2.7762883526958593,
      "grad_norm": 10.692021369934082,
      "learning_rate": 4.977097651796844e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 10820584,
      "step": 18640
    },
    {
      "epoch": 2.7770330652368185,
      "grad_norm": 3.845906972885132,
      "learning_rate": 4.977053748093956e-05,
      "loss": 0.6543,
      "num_input_tokens_seen": 10823304,
      "step": 18645
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 10.195718765258789,
      "learning_rate": 4.9770098025437634e-05,
      "loss": 0.6105,
      "num_input_tokens_seen": 10826376,
      "step": 18650
    },
    {
      "epoch": 2.778522490318737,
      "grad_norm": 6.06369686126709,
      "learning_rate": 4.9769658151470075e-05,
      "loss": 0.5986,
      "num_input_tokens_seen": 10829544,
      "step": 18655
    },
    {
      "epoch": 2.779267202859696,
      "grad_norm": 11.677467346191406,
      "learning_rate": 4.976921785904431e-05,
      "loss": 0.4953,
      "num_input_tokens_seen": 10832360,
      "step": 18660
    },
    {
      "epoch": 2.7800119154006553,
      "grad_norm": 5.152329921722412,
      "learning_rate": 4.976877714816779e-05,
      "loss": 0.6266,
      "num_input_tokens_seen": 10835080,
      "step": 18665
    },
    {
      "epoch": 2.7807566279416145,
      "grad_norm": 4.3881754875183105,
      "learning_rate": 4.976833601884795e-05,
      "loss": 0.5167,
      "num_input_tokens_seen": 10838152,
      "step": 18670
    },
    {
      "epoch": 2.7815013404825737,
      "grad_norm": 6.46231746673584,
      "learning_rate": 4.9767894471092246e-05,
      "loss": 0.6185,
      "num_input_tokens_seen": 10840872,
      "step": 18675
    },
    {
      "epoch": 2.782246053023533,
      "grad_norm": 9.8291015625,
      "learning_rate": 4.9767452504908143e-05,
      "loss": 0.716,
      "num_input_tokens_seen": 10843912,
      "step": 18680
    },
    {
      "epoch": 2.782990765564492,
      "grad_norm": 17.632678985595703,
      "learning_rate": 4.9767010120303094e-05,
      "loss": 0.6161,
      "num_input_tokens_seen": 10846792,
      "step": 18685
    },
    {
      "epoch": 2.7837354781054513,
      "grad_norm": 4.20671272277832,
      "learning_rate": 4.9766567317284585e-05,
      "loss": 0.4129,
      "num_input_tokens_seen": 10849736,
      "step": 18690
    },
    {
      "epoch": 2.7844801906464105,
      "grad_norm": 4.877376556396484,
      "learning_rate": 4.976612409586009e-05,
      "loss": 0.689,
      "num_input_tokens_seen": 10852872,
      "step": 18695
    },
    {
      "epoch": 2.7852249031873697,
      "grad_norm": 8.172252655029297,
      "learning_rate": 4.9765680456037106e-05,
      "loss": 0.8216,
      "num_input_tokens_seen": 10855432,
      "step": 18700
    },
    {
      "epoch": 2.785969615728329,
      "grad_norm": 7.173256874084473,
      "learning_rate": 4.976523639782312e-05,
      "loss": 0.6331,
      "num_input_tokens_seen": 10858568,
      "step": 18705
    },
    {
      "epoch": 2.786714328269288,
      "grad_norm": 6.367588996887207,
      "learning_rate": 4.976479192122563e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 10861480,
      "step": 18710
    },
    {
      "epoch": 2.7874590408102473,
      "grad_norm": 3.2159640789031982,
      "learning_rate": 4.9764347026252156e-05,
      "loss": 0.3527,
      "num_input_tokens_seen": 10864264,
      "step": 18715
    },
    {
      "epoch": 2.7882037533512065,
      "grad_norm": 10.44154167175293,
      "learning_rate": 4.97639017129102e-05,
      "loss": 0.8853,
      "num_input_tokens_seen": 10867368,
      "step": 18720
    },
    {
      "epoch": 2.7889484658921657,
      "grad_norm": 14.7401762008667,
      "learning_rate": 4.9763455981207305e-05,
      "loss": 0.6873,
      "num_input_tokens_seen": 10870216,
      "step": 18725
    },
    {
      "epoch": 2.789693178433125,
      "grad_norm": 7.612022399902344,
      "learning_rate": 4.976300983115099e-05,
      "loss": 0.6799,
      "num_input_tokens_seen": 10873384,
      "step": 18730
    },
    {
      "epoch": 2.790437890974084,
      "grad_norm": 15.507430076599121,
      "learning_rate": 4.976256326274878e-05,
      "loss": 0.4254,
      "num_input_tokens_seen": 10876296,
      "step": 18735
    },
    {
      "epoch": 2.7911826035150433,
      "grad_norm": 7.088817119598389,
      "learning_rate": 4.976211627600823e-05,
      "loss": 0.53,
      "num_input_tokens_seen": 10879112,
      "step": 18740
    },
    {
      "epoch": 2.7919273160560025,
      "grad_norm": 2.6616435050964355,
      "learning_rate": 4.976166887093691e-05,
      "loss": 0.1934,
      "num_input_tokens_seen": 10881928,
      "step": 18745
    },
    {
      "epoch": 2.7926720285969617,
      "grad_norm": 5.4613213539123535,
      "learning_rate": 4.976122104754235e-05,
      "loss": 0.3144,
      "num_input_tokens_seen": 10884776,
      "step": 18750
    },
    {
      "epoch": 2.7934167411379205,
      "grad_norm": 4.3325629234313965,
      "learning_rate": 4.976077280583212e-05,
      "loss": 0.4092,
      "num_input_tokens_seen": 10887624,
      "step": 18755
    },
    {
      "epoch": 2.79416145367888,
      "grad_norm": 6.765783786773682,
      "learning_rate": 4.9760324145813806e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 10890344,
      "step": 18760
    },
    {
      "epoch": 2.794906166219839,
      "grad_norm": 8.959015846252441,
      "learning_rate": 4.975987506749499e-05,
      "loss": 0.3363,
      "num_input_tokens_seen": 10893224,
      "step": 18765
    },
    {
      "epoch": 2.7956508787607985,
      "grad_norm": 3.8967349529266357,
      "learning_rate": 4.975942557088324e-05,
      "loss": 0.5237,
      "num_input_tokens_seen": 10896008,
      "step": 18770
    },
    {
      "epoch": 2.7963955913017573,
      "grad_norm": 6.462615966796875,
      "learning_rate": 4.9758975655986164e-05,
      "loss": 0.7516,
      "num_input_tokens_seen": 10898600,
      "step": 18775
    },
    {
      "epoch": 2.797140303842717,
      "grad_norm": 3.8979785442352295,
      "learning_rate": 4.975852532281135e-05,
      "loss": 0.5582,
      "num_input_tokens_seen": 10901672,
      "step": 18780
    },
    {
      "epoch": 2.7978850163836757,
      "grad_norm": 5.690613269805908,
      "learning_rate": 4.975807457136642e-05,
      "loss": 0.3999,
      "num_input_tokens_seen": 10904424,
      "step": 18785
    },
    {
      "epoch": 2.7986297289246354,
      "grad_norm": 5.19474983215332,
      "learning_rate": 4.975762340165898e-05,
      "loss": 0.621,
      "num_input_tokens_seen": 10907336,
      "step": 18790
    },
    {
      "epoch": 2.799374441465594,
      "grad_norm": 6.117608547210693,
      "learning_rate": 4.975717181369666e-05,
      "loss": 0.5259,
      "num_input_tokens_seen": 10910088,
      "step": 18795
    },
    {
      "epoch": 2.8001191540065533,
      "grad_norm": 10.809755325317383,
      "learning_rate": 4.9756719807487076e-05,
      "loss": 0.5276,
      "num_input_tokens_seen": 10913032,
      "step": 18800
    },
    {
      "epoch": 2.8008638665475125,
      "grad_norm": 7.784826755523682,
      "learning_rate": 4.975626738303788e-05,
      "loss": 0.5439,
      "num_input_tokens_seen": 10915944,
      "step": 18805
    },
    {
      "epoch": 2.8016085790884717,
      "grad_norm": 3.9220943450927734,
      "learning_rate": 4.975581454035671e-05,
      "loss": 0.4812,
      "num_input_tokens_seen": 10918504,
      "step": 18810
    },
    {
      "epoch": 2.802353291629431,
      "grad_norm": 6.632240295410156,
      "learning_rate": 4.975536127945121e-05,
      "loss": 0.4995,
      "num_input_tokens_seen": 10921256,
      "step": 18815
    },
    {
      "epoch": 2.80309800417039,
      "grad_norm": 6.687861442565918,
      "learning_rate": 4.975490760032904e-05,
      "loss": 0.3933,
      "num_input_tokens_seen": 10924200,
      "step": 18820
    },
    {
      "epoch": 2.8038427167113493,
      "grad_norm": 8.59921646118164,
      "learning_rate": 4.975445350299787e-05,
      "loss": 0.5458,
      "num_input_tokens_seen": 10927016,
      "step": 18825
    },
    {
      "epoch": 2.8045874292523085,
      "grad_norm": 6.743868827819824,
      "learning_rate": 4.975399898746536e-05,
      "loss": 0.5226,
      "num_input_tokens_seen": 10929800,
      "step": 18830
    },
    {
      "epoch": 2.8053321417932677,
      "grad_norm": 8.372908592224121,
      "learning_rate": 4.9753544053739197e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 10932520,
      "step": 18835
    },
    {
      "epoch": 2.806076854334227,
      "grad_norm": 5.716353893280029,
      "learning_rate": 4.975308870182707e-05,
      "loss": 0.7436,
      "num_input_tokens_seen": 10935496,
      "step": 18840
    },
    {
      "epoch": 2.806821566875186,
      "grad_norm": 3.281782627105713,
      "learning_rate": 4.9752632931736665e-05,
      "loss": 0.5303,
      "num_input_tokens_seen": 10938216,
      "step": 18845
    },
    {
      "epoch": 2.8075662794161453,
      "grad_norm": 11.813897132873535,
      "learning_rate": 4.9752176743475684e-05,
      "loss": 0.7216,
      "num_input_tokens_seen": 10941096,
      "step": 18850
    },
    {
      "epoch": 2.8083109919571045,
      "grad_norm": 7.4290361404418945,
      "learning_rate": 4.9751720137051836e-05,
      "loss": 0.363,
      "num_input_tokens_seen": 10944168,
      "step": 18855
    },
    {
      "epoch": 2.8090557044980637,
      "grad_norm": 7.555449485778809,
      "learning_rate": 4.9751263112472834e-05,
      "loss": 0.544,
      "num_input_tokens_seen": 10946888,
      "step": 18860
    },
    {
      "epoch": 2.809800417039023,
      "grad_norm": 6.715141296386719,
      "learning_rate": 4.9750805669746395e-05,
      "loss": 0.5999,
      "num_input_tokens_seen": 10949672,
      "step": 18865
    },
    {
      "epoch": 2.810545129579982,
      "grad_norm": 8.390941619873047,
      "learning_rate": 4.975034780888025e-05,
      "loss": 0.5489,
      "num_input_tokens_seen": 10952232,
      "step": 18870
    },
    {
      "epoch": 2.8112898421209414,
      "grad_norm": 5.57314920425415,
      "learning_rate": 4.9749889529882134e-05,
      "loss": 0.4474,
      "num_input_tokens_seen": 10954984,
      "step": 18875
    },
    {
      "epoch": 2.8120345546619006,
      "grad_norm": 9.407905578613281,
      "learning_rate": 4.974943083275979e-05,
      "loss": 0.4966,
      "num_input_tokens_seen": 10957928,
      "step": 18880
    },
    {
      "epoch": 2.8127792672028598,
      "grad_norm": 9.761855125427246,
      "learning_rate": 4.974897171752097e-05,
      "loss": 0.4707,
      "num_input_tokens_seen": 10961192,
      "step": 18885
    },
    {
      "epoch": 2.813523979743819,
      "grad_norm": 5.66131067276001,
      "learning_rate": 4.9748512184173416e-05,
      "loss": 0.5581,
      "num_input_tokens_seen": 10963944,
      "step": 18890
    },
    {
      "epoch": 2.814268692284778,
      "grad_norm": 5.5525031089782715,
      "learning_rate": 4.9748052232724905e-05,
      "loss": 0.5684,
      "num_input_tokens_seen": 10967112,
      "step": 18895
    },
    {
      "epoch": 2.8150134048257374,
      "grad_norm": 5.77880859375,
      "learning_rate": 4.974759186318321e-05,
      "loss": 0.5859,
      "num_input_tokens_seen": 10969864,
      "step": 18900
    },
    {
      "epoch": 2.8157581173666966,
      "grad_norm": 11.023930549621582,
      "learning_rate": 4.97471310755561e-05,
      "loss": 0.546,
      "num_input_tokens_seen": 10972552,
      "step": 18905
    },
    {
      "epoch": 2.8165028299076558,
      "grad_norm": 5.097760200500488,
      "learning_rate": 4.974666986985136e-05,
      "loss": 0.4678,
      "num_input_tokens_seen": 10975368,
      "step": 18910
    },
    {
      "epoch": 2.817247542448615,
      "grad_norm": 12.132241249084473,
      "learning_rate": 4.974620824607679e-05,
      "loss": 0.4348,
      "num_input_tokens_seen": 10978216,
      "step": 18915
    },
    {
      "epoch": 2.817992254989574,
      "grad_norm": 18.15082359313965,
      "learning_rate": 4.9745746204240175e-05,
      "loss": 0.8025,
      "num_input_tokens_seen": 10980968,
      "step": 18920
    },
    {
      "epoch": 2.8187369675305334,
      "grad_norm": 8.722201347351074,
      "learning_rate": 4.974528374434934e-05,
      "loss": 0.4784,
      "num_input_tokens_seen": 10983976,
      "step": 18925
    },
    {
      "epoch": 2.819481680071492,
      "grad_norm": 11.094993591308594,
      "learning_rate": 4.974482086641207e-05,
      "loss": 0.5662,
      "num_input_tokens_seen": 10986888,
      "step": 18930
    },
    {
      "epoch": 2.820226392612452,
      "grad_norm": 10.211065292358398,
      "learning_rate": 4.974435757043621e-05,
      "loss": 0.4781,
      "num_input_tokens_seen": 10990056,
      "step": 18935
    },
    {
      "epoch": 2.8209711051534105,
      "grad_norm": 8.830545425415039,
      "learning_rate": 4.974389385642958e-05,
      "loss": 0.7541,
      "num_input_tokens_seen": 10992968,
      "step": 18940
    },
    {
      "epoch": 2.82171581769437,
      "grad_norm": 5.832723140716553,
      "learning_rate": 4.9743429724400007e-05,
      "loss": 0.3774,
      "num_input_tokens_seen": 10996136,
      "step": 18945
    },
    {
      "epoch": 2.822460530235329,
      "grad_norm": 11.833005905151367,
      "learning_rate": 4.974296517435534e-05,
      "loss": 0.607,
      "num_input_tokens_seen": 10999016,
      "step": 18950
    },
    {
      "epoch": 2.8232052427762886,
      "grad_norm": 6.15792179107666,
      "learning_rate": 4.974250020630342e-05,
      "loss": 0.3599,
      "num_input_tokens_seen": 11001640,
      "step": 18955
    },
    {
      "epoch": 2.8239499553172474,
      "grad_norm": 15.713495254516602,
      "learning_rate": 4.9742034820252116e-05,
      "loss": 0.5642,
      "num_input_tokens_seen": 11004392,
      "step": 18960
    },
    {
      "epoch": 2.824694667858207,
      "grad_norm": 3.9111411571502686,
      "learning_rate": 4.974156901620927e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 11007272,
      "step": 18965
    },
    {
      "epoch": 2.8254393803991658,
      "grad_norm": 8.584085464477539,
      "learning_rate": 4.974110279418277e-05,
      "loss": 0.5587,
      "num_input_tokens_seen": 11010216,
      "step": 18970
    },
    {
      "epoch": 2.826184092940125,
      "grad_norm": 12.831374168395996,
      "learning_rate": 4.9740636154180476e-05,
      "loss": 0.5041,
      "num_input_tokens_seen": 11013352,
      "step": 18975
    },
    {
      "epoch": 2.826928805481084,
      "grad_norm": 9.919947624206543,
      "learning_rate": 4.974016909621029e-05,
      "loss": 0.7086,
      "num_input_tokens_seen": 11016232,
      "step": 18980
    },
    {
      "epoch": 2.8276735180220434,
      "grad_norm": 11.633577346801758,
      "learning_rate": 4.9739701620280076e-05,
      "loss": 0.5474,
      "num_input_tokens_seen": 11018792,
      "step": 18985
    },
    {
      "epoch": 2.8284182305630026,
      "grad_norm": 9.356681823730469,
      "learning_rate": 4.973923372639776e-05,
      "loss": 0.5176,
      "num_input_tokens_seen": 11021640,
      "step": 18990
    },
    {
      "epoch": 2.8291629431039618,
      "grad_norm": 5.622379779815674,
      "learning_rate": 4.973876541457123e-05,
      "loss": 0.4493,
      "num_input_tokens_seen": 11024488,
      "step": 18995
    },
    {
      "epoch": 2.829907655644921,
      "grad_norm": 10.49986457824707,
      "learning_rate": 4.97382966848084e-05,
      "loss": 0.6301,
      "num_input_tokens_seen": 11027624,
      "step": 19000
    },
    {
      "epoch": 2.83065236818588,
      "grad_norm": 9.31558609008789,
      "learning_rate": 4.9737827537117196e-05,
      "loss": 0.3684,
      "num_input_tokens_seen": 11030408,
      "step": 19005
    },
    {
      "epoch": 2.8313970807268394,
      "grad_norm": 7.494629859924316,
      "learning_rate": 4.973735797150553e-05,
      "loss": 0.7679,
      "num_input_tokens_seen": 11033736,
      "step": 19010
    },
    {
      "epoch": 2.8321417932677986,
      "grad_norm": 6.92087984085083,
      "learning_rate": 4.973688798798135e-05,
      "loss": 0.6175,
      "num_input_tokens_seen": 11036840,
      "step": 19015
    },
    {
      "epoch": 2.832886505808758,
      "grad_norm": 2.9178051948547363,
      "learning_rate": 4.973641758655259e-05,
      "loss": 0.4335,
      "num_input_tokens_seen": 11039560,
      "step": 19020
    },
    {
      "epoch": 2.833631218349717,
      "grad_norm": 8.78377914428711,
      "learning_rate": 4.973594676722719e-05,
      "loss": 0.7093,
      "num_input_tokens_seen": 11042216,
      "step": 19025
    },
    {
      "epoch": 2.834375930890676,
      "grad_norm": 8.136816024780273,
      "learning_rate": 4.973547553001311e-05,
      "loss": 0.6029,
      "num_input_tokens_seen": 11045032,
      "step": 19030
    },
    {
      "epoch": 2.8351206434316354,
      "grad_norm": 5.669124603271484,
      "learning_rate": 4.9735003874918314e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 11048296,
      "step": 19035
    },
    {
      "epoch": 2.8358653559725946,
      "grad_norm": 7.586184501647949,
      "learning_rate": 4.9734531801950765e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 11051080,
      "step": 19040
    },
    {
      "epoch": 2.836610068513554,
      "grad_norm": 6.168744087219238,
      "learning_rate": 4.9734059311118444e-05,
      "loss": 0.6013,
      "num_input_tokens_seen": 11054216,
      "step": 19045
    },
    {
      "epoch": 2.837354781054513,
      "grad_norm": 4.171719551086426,
      "learning_rate": 4.973358640242932e-05,
      "loss": 0.4406,
      "num_input_tokens_seen": 11057224,
      "step": 19050
    },
    {
      "epoch": 2.838099493595472,
      "grad_norm": 10.04686164855957,
      "learning_rate": 4.97331130758914e-05,
      "loss": 0.4564,
      "num_input_tokens_seen": 11059976,
      "step": 19055
    },
    {
      "epoch": 2.8388442061364314,
      "grad_norm": 19.151498794555664,
      "learning_rate": 4.9732639331512675e-05,
      "loss": 0.5684,
      "num_input_tokens_seen": 11062824,
      "step": 19060
    },
    {
      "epoch": 2.8395889186773906,
      "grad_norm": 4.250206470489502,
      "learning_rate": 4.973216516930114e-05,
      "loss": 0.5423,
      "num_input_tokens_seen": 11066280,
      "step": 19065
    },
    {
      "epoch": 2.84033363121835,
      "grad_norm": 12.344337463378906,
      "learning_rate": 4.973169058926481e-05,
      "loss": 0.4887,
      "num_input_tokens_seen": 11069032,
      "step": 19070
    },
    {
      "epoch": 2.841078343759309,
      "grad_norm": 7.213766098022461,
      "learning_rate": 4.973121559141171e-05,
      "loss": 0.5626,
      "num_input_tokens_seen": 11071848,
      "step": 19075
    },
    {
      "epoch": 2.841823056300268,
      "grad_norm": 10.790971755981445,
      "learning_rate": 4.9730740175749854e-05,
      "loss": 0.4974,
      "num_input_tokens_seen": 11074888,
      "step": 19080
    },
    {
      "epoch": 2.8425677688412274,
      "grad_norm": 11.286469459533691,
      "learning_rate": 4.973026434228728e-05,
      "loss": 0.5347,
      "num_input_tokens_seen": 11077608,
      "step": 19085
    },
    {
      "epoch": 2.8433124813821866,
      "grad_norm": 7.940885543823242,
      "learning_rate": 4.972978809103202e-05,
      "loss": 0.5907,
      "num_input_tokens_seen": 11080520,
      "step": 19090
    },
    {
      "epoch": 2.844057193923146,
      "grad_norm": 4.679720878601074,
      "learning_rate": 4.972931142199213e-05,
      "loss": 0.7513,
      "num_input_tokens_seen": 11083752,
      "step": 19095
    },
    {
      "epoch": 2.844801906464105,
      "grad_norm": 7.337191581726074,
      "learning_rate": 4.972883433517566e-05,
      "loss": 0.3706,
      "num_input_tokens_seen": 11086312,
      "step": 19100
    },
    {
      "epoch": 2.845546619005064,
      "grad_norm": 4.7105393409729,
      "learning_rate": 4.972835683059065e-05,
      "loss": 0.3861,
      "num_input_tokens_seen": 11089192,
      "step": 19105
    },
    {
      "epoch": 2.8462913315460234,
      "grad_norm": 8.577603340148926,
      "learning_rate": 4.97278789082452e-05,
      "loss": 0.5811,
      "num_input_tokens_seen": 11091752,
      "step": 19110
    },
    {
      "epoch": 2.847036044086982,
      "grad_norm": 13.716989517211914,
      "learning_rate": 4.9727400568147364e-05,
      "loss": 0.6705,
      "num_input_tokens_seen": 11094536,
      "step": 19115
    },
    {
      "epoch": 2.847780756627942,
      "grad_norm": 6.348944187164307,
      "learning_rate": 4.972692181030523e-05,
      "loss": 0.6622,
      "num_input_tokens_seen": 11097224,
      "step": 19120
    },
    {
      "epoch": 2.8485254691689006,
      "grad_norm": 7.930393218994141,
      "learning_rate": 4.972644263472688e-05,
      "loss": 0.9326,
      "num_input_tokens_seen": 11099944,
      "step": 19125
    },
    {
      "epoch": 2.8492701817098602,
      "grad_norm": 6.041139602661133,
      "learning_rate": 4.972596304142041e-05,
      "loss": 0.3263,
      "num_input_tokens_seen": 11103112,
      "step": 19130
    },
    {
      "epoch": 2.850014894250819,
      "grad_norm": 6.9705810546875,
      "learning_rate": 4.9725483030393924e-05,
      "loss": 0.7749,
      "num_input_tokens_seen": 11105928,
      "step": 19135
    },
    {
      "epoch": 2.8507596067917786,
      "grad_norm": 6.310585021972656,
      "learning_rate": 4.972500260165555e-05,
      "loss": 0.5762,
      "num_input_tokens_seen": 11108872,
      "step": 19140
    },
    {
      "epoch": 2.8515043193327374,
      "grad_norm": 8.45537281036377,
      "learning_rate": 4.972452175521337e-05,
      "loss": 0.4765,
      "num_input_tokens_seen": 11111752,
      "step": 19145
    },
    {
      "epoch": 2.8522490318736966,
      "grad_norm": 4.38585901260376,
      "learning_rate": 4.972404049107552e-05,
      "loss": 0.4924,
      "num_input_tokens_seen": 11114888,
      "step": 19150
    },
    {
      "epoch": 2.852993744414656,
      "grad_norm": 8.826029777526855,
      "learning_rate": 4.972355880925014e-05,
      "loss": 0.3868,
      "num_input_tokens_seen": 11117704,
      "step": 19155
    },
    {
      "epoch": 2.853738456955615,
      "grad_norm": 7.786623477935791,
      "learning_rate": 4.9723076709745365e-05,
      "loss": 0.6408,
      "num_input_tokens_seen": 11120520,
      "step": 19160
    },
    {
      "epoch": 2.854483169496574,
      "grad_norm": 6.2972259521484375,
      "learning_rate": 4.972259419256933e-05,
      "loss": 0.5647,
      "num_input_tokens_seen": 11123528,
      "step": 19165
    },
    {
      "epoch": 2.8552278820375334,
      "grad_norm": 5.161550521850586,
      "learning_rate": 4.97221112577302e-05,
      "loss": 0.4302,
      "num_input_tokens_seen": 11126376,
      "step": 19170
    },
    {
      "epoch": 2.8559725945784926,
      "grad_norm": 14.740546226501465,
      "learning_rate": 4.972162790523612e-05,
      "loss": 0.4273,
      "num_input_tokens_seen": 11129256,
      "step": 19175
    },
    {
      "epoch": 2.856717307119452,
      "grad_norm": 21.746234893798828,
      "learning_rate": 4.9721144135095265e-05,
      "loss": 0.6071,
      "num_input_tokens_seen": 11132168,
      "step": 19180
    },
    {
      "epoch": 2.857462019660411,
      "grad_norm": 14.403498649597168,
      "learning_rate": 4.9720659947315815e-05,
      "loss": 0.5734,
      "num_input_tokens_seen": 11135016,
      "step": 19185
    },
    {
      "epoch": 2.8582067322013702,
      "grad_norm": 5.5164265632629395,
      "learning_rate": 4.972017534190593e-05,
      "loss": 0.6169,
      "num_input_tokens_seen": 11137864,
      "step": 19190
    },
    {
      "epoch": 2.8589514447423294,
      "grad_norm": 7.099632740020752,
      "learning_rate": 4.971969031887381e-05,
      "loss": 0.3988,
      "num_input_tokens_seen": 11140680,
      "step": 19195
    },
    {
      "epoch": 2.8596961572832886,
      "grad_norm": 4.023048400878906,
      "learning_rate": 4.971920487822764e-05,
      "loss": 0.4107,
      "num_input_tokens_seen": 11143880,
      "step": 19200
    },
    {
      "epoch": 2.860440869824248,
      "grad_norm": 11.468347549438477,
      "learning_rate": 4.971871901997563e-05,
      "loss": 0.4176,
      "num_input_tokens_seen": 11146728,
      "step": 19205
    },
    {
      "epoch": 2.861185582365207,
      "grad_norm": 9.625293731689453,
      "learning_rate": 4.9718232744125995e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 11149608,
      "step": 19210
    },
    {
      "epoch": 2.8619302949061662,
      "grad_norm": 10.596915245056152,
      "learning_rate": 4.9717746050686925e-05,
      "loss": 0.6342,
      "num_input_tokens_seen": 11152328,
      "step": 19215
    },
    {
      "epoch": 2.8626750074471254,
      "grad_norm": 9.097357749938965,
      "learning_rate": 4.9717258939666663e-05,
      "loss": 0.8287,
      "num_input_tokens_seen": 11155208,
      "step": 19220
    },
    {
      "epoch": 2.8634197199880846,
      "grad_norm": 7.610304355621338,
      "learning_rate": 4.9716771411073436e-05,
      "loss": 0.4688,
      "num_input_tokens_seen": 11157992,
      "step": 19225
    },
    {
      "epoch": 2.864164432529044,
      "grad_norm": 7.077970504760742,
      "learning_rate": 4.9716283464915484e-05,
      "loss": 0.5272,
      "num_input_tokens_seen": 11160808,
      "step": 19230
    },
    {
      "epoch": 2.864909145070003,
      "grad_norm": 4.485753536224365,
      "learning_rate": 4.9715795101201025e-05,
      "loss": 0.5207,
      "num_input_tokens_seen": 11163944,
      "step": 19235
    },
    {
      "epoch": 2.8656538576109623,
      "grad_norm": 4.932851791381836,
      "learning_rate": 4.9715306319938335e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 11167016,
      "step": 19240
    },
    {
      "epoch": 2.8663985701519215,
      "grad_norm": 4.03530216217041,
      "learning_rate": 4.971481712113567e-05,
      "loss": 0.4473,
      "num_input_tokens_seen": 11169832,
      "step": 19245
    },
    {
      "epoch": 2.8671432826928807,
      "grad_norm": 8.153204917907715,
      "learning_rate": 4.9714327504801286e-05,
      "loss": 0.6207,
      "num_input_tokens_seen": 11172808,
      "step": 19250
    },
    {
      "epoch": 2.86788799523384,
      "grad_norm": 4.143741130828857,
      "learning_rate": 4.971383747094346e-05,
      "loss": 0.6388,
      "num_input_tokens_seen": 11175624,
      "step": 19255
    },
    {
      "epoch": 2.868632707774799,
      "grad_norm": 4.304412364959717,
      "learning_rate": 4.9713347019570465e-05,
      "loss": 0.5804,
      "num_input_tokens_seen": 11178216,
      "step": 19260
    },
    {
      "epoch": 2.8693774203157583,
      "grad_norm": 4.850184440612793,
      "learning_rate": 4.971285615069059e-05,
      "loss": 0.4571,
      "num_input_tokens_seen": 11180968,
      "step": 19265
    },
    {
      "epoch": 2.8701221328567175,
      "grad_norm": 6.098960876464844,
      "learning_rate": 4.9712364864312125e-05,
      "loss": 0.5901,
      "num_input_tokens_seen": 11183976,
      "step": 19270
    },
    {
      "epoch": 2.8708668453976767,
      "grad_norm": 4.103134632110596,
      "learning_rate": 4.9711873160443375e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 11186952,
      "step": 19275
    },
    {
      "epoch": 2.8716115579386354,
      "grad_norm": 8.563826560974121,
      "learning_rate": 4.971138103909264e-05,
      "loss": 0.5304,
      "num_input_tokens_seen": 11189928,
      "step": 19280
    },
    {
      "epoch": 2.872356270479595,
      "grad_norm": 6.188655376434326,
      "learning_rate": 4.9710888500268236e-05,
      "loss": 0.4298,
      "num_input_tokens_seen": 11192808,
      "step": 19285
    },
    {
      "epoch": 2.873100983020554,
      "grad_norm": 4.120693206787109,
      "learning_rate": 4.9710395543978495e-05,
      "loss": 0.4254,
      "num_input_tokens_seen": 11195688,
      "step": 19290
    },
    {
      "epoch": 2.8738456955615135,
      "grad_norm": 10.865145683288574,
      "learning_rate": 4.970990217023173e-05,
      "loss": 0.7535,
      "num_input_tokens_seen": 11198600,
      "step": 19295
    },
    {
      "epoch": 2.8745904081024722,
      "grad_norm": 5.87843656539917,
      "learning_rate": 4.9709408379036284e-05,
      "loss": 0.7774,
      "num_input_tokens_seen": 11201800,
      "step": 19300
    },
    {
      "epoch": 2.875335120643432,
      "grad_norm": 7.65787410736084,
      "learning_rate": 4.97089141704005e-05,
      "loss": 0.6059,
      "num_input_tokens_seen": 11204872,
      "step": 19305
    },
    {
      "epoch": 2.8760798331843906,
      "grad_norm": 9.140758514404297,
      "learning_rate": 4.970841954433272e-05,
      "loss": 0.5494,
      "num_input_tokens_seen": 11207496,
      "step": 19310
    },
    {
      "epoch": 2.8768245457253503,
      "grad_norm": 3.8017373085021973,
      "learning_rate": 4.97079245008413e-05,
      "loss": 0.6573,
      "num_input_tokens_seen": 11210696,
      "step": 19315
    },
    {
      "epoch": 2.877569258266309,
      "grad_norm": 6.23952054977417,
      "learning_rate": 4.970742903993462e-05,
      "loss": 0.4911,
      "num_input_tokens_seen": 11213832,
      "step": 19320
    },
    {
      "epoch": 2.8783139708072683,
      "grad_norm": 6.217309951782227,
      "learning_rate": 4.970693316162103e-05,
      "loss": 0.4501,
      "num_input_tokens_seen": 11216872,
      "step": 19325
    },
    {
      "epoch": 2.8790586833482275,
      "grad_norm": 8.644224166870117,
      "learning_rate": 4.9706436865908915e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 11219720,
      "step": 19330
    },
    {
      "epoch": 2.8798033958891867,
      "grad_norm": 7.208207607269287,
      "learning_rate": 4.970594015280665e-05,
      "loss": 0.5228,
      "num_input_tokens_seen": 11222536,
      "step": 19335
    },
    {
      "epoch": 2.880548108430146,
      "grad_norm": 5.71509313583374,
      "learning_rate": 4.970544302232265e-05,
      "loss": 0.6192,
      "num_input_tokens_seen": 11225608,
      "step": 19340
    },
    {
      "epoch": 2.881292820971105,
      "grad_norm": 7.203505039215088,
      "learning_rate": 4.97049454744653e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 11228712,
      "step": 19345
    },
    {
      "epoch": 2.8820375335120643,
      "grad_norm": 10.225286483764648,
      "learning_rate": 4.9704447509243e-05,
      "loss": 0.446,
      "num_input_tokens_seen": 11231368,
      "step": 19350
    },
    {
      "epoch": 2.8827822460530235,
      "grad_norm": 7.632476806640625,
      "learning_rate": 4.970394912666416e-05,
      "loss": 0.4637,
      "num_input_tokens_seen": 11234504,
      "step": 19355
    },
    {
      "epoch": 2.8835269585939827,
      "grad_norm": 5.577443599700928,
      "learning_rate": 4.970345032673722e-05,
      "loss": 0.4629,
      "num_input_tokens_seen": 11237480,
      "step": 19360
    },
    {
      "epoch": 2.884271671134942,
      "grad_norm": 4.10237455368042,
      "learning_rate": 4.97029511094706e-05,
      "loss": 0.4934,
      "num_input_tokens_seen": 11240328,
      "step": 19365
    },
    {
      "epoch": 2.885016383675901,
      "grad_norm": 3.635479211807251,
      "learning_rate": 4.970245147487271e-05,
      "loss": 0.3455,
      "num_input_tokens_seen": 11243016,
      "step": 19370
    },
    {
      "epoch": 2.8857610962168603,
      "grad_norm": 5.941760063171387,
      "learning_rate": 4.970195142295202e-05,
      "loss": 0.6444,
      "num_input_tokens_seen": 11245800,
      "step": 19375
    },
    {
      "epoch": 2.8865058087578195,
      "grad_norm": 8.113994598388672,
      "learning_rate": 4.9701450953716965e-05,
      "loss": 0.7287,
      "num_input_tokens_seen": 11248296,
      "step": 19380
    },
    {
      "epoch": 2.8872505212987787,
      "grad_norm": 7.6958231925964355,
      "learning_rate": 4.9700950067176e-05,
      "loss": 0.6046,
      "num_input_tokens_seen": 11251144,
      "step": 19385
    },
    {
      "epoch": 2.887995233839738,
      "grad_norm": 7.236177921295166,
      "learning_rate": 4.970044876333759e-05,
      "loss": 0.4995,
      "num_input_tokens_seen": 11253672,
      "step": 19390
    },
    {
      "epoch": 2.888739946380697,
      "grad_norm": 6.651337146759033,
      "learning_rate": 4.9699947042210196e-05,
      "loss": 0.5369,
      "num_input_tokens_seen": 11256616,
      "step": 19395
    },
    {
      "epoch": 2.8894846589216563,
      "grad_norm": 15.794356346130371,
      "learning_rate": 4.96994449038023e-05,
      "loss": 0.5756,
      "num_input_tokens_seen": 11259304,
      "step": 19400
    },
    {
      "epoch": 2.8902293714626155,
      "grad_norm": 6.553863525390625,
      "learning_rate": 4.9698942348122404e-05,
      "loss": 0.4365,
      "num_input_tokens_seen": 11262120,
      "step": 19405
    },
    {
      "epoch": 2.8909740840035747,
      "grad_norm": 1.6657072305679321,
      "learning_rate": 4.9698439375178965e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 11265000,
      "step": 19410
    },
    {
      "epoch": 2.891718796544534,
      "grad_norm": 8.736184120178223,
      "learning_rate": 4.9697935984980496e-05,
      "loss": 0.5297,
      "num_input_tokens_seen": 11268168,
      "step": 19415
    },
    {
      "epoch": 2.892463509085493,
      "grad_norm": 7.399317264556885,
      "learning_rate": 4.96974321775355e-05,
      "loss": 0.5943,
      "num_input_tokens_seen": 11270920,
      "step": 19420
    },
    {
      "epoch": 2.8932082216264523,
      "grad_norm": 5.473550796508789,
      "learning_rate": 4.969692795285249e-05,
      "loss": 0.4507,
      "num_input_tokens_seen": 11273768,
      "step": 19425
    },
    {
      "epoch": 2.8939529341674115,
      "grad_norm": 8.382954597473145,
      "learning_rate": 4.9696423310939985e-05,
      "loss": 0.6666,
      "num_input_tokens_seen": 11276648,
      "step": 19430
    },
    {
      "epoch": 2.8946976467083707,
      "grad_norm": 6.622769832611084,
      "learning_rate": 4.9695918251806506e-05,
      "loss": 0.8709,
      "num_input_tokens_seen": 11279592,
      "step": 19435
    },
    {
      "epoch": 2.89544235924933,
      "grad_norm": 8.64183235168457,
      "learning_rate": 4.969541277546059e-05,
      "loss": 0.536,
      "num_input_tokens_seen": 11282376,
      "step": 19440
    },
    {
      "epoch": 2.896187071790289,
      "grad_norm": 9.857260704040527,
      "learning_rate": 4.9694906881910776e-05,
      "loss": 0.7437,
      "num_input_tokens_seen": 11285128,
      "step": 19445
    },
    {
      "epoch": 2.8969317843312483,
      "grad_norm": 15.479555130004883,
      "learning_rate": 4.969440057116561e-05,
      "loss": 0.7277,
      "num_input_tokens_seen": 11287912,
      "step": 19450
    },
    {
      "epoch": 2.897676496872207,
      "grad_norm": 3.327655553817749,
      "learning_rate": 4.969389384323364e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 11290984,
      "step": 19455
    },
    {
      "epoch": 2.8984212094131667,
      "grad_norm": 6.27844762802124,
      "learning_rate": 4.969338669812343e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 11293640,
      "step": 19460
    },
    {
      "epoch": 2.8991659219541255,
      "grad_norm": 6.749362468719482,
      "learning_rate": 4.969287913584355e-05,
      "loss": 0.5936,
      "num_input_tokens_seen": 11296584,
      "step": 19465
    },
    {
      "epoch": 2.899910634495085,
      "grad_norm": 4.367254257202148,
      "learning_rate": 4.969237115640258e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 11299368,
      "step": 19470
    },
    {
      "epoch": 2.900655347036044,
      "grad_norm": 7.613635540008545,
      "learning_rate": 4.969186275980909e-05,
      "loss": 0.5626,
      "num_input_tokens_seen": 11302056,
      "step": 19475
    },
    {
      "epoch": 2.9014000595770035,
      "grad_norm": 7.368435859680176,
      "learning_rate": 4.969135394607167e-05,
      "loss": 0.6231,
      "num_input_tokens_seen": 11305640,
      "step": 19480
    },
    {
      "epoch": 2.9021447721179623,
      "grad_norm": 8.799140930175781,
      "learning_rate": 4.969084471519893e-05,
      "loss": 0.5215,
      "num_input_tokens_seen": 11308168,
      "step": 19485
    },
    {
      "epoch": 2.9028894846589215,
      "grad_norm": 6.563750743865967,
      "learning_rate": 4.9690335067199464e-05,
      "loss": 0.6232,
      "num_input_tokens_seen": 11310984,
      "step": 19490
    },
    {
      "epoch": 2.9036341971998807,
      "grad_norm": 7.3949737548828125,
      "learning_rate": 4.9689825002081866e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 11313512,
      "step": 19495
    },
    {
      "epoch": 2.90437890974084,
      "grad_norm": 13.566496849060059,
      "learning_rate": 4.9689314519854786e-05,
      "loss": 0.7163,
      "num_input_tokens_seen": 11316264,
      "step": 19500
    },
    {
      "epoch": 2.905123622281799,
      "grad_norm": 4.2090744972229,
      "learning_rate": 4.968880362052682e-05,
      "loss": 0.609,
      "num_input_tokens_seen": 11319400,
      "step": 19505
    },
    {
      "epoch": 2.9058683348227583,
      "grad_norm": 7.531323432922363,
      "learning_rate": 4.968829230410661e-05,
      "loss": 0.631,
      "num_input_tokens_seen": 11322536,
      "step": 19510
    },
    {
      "epoch": 2.9066130473637175,
      "grad_norm": 4.516298294067383,
      "learning_rate": 4.96877805706028e-05,
      "loss": 0.5006,
      "num_input_tokens_seen": 11325896,
      "step": 19515
    },
    {
      "epoch": 2.9073577599046767,
      "grad_norm": 8.946869850158691,
      "learning_rate": 4.968726842002402e-05,
      "loss": 0.6557,
      "num_input_tokens_seen": 11328904,
      "step": 19520
    },
    {
      "epoch": 2.908102472445636,
      "grad_norm": 4.319163799285889,
      "learning_rate": 4.968675585237894e-05,
      "loss": 0.441,
      "num_input_tokens_seen": 11331784,
      "step": 19525
    },
    {
      "epoch": 2.908847184986595,
      "grad_norm": 4.550998687744141,
      "learning_rate": 4.9686242867676204e-05,
      "loss": 0.4911,
      "num_input_tokens_seen": 11334536,
      "step": 19530
    },
    {
      "epoch": 2.9095918975275543,
      "grad_norm": 2.205692768096924,
      "learning_rate": 4.968572946592448e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 11337416,
      "step": 19535
    },
    {
      "epoch": 2.9103366100685135,
      "grad_norm": 10.167655944824219,
      "learning_rate": 4.968521564713246e-05,
      "loss": 0.5385,
      "num_input_tokens_seen": 11340136,
      "step": 19540
    },
    {
      "epoch": 2.9110813226094727,
      "grad_norm": 8.06134033203125,
      "learning_rate": 4.9684701411308796e-05,
      "loss": 0.4607,
      "num_input_tokens_seen": 11343144,
      "step": 19545
    },
    {
      "epoch": 2.911826035150432,
      "grad_norm": 7.243293762207031,
      "learning_rate": 4.9684186758462205e-05,
      "loss": 0.5618,
      "num_input_tokens_seen": 11346216,
      "step": 19550
    },
    {
      "epoch": 2.912570747691391,
      "grad_norm": 8.568690299987793,
      "learning_rate": 4.968367168860136e-05,
      "loss": 0.4237,
      "num_input_tokens_seen": 11349128,
      "step": 19555
    },
    {
      "epoch": 2.9133154602323503,
      "grad_norm": 4.553864002227783,
      "learning_rate": 4.968315620173496e-05,
      "loss": 0.4311,
      "num_input_tokens_seen": 11352136,
      "step": 19560
    },
    {
      "epoch": 2.9140601727733095,
      "grad_norm": 8.440674781799316,
      "learning_rate": 4.968264029787173e-05,
      "loss": 0.6025,
      "num_input_tokens_seen": 11354664,
      "step": 19565
    },
    {
      "epoch": 2.9148048853142687,
      "grad_norm": 7.708217144012451,
      "learning_rate": 4.9682123977020385e-05,
      "loss": 0.6443,
      "num_input_tokens_seen": 11357800,
      "step": 19570
    },
    {
      "epoch": 2.915549597855228,
      "grad_norm": 4.182008266448975,
      "learning_rate": 4.968160723918963e-05,
      "loss": 0.5309,
      "num_input_tokens_seen": 11361096,
      "step": 19575
    },
    {
      "epoch": 2.916294310396187,
      "grad_norm": 4.98317813873291,
      "learning_rate": 4.968109008438821e-05,
      "loss": 0.4935,
      "num_input_tokens_seen": 11363976,
      "step": 19580
    },
    {
      "epoch": 2.9170390229371463,
      "grad_norm": 8.839930534362793,
      "learning_rate": 4.9680572512624865e-05,
      "loss": 0.3904,
      "num_input_tokens_seen": 11366728,
      "step": 19585
    },
    {
      "epoch": 2.9177837354781055,
      "grad_norm": 10.870072364807129,
      "learning_rate": 4.968005452390832e-05,
      "loss": 0.6614,
      "num_input_tokens_seen": 11369832,
      "step": 19590
    },
    {
      "epoch": 2.9185284480190647,
      "grad_norm": 6.192020893096924,
      "learning_rate": 4.967953611824735e-05,
      "loss": 0.6196,
      "num_input_tokens_seen": 11372552,
      "step": 19595
    },
    {
      "epoch": 2.919273160560024,
      "grad_norm": 9.17379379272461,
      "learning_rate": 4.9679017295650694e-05,
      "loss": 0.3991,
      "num_input_tokens_seen": 11375304,
      "step": 19600
    },
    {
      "epoch": 2.920017873100983,
      "grad_norm": 4.462228775024414,
      "learning_rate": 4.9678498056127124e-05,
      "loss": 0.3735,
      "num_input_tokens_seen": 11378184,
      "step": 19605
    },
    {
      "epoch": 2.9207625856419424,
      "grad_norm": 9.05945873260498,
      "learning_rate": 4.967797839968541e-05,
      "loss": 0.5769,
      "num_input_tokens_seen": 11381064,
      "step": 19610
    },
    {
      "epoch": 2.9215072981829016,
      "grad_norm": 5.580526828765869,
      "learning_rate": 4.9677458326334336e-05,
      "loss": 0.6975,
      "num_input_tokens_seen": 11384040,
      "step": 19615
    },
    {
      "epoch": 2.9222520107238603,
      "grad_norm": 13.739480018615723,
      "learning_rate": 4.967693783608268e-05,
      "loss": 0.7199,
      "num_input_tokens_seen": 11386888,
      "step": 19620
    },
    {
      "epoch": 2.92299672326482,
      "grad_norm": 8.141505241394043,
      "learning_rate": 4.967641692893924e-05,
      "loss": 0.7385,
      "num_input_tokens_seen": 11389544,
      "step": 19625
    },
    {
      "epoch": 2.9237414358057787,
      "grad_norm": 4.4351372718811035,
      "learning_rate": 4.967589560491282e-05,
      "loss": 0.6855,
      "num_input_tokens_seen": 11392424,
      "step": 19630
    },
    {
      "epoch": 2.9244861483467384,
      "grad_norm": 6.709836483001709,
      "learning_rate": 4.967537386401222e-05,
      "loss": 0.6056,
      "num_input_tokens_seen": 11395528,
      "step": 19635
    },
    {
      "epoch": 2.925230860887697,
      "grad_norm": 6.457937240600586,
      "learning_rate": 4.967485170624625e-05,
      "loss": 0.5202,
      "num_input_tokens_seen": 11398536,
      "step": 19640
    },
    {
      "epoch": 2.9259755734286568,
      "grad_norm": 6.783828258514404,
      "learning_rate": 4.9674329131623756e-05,
      "loss": 0.5375,
      "num_input_tokens_seen": 11401256,
      "step": 19645
    },
    {
      "epoch": 2.9267202859696155,
      "grad_norm": 9.272079467773438,
      "learning_rate": 4.967380614015354e-05,
      "loss": 0.7271,
      "num_input_tokens_seen": 11404424,
      "step": 19650
    },
    {
      "epoch": 2.927464998510575,
      "grad_norm": 6.837708473205566,
      "learning_rate": 4.9673282731844444e-05,
      "loss": 0.7258,
      "num_input_tokens_seen": 11407080,
      "step": 19655
    },
    {
      "epoch": 2.928209711051534,
      "grad_norm": 5.554113388061523,
      "learning_rate": 4.967275890670532e-05,
      "loss": 0.5807,
      "num_input_tokens_seen": 11409768,
      "step": 19660
    },
    {
      "epoch": 2.928954423592493,
      "grad_norm": 4.695486545562744,
      "learning_rate": 4.967223466474501e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 11412904,
      "step": 19665
    },
    {
      "epoch": 2.9296991361334523,
      "grad_norm": 7.319015026092529,
      "learning_rate": 4.967171000597236e-05,
      "loss": 0.5471,
      "num_input_tokens_seen": 11415656,
      "step": 19670
    },
    {
      "epoch": 2.9304438486744115,
      "grad_norm": 5.786134243011475,
      "learning_rate": 4.967118493039625e-05,
      "loss": 0.504,
      "num_input_tokens_seen": 11418408,
      "step": 19675
    },
    {
      "epoch": 2.9311885612153707,
      "grad_norm": 6.891472816467285,
      "learning_rate": 4.9670659438025545e-05,
      "loss": 0.5518,
      "num_input_tokens_seen": 11421096,
      "step": 19680
    },
    {
      "epoch": 2.93193327375633,
      "grad_norm": 3.6346275806427,
      "learning_rate": 4.967013352886913e-05,
      "loss": 0.6176,
      "num_input_tokens_seen": 11424168,
      "step": 19685
    },
    {
      "epoch": 2.932677986297289,
      "grad_norm": 7.377279758453369,
      "learning_rate": 4.9669607202935876e-05,
      "loss": 0.4202,
      "num_input_tokens_seen": 11426984,
      "step": 19690
    },
    {
      "epoch": 2.9334226988382484,
      "grad_norm": 17.496353149414062,
      "learning_rate": 4.966908046023468e-05,
      "loss": 0.4198,
      "num_input_tokens_seen": 11430056,
      "step": 19695
    },
    {
      "epoch": 2.9341674113792076,
      "grad_norm": 1.4332572221755981,
      "learning_rate": 4.966855330077445e-05,
      "loss": 0.4902,
      "num_input_tokens_seen": 11432680,
      "step": 19700
    },
    {
      "epoch": 2.9349121239201668,
      "grad_norm": 11.153510093688965,
      "learning_rate": 4.966802572456408e-05,
      "loss": 0.4763,
      "num_input_tokens_seen": 11435592,
      "step": 19705
    },
    {
      "epoch": 2.935656836461126,
      "grad_norm": 6.025300025939941,
      "learning_rate": 4.966749773161249e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 11438536,
      "step": 19710
    },
    {
      "epoch": 2.936401549002085,
      "grad_norm": 10.697035789489746,
      "learning_rate": 4.966696932192859e-05,
      "loss": 0.4858,
      "num_input_tokens_seen": 11441288,
      "step": 19715
    },
    {
      "epoch": 2.9371462615430444,
      "grad_norm": 6.847043991088867,
      "learning_rate": 4.9666440495521313e-05,
      "loss": 0.6805,
      "num_input_tokens_seen": 11444232,
      "step": 19720
    },
    {
      "epoch": 2.9378909740840036,
      "grad_norm": 2.6205193996429443,
      "learning_rate": 4.96659112523996e-05,
      "loss": 0.5284,
      "num_input_tokens_seen": 11447656,
      "step": 19725
    },
    {
      "epoch": 2.9386356866249628,
      "grad_norm": 18.994739532470703,
      "learning_rate": 4.9665381592572387e-05,
      "loss": 0.6791,
      "num_input_tokens_seen": 11450664,
      "step": 19730
    },
    {
      "epoch": 2.939380399165922,
      "grad_norm": 5.8464837074279785,
      "learning_rate": 4.9664851516048615e-05,
      "loss": 0.3772,
      "num_input_tokens_seen": 11453352,
      "step": 19735
    },
    {
      "epoch": 2.940125111706881,
      "grad_norm": 7.7556562423706055,
      "learning_rate": 4.9664321022837244e-05,
      "loss": 0.7595,
      "num_input_tokens_seen": 11456008,
      "step": 19740
    },
    {
      "epoch": 2.9408698242478404,
      "grad_norm": 6.518057346343994,
      "learning_rate": 4.966379011294724e-05,
      "loss": 0.5823,
      "num_input_tokens_seen": 11459016,
      "step": 19745
    },
    {
      "epoch": 2.9416145367887996,
      "grad_norm": 2.1522746086120605,
      "learning_rate": 4.966325878638757e-05,
      "loss": 0.5555,
      "num_input_tokens_seen": 11462184,
      "step": 19750
    },
    {
      "epoch": 2.942359249329759,
      "grad_norm": 12.530900955200195,
      "learning_rate": 4.966272704316721e-05,
      "loss": 0.8966,
      "num_input_tokens_seen": 11464936,
      "step": 19755
    },
    {
      "epoch": 2.943103961870718,
      "grad_norm": 5.246058464050293,
      "learning_rate": 4.966219488329514e-05,
      "loss": 0.5202,
      "num_input_tokens_seen": 11467784,
      "step": 19760
    },
    {
      "epoch": 2.943848674411677,
      "grad_norm": 7.133058071136475,
      "learning_rate": 4.966166230678035e-05,
      "loss": 0.5204,
      "num_input_tokens_seen": 11470952,
      "step": 19765
    },
    {
      "epoch": 2.9445933869526364,
      "grad_norm": 2.1731348037719727,
      "learning_rate": 4.966112931363185e-05,
      "loss": 0.5402,
      "num_input_tokens_seen": 11473640,
      "step": 19770
    },
    {
      "epoch": 2.9453380994935956,
      "grad_norm": 3.9558451175689697,
      "learning_rate": 4.966059590385863e-05,
      "loss": 0.5254,
      "num_input_tokens_seen": 11476616,
      "step": 19775
    },
    {
      "epoch": 2.946082812034555,
      "grad_norm": 3.130007028579712,
      "learning_rate": 4.9660062077469706e-05,
      "loss": 0.2394,
      "num_input_tokens_seen": 11479112,
      "step": 19780
    },
    {
      "epoch": 2.946827524575514,
      "grad_norm": 2.931605100631714,
      "learning_rate": 4.965952783447409e-05,
      "loss": 0.4902,
      "num_input_tokens_seen": 11481992,
      "step": 19785
    },
    {
      "epoch": 2.947572237116473,
      "grad_norm": 19.503517150878906,
      "learning_rate": 4.965899317488082e-05,
      "loss": 0.6653,
      "num_input_tokens_seen": 11484808,
      "step": 19790
    },
    {
      "epoch": 2.948316949657432,
      "grad_norm": 9.014006614685059,
      "learning_rate": 4.9658458098698926e-05,
      "loss": 0.531,
      "num_input_tokens_seen": 11488008,
      "step": 19795
    },
    {
      "epoch": 2.9490616621983916,
      "grad_norm": 11.394618034362793,
      "learning_rate": 4.965792260593744e-05,
      "loss": 0.7093,
      "num_input_tokens_seen": 11490792,
      "step": 19800
    },
    {
      "epoch": 2.9498063747393504,
      "grad_norm": 7.555485725402832,
      "learning_rate": 4.965738669660541e-05,
      "loss": 0.4994,
      "num_input_tokens_seen": 11493672,
      "step": 19805
    },
    {
      "epoch": 2.95055108728031,
      "grad_norm": 5.089920520782471,
      "learning_rate": 4.96568503707119e-05,
      "loss": 0.3614,
      "num_input_tokens_seen": 11496424,
      "step": 19810
    },
    {
      "epoch": 2.9512957998212688,
      "grad_norm": 8.886998176574707,
      "learning_rate": 4.965631362826596e-05,
      "loss": 0.352,
      "num_input_tokens_seen": 11499304,
      "step": 19815
    },
    {
      "epoch": 2.9520405123622284,
      "grad_norm": 4.607928276062012,
      "learning_rate": 4.965577646927666e-05,
      "loss": 0.5966,
      "num_input_tokens_seen": 11502056,
      "step": 19820
    },
    {
      "epoch": 2.952785224903187,
      "grad_norm": 16.24094581604004,
      "learning_rate": 4.965523889375308e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 11505288,
      "step": 19825
    },
    {
      "epoch": 2.953529937444147,
      "grad_norm": 6.852579116821289,
      "learning_rate": 4.9654700901704286e-05,
      "loss": 0.6471,
      "num_input_tokens_seen": 11508264,
      "step": 19830
    },
    {
      "epoch": 2.9542746499851056,
      "grad_norm": 3.976313829421997,
      "learning_rate": 4.965416249313939e-05,
      "loss": 0.4704,
      "num_input_tokens_seen": 11510952,
      "step": 19835
    },
    {
      "epoch": 2.955019362526065,
      "grad_norm": 9.550267219543457,
      "learning_rate": 4.965362366806747e-05,
      "loss": 0.6156,
      "num_input_tokens_seen": 11513672,
      "step": 19840
    },
    {
      "epoch": 2.955764075067024,
      "grad_norm": 8.708609580993652,
      "learning_rate": 4.9653084426497633e-05,
      "loss": 0.5988,
      "num_input_tokens_seen": 11516520,
      "step": 19845
    },
    {
      "epoch": 2.956508787607983,
      "grad_norm": 5.650773525238037,
      "learning_rate": 4.965254476843899e-05,
      "loss": 0.5676,
      "num_input_tokens_seen": 11519464,
      "step": 19850
    },
    {
      "epoch": 2.9572535001489424,
      "grad_norm": 10.210856437683105,
      "learning_rate": 4.965200469390067e-05,
      "loss": 0.4875,
      "num_input_tokens_seen": 11522312,
      "step": 19855
    },
    {
      "epoch": 2.9579982126899016,
      "grad_norm": 6.399865627288818,
      "learning_rate": 4.965146420289177e-05,
      "loss": 0.4181,
      "num_input_tokens_seen": 11525064,
      "step": 19860
    },
    {
      "epoch": 2.958742925230861,
      "grad_norm": 6.697868347167969,
      "learning_rate": 4.965092329542145e-05,
      "loss": 0.7824,
      "num_input_tokens_seen": 11528136,
      "step": 19865
    },
    {
      "epoch": 2.95948763777182,
      "grad_norm": 5.322377681732178,
      "learning_rate": 4.9650381971498824e-05,
      "loss": 0.4685,
      "num_input_tokens_seen": 11531048,
      "step": 19870
    },
    {
      "epoch": 2.960232350312779,
      "grad_norm": 8.781028747558594,
      "learning_rate": 4.964984023113306e-05,
      "loss": 0.5834,
      "num_input_tokens_seen": 11533704,
      "step": 19875
    },
    {
      "epoch": 2.9609770628537384,
      "grad_norm": 8.700676918029785,
      "learning_rate": 4.9649298074333294e-05,
      "loss": 0.5051,
      "num_input_tokens_seen": 11536776,
      "step": 19880
    },
    {
      "epoch": 2.9617217753946976,
      "grad_norm": 10.357028007507324,
      "learning_rate": 4.964875550110869e-05,
      "loss": 0.5504,
      "num_input_tokens_seen": 11539592,
      "step": 19885
    },
    {
      "epoch": 2.962466487935657,
      "grad_norm": 10.536463737487793,
      "learning_rate": 4.964821251146841e-05,
      "loss": 0.6488,
      "num_input_tokens_seen": 11542440,
      "step": 19890
    },
    {
      "epoch": 2.963211200476616,
      "grad_norm": 10.775693893432617,
      "learning_rate": 4.964766910542164e-05,
      "loss": 0.5749,
      "num_input_tokens_seen": 11545192,
      "step": 19895
    },
    {
      "epoch": 2.963955913017575,
      "grad_norm": 6.4192986488342285,
      "learning_rate": 4.9647125282977536e-05,
      "loss": 0.685,
      "num_input_tokens_seen": 11548328,
      "step": 19900
    },
    {
      "epoch": 2.9647006255585344,
      "grad_norm": 7.461580753326416,
      "learning_rate": 4.964658104414531e-05,
      "loss": 0.594,
      "num_input_tokens_seen": 11551048,
      "step": 19905
    },
    {
      "epoch": 2.9654453380994936,
      "grad_norm": 7.299213409423828,
      "learning_rate": 4.964603638893415e-05,
      "loss": 0.7569,
      "num_input_tokens_seen": 11554248,
      "step": 19910
    },
    {
      "epoch": 2.966190050640453,
      "grad_norm": 5.457845687866211,
      "learning_rate": 4.9645491317353246e-05,
      "loss": 0.7076,
      "num_input_tokens_seen": 11557544,
      "step": 19915
    },
    {
      "epoch": 2.966934763181412,
      "grad_norm": 3.7606961727142334,
      "learning_rate": 4.9644945829411815e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 11560392,
      "step": 19920
    },
    {
      "epoch": 2.9676794757223712,
      "grad_norm": 3.4737696647644043,
      "learning_rate": 4.964439992511908e-05,
      "loss": 0.5263,
      "num_input_tokens_seen": 11563176,
      "step": 19925
    },
    {
      "epoch": 2.9684241882633304,
      "grad_norm": 7.8199920654296875,
      "learning_rate": 4.964385360448425e-05,
      "loss": 0.4116,
      "num_input_tokens_seen": 11566184,
      "step": 19930
    },
    {
      "epoch": 2.9691689008042896,
      "grad_norm": 6.538524627685547,
      "learning_rate": 4.964330686751656e-05,
      "loss": 0.4691,
      "num_input_tokens_seen": 11568968,
      "step": 19935
    },
    {
      "epoch": 2.969913613345249,
      "grad_norm": 6.423076152801514,
      "learning_rate": 4.964275971422525e-05,
      "loss": 0.464,
      "num_input_tokens_seen": 11571784,
      "step": 19940
    },
    {
      "epoch": 2.970658325886208,
      "grad_norm": 10.212142944335938,
      "learning_rate": 4.964221214461956e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 11574664,
      "step": 19945
    },
    {
      "epoch": 2.9714030384271672,
      "grad_norm": 10.433320999145508,
      "learning_rate": 4.964166415870874e-05,
      "loss": 0.633,
      "num_input_tokens_seen": 11577288,
      "step": 19950
    },
    {
      "epoch": 2.9721477509681264,
      "grad_norm": 8.093574523925781,
      "learning_rate": 4.964111575650205e-05,
      "loss": 0.6803,
      "num_input_tokens_seen": 11580008,
      "step": 19955
    },
    {
      "epoch": 2.9728924635090856,
      "grad_norm": 3.0174777507781982,
      "learning_rate": 4.9640566938008745e-05,
      "loss": 0.4976,
      "num_input_tokens_seen": 11582728,
      "step": 19960
    },
    {
      "epoch": 2.973637176050045,
      "grad_norm": 8.877311706542969,
      "learning_rate": 4.964001770323812e-05,
      "loss": 0.5906,
      "num_input_tokens_seen": 11585640,
      "step": 19965
    },
    {
      "epoch": 2.9743818885910036,
      "grad_norm": 10.1529541015625,
      "learning_rate": 4.9639468052199426e-05,
      "loss": 0.6322,
      "num_input_tokens_seen": 11588328,
      "step": 19970
    },
    {
      "epoch": 2.9751266011319633,
      "grad_norm": 5.894902229309082,
      "learning_rate": 4.963891798490197e-05,
      "loss": 0.6116,
      "num_input_tokens_seen": 11591176,
      "step": 19975
    },
    {
      "epoch": 2.975871313672922,
      "grad_norm": 7.813510894775391,
      "learning_rate": 4.963836750135503e-05,
      "loss": 0.5809,
      "num_input_tokens_seen": 11594088,
      "step": 19980
    },
    {
      "epoch": 2.9766160262138817,
      "grad_norm": 5.99868106842041,
      "learning_rate": 4.963781660156792e-05,
      "loss": 0.4674,
      "num_input_tokens_seen": 11596968,
      "step": 19985
    },
    {
      "epoch": 2.9773607387548404,
      "grad_norm": 11.925130844116211,
      "learning_rate": 4.9637265285549935e-05,
      "loss": 0.5464,
      "num_input_tokens_seen": 11599944,
      "step": 19990
    },
    {
      "epoch": 2.9781054512958,
      "grad_norm": 17.52056884765625,
      "learning_rate": 4.9636713553310396e-05,
      "loss": 0.478,
      "num_input_tokens_seen": 11602888,
      "step": 19995
    },
    {
      "epoch": 2.978850163836759,
      "grad_norm": 11.118386268615723,
      "learning_rate": 4.963616140485862e-05,
      "loss": 0.7211,
      "num_input_tokens_seen": 11605896,
      "step": 20000
    },
    {
      "epoch": 2.9795948763777185,
      "grad_norm": 6.333206653594971,
      "learning_rate": 4.963560884020393e-05,
      "loss": 0.5402,
      "num_input_tokens_seen": 11608616,
      "step": 20005
    },
    {
      "epoch": 2.9803395889186772,
      "grad_norm": 10.402193069458008,
      "learning_rate": 4.963505585935567e-05,
      "loss": 0.5261,
      "num_input_tokens_seen": 11611304,
      "step": 20010
    },
    {
      "epoch": 2.9810843014596364,
      "grad_norm": 5.148759841918945,
      "learning_rate": 4.9634502462323186e-05,
      "loss": 0.6707,
      "num_input_tokens_seen": 11614152,
      "step": 20015
    },
    {
      "epoch": 2.9818290140005956,
      "grad_norm": 3.9296963214874268,
      "learning_rate": 4.9633948649115816e-05,
      "loss": 0.4342,
      "num_input_tokens_seen": 11617064,
      "step": 20020
    },
    {
      "epoch": 2.982573726541555,
      "grad_norm": 9.193120956420898,
      "learning_rate": 4.9633394419742917e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 11620072,
      "step": 20025
    },
    {
      "epoch": 2.983318439082514,
      "grad_norm": 9.105053901672363,
      "learning_rate": 4.963283977421386e-05,
      "loss": 0.4529,
      "num_input_tokens_seen": 11622696,
      "step": 20030
    },
    {
      "epoch": 2.9840631516234732,
      "grad_norm": 12.860712051391602,
      "learning_rate": 4.9632284712538005e-05,
      "loss": 0.5111,
      "num_input_tokens_seen": 11625672,
      "step": 20035
    },
    {
      "epoch": 2.9848078641644324,
      "grad_norm": 4.535946369171143,
      "learning_rate": 4.9631729234724736e-05,
      "loss": 0.5923,
      "num_input_tokens_seen": 11628360,
      "step": 20040
    },
    {
      "epoch": 2.9855525767053916,
      "grad_norm": 8.036124229431152,
      "learning_rate": 4.9631173340783445e-05,
      "loss": 0.532,
      "num_input_tokens_seen": 11631496,
      "step": 20045
    },
    {
      "epoch": 2.986297289246351,
      "grad_norm": 5.053587913513184,
      "learning_rate": 4.96306170307235e-05,
      "loss": 0.5582,
      "num_input_tokens_seen": 11634856,
      "step": 20050
    },
    {
      "epoch": 2.98704200178731,
      "grad_norm": 9.00987720489502,
      "learning_rate": 4.963006030455433e-05,
      "loss": 0.6166,
      "num_input_tokens_seen": 11637736,
      "step": 20055
    },
    {
      "epoch": 2.9877867143282693,
      "grad_norm": 14.837311744689941,
      "learning_rate": 4.962950316228532e-05,
      "loss": 0.7036,
      "num_input_tokens_seen": 11640872,
      "step": 20060
    },
    {
      "epoch": 2.9885314268692285,
      "grad_norm": 21.42035675048828,
      "learning_rate": 4.9628945603925884e-05,
      "loss": 0.7231,
      "num_input_tokens_seen": 11643848,
      "step": 20065
    },
    {
      "epoch": 2.9892761394101877,
      "grad_norm": 7.991246700286865,
      "learning_rate": 4.9628387629485435e-05,
      "loss": 0.709,
      "num_input_tokens_seen": 11647048,
      "step": 20070
    },
    {
      "epoch": 2.990020851951147,
      "grad_norm": 7.444777965545654,
      "learning_rate": 4.962782923897342e-05,
      "loss": 0.7231,
      "num_input_tokens_seen": 11649832,
      "step": 20075
    },
    {
      "epoch": 2.990765564492106,
      "grad_norm": 6.443599224090576,
      "learning_rate": 4.962727043239925e-05,
      "loss": 0.5804,
      "num_input_tokens_seen": 11652584,
      "step": 20080
    },
    {
      "epoch": 2.9915102770330653,
      "grad_norm": 7.834946155548096,
      "learning_rate": 4.962671120977238e-05,
      "loss": 0.6471,
      "num_input_tokens_seen": 11655496,
      "step": 20085
    },
    {
      "epoch": 2.9922549895740245,
      "grad_norm": 4.372681617736816,
      "learning_rate": 4.962615157110226e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 11658536,
      "step": 20090
    },
    {
      "epoch": 2.9929997021149837,
      "grad_norm": 5.851041793823242,
      "learning_rate": 4.9625591516398336e-05,
      "loss": 0.4079,
      "num_input_tokens_seen": 11661384,
      "step": 20095
    },
    {
      "epoch": 2.993744414655943,
      "grad_norm": 2.403102397918701,
      "learning_rate": 4.962503104567007e-05,
      "loss": 0.4211,
      "num_input_tokens_seen": 11664392,
      "step": 20100
    },
    {
      "epoch": 2.994489127196902,
      "grad_norm": 13.335493087768555,
      "learning_rate": 4.9624470158926925e-05,
      "loss": 0.8864,
      "num_input_tokens_seen": 11667208,
      "step": 20105
    },
    {
      "epoch": 2.9952338397378613,
      "grad_norm": 5.752445697784424,
      "learning_rate": 4.962390885617839e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 11669896,
      "step": 20110
    },
    {
      "epoch": 2.9959785522788205,
      "grad_norm": 14.728797912597656,
      "learning_rate": 4.9623347137433954e-05,
      "loss": 0.5563,
      "num_input_tokens_seen": 11672904,
      "step": 20115
    },
    {
      "epoch": 2.9967232648197797,
      "grad_norm": 6.181074619293213,
      "learning_rate": 4.962278500270307e-05,
      "loss": 0.5809,
      "num_input_tokens_seen": 11675720,
      "step": 20120
    },
    {
      "epoch": 2.997467977360739,
      "grad_norm": 6.658395767211914,
      "learning_rate": 4.9622222451995274e-05,
      "loss": 0.5194,
      "num_input_tokens_seen": 11678696,
      "step": 20125
    },
    {
      "epoch": 2.998212689901698,
      "grad_norm": 3.9416301250457764,
      "learning_rate": 4.962165948532006e-05,
      "loss": 0.6479,
      "num_input_tokens_seen": 11681704,
      "step": 20130
    },
    {
      "epoch": 2.9989574024426573,
      "grad_norm": 20.847349166870117,
      "learning_rate": 4.962109610268692e-05,
      "loss": 0.8449,
      "num_input_tokens_seen": 11684552,
      "step": 20135
    },
    {
      "epoch": 2.9997021149836165,
      "grad_norm": 12.51939582824707,
      "learning_rate": 4.9620532304105385e-05,
      "loss": 0.6076,
      "num_input_tokens_seen": 11687528,
      "step": 20140
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.6014941930770874,
      "eval_runtime": 49.1795,
      "eval_samples_per_second": 60.676,
      "eval_steps_per_second": 15.169,
      "num_input_tokens_seen": 11688128,
      "step": 20142
    },
    {
      "epoch": 3.0004468275245757,
      "grad_norm": 8.594578742980957,
      "learning_rate": 4.961996808958499e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 11689792,
      "step": 20145
    },
    {
      "epoch": 3.001191540065535,
      "grad_norm": 6.058135986328125,
      "learning_rate": 4.961940345913525e-05,
      "loss": 0.4301,
      "num_input_tokens_seen": 11692768,
      "step": 20150
    },
    {
      "epoch": 3.001936252606494,
      "grad_norm": 5.2829108238220215,
      "learning_rate": 4.961883841276571e-05,
      "loss": 0.239,
      "num_input_tokens_seen": 11695520,
      "step": 20155
    },
    {
      "epoch": 3.002680965147453,
      "grad_norm": 11.766462326049805,
      "learning_rate": 4.961827295048592e-05,
      "loss": 0.5509,
      "num_input_tokens_seen": 11698336,
      "step": 20160
    },
    {
      "epoch": 3.003425677688412,
      "grad_norm": 4.338834762573242,
      "learning_rate": 4.961770707230543e-05,
      "loss": 0.3444,
      "num_input_tokens_seen": 11701152,
      "step": 20165
    },
    {
      "epoch": 3.0041703902293713,
      "grad_norm": 7.806821346282959,
      "learning_rate": 4.961714077823379e-05,
      "loss": 0.4398,
      "num_input_tokens_seen": 11704352,
      "step": 20170
    },
    {
      "epoch": 3.0049151027703305,
      "grad_norm": 5.132422924041748,
      "learning_rate": 4.961657406828059e-05,
      "loss": 0.2439,
      "num_input_tokens_seen": 11707328,
      "step": 20175
    },
    {
      "epoch": 3.0056598153112897,
      "grad_norm": 4.022794723510742,
      "learning_rate": 4.961600694245539e-05,
      "loss": 0.4262,
      "num_input_tokens_seen": 11710112,
      "step": 20180
    },
    {
      "epoch": 3.006404527852249,
      "grad_norm": 10.469598770141602,
      "learning_rate": 4.961543940076776e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 11712832,
      "step": 20185
    },
    {
      "epoch": 3.007149240393208,
      "grad_norm": 6.75861930847168,
      "learning_rate": 4.961487144322731e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 11715936,
      "step": 20190
    },
    {
      "epoch": 3.0078939529341673,
      "grad_norm": 3.664968967437744,
      "learning_rate": 4.961430306984362e-05,
      "loss": 0.2395,
      "num_input_tokens_seen": 11718880,
      "step": 20195
    },
    {
      "epoch": 3.0086386654751265,
      "grad_norm": 0.34824514389038086,
      "learning_rate": 4.9613734280626287e-05,
      "loss": 0.3821,
      "num_input_tokens_seen": 11721888,
      "step": 20200
    },
    {
      "epoch": 3.0093833780160857,
      "grad_norm": 11.040946960449219,
      "learning_rate": 4.961316507558494e-05,
      "loss": 0.5127,
      "num_input_tokens_seen": 11724960,
      "step": 20205
    },
    {
      "epoch": 3.010128090557045,
      "grad_norm": 3.8120932579040527,
      "learning_rate": 4.961259545472918e-05,
      "loss": 0.3377,
      "num_input_tokens_seen": 11727712,
      "step": 20210
    },
    {
      "epoch": 3.010872803098004,
      "grad_norm": 8.733165740966797,
      "learning_rate": 4.961202541806864e-05,
      "loss": 0.4473,
      "num_input_tokens_seen": 11730592,
      "step": 20215
    },
    {
      "epoch": 3.0116175156389633,
      "grad_norm": 6.787367343902588,
      "learning_rate": 4.9611454965612944e-05,
      "loss": 0.2876,
      "num_input_tokens_seen": 11733760,
      "step": 20220
    },
    {
      "epoch": 3.0123622281799225,
      "grad_norm": 10.713318824768066,
      "learning_rate": 4.9610884097371736e-05,
      "loss": 0.5608,
      "num_input_tokens_seen": 11737248,
      "step": 20225
    },
    {
      "epoch": 3.0131069407208817,
      "grad_norm": 34.505184173583984,
      "learning_rate": 4.961031281335464e-05,
      "loss": 0.3499,
      "num_input_tokens_seen": 11740032,
      "step": 20230
    },
    {
      "epoch": 3.013851653261841,
      "grad_norm": 0.6781777739524841,
      "learning_rate": 4.9609741113571336e-05,
      "loss": 0.2746,
      "num_input_tokens_seen": 11743136,
      "step": 20235
    },
    {
      "epoch": 3.0145963658028,
      "grad_norm": 8.290969848632812,
      "learning_rate": 4.960916899803146e-05,
      "loss": 0.4257,
      "num_input_tokens_seen": 11745856,
      "step": 20240
    },
    {
      "epoch": 3.0153410783437593,
      "grad_norm": 4.282298564910889,
      "learning_rate": 4.960859646674469e-05,
      "loss": 0.1401,
      "num_input_tokens_seen": 11748992,
      "step": 20245
    },
    {
      "epoch": 3.0160857908847185,
      "grad_norm": 7.2935028076171875,
      "learning_rate": 4.960802351972069e-05,
      "loss": 0.3916,
      "num_input_tokens_seen": 11751776,
      "step": 20250
    },
    {
      "epoch": 3.0168305034256777,
      "grad_norm": 31.085683822631836,
      "learning_rate": 4.960745015696914e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 11755360,
      "step": 20255
    },
    {
      "epoch": 3.017575215966637,
      "grad_norm": 17.744226455688477,
      "learning_rate": 4.960687637849974e-05,
      "loss": 0.4113,
      "num_input_tokens_seen": 11758400,
      "step": 20260
    },
    {
      "epoch": 3.018319928507596,
      "grad_norm": 13.804280281066895,
      "learning_rate": 4.960630218432216e-05,
      "loss": 0.5614,
      "num_input_tokens_seen": 11761120,
      "step": 20265
    },
    {
      "epoch": 3.0190646410485553,
      "grad_norm": 1.5306663513183594,
      "learning_rate": 4.960572757444612e-05,
      "loss": 0.3674,
      "num_input_tokens_seen": 11763936,
      "step": 20270
    },
    {
      "epoch": 3.0198093535895145,
      "grad_norm": 4.335874080657959,
      "learning_rate": 4.960515254888133e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 11767104,
      "step": 20275
    },
    {
      "epoch": 3.0205540661304737,
      "grad_norm": 14.781396865844727,
      "learning_rate": 4.9604577107637484e-05,
      "loss": 0.4999,
      "num_input_tokens_seen": 11770016,
      "step": 20280
    },
    {
      "epoch": 3.021298778671433,
      "grad_norm": 23.682125091552734,
      "learning_rate": 4.960400125072431e-05,
      "loss": 0.5074,
      "num_input_tokens_seen": 11773120,
      "step": 20285
    },
    {
      "epoch": 3.022043491212392,
      "grad_norm": 8.110662460327148,
      "learning_rate": 4.960342497815155e-05,
      "loss": 0.5965,
      "num_input_tokens_seen": 11776256,
      "step": 20290
    },
    {
      "epoch": 3.0227882037533513,
      "grad_norm": 11.877516746520996,
      "learning_rate": 4.9602848289928926e-05,
      "loss": 0.3656,
      "num_input_tokens_seen": 11778944,
      "step": 20295
    },
    {
      "epoch": 3.0235329162943105,
      "grad_norm": 5.745235443115234,
      "learning_rate": 4.9602271186066194e-05,
      "loss": 0.3869,
      "num_input_tokens_seen": 11781856,
      "step": 20300
    },
    {
      "epoch": 3.0242776288352697,
      "grad_norm": 6.816323757171631,
      "learning_rate": 4.960169366657309e-05,
      "loss": 0.3474,
      "num_input_tokens_seen": 11784832,
      "step": 20305
    },
    {
      "epoch": 3.025022341376229,
      "grad_norm": 7.351469039916992,
      "learning_rate": 4.960111573145937e-05,
      "loss": 0.4856,
      "num_input_tokens_seen": 11787872,
      "step": 20310
    },
    {
      "epoch": 3.025767053917188,
      "grad_norm": 10.965928077697754,
      "learning_rate": 4.960053738073481e-05,
      "loss": 0.2463,
      "num_input_tokens_seen": 11790688,
      "step": 20315
    },
    {
      "epoch": 3.0265117664581473,
      "grad_norm": 5.801211833953857,
      "learning_rate": 4.959995861440917e-05,
      "loss": 0.3021,
      "num_input_tokens_seen": 11793632,
      "step": 20320
    },
    {
      "epoch": 3.0272564789991065,
      "grad_norm": 10.772424697875977,
      "learning_rate": 4.959937943249223e-05,
      "loss": 0.3184,
      "num_input_tokens_seen": 11796544,
      "step": 20325
    },
    {
      "epoch": 3.0280011915400658,
      "grad_norm": 8.052010536193848,
      "learning_rate": 4.9598799834993784e-05,
      "loss": 0.2588,
      "num_input_tokens_seen": 11799360,
      "step": 20330
    },
    {
      "epoch": 3.0287459040810245,
      "grad_norm": 7.624648094177246,
      "learning_rate": 4.9598219821923605e-05,
      "loss": 0.3517,
      "num_input_tokens_seen": 11802080,
      "step": 20335
    },
    {
      "epoch": 3.0294906166219837,
      "grad_norm": 7.8362250328063965,
      "learning_rate": 4.959763939329152e-05,
      "loss": 0.2737,
      "num_input_tokens_seen": 11804992,
      "step": 20340
    },
    {
      "epoch": 3.030235329162943,
      "grad_norm": 5.075557708740234,
      "learning_rate": 4.95970585491073e-05,
      "loss": 0.3293,
      "num_input_tokens_seen": 11807936,
      "step": 20345
    },
    {
      "epoch": 3.030980041703902,
      "grad_norm": 35.830570220947266,
      "learning_rate": 4.9596477289380786e-05,
      "loss": 0.3113,
      "num_input_tokens_seen": 11810816,
      "step": 20350
    },
    {
      "epoch": 3.0317247542448613,
      "grad_norm": 12.841560363769531,
      "learning_rate": 4.959589561412178e-05,
      "loss": 0.4626,
      "num_input_tokens_seen": 11813792,
      "step": 20355
    },
    {
      "epoch": 3.0324694667858205,
      "grad_norm": 10.468785285949707,
      "learning_rate": 4.959531352334012e-05,
      "loss": 0.4187,
      "num_input_tokens_seen": 11816448,
      "step": 20360
    },
    {
      "epoch": 3.0332141793267797,
      "grad_norm": 26.9163818359375,
      "learning_rate": 4.959473101704563e-05,
      "loss": 0.3914,
      "num_input_tokens_seen": 11819328,
      "step": 20365
    },
    {
      "epoch": 3.033958891867739,
      "grad_norm": 20.933141708374023,
      "learning_rate": 4.959414809524816e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 11822336,
      "step": 20370
    },
    {
      "epoch": 3.034703604408698,
      "grad_norm": 28.292724609375,
      "learning_rate": 4.9593564757957554e-05,
      "loss": 0.4777,
      "num_input_tokens_seen": 11825056,
      "step": 20375
    },
    {
      "epoch": 3.0354483169496573,
      "grad_norm": 23.18006706237793,
      "learning_rate": 4.959298100518367e-05,
      "loss": 0.4688,
      "num_input_tokens_seen": 11827904,
      "step": 20380
    },
    {
      "epoch": 3.0361930294906165,
      "grad_norm": 9.951300621032715,
      "learning_rate": 4.959239683693636e-05,
      "loss": 0.6097,
      "num_input_tokens_seen": 11830816,
      "step": 20385
    },
    {
      "epoch": 3.0369377420315757,
      "grad_norm": 5.259161949157715,
      "learning_rate": 4.959181225322551e-05,
      "loss": 0.2835,
      "num_input_tokens_seen": 11833888,
      "step": 20390
    },
    {
      "epoch": 3.037682454572535,
      "grad_norm": 5.723336219787598,
      "learning_rate": 4.959122725406098e-05,
      "loss": 0.2135,
      "num_input_tokens_seen": 11836928,
      "step": 20395
    },
    {
      "epoch": 3.038427167113494,
      "grad_norm": 5.554263591766357,
      "learning_rate": 4.959064183945266e-05,
      "loss": 0.3203,
      "num_input_tokens_seen": 11839680,
      "step": 20400
    },
    {
      "epoch": 3.0391718796544533,
      "grad_norm": 14.396676063537598,
      "learning_rate": 4.959005600941043e-05,
      "loss": 0.3956,
      "num_input_tokens_seen": 11842368,
      "step": 20405
    },
    {
      "epoch": 3.0399165921954125,
      "grad_norm": 5.240423679351807,
      "learning_rate": 4.958946976394421e-05,
      "loss": 0.4606,
      "num_input_tokens_seen": 11845344,
      "step": 20410
    },
    {
      "epoch": 3.0406613047363718,
      "grad_norm": 8.360651969909668,
      "learning_rate": 4.958888310306389e-05,
      "loss": 0.3303,
      "num_input_tokens_seen": 11848064,
      "step": 20415
    },
    {
      "epoch": 3.041406017277331,
      "grad_norm": 15.157400131225586,
      "learning_rate": 4.958829602677937e-05,
      "loss": 0.6823,
      "num_input_tokens_seen": 11851168,
      "step": 20420
    },
    {
      "epoch": 3.04215072981829,
      "grad_norm": 8.081563949584961,
      "learning_rate": 4.9587708535100584e-05,
      "loss": 0.3985,
      "num_input_tokens_seen": 11853920,
      "step": 20425
    },
    {
      "epoch": 3.0428954423592494,
      "grad_norm": 4.314472675323486,
      "learning_rate": 4.958712062803745e-05,
      "loss": 0.3987,
      "num_input_tokens_seen": 11856704,
      "step": 20430
    },
    {
      "epoch": 3.0436401549002086,
      "grad_norm": 10.22377872467041,
      "learning_rate": 4.958653230559991e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 11859488,
      "step": 20435
    },
    {
      "epoch": 3.0443848674411678,
      "grad_norm": 10.216145515441895,
      "learning_rate": 4.958594356779789e-05,
      "loss": 0.553,
      "num_input_tokens_seen": 11863424,
      "step": 20440
    },
    {
      "epoch": 3.045129579982127,
      "grad_norm": 11.701982498168945,
      "learning_rate": 4.958535441464134e-05,
      "loss": 0.5,
      "num_input_tokens_seen": 11866080,
      "step": 20445
    },
    {
      "epoch": 3.045874292523086,
      "grad_norm": 8.186799049377441,
      "learning_rate": 4.958476484614022e-05,
      "loss": 0.6482,
      "num_input_tokens_seen": 11869024,
      "step": 20450
    },
    {
      "epoch": 3.0466190050640454,
      "grad_norm": 8.179082870483398,
      "learning_rate": 4.958417486230448e-05,
      "loss": 0.3285,
      "num_input_tokens_seen": 11871904,
      "step": 20455
    },
    {
      "epoch": 3.0473637176050046,
      "grad_norm": 5.553053855895996,
      "learning_rate": 4.95835844631441e-05,
      "loss": 0.4212,
      "num_input_tokens_seen": 11874720,
      "step": 20460
    },
    {
      "epoch": 3.0481084301459638,
      "grad_norm": 6.2503180503845215,
      "learning_rate": 4.958299364866903e-05,
      "loss": 0.2626,
      "num_input_tokens_seen": 11877344,
      "step": 20465
    },
    {
      "epoch": 3.048853142686923,
      "grad_norm": 48.69435501098633,
      "learning_rate": 4.958240241888928e-05,
      "loss": 0.284,
      "num_input_tokens_seen": 11880096,
      "step": 20470
    },
    {
      "epoch": 3.049597855227882,
      "grad_norm": 10.377758026123047,
      "learning_rate": 4.958181077381482e-05,
      "loss": 0.6701,
      "num_input_tokens_seen": 11882976,
      "step": 20475
    },
    {
      "epoch": 3.0503425677688414,
      "grad_norm": 15.087662696838379,
      "learning_rate": 4.958121871345565e-05,
      "loss": 0.31,
      "num_input_tokens_seen": 11886176,
      "step": 20480
    },
    {
      "epoch": 3.0510872803098006,
      "grad_norm": 3.0715415477752686,
      "learning_rate": 4.958062623782178e-05,
      "loss": 0.3581,
      "num_input_tokens_seen": 11888992,
      "step": 20485
    },
    {
      "epoch": 3.05183199285076,
      "grad_norm": 14.551270484924316,
      "learning_rate": 4.958003334692321e-05,
      "loss": 0.5233,
      "num_input_tokens_seen": 11891712,
      "step": 20490
    },
    {
      "epoch": 3.052576705391719,
      "grad_norm": 8.789578437805176,
      "learning_rate": 4.957944004076995e-05,
      "loss": 0.4685,
      "num_input_tokens_seen": 11894688,
      "step": 20495
    },
    {
      "epoch": 3.053321417932678,
      "grad_norm": 3.7906248569488525,
      "learning_rate": 4.957884631937204e-05,
      "loss": 0.2516,
      "num_input_tokens_seen": 11897664,
      "step": 20500
    },
    {
      "epoch": 3.054066130473637,
      "grad_norm": 13.35253620147705,
      "learning_rate": 4.9578252182739506e-05,
      "loss": 0.2674,
      "num_input_tokens_seen": 11900544,
      "step": 20505
    },
    {
      "epoch": 3.054810843014596,
      "grad_norm": 6.656407833099365,
      "learning_rate": 4.957765763088237e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 11903360,
      "step": 20510
    },
    {
      "epoch": 3.0555555555555554,
      "grad_norm": 18.26246452331543,
      "learning_rate": 4.95770626638107e-05,
      "loss": 0.4508,
      "num_input_tokens_seen": 11906496,
      "step": 20515
    },
    {
      "epoch": 3.0563002680965146,
      "grad_norm": 3.9953980445861816,
      "learning_rate": 4.9576467281534526e-05,
      "loss": 0.3503,
      "num_input_tokens_seen": 11909472,
      "step": 20520
    },
    {
      "epoch": 3.0570449806374738,
      "grad_norm": 10.889273643493652,
      "learning_rate": 4.9575871484063915e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 11912512,
      "step": 20525
    },
    {
      "epoch": 3.057789693178433,
      "grad_norm": 2.753605842590332,
      "learning_rate": 4.9575275271408944e-05,
      "loss": 0.4858,
      "num_input_tokens_seen": 11915264,
      "step": 20530
    },
    {
      "epoch": 3.058534405719392,
      "grad_norm": 23.46039581298828,
      "learning_rate": 4.957467864357967e-05,
      "loss": 0.4606,
      "num_input_tokens_seen": 11918080,
      "step": 20535
    },
    {
      "epoch": 3.0592791182603514,
      "grad_norm": 4.2423624992370605,
      "learning_rate": 4.9574081600586175e-05,
      "loss": 0.2446,
      "num_input_tokens_seen": 11921024,
      "step": 20540
    },
    {
      "epoch": 3.0600238308013106,
      "grad_norm": 6.293407440185547,
      "learning_rate": 4.957348414243855e-05,
      "loss": 0.4729,
      "num_input_tokens_seen": 11924128,
      "step": 20545
    },
    {
      "epoch": 3.0607685433422698,
      "grad_norm": 6.525446891784668,
      "learning_rate": 4.9572886269146877e-05,
      "loss": 0.3003,
      "num_input_tokens_seen": 11926880,
      "step": 20550
    },
    {
      "epoch": 3.061513255883229,
      "grad_norm": 9.453282356262207,
      "learning_rate": 4.957228798072128e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 11929664,
      "step": 20555
    },
    {
      "epoch": 3.062257968424188,
      "grad_norm": 13.48901081085205,
      "learning_rate": 4.957168927717184e-05,
      "loss": 0.381,
      "num_input_tokens_seen": 11932672,
      "step": 20560
    },
    {
      "epoch": 3.0630026809651474,
      "grad_norm": 6.291234970092773,
      "learning_rate": 4.957109015850868e-05,
      "loss": 0.4586,
      "num_input_tokens_seen": 11935456,
      "step": 20565
    },
    {
      "epoch": 3.0637473935061066,
      "grad_norm": 6.403820037841797,
      "learning_rate": 4.957049062474194e-05,
      "loss": 0.5017,
      "num_input_tokens_seen": 11938368,
      "step": 20570
    },
    {
      "epoch": 3.064492106047066,
      "grad_norm": 9.142478942871094,
      "learning_rate": 4.956989067588172e-05,
      "loss": 0.4147,
      "num_input_tokens_seen": 11941184,
      "step": 20575
    },
    {
      "epoch": 3.065236818588025,
      "grad_norm": 6.509588718414307,
      "learning_rate": 4.956929031193817e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 11944224,
      "step": 20580
    },
    {
      "epoch": 3.065981531128984,
      "grad_norm": 7.184990406036377,
      "learning_rate": 4.956868953292143e-05,
      "loss": 0.3136,
      "num_input_tokens_seen": 11947232,
      "step": 20585
    },
    {
      "epoch": 3.0667262436699434,
      "grad_norm": 9.96810245513916,
      "learning_rate": 4.9568088338841664e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 11950272,
      "step": 20590
    },
    {
      "epoch": 3.0674709562109026,
      "grad_norm": 5.942737579345703,
      "learning_rate": 4.9567486729709e-05,
      "loss": 0.4099,
      "num_input_tokens_seen": 11953248,
      "step": 20595
    },
    {
      "epoch": 3.068215668751862,
      "grad_norm": 0.7525092363357544,
      "learning_rate": 4.956688470553363e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 11955872,
      "step": 20600
    },
    {
      "epoch": 3.068960381292821,
      "grad_norm": 7.943748474121094,
      "learning_rate": 4.95662822663257e-05,
      "loss": 0.5576,
      "num_input_tokens_seen": 11959008,
      "step": 20605
    },
    {
      "epoch": 3.06970509383378,
      "grad_norm": 3.0019824504852295,
      "learning_rate": 4.9565679412095415e-05,
      "loss": 0.6155,
      "num_input_tokens_seen": 11961504,
      "step": 20610
    },
    {
      "epoch": 3.0704498063747394,
      "grad_norm": 10.332409858703613,
      "learning_rate": 4.956507614285293e-05,
      "loss": 0.295,
      "num_input_tokens_seen": 11964384,
      "step": 20615
    },
    {
      "epoch": 3.0711945189156986,
      "grad_norm": 10.598846435546875,
      "learning_rate": 4.9564472458608445e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 11967328,
      "step": 20620
    },
    {
      "epoch": 3.071939231456658,
      "grad_norm": 10.648277282714844,
      "learning_rate": 4.956386835937218e-05,
      "loss": 0.3673,
      "num_input_tokens_seen": 11970208,
      "step": 20625
    },
    {
      "epoch": 3.072683943997617,
      "grad_norm": 24.66864013671875,
      "learning_rate": 4.9563263845154315e-05,
      "loss": 0.5031,
      "num_input_tokens_seen": 11973312,
      "step": 20630
    },
    {
      "epoch": 3.073428656538576,
      "grad_norm": 13.757563591003418,
      "learning_rate": 4.9562658915965075e-05,
      "loss": 0.4332,
      "num_input_tokens_seen": 11976128,
      "step": 20635
    },
    {
      "epoch": 3.0741733690795354,
      "grad_norm": 11.36294174194336,
      "learning_rate": 4.956205357181467e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 11979168,
      "step": 20640
    },
    {
      "epoch": 3.0749180816204946,
      "grad_norm": 5.707802772521973,
      "learning_rate": 4.9561447812713345e-05,
      "loss": 0.2888,
      "num_input_tokens_seen": 11981952,
      "step": 20645
    },
    {
      "epoch": 3.075662794161454,
      "grad_norm": 7.21213436126709,
      "learning_rate": 4.956084163867132e-05,
      "loss": 0.4556,
      "num_input_tokens_seen": 11984896,
      "step": 20650
    },
    {
      "epoch": 3.076407506702413,
      "grad_norm": 17.821117401123047,
      "learning_rate": 4.9560235049698834e-05,
      "loss": 0.4228,
      "num_input_tokens_seen": 11987776,
      "step": 20655
    },
    {
      "epoch": 3.0771522192433722,
      "grad_norm": 9.314371109008789,
      "learning_rate": 4.955962804580614e-05,
      "loss": 0.3709,
      "num_input_tokens_seen": 11990656,
      "step": 20660
    },
    {
      "epoch": 3.0778969317843314,
      "grad_norm": 3.387713670730591,
      "learning_rate": 4.9559020627003494e-05,
      "loss": 0.3406,
      "num_input_tokens_seen": 11993408,
      "step": 20665
    },
    {
      "epoch": 3.0786416443252906,
      "grad_norm": 10.40161418914795,
      "learning_rate": 4.955841279330115e-05,
      "loss": 0.3901,
      "num_input_tokens_seen": 11996192,
      "step": 20670
    },
    {
      "epoch": 3.07938635686625,
      "grad_norm": 0.5919103026390076,
      "learning_rate": 4.9557804544709385e-05,
      "loss": 0.3744,
      "num_input_tokens_seen": 11999200,
      "step": 20675
    },
    {
      "epoch": 3.0801310694072086,
      "grad_norm": 6.784672260284424,
      "learning_rate": 4.955719588123847e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 12001952,
      "step": 20680
    },
    {
      "epoch": 3.080875781948168,
      "grad_norm": 12.261176109313965,
      "learning_rate": 4.955658680289869e-05,
      "loss": 0.4434,
      "num_input_tokens_seen": 12004992,
      "step": 20685
    },
    {
      "epoch": 3.081620494489127,
      "grad_norm": 7.166352272033691,
      "learning_rate": 4.955597730970034e-05,
      "loss": 0.5069,
      "num_input_tokens_seen": 12007680,
      "step": 20690
    },
    {
      "epoch": 3.082365207030086,
      "grad_norm": 7.943873405456543,
      "learning_rate": 4.95553674016537e-05,
      "loss": 0.3514,
      "num_input_tokens_seen": 12010464,
      "step": 20695
    },
    {
      "epoch": 3.0831099195710454,
      "grad_norm": 8.593395233154297,
      "learning_rate": 4.9554757078769095e-05,
      "loss": 0.2636,
      "num_input_tokens_seen": 12013472,
      "step": 20700
    },
    {
      "epoch": 3.0838546321120046,
      "grad_norm": 20.920989990234375,
      "learning_rate": 4.955414634105682e-05,
      "loss": 0.6161,
      "num_input_tokens_seen": 12016576,
      "step": 20705
    },
    {
      "epoch": 3.084599344652964,
      "grad_norm": 10.388712882995605,
      "learning_rate": 4.95535351885272e-05,
      "loss": 0.5451,
      "num_input_tokens_seen": 12019360,
      "step": 20710
    },
    {
      "epoch": 3.085344057193923,
      "grad_norm": 4.651920318603516,
      "learning_rate": 4.955292362119055e-05,
      "loss": 0.2387,
      "num_input_tokens_seen": 12022336,
      "step": 20715
    },
    {
      "epoch": 3.086088769734882,
      "grad_norm": 22.061296463012695,
      "learning_rate": 4.955231163905723e-05,
      "loss": 0.2922,
      "num_input_tokens_seen": 12025472,
      "step": 20720
    },
    {
      "epoch": 3.0868334822758414,
      "grad_norm": 22.2839412689209,
      "learning_rate": 4.955169924213754e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 12028384,
      "step": 20725
    },
    {
      "epoch": 3.0875781948168006,
      "grad_norm": 10.911086082458496,
      "learning_rate": 4.955108643044185e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 12031392,
      "step": 20730
    },
    {
      "epoch": 3.08832290735776,
      "grad_norm": 9.977684020996094,
      "learning_rate": 4.955047320398051e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 12034368,
      "step": 20735
    },
    {
      "epoch": 3.089067619898719,
      "grad_norm": 7.371347904205322,
      "learning_rate": 4.954985956276388e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 12037088,
      "step": 20740
    },
    {
      "epoch": 3.0898123324396782,
      "grad_norm": 10.27718448638916,
      "learning_rate": 4.954924550680231e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 12040288,
      "step": 20745
    },
    {
      "epoch": 3.0905570449806374,
      "grad_norm": 19.902896881103516,
      "learning_rate": 4.95486310361062e-05,
      "loss": 0.5942,
      "num_input_tokens_seen": 12042976,
      "step": 20750
    },
    {
      "epoch": 3.0913017575215966,
      "grad_norm": 13.077781677246094,
      "learning_rate": 4.954801615068592e-05,
      "loss": 0.4366,
      "num_input_tokens_seen": 12046016,
      "step": 20755
    },
    {
      "epoch": 3.092046470062556,
      "grad_norm": 9.370087623596191,
      "learning_rate": 4.9547400850551853e-05,
      "loss": 0.604,
      "num_input_tokens_seen": 12049024,
      "step": 20760
    },
    {
      "epoch": 3.092791182603515,
      "grad_norm": 7.009392738342285,
      "learning_rate": 4.9546785135714394e-05,
      "loss": 0.5746,
      "num_input_tokens_seen": 12052320,
      "step": 20765
    },
    {
      "epoch": 3.0935358951444742,
      "grad_norm": 6.14714241027832,
      "learning_rate": 4.954616900618395e-05,
      "loss": 0.3406,
      "num_input_tokens_seen": 12055680,
      "step": 20770
    },
    {
      "epoch": 3.0942806076854334,
      "grad_norm": 14.904632568359375,
      "learning_rate": 4.954555246197093e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 12058656,
      "step": 20775
    },
    {
      "epoch": 3.0950253202263927,
      "grad_norm": 9.586112022399902,
      "learning_rate": 4.954493550308575e-05,
      "loss": 0.2207,
      "num_input_tokens_seen": 12061472,
      "step": 20780
    },
    {
      "epoch": 3.095770032767352,
      "grad_norm": 12.184564590454102,
      "learning_rate": 4.9544318129538824e-05,
      "loss": 0.4432,
      "num_input_tokens_seen": 12064608,
      "step": 20785
    },
    {
      "epoch": 3.096514745308311,
      "grad_norm": 4.127892971038818,
      "learning_rate": 4.95437003413406e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 12067200,
      "step": 20790
    },
    {
      "epoch": 3.0972594578492703,
      "grad_norm": 16.47638511657715,
      "learning_rate": 4.9543082138501495e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 12069760,
      "step": 20795
    },
    {
      "epoch": 3.0980041703902295,
      "grad_norm": 47.52501678466797,
      "learning_rate": 4.954246352103197e-05,
      "loss": 0.5637,
      "num_input_tokens_seen": 12072608,
      "step": 20800
    },
    {
      "epoch": 3.0987488829311887,
      "grad_norm": 4.664547920227051,
      "learning_rate": 4.954184448894246e-05,
      "loss": 0.1374,
      "num_input_tokens_seen": 12075712,
      "step": 20805
    },
    {
      "epoch": 3.099493595472148,
      "grad_norm": 12.74986743927002,
      "learning_rate": 4.954122504224343e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 12078560,
      "step": 20810
    },
    {
      "epoch": 3.100238308013107,
      "grad_norm": 7.831514835357666,
      "learning_rate": 4.954060518094535e-05,
      "loss": 0.3488,
      "num_input_tokens_seen": 12081376,
      "step": 20815
    },
    {
      "epoch": 3.1009830205540663,
      "grad_norm": 15.962532043457031,
      "learning_rate": 4.953998490505868e-05,
      "loss": 0.1832,
      "num_input_tokens_seen": 12083904,
      "step": 20820
    },
    {
      "epoch": 3.1017277330950255,
      "grad_norm": 0.7137999534606934,
      "learning_rate": 4.953936421459392e-05,
      "loss": 0.3525,
      "num_input_tokens_seen": 12086688,
      "step": 20825
    },
    {
      "epoch": 3.1024724456359847,
      "grad_norm": 4.041418075561523,
      "learning_rate": 4.953874310956153e-05,
      "loss": 0.3632,
      "num_input_tokens_seen": 12089600,
      "step": 20830
    },
    {
      "epoch": 3.103217158176944,
      "grad_norm": 9.493982315063477,
      "learning_rate": 4.953812158997202e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 12092448,
      "step": 20835
    },
    {
      "epoch": 3.103961870717903,
      "grad_norm": 0.17994637787342072,
      "learning_rate": 4.953749965583588e-05,
      "loss": 0.2884,
      "num_input_tokens_seen": 12095168,
      "step": 20840
    },
    {
      "epoch": 3.1047065832588623,
      "grad_norm": 6.241307735443115,
      "learning_rate": 4.953687730716363e-05,
      "loss": 0.3541,
      "num_input_tokens_seen": 12097984,
      "step": 20845
    },
    {
      "epoch": 3.1054512957998215,
      "grad_norm": 10.137640953063965,
      "learning_rate": 4.9536254543965775e-05,
      "loss": 0.4082,
      "num_input_tokens_seen": 12101056,
      "step": 20850
    },
    {
      "epoch": 3.1061960083407802,
      "grad_norm": 11.379594802856445,
      "learning_rate": 4.953563136625283e-05,
      "loss": 0.5749,
      "num_input_tokens_seen": 12103840,
      "step": 20855
    },
    {
      "epoch": 3.1069407208817394,
      "grad_norm": 15.77765941619873,
      "learning_rate": 4.9535007774035335e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 12106784,
      "step": 20860
    },
    {
      "epoch": 3.1076854334226987,
      "grad_norm": 9.831974029541016,
      "learning_rate": 4.9534383767323825e-05,
      "loss": 0.5689,
      "num_input_tokens_seen": 12109760,
      "step": 20865
    },
    {
      "epoch": 3.108430145963658,
      "grad_norm": 6.80019998550415,
      "learning_rate": 4.9533759346128824e-05,
      "loss": 0.3415,
      "num_input_tokens_seen": 12112544,
      "step": 20870
    },
    {
      "epoch": 3.109174858504617,
      "grad_norm": 5.423191547393799,
      "learning_rate": 4.953313451046091e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 12115712,
      "step": 20875
    },
    {
      "epoch": 3.1099195710455763,
      "grad_norm": 10.012928009033203,
      "learning_rate": 4.9532509260330615e-05,
      "loss": 0.4803,
      "num_input_tokens_seen": 12118688,
      "step": 20880
    },
    {
      "epoch": 3.1106642835865355,
      "grad_norm": 9.978302001953125,
      "learning_rate": 4.953188359574851e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 12121536,
      "step": 20885
    },
    {
      "epoch": 3.1114089961274947,
      "grad_norm": 13.648768424987793,
      "learning_rate": 4.953125751672516e-05,
      "loss": 0.2802,
      "num_input_tokens_seen": 12124128,
      "step": 20890
    },
    {
      "epoch": 3.112153708668454,
      "grad_norm": 14.600777626037598,
      "learning_rate": 4.953063102327115e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 12127296,
      "step": 20895
    },
    {
      "epoch": 3.112898421209413,
      "grad_norm": 17.69119644165039,
      "learning_rate": 4.953000411539706e-05,
      "loss": 0.6891,
      "num_input_tokens_seen": 12130240,
      "step": 20900
    },
    {
      "epoch": 3.1136431337503723,
      "grad_norm": 14.068464279174805,
      "learning_rate": 4.952937679311348e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 12132960,
      "step": 20905
    },
    {
      "epoch": 3.1143878462913315,
      "grad_norm": 7.6696577072143555,
      "learning_rate": 4.9528749056431015e-05,
      "loss": 0.4457,
      "num_input_tokens_seen": 12135776,
      "step": 20910
    },
    {
      "epoch": 3.1151325588322907,
      "grad_norm": 19.402179718017578,
      "learning_rate": 4.9528120905360265e-05,
      "loss": 0.2905,
      "num_input_tokens_seen": 12138976,
      "step": 20915
    },
    {
      "epoch": 3.11587727137325,
      "grad_norm": 1.5222581624984741,
      "learning_rate": 4.9527492339911836e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 12141984,
      "step": 20920
    },
    {
      "epoch": 3.116621983914209,
      "grad_norm": 25.5242919921875,
      "learning_rate": 4.952686336009635e-05,
      "loss": 0.5134,
      "num_input_tokens_seen": 12144800,
      "step": 20925
    },
    {
      "epoch": 3.1173666964551683,
      "grad_norm": 16.454357147216797,
      "learning_rate": 4.952623396592445e-05,
      "loss": 0.4233,
      "num_input_tokens_seen": 12147872,
      "step": 20930
    },
    {
      "epoch": 3.1181114089961275,
      "grad_norm": 7.068012237548828,
      "learning_rate": 4.952560415740674e-05,
      "loss": 0.3046,
      "num_input_tokens_seen": 12150368,
      "step": 20935
    },
    {
      "epoch": 3.1188561215370867,
      "grad_norm": 13.478815078735352,
      "learning_rate": 4.9524973934553884e-05,
      "loss": 0.2034,
      "num_input_tokens_seen": 12153344,
      "step": 20940
    },
    {
      "epoch": 3.119600834078046,
      "grad_norm": 19.612821578979492,
      "learning_rate": 4.952434329737651e-05,
      "loss": 0.6203,
      "num_input_tokens_seen": 12156192,
      "step": 20945
    },
    {
      "epoch": 3.120345546619005,
      "grad_norm": 18.525476455688477,
      "learning_rate": 4.952371224588529e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 12158912,
      "step": 20950
    },
    {
      "epoch": 3.1210902591599643,
      "grad_norm": 17.967403411865234,
      "learning_rate": 4.952308078009087e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 12161760,
      "step": 20955
    },
    {
      "epoch": 3.1218349717009235,
      "grad_norm": 22.802766799926758,
      "learning_rate": 4.9522448900003925e-05,
      "loss": 0.5455,
      "num_input_tokens_seen": 12164512,
      "step": 20960
    },
    {
      "epoch": 3.1225796842418827,
      "grad_norm": 5.477941513061523,
      "learning_rate": 4.952181660563514e-05,
      "loss": 0.3505,
      "num_input_tokens_seen": 12167392,
      "step": 20965
    },
    {
      "epoch": 3.123324396782842,
      "grad_norm": 10.985555648803711,
      "learning_rate": 4.952118389699517e-05,
      "loss": 0.3051,
      "num_input_tokens_seen": 12170240,
      "step": 20970
    },
    {
      "epoch": 3.124069109323801,
      "grad_norm": 10.824026107788086,
      "learning_rate": 4.9520550774094735e-05,
      "loss": 0.7934,
      "num_input_tokens_seen": 12173120,
      "step": 20975
    },
    {
      "epoch": 3.1248138218647603,
      "grad_norm": 13.8868408203125,
      "learning_rate": 4.9519917236944504e-05,
      "loss": 0.38,
      "num_input_tokens_seen": 12175840,
      "step": 20980
    },
    {
      "epoch": 3.1255585344057195,
      "grad_norm": 11.725634574890137,
      "learning_rate": 4.9519283285555195e-05,
      "loss": 0.3032,
      "num_input_tokens_seen": 12178560,
      "step": 20985
    },
    {
      "epoch": 3.1263032469466787,
      "grad_norm": 2.4395251274108887,
      "learning_rate": 4.951864891993752e-05,
      "loss": 0.6206,
      "num_input_tokens_seen": 12181472,
      "step": 20990
    },
    {
      "epoch": 3.127047959487638,
      "grad_norm": 8.729046821594238,
      "learning_rate": 4.951801414010219e-05,
      "loss": 0.2058,
      "num_input_tokens_seen": 12184448,
      "step": 20995
    },
    {
      "epoch": 3.127792672028597,
      "grad_norm": 12.67646312713623,
      "learning_rate": 4.9517378946059936e-05,
      "loss": 0.394,
      "num_input_tokens_seen": 12187488,
      "step": 21000
    },
    {
      "epoch": 3.1285373845695563,
      "grad_norm": 37.341766357421875,
      "learning_rate": 4.951674333782147e-05,
      "loss": 0.4946,
      "num_input_tokens_seen": 12190336,
      "step": 21005
    },
    {
      "epoch": 3.1292820971105155,
      "grad_norm": 37.856563568115234,
      "learning_rate": 4.9516107315397554e-05,
      "loss": 0.5885,
      "num_input_tokens_seen": 12193728,
      "step": 21010
    },
    {
      "epoch": 3.1300268096514747,
      "grad_norm": 10.23769760131836,
      "learning_rate": 4.951547087879891e-05,
      "loss": 0.2834,
      "num_input_tokens_seen": 12196640,
      "step": 21015
    },
    {
      "epoch": 3.1307715221924335,
      "grad_norm": 18.613483428955078,
      "learning_rate": 4.951483402803631e-05,
      "loss": 0.2169,
      "num_input_tokens_seen": 12199392,
      "step": 21020
    },
    {
      "epoch": 3.131516234733393,
      "grad_norm": 12.091458320617676,
      "learning_rate": 4.95141967631205e-05,
      "loss": 0.3381,
      "num_input_tokens_seen": 12202464,
      "step": 21025
    },
    {
      "epoch": 3.132260947274352,
      "grad_norm": 14.649723052978516,
      "learning_rate": 4.951355908406226e-05,
      "loss": 0.4842,
      "num_input_tokens_seen": 12205152,
      "step": 21030
    },
    {
      "epoch": 3.133005659815311,
      "grad_norm": 7.206612586975098,
      "learning_rate": 4.951292099087235e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 12208000,
      "step": 21035
    },
    {
      "epoch": 3.1337503723562703,
      "grad_norm": 11.618188858032227,
      "learning_rate": 4.951228248356155e-05,
      "loss": 0.4816,
      "num_input_tokens_seen": 12210592,
      "step": 21040
    },
    {
      "epoch": 3.1344950848972295,
      "grad_norm": 4.837770938873291,
      "learning_rate": 4.951164356214065e-05,
      "loss": 0.293,
      "num_input_tokens_seen": 12213760,
      "step": 21045
    },
    {
      "epoch": 3.1352397974381887,
      "grad_norm": 10.755389213562012,
      "learning_rate": 4.951100422662045e-05,
      "loss": 0.2408,
      "num_input_tokens_seen": 12216832,
      "step": 21050
    },
    {
      "epoch": 3.135984509979148,
      "grad_norm": 3.151435613632202,
      "learning_rate": 4.951036447701174e-05,
      "loss": 0.2778,
      "num_input_tokens_seen": 12219616,
      "step": 21055
    },
    {
      "epoch": 3.136729222520107,
      "grad_norm": 7.7824530601501465,
      "learning_rate": 4.950972431332534e-05,
      "loss": 0.471,
      "num_input_tokens_seen": 12222496,
      "step": 21060
    },
    {
      "epoch": 3.1374739350610663,
      "grad_norm": 18.994741439819336,
      "learning_rate": 4.9509083735572055e-05,
      "loss": 0.3144,
      "num_input_tokens_seen": 12225280,
      "step": 21065
    },
    {
      "epoch": 3.1382186476020255,
      "grad_norm": 9.969281196594238,
      "learning_rate": 4.950844274376271e-05,
      "loss": 0.4268,
      "num_input_tokens_seen": 12227872,
      "step": 21070
    },
    {
      "epoch": 3.1389633601429847,
      "grad_norm": 8.876877784729004,
      "learning_rate": 4.950780133790813e-05,
      "loss": 0.3603,
      "num_input_tokens_seen": 12230528,
      "step": 21075
    },
    {
      "epoch": 3.139708072683944,
      "grad_norm": 13.475128173828125,
      "learning_rate": 4.950715951801916e-05,
      "loss": 0.1316,
      "num_input_tokens_seen": 12233408,
      "step": 21080
    },
    {
      "epoch": 3.140452785224903,
      "grad_norm": 7.3395586013793945,
      "learning_rate": 4.950651728410663e-05,
      "loss": 0.4172,
      "num_input_tokens_seen": 12236224,
      "step": 21085
    },
    {
      "epoch": 3.1411974977658623,
      "grad_norm": 11.412078857421875,
      "learning_rate": 4.9505874636181414e-05,
      "loss": 0.1884,
      "num_input_tokens_seen": 12239072,
      "step": 21090
    },
    {
      "epoch": 3.1419422103068215,
      "grad_norm": 19.390052795410156,
      "learning_rate": 4.950523157425434e-05,
      "loss": 0.4679,
      "num_input_tokens_seen": 12241920,
      "step": 21095
    },
    {
      "epoch": 3.1426869228477807,
      "grad_norm": 6.736400604248047,
      "learning_rate": 4.950458809833629e-05,
      "loss": 0.4933,
      "num_input_tokens_seen": 12244672,
      "step": 21100
    },
    {
      "epoch": 3.14343163538874,
      "grad_norm": 23.068195343017578,
      "learning_rate": 4.9503944208438124e-05,
      "loss": 0.3929,
      "num_input_tokens_seen": 12247776,
      "step": 21105
    },
    {
      "epoch": 3.144176347929699,
      "grad_norm": 17.560829162597656,
      "learning_rate": 4.950329990457073e-05,
      "loss": 0.3332,
      "num_input_tokens_seen": 12250816,
      "step": 21110
    },
    {
      "epoch": 3.1449210604706583,
      "grad_norm": 13.89742660522461,
      "learning_rate": 4.950265518674498e-05,
      "loss": 0.7017,
      "num_input_tokens_seen": 12253696,
      "step": 21115
    },
    {
      "epoch": 3.1456657730116175,
      "grad_norm": 15.259862899780273,
      "learning_rate": 4.950201005497179e-05,
      "loss": 0.5273,
      "num_input_tokens_seen": 12256512,
      "step": 21120
    },
    {
      "epoch": 3.1464104855525767,
      "grad_norm": 15.821266174316406,
      "learning_rate": 4.950136450926203e-05,
      "loss": 0.4016,
      "num_input_tokens_seen": 12259392,
      "step": 21125
    },
    {
      "epoch": 3.147155198093536,
      "grad_norm": 6.770576000213623,
      "learning_rate": 4.950071854962662e-05,
      "loss": 0.3098,
      "num_input_tokens_seen": 12262144,
      "step": 21130
    },
    {
      "epoch": 3.147899910634495,
      "grad_norm": 11.372781753540039,
      "learning_rate": 4.950007217607647e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 12265088,
      "step": 21135
    },
    {
      "epoch": 3.1486446231754543,
      "grad_norm": 8.116421699523926,
      "learning_rate": 4.949942538862251e-05,
      "loss": 0.309,
      "num_input_tokens_seen": 12267872,
      "step": 21140
    },
    {
      "epoch": 3.1493893357164136,
      "grad_norm": 12.37750244140625,
      "learning_rate": 4.949877818727565e-05,
      "loss": 0.3783,
      "num_input_tokens_seen": 12270528,
      "step": 21145
    },
    {
      "epoch": 3.1501340482573728,
      "grad_norm": 14.85726261138916,
      "learning_rate": 4.949813057204684e-05,
      "loss": 0.5151,
      "num_input_tokens_seen": 12273248,
      "step": 21150
    },
    {
      "epoch": 3.150878760798332,
      "grad_norm": 7.11042594909668,
      "learning_rate": 4.9497482542947004e-05,
      "loss": 0.321,
      "num_input_tokens_seen": 12276384,
      "step": 21155
    },
    {
      "epoch": 3.151623473339291,
      "grad_norm": 11.221620559692383,
      "learning_rate": 4.9496834099987106e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 12279328,
      "step": 21160
    },
    {
      "epoch": 3.1523681858802504,
      "grad_norm": 6.410987377166748,
      "learning_rate": 4.949618524317809e-05,
      "loss": 0.3918,
      "num_input_tokens_seen": 12282016,
      "step": 21165
    },
    {
      "epoch": 3.1531128984212096,
      "grad_norm": 1.119065284729004,
      "learning_rate": 4.9495535972530924e-05,
      "loss": 0.3975,
      "num_input_tokens_seen": 12284640,
      "step": 21170
    },
    {
      "epoch": 3.1538576109621688,
      "grad_norm": 42.58297348022461,
      "learning_rate": 4.949488628805657e-05,
      "loss": 0.53,
      "num_input_tokens_seen": 12287488,
      "step": 21175
    },
    {
      "epoch": 3.154602323503128,
      "grad_norm": 34.817962646484375,
      "learning_rate": 4.9494236189766005e-05,
      "loss": 0.571,
      "num_input_tokens_seen": 12290240,
      "step": 21180
    },
    {
      "epoch": 3.155347036044087,
      "grad_norm": 10.51545524597168,
      "learning_rate": 4.9493585677670216e-05,
      "loss": 0.2909,
      "num_input_tokens_seen": 12292992,
      "step": 21185
    },
    {
      "epoch": 3.1560917485850464,
      "grad_norm": 3.5826454162597656,
      "learning_rate": 4.94929347517802e-05,
      "loss": 0.2972,
      "num_input_tokens_seen": 12295680,
      "step": 21190
    },
    {
      "epoch": 3.156836461126005,
      "grad_norm": 9.113404273986816,
      "learning_rate": 4.9492283412106934e-05,
      "loss": 0.3121,
      "num_input_tokens_seen": 12298496,
      "step": 21195
    },
    {
      "epoch": 3.157581173666965,
      "grad_norm": 11.148797035217285,
      "learning_rate": 4.9491631658661436e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 12301280,
      "step": 21200
    },
    {
      "epoch": 3.1583258862079235,
      "grad_norm": 5.994777679443359,
      "learning_rate": 4.9490979491454716e-05,
      "loss": 0.5327,
      "num_input_tokens_seen": 12304096,
      "step": 21205
    },
    {
      "epoch": 3.1590705987488827,
      "grad_norm": 5.738295078277588,
      "learning_rate": 4.9490326910497786e-05,
      "loss": 0.3447,
      "num_input_tokens_seen": 12306880,
      "step": 21210
    },
    {
      "epoch": 3.159815311289842,
      "grad_norm": 2.104733467102051,
      "learning_rate": 4.948967391580167e-05,
      "loss": 0.191,
      "num_input_tokens_seen": 12309472,
      "step": 21215
    },
    {
      "epoch": 3.160560023830801,
      "grad_norm": 8.934063911437988,
      "learning_rate": 4.948902050737741e-05,
      "loss": 0.3431,
      "num_input_tokens_seen": 12312256,
      "step": 21220
    },
    {
      "epoch": 3.1613047363717603,
      "grad_norm": 14.110941886901855,
      "learning_rate": 4.948836668523604e-05,
      "loss": 0.3344,
      "num_input_tokens_seen": 12315296,
      "step": 21225
    },
    {
      "epoch": 3.1620494489127196,
      "grad_norm": 12.25118350982666,
      "learning_rate": 4.9487712449388604e-05,
      "loss": 0.6663,
      "num_input_tokens_seen": 12318048,
      "step": 21230
    },
    {
      "epoch": 3.1627941614536788,
      "grad_norm": 11.305992126464844,
      "learning_rate": 4.948705779984614e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 12320928,
      "step": 21235
    },
    {
      "epoch": 3.163538873994638,
      "grad_norm": 15.05681037902832,
      "learning_rate": 4.9486402736619736e-05,
      "loss": 0.3625,
      "num_input_tokens_seen": 12323904,
      "step": 21240
    },
    {
      "epoch": 3.164283586535597,
      "grad_norm": 23.384273529052734,
      "learning_rate": 4.9485747259720435e-05,
      "loss": 0.3138,
      "num_input_tokens_seen": 12326688,
      "step": 21245
    },
    {
      "epoch": 3.1650282990765564,
      "grad_norm": 1.0717499256134033,
      "learning_rate": 4.9485091369159334e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 12329504,
      "step": 21250
    },
    {
      "epoch": 3.1657730116175156,
      "grad_norm": 13.449484825134277,
      "learning_rate": 4.948443506494749e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 12332640,
      "step": 21255
    },
    {
      "epoch": 3.1665177241584748,
      "grad_norm": 17.955224990844727,
      "learning_rate": 4.9483778347096e-05,
      "loss": 0.3099,
      "num_input_tokens_seen": 12335648,
      "step": 21260
    },
    {
      "epoch": 3.167262436699434,
      "grad_norm": 7.386618137359619,
      "learning_rate": 4.948312121561596e-05,
      "loss": 0.3234,
      "num_input_tokens_seen": 12338560,
      "step": 21265
    },
    {
      "epoch": 3.168007149240393,
      "grad_norm": 12.234699249267578,
      "learning_rate": 4.9482463670518476e-05,
      "loss": 0.4238,
      "num_input_tokens_seen": 12341664,
      "step": 21270
    },
    {
      "epoch": 3.1687518617813524,
      "grad_norm": 9.806100845336914,
      "learning_rate": 4.9481805711814645e-05,
      "loss": 0.7241,
      "num_input_tokens_seen": 12344512,
      "step": 21275
    },
    {
      "epoch": 3.1694965743223116,
      "grad_norm": 5.0257062911987305,
      "learning_rate": 4.948114733951559e-05,
      "loss": 0.2625,
      "num_input_tokens_seen": 12347392,
      "step": 21280
    },
    {
      "epoch": 3.170241286863271,
      "grad_norm": 50.056278228759766,
      "learning_rate": 4.948048855363243e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 12350336,
      "step": 21285
    },
    {
      "epoch": 3.17098599940423,
      "grad_norm": 5.665783882141113,
      "learning_rate": 4.94798293541763e-05,
      "loss": 0.2345,
      "num_input_tokens_seen": 12353376,
      "step": 21290
    },
    {
      "epoch": 3.171730711945189,
      "grad_norm": 9.273857116699219,
      "learning_rate": 4.9479169741158336e-05,
      "loss": 0.4067,
      "num_input_tokens_seen": 12356064,
      "step": 21295
    },
    {
      "epoch": 3.1724754244861484,
      "grad_norm": 13.096515655517578,
      "learning_rate": 4.947850971458968e-05,
      "loss": 0.2776,
      "num_input_tokens_seen": 12358720,
      "step": 21300
    },
    {
      "epoch": 3.1732201370271076,
      "grad_norm": 16.08803367614746,
      "learning_rate": 4.947784927448147e-05,
      "loss": 0.2819,
      "num_input_tokens_seen": 12361824,
      "step": 21305
    },
    {
      "epoch": 3.173964849568067,
      "grad_norm": 27.212202072143555,
      "learning_rate": 4.9477188420844886e-05,
      "loss": 0.6123,
      "num_input_tokens_seen": 12364768,
      "step": 21310
    },
    {
      "epoch": 3.174709562109026,
      "grad_norm": 21.65516471862793,
      "learning_rate": 4.947652715369108e-05,
      "loss": 0.5409,
      "num_input_tokens_seen": 12367936,
      "step": 21315
    },
    {
      "epoch": 3.175454274649985,
      "grad_norm": 20.61063003540039,
      "learning_rate": 4.947586547303121e-05,
      "loss": 0.6591,
      "num_input_tokens_seen": 12370912,
      "step": 21320
    },
    {
      "epoch": 3.1761989871909444,
      "grad_norm": 10.613886833190918,
      "learning_rate": 4.947520337887649e-05,
      "loss": 0.4787,
      "num_input_tokens_seen": 12373696,
      "step": 21325
    },
    {
      "epoch": 3.1769436997319036,
      "grad_norm": 1.4483569860458374,
      "learning_rate": 4.947454087123807e-05,
      "loss": 0.264,
      "num_input_tokens_seen": 12376576,
      "step": 21330
    },
    {
      "epoch": 3.177688412272863,
      "grad_norm": 11.228193283081055,
      "learning_rate": 4.947387795012716e-05,
      "loss": 0.3469,
      "num_input_tokens_seen": 12379200,
      "step": 21335
    },
    {
      "epoch": 3.178433124813822,
      "grad_norm": 5.976727485656738,
      "learning_rate": 4.947321461555496e-05,
      "loss": 0.4961,
      "num_input_tokens_seen": 12382624,
      "step": 21340
    },
    {
      "epoch": 3.179177837354781,
      "grad_norm": 7.104020118713379,
      "learning_rate": 4.947255086753268e-05,
      "loss": 0.2766,
      "num_input_tokens_seen": 12385664,
      "step": 21345
    },
    {
      "epoch": 3.1799225498957404,
      "grad_norm": 22.0953426361084,
      "learning_rate": 4.9471886706071504e-05,
      "loss": 0.3596,
      "num_input_tokens_seen": 12388704,
      "step": 21350
    },
    {
      "epoch": 3.1806672624366996,
      "grad_norm": 5.528839111328125,
      "learning_rate": 4.9471222131182685e-05,
      "loss": 0.3741,
      "num_input_tokens_seen": 12391424,
      "step": 21355
    },
    {
      "epoch": 3.181411974977659,
      "grad_norm": 14.173701286315918,
      "learning_rate": 4.9470557142877446e-05,
      "loss": 0.3149,
      "num_input_tokens_seen": 12394432,
      "step": 21360
    },
    {
      "epoch": 3.182156687518618,
      "grad_norm": 8.039573669433594,
      "learning_rate": 4.946989174116701e-05,
      "loss": 0.3113,
      "num_input_tokens_seen": 12397632,
      "step": 21365
    },
    {
      "epoch": 3.182901400059577,
      "grad_norm": 16.889331817626953,
      "learning_rate": 4.9469225926062625e-05,
      "loss": 0.6108,
      "num_input_tokens_seen": 12400480,
      "step": 21370
    },
    {
      "epoch": 3.1836461126005364,
      "grad_norm": 22.382427215576172,
      "learning_rate": 4.946855969757553e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 12403200,
      "step": 21375
    },
    {
      "epoch": 3.184390825141495,
      "grad_norm": 11.13116455078125,
      "learning_rate": 4.9467893055716996e-05,
      "loss": 0.3768,
      "num_input_tokens_seen": 12406048,
      "step": 21380
    },
    {
      "epoch": 3.1851355376824544,
      "grad_norm": 47.53337478637695,
      "learning_rate": 4.946722600049827e-05,
      "loss": 0.2419,
      "num_input_tokens_seen": 12408800,
      "step": 21385
    },
    {
      "epoch": 3.1858802502234136,
      "grad_norm": 13.872969627380371,
      "learning_rate": 4.946655853193063e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 12411648,
      "step": 21390
    },
    {
      "epoch": 3.186624962764373,
      "grad_norm": 41.9637451171875,
      "learning_rate": 4.946589065002535e-05,
      "loss": 0.3491,
      "num_input_tokens_seen": 12414432,
      "step": 21395
    },
    {
      "epoch": 3.187369675305332,
      "grad_norm": 12.338541030883789,
      "learning_rate": 4.946522235479372e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 12417344,
      "step": 21400
    },
    {
      "epoch": 3.188114387846291,
      "grad_norm": 10.427315711975098,
      "learning_rate": 4.946455364624702e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 12420000,
      "step": 21405
    },
    {
      "epoch": 3.1888591003872504,
      "grad_norm": 5.907176971435547,
      "learning_rate": 4.9463884524396555e-05,
      "loss": 0.5173,
      "num_input_tokens_seen": 12422816,
      "step": 21410
    },
    {
      "epoch": 3.1896038129282096,
      "grad_norm": 3.8978829383850098,
      "learning_rate": 4.946321498925362e-05,
      "loss": 0.288,
      "num_input_tokens_seen": 12425632,
      "step": 21415
    },
    {
      "epoch": 3.190348525469169,
      "grad_norm": 5.784328937530518,
      "learning_rate": 4.946254504082952e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 12428192,
      "step": 21420
    },
    {
      "epoch": 3.191093238010128,
      "grad_norm": 8.000242233276367,
      "learning_rate": 4.94618746791356e-05,
      "loss": 0.3066,
      "num_input_tokens_seen": 12431296,
      "step": 21425
    },
    {
      "epoch": 3.191837950551087,
      "grad_norm": 4.801703453063965,
      "learning_rate": 4.946120390418316e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 12434080,
      "step": 21430
    },
    {
      "epoch": 3.1925826630920464,
      "grad_norm": 9.219905853271484,
      "learning_rate": 4.946053271598355e-05,
      "loss": 0.3504,
      "num_input_tokens_seen": 12437248,
      "step": 21435
    },
    {
      "epoch": 3.1933273756330056,
      "grad_norm": 10.312825202941895,
      "learning_rate": 4.94598611145481e-05,
      "loss": 0.277,
      "num_input_tokens_seen": 12440608,
      "step": 21440
    },
    {
      "epoch": 3.194072088173965,
      "grad_norm": 5.498767852783203,
      "learning_rate": 4.945918909988815e-05,
      "loss": 0.2688,
      "num_input_tokens_seen": 12443616,
      "step": 21445
    },
    {
      "epoch": 3.194816800714924,
      "grad_norm": 16.260602951049805,
      "learning_rate": 4.945851667201507e-05,
      "loss": 0.5796,
      "num_input_tokens_seen": 12446624,
      "step": 21450
    },
    {
      "epoch": 3.1955615132558832,
      "grad_norm": 32.53725051879883,
      "learning_rate": 4.945784383094019e-05,
      "loss": 0.5226,
      "num_input_tokens_seen": 12449216,
      "step": 21455
    },
    {
      "epoch": 3.1963062257968424,
      "grad_norm": 14.173635482788086,
      "learning_rate": 4.9457170576674914e-05,
      "loss": 0.3581,
      "num_input_tokens_seen": 12452416,
      "step": 21460
    },
    {
      "epoch": 3.1970509383378016,
      "grad_norm": 10.584502220153809,
      "learning_rate": 4.945649690923059e-05,
      "loss": 0.543,
      "num_input_tokens_seen": 12455712,
      "step": 21465
    },
    {
      "epoch": 3.197795650878761,
      "grad_norm": 5.0837225914001465,
      "learning_rate": 4.94558228286186e-05,
      "loss": 0.2661,
      "num_input_tokens_seen": 12458368,
      "step": 21470
    },
    {
      "epoch": 3.19854036341972,
      "grad_norm": 11.856766700744629,
      "learning_rate": 4.945514833485036e-05,
      "loss": 0.4364,
      "num_input_tokens_seen": 12461120,
      "step": 21475
    },
    {
      "epoch": 3.1992850759606792,
      "grad_norm": 8.594221115112305,
      "learning_rate": 4.9454473427937225e-05,
      "loss": 0.4355,
      "num_input_tokens_seen": 12464096,
      "step": 21480
    },
    {
      "epoch": 3.2000297885016384,
      "grad_norm": 15.959615707397461,
      "learning_rate": 4.9453798107890624e-05,
      "loss": 0.4781,
      "num_input_tokens_seen": 12466784,
      "step": 21485
    },
    {
      "epoch": 3.2007745010425976,
      "grad_norm": 8.492166519165039,
      "learning_rate": 4.945312237472196e-05,
      "loss": 0.5497,
      "num_input_tokens_seen": 12469632,
      "step": 21490
    },
    {
      "epoch": 3.201519213583557,
      "grad_norm": 23.752330780029297,
      "learning_rate": 4.945244622844264e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 12472800,
      "step": 21495
    },
    {
      "epoch": 3.202263926124516,
      "grad_norm": 3.0250885486602783,
      "learning_rate": 4.9451769669064096e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 12475584,
      "step": 21500
    },
    {
      "epoch": 3.2030086386654752,
      "grad_norm": 10.222759246826172,
      "learning_rate": 4.945109269659776e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 12478784,
      "step": 21505
    },
    {
      "epoch": 3.2037533512064345,
      "grad_norm": 8.18989086151123,
      "learning_rate": 4.945041531105505e-05,
      "loss": 0.2851,
      "num_input_tokens_seen": 12481664,
      "step": 21510
    },
    {
      "epoch": 3.2044980637473937,
      "grad_norm": 29.465410232543945,
      "learning_rate": 4.9449737512447435e-05,
      "loss": 0.4863,
      "num_input_tokens_seen": 12484384,
      "step": 21515
    },
    {
      "epoch": 3.205242776288353,
      "grad_norm": 13.615706443786621,
      "learning_rate": 4.9449059300786355e-05,
      "loss": 0.4815,
      "num_input_tokens_seen": 12487200,
      "step": 21520
    },
    {
      "epoch": 3.205987488829312,
      "grad_norm": 7.335880756378174,
      "learning_rate": 4.944838067608326e-05,
      "loss": 0.3912,
      "num_input_tokens_seen": 12490208,
      "step": 21525
    },
    {
      "epoch": 3.2067322013702713,
      "grad_norm": 5.930487632751465,
      "learning_rate": 4.944770163834963e-05,
      "loss": 0.1867,
      "num_input_tokens_seen": 12492896,
      "step": 21530
    },
    {
      "epoch": 3.2074769139112305,
      "grad_norm": 20.452293395996094,
      "learning_rate": 4.944702218759692e-05,
      "loss": 0.5335,
      "num_input_tokens_seen": 12495744,
      "step": 21535
    },
    {
      "epoch": 3.2082216264521897,
      "grad_norm": 7.064328193664551,
      "learning_rate": 4.944634232383662e-05,
      "loss": 0.2556,
      "num_input_tokens_seen": 12498592,
      "step": 21540
    },
    {
      "epoch": 3.2089663389931484,
      "grad_norm": 34.725303649902344,
      "learning_rate": 4.944566204708022e-05,
      "loss": 0.3629,
      "num_input_tokens_seen": 12501504,
      "step": 21545
    },
    {
      "epoch": 3.2097110515341076,
      "grad_norm": 18.869644165039062,
      "learning_rate": 4.94449813573392e-05,
      "loss": 0.638,
      "num_input_tokens_seen": 12504192,
      "step": 21550
    },
    {
      "epoch": 3.210455764075067,
      "grad_norm": 18.623760223388672,
      "learning_rate": 4.944430025462507e-05,
      "loss": 0.6477,
      "num_input_tokens_seen": 12507264,
      "step": 21555
    },
    {
      "epoch": 3.211200476616026,
      "grad_norm": 10.880738258361816,
      "learning_rate": 4.944361873894932e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 12510368,
      "step": 21560
    },
    {
      "epoch": 3.2119451891569852,
      "grad_norm": 8.764985084533691,
      "learning_rate": 4.944293681032348e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 12513280,
      "step": 21565
    },
    {
      "epoch": 3.2126899016979444,
      "grad_norm": 8.280247688293457,
      "learning_rate": 4.9442254468759065e-05,
      "loss": 0.3195,
      "num_input_tokens_seen": 12516384,
      "step": 21570
    },
    {
      "epoch": 3.2134346142389036,
      "grad_norm": 12.154973983764648,
      "learning_rate": 4.94415717142676e-05,
      "loss": 0.3093,
      "num_input_tokens_seen": 12520000,
      "step": 21575
    },
    {
      "epoch": 3.214179326779863,
      "grad_norm": 9.159917831420898,
      "learning_rate": 4.944088854686062e-05,
      "loss": 0.2705,
      "num_input_tokens_seen": 12522912,
      "step": 21580
    },
    {
      "epoch": 3.214924039320822,
      "grad_norm": 11.747649192810059,
      "learning_rate": 4.944020496654968e-05,
      "loss": 0.4941,
      "num_input_tokens_seen": 12525856,
      "step": 21585
    },
    {
      "epoch": 3.2156687518617812,
      "grad_norm": 7.344071865081787,
      "learning_rate": 4.943952097334631e-05,
      "loss": 0.2554,
      "num_input_tokens_seen": 12528672,
      "step": 21590
    },
    {
      "epoch": 3.2164134644027405,
      "grad_norm": 17.597484588623047,
      "learning_rate": 4.943883656726207e-05,
      "loss": 0.5962,
      "num_input_tokens_seen": 12531456,
      "step": 21595
    },
    {
      "epoch": 3.2171581769436997,
      "grad_norm": 10.842569351196289,
      "learning_rate": 4.943815174830853e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 12534368,
      "step": 21600
    },
    {
      "epoch": 3.217902889484659,
      "grad_norm": 15.180093765258789,
      "learning_rate": 4.9437466516497255e-05,
      "loss": 0.3837,
      "num_input_tokens_seen": 12537184,
      "step": 21605
    },
    {
      "epoch": 3.218647602025618,
      "grad_norm": 7.637570858001709,
      "learning_rate": 4.943678087183982e-05,
      "loss": 0.3544,
      "num_input_tokens_seen": 12540192,
      "step": 21610
    },
    {
      "epoch": 3.2193923145665773,
      "grad_norm": 11.598530769348145,
      "learning_rate": 4.94360948143478e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 12543136,
      "step": 21615
    },
    {
      "epoch": 3.2201370271075365,
      "grad_norm": 12.542200088500977,
      "learning_rate": 4.94354083440328e-05,
      "loss": 0.687,
      "num_input_tokens_seen": 12546560,
      "step": 21620
    },
    {
      "epoch": 3.2208817396484957,
      "grad_norm": 5.715867519378662,
      "learning_rate": 4.9434721460906406e-05,
      "loss": 0.3184,
      "num_input_tokens_seen": 12549600,
      "step": 21625
    },
    {
      "epoch": 3.221626452189455,
      "grad_norm": 4.816837310791016,
      "learning_rate": 4.9434034164980233e-05,
      "loss": 0.3597,
      "num_input_tokens_seen": 12552640,
      "step": 21630
    },
    {
      "epoch": 3.222371164730414,
      "grad_norm": 5.155618667602539,
      "learning_rate": 4.94333464562659e-05,
      "loss": 0.4691,
      "num_input_tokens_seen": 12555680,
      "step": 21635
    },
    {
      "epoch": 3.2231158772713733,
      "grad_norm": 10.858663558959961,
      "learning_rate": 4.9432658334774984e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 12558464,
      "step": 21640
    },
    {
      "epoch": 3.2238605898123325,
      "grad_norm": 7.6570024490356445,
      "learning_rate": 4.943196980051915e-05,
      "loss": 0.5467,
      "num_input_tokens_seen": 12561440,
      "step": 21645
    },
    {
      "epoch": 3.2246053023532917,
      "grad_norm": 5.337635517120361,
      "learning_rate": 4.943128085351002e-05,
      "loss": 0.439,
      "num_input_tokens_seen": 12564608,
      "step": 21650
    },
    {
      "epoch": 3.225350014894251,
      "grad_norm": 5.197320938110352,
      "learning_rate": 4.943059149375923e-05,
      "loss": 0.4201,
      "num_input_tokens_seen": 12567232,
      "step": 21655
    },
    {
      "epoch": 3.22609472743521,
      "grad_norm": 4.954155445098877,
      "learning_rate": 4.9429901721278426e-05,
      "loss": 0.2256,
      "num_input_tokens_seen": 12570144,
      "step": 21660
    },
    {
      "epoch": 3.2268394399761693,
      "grad_norm": 1.8175721168518066,
      "learning_rate": 4.9429211536079266e-05,
      "loss": 0.2808,
      "num_input_tokens_seen": 12573024,
      "step": 21665
    },
    {
      "epoch": 3.2275841525171285,
      "grad_norm": 14.851663589477539,
      "learning_rate": 4.94285209381734e-05,
      "loss": 0.3228,
      "num_input_tokens_seen": 12575968,
      "step": 21670
    },
    {
      "epoch": 3.2283288650580877,
      "grad_norm": 9.79238224029541,
      "learning_rate": 4.94278299275725e-05,
      "loss": 0.3313,
      "num_input_tokens_seen": 12578944,
      "step": 21675
    },
    {
      "epoch": 3.229073577599047,
      "grad_norm": 42.61682891845703,
      "learning_rate": 4.9427138504288245e-05,
      "loss": 0.6512,
      "num_input_tokens_seen": 12581696,
      "step": 21680
    },
    {
      "epoch": 3.229818290140006,
      "grad_norm": 7.560873031616211,
      "learning_rate": 4.942644666833231e-05,
      "loss": 0.2825,
      "num_input_tokens_seen": 12584320,
      "step": 21685
    },
    {
      "epoch": 3.2305630026809653,
      "grad_norm": 9.7629976272583,
      "learning_rate": 4.9425754419716383e-05,
      "loss": 0.2792,
      "num_input_tokens_seen": 12587296,
      "step": 21690
    },
    {
      "epoch": 3.2313077152219245,
      "grad_norm": 13.800626754760742,
      "learning_rate": 4.942506175845216e-05,
      "loss": 0.2816,
      "num_input_tokens_seen": 12590304,
      "step": 21695
    },
    {
      "epoch": 3.2320524277628837,
      "grad_norm": 2.7574148178100586,
      "learning_rate": 4.9424368684551347e-05,
      "loss": 0.3178,
      "num_input_tokens_seen": 12593120,
      "step": 21700
    },
    {
      "epoch": 3.232797140303843,
      "grad_norm": 3.4640486240386963,
      "learning_rate": 4.942367519802565e-05,
      "loss": 0.6246,
      "num_input_tokens_seen": 12595776,
      "step": 21705
    },
    {
      "epoch": 3.233541852844802,
      "grad_norm": 19.968454360961914,
      "learning_rate": 4.9422981298886776e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 12598432,
      "step": 21710
    },
    {
      "epoch": 3.2342865653857613,
      "grad_norm": 50.352848052978516,
      "learning_rate": 4.942228698714646e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 12601184,
      "step": 21715
    },
    {
      "epoch": 3.23503127792672,
      "grad_norm": 14.427522659301758,
      "learning_rate": 4.942159226281643e-05,
      "loss": 0.254,
      "num_input_tokens_seen": 12604320,
      "step": 21720
    },
    {
      "epoch": 3.2357759904676793,
      "grad_norm": 21.67992401123047,
      "learning_rate": 4.942089712590842e-05,
      "loss": 0.3399,
      "num_input_tokens_seen": 12607424,
      "step": 21725
    },
    {
      "epoch": 3.2365207030086385,
      "grad_norm": 8.361174583435059,
      "learning_rate": 4.9420201576434165e-05,
      "loss": 0.6418,
      "num_input_tokens_seen": 12610240,
      "step": 21730
    },
    {
      "epoch": 3.2372654155495977,
      "grad_norm": 20.310453414916992,
      "learning_rate": 4.941950561440543e-05,
      "loss": 0.4259,
      "num_input_tokens_seen": 12613280,
      "step": 21735
    },
    {
      "epoch": 3.238010128090557,
      "grad_norm": 10.269209861755371,
      "learning_rate": 4.9418809239833964e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 12616032,
      "step": 21740
    },
    {
      "epoch": 3.238754840631516,
      "grad_norm": 8.592174530029297,
      "learning_rate": 4.9418112452731534e-05,
      "loss": 0.5286,
      "num_input_tokens_seen": 12618880,
      "step": 21745
    },
    {
      "epoch": 3.2394995531724753,
      "grad_norm": 4.721556186676025,
      "learning_rate": 4.941741525310991e-05,
      "loss": 0.5637,
      "num_input_tokens_seen": 12621632,
      "step": 21750
    },
    {
      "epoch": 3.2402442657134345,
      "grad_norm": 5.202563285827637,
      "learning_rate": 4.9416717640980884e-05,
      "loss": 0.3066,
      "num_input_tokens_seen": 12624320,
      "step": 21755
    },
    {
      "epoch": 3.2409889782543937,
      "grad_norm": 2.3221569061279297,
      "learning_rate": 4.941601961635621e-05,
      "loss": 0.1668,
      "num_input_tokens_seen": 12627072,
      "step": 21760
    },
    {
      "epoch": 3.241733690795353,
      "grad_norm": 11.228814125061035,
      "learning_rate": 4.941532117924772e-05,
      "loss": 0.1741,
      "num_input_tokens_seen": 12630016,
      "step": 21765
    },
    {
      "epoch": 3.242478403336312,
      "grad_norm": 3.362473964691162,
      "learning_rate": 4.941462232966718e-05,
      "loss": 0.2421,
      "num_input_tokens_seen": 12632992,
      "step": 21770
    },
    {
      "epoch": 3.2432231158772713,
      "grad_norm": 14.161752700805664,
      "learning_rate": 4.9413923067626413e-05,
      "loss": 0.7049,
      "num_input_tokens_seen": 12635680,
      "step": 21775
    },
    {
      "epoch": 3.2439678284182305,
      "grad_norm": 8.209879875183105,
      "learning_rate": 4.941322339313723e-05,
      "loss": 0.4794,
      "num_input_tokens_seen": 12638624,
      "step": 21780
    },
    {
      "epoch": 3.2447125409591897,
      "grad_norm": 6.38856840133667,
      "learning_rate": 4.941252330621145e-05,
      "loss": 0.4034,
      "num_input_tokens_seen": 12641568,
      "step": 21785
    },
    {
      "epoch": 3.245457253500149,
      "grad_norm": 19.303030014038086,
      "learning_rate": 4.94118228068609e-05,
      "loss": 0.4493,
      "num_input_tokens_seen": 12644320,
      "step": 21790
    },
    {
      "epoch": 3.246201966041108,
      "grad_norm": 10.256717681884766,
      "learning_rate": 4.9411121895097414e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 12647168,
      "step": 21795
    },
    {
      "epoch": 3.2469466785820673,
      "grad_norm": 15.32499885559082,
      "learning_rate": 4.941042057093284e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 12650208,
      "step": 21800
    },
    {
      "epoch": 3.2476913911230265,
      "grad_norm": 8.82659912109375,
      "learning_rate": 4.940971883437901e-05,
      "loss": 0.51,
      "num_input_tokens_seen": 12653248,
      "step": 21805
    },
    {
      "epoch": 3.2484361036639857,
      "grad_norm": 7.742221355438232,
      "learning_rate": 4.94090166854478e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 12656096,
      "step": 21810
    },
    {
      "epoch": 3.249180816204945,
      "grad_norm": 1.7762305736541748,
      "learning_rate": 4.940831412415105e-05,
      "loss": 0.3177,
      "num_input_tokens_seen": 12658944,
      "step": 21815
    },
    {
      "epoch": 3.249925528745904,
      "grad_norm": 12.0342435836792,
      "learning_rate": 4.9407611150500646e-05,
      "loss": 0.3332,
      "num_input_tokens_seen": 12661728,
      "step": 21820
    },
    {
      "epoch": 3.2506702412868633,
      "grad_norm": 12.42303466796875,
      "learning_rate": 4.940690776450846e-05,
      "loss": 0.6051,
      "num_input_tokens_seen": 12664800,
      "step": 21825
    },
    {
      "epoch": 3.2514149538278225,
      "grad_norm": 23.494037628173828,
      "learning_rate": 4.940620396618637e-05,
      "loss": 0.5373,
      "num_input_tokens_seen": 12667776,
      "step": 21830
    },
    {
      "epoch": 3.2521596663687817,
      "grad_norm": 5.920435428619385,
      "learning_rate": 4.940549975554627e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 12670656,
      "step": 21835
    },
    {
      "epoch": 3.252904378909741,
      "grad_norm": 16.767356872558594,
      "learning_rate": 4.940479513260006e-05,
      "loss": 0.233,
      "num_input_tokens_seen": 12673664,
      "step": 21840
    },
    {
      "epoch": 3.2536490914507,
      "grad_norm": 0.5913555026054382,
      "learning_rate": 4.940409009735964e-05,
      "loss": 0.5828,
      "num_input_tokens_seen": 12676480,
      "step": 21845
    },
    {
      "epoch": 3.2543938039916593,
      "grad_norm": 7.2355828285217285,
      "learning_rate": 4.940338464983691e-05,
      "loss": 0.3213,
      "num_input_tokens_seen": 12679488,
      "step": 21850
    },
    {
      "epoch": 3.2551385165326185,
      "grad_norm": 12.320810317993164,
      "learning_rate": 4.940267879004381e-05,
      "loss": 0.2738,
      "num_input_tokens_seen": 12682432,
      "step": 21855
    },
    {
      "epoch": 3.2558832290735777,
      "grad_norm": 1.163164496421814,
      "learning_rate": 4.9401972517992254e-05,
      "loss": 0.2343,
      "num_input_tokens_seen": 12685152,
      "step": 21860
    },
    {
      "epoch": 3.256627941614537,
      "grad_norm": 4.227835178375244,
      "learning_rate": 4.9401265833694166e-05,
      "loss": 0.3903,
      "num_input_tokens_seen": 12688224,
      "step": 21865
    },
    {
      "epoch": 3.257372654155496,
      "grad_norm": 2.2328379154205322,
      "learning_rate": 4.940055873716149e-05,
      "loss": 0.2385,
      "num_input_tokens_seen": 12690944,
      "step": 21870
    },
    {
      "epoch": 3.2581173666964554,
      "grad_norm": 5.880103588104248,
      "learning_rate": 4.939985122840619e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 12693888,
      "step": 21875
    },
    {
      "epoch": 3.2588620792374146,
      "grad_norm": 13.43565845489502,
      "learning_rate": 4.939914330744019e-05,
      "loss": 0.4676,
      "num_input_tokens_seen": 12697056,
      "step": 21880
    },
    {
      "epoch": 3.2596067917783733,
      "grad_norm": 15.401479721069336,
      "learning_rate": 4.939843497427547e-05,
      "loss": 0.4003,
      "num_input_tokens_seen": 12700000,
      "step": 21885
    },
    {
      "epoch": 3.260351504319333,
      "grad_norm": 10.889459609985352,
      "learning_rate": 4.939772622892398e-05,
      "loss": 0.5179,
      "num_input_tokens_seen": 12702816,
      "step": 21890
    },
    {
      "epoch": 3.2610962168602917,
      "grad_norm": 5.941044807434082,
      "learning_rate": 4.93970170713977e-05,
      "loss": 0.341,
      "num_input_tokens_seen": 12705408,
      "step": 21895
    },
    {
      "epoch": 3.2618409294012514,
      "grad_norm": 16.859689712524414,
      "learning_rate": 4.9396307501708625e-05,
      "loss": 0.5274,
      "num_input_tokens_seen": 12708512,
      "step": 21900
    },
    {
      "epoch": 3.26258564194221,
      "grad_norm": 4.603341579437256,
      "learning_rate": 4.939559751986872e-05,
      "loss": 0.338,
      "num_input_tokens_seen": 12711200,
      "step": 21905
    },
    {
      "epoch": 3.2633303544831693,
      "grad_norm": 6.113570690155029,
      "learning_rate": 4.939488712588999e-05,
      "loss": 0.2882,
      "num_input_tokens_seen": 12714432,
      "step": 21910
    },
    {
      "epoch": 3.2640750670241285,
      "grad_norm": 14.06167984008789,
      "learning_rate": 4.939417631978444e-05,
      "loss": 0.4978,
      "num_input_tokens_seen": 12717120,
      "step": 21915
    },
    {
      "epoch": 3.2648197795650877,
      "grad_norm": 5.901795387268066,
      "learning_rate": 4.939346510156407e-05,
      "loss": 0.237,
      "num_input_tokens_seen": 12720384,
      "step": 21920
    },
    {
      "epoch": 3.265564492106047,
      "grad_norm": 23.2623291015625,
      "learning_rate": 4.93927534712409e-05,
      "loss": 0.4165,
      "num_input_tokens_seen": 12723552,
      "step": 21925
    },
    {
      "epoch": 3.266309204647006,
      "grad_norm": 25.190235137939453,
      "learning_rate": 4.939204142882696e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 12726336,
      "step": 21930
    },
    {
      "epoch": 3.2670539171879653,
      "grad_norm": 9.57072925567627,
      "learning_rate": 4.939132897433426e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 12729376,
      "step": 21935
    },
    {
      "epoch": 3.2677986297289245,
      "grad_norm": 3.7703418731689453,
      "learning_rate": 4.939061610777486e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 12732224,
      "step": 21940
    },
    {
      "epoch": 3.2685433422698837,
      "grad_norm": 7.747968673706055,
      "learning_rate": 4.938990282916078e-05,
      "loss": 0.2991,
      "num_input_tokens_seen": 12735040,
      "step": 21945
    },
    {
      "epoch": 3.269288054810843,
      "grad_norm": 34.76953125,
      "learning_rate": 4.938918913850408e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 12738240,
      "step": 21950
    },
    {
      "epoch": 3.270032767351802,
      "grad_norm": 15.380619049072266,
      "learning_rate": 4.938847503581682e-05,
      "loss": 0.4069,
      "num_input_tokens_seen": 12741024,
      "step": 21955
    },
    {
      "epoch": 3.2707774798927614,
      "grad_norm": 61.56132888793945,
      "learning_rate": 4.938776052111106e-05,
      "loss": 0.4286,
      "num_input_tokens_seen": 12743744,
      "step": 21960
    },
    {
      "epoch": 3.2715221924337206,
      "grad_norm": 15.837738037109375,
      "learning_rate": 4.9387045594398875e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 12746400,
      "step": 21965
    },
    {
      "epoch": 3.2722669049746798,
      "grad_norm": 10.763672828674316,
      "learning_rate": 4.9386330255692346e-05,
      "loss": 0.2869,
      "num_input_tokens_seen": 12749216,
      "step": 21970
    },
    {
      "epoch": 3.273011617515639,
      "grad_norm": 0.4305524230003357,
      "learning_rate": 4.938561450500354e-05,
      "loss": 0.501,
      "num_input_tokens_seen": 12751968,
      "step": 21975
    },
    {
      "epoch": 3.273756330056598,
      "grad_norm": 16.506067276000977,
      "learning_rate": 4.938489834234457e-05,
      "loss": 0.5087,
      "num_input_tokens_seen": 12754944,
      "step": 21980
    },
    {
      "epoch": 3.2745010425975574,
      "grad_norm": 29.825130462646484,
      "learning_rate": 4.9384181767727524e-05,
      "loss": 0.5129,
      "num_input_tokens_seen": 12757856,
      "step": 21985
    },
    {
      "epoch": 3.2752457551385166,
      "grad_norm": 7.653581619262695,
      "learning_rate": 4.9383464781164515e-05,
      "loss": 0.4483,
      "num_input_tokens_seen": 12760896,
      "step": 21990
    },
    {
      "epoch": 3.2759904676794758,
      "grad_norm": 11.938420295715332,
      "learning_rate": 4.938274738266764e-05,
      "loss": 0.4529,
      "num_input_tokens_seen": 12763648,
      "step": 21995
    },
    {
      "epoch": 3.276735180220435,
      "grad_norm": 5.112967014312744,
      "learning_rate": 4.938202957224903e-05,
      "loss": 0.415,
      "num_input_tokens_seen": 12766496,
      "step": 22000
    },
    {
      "epoch": 3.277479892761394,
      "grad_norm": 10.500290870666504,
      "learning_rate": 4.938131134992082e-05,
      "loss": 0.3093,
      "num_input_tokens_seen": 12769216,
      "step": 22005
    },
    {
      "epoch": 3.2782246053023534,
      "grad_norm": 6.008083820343018,
      "learning_rate": 4.938059271569513e-05,
      "loss": 0.2859,
      "num_input_tokens_seen": 12772288,
      "step": 22010
    },
    {
      "epoch": 3.2789693178433126,
      "grad_norm": 0.7395082116127014,
      "learning_rate": 4.937987366958411e-05,
      "loss": 0.3924,
      "num_input_tokens_seen": 12775168,
      "step": 22015
    },
    {
      "epoch": 3.279714030384272,
      "grad_norm": 13.134450912475586,
      "learning_rate": 4.93791542115999e-05,
      "loss": 0.5261,
      "num_input_tokens_seen": 12777952,
      "step": 22020
    },
    {
      "epoch": 3.280458742925231,
      "grad_norm": 8.817272186279297,
      "learning_rate": 4.937843434175466e-05,
      "loss": 0.5599,
      "num_input_tokens_seen": 12780704,
      "step": 22025
    },
    {
      "epoch": 3.28120345546619,
      "grad_norm": 23.638917922973633,
      "learning_rate": 4.937771406006054e-05,
      "loss": 0.3768,
      "num_input_tokens_seen": 12783712,
      "step": 22030
    },
    {
      "epoch": 3.2819481680071494,
      "grad_norm": 13.462647438049316,
      "learning_rate": 4.937699336652973e-05,
      "loss": 0.6543,
      "num_input_tokens_seen": 12786592,
      "step": 22035
    },
    {
      "epoch": 3.2826928805481086,
      "grad_norm": 10.102825164794922,
      "learning_rate": 4.937627226117438e-05,
      "loss": 0.5032,
      "num_input_tokens_seen": 12789344,
      "step": 22040
    },
    {
      "epoch": 3.283437593089068,
      "grad_norm": 5.577393054962158,
      "learning_rate": 4.9375550744006695e-05,
      "loss": 0.3729,
      "num_input_tokens_seen": 12791872,
      "step": 22045
    },
    {
      "epoch": 3.284182305630027,
      "grad_norm": 6.700206279754639,
      "learning_rate": 4.9374828815038856e-05,
      "loss": 0.4026,
      "num_input_tokens_seen": 12794752,
      "step": 22050
    },
    {
      "epoch": 3.284927018170986,
      "grad_norm": 8.55911636352539,
      "learning_rate": 4.937410647428304e-05,
      "loss": 0.4079,
      "num_input_tokens_seen": 12797600,
      "step": 22055
    },
    {
      "epoch": 3.285671730711945,
      "grad_norm": 10.365195274353027,
      "learning_rate": 4.9373383721751486e-05,
      "loss": 0.5091,
      "num_input_tokens_seen": 12800640,
      "step": 22060
    },
    {
      "epoch": 3.2864164432529046,
      "grad_norm": 27.76365089416504,
      "learning_rate": 4.9372660557456384e-05,
      "loss": 0.63,
      "num_input_tokens_seen": 12803648,
      "step": 22065
    },
    {
      "epoch": 3.2871611557938634,
      "grad_norm": 17.286346435546875,
      "learning_rate": 4.937193698140995e-05,
      "loss": 0.5667,
      "num_input_tokens_seen": 12806336,
      "step": 22070
    },
    {
      "epoch": 3.2879058683348226,
      "grad_norm": 6.861467361450195,
      "learning_rate": 4.9371212993624405e-05,
      "loss": 0.2075,
      "num_input_tokens_seen": 12809088,
      "step": 22075
    },
    {
      "epoch": 3.2886505808757818,
      "grad_norm": 8.431666374206543,
      "learning_rate": 4.9370488594112e-05,
      "loss": 0.3931,
      "num_input_tokens_seen": 12811936,
      "step": 22080
    },
    {
      "epoch": 3.289395293416741,
      "grad_norm": 0.8519433736801147,
      "learning_rate": 4.936976378288495e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 12814944,
      "step": 22085
    },
    {
      "epoch": 3.2901400059577,
      "grad_norm": 25.58559799194336,
      "learning_rate": 4.93690385599555e-05,
      "loss": 0.6363,
      "num_input_tokens_seen": 12817952,
      "step": 22090
    },
    {
      "epoch": 3.2908847184986594,
      "grad_norm": 2.382310152053833,
      "learning_rate": 4.9368312925335925e-05,
      "loss": 0.4201,
      "num_input_tokens_seen": 12820928,
      "step": 22095
    },
    {
      "epoch": 3.2916294310396186,
      "grad_norm": 17.612213134765625,
      "learning_rate": 4.9367586879038466e-05,
      "loss": 0.561,
      "num_input_tokens_seen": 12824000,
      "step": 22100
    },
    {
      "epoch": 3.292374143580578,
      "grad_norm": 4.812358379364014,
      "learning_rate": 4.93668604210754e-05,
      "loss": 0.5688,
      "num_input_tokens_seen": 12827136,
      "step": 22105
    },
    {
      "epoch": 3.293118856121537,
      "grad_norm": 12.096476554870605,
      "learning_rate": 4.936613355145898e-05,
      "loss": 0.4477,
      "num_input_tokens_seen": 12830048,
      "step": 22110
    },
    {
      "epoch": 3.293863568662496,
      "grad_norm": 15.182096481323242,
      "learning_rate": 4.936540627020151e-05,
      "loss": 0.5357,
      "num_input_tokens_seen": 12832800,
      "step": 22115
    },
    {
      "epoch": 3.2946082812034554,
      "grad_norm": 13.885580062866211,
      "learning_rate": 4.936467857731526e-05,
      "loss": 0.5955,
      "num_input_tokens_seen": 12835616,
      "step": 22120
    },
    {
      "epoch": 3.2953529937444146,
      "grad_norm": 16.516998291015625,
      "learning_rate": 4.9363950472812524e-05,
      "loss": 0.3262,
      "num_input_tokens_seen": 12838368,
      "step": 22125
    },
    {
      "epoch": 3.296097706285374,
      "grad_norm": 11.327277183532715,
      "learning_rate": 4.936322195670561e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 12841248,
      "step": 22130
    },
    {
      "epoch": 3.296842418826333,
      "grad_norm": 11.391271591186523,
      "learning_rate": 4.936249302900682e-05,
      "loss": 0.3067,
      "num_input_tokens_seen": 12844192,
      "step": 22135
    },
    {
      "epoch": 3.297587131367292,
      "grad_norm": 5.667418479919434,
      "learning_rate": 4.936176368972848e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 12847232,
      "step": 22140
    },
    {
      "epoch": 3.2983318439082514,
      "grad_norm": 14.650445938110352,
      "learning_rate": 4.93610339388829e-05,
      "loss": 0.3227,
      "num_input_tokens_seen": 12850016,
      "step": 22145
    },
    {
      "epoch": 3.2990765564492106,
      "grad_norm": 8.056112289428711,
      "learning_rate": 4.936030377648241e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 12852928,
      "step": 22150
    },
    {
      "epoch": 3.29982126899017,
      "grad_norm": 23.247390747070312,
      "learning_rate": 4.935957320253934e-05,
      "loss": 0.4668,
      "num_input_tokens_seen": 12855648,
      "step": 22155
    },
    {
      "epoch": 3.300565981531129,
      "grad_norm": 13.173667907714844,
      "learning_rate": 4.9358842217066044e-05,
      "loss": 0.3755,
      "num_input_tokens_seen": 12858432,
      "step": 22160
    },
    {
      "epoch": 3.301310694072088,
      "grad_norm": 7.467709541320801,
      "learning_rate": 4.935811082007487e-05,
      "loss": 0.3454,
      "num_input_tokens_seen": 12861344,
      "step": 22165
    },
    {
      "epoch": 3.3020554066130474,
      "grad_norm": 6.779305458068848,
      "learning_rate": 4.935737901157816e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 12864064,
      "step": 22170
    },
    {
      "epoch": 3.3028001191540066,
      "grad_norm": 3.2536439895629883,
      "learning_rate": 4.935664679158829e-05,
      "loss": 0.2213,
      "num_input_tokens_seen": 12866944,
      "step": 22175
    },
    {
      "epoch": 3.303544831694966,
      "grad_norm": 18.18783950805664,
      "learning_rate": 4.935591416011763e-05,
      "loss": 0.3243,
      "num_input_tokens_seen": 12869856,
      "step": 22180
    },
    {
      "epoch": 3.304289544235925,
      "grad_norm": 23.94475555419922,
      "learning_rate": 4.9355181117178564e-05,
      "loss": 0.6059,
      "num_input_tokens_seen": 12872896,
      "step": 22185
    },
    {
      "epoch": 3.3050342567768842,
      "grad_norm": 8.229050636291504,
      "learning_rate": 4.935444766278345e-05,
      "loss": 0.6294,
      "num_input_tokens_seen": 12875744,
      "step": 22190
    },
    {
      "epoch": 3.3057789693178434,
      "grad_norm": 35.16935729980469,
      "learning_rate": 4.93537137969447e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 12878912,
      "step": 22195
    },
    {
      "epoch": 3.3065236818588026,
      "grad_norm": 16.293895721435547,
      "learning_rate": 4.935297951967471e-05,
      "loss": 0.3192,
      "num_input_tokens_seen": 12881984,
      "step": 22200
    },
    {
      "epoch": 3.307268394399762,
      "grad_norm": 14.702661514282227,
      "learning_rate": 4.9352244830985886e-05,
      "loss": 0.6632,
      "num_input_tokens_seen": 12884928,
      "step": 22205
    },
    {
      "epoch": 3.308013106940721,
      "grad_norm": 8.614151954650879,
      "learning_rate": 4.935150973089063e-05,
      "loss": 0.2612,
      "num_input_tokens_seen": 12888032,
      "step": 22210
    },
    {
      "epoch": 3.3087578194816802,
      "grad_norm": 3.5669524669647217,
      "learning_rate": 4.935077421940137e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 12891104,
      "step": 22215
    },
    {
      "epoch": 3.3095025320226394,
      "grad_norm": 16.578716278076172,
      "learning_rate": 4.935003829653053e-05,
      "loss": 0.2782,
      "num_input_tokens_seen": 12893952,
      "step": 22220
    },
    {
      "epoch": 3.310247244563598,
      "grad_norm": 27.54251480102539,
      "learning_rate": 4.934930196229054e-05,
      "loss": 0.6969,
      "num_input_tokens_seen": 12896800,
      "step": 22225
    },
    {
      "epoch": 3.310991957104558,
      "grad_norm": 12.366387367248535,
      "learning_rate": 4.9348565216693845e-05,
      "loss": 0.3061,
      "num_input_tokens_seen": 12899744,
      "step": 22230
    },
    {
      "epoch": 3.3117366696455166,
      "grad_norm": 7.392885684967041,
      "learning_rate": 4.9347828059752874e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 12902624,
      "step": 22235
    },
    {
      "epoch": 3.3124813821864763,
      "grad_norm": 19.43541717529297,
      "learning_rate": 4.934709049148011e-05,
      "loss": 0.312,
      "num_input_tokens_seen": 12905504,
      "step": 22240
    },
    {
      "epoch": 3.313226094727435,
      "grad_norm": 13.32130241394043,
      "learning_rate": 4.934635251188799e-05,
      "loss": 0.5824,
      "num_input_tokens_seen": 12908512,
      "step": 22245
    },
    {
      "epoch": 3.313970807268394,
      "grad_norm": 10.40727424621582,
      "learning_rate": 4.934561412098899e-05,
      "loss": 0.3237,
      "num_input_tokens_seen": 12911360,
      "step": 22250
    },
    {
      "epoch": 3.3147155198093534,
      "grad_norm": 7.768757343292236,
      "learning_rate": 4.934487531879558e-05,
      "loss": 0.5053,
      "num_input_tokens_seen": 12914560,
      "step": 22255
    },
    {
      "epoch": 3.3154602323503126,
      "grad_norm": 10.35142707824707,
      "learning_rate": 4.934413610532025e-05,
      "loss": 0.3649,
      "num_input_tokens_seen": 12917280,
      "step": 22260
    },
    {
      "epoch": 3.316204944891272,
      "grad_norm": 14.094085693359375,
      "learning_rate": 4.9343396480575474e-05,
      "loss": 0.5396,
      "num_input_tokens_seen": 12920064,
      "step": 22265
    },
    {
      "epoch": 3.316949657432231,
      "grad_norm": 20.592315673828125,
      "learning_rate": 4.9342656444573764e-05,
      "loss": 0.4405,
      "num_input_tokens_seen": 12923232,
      "step": 22270
    },
    {
      "epoch": 3.3176943699731902,
      "grad_norm": 12.471196174621582,
      "learning_rate": 4.934191599732762e-05,
      "loss": 0.1674,
      "num_input_tokens_seen": 12925792,
      "step": 22275
    },
    {
      "epoch": 3.3184390825141494,
      "grad_norm": 0.36956706643104553,
      "learning_rate": 4.934117513884953e-05,
      "loss": 0.2205,
      "num_input_tokens_seen": 12928736,
      "step": 22280
    },
    {
      "epoch": 3.3191837950551086,
      "grad_norm": 6.372047424316406,
      "learning_rate": 4.934043386915203e-05,
      "loss": 0.3319,
      "num_input_tokens_seen": 12931712,
      "step": 22285
    },
    {
      "epoch": 3.319928507596068,
      "grad_norm": 15.88967227935791,
      "learning_rate": 4.933969218824764e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 12934912,
      "step": 22290
    },
    {
      "epoch": 3.320673220137027,
      "grad_norm": 18.71059799194336,
      "learning_rate": 4.933895009614889e-05,
      "loss": 0.3431,
      "num_input_tokens_seen": 12937664,
      "step": 22295
    },
    {
      "epoch": 3.3214179326779862,
      "grad_norm": 4.150996208190918,
      "learning_rate": 4.933820759286831e-05,
      "loss": 0.3956,
      "num_input_tokens_seen": 12940288,
      "step": 22300
    },
    {
      "epoch": 3.3221626452189454,
      "grad_norm": 5.965851783752441,
      "learning_rate": 4.933746467841846e-05,
      "loss": 0.3955,
      "num_input_tokens_seen": 12942880,
      "step": 22305
    },
    {
      "epoch": 3.3229073577599046,
      "grad_norm": 12.226640701293945,
      "learning_rate": 4.9336721352811864e-05,
      "loss": 0.5014,
      "num_input_tokens_seen": 12945888,
      "step": 22310
    },
    {
      "epoch": 3.323652070300864,
      "grad_norm": 8.380941390991211,
      "learning_rate": 4.933597761606111e-05,
      "loss": 0.5909,
      "num_input_tokens_seen": 12948736,
      "step": 22315
    },
    {
      "epoch": 3.324396782841823,
      "grad_norm": 15.533016204833984,
      "learning_rate": 4.9335233468178744e-05,
      "loss": 0.479,
      "num_input_tokens_seen": 12951488,
      "step": 22320
    },
    {
      "epoch": 3.3251414953827823,
      "grad_norm": 14.673160552978516,
      "learning_rate": 4.9334488909177336e-05,
      "loss": 0.5503,
      "num_input_tokens_seen": 12954528,
      "step": 22325
    },
    {
      "epoch": 3.3258862079237415,
      "grad_norm": 10.085715293884277,
      "learning_rate": 4.9333743939069476e-05,
      "loss": 0.5516,
      "num_input_tokens_seen": 12957408,
      "step": 22330
    },
    {
      "epoch": 3.3266309204647007,
      "grad_norm": 9.790268898010254,
      "learning_rate": 4.9332998557867735e-05,
      "loss": 0.454,
      "num_input_tokens_seen": 12960512,
      "step": 22335
    },
    {
      "epoch": 3.32737563300566,
      "grad_norm": 3.9810826778411865,
      "learning_rate": 4.933225276558473e-05,
      "loss": 0.2957,
      "num_input_tokens_seen": 12963840,
      "step": 22340
    },
    {
      "epoch": 3.328120345546619,
      "grad_norm": 3.799302577972412,
      "learning_rate": 4.933150656223303e-05,
      "loss": 0.3325,
      "num_input_tokens_seen": 12966912,
      "step": 22345
    },
    {
      "epoch": 3.3288650580875783,
      "grad_norm": 3.915177822113037,
      "learning_rate": 4.933075994782527e-05,
      "loss": 0.4955,
      "num_input_tokens_seen": 12969760,
      "step": 22350
    },
    {
      "epoch": 3.3296097706285375,
      "grad_norm": 9.152098655700684,
      "learning_rate": 4.933001292237404e-05,
      "loss": 0.2817,
      "num_input_tokens_seen": 12972768,
      "step": 22355
    },
    {
      "epoch": 3.3303544831694967,
      "grad_norm": 12.089805603027344,
      "learning_rate": 4.9329265485891966e-05,
      "loss": 0.3987,
      "num_input_tokens_seen": 12975712,
      "step": 22360
    },
    {
      "epoch": 3.331099195710456,
      "grad_norm": 13.956840515136719,
      "learning_rate": 4.9328517638391684e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 12978496,
      "step": 22365
    },
    {
      "epoch": 3.331843908251415,
      "grad_norm": 7.77078914642334,
      "learning_rate": 4.932776937988582e-05,
      "loss": 0.2841,
      "num_input_tokens_seen": 12981344,
      "step": 22370
    },
    {
      "epoch": 3.3325886207923743,
      "grad_norm": 17.646211624145508,
      "learning_rate": 4.932702071038703e-05,
      "loss": 0.4333,
      "num_input_tokens_seen": 12984384,
      "step": 22375
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 7.4402971267700195,
      "learning_rate": 4.932627162990794e-05,
      "loss": 0.6695,
      "num_input_tokens_seen": 12987200,
      "step": 22380
    },
    {
      "epoch": 3.3340780458742927,
      "grad_norm": 5.732529163360596,
      "learning_rate": 4.932552213846121e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 12990144,
      "step": 22385
    },
    {
      "epoch": 3.334822758415252,
      "grad_norm": 3.4509050846099854,
      "learning_rate": 4.932477223605951e-05,
      "loss": 0.3347,
      "num_input_tokens_seen": 12993056,
      "step": 22390
    },
    {
      "epoch": 3.335567470956211,
      "grad_norm": 18.913904190063477,
      "learning_rate": 4.932402192271551e-05,
      "loss": 0.4235,
      "num_input_tokens_seen": 12995968,
      "step": 22395
    },
    {
      "epoch": 3.33631218349717,
      "grad_norm": 4.003172397613525,
      "learning_rate": 4.9323271198441886e-05,
      "loss": 0.4914,
      "num_input_tokens_seen": 12998752,
      "step": 22400
    },
    {
      "epoch": 3.3370568960381295,
      "grad_norm": 19.345062255859375,
      "learning_rate": 4.932252006325131e-05,
      "loss": 0.2773,
      "num_input_tokens_seen": 13001728,
      "step": 22405
    },
    {
      "epoch": 3.3378016085790883,
      "grad_norm": 14.987777709960938,
      "learning_rate": 4.932176851715647e-05,
      "loss": 0.3612,
      "num_input_tokens_seen": 13004512,
      "step": 22410
    },
    {
      "epoch": 3.338546321120048,
      "grad_norm": 21.91165542602539,
      "learning_rate": 4.932101656017008e-05,
      "loss": 0.4783,
      "num_input_tokens_seen": 13007296,
      "step": 22415
    },
    {
      "epoch": 3.3392910336610067,
      "grad_norm": 18.117820739746094,
      "learning_rate": 4.9320264192304835e-05,
      "loss": 0.6491,
      "num_input_tokens_seen": 13010176,
      "step": 22420
    },
    {
      "epoch": 3.340035746201966,
      "grad_norm": 22.427005767822266,
      "learning_rate": 4.931951141357344e-05,
      "loss": 0.539,
      "num_input_tokens_seen": 13012864,
      "step": 22425
    },
    {
      "epoch": 3.340780458742925,
      "grad_norm": 13.864792823791504,
      "learning_rate": 4.931875822398862e-05,
      "loss": 0.2134,
      "num_input_tokens_seen": 13015616,
      "step": 22430
    },
    {
      "epoch": 3.3415251712838843,
      "grad_norm": 9.68795108795166,
      "learning_rate": 4.93180046235631e-05,
      "loss": 0.2021,
      "num_input_tokens_seen": 13018496,
      "step": 22435
    },
    {
      "epoch": 3.3422698838248435,
      "grad_norm": 6.720097541809082,
      "learning_rate": 4.9317250612309594e-05,
      "loss": 0.1507,
      "num_input_tokens_seen": 13021184,
      "step": 22440
    },
    {
      "epoch": 3.3430145963658027,
      "grad_norm": 27.688859939575195,
      "learning_rate": 4.9316496190240866e-05,
      "loss": 0.6001,
      "num_input_tokens_seen": 13023904,
      "step": 22445
    },
    {
      "epoch": 3.343759308906762,
      "grad_norm": 13.765056610107422,
      "learning_rate": 4.931574135736965e-05,
      "loss": 0.5996,
      "num_input_tokens_seen": 13026528,
      "step": 22450
    },
    {
      "epoch": 3.344504021447721,
      "grad_norm": 24.66954231262207,
      "learning_rate": 4.931498611370869e-05,
      "loss": 0.26,
      "num_input_tokens_seen": 13029376,
      "step": 22455
    },
    {
      "epoch": 3.3452487339886803,
      "grad_norm": 6.651303768157959,
      "learning_rate": 4.9314230459270756e-05,
      "loss": 0.3151,
      "num_input_tokens_seen": 13032384,
      "step": 22460
    },
    {
      "epoch": 3.3459934465296395,
      "grad_norm": 0.45906922221183777,
      "learning_rate": 4.9313474394068604e-05,
      "loss": 0.3134,
      "num_input_tokens_seen": 13035456,
      "step": 22465
    },
    {
      "epoch": 3.3467381590705987,
      "grad_norm": 16.115341186523438,
      "learning_rate": 4.931271791811502e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 13038528,
      "step": 22470
    },
    {
      "epoch": 3.347482871611558,
      "grad_norm": 9.661640167236328,
      "learning_rate": 4.931196103142278e-05,
      "loss": 0.4763,
      "num_input_tokens_seen": 13041152,
      "step": 22475
    },
    {
      "epoch": 3.348227584152517,
      "grad_norm": 9.887964248657227,
      "learning_rate": 4.9311203734004665e-05,
      "loss": 0.4045,
      "num_input_tokens_seen": 13044224,
      "step": 22480
    },
    {
      "epoch": 3.3489722966934763,
      "grad_norm": 10.95694637298584,
      "learning_rate": 4.931044602587346e-05,
      "loss": 0.5317,
      "num_input_tokens_seen": 13047456,
      "step": 22485
    },
    {
      "epoch": 3.3497170092344355,
      "grad_norm": 28.623584747314453,
      "learning_rate": 4.930968790704199e-05,
      "loss": 0.5307,
      "num_input_tokens_seen": 13049952,
      "step": 22490
    },
    {
      "epoch": 3.3504617217753947,
      "grad_norm": 13.437689781188965,
      "learning_rate": 4.930892937752305e-05,
      "loss": 0.5753,
      "num_input_tokens_seen": 13052640,
      "step": 22495
    },
    {
      "epoch": 3.351206434316354,
      "grad_norm": 15.360000610351562,
      "learning_rate": 4.930817043732945e-05,
      "loss": 0.2515,
      "num_input_tokens_seen": 13055584,
      "step": 22500
    },
    {
      "epoch": 3.351951146857313,
      "grad_norm": 5.095189571380615,
      "learning_rate": 4.930741108647402e-05,
      "loss": 0.1761,
      "num_input_tokens_seen": 13058528,
      "step": 22505
    },
    {
      "epoch": 3.3526958593982723,
      "grad_norm": 10.43085765838623,
      "learning_rate": 4.9306651324969583e-05,
      "loss": 0.539,
      "num_input_tokens_seen": 13061440,
      "step": 22510
    },
    {
      "epoch": 3.3534405719392315,
      "grad_norm": 8.46005916595459,
      "learning_rate": 4.9305891152828976e-05,
      "loss": 0.7138,
      "num_input_tokens_seen": 13064448,
      "step": 22515
    },
    {
      "epoch": 3.3541852844801907,
      "grad_norm": 10.071806907653809,
      "learning_rate": 4.930513057006504e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 13067392,
      "step": 22520
    },
    {
      "epoch": 3.35492999702115,
      "grad_norm": 17.192718505859375,
      "learning_rate": 4.930436957669063e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 13070240,
      "step": 22525
    },
    {
      "epoch": 3.355674709562109,
      "grad_norm": 9.483166694641113,
      "learning_rate": 4.93036081727186e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 13073248,
      "step": 22530
    },
    {
      "epoch": 3.3564194221030683,
      "grad_norm": 13.724213600158691,
      "learning_rate": 4.93028463581618e-05,
      "loss": 0.5203,
      "num_input_tokens_seen": 13076224,
      "step": 22535
    },
    {
      "epoch": 3.3571641346440275,
      "grad_norm": 9.53843879699707,
      "learning_rate": 4.930208413303312e-05,
      "loss": 0.4545,
      "num_input_tokens_seen": 13079008,
      "step": 22540
    },
    {
      "epoch": 3.3579088471849867,
      "grad_norm": 11.593404769897461,
      "learning_rate": 4.930132149734542e-05,
      "loss": 0.2368,
      "num_input_tokens_seen": 13081664,
      "step": 22545
    },
    {
      "epoch": 3.358653559725946,
      "grad_norm": 13.063606262207031,
      "learning_rate": 4.93005584511116e-05,
      "loss": 0.2643,
      "num_input_tokens_seen": 13084928,
      "step": 22550
    },
    {
      "epoch": 3.359398272266905,
      "grad_norm": 18.435935974121094,
      "learning_rate": 4.929979499434454e-05,
      "loss": 0.4881,
      "num_input_tokens_seen": 13087776,
      "step": 22555
    },
    {
      "epoch": 3.3601429848078643,
      "grad_norm": 14.604573249816895,
      "learning_rate": 4.929903112705714e-05,
      "loss": 0.7375,
      "num_input_tokens_seen": 13090752,
      "step": 22560
    },
    {
      "epoch": 3.3608876973488235,
      "grad_norm": 18.310152053833008,
      "learning_rate": 4.9298266849262306e-05,
      "loss": 0.4946,
      "num_input_tokens_seen": 13094208,
      "step": 22565
    },
    {
      "epoch": 3.3616324098897827,
      "grad_norm": 9.443055152893066,
      "learning_rate": 4.929750216097295e-05,
      "loss": 0.4987,
      "num_input_tokens_seen": 13097120,
      "step": 22570
    },
    {
      "epoch": 3.3623771224307415,
      "grad_norm": 7.0347981452941895,
      "learning_rate": 4.929673706220199e-05,
      "loss": 0.2428,
      "num_input_tokens_seen": 13099936,
      "step": 22575
    },
    {
      "epoch": 3.363121834971701,
      "grad_norm": 10.114408493041992,
      "learning_rate": 4.929597155296235e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 13103008,
      "step": 22580
    },
    {
      "epoch": 3.36386654751266,
      "grad_norm": 10.832724571228027,
      "learning_rate": 4.929520563326697e-05,
      "loss": 0.671,
      "num_input_tokens_seen": 13105728,
      "step": 22585
    },
    {
      "epoch": 3.3646112600536195,
      "grad_norm": 7.340440273284912,
      "learning_rate": 4.929443930312878e-05,
      "loss": 0.4768,
      "num_input_tokens_seen": 13108608,
      "step": 22590
    },
    {
      "epoch": 3.3653559725945783,
      "grad_norm": 4.562386512756348,
      "learning_rate": 4.929367256256072e-05,
      "loss": 0.4444,
      "num_input_tokens_seen": 13111456,
      "step": 22595
    },
    {
      "epoch": 3.3661006851355375,
      "grad_norm": 6.5512871742248535,
      "learning_rate": 4.929290541157576e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 13114016,
      "step": 22600
    },
    {
      "epoch": 3.3668453976764967,
      "grad_norm": 20.18889808654785,
      "learning_rate": 4.929213785018686e-05,
      "loss": 0.4826,
      "num_input_tokens_seen": 13116800,
      "step": 22605
    },
    {
      "epoch": 3.367590110217456,
      "grad_norm": 23.02861785888672,
      "learning_rate": 4.9291369878406975e-05,
      "loss": 0.3226,
      "num_input_tokens_seen": 13119584,
      "step": 22610
    },
    {
      "epoch": 3.368334822758415,
      "grad_norm": 16.789836883544922,
      "learning_rate": 4.929060149624909e-05,
      "loss": 0.4178,
      "num_input_tokens_seen": 13122560,
      "step": 22615
    },
    {
      "epoch": 3.3690795352993743,
      "grad_norm": 0.6785092353820801,
      "learning_rate": 4.928983270372617e-05,
      "loss": 0.2971,
      "num_input_tokens_seen": 13125632,
      "step": 22620
    },
    {
      "epoch": 3.3698242478403335,
      "grad_norm": 18.177635192871094,
      "learning_rate": 4.928906350085122e-05,
      "loss": 0.4182,
      "num_input_tokens_seen": 13128672,
      "step": 22625
    },
    {
      "epoch": 3.3705689603812927,
      "grad_norm": 11.432940483093262,
      "learning_rate": 4.928829388763723e-05,
      "loss": 0.4445,
      "num_input_tokens_seen": 13131520,
      "step": 22630
    },
    {
      "epoch": 3.371313672922252,
      "grad_norm": 12.543577194213867,
      "learning_rate": 4.928752386409719e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 13134592,
      "step": 22635
    },
    {
      "epoch": 3.372058385463211,
      "grad_norm": 12.047179222106934,
      "learning_rate": 4.9286753430244126e-05,
      "loss": 0.375,
      "num_input_tokens_seen": 13137472,
      "step": 22640
    },
    {
      "epoch": 3.3728030980041703,
      "grad_norm": 8.327131271362305,
      "learning_rate": 4.928598258609105e-05,
      "loss": 0.237,
      "num_input_tokens_seen": 13140416,
      "step": 22645
    },
    {
      "epoch": 3.3735478105451295,
      "grad_norm": 7.476534366607666,
      "learning_rate": 4.928521133165098e-05,
      "loss": 0.4616,
      "num_input_tokens_seen": 13143360,
      "step": 22650
    },
    {
      "epoch": 3.3742925230860887,
      "grad_norm": 10.026790618896484,
      "learning_rate": 4.928443966693694e-05,
      "loss": 0.4221,
      "num_input_tokens_seen": 13146176,
      "step": 22655
    },
    {
      "epoch": 3.375037235627048,
      "grad_norm": 9.789573669433594,
      "learning_rate": 4.928366759196198e-05,
      "loss": 0.3423,
      "num_input_tokens_seen": 13149184,
      "step": 22660
    },
    {
      "epoch": 3.375781948168007,
      "grad_norm": 8.668068885803223,
      "learning_rate": 4.9282895106739136e-05,
      "loss": 0.4645,
      "num_input_tokens_seen": 13152224,
      "step": 22665
    },
    {
      "epoch": 3.3765266607089663,
      "grad_norm": 3.5811452865600586,
      "learning_rate": 4.928212221128146e-05,
      "loss": 0.2918,
      "num_input_tokens_seen": 13154976,
      "step": 22670
    },
    {
      "epoch": 3.3772713732499255,
      "grad_norm": 8.09911823272705,
      "learning_rate": 4.928134890560201e-05,
      "loss": 0.4016,
      "num_input_tokens_seen": 13157856,
      "step": 22675
    },
    {
      "epoch": 3.3780160857908847,
      "grad_norm": 4.505938529968262,
      "learning_rate": 4.928057518971384e-05,
      "loss": 0.319,
      "num_input_tokens_seen": 13161024,
      "step": 22680
    },
    {
      "epoch": 3.378760798331844,
      "grad_norm": 2.949864387512207,
      "learning_rate": 4.9279801063630035e-05,
      "loss": 0.2801,
      "num_input_tokens_seen": 13164320,
      "step": 22685
    },
    {
      "epoch": 3.379505510872803,
      "grad_norm": 25.796659469604492,
      "learning_rate": 4.9279026527363666e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 13167360,
      "step": 22690
    },
    {
      "epoch": 3.3802502234137624,
      "grad_norm": 8.759416580200195,
      "learning_rate": 4.927825158092783e-05,
      "loss": 0.3474,
      "num_input_tokens_seen": 13170272,
      "step": 22695
    },
    {
      "epoch": 3.3809949359547216,
      "grad_norm": 14.81818675994873,
      "learning_rate": 4.9277476224335603e-05,
      "loss": 0.2714,
      "num_input_tokens_seen": 13173056,
      "step": 22700
    },
    {
      "epoch": 3.3817396484956808,
      "grad_norm": 15.158774375915527,
      "learning_rate": 4.927670045760009e-05,
      "loss": 0.2635,
      "num_input_tokens_seen": 13175872,
      "step": 22705
    },
    {
      "epoch": 3.38248436103664,
      "grad_norm": 12.87871265411377,
      "learning_rate": 4.927592428073439e-05,
      "loss": 0.4347,
      "num_input_tokens_seen": 13178784,
      "step": 22710
    },
    {
      "epoch": 3.383229073577599,
      "grad_norm": 2.3267388343811035,
      "learning_rate": 4.927514769375163e-05,
      "loss": 0.3389,
      "num_input_tokens_seen": 13181760,
      "step": 22715
    },
    {
      "epoch": 3.3839737861185584,
      "grad_norm": 28.32085418701172,
      "learning_rate": 4.9274370696664916e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 13184800,
      "step": 22720
    },
    {
      "epoch": 3.3847184986595176,
      "grad_norm": 15.241741180419922,
      "learning_rate": 4.9273593289487384e-05,
      "loss": 0.4282,
      "num_input_tokens_seen": 13187744,
      "step": 22725
    },
    {
      "epoch": 3.3854632112004768,
      "grad_norm": 39.90351104736328,
      "learning_rate": 4.9272815472232165e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 13190592,
      "step": 22730
    },
    {
      "epoch": 3.386207923741436,
      "grad_norm": 13.64708137512207,
      "learning_rate": 4.9272037244912394e-05,
      "loss": 0.5847,
      "num_input_tokens_seen": 13193504,
      "step": 22735
    },
    {
      "epoch": 3.386952636282395,
      "grad_norm": 7.53396463394165,
      "learning_rate": 4.927125860754123e-05,
      "loss": 0.5087,
      "num_input_tokens_seen": 13196448,
      "step": 22740
    },
    {
      "epoch": 3.3876973488233544,
      "grad_norm": 11.229859352111816,
      "learning_rate": 4.9270479560131813e-05,
      "loss": 0.4472,
      "num_input_tokens_seen": 13199552,
      "step": 22745
    },
    {
      "epoch": 3.388442061364313,
      "grad_norm": 13.190329551696777,
      "learning_rate": 4.926970010269731e-05,
      "loss": 0.2412,
      "num_input_tokens_seen": 13202304,
      "step": 22750
    },
    {
      "epoch": 3.389186773905273,
      "grad_norm": 11.538045883178711,
      "learning_rate": 4.92689202352509e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 13205344,
      "step": 22755
    },
    {
      "epoch": 3.3899314864462315,
      "grad_norm": 7.435024738311768,
      "learning_rate": 4.926813995780574e-05,
      "loss": 0.4696,
      "num_input_tokens_seen": 13208256,
      "step": 22760
    },
    {
      "epoch": 3.390676198987191,
      "grad_norm": 6.960896015167236,
      "learning_rate": 4.926735927037503e-05,
      "loss": 0.3006,
      "num_input_tokens_seen": 13211200,
      "step": 22765
    },
    {
      "epoch": 3.39142091152815,
      "grad_norm": 6.427489757537842,
      "learning_rate": 4.9266578172971934e-05,
      "loss": 0.3384,
      "num_input_tokens_seen": 13213760,
      "step": 22770
    },
    {
      "epoch": 3.392165624069109,
      "grad_norm": 9.017745018005371,
      "learning_rate": 4.926579666560968e-05,
      "loss": 0.5447,
      "num_input_tokens_seen": 13216704,
      "step": 22775
    },
    {
      "epoch": 3.3929103366100684,
      "grad_norm": 3.9287056922912598,
      "learning_rate": 4.926501474830144e-05,
      "loss": 0.4692,
      "num_input_tokens_seen": 13219392,
      "step": 22780
    },
    {
      "epoch": 3.3936550491510276,
      "grad_norm": 9.98555850982666,
      "learning_rate": 4.926423242106044e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 13222144,
      "step": 22785
    },
    {
      "epoch": 3.3943997616919868,
      "grad_norm": 9.215904235839844,
      "learning_rate": 4.92634496838999e-05,
      "loss": 0.465,
      "num_input_tokens_seen": 13224928,
      "step": 22790
    },
    {
      "epoch": 3.395144474232946,
      "grad_norm": 3.0293710231781006,
      "learning_rate": 4.9262666536833035e-05,
      "loss": 0.3118,
      "num_input_tokens_seen": 13227840,
      "step": 22795
    },
    {
      "epoch": 3.395889186773905,
      "grad_norm": 29.676382064819336,
      "learning_rate": 4.926188297987308e-05,
      "loss": 0.6131,
      "num_input_tokens_seen": 13230816,
      "step": 22800
    },
    {
      "epoch": 3.3966338993148644,
      "grad_norm": 3.1467514038085938,
      "learning_rate": 4.926109901303327e-05,
      "loss": 0.2507,
      "num_input_tokens_seen": 13233600,
      "step": 22805
    },
    {
      "epoch": 3.3973786118558236,
      "grad_norm": 19.249752044677734,
      "learning_rate": 4.9260314636326846e-05,
      "loss": 0.3212,
      "num_input_tokens_seen": 13236608,
      "step": 22810
    },
    {
      "epoch": 3.3981233243967828,
      "grad_norm": 11.509453773498535,
      "learning_rate": 4.925952984976707e-05,
      "loss": 0.4832,
      "num_input_tokens_seen": 13239552,
      "step": 22815
    },
    {
      "epoch": 3.398868036937742,
      "grad_norm": 6.44303035736084,
      "learning_rate": 4.925874465336719e-05,
      "loss": 0.4265,
      "num_input_tokens_seen": 13242496,
      "step": 22820
    },
    {
      "epoch": 3.399612749478701,
      "grad_norm": 12.382990837097168,
      "learning_rate": 4.9257959047140476e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 13245472,
      "step": 22825
    },
    {
      "epoch": 3.4003574620196604,
      "grad_norm": 14.567998886108398,
      "learning_rate": 4.9257173031100196e-05,
      "loss": 0.599,
      "num_input_tokens_seen": 13248032,
      "step": 22830
    },
    {
      "epoch": 3.4011021745606196,
      "grad_norm": 5.529976844787598,
      "learning_rate": 4.925638660525963e-05,
      "loss": 0.3079,
      "num_input_tokens_seen": 13251424,
      "step": 22835
    },
    {
      "epoch": 3.401846887101579,
      "grad_norm": 17.796781539916992,
      "learning_rate": 4.925559976963207e-05,
      "loss": 0.3883,
      "num_input_tokens_seen": 13254112,
      "step": 22840
    },
    {
      "epoch": 3.402591599642538,
      "grad_norm": 11.544130325317383,
      "learning_rate": 4.9254812524230806e-05,
      "loss": 0.4971,
      "num_input_tokens_seen": 13256992,
      "step": 22845
    },
    {
      "epoch": 3.403336312183497,
      "grad_norm": 3.069113254547119,
      "learning_rate": 4.925402486906913e-05,
      "loss": 0.2394,
      "num_input_tokens_seen": 13259840,
      "step": 22850
    },
    {
      "epoch": 3.4040810247244564,
      "grad_norm": 9.887221336364746,
      "learning_rate": 4.925323680416036e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 13262720,
      "step": 22855
    },
    {
      "epoch": 3.4048257372654156,
      "grad_norm": 20.438894271850586,
      "learning_rate": 4.92524483295178e-05,
      "loss": 0.4384,
      "num_input_tokens_seen": 13265408,
      "step": 22860
    },
    {
      "epoch": 3.405570449806375,
      "grad_norm": 2.413801908493042,
      "learning_rate": 4.925165944515477e-05,
      "loss": 0.2308,
      "num_input_tokens_seen": 13268192,
      "step": 22865
    },
    {
      "epoch": 3.406315162347334,
      "grad_norm": 1.22323477268219,
      "learning_rate": 4.9250870151084614e-05,
      "loss": 0.4083,
      "num_input_tokens_seen": 13271552,
      "step": 22870
    },
    {
      "epoch": 3.407059874888293,
      "grad_norm": 6.743710517883301,
      "learning_rate": 4.9250080447320644e-05,
      "loss": 0.4382,
      "num_input_tokens_seen": 13274400,
      "step": 22875
    },
    {
      "epoch": 3.4078045874292524,
      "grad_norm": 10.794569969177246,
      "learning_rate": 4.924929033387622e-05,
      "loss": 0.4011,
      "num_input_tokens_seen": 13277216,
      "step": 22880
    },
    {
      "epoch": 3.4085492999702116,
      "grad_norm": 4.392975807189941,
      "learning_rate": 4.9248499810764675e-05,
      "loss": 0.3717,
      "num_input_tokens_seen": 13280288,
      "step": 22885
    },
    {
      "epoch": 3.409294012511171,
      "grad_norm": 12.140100479125977,
      "learning_rate": 4.9247708877999375e-05,
      "loss": 0.3367,
      "num_input_tokens_seen": 13283296,
      "step": 22890
    },
    {
      "epoch": 3.41003872505213,
      "grad_norm": 8.400094032287598,
      "learning_rate": 4.9246917535593675e-05,
      "loss": 0.4472,
      "num_input_tokens_seen": 13286240,
      "step": 22895
    },
    {
      "epoch": 3.410783437593089,
      "grad_norm": 11.689447402954102,
      "learning_rate": 4.924612578356095e-05,
      "loss": 0.6877,
      "num_input_tokens_seen": 13288960,
      "step": 22900
    },
    {
      "epoch": 3.4115281501340484,
      "grad_norm": 15.932307243347168,
      "learning_rate": 4.9245333621914566e-05,
      "loss": 0.5138,
      "num_input_tokens_seen": 13291904,
      "step": 22905
    },
    {
      "epoch": 3.4122728626750076,
      "grad_norm": 13.85096263885498,
      "learning_rate": 4.9244541050667916e-05,
      "loss": 0.4159,
      "num_input_tokens_seen": 13294656,
      "step": 22910
    },
    {
      "epoch": 3.413017575215967,
      "grad_norm": 6.25814151763916,
      "learning_rate": 4.9243748069834386e-05,
      "loss": 0.4205,
      "num_input_tokens_seen": 13297312,
      "step": 22915
    },
    {
      "epoch": 3.413762287756926,
      "grad_norm": 10.137701034545898,
      "learning_rate": 4.924295467942737e-05,
      "loss": 0.5044,
      "num_input_tokens_seen": 13300384,
      "step": 22920
    },
    {
      "epoch": 3.414507000297885,
      "grad_norm": 10.130606651306152,
      "learning_rate": 4.924216087946028e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 13303456,
      "step": 22925
    },
    {
      "epoch": 3.4152517128388444,
      "grad_norm": 16.307575225830078,
      "learning_rate": 4.924136666994652e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 13306432,
      "step": 22930
    },
    {
      "epoch": 3.415996425379803,
      "grad_norm": 6.037298202514648,
      "learning_rate": 4.9240572050899505e-05,
      "loss": 0.5792,
      "num_input_tokens_seen": 13309216,
      "step": 22935
    },
    {
      "epoch": 3.4167411379207624,
      "grad_norm": 7.928247928619385,
      "learning_rate": 4.923977702233266e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 13312064,
      "step": 22940
    },
    {
      "epoch": 3.4174858504617216,
      "grad_norm": 7.328157424926758,
      "learning_rate": 4.923898158425942e-05,
      "loss": 0.2497,
      "num_input_tokens_seen": 13314752,
      "step": 22945
    },
    {
      "epoch": 3.418230563002681,
      "grad_norm": 18.02942657470703,
      "learning_rate": 4.923818573669322e-05,
      "loss": 0.5591,
      "num_input_tokens_seen": 13317632,
      "step": 22950
    },
    {
      "epoch": 3.41897527554364,
      "grad_norm": 12.436037063598633,
      "learning_rate": 4.923738947964751e-05,
      "loss": 0.4526,
      "num_input_tokens_seen": 13320544,
      "step": 22955
    },
    {
      "epoch": 3.419719988084599,
      "grad_norm": 4.722009181976318,
      "learning_rate": 4.923659281313574e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 13323552,
      "step": 22960
    },
    {
      "epoch": 3.4204647006255584,
      "grad_norm": 21.146303176879883,
      "learning_rate": 4.9235795737171365e-05,
      "loss": 0.5243,
      "num_input_tokens_seen": 13326208,
      "step": 22965
    },
    {
      "epoch": 3.4212094131665176,
      "grad_norm": 5.452057361602783,
      "learning_rate": 4.923499825176786e-05,
      "loss": 0.378,
      "num_input_tokens_seen": 13329280,
      "step": 22970
    },
    {
      "epoch": 3.421954125707477,
      "grad_norm": 13.862281799316406,
      "learning_rate": 4.923420035693868e-05,
      "loss": 0.5331,
      "num_input_tokens_seen": 13332352,
      "step": 22975
    },
    {
      "epoch": 3.422698838248436,
      "grad_norm": 3.2038209438323975,
      "learning_rate": 4.923340205269732e-05,
      "loss": 0.4559,
      "num_input_tokens_seen": 13335200,
      "step": 22980
    },
    {
      "epoch": 3.423443550789395,
      "grad_norm": 12.026495933532715,
      "learning_rate": 4.923260333905726e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 13338016,
      "step": 22985
    },
    {
      "epoch": 3.4241882633303544,
      "grad_norm": 8.123372077941895,
      "learning_rate": 4.9231804216031995e-05,
      "loss": 0.4518,
      "num_input_tokens_seen": 13341248,
      "step": 22990
    },
    {
      "epoch": 3.4249329758713136,
      "grad_norm": 5.096686840057373,
      "learning_rate": 4.923100468363503e-05,
      "loss": 0.3642,
      "num_input_tokens_seen": 13344576,
      "step": 22995
    },
    {
      "epoch": 3.425677688412273,
      "grad_norm": 8.673360824584961,
      "learning_rate": 4.923020474187987e-05,
      "loss": 0.3968,
      "num_input_tokens_seen": 13347680,
      "step": 23000
    },
    {
      "epoch": 3.426422400953232,
      "grad_norm": 9.962827682495117,
      "learning_rate": 4.922940439078002e-05,
      "loss": 0.5678,
      "num_input_tokens_seen": 13350464,
      "step": 23005
    },
    {
      "epoch": 3.4271671134941912,
      "grad_norm": 9.474936485290527,
      "learning_rate": 4.922860363034901e-05,
      "loss": 0.3886,
      "num_input_tokens_seen": 13353504,
      "step": 23010
    },
    {
      "epoch": 3.4279118260351504,
      "grad_norm": 3.632587432861328,
      "learning_rate": 4.922780246060037e-05,
      "loss": 0.1722,
      "num_input_tokens_seen": 13356416,
      "step": 23015
    },
    {
      "epoch": 3.4286565385761096,
      "grad_norm": 13.016707420349121,
      "learning_rate": 4.922700088154764e-05,
      "loss": 0.5146,
      "num_input_tokens_seen": 13359392,
      "step": 23020
    },
    {
      "epoch": 3.429401251117069,
      "grad_norm": 10.96452522277832,
      "learning_rate": 4.9226198893204335e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 13362304,
      "step": 23025
    },
    {
      "epoch": 3.430145963658028,
      "grad_norm": 8.575922012329102,
      "learning_rate": 4.922539649558403e-05,
      "loss": 0.4038,
      "num_input_tokens_seen": 13365152,
      "step": 23030
    },
    {
      "epoch": 3.4308906761989872,
      "grad_norm": 7.733835220336914,
      "learning_rate": 4.9224593688700274e-05,
      "loss": 0.4241,
      "num_input_tokens_seen": 13368128,
      "step": 23035
    },
    {
      "epoch": 3.4316353887399464,
      "grad_norm": 16.455493927001953,
      "learning_rate": 4.922379047256663e-05,
      "loss": 0.3096,
      "num_input_tokens_seen": 13370912,
      "step": 23040
    },
    {
      "epoch": 3.4323801012809056,
      "grad_norm": 32.92732238769531,
      "learning_rate": 4.922298684719666e-05,
      "loss": 0.3333,
      "num_input_tokens_seen": 13373728,
      "step": 23045
    },
    {
      "epoch": 3.433124813821865,
      "grad_norm": 13.006752967834473,
      "learning_rate": 4.922218281260395e-05,
      "loss": 0.5381,
      "num_input_tokens_seen": 13376704,
      "step": 23050
    },
    {
      "epoch": 3.433869526362824,
      "grad_norm": 14.141775131225586,
      "learning_rate": 4.9221378368802085e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 13379744,
      "step": 23055
    },
    {
      "epoch": 3.4346142389037833,
      "grad_norm": 7.515453815460205,
      "learning_rate": 4.9220573515804644e-05,
      "loss": 0.2356,
      "num_input_tokens_seen": 13382368,
      "step": 23060
    },
    {
      "epoch": 3.4353589514447425,
      "grad_norm": 23.40132713317871,
      "learning_rate": 4.921976825362523e-05,
      "loss": 0.5515,
      "num_input_tokens_seen": 13385216,
      "step": 23065
    },
    {
      "epoch": 3.4361036639857017,
      "grad_norm": 12.710947036743164,
      "learning_rate": 4.921896258227745e-05,
      "loss": 0.2162,
      "num_input_tokens_seen": 13387968,
      "step": 23070
    },
    {
      "epoch": 3.436848376526661,
      "grad_norm": 10.079931259155273,
      "learning_rate": 4.921815650177491e-05,
      "loss": 0.4322,
      "num_input_tokens_seen": 13390816,
      "step": 23075
    },
    {
      "epoch": 3.43759308906762,
      "grad_norm": 3.168260097503662,
      "learning_rate": 4.9217350012131223e-05,
      "loss": 0.1016,
      "num_input_tokens_seen": 13393952,
      "step": 23080
    },
    {
      "epoch": 3.4383378016085793,
      "grad_norm": 11.67648983001709,
      "learning_rate": 4.9216543113360035e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 13396800,
      "step": 23085
    },
    {
      "epoch": 3.4390825141495385,
      "grad_norm": 9.924288749694824,
      "learning_rate": 4.9215735805474956e-05,
      "loss": 0.4101,
      "num_input_tokens_seen": 13399392,
      "step": 23090
    },
    {
      "epoch": 3.4398272266904977,
      "grad_norm": 7.148835182189941,
      "learning_rate": 4.921492808848963e-05,
      "loss": 0.6549,
      "num_input_tokens_seen": 13402048,
      "step": 23095
    },
    {
      "epoch": 3.4405719392314564,
      "grad_norm": 15.760651588439941,
      "learning_rate": 4.921411996241771e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 13404928,
      "step": 23100
    },
    {
      "epoch": 3.441316651772416,
      "grad_norm": 19.692424774169922,
      "learning_rate": 4.921331142727284e-05,
      "loss": 0.2636,
      "num_input_tokens_seen": 13408032,
      "step": 23105
    },
    {
      "epoch": 3.442061364313375,
      "grad_norm": 21.63752555847168,
      "learning_rate": 4.921250248306869e-05,
      "loss": 0.6113,
      "num_input_tokens_seen": 13410880,
      "step": 23110
    },
    {
      "epoch": 3.442806076854334,
      "grad_norm": 3.11545729637146,
      "learning_rate": 4.9211693129818915e-05,
      "loss": 0.4686,
      "num_input_tokens_seen": 13413888,
      "step": 23115
    },
    {
      "epoch": 3.4435507893952932,
      "grad_norm": 18.375057220458984,
      "learning_rate": 4.9210883367537184e-05,
      "loss": 0.4362,
      "num_input_tokens_seen": 13416608,
      "step": 23120
    },
    {
      "epoch": 3.4442955019362524,
      "grad_norm": 34.914913177490234,
      "learning_rate": 4.9210073196237196e-05,
      "loss": 0.2791,
      "num_input_tokens_seen": 13419712,
      "step": 23125
    },
    {
      "epoch": 3.4450402144772116,
      "grad_norm": 10.699321746826172,
      "learning_rate": 4.9209262615932624e-05,
      "loss": 0.5667,
      "num_input_tokens_seen": 13422400,
      "step": 23130
    },
    {
      "epoch": 3.445784927018171,
      "grad_norm": 10.470317840576172,
      "learning_rate": 4.9208451626637164e-05,
      "loss": 0.2034,
      "num_input_tokens_seen": 13425184,
      "step": 23135
    },
    {
      "epoch": 3.44652963955913,
      "grad_norm": 10.99387264251709,
      "learning_rate": 4.920764022836452e-05,
      "loss": 0.3029,
      "num_input_tokens_seen": 13428096,
      "step": 23140
    },
    {
      "epoch": 3.4472743521000893,
      "grad_norm": 1.9394476413726807,
      "learning_rate": 4.920682842112839e-05,
      "loss": 0.3864,
      "num_input_tokens_seen": 13430816,
      "step": 23145
    },
    {
      "epoch": 3.4480190646410485,
      "grad_norm": 0.8796696066856384,
      "learning_rate": 4.920601620494251e-05,
      "loss": 0.1535,
      "num_input_tokens_seen": 13433568,
      "step": 23150
    },
    {
      "epoch": 3.4487637771820077,
      "grad_norm": 20.881776809692383,
      "learning_rate": 4.920520357982058e-05,
      "loss": 0.5698,
      "num_input_tokens_seen": 13436640,
      "step": 23155
    },
    {
      "epoch": 3.449508489722967,
      "grad_norm": 34.033748626708984,
      "learning_rate": 4.9204390545776334e-05,
      "loss": 0.4002,
      "num_input_tokens_seen": 13439680,
      "step": 23160
    },
    {
      "epoch": 3.450253202263926,
      "grad_norm": 21.696136474609375,
      "learning_rate": 4.920357710282352e-05,
      "loss": 0.3884,
      "num_input_tokens_seen": 13442432,
      "step": 23165
    },
    {
      "epoch": 3.4509979148048853,
      "grad_norm": 8.843393325805664,
      "learning_rate": 4.9202763250975864e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 13445248,
      "step": 23170
    },
    {
      "epoch": 3.4517426273458445,
      "grad_norm": 6.389811992645264,
      "learning_rate": 4.920194899024712e-05,
      "loss": 0.4355,
      "num_input_tokens_seen": 13448192,
      "step": 23175
    },
    {
      "epoch": 3.4524873398868037,
      "grad_norm": 28.509492874145508,
      "learning_rate": 4.920113432065105e-05,
      "loss": 0.4014,
      "num_input_tokens_seen": 13450944,
      "step": 23180
    },
    {
      "epoch": 3.453232052427763,
      "grad_norm": 11.900078773498535,
      "learning_rate": 4.920031924220141e-05,
      "loss": 0.4508,
      "num_input_tokens_seen": 13453888,
      "step": 23185
    },
    {
      "epoch": 3.453976764968722,
      "grad_norm": 8.125258445739746,
      "learning_rate": 4.919950375491197e-05,
      "loss": 0.2153,
      "num_input_tokens_seen": 13456480,
      "step": 23190
    },
    {
      "epoch": 3.4547214775096813,
      "grad_norm": 14.858373641967773,
      "learning_rate": 4.919868785879651e-05,
      "loss": 0.4896,
      "num_input_tokens_seen": 13459712,
      "step": 23195
    },
    {
      "epoch": 3.4554661900506405,
      "grad_norm": 8.539962768554688,
      "learning_rate": 4.919787155386882e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 13462656,
      "step": 23200
    },
    {
      "epoch": 3.4562109025915997,
      "grad_norm": 8.284211158752441,
      "learning_rate": 4.919705484014268e-05,
      "loss": 0.2296,
      "num_input_tokens_seen": 13465600,
      "step": 23205
    },
    {
      "epoch": 3.456955615132559,
      "grad_norm": 11.062628746032715,
      "learning_rate": 4.919623771763189e-05,
      "loss": 0.4511,
      "num_input_tokens_seen": 13468352,
      "step": 23210
    },
    {
      "epoch": 3.457700327673518,
      "grad_norm": 12.452559471130371,
      "learning_rate": 4.919542018635025e-05,
      "loss": 0.4435,
      "num_input_tokens_seen": 13470944,
      "step": 23215
    },
    {
      "epoch": 3.4584450402144773,
      "grad_norm": 2.6693427562713623,
      "learning_rate": 4.919460224631158e-05,
      "loss": 0.2023,
      "num_input_tokens_seen": 13473888,
      "step": 23220
    },
    {
      "epoch": 3.4591897527554365,
      "grad_norm": 11.350397109985352,
      "learning_rate": 4.91937838975297e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 13476896,
      "step": 23225
    },
    {
      "epoch": 3.4599344652963957,
      "grad_norm": 4.111804485321045,
      "learning_rate": 4.9192965140018435e-05,
      "loss": 0.4372,
      "num_input_tokens_seen": 13479552,
      "step": 23230
    },
    {
      "epoch": 3.460679177837355,
      "grad_norm": 9.913308143615723,
      "learning_rate": 4.919214597379161e-05,
      "loss": 0.4524,
      "num_input_tokens_seen": 13482240,
      "step": 23235
    },
    {
      "epoch": 3.461423890378314,
      "grad_norm": 27.124099731445312,
      "learning_rate": 4.919132639886306e-05,
      "loss": 0.2133,
      "num_input_tokens_seen": 13485216,
      "step": 23240
    },
    {
      "epoch": 3.4621686029192733,
      "grad_norm": 15.956558227539062,
      "learning_rate": 4.919050641524663e-05,
      "loss": 0.1557,
      "num_input_tokens_seen": 13488320,
      "step": 23245
    },
    {
      "epoch": 3.4629133154602325,
      "grad_norm": 5.478547096252441,
      "learning_rate": 4.9189686022956195e-05,
      "loss": 0.1852,
      "num_input_tokens_seen": 13491520,
      "step": 23250
    },
    {
      "epoch": 3.4636580280011917,
      "grad_norm": 12.398826599121094,
      "learning_rate": 4.91888652220056e-05,
      "loss": 0.4868,
      "num_input_tokens_seen": 13494400,
      "step": 23255
    },
    {
      "epoch": 3.464402740542151,
      "grad_norm": 4.116999626159668,
      "learning_rate": 4.91880440124087e-05,
      "loss": 0.3375,
      "num_input_tokens_seen": 13497120,
      "step": 23260
    },
    {
      "epoch": 3.4651474530831097,
      "grad_norm": 37.22210693359375,
      "learning_rate": 4.918722239417939e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 13499840,
      "step": 23265
    },
    {
      "epoch": 3.4658921656240693,
      "grad_norm": 32.251399993896484,
      "learning_rate": 4.918640036733154e-05,
      "loss": 0.544,
      "num_input_tokens_seen": 13502848,
      "step": 23270
    },
    {
      "epoch": 3.466636878165028,
      "grad_norm": 14.133515357971191,
      "learning_rate": 4.9185577931879034e-05,
      "loss": 0.5253,
      "num_input_tokens_seen": 13505568,
      "step": 23275
    },
    {
      "epoch": 3.4673815907059877,
      "grad_norm": 7.09383487701416,
      "learning_rate": 4.9184755087835766e-05,
      "loss": 0.5314,
      "num_input_tokens_seen": 13508512,
      "step": 23280
    },
    {
      "epoch": 3.4681263032469465,
      "grad_norm": 15.016282081604004,
      "learning_rate": 4.9183931835215645e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 13511424,
      "step": 23285
    },
    {
      "epoch": 3.4688710157879057,
      "grad_norm": 37.7144889831543,
      "learning_rate": 4.918310817403258e-05,
      "loss": 0.2942,
      "num_input_tokens_seen": 13514240,
      "step": 23290
    },
    {
      "epoch": 3.469615728328865,
      "grad_norm": 26.770238876342773,
      "learning_rate": 4.918228410430048e-05,
      "loss": 0.4464,
      "num_input_tokens_seen": 13517376,
      "step": 23295
    },
    {
      "epoch": 3.470360440869824,
      "grad_norm": 19.024490356445312,
      "learning_rate": 4.918145962603326e-05,
      "loss": 0.4433,
      "num_input_tokens_seen": 13519936,
      "step": 23300
    },
    {
      "epoch": 3.4711051534107833,
      "grad_norm": 6.585423946380615,
      "learning_rate": 4.918063473924486e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 13522560,
      "step": 23305
    },
    {
      "epoch": 3.4718498659517425,
      "grad_norm": 4.851128101348877,
      "learning_rate": 4.917980944394922e-05,
      "loss": 0.5375,
      "num_input_tokens_seen": 13525184,
      "step": 23310
    },
    {
      "epoch": 3.4725945784927017,
      "grad_norm": 10.840143203735352,
      "learning_rate": 4.9178983740160264e-05,
      "loss": 0.6316,
      "num_input_tokens_seen": 13527904,
      "step": 23315
    },
    {
      "epoch": 3.473339291033661,
      "grad_norm": 5.2007598876953125,
      "learning_rate": 4.9178157627891956e-05,
      "loss": 0.354,
      "num_input_tokens_seen": 13530944,
      "step": 23320
    },
    {
      "epoch": 3.47408400357462,
      "grad_norm": 9.175376892089844,
      "learning_rate": 4.917733110715825e-05,
      "loss": 0.25,
      "num_input_tokens_seen": 13533568,
      "step": 23325
    },
    {
      "epoch": 3.4748287161155793,
      "grad_norm": 17.545246124267578,
      "learning_rate": 4.9176504177973105e-05,
      "loss": 0.7927,
      "num_input_tokens_seen": 13536288,
      "step": 23330
    },
    {
      "epoch": 3.4755734286565385,
      "grad_norm": 36.31633758544922,
      "learning_rate": 4.91756768403505e-05,
      "loss": 0.4444,
      "num_input_tokens_seen": 13539552,
      "step": 23335
    },
    {
      "epoch": 3.4763181411974977,
      "grad_norm": 1.810176134109497,
      "learning_rate": 4.9174849094304396e-05,
      "loss": 0.3409,
      "num_input_tokens_seen": 13542656,
      "step": 23340
    },
    {
      "epoch": 3.477062853738457,
      "grad_norm": 7.711457252502441,
      "learning_rate": 4.91740209398488e-05,
      "loss": 0.3974,
      "num_input_tokens_seen": 13545984,
      "step": 23345
    },
    {
      "epoch": 3.477807566279416,
      "grad_norm": 11.491348266601562,
      "learning_rate": 4.917319237699768e-05,
      "loss": 0.3461,
      "num_input_tokens_seen": 13548544,
      "step": 23350
    },
    {
      "epoch": 3.4785522788203753,
      "grad_norm": 12.11606502532959,
      "learning_rate": 4.9172363405765044e-05,
      "loss": 0.3943,
      "num_input_tokens_seen": 13551360,
      "step": 23355
    },
    {
      "epoch": 3.4792969913613345,
      "grad_norm": 20.98056983947754,
      "learning_rate": 4.91715340261649e-05,
      "loss": 0.6485,
      "num_input_tokens_seen": 13554240,
      "step": 23360
    },
    {
      "epoch": 3.4800417039022937,
      "grad_norm": 6.2818684577941895,
      "learning_rate": 4.917070423821125e-05,
      "loss": 0.3054,
      "num_input_tokens_seen": 13556992,
      "step": 23365
    },
    {
      "epoch": 3.480786416443253,
      "grad_norm": 12.00378704071045,
      "learning_rate": 4.9169874041918116e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 13560000,
      "step": 23370
    },
    {
      "epoch": 3.481531128984212,
      "grad_norm": 9.386373519897461,
      "learning_rate": 4.916904343729954e-05,
      "loss": 0.4128,
      "num_input_tokens_seen": 13563040,
      "step": 23375
    },
    {
      "epoch": 3.4822758415251713,
      "grad_norm": 3.637324094772339,
      "learning_rate": 4.916821242436952e-05,
      "loss": 0.4567,
      "num_input_tokens_seen": 13565632,
      "step": 23380
    },
    {
      "epoch": 3.4830205540661305,
      "grad_norm": 10.280951499938965,
      "learning_rate": 4.916738100314213e-05,
      "loss": 0.3157,
      "num_input_tokens_seen": 13568320,
      "step": 23385
    },
    {
      "epoch": 3.4837652666070897,
      "grad_norm": 9.914769172668457,
      "learning_rate": 4.916654917363139e-05,
      "loss": 0.5052,
      "num_input_tokens_seen": 13571072,
      "step": 23390
    },
    {
      "epoch": 3.484509979148049,
      "grad_norm": 4.650598049163818,
      "learning_rate": 4.916571693585137e-05,
      "loss": 0.3058,
      "num_input_tokens_seen": 13573856,
      "step": 23395
    },
    {
      "epoch": 3.485254691689008,
      "grad_norm": 9.210670471191406,
      "learning_rate": 4.9164884289816115e-05,
      "loss": 0.389,
      "num_input_tokens_seen": 13576768,
      "step": 23400
    },
    {
      "epoch": 3.4859994042299673,
      "grad_norm": 0.4242165684700012,
      "learning_rate": 4.916405123553971e-05,
      "loss": 0.3911,
      "num_input_tokens_seen": 13579680,
      "step": 23405
    },
    {
      "epoch": 3.4867441167709265,
      "grad_norm": 17.91347312927246,
      "learning_rate": 4.9163217773036214e-05,
      "loss": 0.2846,
      "num_input_tokens_seen": 13582528,
      "step": 23410
    },
    {
      "epoch": 3.4874888293118858,
      "grad_norm": 5.963118076324463,
      "learning_rate": 4.916238390231971e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 13585696,
      "step": 23415
    },
    {
      "epoch": 3.488233541852845,
      "grad_norm": 4.778325080871582,
      "learning_rate": 4.916154962340429e-05,
      "loss": 0.3961,
      "num_input_tokens_seen": 13588640,
      "step": 23420
    },
    {
      "epoch": 3.488978254393804,
      "grad_norm": 9.369479179382324,
      "learning_rate": 4.916071493630405e-05,
      "loss": 0.4312,
      "num_input_tokens_seen": 13591360,
      "step": 23425
    },
    {
      "epoch": 3.4897229669347634,
      "grad_norm": 11.885247230529785,
      "learning_rate": 4.915987984103309e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 13594176,
      "step": 23430
    },
    {
      "epoch": 3.4904676794757226,
      "grad_norm": 17.55293846130371,
      "learning_rate": 4.9159044337605495e-05,
      "loss": 0.4424,
      "num_input_tokens_seen": 13596896,
      "step": 23435
    },
    {
      "epoch": 3.4912123920166813,
      "grad_norm": 8.036218643188477,
      "learning_rate": 4.915820842603542e-05,
      "loss": 0.3184,
      "num_input_tokens_seen": 13599968,
      "step": 23440
    },
    {
      "epoch": 3.491957104557641,
      "grad_norm": 12.520907402038574,
      "learning_rate": 4.9157372106336965e-05,
      "loss": 0.4081,
      "num_input_tokens_seen": 13602976,
      "step": 23445
    },
    {
      "epoch": 3.4927018170985997,
      "grad_norm": 6.942744731903076,
      "learning_rate": 4.915653537852425e-05,
      "loss": 0.4655,
      "num_input_tokens_seen": 13605824,
      "step": 23450
    },
    {
      "epoch": 3.4934465296395594,
      "grad_norm": 4.963454246520996,
      "learning_rate": 4.915569824261143e-05,
      "loss": 0.3391,
      "num_input_tokens_seen": 13608992,
      "step": 23455
    },
    {
      "epoch": 3.494191242180518,
      "grad_norm": 9.840605735778809,
      "learning_rate": 4.915486069861264e-05,
      "loss": 0.6987,
      "num_input_tokens_seen": 13612000,
      "step": 23460
    },
    {
      "epoch": 3.4949359547214773,
      "grad_norm": 8.64456844329834,
      "learning_rate": 4.915402274654202e-05,
      "loss": 0.3414,
      "num_input_tokens_seen": 13614944,
      "step": 23465
    },
    {
      "epoch": 3.4956806672624365,
      "grad_norm": 25.32649803161621,
      "learning_rate": 4.915318438641374e-05,
      "loss": 0.2386,
      "num_input_tokens_seen": 13617952,
      "step": 23470
    },
    {
      "epoch": 3.4964253798033957,
      "grad_norm": 0.1115630716085434,
      "learning_rate": 4.915234561824196e-05,
      "loss": 0.3645,
      "num_input_tokens_seen": 13620768,
      "step": 23475
    },
    {
      "epoch": 3.497170092344355,
      "grad_norm": 28.032596588134766,
      "learning_rate": 4.915150644204084e-05,
      "loss": 0.3439,
      "num_input_tokens_seen": 13623744,
      "step": 23480
    },
    {
      "epoch": 3.497914804885314,
      "grad_norm": 9.006126403808594,
      "learning_rate": 4.915066685782457e-05,
      "loss": 0.3029,
      "num_input_tokens_seen": 13626720,
      "step": 23485
    },
    {
      "epoch": 3.4986595174262733,
      "grad_norm": 16.88738250732422,
      "learning_rate": 4.914982686560733e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 13629568,
      "step": 23490
    },
    {
      "epoch": 3.4994042299672325,
      "grad_norm": 6.580949306488037,
      "learning_rate": 4.914898646540331e-05,
      "loss": 0.3604,
      "num_input_tokens_seen": 13632352,
      "step": 23495
    },
    {
      "epoch": 3.5001489425081918,
      "grad_norm": 17.451339721679688,
      "learning_rate": 4.914814565722671e-05,
      "loss": 0.1767,
      "num_input_tokens_seen": 13635392,
      "step": 23500
    },
    {
      "epoch": 3.500893655049151,
      "grad_norm": 21.950820922851562,
      "learning_rate": 4.914730444109173e-05,
      "loss": 0.6846,
      "num_input_tokens_seen": 13638528,
      "step": 23505
    },
    {
      "epoch": 3.50163836759011,
      "grad_norm": 11.599220275878906,
      "learning_rate": 4.9146462817012586e-05,
      "loss": 0.469,
      "num_input_tokens_seen": 13641664,
      "step": 23510
    },
    {
      "epoch": 3.5023830801310694,
      "grad_norm": 6.625762462615967,
      "learning_rate": 4.9145620785003485e-05,
      "loss": 0.5025,
      "num_input_tokens_seen": 13644832,
      "step": 23515
    },
    {
      "epoch": 3.5031277926720286,
      "grad_norm": 14.678479194641113,
      "learning_rate": 4.9144778345078665e-05,
      "loss": 0.5126,
      "num_input_tokens_seen": 13647712,
      "step": 23520
    },
    {
      "epoch": 3.5038725052129878,
      "grad_norm": 5.79878568649292,
      "learning_rate": 4.914393549725236e-05,
      "loss": 0.5687,
      "num_input_tokens_seen": 13650496,
      "step": 23525
    },
    {
      "epoch": 3.504617217753947,
      "grad_norm": 15.636319160461426,
      "learning_rate": 4.91430922415388e-05,
      "loss": 0.2859,
      "num_input_tokens_seen": 13653280,
      "step": 23530
    },
    {
      "epoch": 3.505361930294906,
      "grad_norm": 16.13644790649414,
      "learning_rate": 4.914224857795224e-05,
      "loss": 0.4337,
      "num_input_tokens_seen": 13656160,
      "step": 23535
    },
    {
      "epoch": 3.5061066428358654,
      "grad_norm": 15.450551986694336,
      "learning_rate": 4.914140450650692e-05,
      "loss": 0.5192,
      "num_input_tokens_seen": 13658880,
      "step": 23540
    },
    {
      "epoch": 3.5068513553768246,
      "grad_norm": 24.350000381469727,
      "learning_rate": 4.9140560027217106e-05,
      "loss": 0.4758,
      "num_input_tokens_seen": 13661792,
      "step": 23545
    },
    {
      "epoch": 3.5075960679177838,
      "grad_norm": 3.7520806789398193,
      "learning_rate": 4.9139715140097075e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 13664576,
      "step": 23550
    },
    {
      "epoch": 3.508340780458743,
      "grad_norm": 8.852445602416992,
      "learning_rate": 4.9138869845161086e-05,
      "loss": 0.1905,
      "num_input_tokens_seen": 13667104,
      "step": 23555
    },
    {
      "epoch": 3.509085492999702,
      "grad_norm": 10.74148178100586,
      "learning_rate": 4.913802414242342e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 13669760,
      "step": 23560
    },
    {
      "epoch": 3.5098302055406614,
      "grad_norm": 10.382681846618652,
      "learning_rate": 4.913717803189838e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 13672512,
      "step": 23565
    },
    {
      "epoch": 3.5105749180816206,
      "grad_norm": 10.48095417022705,
      "learning_rate": 4.913633151360024e-05,
      "loss": 0.7125,
      "num_input_tokens_seen": 13675296,
      "step": 23570
    },
    {
      "epoch": 3.51131963062258,
      "grad_norm": 3.3232533931732178,
      "learning_rate": 4.913548458754331e-05,
      "loss": 0.2745,
      "num_input_tokens_seen": 13678048,
      "step": 23575
    },
    {
      "epoch": 3.512064343163539,
      "grad_norm": 1.2584397792816162,
      "learning_rate": 4.91346372537419e-05,
      "loss": 0.2631,
      "num_input_tokens_seen": 13680896,
      "step": 23580
    },
    {
      "epoch": 3.512809055704498,
      "grad_norm": 2.695634365081787,
      "learning_rate": 4.913378951221033e-05,
      "loss": 0.3746,
      "num_input_tokens_seen": 13683712,
      "step": 23585
    },
    {
      "epoch": 3.5135537682454574,
      "grad_norm": 14.647562980651855,
      "learning_rate": 4.9132941362962905e-05,
      "loss": 0.5604,
      "num_input_tokens_seen": 13686656,
      "step": 23590
    },
    {
      "epoch": 3.5142984807864166,
      "grad_norm": 13.949831008911133,
      "learning_rate": 4.913209280601396e-05,
      "loss": 0.4309,
      "num_input_tokens_seen": 13689568,
      "step": 23595
    },
    {
      "epoch": 3.515043193327376,
      "grad_norm": 49.985416412353516,
      "learning_rate": 4.913124384137784e-05,
      "loss": 0.4615,
      "num_input_tokens_seen": 13692416,
      "step": 23600
    },
    {
      "epoch": 3.5157879058683346,
      "grad_norm": 3.209240436553955,
      "learning_rate": 4.9130394469068886e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 13695328,
      "step": 23605
    },
    {
      "epoch": 3.516532618409294,
      "grad_norm": 25.55762481689453,
      "learning_rate": 4.9129544689101437e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 13698208,
      "step": 23610
    },
    {
      "epoch": 3.517277330950253,
      "grad_norm": 17.58118438720703,
      "learning_rate": 4.912869450148986e-05,
      "loss": 0.3231,
      "num_input_tokens_seen": 13701056,
      "step": 23615
    },
    {
      "epoch": 3.5180220434912126,
      "grad_norm": 16.887813568115234,
      "learning_rate": 4.9127843906248504e-05,
      "loss": 0.403,
      "num_input_tokens_seen": 13704224,
      "step": 23620
    },
    {
      "epoch": 3.5187667560321714,
      "grad_norm": 6.481619834899902,
      "learning_rate": 4.912699290339175e-05,
      "loss": 0.2301,
      "num_input_tokens_seen": 13707008,
      "step": 23625
    },
    {
      "epoch": 3.519511468573131,
      "grad_norm": 7.225183486938477,
      "learning_rate": 4.912614149293398e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 13710144,
      "step": 23630
    },
    {
      "epoch": 3.5202561811140898,
      "grad_norm": 8.061638832092285,
      "learning_rate": 4.9125289674889566e-05,
      "loss": 0.2606,
      "num_input_tokens_seen": 13713248,
      "step": 23635
    },
    {
      "epoch": 3.5210008936550494,
      "grad_norm": 15.817299842834473,
      "learning_rate": 4.91244374492729e-05,
      "loss": 0.5763,
      "num_input_tokens_seen": 13716160,
      "step": 23640
    },
    {
      "epoch": 3.521745606196008,
      "grad_norm": 18.826030731201172,
      "learning_rate": 4.912358481609838e-05,
      "loss": 0.6343,
      "num_input_tokens_seen": 13719232,
      "step": 23645
    },
    {
      "epoch": 3.5224903187369674,
      "grad_norm": 7.787363052368164,
      "learning_rate": 4.912273177538041e-05,
      "loss": 0.3773,
      "num_input_tokens_seen": 13722432,
      "step": 23650
    },
    {
      "epoch": 3.5232350312779266,
      "grad_norm": 4.689500331878662,
      "learning_rate": 4.912187832713342e-05,
      "loss": 0.127,
      "num_input_tokens_seen": 13725888,
      "step": 23655
    },
    {
      "epoch": 3.523979743818886,
      "grad_norm": 14.240312576293945,
      "learning_rate": 4.91210244713718e-05,
      "loss": 0.5696,
      "num_input_tokens_seen": 13728608,
      "step": 23660
    },
    {
      "epoch": 3.524724456359845,
      "grad_norm": 26.17395782470703,
      "learning_rate": 4.912017020810999e-05,
      "loss": 0.5993,
      "num_input_tokens_seen": 13731520,
      "step": 23665
    },
    {
      "epoch": 3.525469168900804,
      "grad_norm": 2.7348906993865967,
      "learning_rate": 4.911931553736242e-05,
      "loss": 0.3198,
      "num_input_tokens_seen": 13734176,
      "step": 23670
    },
    {
      "epoch": 3.5262138814417634,
      "grad_norm": 10.399338722229004,
      "learning_rate": 4.9118460459143524e-05,
      "loss": 0.4769,
      "num_input_tokens_seen": 13737152,
      "step": 23675
    },
    {
      "epoch": 3.5269585939827226,
      "grad_norm": 7.0041351318359375,
      "learning_rate": 4.9117604973467756e-05,
      "loss": 0.5242,
      "num_input_tokens_seen": 13740288,
      "step": 23680
    },
    {
      "epoch": 3.527703306523682,
      "grad_norm": 14.37739372253418,
      "learning_rate": 4.9116749080349556e-05,
      "loss": 0.1747,
      "num_input_tokens_seen": 13743232,
      "step": 23685
    },
    {
      "epoch": 3.528448019064641,
      "grad_norm": 13.76008129119873,
      "learning_rate": 4.911589277980339e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 13745856,
      "step": 23690
    },
    {
      "epoch": 3.5291927316056,
      "grad_norm": 15.359929084777832,
      "learning_rate": 4.911503607184375e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 13748512,
      "step": 23695
    },
    {
      "epoch": 3.5299374441465594,
      "grad_norm": 5.144133567810059,
      "learning_rate": 4.911417895648506e-05,
      "loss": 0.3195,
      "num_input_tokens_seen": 13750976,
      "step": 23700
    },
    {
      "epoch": 3.5306821566875186,
      "grad_norm": 70.2121810913086,
      "learning_rate": 4.9113321433741835e-05,
      "loss": 0.3897,
      "num_input_tokens_seen": 13753984,
      "step": 23705
    },
    {
      "epoch": 3.531426869228478,
      "grad_norm": 12.788141250610352,
      "learning_rate": 4.9112463503628545e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 13756864,
      "step": 23710
    },
    {
      "epoch": 3.532171581769437,
      "grad_norm": 2.006532907485962,
      "learning_rate": 4.91116051661597e-05,
      "loss": 0.2255,
      "num_input_tokens_seen": 13759648,
      "step": 23715
    },
    {
      "epoch": 3.532916294310396,
      "grad_norm": 27.633548736572266,
      "learning_rate": 4.911074642134979e-05,
      "loss": 0.2319,
      "num_input_tokens_seen": 13762528,
      "step": 23720
    },
    {
      "epoch": 3.5336610068513554,
      "grad_norm": 2.7462737560272217,
      "learning_rate": 4.9109887269213315e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 13765600,
      "step": 23725
    },
    {
      "epoch": 3.5344057193923146,
      "grad_norm": 20.1324405670166,
      "learning_rate": 4.910902770976481e-05,
      "loss": 0.6074,
      "num_input_tokens_seen": 13768544,
      "step": 23730
    },
    {
      "epoch": 3.535150431933274,
      "grad_norm": 11.085397720336914,
      "learning_rate": 4.910816774301878e-05,
      "loss": 0.347,
      "num_input_tokens_seen": 13771680,
      "step": 23735
    },
    {
      "epoch": 3.535895144474233,
      "grad_norm": 9.1593017578125,
      "learning_rate": 4.910730736898976e-05,
      "loss": 0.6264,
      "num_input_tokens_seen": 13774560,
      "step": 23740
    },
    {
      "epoch": 3.5366398570151922,
      "grad_norm": 9.571466445922852,
      "learning_rate": 4.9106446587692276e-05,
      "loss": 0.2745,
      "num_input_tokens_seen": 13777728,
      "step": 23745
    },
    {
      "epoch": 3.5373845695561514,
      "grad_norm": 29.237289428710938,
      "learning_rate": 4.910558539914088e-05,
      "loss": 0.7858,
      "num_input_tokens_seen": 13780608,
      "step": 23750
    },
    {
      "epoch": 3.5381292820971106,
      "grad_norm": 21.07897186279297,
      "learning_rate": 4.910472380335013e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 13783360,
      "step": 23755
    },
    {
      "epoch": 3.53887399463807,
      "grad_norm": 12.238258361816406,
      "learning_rate": 4.9103861800334567e-05,
      "loss": 0.6909,
      "num_input_tokens_seen": 13786112,
      "step": 23760
    },
    {
      "epoch": 3.539618707179029,
      "grad_norm": 5.4687724113464355,
      "learning_rate": 4.9102999390108753e-05,
      "loss": 0.3409,
      "num_input_tokens_seen": 13788832,
      "step": 23765
    },
    {
      "epoch": 3.5403634197199882,
      "grad_norm": 15.817038536071777,
      "learning_rate": 4.910213657268726e-05,
      "loss": 0.3203,
      "num_input_tokens_seen": 13791808,
      "step": 23770
    },
    {
      "epoch": 3.5411081322609474,
      "grad_norm": 12.04927921295166,
      "learning_rate": 4.910127334808466e-05,
      "loss": 0.4595,
      "num_input_tokens_seen": 13794592,
      "step": 23775
    },
    {
      "epoch": 3.541852844801906,
      "grad_norm": 6.891033172607422,
      "learning_rate": 4.9100409716315556e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 13797792,
      "step": 23780
    },
    {
      "epoch": 3.542597557342866,
      "grad_norm": 18.40360450744629,
      "learning_rate": 4.909954567739452e-05,
      "loss": 0.6024,
      "num_input_tokens_seen": 13800832,
      "step": 23785
    },
    {
      "epoch": 3.5433422698838246,
      "grad_norm": 18.039695739746094,
      "learning_rate": 4.909868123133615e-05,
      "loss": 0.6514,
      "num_input_tokens_seen": 13803776,
      "step": 23790
    },
    {
      "epoch": 3.5440869824247843,
      "grad_norm": 7.338389873504639,
      "learning_rate": 4.909781637815506e-05,
      "loss": 0.4841,
      "num_input_tokens_seen": 13806656,
      "step": 23795
    },
    {
      "epoch": 3.544831694965743,
      "grad_norm": 20.946746826171875,
      "learning_rate": 4.909695111786584e-05,
      "loss": 0.5061,
      "num_input_tokens_seen": 13809472,
      "step": 23800
    },
    {
      "epoch": 3.5455764075067027,
      "grad_norm": 15.251047134399414,
      "learning_rate": 4.9096085450483134e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 13812288,
      "step": 23805
    },
    {
      "epoch": 3.5463211200476614,
      "grad_norm": 11.72778606414795,
      "learning_rate": 4.909521937602155e-05,
      "loss": 0.4187,
      "num_input_tokens_seen": 13814944,
      "step": 23810
    },
    {
      "epoch": 3.5470658325886206,
      "grad_norm": 10.147934913635254,
      "learning_rate": 4.909435289449573e-05,
      "loss": 0.3628,
      "num_input_tokens_seen": 13818048,
      "step": 23815
    },
    {
      "epoch": 3.54781054512958,
      "grad_norm": 7.372814655303955,
      "learning_rate": 4.90934860059203e-05,
      "loss": 0.2799,
      "num_input_tokens_seen": 13821120,
      "step": 23820
    },
    {
      "epoch": 3.548555257670539,
      "grad_norm": 13.216251373291016,
      "learning_rate": 4.909261871030991e-05,
      "loss": 0.6833,
      "num_input_tokens_seen": 13824096,
      "step": 23825
    },
    {
      "epoch": 3.5492999702114982,
      "grad_norm": 29.676198959350586,
      "learning_rate": 4.9091751007679224e-05,
      "loss": 0.535,
      "num_input_tokens_seen": 13826880,
      "step": 23830
    },
    {
      "epoch": 3.5500446827524574,
      "grad_norm": 11.052757263183594,
      "learning_rate": 4.9090882898042876e-05,
      "loss": 0.3325,
      "num_input_tokens_seen": 13829888,
      "step": 23835
    },
    {
      "epoch": 3.5507893952934166,
      "grad_norm": 5.8481926918029785,
      "learning_rate": 4.909001438141556e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 13832544,
      "step": 23840
    },
    {
      "epoch": 3.551534107834376,
      "grad_norm": 16.393903732299805,
      "learning_rate": 4.908914545781192e-05,
      "loss": 0.5056,
      "num_input_tokens_seen": 13835104,
      "step": 23845
    },
    {
      "epoch": 3.552278820375335,
      "grad_norm": 9.375359535217285,
      "learning_rate": 4.9088276127246666e-05,
      "loss": 0.4208,
      "num_input_tokens_seen": 13838464,
      "step": 23850
    },
    {
      "epoch": 3.5530235329162942,
      "grad_norm": 2.670170783996582,
      "learning_rate": 4.9087406389734465e-05,
      "loss": 0.2386,
      "num_input_tokens_seen": 13841536,
      "step": 23855
    },
    {
      "epoch": 3.5537682454572534,
      "grad_norm": 16.30801010131836,
      "learning_rate": 4.908653624529001e-05,
      "loss": 0.5417,
      "num_input_tokens_seen": 13844896,
      "step": 23860
    },
    {
      "epoch": 3.5545129579982127,
      "grad_norm": 0.8850709795951843,
      "learning_rate": 4.908566569392801e-05,
      "loss": 0.5116,
      "num_input_tokens_seen": 13848032,
      "step": 23865
    },
    {
      "epoch": 3.555257670539172,
      "grad_norm": 13.130738258361816,
      "learning_rate": 4.908479473566316e-05,
      "loss": 0.577,
      "num_input_tokens_seen": 13850944,
      "step": 23870
    },
    {
      "epoch": 3.556002383080131,
      "grad_norm": 6.364781379699707,
      "learning_rate": 4.9083923370510184e-05,
      "loss": 0.5283,
      "num_input_tokens_seen": 13854112,
      "step": 23875
    },
    {
      "epoch": 3.5567470956210903,
      "grad_norm": 7.106431484222412,
      "learning_rate": 4.908305159848381e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 13857056,
      "step": 23880
    },
    {
      "epoch": 3.5574918081620495,
      "grad_norm": 8.419238090515137,
      "learning_rate": 4.908217941959875e-05,
      "loss": 0.527,
      "num_input_tokens_seen": 13859776,
      "step": 23885
    },
    {
      "epoch": 3.5582365207030087,
      "grad_norm": 7.431931018829346,
      "learning_rate": 4.908130683386974e-05,
      "loss": 0.3684,
      "num_input_tokens_seen": 13862912,
      "step": 23890
    },
    {
      "epoch": 3.558981233243968,
      "grad_norm": 10.228081703186035,
      "learning_rate": 4.9080433841311526e-05,
      "loss": 0.5293,
      "num_input_tokens_seen": 13866112,
      "step": 23895
    },
    {
      "epoch": 3.559725945784927,
      "grad_norm": 7.268383026123047,
      "learning_rate": 4.9079560441938865e-05,
      "loss": 0.3275,
      "num_input_tokens_seen": 13869120,
      "step": 23900
    },
    {
      "epoch": 3.5604706583258863,
      "grad_norm": 7.589715957641602,
      "learning_rate": 4.90786866357665e-05,
      "loss": 0.3662,
      "num_input_tokens_seen": 13872256,
      "step": 23905
    },
    {
      "epoch": 3.5612153708668455,
      "grad_norm": 9.222982406616211,
      "learning_rate": 4.90778124228092e-05,
      "loss": 0.3781,
      "num_input_tokens_seen": 13875104,
      "step": 23910
    },
    {
      "epoch": 3.5619600834078047,
      "grad_norm": 20.26848602294922,
      "learning_rate": 4.907693780308172e-05,
      "loss": 0.3683,
      "num_input_tokens_seen": 13877888,
      "step": 23915
    },
    {
      "epoch": 3.562704795948764,
      "grad_norm": 1.7959998846054077,
      "learning_rate": 4.907606277659885e-05,
      "loss": 0.243,
      "num_input_tokens_seen": 13880864,
      "step": 23920
    },
    {
      "epoch": 3.563449508489723,
      "grad_norm": 10.038479804992676,
      "learning_rate": 4.907518734337538e-05,
      "loss": 0.4661,
      "num_input_tokens_seen": 13884000,
      "step": 23925
    },
    {
      "epoch": 3.5641942210306823,
      "grad_norm": 8.05700969696045,
      "learning_rate": 4.907431150342608e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 13886880,
      "step": 23930
    },
    {
      "epoch": 3.5649389335716415,
      "grad_norm": 8.785577774047852,
      "learning_rate": 4.907343525676575e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 13889856,
      "step": 23935
    },
    {
      "epoch": 3.5656836461126007,
      "grad_norm": 11.870805740356445,
      "learning_rate": 4.9072558603409216e-05,
      "loss": 0.6798,
      "num_input_tokens_seen": 13892704,
      "step": 23940
    },
    {
      "epoch": 3.5664283586535594,
      "grad_norm": 7.913797855377197,
      "learning_rate": 4.907168154337125e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 13896000,
      "step": 23945
    },
    {
      "epoch": 3.567173071194519,
      "grad_norm": 5.419726848602295,
      "learning_rate": 4.90708040766667e-05,
      "loss": 0.263,
      "num_input_tokens_seen": 13898816,
      "step": 23950
    },
    {
      "epoch": 3.567917783735478,
      "grad_norm": 13.688728332519531,
      "learning_rate": 4.906992620331038e-05,
      "loss": 0.4009,
      "num_input_tokens_seen": 13901632,
      "step": 23955
    },
    {
      "epoch": 3.5686624962764375,
      "grad_norm": 7.003317356109619,
      "learning_rate": 4.906904792331712e-05,
      "loss": 0.3811,
      "num_input_tokens_seen": 13904320,
      "step": 23960
    },
    {
      "epoch": 3.5694072088173963,
      "grad_norm": 8.08055591583252,
      "learning_rate": 4.906816923670176e-05,
      "loss": 0.3754,
      "num_input_tokens_seen": 13907296,
      "step": 23965
    },
    {
      "epoch": 3.570151921358356,
      "grad_norm": 12.038211822509766,
      "learning_rate": 4.906729014347914e-05,
      "loss": 0.5533,
      "num_input_tokens_seen": 13909888,
      "step": 23970
    },
    {
      "epoch": 3.5708966338993147,
      "grad_norm": 12.098748207092285,
      "learning_rate": 4.9066410643664113e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 13912928,
      "step": 23975
    },
    {
      "epoch": 3.5716413464402743,
      "grad_norm": 57.74964904785156,
      "learning_rate": 4.906553073727154e-05,
      "loss": 0.6055,
      "num_input_tokens_seen": 13915872,
      "step": 23980
    },
    {
      "epoch": 3.572386058981233,
      "grad_norm": 6.311816692352295,
      "learning_rate": 4.9064650424316284e-05,
      "loss": 0.4301,
      "num_input_tokens_seen": 13918592,
      "step": 23985
    },
    {
      "epoch": 3.5731307715221923,
      "grad_norm": 4.211574554443359,
      "learning_rate": 4.906376970481321e-05,
      "loss": 0.4503,
      "num_input_tokens_seen": 13921344,
      "step": 23990
    },
    {
      "epoch": 3.5738754840631515,
      "grad_norm": 23.15043830871582,
      "learning_rate": 4.9062888578777214e-05,
      "loss": 0.3924,
      "num_input_tokens_seen": 13923968,
      "step": 23995
    },
    {
      "epoch": 3.5746201966041107,
      "grad_norm": 11.767350196838379,
      "learning_rate": 4.906200704622317e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 13926816,
      "step": 24000
    },
    {
      "epoch": 3.57536490914507,
      "grad_norm": 33.65629196166992,
      "learning_rate": 4.906112510716597e-05,
      "loss": 0.4957,
      "num_input_tokens_seen": 13929824,
      "step": 24005
    },
    {
      "epoch": 3.576109621686029,
      "grad_norm": 21.559003829956055,
      "learning_rate": 4.906024276162052e-05,
      "loss": 0.6609,
      "num_input_tokens_seen": 13932544,
      "step": 24010
    },
    {
      "epoch": 3.5768543342269883,
      "grad_norm": 11.373544692993164,
      "learning_rate": 4.905936000960172e-05,
      "loss": 0.4505,
      "num_input_tokens_seen": 13935360,
      "step": 24015
    },
    {
      "epoch": 3.5775990467679475,
      "grad_norm": 12.516585350036621,
      "learning_rate": 4.905847685112448e-05,
      "loss": 0.2635,
      "num_input_tokens_seen": 13937952,
      "step": 24020
    },
    {
      "epoch": 3.5783437593089067,
      "grad_norm": 6.542710304260254,
      "learning_rate": 4.905759328620373e-05,
      "loss": 0.3203,
      "num_input_tokens_seen": 13940896,
      "step": 24025
    },
    {
      "epoch": 3.579088471849866,
      "grad_norm": 19.68467903137207,
      "learning_rate": 4.90567093148544e-05,
      "loss": 0.4012,
      "num_input_tokens_seen": 13943776,
      "step": 24030
    },
    {
      "epoch": 3.579833184390825,
      "grad_norm": 19.189069747924805,
      "learning_rate": 4.9055824937091406e-05,
      "loss": 0.5002,
      "num_input_tokens_seen": 13946720,
      "step": 24035
    },
    {
      "epoch": 3.5805778969317843,
      "grad_norm": 13.646224021911621,
      "learning_rate": 4.9054940152929704e-05,
      "loss": 0.5739,
      "num_input_tokens_seen": 13949664,
      "step": 24040
    },
    {
      "epoch": 3.5813226094727435,
      "grad_norm": 21.330278396606445,
      "learning_rate": 4.9054054962384235e-05,
      "loss": 0.5498,
      "num_input_tokens_seen": 13952512,
      "step": 24045
    },
    {
      "epoch": 3.5820673220137027,
      "grad_norm": 5.075709342956543,
      "learning_rate": 4.905316936546995e-05,
      "loss": 0.3118,
      "num_input_tokens_seen": 13955584,
      "step": 24050
    },
    {
      "epoch": 3.582812034554662,
      "grad_norm": 10.76340389251709,
      "learning_rate": 4.9052283362201823e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 13958336,
      "step": 24055
    },
    {
      "epoch": 3.583556747095621,
      "grad_norm": 7.326617240905762,
      "learning_rate": 4.9051396952594806e-05,
      "loss": 0.295,
      "num_input_tokens_seen": 13961312,
      "step": 24060
    },
    {
      "epoch": 3.5843014596365803,
      "grad_norm": 10.457255363464355,
      "learning_rate": 4.905051013666389e-05,
      "loss": 0.5498,
      "num_input_tokens_seen": 13963936,
      "step": 24065
    },
    {
      "epoch": 3.5850461721775395,
      "grad_norm": 10.64521598815918,
      "learning_rate": 4.904962291442404e-05,
      "loss": 0.5752,
      "num_input_tokens_seen": 13967264,
      "step": 24070
    },
    {
      "epoch": 3.5857908847184987,
      "grad_norm": 9.9817476272583,
      "learning_rate": 4.904873528589027e-05,
      "loss": 0.475,
      "num_input_tokens_seen": 13970336,
      "step": 24075
    },
    {
      "epoch": 3.586535597259458,
      "grad_norm": 10.107742309570312,
      "learning_rate": 4.9047847251077544e-05,
      "loss": 0.5401,
      "num_input_tokens_seen": 13973024,
      "step": 24080
    },
    {
      "epoch": 3.587280309800417,
      "grad_norm": 1.8820350170135498,
      "learning_rate": 4.904695881000089e-05,
      "loss": 0.249,
      "num_input_tokens_seen": 13976032,
      "step": 24085
    },
    {
      "epoch": 3.5880250223413763,
      "grad_norm": 14.043815612792969,
      "learning_rate": 4.90460699626753e-05,
      "loss": 0.5332,
      "num_input_tokens_seen": 13978880,
      "step": 24090
    },
    {
      "epoch": 3.5887697348823355,
      "grad_norm": 30.16767120361328,
      "learning_rate": 4.90451807091158e-05,
      "loss": 0.627,
      "num_input_tokens_seen": 13981504,
      "step": 24095
    },
    {
      "epoch": 3.5895144474232947,
      "grad_norm": 3.5906753540039062,
      "learning_rate": 4.904429104933741e-05,
      "loss": 0.4553,
      "num_input_tokens_seen": 13984256,
      "step": 24100
    },
    {
      "epoch": 3.590259159964254,
      "grad_norm": 8.11169719696045,
      "learning_rate": 4.904340098335516e-05,
      "loss": 0.4686,
      "num_input_tokens_seen": 13987104,
      "step": 24105
    },
    {
      "epoch": 3.591003872505213,
      "grad_norm": 6.031275749206543,
      "learning_rate": 4.904251051118408e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 13990176,
      "step": 24110
    },
    {
      "epoch": 3.5917485850461723,
      "grad_norm": 12.75700569152832,
      "learning_rate": 4.904161963283923e-05,
      "loss": 0.3573,
      "num_input_tokens_seen": 13993184,
      "step": 24115
    },
    {
      "epoch": 3.592493297587131,
      "grad_norm": 19.230714797973633,
      "learning_rate": 4.9040728348335655e-05,
      "loss": 0.7169,
      "num_input_tokens_seen": 13996224,
      "step": 24120
    },
    {
      "epoch": 3.5932380101280907,
      "grad_norm": 11.24781322479248,
      "learning_rate": 4.90398366576884e-05,
      "loss": 0.3408,
      "num_input_tokens_seen": 13998784,
      "step": 24125
    },
    {
      "epoch": 3.5939827226690495,
      "grad_norm": 17.656631469726562,
      "learning_rate": 4.903894456091254e-05,
      "loss": 0.5226,
      "num_input_tokens_seen": 14001728,
      "step": 24130
    },
    {
      "epoch": 3.594727435210009,
      "grad_norm": 2.0910916328430176,
      "learning_rate": 4.903805205802314e-05,
      "loss": 0.3518,
      "num_input_tokens_seen": 14004672,
      "step": 24135
    },
    {
      "epoch": 3.595472147750968,
      "grad_norm": 8.904484748840332,
      "learning_rate": 4.903715914903529e-05,
      "loss": 0.48,
      "num_input_tokens_seen": 14007616,
      "step": 24140
    },
    {
      "epoch": 3.5962168602919276,
      "grad_norm": 11.051657676696777,
      "learning_rate": 4.9036265833964057e-05,
      "loss": 0.3563,
      "num_input_tokens_seen": 14010592,
      "step": 24145
    },
    {
      "epoch": 3.5969615728328863,
      "grad_norm": 12.63660717010498,
      "learning_rate": 4.903537211282455e-05,
      "loss": 0.5872,
      "num_input_tokens_seen": 14013760,
      "step": 24150
    },
    {
      "epoch": 3.597706285373846,
      "grad_norm": 12.337236404418945,
      "learning_rate": 4.9034477985631854e-05,
      "loss": 0.4193,
      "num_input_tokens_seen": 14016448,
      "step": 24155
    },
    {
      "epoch": 3.5984509979148047,
      "grad_norm": 8.256464004516602,
      "learning_rate": 4.903358345240109e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 14019456,
      "step": 24160
    },
    {
      "epoch": 3.599195710455764,
      "grad_norm": 4.821138858795166,
      "learning_rate": 4.903268851314735e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 14022496,
      "step": 24165
    },
    {
      "epoch": 3.599940422996723,
      "grad_norm": 9.116903305053711,
      "learning_rate": 4.903179316788577e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 14025344,
      "step": 24170
    },
    {
      "epoch": 3.6006851355376823,
      "grad_norm": 4.677274703979492,
      "learning_rate": 4.903089741663146e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 14028064,
      "step": 24175
    },
    {
      "epoch": 3.6014298480786415,
      "grad_norm": 9.531100273132324,
      "learning_rate": 4.9030001259399563e-05,
      "loss": 0.4442,
      "num_input_tokens_seen": 14030912,
      "step": 24180
    },
    {
      "epoch": 3.6021745606196007,
      "grad_norm": 21.47626304626465,
      "learning_rate": 4.9029104696205225e-05,
      "loss": 0.3949,
      "num_input_tokens_seen": 14034080,
      "step": 24185
    },
    {
      "epoch": 3.60291927316056,
      "grad_norm": 14.037919044494629,
      "learning_rate": 4.9028207727063576e-05,
      "loss": 0.5661,
      "num_input_tokens_seen": 14036800,
      "step": 24190
    },
    {
      "epoch": 3.603663985701519,
      "grad_norm": 1.7726235389709473,
      "learning_rate": 4.902731035198979e-05,
      "loss": 0.3434,
      "num_input_tokens_seen": 14039648,
      "step": 24195
    },
    {
      "epoch": 3.6044086982424783,
      "grad_norm": 17.84572982788086,
      "learning_rate": 4.902641257099901e-05,
      "loss": 0.4296,
      "num_input_tokens_seen": 14042368,
      "step": 24200
    },
    {
      "epoch": 3.6051534107834375,
      "grad_norm": 10.02170467376709,
      "learning_rate": 4.9025514384106414e-05,
      "loss": 0.4181,
      "num_input_tokens_seen": 14045120,
      "step": 24205
    },
    {
      "epoch": 3.6058981233243967,
      "grad_norm": 31.224958419799805,
      "learning_rate": 4.902461579132717e-05,
      "loss": 0.4085,
      "num_input_tokens_seen": 14047808,
      "step": 24210
    },
    {
      "epoch": 3.606642835865356,
      "grad_norm": 4.242159843444824,
      "learning_rate": 4.902371679267646e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 14050400,
      "step": 24215
    },
    {
      "epoch": 3.607387548406315,
      "grad_norm": 26.27926254272461,
      "learning_rate": 4.9022817388169464e-05,
      "loss": 0.3919,
      "num_input_tokens_seen": 14053568,
      "step": 24220
    },
    {
      "epoch": 3.6081322609472744,
      "grad_norm": 7.424520492553711,
      "learning_rate": 4.9021917577821386e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 14056704,
      "step": 24225
    },
    {
      "epoch": 3.6088769734882336,
      "grad_norm": 20.645986557006836,
      "learning_rate": 4.902101736164742e-05,
      "loss": 0.3869,
      "num_input_tokens_seen": 14059456,
      "step": 24230
    },
    {
      "epoch": 3.6096216860291928,
      "grad_norm": 7.781244277954102,
      "learning_rate": 4.902011673966279e-05,
      "loss": 0.3568,
      "num_input_tokens_seen": 14062400,
      "step": 24235
    },
    {
      "epoch": 3.610366398570152,
      "grad_norm": 5.463427543640137,
      "learning_rate": 4.90192157118827e-05,
      "loss": 0.3529,
      "num_input_tokens_seen": 14065376,
      "step": 24240
    },
    {
      "epoch": 3.611111111111111,
      "grad_norm": 8.213089942932129,
      "learning_rate": 4.901831427832237e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 14068064,
      "step": 24245
    },
    {
      "epoch": 3.6118558236520704,
      "grad_norm": 6.698837757110596,
      "learning_rate": 4.9017412438997026e-05,
      "loss": 0.3287,
      "num_input_tokens_seen": 14071040,
      "step": 24250
    },
    {
      "epoch": 3.6126005361930296,
      "grad_norm": 5.192605972290039,
      "learning_rate": 4.901651019392191e-05,
      "loss": 0.3563,
      "num_input_tokens_seen": 14073984,
      "step": 24255
    },
    {
      "epoch": 3.6133452487339888,
      "grad_norm": 14.246106147766113,
      "learning_rate": 4.901560754311227e-05,
      "loss": 0.4333,
      "num_input_tokens_seen": 14076800,
      "step": 24260
    },
    {
      "epoch": 3.614089961274948,
      "grad_norm": 17.94399642944336,
      "learning_rate": 4.901470448658335e-05,
      "loss": 0.5346,
      "num_input_tokens_seen": 14079712,
      "step": 24265
    },
    {
      "epoch": 3.614834673815907,
      "grad_norm": 1.0472304821014404,
      "learning_rate": 4.9013801024350406e-05,
      "loss": 0.447,
      "num_input_tokens_seen": 14082336,
      "step": 24270
    },
    {
      "epoch": 3.6155793863568664,
      "grad_norm": 29.421415328979492,
      "learning_rate": 4.9012897156428694e-05,
      "loss": 0.3815,
      "num_input_tokens_seen": 14085216,
      "step": 24275
    },
    {
      "epoch": 3.6163240988978256,
      "grad_norm": 6.733275890350342,
      "learning_rate": 4.901199288283349e-05,
      "loss": 0.296,
      "num_input_tokens_seen": 14088128,
      "step": 24280
    },
    {
      "epoch": 3.617068811438785,
      "grad_norm": 11.861148834228516,
      "learning_rate": 4.901108820358008e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 14091104,
      "step": 24285
    },
    {
      "epoch": 3.617813523979744,
      "grad_norm": 9.590642929077148,
      "learning_rate": 4.901018311868373e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 14094048,
      "step": 24290
    },
    {
      "epoch": 3.6185582365207027,
      "grad_norm": 14.475610733032227,
      "learning_rate": 4.9009277628159744e-05,
      "loss": 0.3883,
      "num_input_tokens_seen": 14096704,
      "step": 24295
    },
    {
      "epoch": 3.6193029490616624,
      "grad_norm": 15.497757911682129,
      "learning_rate": 4.900837173202341e-05,
      "loss": 0.5386,
      "num_input_tokens_seen": 14099584,
      "step": 24300
    },
    {
      "epoch": 3.620047661602621,
      "grad_norm": 5.723756790161133,
      "learning_rate": 4.900746543029003e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 14102496,
      "step": 24305
    },
    {
      "epoch": 3.620792374143581,
      "grad_norm": 4.102283000946045,
      "learning_rate": 4.900655872297494e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 14105408,
      "step": 24310
    },
    {
      "epoch": 3.6215370866845396,
      "grad_norm": 5.722045421600342,
      "learning_rate": 4.900565161009343e-05,
      "loss": 0.3053,
      "num_input_tokens_seen": 14108256,
      "step": 24315
    },
    {
      "epoch": 3.622281799225499,
      "grad_norm": 9.141998291015625,
      "learning_rate": 4.9004744091660826e-05,
      "loss": 0.4861,
      "num_input_tokens_seen": 14111424,
      "step": 24320
    },
    {
      "epoch": 3.623026511766458,
      "grad_norm": 3.782341957092285,
      "learning_rate": 4.900383616769247e-05,
      "loss": 0.1703,
      "num_input_tokens_seen": 14114272,
      "step": 24325
    },
    {
      "epoch": 3.6237712243074176,
      "grad_norm": 6.6912922859191895,
      "learning_rate": 4.900292783820371e-05,
      "loss": 0.4805,
      "num_input_tokens_seen": 14117056,
      "step": 24330
    },
    {
      "epoch": 3.6245159368483764,
      "grad_norm": 4.116621017456055,
      "learning_rate": 4.9002019103209875e-05,
      "loss": 0.2855,
      "num_input_tokens_seen": 14119776,
      "step": 24335
    },
    {
      "epoch": 3.6252606493893356,
      "grad_norm": 18.844881057739258,
      "learning_rate": 4.9001109962726323e-05,
      "loss": 0.4739,
      "num_input_tokens_seen": 14123072,
      "step": 24340
    },
    {
      "epoch": 3.6260053619302948,
      "grad_norm": 9.907949447631836,
      "learning_rate": 4.9000200416768405e-05,
      "loss": 0.3617,
      "num_input_tokens_seen": 14125920,
      "step": 24345
    },
    {
      "epoch": 3.626750074471254,
      "grad_norm": 9.804582595825195,
      "learning_rate": 4.89992904653515e-05,
      "loss": 0.5351,
      "num_input_tokens_seen": 14128896,
      "step": 24350
    },
    {
      "epoch": 3.627494787012213,
      "grad_norm": 9.269818305969238,
      "learning_rate": 4.899838010849097e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 14131904,
      "step": 24355
    },
    {
      "epoch": 3.6282394995531724,
      "grad_norm": 28.353233337402344,
      "learning_rate": 4.89974693462022e-05,
      "loss": 0.3258,
      "num_input_tokens_seen": 14135168,
      "step": 24360
    },
    {
      "epoch": 3.6289842120941316,
      "grad_norm": 6.661331653594971,
      "learning_rate": 4.899655817850058e-05,
      "loss": 0.3264,
      "num_input_tokens_seen": 14138176,
      "step": 24365
    },
    {
      "epoch": 3.629728924635091,
      "grad_norm": 21.675397872924805,
      "learning_rate": 4.899564660540149e-05,
      "loss": 0.7024,
      "num_input_tokens_seen": 14140992,
      "step": 24370
    },
    {
      "epoch": 3.63047363717605,
      "grad_norm": 25.639759063720703,
      "learning_rate": 4.899473462692035e-05,
      "loss": 0.4919,
      "num_input_tokens_seen": 14143744,
      "step": 24375
    },
    {
      "epoch": 3.631218349717009,
      "grad_norm": 8.73653507232666,
      "learning_rate": 4.899382224307255e-05,
      "loss": 0.3591,
      "num_input_tokens_seen": 14146624,
      "step": 24380
    },
    {
      "epoch": 3.6319630622579684,
      "grad_norm": 8.343445777893066,
      "learning_rate": 4.8992909453873505e-05,
      "loss": 0.4852,
      "num_input_tokens_seen": 14149248,
      "step": 24385
    },
    {
      "epoch": 3.6327077747989276,
      "grad_norm": 5.774757385253906,
      "learning_rate": 4.899199625933865e-05,
      "loss": 0.401,
      "num_input_tokens_seen": 14152320,
      "step": 24390
    },
    {
      "epoch": 3.633452487339887,
      "grad_norm": 0.9807206988334656,
      "learning_rate": 4.899108265948339e-05,
      "loss": 0.404,
      "num_input_tokens_seen": 14154880,
      "step": 24395
    },
    {
      "epoch": 3.634197199880846,
      "grad_norm": 11.459840774536133,
      "learning_rate": 4.899016865432318e-05,
      "loss": 0.4452,
      "num_input_tokens_seen": 14157920,
      "step": 24400
    },
    {
      "epoch": 3.634941912421805,
      "grad_norm": 8.997278213500977,
      "learning_rate": 4.898925424387345e-05,
      "loss": 0.3585,
      "num_input_tokens_seen": 14160768,
      "step": 24405
    },
    {
      "epoch": 3.6356866249627644,
      "grad_norm": 11.354303359985352,
      "learning_rate": 4.8988339428149656e-05,
      "loss": 0.4617,
      "num_input_tokens_seen": 14163488,
      "step": 24410
    },
    {
      "epoch": 3.6364313375037236,
      "grad_norm": 14.138376235961914,
      "learning_rate": 4.898742420716724e-05,
      "loss": 0.3723,
      "num_input_tokens_seen": 14166464,
      "step": 24415
    },
    {
      "epoch": 3.637176050044683,
      "grad_norm": 15.076339721679688,
      "learning_rate": 4.898650858094168e-05,
      "loss": 0.4293,
      "num_input_tokens_seen": 14169472,
      "step": 24420
    },
    {
      "epoch": 3.637920762585642,
      "grad_norm": 9.245407104492188,
      "learning_rate": 4.898559254948843e-05,
      "loss": 0.3023,
      "num_input_tokens_seen": 14172704,
      "step": 24425
    },
    {
      "epoch": 3.638665475126601,
      "grad_norm": 9.644871711730957,
      "learning_rate": 4.898467611282297e-05,
      "loss": 0.3393,
      "num_input_tokens_seen": 14175648,
      "step": 24430
    },
    {
      "epoch": 3.6394101876675604,
      "grad_norm": 6.756676197052002,
      "learning_rate": 4.8983759270960796e-05,
      "loss": 0.3731,
      "num_input_tokens_seen": 14178464,
      "step": 24435
    },
    {
      "epoch": 3.6401549002085196,
      "grad_norm": 5.486613750457764,
      "learning_rate": 4.8982842023917374e-05,
      "loss": 0.5087,
      "num_input_tokens_seen": 14181248,
      "step": 24440
    },
    {
      "epoch": 3.640899612749479,
      "grad_norm": 4.877336025238037,
      "learning_rate": 4.898192437170822e-05,
      "loss": 0.546,
      "num_input_tokens_seen": 14183936,
      "step": 24445
    },
    {
      "epoch": 3.641644325290438,
      "grad_norm": 3.6794638633728027,
      "learning_rate": 4.898100631434882e-05,
      "loss": 0.6426,
      "num_input_tokens_seen": 14186816,
      "step": 24450
    },
    {
      "epoch": 3.6423890378313972,
      "grad_norm": 5.580479621887207,
      "learning_rate": 4.898008785185469e-05,
      "loss": 0.448,
      "num_input_tokens_seen": 14189760,
      "step": 24455
    },
    {
      "epoch": 3.6431337503723564,
      "grad_norm": 10.402627944946289,
      "learning_rate": 4.8979168984241354e-05,
      "loss": 0.4187,
      "num_input_tokens_seen": 14192608,
      "step": 24460
    },
    {
      "epoch": 3.6438784629133156,
      "grad_norm": 5.837158203125,
      "learning_rate": 4.8978249711524324e-05,
      "loss": 0.5,
      "num_input_tokens_seen": 14195744,
      "step": 24465
    },
    {
      "epoch": 3.6446231754542744,
      "grad_norm": 5.551314353942871,
      "learning_rate": 4.8977330033719147e-05,
      "loss": 0.4351,
      "num_input_tokens_seen": 14198720,
      "step": 24470
    },
    {
      "epoch": 3.645367887995234,
      "grad_norm": 6.247856140136719,
      "learning_rate": 4.897640995084133e-05,
      "loss": 0.2099,
      "num_input_tokens_seen": 14201600,
      "step": 24475
    },
    {
      "epoch": 3.646112600536193,
      "grad_norm": 4.273680210113525,
      "learning_rate": 4.8975489462906456e-05,
      "loss": 0.2923,
      "num_input_tokens_seen": 14204544,
      "step": 24480
    },
    {
      "epoch": 3.6468573130771524,
      "grad_norm": 6.868571758270264,
      "learning_rate": 4.897456856993004e-05,
      "loss": 0.5054,
      "num_input_tokens_seen": 14207392,
      "step": 24485
    },
    {
      "epoch": 3.647602025618111,
      "grad_norm": 13.468973159790039,
      "learning_rate": 4.897364727192766e-05,
      "loss": 0.7595,
      "num_input_tokens_seen": 14210656,
      "step": 24490
    },
    {
      "epoch": 3.648346738159071,
      "grad_norm": 13.373866081237793,
      "learning_rate": 4.897272556891487e-05,
      "loss": 0.397,
      "num_input_tokens_seen": 14213408,
      "step": 24495
    },
    {
      "epoch": 3.6490914507000296,
      "grad_norm": 5.397963523864746,
      "learning_rate": 4.897180346090726e-05,
      "loss": 0.1666,
      "num_input_tokens_seen": 14216448,
      "step": 24500
    },
    {
      "epoch": 3.6498361632409893,
      "grad_norm": 1.1420564651489258,
      "learning_rate": 4.8970880947920386e-05,
      "loss": 0.3711,
      "num_input_tokens_seen": 14219744,
      "step": 24505
    },
    {
      "epoch": 3.650580875781948,
      "grad_norm": 54.588008880615234,
      "learning_rate": 4.8969958029969834e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 14222880,
      "step": 24510
    },
    {
      "epoch": 3.651325588322907,
      "grad_norm": 0.4025406837463379,
      "learning_rate": 4.896903470707121e-05,
      "loss": 0.3238,
      "num_input_tokens_seen": 14225920,
      "step": 24515
    },
    {
      "epoch": 3.6520703008638664,
      "grad_norm": 28.036958694458008,
      "learning_rate": 4.89681109792401e-05,
      "loss": 0.5157,
      "num_input_tokens_seen": 14229184,
      "step": 24520
    },
    {
      "epoch": 3.6528150134048256,
      "grad_norm": 8.596092224121094,
      "learning_rate": 4.896718684649213e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 14231808,
      "step": 24525
    },
    {
      "epoch": 3.653559725945785,
      "grad_norm": 10.500535011291504,
      "learning_rate": 4.8966262308842885e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 14234464,
      "step": 24530
    },
    {
      "epoch": 3.654304438486744,
      "grad_norm": 24.428512573242188,
      "learning_rate": 4.8965337366308e-05,
      "loss": 0.2806,
      "num_input_tokens_seen": 14237696,
      "step": 24535
    },
    {
      "epoch": 3.6550491510277032,
      "grad_norm": 6.484407424926758,
      "learning_rate": 4.896441201890309e-05,
      "loss": 0.6686,
      "num_input_tokens_seen": 14240608,
      "step": 24540
    },
    {
      "epoch": 3.6557938635686624,
      "grad_norm": 17.708127975463867,
      "learning_rate": 4.896348626664381e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 14243648,
      "step": 24545
    },
    {
      "epoch": 3.6565385761096216,
      "grad_norm": 10.51017951965332,
      "learning_rate": 4.896256010954578e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 14246688,
      "step": 24550
    },
    {
      "epoch": 3.657283288650581,
      "grad_norm": 20.76322364807129,
      "learning_rate": 4.896163354762464e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 14249632,
      "step": 24555
    },
    {
      "epoch": 3.65802800119154,
      "grad_norm": 17.851451873779297,
      "learning_rate": 4.8960706580896066e-05,
      "loss": 0.585,
      "num_input_tokens_seen": 14252352,
      "step": 24560
    },
    {
      "epoch": 3.6587727137324992,
      "grad_norm": 10.413288116455078,
      "learning_rate": 4.8959779209375703e-05,
      "loss": 0.3973,
      "num_input_tokens_seen": 14255296,
      "step": 24565
    },
    {
      "epoch": 3.6595174262734584,
      "grad_norm": 5.097317695617676,
      "learning_rate": 4.895885143307922e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 14258016,
      "step": 24570
    },
    {
      "epoch": 3.6602621388144176,
      "grad_norm": 15.427284240722656,
      "learning_rate": 4.8957923252022304e-05,
      "loss": 0.3211,
      "num_input_tokens_seen": 14261024,
      "step": 24575
    },
    {
      "epoch": 3.661006851355377,
      "grad_norm": 7.056861877441406,
      "learning_rate": 4.8956994666220615e-05,
      "loss": 0.2252,
      "num_input_tokens_seen": 14263680,
      "step": 24580
    },
    {
      "epoch": 3.661751563896336,
      "grad_norm": 16.87603187561035,
      "learning_rate": 4.895606567568985e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 14266688,
      "step": 24585
    },
    {
      "epoch": 3.6624962764372953,
      "grad_norm": 12.122537612915039,
      "learning_rate": 4.8955136280445704e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 14269568,
      "step": 24590
    },
    {
      "epoch": 3.6632409889782545,
      "grad_norm": 11.21245288848877,
      "learning_rate": 4.895420648050388e-05,
      "loss": 0.2692,
      "num_input_tokens_seen": 14272672,
      "step": 24595
    },
    {
      "epoch": 3.6639857015192137,
      "grad_norm": 7.852422714233398,
      "learning_rate": 4.895327627588008e-05,
      "loss": 0.2887,
      "num_input_tokens_seen": 14275424,
      "step": 24600
    },
    {
      "epoch": 3.664730414060173,
      "grad_norm": 5.519202709197998,
      "learning_rate": 4.8952345666590025e-05,
      "loss": 0.4803,
      "num_input_tokens_seen": 14278144,
      "step": 24605
    },
    {
      "epoch": 3.665475126601132,
      "grad_norm": 6.469484329223633,
      "learning_rate": 4.895141465264943e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 14281056,
      "step": 24610
    },
    {
      "epoch": 3.6662198391420913,
      "grad_norm": 16.49576187133789,
      "learning_rate": 4.895048323407403e-05,
      "loss": 0.4849,
      "num_input_tokens_seen": 14283712,
      "step": 24615
    },
    {
      "epoch": 3.6669645516830505,
      "grad_norm": 18.461116790771484,
      "learning_rate": 4.894955141087956e-05,
      "loss": 0.5783,
      "num_input_tokens_seen": 14286688,
      "step": 24620
    },
    {
      "epoch": 3.6677092642240097,
      "grad_norm": 29.33285903930664,
      "learning_rate": 4.894861918308176e-05,
      "loss": 0.3234,
      "num_input_tokens_seen": 14289824,
      "step": 24625
    },
    {
      "epoch": 3.668453976764969,
      "grad_norm": 9.185029983520508,
      "learning_rate": 4.894768655069638e-05,
      "loss": 0.551,
      "num_input_tokens_seen": 14292416,
      "step": 24630
    },
    {
      "epoch": 3.669198689305928,
      "grad_norm": 13.957730293273926,
      "learning_rate": 4.8946753513739166e-05,
      "loss": 0.4088,
      "num_input_tokens_seen": 14295264,
      "step": 24635
    },
    {
      "epoch": 3.6699434018468873,
      "grad_norm": 11.96965503692627,
      "learning_rate": 4.89458200722259e-05,
      "loss": 0.4714,
      "num_input_tokens_seen": 14298112,
      "step": 24640
    },
    {
      "epoch": 3.670688114387846,
      "grad_norm": 14.207416534423828,
      "learning_rate": 4.894488622617234e-05,
      "loss": 0.3699,
      "num_input_tokens_seen": 14301024,
      "step": 24645
    },
    {
      "epoch": 3.6714328269288057,
      "grad_norm": 9.95388412475586,
      "learning_rate": 4.894395197559426e-05,
      "loss": 0.3242,
      "num_input_tokens_seen": 14303808,
      "step": 24650
    },
    {
      "epoch": 3.6721775394697644,
      "grad_norm": 8.893223762512207,
      "learning_rate": 4.8943017320507444e-05,
      "loss": 0.5947,
      "num_input_tokens_seen": 14306976,
      "step": 24655
    },
    {
      "epoch": 3.672922252010724,
      "grad_norm": 10.850061416625977,
      "learning_rate": 4.894208226092769e-05,
      "loss": 0.4995,
      "num_input_tokens_seen": 14309536,
      "step": 24660
    },
    {
      "epoch": 3.673666964551683,
      "grad_norm": 4.6127777099609375,
      "learning_rate": 4.894114679687079e-05,
      "loss": 0.3705,
      "num_input_tokens_seen": 14312512,
      "step": 24665
    },
    {
      "epoch": 3.6744116770926425,
      "grad_norm": 8.270918846130371,
      "learning_rate": 4.8940210928352545e-05,
      "loss": 0.5467,
      "num_input_tokens_seen": 14315456,
      "step": 24670
    },
    {
      "epoch": 3.6751563896336013,
      "grad_norm": 5.457873344421387,
      "learning_rate": 4.893927465538877e-05,
      "loss": 0.4611,
      "num_input_tokens_seen": 14318368,
      "step": 24675
    },
    {
      "epoch": 3.675901102174561,
      "grad_norm": 8.542411804199219,
      "learning_rate": 4.8938337977995286e-05,
      "loss": 0.5952,
      "num_input_tokens_seen": 14321184,
      "step": 24680
    },
    {
      "epoch": 3.6766458147155197,
      "grad_norm": 3.465833902359009,
      "learning_rate": 4.89374008961879e-05,
      "loss": 0.269,
      "num_input_tokens_seen": 14324096,
      "step": 24685
    },
    {
      "epoch": 3.677390527256479,
      "grad_norm": 10.467669486999512,
      "learning_rate": 4.8936463409982466e-05,
      "loss": 0.3577,
      "num_input_tokens_seen": 14326848,
      "step": 24690
    },
    {
      "epoch": 3.678135239797438,
      "grad_norm": 10.426287651062012,
      "learning_rate": 4.89355255193948e-05,
      "loss": 0.4908,
      "num_input_tokens_seen": 14329472,
      "step": 24695
    },
    {
      "epoch": 3.6788799523383973,
      "grad_norm": 24.44515609741211,
      "learning_rate": 4.893458722444076e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 14332384,
      "step": 24700
    },
    {
      "epoch": 3.6796246648793565,
      "grad_norm": 8.368768692016602,
      "learning_rate": 4.89336485251362e-05,
      "loss": 0.4746,
      "num_input_tokens_seen": 14335200,
      "step": 24705
    },
    {
      "epoch": 3.6803693774203157,
      "grad_norm": 12.677568435668945,
      "learning_rate": 4.893270942149697e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 14337920,
      "step": 24710
    },
    {
      "epoch": 3.681114089961275,
      "grad_norm": 9.880975723266602,
      "learning_rate": 4.8931769913538945e-05,
      "loss": 0.5124,
      "num_input_tokens_seen": 14341056,
      "step": 24715
    },
    {
      "epoch": 3.681858802502234,
      "grad_norm": 16.873821258544922,
      "learning_rate": 4.893083000127798e-05,
      "loss": 0.355,
      "num_input_tokens_seen": 14344000,
      "step": 24720
    },
    {
      "epoch": 3.6826035150431933,
      "grad_norm": 6.148866653442383,
      "learning_rate": 4.8929889684729966e-05,
      "loss": 0.4093,
      "num_input_tokens_seen": 14346944,
      "step": 24725
    },
    {
      "epoch": 3.6833482275841525,
      "grad_norm": 0.986209511756897,
      "learning_rate": 4.892894896391079e-05,
      "loss": 0.4673,
      "num_input_tokens_seen": 14349952,
      "step": 24730
    },
    {
      "epoch": 3.6840929401251117,
      "grad_norm": 9.878350257873535,
      "learning_rate": 4.892800783883635e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 14352896,
      "step": 24735
    },
    {
      "epoch": 3.684837652666071,
      "grad_norm": 4.34795618057251,
      "learning_rate": 4.892706630952253e-05,
      "loss": 0.4706,
      "num_input_tokens_seen": 14356000,
      "step": 24740
    },
    {
      "epoch": 3.68558236520703,
      "grad_norm": 1.0424079895019531,
      "learning_rate": 4.892612437598524e-05,
      "loss": 0.2679,
      "num_input_tokens_seen": 14358688,
      "step": 24745
    },
    {
      "epoch": 3.6863270777479893,
      "grad_norm": 7.543914794921875,
      "learning_rate": 4.8925182038240395e-05,
      "loss": 0.4825,
      "num_input_tokens_seen": 14361472,
      "step": 24750
    },
    {
      "epoch": 3.6870717902889485,
      "grad_norm": 8.475319862365723,
      "learning_rate": 4.892423929630392e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 14364480,
      "step": 24755
    },
    {
      "epoch": 3.6878165028299077,
      "grad_norm": 11.88212776184082,
      "learning_rate": 4.892329615019173e-05,
      "loss": 0.6915,
      "num_input_tokens_seen": 14367168,
      "step": 24760
    },
    {
      "epoch": 3.688561215370867,
      "grad_norm": 5.9016594886779785,
      "learning_rate": 4.892235259991977e-05,
      "loss": 0.2609,
      "num_input_tokens_seen": 14369888,
      "step": 24765
    },
    {
      "epoch": 3.689305927911826,
      "grad_norm": 15.357314109802246,
      "learning_rate": 4.8921408645503986e-05,
      "loss": 0.6922,
      "num_input_tokens_seen": 14372448,
      "step": 24770
    },
    {
      "epoch": 3.6900506404527853,
      "grad_norm": 9.424616813659668,
      "learning_rate": 4.892046428696031e-05,
      "loss": 0.5466,
      "num_input_tokens_seen": 14375424,
      "step": 24775
    },
    {
      "epoch": 3.6907953529937445,
      "grad_norm": 7.815620422363281,
      "learning_rate": 4.8919519524304704e-05,
      "loss": 0.3928,
      "num_input_tokens_seen": 14378176,
      "step": 24780
    },
    {
      "epoch": 3.6915400655347037,
      "grad_norm": 9.115769386291504,
      "learning_rate": 4.891857435755312e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 14381184,
      "step": 24785
    },
    {
      "epoch": 3.692284778075663,
      "grad_norm": 8.878314971923828,
      "learning_rate": 4.891762878672153e-05,
      "loss": 0.3719,
      "num_input_tokens_seen": 14384000,
      "step": 24790
    },
    {
      "epoch": 3.693029490616622,
      "grad_norm": 6.24280309677124,
      "learning_rate": 4.891668281182592e-05,
      "loss": 0.2719,
      "num_input_tokens_seen": 14386656,
      "step": 24795
    },
    {
      "epoch": 3.6937742031575813,
      "grad_norm": 10.566648483276367,
      "learning_rate": 4.8915736432882254e-05,
      "loss": 0.5989,
      "num_input_tokens_seen": 14389600,
      "step": 24800
    },
    {
      "epoch": 3.6945189156985405,
      "grad_norm": 13.571427345275879,
      "learning_rate": 4.891478964990653e-05,
      "loss": 0.4449,
      "num_input_tokens_seen": 14392672,
      "step": 24805
    },
    {
      "epoch": 3.6952636282394993,
      "grad_norm": 22.93195152282715,
      "learning_rate": 4.891384246291474e-05,
      "loss": 0.2852,
      "num_input_tokens_seen": 14395680,
      "step": 24810
    },
    {
      "epoch": 3.696008340780459,
      "grad_norm": 21.481779098510742,
      "learning_rate": 4.891289487192289e-05,
      "loss": 0.5556,
      "num_input_tokens_seen": 14398528,
      "step": 24815
    },
    {
      "epoch": 3.6967530533214177,
      "grad_norm": 1.7012478113174438,
      "learning_rate": 4.891194687694698e-05,
      "loss": 0.2921,
      "num_input_tokens_seen": 14401504,
      "step": 24820
    },
    {
      "epoch": 3.6974977658623773,
      "grad_norm": 20.621931076049805,
      "learning_rate": 4.8910998478003034e-05,
      "loss": 0.6021,
      "num_input_tokens_seen": 14404448,
      "step": 24825
    },
    {
      "epoch": 3.698242478403336,
      "grad_norm": 7.641036510467529,
      "learning_rate": 4.891004967510707e-05,
      "loss": 0.5511,
      "num_input_tokens_seen": 14407200,
      "step": 24830
    },
    {
      "epoch": 3.6989871909442957,
      "grad_norm": 9.36526870727539,
      "learning_rate": 4.890910046827511e-05,
      "loss": 0.4245,
      "num_input_tokens_seen": 14409984,
      "step": 24835
    },
    {
      "epoch": 3.6997319034852545,
      "grad_norm": 8.494271278381348,
      "learning_rate": 4.890815085752322e-05,
      "loss": 0.421,
      "num_input_tokens_seen": 14412736,
      "step": 24840
    },
    {
      "epoch": 3.700476616026214,
      "grad_norm": 7.234171390533447,
      "learning_rate": 4.890720084286739e-05,
      "loss": 0.434,
      "num_input_tokens_seen": 14415264,
      "step": 24845
    },
    {
      "epoch": 3.701221328567173,
      "grad_norm": 9.556473731994629,
      "learning_rate": 4.890625042432372e-05,
      "loss": 0.322,
      "num_input_tokens_seen": 14418144,
      "step": 24850
    },
    {
      "epoch": 3.701966041108132,
      "grad_norm": 8.938959121704102,
      "learning_rate": 4.890529960190825e-05,
      "loss": 0.3603,
      "num_input_tokens_seen": 14421056,
      "step": 24855
    },
    {
      "epoch": 3.7027107536490913,
      "grad_norm": 8.467735290527344,
      "learning_rate": 4.8904348375637025e-05,
      "loss": 0.3565,
      "num_input_tokens_seen": 14423680,
      "step": 24860
    },
    {
      "epoch": 3.7034554661900505,
      "grad_norm": 5.434738636016846,
      "learning_rate": 4.8903396745526144e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 14426656,
      "step": 24865
    },
    {
      "epoch": 3.7042001787310097,
      "grad_norm": 28.99575424194336,
      "learning_rate": 4.8902444711591656e-05,
      "loss": 0.299,
      "num_input_tokens_seen": 14429152,
      "step": 24870
    },
    {
      "epoch": 3.704944891271969,
      "grad_norm": 4.471677303314209,
      "learning_rate": 4.8901492273849666e-05,
      "loss": 0.2979,
      "num_input_tokens_seen": 14432160,
      "step": 24875
    },
    {
      "epoch": 3.705689603812928,
      "grad_norm": 10.738571166992188,
      "learning_rate": 4.890053943231625e-05,
      "loss": 0.2837,
      "num_input_tokens_seen": 14435008,
      "step": 24880
    },
    {
      "epoch": 3.7064343163538873,
      "grad_norm": 6.072676658630371,
      "learning_rate": 4.889958618700752e-05,
      "loss": 0.0912,
      "num_input_tokens_seen": 14437984,
      "step": 24885
    },
    {
      "epoch": 3.7071790288948465,
      "grad_norm": 17.094690322875977,
      "learning_rate": 4.8898632537939567e-05,
      "loss": 0.4231,
      "num_input_tokens_seen": 14440768,
      "step": 24890
    },
    {
      "epoch": 3.7079237414358057,
      "grad_norm": 8.204662322998047,
      "learning_rate": 4.889767848512851e-05,
      "loss": 0.3752,
      "num_input_tokens_seen": 14443648,
      "step": 24895
    },
    {
      "epoch": 3.708668453976765,
      "grad_norm": 20.88066291809082,
      "learning_rate": 4.889672402859046e-05,
      "loss": 0.5701,
      "num_input_tokens_seen": 14446400,
      "step": 24900
    },
    {
      "epoch": 3.709413166517724,
      "grad_norm": 10.676913261413574,
      "learning_rate": 4.8895769168341546e-05,
      "loss": 0.6497,
      "num_input_tokens_seen": 14449152,
      "step": 24905
    },
    {
      "epoch": 3.7101578790586833,
      "grad_norm": 8.401290893554688,
      "learning_rate": 4.8894813904397895e-05,
      "loss": 0.4466,
      "num_input_tokens_seen": 14452064,
      "step": 24910
    },
    {
      "epoch": 3.7109025915996425,
      "grad_norm": 12.451347351074219,
      "learning_rate": 4.889385823677565e-05,
      "loss": 0.4193,
      "num_input_tokens_seen": 14455072,
      "step": 24915
    },
    {
      "epoch": 3.7116473041406017,
      "grad_norm": 17.98444175720215,
      "learning_rate": 4.889290216549096e-05,
      "loss": 0.5444,
      "num_input_tokens_seen": 14457888,
      "step": 24920
    },
    {
      "epoch": 3.712392016681561,
      "grad_norm": 3.872947931289673,
      "learning_rate": 4.889194569055996e-05,
      "loss": 0.3688,
      "num_input_tokens_seen": 14460960,
      "step": 24925
    },
    {
      "epoch": 3.71313672922252,
      "grad_norm": 7.492311954498291,
      "learning_rate": 4.8890988811998835e-05,
      "loss": 0.3428,
      "num_input_tokens_seen": 14464000,
      "step": 24930
    },
    {
      "epoch": 3.7138814417634793,
      "grad_norm": 14.677741050720215,
      "learning_rate": 4.889003152982373e-05,
      "loss": 0.4534,
      "num_input_tokens_seen": 14467040,
      "step": 24935
    },
    {
      "epoch": 3.7146261543044385,
      "grad_norm": 9.705609321594238,
      "learning_rate": 4.888907384405082e-05,
      "loss": 0.648,
      "num_input_tokens_seen": 14469888,
      "step": 24940
    },
    {
      "epoch": 3.7153708668453977,
      "grad_norm": 12.015983581542969,
      "learning_rate": 4.888811575469629e-05,
      "loss": 0.3946,
      "num_input_tokens_seen": 14473280,
      "step": 24945
    },
    {
      "epoch": 3.716115579386357,
      "grad_norm": 3.7687482833862305,
      "learning_rate": 4.8887157261776316e-05,
      "loss": 0.2722,
      "num_input_tokens_seen": 14476192,
      "step": 24950
    },
    {
      "epoch": 3.716860291927316,
      "grad_norm": 11.681071281433105,
      "learning_rate": 4.888619836530711e-05,
      "loss": 0.2023,
      "num_input_tokens_seen": 14479168,
      "step": 24955
    },
    {
      "epoch": 3.7176050044682754,
      "grad_norm": 14.814179420471191,
      "learning_rate": 4.8885239065304855e-05,
      "loss": 0.5347,
      "num_input_tokens_seen": 14482336,
      "step": 24960
    },
    {
      "epoch": 3.7183497170092346,
      "grad_norm": 15.630097389221191,
      "learning_rate": 4.8884279361785754e-05,
      "loss": 0.6532,
      "num_input_tokens_seen": 14485120,
      "step": 24965
    },
    {
      "epoch": 3.7190944295501938,
      "grad_norm": 9.051989555358887,
      "learning_rate": 4.888331925476604e-05,
      "loss": 0.4184,
      "num_input_tokens_seen": 14488192,
      "step": 24970
    },
    {
      "epoch": 3.719839142091153,
      "grad_norm": 12.435956954956055,
      "learning_rate": 4.8882358744261914e-05,
      "loss": 0.4051,
      "num_input_tokens_seen": 14491360,
      "step": 24975
    },
    {
      "epoch": 3.720583854632112,
      "grad_norm": 11.06788158416748,
      "learning_rate": 4.888139783028961e-05,
      "loss": 0.3507,
      "num_input_tokens_seen": 14494016,
      "step": 24980
    },
    {
      "epoch": 3.721328567173071,
      "grad_norm": 1.3144676685333252,
      "learning_rate": 4.888043651286537e-05,
      "loss": 0.2699,
      "num_input_tokens_seen": 14496640,
      "step": 24985
    },
    {
      "epoch": 3.7220732797140306,
      "grad_norm": 4.652985095977783,
      "learning_rate": 4.887947479200542e-05,
      "loss": 0.4972,
      "num_input_tokens_seen": 14499808,
      "step": 24990
    },
    {
      "epoch": 3.7228179922549893,
      "grad_norm": 11.17846965789795,
      "learning_rate": 4.887851266772601e-05,
      "loss": 0.8824,
      "num_input_tokens_seen": 14502784,
      "step": 24995
    },
    {
      "epoch": 3.723562704795949,
      "grad_norm": 7.784226894378662,
      "learning_rate": 4.8877550140043404e-05,
      "loss": 0.4264,
      "num_input_tokens_seen": 14505792,
      "step": 25000
    },
    {
      "epoch": 3.7243074173369077,
      "grad_norm": 20.10154914855957,
      "learning_rate": 4.887658720897385e-05,
      "loss": 0.3354,
      "num_input_tokens_seen": 14508928,
      "step": 25005
    },
    {
      "epoch": 3.7250521298778674,
      "grad_norm": 5.525249004364014,
      "learning_rate": 4.8875623874533627e-05,
      "loss": 0.2708,
      "num_input_tokens_seen": 14511936,
      "step": 25010
    },
    {
      "epoch": 3.725796842418826,
      "grad_norm": 5.577963352203369,
      "learning_rate": 4.8874660136739e-05,
      "loss": 0.4622,
      "num_input_tokens_seen": 14514528,
      "step": 25015
    },
    {
      "epoch": 3.726541554959786,
      "grad_norm": 36.624420166015625,
      "learning_rate": 4.887369599560626e-05,
      "loss": 0.6296,
      "num_input_tokens_seen": 14517312,
      "step": 25020
    },
    {
      "epoch": 3.7272862675007445,
      "grad_norm": 2.4452521800994873,
      "learning_rate": 4.8872731451151684e-05,
      "loss": 0.4145,
      "num_input_tokens_seen": 14520384,
      "step": 25025
    },
    {
      "epoch": 3.7280309800417037,
      "grad_norm": 7.865996360778809,
      "learning_rate": 4.887176650339158e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 14523232,
      "step": 25030
    },
    {
      "epoch": 3.728775692582663,
      "grad_norm": 6.522477149963379,
      "learning_rate": 4.887080115234224e-05,
      "loss": 0.4431,
      "num_input_tokens_seen": 14525888,
      "step": 25035
    },
    {
      "epoch": 3.729520405123622,
      "grad_norm": 11.070771217346191,
      "learning_rate": 4.886983539801998e-05,
      "loss": 0.3575,
      "num_input_tokens_seen": 14528608,
      "step": 25040
    },
    {
      "epoch": 3.7302651176645814,
      "grad_norm": 11.585869789123535,
      "learning_rate": 4.886886924044111e-05,
      "loss": 0.6761,
      "num_input_tokens_seen": 14531424,
      "step": 25045
    },
    {
      "epoch": 3.7310098302055406,
      "grad_norm": 6.844690322875977,
      "learning_rate": 4.8867902679621946e-05,
      "loss": 0.3444,
      "num_input_tokens_seen": 14534400,
      "step": 25050
    },
    {
      "epoch": 3.7317545427464998,
      "grad_norm": 13.2092924118042,
      "learning_rate": 4.8866935715578835e-05,
      "loss": 0.2873,
      "num_input_tokens_seen": 14536832,
      "step": 25055
    },
    {
      "epoch": 3.732499255287459,
      "grad_norm": 9.6012601852417,
      "learning_rate": 4.88659683483281e-05,
      "loss": 0.2925,
      "num_input_tokens_seen": 14539936,
      "step": 25060
    },
    {
      "epoch": 3.733243967828418,
      "grad_norm": 14.785465240478516,
      "learning_rate": 4.886500057788608e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 14543424,
      "step": 25065
    },
    {
      "epoch": 3.7339886803693774,
      "grad_norm": 9.240043640136719,
      "learning_rate": 4.8864032404269126e-05,
      "loss": 0.5404,
      "num_input_tokens_seen": 14546208,
      "step": 25070
    },
    {
      "epoch": 3.7347333929103366,
      "grad_norm": 14.353470802307129,
      "learning_rate": 4.886306382749361e-05,
      "loss": 0.9703,
      "num_input_tokens_seen": 14549024,
      "step": 25075
    },
    {
      "epoch": 3.7354781054512958,
      "grad_norm": 14.786499977111816,
      "learning_rate": 4.886209484757588e-05,
      "loss": 0.235,
      "num_input_tokens_seen": 14551616,
      "step": 25080
    },
    {
      "epoch": 3.736222817992255,
      "grad_norm": 18.17186164855957,
      "learning_rate": 4.886112546453231e-05,
      "loss": 0.5061,
      "num_input_tokens_seen": 14554272,
      "step": 25085
    },
    {
      "epoch": 3.736967530533214,
      "grad_norm": 5.951089382171631,
      "learning_rate": 4.886015567837927e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 14557280,
      "step": 25090
    },
    {
      "epoch": 3.7377122430741734,
      "grad_norm": 22.08888816833496,
      "learning_rate": 4.885918548913316e-05,
      "loss": 0.4509,
      "num_input_tokens_seen": 14560416,
      "step": 25095
    },
    {
      "epoch": 3.7384569556151326,
      "grad_norm": 9.312578201293945,
      "learning_rate": 4.885821489681036e-05,
      "loss": 0.3685,
      "num_input_tokens_seen": 14563168,
      "step": 25100
    },
    {
      "epoch": 3.739201668156092,
      "grad_norm": 5.117763042449951,
      "learning_rate": 4.885724390142726e-05,
      "loss": 0.4728,
      "num_input_tokens_seen": 14565856,
      "step": 25105
    },
    {
      "epoch": 3.739946380697051,
      "grad_norm": 8.136456489562988,
      "learning_rate": 4.885627250300028e-05,
      "loss": 0.4788,
      "num_input_tokens_seen": 14568800,
      "step": 25110
    },
    {
      "epoch": 3.74069109323801,
      "grad_norm": 4.436695575714111,
      "learning_rate": 4.885530070154582e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 14571904,
      "step": 25115
    },
    {
      "epoch": 3.7414358057789694,
      "grad_norm": 19.762731552124023,
      "learning_rate": 4.88543284970803e-05,
      "loss": 0.5707,
      "num_input_tokens_seen": 14574848,
      "step": 25120
    },
    {
      "epoch": 3.7421805183199286,
      "grad_norm": 10.292394638061523,
      "learning_rate": 4.8853355889620143e-05,
      "loss": 0.362,
      "num_input_tokens_seen": 14577696,
      "step": 25125
    },
    {
      "epoch": 3.742925230860888,
      "grad_norm": 11.380240440368652,
      "learning_rate": 4.885238287918178e-05,
      "loss": 0.591,
      "num_input_tokens_seen": 14580544,
      "step": 25130
    },
    {
      "epoch": 3.743669943401847,
      "grad_norm": 15.875174522399902,
      "learning_rate": 4.885140946578166e-05,
      "loss": 0.6628,
      "num_input_tokens_seen": 14583648,
      "step": 25135
    },
    {
      "epoch": 3.744414655942806,
      "grad_norm": 9.242114067077637,
      "learning_rate": 4.885043564943621e-05,
      "loss": 0.2535,
      "num_input_tokens_seen": 14586432,
      "step": 25140
    },
    {
      "epoch": 3.7451593684837654,
      "grad_norm": 21.533748626708984,
      "learning_rate": 4.884946143016189e-05,
      "loss": 0.2453,
      "num_input_tokens_seen": 14589344,
      "step": 25145
    },
    {
      "epoch": 3.7459040810247246,
      "grad_norm": 17.284875869750977,
      "learning_rate": 4.884848680797516e-05,
      "loss": 0.5132,
      "num_input_tokens_seen": 14592064,
      "step": 25150
    },
    {
      "epoch": 3.746648793565684,
      "grad_norm": 11.297852516174316,
      "learning_rate": 4.884751178289249e-05,
      "loss": 0.3802,
      "num_input_tokens_seen": 14594912,
      "step": 25155
    },
    {
      "epoch": 3.7473935061066426,
      "grad_norm": 8.589941024780273,
      "learning_rate": 4.884653635493034e-05,
      "loss": 0.5229,
      "num_input_tokens_seen": 14597696,
      "step": 25160
    },
    {
      "epoch": 3.748138218647602,
      "grad_norm": 8.642745018005371,
      "learning_rate": 4.8845560524105196e-05,
      "loss": 0.6156,
      "num_input_tokens_seen": 14600672,
      "step": 25165
    },
    {
      "epoch": 3.748882931188561,
      "grad_norm": 2.0049123764038086,
      "learning_rate": 4.8844584290433536e-05,
      "loss": 0.3382,
      "num_input_tokens_seen": 14603840,
      "step": 25170
    },
    {
      "epoch": 3.7496276437295206,
      "grad_norm": 4.16915225982666,
      "learning_rate": 4.8843607653931865e-05,
      "loss": 0.2509,
      "num_input_tokens_seen": 14606656,
      "step": 25175
    },
    {
      "epoch": 3.7503723562704794,
      "grad_norm": 8.610594749450684,
      "learning_rate": 4.884263061461668e-05,
      "loss": 0.4469,
      "num_input_tokens_seen": 14609376,
      "step": 25180
    },
    {
      "epoch": 3.751117068811439,
      "grad_norm": 10.932892799377441,
      "learning_rate": 4.884165317250448e-05,
      "loss": 0.4229,
      "num_input_tokens_seen": 14612192,
      "step": 25185
    },
    {
      "epoch": 3.751861781352398,
      "grad_norm": 13.836874008178711,
      "learning_rate": 4.8840675327611785e-05,
      "loss": 0.3923,
      "num_input_tokens_seen": 14615072,
      "step": 25190
    },
    {
      "epoch": 3.7526064938933574,
      "grad_norm": 24.56511688232422,
      "learning_rate": 4.8839697079955104e-05,
      "loss": 0.8392,
      "num_input_tokens_seen": 14617856,
      "step": 25195
    },
    {
      "epoch": 3.753351206434316,
      "grad_norm": 25.196348190307617,
      "learning_rate": 4.883871842955097e-05,
      "loss": 0.4725,
      "num_input_tokens_seen": 14620704,
      "step": 25200
    },
    {
      "epoch": 3.7540959189752754,
      "grad_norm": 7.560919761657715,
      "learning_rate": 4.883773937641593e-05,
      "loss": 0.4146,
      "num_input_tokens_seen": 14623424,
      "step": 25205
    },
    {
      "epoch": 3.7548406315162346,
      "grad_norm": 16.661396026611328,
      "learning_rate": 4.8836759920566494e-05,
      "loss": 0.4768,
      "num_input_tokens_seen": 14626080,
      "step": 25210
    },
    {
      "epoch": 3.755585344057194,
      "grad_norm": 10.045653343200684,
      "learning_rate": 4.8835780062019234e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 14629216,
      "step": 25215
    },
    {
      "epoch": 3.756330056598153,
      "grad_norm": 13.075915336608887,
      "learning_rate": 4.8834799800790694e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 14631872,
      "step": 25220
    },
    {
      "epoch": 3.757074769139112,
      "grad_norm": 14.132620811462402,
      "learning_rate": 4.8833819136897436e-05,
      "loss": 0.4769,
      "num_input_tokens_seen": 14634784,
      "step": 25225
    },
    {
      "epoch": 3.7578194816800714,
      "grad_norm": 19.96077537536621,
      "learning_rate": 4.883283807035602e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 14637632,
      "step": 25230
    },
    {
      "epoch": 3.7585641942210306,
      "grad_norm": 11.384908676147461,
      "learning_rate": 4.883185660118304e-05,
      "loss": 0.4153,
      "num_input_tokens_seen": 14640288,
      "step": 25235
    },
    {
      "epoch": 3.75930890676199,
      "grad_norm": 11.357367515563965,
      "learning_rate": 4.883087472939506e-05,
      "loss": 0.5194,
      "num_input_tokens_seen": 14642944,
      "step": 25240
    },
    {
      "epoch": 3.760053619302949,
      "grad_norm": 9.902008056640625,
      "learning_rate": 4.882989245500867e-05,
      "loss": 0.4955,
      "num_input_tokens_seen": 14646176,
      "step": 25245
    },
    {
      "epoch": 3.760798331843908,
      "grad_norm": 1.084944248199463,
      "learning_rate": 4.882890977804047e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 14648896,
      "step": 25250
    },
    {
      "epoch": 3.7615430443848674,
      "grad_norm": 9.084009170532227,
      "learning_rate": 4.882792669850705e-05,
      "loss": 0.5634,
      "num_input_tokens_seen": 14651808,
      "step": 25255
    },
    {
      "epoch": 3.7622877569258266,
      "grad_norm": 12.345926284790039,
      "learning_rate": 4.882694321642504e-05,
      "loss": 0.3559,
      "num_input_tokens_seen": 14654464,
      "step": 25260
    },
    {
      "epoch": 3.763032469466786,
      "grad_norm": 6.98075008392334,
      "learning_rate": 4.8825959331811026e-05,
      "loss": 0.3363,
      "num_input_tokens_seen": 14657248,
      "step": 25265
    },
    {
      "epoch": 3.763777182007745,
      "grad_norm": 9.985942840576172,
      "learning_rate": 4.882497504468165e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 14660160,
      "step": 25270
    },
    {
      "epoch": 3.7645218945487042,
      "grad_norm": 7.692311763763428,
      "learning_rate": 4.8823990355053536e-05,
      "loss": 0.5238,
      "num_input_tokens_seen": 14663040,
      "step": 25275
    },
    {
      "epoch": 3.7652666070896634,
      "grad_norm": 5.990978240966797,
      "learning_rate": 4.8823005262943323e-05,
      "loss": 0.3407,
      "num_input_tokens_seen": 14666048,
      "step": 25280
    },
    {
      "epoch": 3.7660113196306226,
      "grad_norm": 7.242755889892578,
      "learning_rate": 4.882201976836764e-05,
      "loss": 0.3999,
      "num_input_tokens_seen": 14669088,
      "step": 25285
    },
    {
      "epoch": 3.766756032171582,
      "grad_norm": 14.831754684448242,
      "learning_rate": 4.8821033871343155e-05,
      "loss": 0.5063,
      "num_input_tokens_seen": 14671712,
      "step": 25290
    },
    {
      "epoch": 3.767500744712541,
      "grad_norm": 10.209433555603027,
      "learning_rate": 4.8820047571886504e-05,
      "loss": 0.5047,
      "num_input_tokens_seen": 14675008,
      "step": 25295
    },
    {
      "epoch": 3.7682454572535002,
      "grad_norm": 34.9322395324707,
      "learning_rate": 4.8819060870014366e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 14677696,
      "step": 25300
    },
    {
      "epoch": 3.7689901697944594,
      "grad_norm": 5.524695873260498,
      "learning_rate": 4.88180737657434e-05,
      "loss": 0.415,
      "num_input_tokens_seen": 14680480,
      "step": 25305
    },
    {
      "epoch": 3.7697348823354186,
      "grad_norm": 10.27196979522705,
      "learning_rate": 4.881708625909028e-05,
      "loss": 0.5577,
      "num_input_tokens_seen": 14683680,
      "step": 25310
    },
    {
      "epoch": 3.770479594876378,
      "grad_norm": 9.555697441101074,
      "learning_rate": 4.881609835007171e-05,
      "loss": 0.3809,
      "num_input_tokens_seen": 14686240,
      "step": 25315
    },
    {
      "epoch": 3.771224307417337,
      "grad_norm": 7.299230098724365,
      "learning_rate": 4.881511003870435e-05,
      "loss": 0.7344,
      "num_input_tokens_seen": 14689024,
      "step": 25320
    },
    {
      "epoch": 3.7719690199582963,
      "grad_norm": 30.470088958740234,
      "learning_rate": 4.881412132500491e-05,
      "loss": 0.3867,
      "num_input_tokens_seen": 14691872,
      "step": 25325
    },
    {
      "epoch": 3.7727137324992555,
      "grad_norm": 20.524133682250977,
      "learning_rate": 4.8813132208990095e-05,
      "loss": 0.532,
      "num_input_tokens_seen": 14694720,
      "step": 25330
    },
    {
      "epoch": 3.773458445040214,
      "grad_norm": 19.04759979248047,
      "learning_rate": 4.881214269067662e-05,
      "loss": 0.5349,
      "num_input_tokens_seen": 14697664,
      "step": 25335
    },
    {
      "epoch": 3.774203157581174,
      "grad_norm": 4.324087142944336,
      "learning_rate": 4.881115277008119e-05,
      "loss": 0.4949,
      "num_input_tokens_seen": 14700864,
      "step": 25340
    },
    {
      "epoch": 3.7749478701221326,
      "grad_norm": 5.496493339538574,
      "learning_rate": 4.881016244722054e-05,
      "loss": 0.3863,
      "num_input_tokens_seen": 14703872,
      "step": 25345
    },
    {
      "epoch": 3.7756925826630923,
      "grad_norm": 8.698283195495605,
      "learning_rate": 4.880917172211139e-05,
      "loss": 0.5247,
      "num_input_tokens_seen": 14706624,
      "step": 25350
    },
    {
      "epoch": 3.776437295204051,
      "grad_norm": 12.338492393493652,
      "learning_rate": 4.8808180594770486e-05,
      "loss": 0.4474,
      "num_input_tokens_seen": 14709664,
      "step": 25355
    },
    {
      "epoch": 3.7771820077450107,
      "grad_norm": 11.14532470703125,
      "learning_rate": 4.880718906521456e-05,
      "loss": 0.409,
      "num_input_tokens_seen": 14712736,
      "step": 25360
    },
    {
      "epoch": 3.7779267202859694,
      "grad_norm": 8.462791442871094,
      "learning_rate": 4.880619713346039e-05,
      "loss": 0.3469,
      "num_input_tokens_seen": 14715680,
      "step": 25365
    },
    {
      "epoch": 3.778671432826929,
      "grad_norm": 5.138680458068848,
      "learning_rate": 4.8805204799524695e-05,
      "loss": 0.3845,
      "num_input_tokens_seen": 14718144,
      "step": 25370
    },
    {
      "epoch": 3.779416145367888,
      "grad_norm": 11.647612571716309,
      "learning_rate": 4.880421206342427e-05,
      "loss": 0.4523,
      "num_input_tokens_seen": 14720992,
      "step": 25375
    },
    {
      "epoch": 3.780160857908847,
      "grad_norm": 19.977977752685547,
      "learning_rate": 4.880321892517587e-05,
      "loss": 0.4428,
      "num_input_tokens_seen": 14723936,
      "step": 25380
    },
    {
      "epoch": 3.7809055704498062,
      "grad_norm": 8.079036712646484,
      "learning_rate": 4.880222538479629e-05,
      "loss": 0.3037,
      "num_input_tokens_seen": 14726720,
      "step": 25385
    },
    {
      "epoch": 3.7816502829907654,
      "grad_norm": 8.804184913635254,
      "learning_rate": 4.880123144230229e-05,
      "loss": 0.5803,
      "num_input_tokens_seen": 14729504,
      "step": 25390
    },
    {
      "epoch": 3.7823949955317246,
      "grad_norm": 3.8729450702667236,
      "learning_rate": 4.880023709771068e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 14732352,
      "step": 25395
    },
    {
      "epoch": 3.783139708072684,
      "grad_norm": 8.457801818847656,
      "learning_rate": 4.8799242351038257e-05,
      "loss": 0.4442,
      "num_input_tokens_seen": 14735200,
      "step": 25400
    },
    {
      "epoch": 3.783884420613643,
      "grad_norm": 10.199026107788086,
      "learning_rate": 4.8798247202301824e-05,
      "loss": 0.4861,
      "num_input_tokens_seen": 14737952,
      "step": 25405
    },
    {
      "epoch": 3.7846291331546023,
      "grad_norm": 8.376961708068848,
      "learning_rate": 4.879725165151818e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 14740896,
      "step": 25410
    },
    {
      "epoch": 3.7853738456955615,
      "grad_norm": 8.979757308959961,
      "learning_rate": 4.8796255698704165e-05,
      "loss": 0.2855,
      "num_input_tokens_seen": 14743968,
      "step": 25415
    },
    {
      "epoch": 3.7861185582365207,
      "grad_norm": 7.943602085113525,
      "learning_rate": 4.87952593438766e-05,
      "loss": 0.3677,
      "num_input_tokens_seen": 14746496,
      "step": 25420
    },
    {
      "epoch": 3.78686327077748,
      "grad_norm": 20.60171890258789,
      "learning_rate": 4.879426258705231e-05,
      "loss": 0.3372,
      "num_input_tokens_seen": 14749408,
      "step": 25425
    },
    {
      "epoch": 3.787607983318439,
      "grad_norm": 5.025315284729004,
      "learning_rate": 4.879326542824813e-05,
      "loss": 0.2244,
      "num_input_tokens_seen": 14752256,
      "step": 25430
    },
    {
      "epoch": 3.7883526958593983,
      "grad_norm": 12.036629676818848,
      "learning_rate": 4.8792267867480926e-05,
      "loss": 0.4662,
      "num_input_tokens_seen": 14754816,
      "step": 25435
    },
    {
      "epoch": 3.7890974084003575,
      "grad_norm": 5.996549129486084,
      "learning_rate": 4.879126990476752e-05,
      "loss": 0.3878,
      "num_input_tokens_seen": 14757888,
      "step": 25440
    },
    {
      "epoch": 3.7898421209413167,
      "grad_norm": 11.808258056640625,
      "learning_rate": 4.8790271540124796e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 14760928,
      "step": 25445
    },
    {
      "epoch": 3.790586833482276,
      "grad_norm": 10.00281047821045,
      "learning_rate": 4.8789272773569625e-05,
      "loss": 0.4793,
      "num_input_tokens_seen": 14763968,
      "step": 25450
    },
    {
      "epoch": 3.791331546023235,
      "grad_norm": 7.163976192474365,
      "learning_rate": 4.8788273605118855e-05,
      "loss": 0.2659,
      "num_input_tokens_seen": 14766816,
      "step": 25455
    },
    {
      "epoch": 3.7920762585641943,
      "grad_norm": 6.126380443572998,
      "learning_rate": 4.8787274034789386e-05,
      "loss": 0.5567,
      "num_input_tokens_seen": 14769728,
      "step": 25460
    },
    {
      "epoch": 3.7928209711051535,
      "grad_norm": 7.667242050170898,
      "learning_rate": 4.87862740625981e-05,
      "loss": 0.3522,
      "num_input_tokens_seen": 14773120,
      "step": 25465
    },
    {
      "epoch": 3.7935656836461127,
      "grad_norm": 12.249817848205566,
      "learning_rate": 4.878527368856189e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 14776384,
      "step": 25470
    },
    {
      "epoch": 3.794310396187072,
      "grad_norm": 5.401426315307617,
      "learning_rate": 4.878427291269765e-05,
      "loss": 0.2409,
      "num_input_tokens_seen": 14779200,
      "step": 25475
    },
    {
      "epoch": 3.795055108728031,
      "grad_norm": 0.8264815807342529,
      "learning_rate": 4.878327173502229e-05,
      "loss": 0.3338,
      "num_input_tokens_seen": 14781888,
      "step": 25480
    },
    {
      "epoch": 3.7957998212689903,
      "grad_norm": 5.586474418640137,
      "learning_rate": 4.8782270155552735e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 14784480,
      "step": 25485
    },
    {
      "epoch": 3.7965445338099495,
      "grad_norm": 2.862150192260742,
      "learning_rate": 4.878126817430588e-05,
      "loss": 0.2093,
      "num_input_tokens_seen": 14787424,
      "step": 25490
    },
    {
      "epoch": 3.7972892463509087,
      "grad_norm": 10.352836608886719,
      "learning_rate": 4.878026579129868e-05,
      "loss": 0.6527,
      "num_input_tokens_seen": 14790368,
      "step": 25495
    },
    {
      "epoch": 3.798033958891868,
      "grad_norm": 102.34803771972656,
      "learning_rate": 4.877926300654807e-05,
      "loss": 0.9248,
      "num_input_tokens_seen": 14793248,
      "step": 25500
    },
    {
      "epoch": 3.798778671432827,
      "grad_norm": 14.476042747497559,
      "learning_rate": 4.877825982007097e-05,
      "loss": 0.7079,
      "num_input_tokens_seen": 14796640,
      "step": 25505
    },
    {
      "epoch": 3.799523383973786,
      "grad_norm": 12.493826866149902,
      "learning_rate": 4.877725623188434e-05,
      "loss": 0.3712,
      "num_input_tokens_seen": 14800000,
      "step": 25510
    },
    {
      "epoch": 3.8002680965147455,
      "grad_norm": 7.039673805236816,
      "learning_rate": 4.8776252242005124e-05,
      "loss": 0.3587,
      "num_input_tokens_seen": 14802880,
      "step": 25515
    },
    {
      "epoch": 3.8010128090557043,
      "grad_norm": 7.8583083152771,
      "learning_rate": 4.87752478504503e-05,
      "loss": 0.5167,
      "num_input_tokens_seen": 14806272,
      "step": 25520
    },
    {
      "epoch": 3.801757521596664,
      "grad_norm": 15.878872871398926,
      "learning_rate": 4.8774243057236824e-05,
      "loss": 0.6432,
      "num_input_tokens_seen": 14808992,
      "step": 25525
    },
    {
      "epoch": 3.8025022341376227,
      "grad_norm": 16.983963012695312,
      "learning_rate": 4.877323786238167e-05,
      "loss": 0.5459,
      "num_input_tokens_seen": 14811808,
      "step": 25530
    },
    {
      "epoch": 3.8032469466785823,
      "grad_norm": 2.9837324619293213,
      "learning_rate": 4.877223226590184e-05,
      "loss": 0.3635,
      "num_input_tokens_seen": 14814720,
      "step": 25535
    },
    {
      "epoch": 3.803991659219541,
      "grad_norm": 19.296096801757812,
      "learning_rate": 4.877122626781429e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 14817728,
      "step": 25540
    },
    {
      "epoch": 3.8047363717605007,
      "grad_norm": 6.2347612380981445,
      "learning_rate": 4.8770219868136036e-05,
      "loss": 0.4766,
      "num_input_tokens_seen": 14820384,
      "step": 25545
    },
    {
      "epoch": 3.8054810843014595,
      "grad_norm": 18.953197479248047,
      "learning_rate": 4.876921306688408e-05,
      "loss": 0.4641,
      "num_input_tokens_seen": 14823296,
      "step": 25550
    },
    {
      "epoch": 3.8062257968424187,
      "grad_norm": 9.040836334228516,
      "learning_rate": 4.8768205864075425e-05,
      "loss": 0.4575,
      "num_input_tokens_seen": 14826080,
      "step": 25555
    },
    {
      "epoch": 3.806970509383378,
      "grad_norm": 5.011663913726807,
      "learning_rate": 4.876719825972709e-05,
      "loss": 0.3493,
      "num_input_tokens_seen": 14828768,
      "step": 25560
    },
    {
      "epoch": 3.807715221924337,
      "grad_norm": 13.378207206726074,
      "learning_rate": 4.8766190253856106e-05,
      "loss": 0.2753,
      "num_input_tokens_seen": 14831776,
      "step": 25565
    },
    {
      "epoch": 3.8084599344652963,
      "grad_norm": 10.134659767150879,
      "learning_rate": 4.876518184647948e-05,
      "loss": 0.5715,
      "num_input_tokens_seen": 14834688,
      "step": 25570
    },
    {
      "epoch": 3.8092046470062555,
      "grad_norm": 10.077376365661621,
      "learning_rate": 4.8764173037614256e-05,
      "loss": 0.5075,
      "num_input_tokens_seen": 14837600,
      "step": 25575
    },
    {
      "epoch": 3.8099493595472147,
      "grad_norm": 14.571089744567871,
      "learning_rate": 4.876316382727749e-05,
      "loss": 0.6705,
      "num_input_tokens_seen": 14840640,
      "step": 25580
    },
    {
      "epoch": 3.810694072088174,
      "grad_norm": 8.553387641906738,
      "learning_rate": 4.8762154215486225e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 14843648,
      "step": 25585
    },
    {
      "epoch": 3.811438784629133,
      "grad_norm": 8.513671875,
      "learning_rate": 4.876114420225751e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 14846528,
      "step": 25590
    },
    {
      "epoch": 3.8121834971700923,
      "grad_norm": 4.136255741119385,
      "learning_rate": 4.876013378760842e-05,
      "loss": 0.3351,
      "num_input_tokens_seen": 14849504,
      "step": 25595
    },
    {
      "epoch": 3.8129282097110515,
      "grad_norm": 12.096688270568848,
      "learning_rate": 4.875912297155601e-05,
      "loss": 0.5293,
      "num_input_tokens_seen": 14852480,
      "step": 25600
    },
    {
      "epoch": 3.8136729222520107,
      "grad_norm": 7.462164878845215,
      "learning_rate": 4.875811175411737e-05,
      "loss": 0.3786,
      "num_input_tokens_seen": 14855328,
      "step": 25605
    },
    {
      "epoch": 3.81441763479297,
      "grad_norm": 5.372833251953125,
      "learning_rate": 4.875710013530958e-05,
      "loss": 0.3247,
      "num_input_tokens_seen": 14858144,
      "step": 25610
    },
    {
      "epoch": 3.815162347333929,
      "grad_norm": 28.086021423339844,
      "learning_rate": 4.8756088115149724e-05,
      "loss": 0.6383,
      "num_input_tokens_seen": 14861216,
      "step": 25615
    },
    {
      "epoch": 3.8159070598748883,
      "grad_norm": 14.890619277954102,
      "learning_rate": 4.8755075693654906e-05,
      "loss": 0.6592,
      "num_input_tokens_seen": 14864192,
      "step": 25620
    },
    {
      "epoch": 3.8166517724158475,
      "grad_norm": 9.092143058776855,
      "learning_rate": 4.8754062870842234e-05,
      "loss": 0.3225,
      "num_input_tokens_seen": 14867072,
      "step": 25625
    },
    {
      "epoch": 3.8173964849568067,
      "grad_norm": 1.9448966979980469,
      "learning_rate": 4.87530496467288e-05,
      "loss": 0.3397,
      "num_input_tokens_seen": 14870144,
      "step": 25630
    },
    {
      "epoch": 3.818141197497766,
      "grad_norm": 0.1132793128490448,
      "learning_rate": 4.875203602133174e-05,
      "loss": 0.3881,
      "num_input_tokens_seen": 14873056,
      "step": 25635
    },
    {
      "epoch": 3.818885910038725,
      "grad_norm": 10.124907493591309,
      "learning_rate": 4.875102199466817e-05,
      "loss": 0.5305,
      "num_input_tokens_seen": 14876032,
      "step": 25640
    },
    {
      "epoch": 3.8196306225796843,
      "grad_norm": 3.450493812561035,
      "learning_rate": 4.875000756675523e-05,
      "loss": 0.1249,
      "num_input_tokens_seen": 14878656,
      "step": 25645
    },
    {
      "epoch": 3.8203753351206435,
      "grad_norm": 9.615729331970215,
      "learning_rate": 4.874899273761004e-05,
      "loss": 0.3444,
      "num_input_tokens_seen": 14881728,
      "step": 25650
    },
    {
      "epoch": 3.8211200476616027,
      "grad_norm": 13.542253494262695,
      "learning_rate": 4.8747977507249765e-05,
      "loss": 0.3529,
      "num_input_tokens_seen": 14884672,
      "step": 25655
    },
    {
      "epoch": 3.821864760202562,
      "grad_norm": 16.489110946655273,
      "learning_rate": 4.874696187569154e-05,
      "loss": 0.8073,
      "num_input_tokens_seen": 14887488,
      "step": 25660
    },
    {
      "epoch": 3.822609472743521,
      "grad_norm": 22.932098388671875,
      "learning_rate": 4.874594584295253e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 14890432,
      "step": 25665
    },
    {
      "epoch": 3.8233541852844803,
      "grad_norm": 10.622994422912598,
      "learning_rate": 4.87449294090499e-05,
      "loss": 0.3245,
      "num_input_tokens_seen": 14893088,
      "step": 25670
    },
    {
      "epoch": 3.824098897825439,
      "grad_norm": 7.209487438201904,
      "learning_rate": 4.874391257400083e-05,
      "loss": 0.4743,
      "num_input_tokens_seen": 14895744,
      "step": 25675
    },
    {
      "epoch": 3.8248436103663987,
      "grad_norm": 9.932525634765625,
      "learning_rate": 4.874289533782247e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 14899040,
      "step": 25680
    },
    {
      "epoch": 3.8255883229073575,
      "grad_norm": 8.374041557312012,
      "learning_rate": 4.874187770053204e-05,
      "loss": 0.4321,
      "num_input_tokens_seen": 14901984,
      "step": 25685
    },
    {
      "epoch": 3.826333035448317,
      "grad_norm": 5.848790645599365,
      "learning_rate": 4.874085966214671e-05,
      "loss": 0.5907,
      "num_input_tokens_seen": 14904736,
      "step": 25690
    },
    {
      "epoch": 3.827077747989276,
      "grad_norm": 8.01423168182373,
      "learning_rate": 4.873984122268369e-05,
      "loss": 0.4785,
      "num_input_tokens_seen": 14907680,
      "step": 25695
    },
    {
      "epoch": 3.8278224605302356,
      "grad_norm": 15.197988510131836,
      "learning_rate": 4.873882238216017e-05,
      "loss": 0.4719,
      "num_input_tokens_seen": 14910592,
      "step": 25700
    },
    {
      "epoch": 3.8285671730711943,
      "grad_norm": 9.411531448364258,
      "learning_rate": 4.873780314059338e-05,
      "loss": 0.559,
      "num_input_tokens_seen": 14913856,
      "step": 25705
    },
    {
      "epoch": 3.829311885612154,
      "grad_norm": 16.129928588867188,
      "learning_rate": 4.873678349800054e-05,
      "loss": 0.5714,
      "num_input_tokens_seen": 14916672,
      "step": 25710
    },
    {
      "epoch": 3.8300565981531127,
      "grad_norm": 7.826409339904785,
      "learning_rate": 4.873576345439886e-05,
      "loss": 0.5422,
      "num_input_tokens_seen": 14919520,
      "step": 25715
    },
    {
      "epoch": 3.830801310694072,
      "grad_norm": 3.5613467693328857,
      "learning_rate": 4.873474300980558e-05,
      "loss": 0.3617,
      "num_input_tokens_seen": 14922368,
      "step": 25720
    },
    {
      "epoch": 3.831546023235031,
      "grad_norm": 10.559347152709961,
      "learning_rate": 4.873372216423794e-05,
      "loss": 0.5398,
      "num_input_tokens_seen": 14925568,
      "step": 25725
    },
    {
      "epoch": 3.8322907357759903,
      "grad_norm": 10.603897094726562,
      "learning_rate": 4.8732700917713186e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 14928928,
      "step": 25730
    },
    {
      "epoch": 3.8330354483169495,
      "grad_norm": 7.996855735778809,
      "learning_rate": 4.8731679270248575e-05,
      "loss": 0.2735,
      "num_input_tokens_seen": 14932128,
      "step": 25735
    },
    {
      "epoch": 3.8337801608579087,
      "grad_norm": 7.7527642250061035,
      "learning_rate": 4.8730657221861354e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 14935008,
      "step": 25740
    },
    {
      "epoch": 3.834524873398868,
      "grad_norm": 11.75637435913086,
      "learning_rate": 4.8729634772568805e-05,
      "loss": 0.5904,
      "num_input_tokens_seen": 14938208,
      "step": 25745
    },
    {
      "epoch": 3.835269585939827,
      "grad_norm": 26.68137550354004,
      "learning_rate": 4.872861192238819e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 14941408,
      "step": 25750
    },
    {
      "epoch": 3.8360142984807863,
      "grad_norm": 20.4897403717041,
      "learning_rate": 4.87275886713368e-05,
      "loss": 0.4006,
      "num_input_tokens_seen": 14943968,
      "step": 25755
    },
    {
      "epoch": 3.8367590110217455,
      "grad_norm": 6.788878440856934,
      "learning_rate": 4.872656501943191e-05,
      "loss": 0.2563,
      "num_input_tokens_seen": 14946816,
      "step": 25760
    },
    {
      "epoch": 3.8375037235627047,
      "grad_norm": 26.56878662109375,
      "learning_rate": 4.872554096669082e-05,
      "loss": 0.3316,
      "num_input_tokens_seen": 14949440,
      "step": 25765
    },
    {
      "epoch": 3.838248436103664,
      "grad_norm": 3.174318552017212,
      "learning_rate": 4.8724516513130826e-05,
      "loss": 0.4629,
      "num_input_tokens_seen": 14952576,
      "step": 25770
    },
    {
      "epoch": 3.838993148644623,
      "grad_norm": 7.040196418762207,
      "learning_rate": 4.872349165876924e-05,
      "loss": 0.2635,
      "num_input_tokens_seen": 14955680,
      "step": 25775
    },
    {
      "epoch": 3.8397378611855824,
      "grad_norm": 20.017688751220703,
      "learning_rate": 4.872246640362337e-05,
      "loss": 0.3316,
      "num_input_tokens_seen": 14958368,
      "step": 25780
    },
    {
      "epoch": 3.8404825737265416,
      "grad_norm": 18.044675827026367,
      "learning_rate": 4.872144074771054e-05,
      "loss": 0.5463,
      "num_input_tokens_seen": 14960960,
      "step": 25785
    },
    {
      "epoch": 3.8412272862675008,
      "grad_norm": 18.0706787109375,
      "learning_rate": 4.872041469104809e-05,
      "loss": 0.4793,
      "num_input_tokens_seen": 14964192,
      "step": 25790
    },
    {
      "epoch": 3.84197199880846,
      "grad_norm": 1.1160619258880615,
      "learning_rate": 4.871938823365333e-05,
      "loss": 0.504,
      "num_input_tokens_seen": 14967008,
      "step": 25795
    },
    {
      "epoch": 3.842716711349419,
      "grad_norm": 12.337647438049316,
      "learning_rate": 4.871836137554362e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 14969760,
      "step": 25800
    },
    {
      "epoch": 3.8434614238903784,
      "grad_norm": 29.783985137939453,
      "learning_rate": 4.8717334116736293e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 14972480,
      "step": 25805
    },
    {
      "epoch": 3.8442061364313376,
      "grad_norm": 6.527170181274414,
      "learning_rate": 4.8716306457248717e-05,
      "loss": 0.6216,
      "num_input_tokens_seen": 14975328,
      "step": 25810
    },
    {
      "epoch": 3.8449508489722968,
      "grad_norm": 5.674703598022461,
      "learning_rate": 4.871527839709825e-05,
      "loss": 0.3163,
      "num_input_tokens_seen": 14978240,
      "step": 25815
    },
    {
      "epoch": 3.845695561513256,
      "grad_norm": 31.666183471679688,
      "learning_rate": 4.871424993630226e-05,
      "loss": 0.7638,
      "num_input_tokens_seen": 14981408,
      "step": 25820
    },
    {
      "epoch": 3.846440274054215,
      "grad_norm": 9.52961254119873,
      "learning_rate": 4.871322107487811e-05,
      "loss": 0.3929,
      "num_input_tokens_seen": 14984704,
      "step": 25825
    },
    {
      "epoch": 3.8471849865951744,
      "grad_norm": 12.046743392944336,
      "learning_rate": 4.8712191812843194e-05,
      "loss": 0.4108,
      "num_input_tokens_seen": 14987488,
      "step": 25830
    },
    {
      "epoch": 3.8479296991361336,
      "grad_norm": 10.095513343811035,
      "learning_rate": 4.87111621502149e-05,
      "loss": 0.3008,
      "num_input_tokens_seen": 14990368,
      "step": 25835
    },
    {
      "epoch": 3.848674411677093,
      "grad_norm": 4.149624824523926,
      "learning_rate": 4.871013208701062e-05,
      "loss": 0.4736,
      "num_input_tokens_seen": 14993120,
      "step": 25840
    },
    {
      "epoch": 3.849419124218052,
      "grad_norm": 12.716726303100586,
      "learning_rate": 4.870910162324776e-05,
      "loss": 0.5566,
      "num_input_tokens_seen": 14995904,
      "step": 25845
    },
    {
      "epoch": 3.8501638367590107,
      "grad_norm": 13.97712230682373,
      "learning_rate": 4.8708070758943716e-05,
      "loss": 0.443,
      "num_input_tokens_seen": 14998752,
      "step": 25850
    },
    {
      "epoch": 3.8509085492999704,
      "grad_norm": 13.272104263305664,
      "learning_rate": 4.870703949411591e-05,
      "loss": 0.3899,
      "num_input_tokens_seen": 15001408,
      "step": 25855
    },
    {
      "epoch": 3.851653261840929,
      "grad_norm": 13.047990798950195,
      "learning_rate": 4.8706007828781776e-05,
      "loss": 0.3155,
      "num_input_tokens_seen": 15004160,
      "step": 25860
    },
    {
      "epoch": 3.852397974381889,
      "grad_norm": 5.877106189727783,
      "learning_rate": 4.8704975762958734e-05,
      "loss": 0.4792,
      "num_input_tokens_seen": 15007424,
      "step": 25865
    },
    {
      "epoch": 3.8531426869228476,
      "grad_norm": 4.542103290557861,
      "learning_rate": 4.8703943296664214e-05,
      "loss": 0.5341,
      "num_input_tokens_seen": 15010336,
      "step": 25870
    },
    {
      "epoch": 3.853887399463807,
      "grad_norm": 0.5677334070205688,
      "learning_rate": 4.8702910429915663e-05,
      "loss": 0.1839,
      "num_input_tokens_seen": 15013216,
      "step": 25875
    },
    {
      "epoch": 3.854632112004766,
      "grad_norm": 6.598350524902344,
      "learning_rate": 4.870187716273054e-05,
      "loss": 0.5028,
      "num_input_tokens_seen": 15016288,
      "step": 25880
    },
    {
      "epoch": 3.8553768245457256,
      "grad_norm": 16.327068328857422,
      "learning_rate": 4.870084349512628e-05,
      "loss": 0.3192,
      "num_input_tokens_seen": 15019392,
      "step": 25885
    },
    {
      "epoch": 3.8561215370866844,
      "grad_norm": 10.641597747802734,
      "learning_rate": 4.8699809427120364e-05,
      "loss": 0.6415,
      "num_input_tokens_seen": 15022176,
      "step": 25890
    },
    {
      "epoch": 3.8568662496276436,
      "grad_norm": 10.339470863342285,
      "learning_rate": 4.869877495873025e-05,
      "loss": 0.4179,
      "num_input_tokens_seen": 15024928,
      "step": 25895
    },
    {
      "epoch": 3.8576109621686028,
      "grad_norm": 11.070527076721191,
      "learning_rate": 4.869774008997343e-05,
      "loss": 0.3226,
      "num_input_tokens_seen": 15028288,
      "step": 25900
    },
    {
      "epoch": 3.858355674709562,
      "grad_norm": 6.259154796600342,
      "learning_rate": 4.869670482086737e-05,
      "loss": 0.4522,
      "num_input_tokens_seen": 15031168,
      "step": 25905
    },
    {
      "epoch": 3.859100387250521,
      "grad_norm": 6.365912914276123,
      "learning_rate": 4.869566915142956e-05,
      "loss": 0.2526,
      "num_input_tokens_seen": 15033920,
      "step": 25910
    },
    {
      "epoch": 3.8598450997914804,
      "grad_norm": 8.63217544555664,
      "learning_rate": 4.8694633081677507e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 15036896,
      "step": 25915
    },
    {
      "epoch": 3.8605898123324396,
      "grad_norm": 7.182196617126465,
      "learning_rate": 4.869359661162871e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 15039648,
      "step": 25920
    },
    {
      "epoch": 3.861334524873399,
      "grad_norm": 0.09268614649772644,
      "learning_rate": 4.869255974130068e-05,
      "loss": 0.3753,
      "num_input_tokens_seen": 15042656,
      "step": 25925
    },
    {
      "epoch": 3.862079237414358,
      "grad_norm": 18.73474884033203,
      "learning_rate": 4.869152247071094e-05,
      "loss": 0.2881,
      "num_input_tokens_seen": 15045408,
      "step": 25930
    },
    {
      "epoch": 3.862823949955317,
      "grad_norm": 10.969409942626953,
      "learning_rate": 4.8690484799877004e-05,
      "loss": 0.3018,
      "num_input_tokens_seen": 15048160,
      "step": 25935
    },
    {
      "epoch": 3.8635686624962764,
      "grad_norm": 19.86429214477539,
      "learning_rate": 4.86894467288164e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 15050944,
      "step": 25940
    },
    {
      "epoch": 3.8643133750372356,
      "grad_norm": 25.289670944213867,
      "learning_rate": 4.868840825754667e-05,
      "loss": 0.5539,
      "num_input_tokens_seen": 15053664,
      "step": 25945
    },
    {
      "epoch": 3.865058087578195,
      "grad_norm": 10.25975227355957,
      "learning_rate": 4.868736938608536e-05,
      "loss": 0.444,
      "num_input_tokens_seen": 15056544,
      "step": 25950
    },
    {
      "epoch": 3.865802800119154,
      "grad_norm": 4.171983242034912,
      "learning_rate": 4.8686330114450025e-05,
      "loss": 0.4213,
      "num_input_tokens_seen": 15059520,
      "step": 25955
    },
    {
      "epoch": 3.866547512660113,
      "grad_norm": 12.594884872436523,
      "learning_rate": 4.868529044265821e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 15062240,
      "step": 25960
    },
    {
      "epoch": 3.8672922252010724,
      "grad_norm": 7.724389553070068,
      "learning_rate": 4.868425037072749e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 15065472,
      "step": 25965
    },
    {
      "epoch": 3.8680369377420316,
      "grad_norm": 20.087871551513672,
      "learning_rate": 4.868320989867543e-05,
      "loss": 0.309,
      "num_input_tokens_seen": 15068288,
      "step": 25970
    },
    {
      "epoch": 3.868781650282991,
      "grad_norm": 24.401493072509766,
      "learning_rate": 4.868216902651961e-05,
      "loss": 0.619,
      "num_input_tokens_seen": 15071328,
      "step": 25975
    },
    {
      "epoch": 3.86952636282395,
      "grad_norm": 14.775636672973633,
      "learning_rate": 4.8681127754277606e-05,
      "loss": 0.3586,
      "num_input_tokens_seen": 15074208,
      "step": 25980
    },
    {
      "epoch": 3.870271075364909,
      "grad_norm": 15.003927230834961,
      "learning_rate": 4.868008608196702e-05,
      "loss": 0.3288,
      "num_input_tokens_seen": 15076992,
      "step": 25985
    },
    {
      "epoch": 3.8710157879058684,
      "grad_norm": 17.840351104736328,
      "learning_rate": 4.8679044009605455e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 15079872,
      "step": 25990
    },
    {
      "epoch": 3.8717605004468276,
      "grad_norm": 3.4941437244415283,
      "learning_rate": 4.867800153721051e-05,
      "loss": 0.3942,
      "num_input_tokens_seen": 15082944,
      "step": 25995
    },
    {
      "epoch": 3.872505212987787,
      "grad_norm": 17.40486717224121,
      "learning_rate": 4.867695866479978e-05,
      "loss": 0.6503,
      "num_input_tokens_seen": 15085888,
      "step": 26000
    },
    {
      "epoch": 3.873249925528746,
      "grad_norm": 7.350142955780029,
      "learning_rate": 4.86759153923909e-05,
      "loss": 0.2171,
      "num_input_tokens_seen": 15088576,
      "step": 26005
    },
    {
      "epoch": 3.8739946380697052,
      "grad_norm": 22.232595443725586,
      "learning_rate": 4.86748717200015e-05,
      "loss": 0.7051,
      "num_input_tokens_seen": 15091200,
      "step": 26010
    },
    {
      "epoch": 3.8747393506106644,
      "grad_norm": 12.611784934997559,
      "learning_rate": 4.8673827647649206e-05,
      "loss": 0.4028,
      "num_input_tokens_seen": 15094112,
      "step": 26015
    },
    {
      "epoch": 3.8754840631516236,
      "grad_norm": 14.828140258789062,
      "learning_rate": 4.867278317535164e-05,
      "loss": 0.5364,
      "num_input_tokens_seen": 15096960,
      "step": 26020
    },
    {
      "epoch": 3.8762287756925824,
      "grad_norm": 8.193220138549805,
      "learning_rate": 4.867173830312648e-05,
      "loss": 0.5252,
      "num_input_tokens_seen": 15099904,
      "step": 26025
    },
    {
      "epoch": 3.876973488233542,
      "grad_norm": 8.153911590576172,
      "learning_rate": 4.867069303099135e-05,
      "loss": 0.3833,
      "num_input_tokens_seen": 15103072,
      "step": 26030
    },
    {
      "epoch": 3.877718200774501,
      "grad_norm": 12.537546157836914,
      "learning_rate": 4.8669647358963924e-05,
      "loss": 0.3536,
      "num_input_tokens_seen": 15105824,
      "step": 26035
    },
    {
      "epoch": 3.8784629133154604,
      "grad_norm": 25.882116317749023,
      "learning_rate": 4.866860128706186e-05,
      "loss": 0.6694,
      "num_input_tokens_seen": 15108768,
      "step": 26040
    },
    {
      "epoch": 3.879207625856419,
      "grad_norm": 9.606568336486816,
      "learning_rate": 4.866755481530284e-05,
      "loss": 0.5359,
      "num_input_tokens_seen": 15111584,
      "step": 26045
    },
    {
      "epoch": 3.879952338397379,
      "grad_norm": 3.1935930252075195,
      "learning_rate": 4.866650794370452e-05,
      "loss": 0.3848,
      "num_input_tokens_seen": 15114368,
      "step": 26050
    },
    {
      "epoch": 3.8806970509383376,
      "grad_norm": 10.708664894104004,
      "learning_rate": 4.866546067228461e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 15117376,
      "step": 26055
    },
    {
      "epoch": 3.8814417634792973,
      "grad_norm": 6.072259426116943,
      "learning_rate": 4.866441300106081e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 15120864,
      "step": 26060
    },
    {
      "epoch": 3.882186476020256,
      "grad_norm": 10.715910911560059,
      "learning_rate": 4.866336493005078e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 15123936,
      "step": 26065
    },
    {
      "epoch": 3.882931188561215,
      "grad_norm": 3.5310723781585693,
      "learning_rate": 4.866231645927226e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 15126944,
      "step": 26070
    },
    {
      "epoch": 3.8836759011021744,
      "grad_norm": 6.245551586151123,
      "learning_rate": 4.866126758874295e-05,
      "loss": 0.3447,
      "num_input_tokens_seen": 15129536,
      "step": 26075
    },
    {
      "epoch": 3.8844206136431336,
      "grad_norm": 7.736780166625977,
      "learning_rate": 4.8660218318480574e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 15132384,
      "step": 26080
    },
    {
      "epoch": 3.885165326184093,
      "grad_norm": 9.220349311828613,
      "learning_rate": 4.865916864850286e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 15135072,
      "step": 26085
    },
    {
      "epoch": 3.885910038725052,
      "grad_norm": 10.760151863098145,
      "learning_rate": 4.865811857882754e-05,
      "loss": 0.4551,
      "num_input_tokens_seen": 15137824,
      "step": 26090
    },
    {
      "epoch": 3.8866547512660112,
      "grad_norm": 17.04564666748047,
      "learning_rate": 4.8657068109472345e-05,
      "loss": 0.7515,
      "num_input_tokens_seen": 15140480,
      "step": 26095
    },
    {
      "epoch": 3.8873994638069704,
      "grad_norm": 14.058228492736816,
      "learning_rate": 4.8656017240455025e-05,
      "loss": 0.4032,
      "num_input_tokens_seen": 15143520,
      "step": 26100
    },
    {
      "epoch": 3.8881441763479296,
      "grad_norm": 24.520315170288086,
      "learning_rate": 4.865496597179334e-05,
      "loss": 0.6874,
      "num_input_tokens_seen": 15146368,
      "step": 26105
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 37.82661819458008,
      "learning_rate": 4.8653914303505054e-05,
      "loss": 0.518,
      "num_input_tokens_seen": 15149280,
      "step": 26110
    },
    {
      "epoch": 3.889633601429848,
      "grad_norm": 2.3841145038604736,
      "learning_rate": 4.865286223560792e-05,
      "loss": 0.2863,
      "num_input_tokens_seen": 15152224,
      "step": 26115
    },
    {
      "epoch": 3.8903783139708072,
      "grad_norm": 7.034566879272461,
      "learning_rate": 4.865180976811972e-05,
      "loss": 0.6985,
      "num_input_tokens_seen": 15155200,
      "step": 26120
    },
    {
      "epoch": 3.8911230265117664,
      "grad_norm": 15.973797798156738,
      "learning_rate": 4.8650756901058225e-05,
      "loss": 0.3986,
      "num_input_tokens_seen": 15158208,
      "step": 26125
    },
    {
      "epoch": 3.8918677390527256,
      "grad_norm": 36.00807189941406,
      "learning_rate": 4.864970363444124e-05,
      "loss": 0.3281,
      "num_input_tokens_seen": 15160928,
      "step": 26130
    },
    {
      "epoch": 3.892612451593685,
      "grad_norm": 14.916234016418457,
      "learning_rate": 4.864864996828654e-05,
      "loss": 0.3226,
      "num_input_tokens_seen": 15164032,
      "step": 26135
    },
    {
      "epoch": 3.893357164134644,
      "grad_norm": 7.7485222816467285,
      "learning_rate": 4.864759590261194e-05,
      "loss": 0.7348,
      "num_input_tokens_seen": 15166944,
      "step": 26140
    },
    {
      "epoch": 3.8941018766756033,
      "grad_norm": 8.435420036315918,
      "learning_rate": 4.8646541437435246e-05,
      "loss": 0.5708,
      "num_input_tokens_seen": 15169568,
      "step": 26145
    },
    {
      "epoch": 3.8948465892165625,
      "grad_norm": 5.439149856567383,
      "learning_rate": 4.8645486572774266e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 15172416,
      "step": 26150
    },
    {
      "epoch": 3.8955913017575217,
      "grad_norm": 7.185182094573975,
      "learning_rate": 4.8644431308646815e-05,
      "loss": 0.6066,
      "num_input_tokens_seen": 15175168,
      "step": 26155
    },
    {
      "epoch": 3.896336014298481,
      "grad_norm": 9.068631172180176,
      "learning_rate": 4.8643375645070735e-05,
      "loss": 0.4759,
      "num_input_tokens_seen": 15178208,
      "step": 26160
    },
    {
      "epoch": 3.89708072683944,
      "grad_norm": 9.546308517456055,
      "learning_rate": 4.864231958206384e-05,
      "loss": 0.3149,
      "num_input_tokens_seen": 15181184,
      "step": 26165
    },
    {
      "epoch": 3.8978254393803993,
      "grad_norm": 14.86959457397461,
      "learning_rate": 4.8641263119644004e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 15184032,
      "step": 26170
    },
    {
      "epoch": 3.8985701519213585,
      "grad_norm": 7.245879173278809,
      "learning_rate": 4.864020625782905e-05,
      "loss": 0.4624,
      "num_input_tokens_seen": 15186816,
      "step": 26175
    },
    {
      "epoch": 3.8993148644623177,
      "grad_norm": 14.845903396606445,
      "learning_rate": 4.863914899663683e-05,
      "loss": 0.3047,
      "num_input_tokens_seen": 15189728,
      "step": 26180
    },
    {
      "epoch": 3.900059577003277,
      "grad_norm": 20.37228775024414,
      "learning_rate": 4.8638091336085224e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 15192384,
      "step": 26185
    },
    {
      "epoch": 3.900804289544236,
      "grad_norm": 15.080875396728516,
      "learning_rate": 4.863703327619208e-05,
      "loss": 0.5614,
      "num_input_tokens_seen": 15195264,
      "step": 26190
    },
    {
      "epoch": 3.9015490020851953,
      "grad_norm": 9.279088973999023,
      "learning_rate": 4.863597481697528e-05,
      "loss": 0.4989,
      "num_input_tokens_seen": 15198048,
      "step": 26195
    },
    {
      "epoch": 3.902293714626154,
      "grad_norm": 8.895106315612793,
      "learning_rate": 4.8634915958452724e-05,
      "loss": 0.3887,
      "num_input_tokens_seen": 15201024,
      "step": 26200
    },
    {
      "epoch": 3.9030384271671137,
      "grad_norm": 8.014995574951172,
      "learning_rate": 4.863385670064227e-05,
      "loss": 0.2481,
      "num_input_tokens_seen": 15203744,
      "step": 26205
    },
    {
      "epoch": 3.9037831397080724,
      "grad_norm": 8.761293411254883,
      "learning_rate": 4.863279704356183e-05,
      "loss": 0.508,
      "num_input_tokens_seen": 15206752,
      "step": 26210
    },
    {
      "epoch": 3.904527852249032,
      "grad_norm": 9.89838981628418,
      "learning_rate": 4.863173698722931e-05,
      "loss": 0.3949,
      "num_input_tokens_seen": 15209920,
      "step": 26215
    },
    {
      "epoch": 3.905272564789991,
      "grad_norm": 6.92999267578125,
      "learning_rate": 4.863067653166261e-05,
      "loss": 0.325,
      "num_input_tokens_seen": 15212928,
      "step": 26220
    },
    {
      "epoch": 3.9060172773309505,
      "grad_norm": 11.655926704406738,
      "learning_rate": 4.8629615676879634e-05,
      "loss": 0.7577,
      "num_input_tokens_seen": 15215712,
      "step": 26225
    },
    {
      "epoch": 3.9067619898719093,
      "grad_norm": 14.019813537597656,
      "learning_rate": 4.8628554422898334e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 15218624,
      "step": 26230
    },
    {
      "epoch": 3.907506702412869,
      "grad_norm": 6.772956371307373,
      "learning_rate": 4.8627492769736616e-05,
      "loss": 0.4334,
      "num_input_tokens_seen": 15221376,
      "step": 26235
    },
    {
      "epoch": 3.9082514149538277,
      "grad_norm": 3.8057548999786377,
      "learning_rate": 4.862643071741242e-05,
      "loss": 0.5419,
      "num_input_tokens_seen": 15224448,
      "step": 26240
    },
    {
      "epoch": 3.908996127494787,
      "grad_norm": 4.361500263214111,
      "learning_rate": 4.8625368265943696e-05,
      "loss": 0.4043,
      "num_input_tokens_seen": 15227200,
      "step": 26245
    },
    {
      "epoch": 3.909740840035746,
      "grad_norm": 10.25302505493164,
      "learning_rate": 4.8624305415348374e-05,
      "loss": 0.3495,
      "num_input_tokens_seen": 15229984,
      "step": 26250
    },
    {
      "epoch": 3.9104855525767053,
      "grad_norm": 5.299071311950684,
      "learning_rate": 4.8623242165644436e-05,
      "loss": 0.3703,
      "num_input_tokens_seen": 15232896,
      "step": 26255
    },
    {
      "epoch": 3.9112302651176645,
      "grad_norm": 4.049793243408203,
      "learning_rate": 4.8622178516849824e-05,
      "loss": 0.5135,
      "num_input_tokens_seen": 15235840,
      "step": 26260
    },
    {
      "epoch": 3.9119749776586237,
      "grad_norm": 7.3845624923706055,
      "learning_rate": 4.862111446898252e-05,
      "loss": 0.4231,
      "num_input_tokens_seen": 15238656,
      "step": 26265
    },
    {
      "epoch": 3.912719690199583,
      "grad_norm": 12.517407417297363,
      "learning_rate": 4.862005002206049e-05,
      "loss": 0.5798,
      "num_input_tokens_seen": 15241696,
      "step": 26270
    },
    {
      "epoch": 3.913464402740542,
      "grad_norm": 10.907179832458496,
      "learning_rate": 4.8618985176101716e-05,
      "loss": 0.4552,
      "num_input_tokens_seen": 15244800,
      "step": 26275
    },
    {
      "epoch": 3.9142091152815013,
      "grad_norm": 11.745027542114258,
      "learning_rate": 4.86179199311242e-05,
      "loss": 0.5517,
      "num_input_tokens_seen": 15247904,
      "step": 26280
    },
    {
      "epoch": 3.9149538278224605,
      "grad_norm": 19.845666885375977,
      "learning_rate": 4.861685428714593e-05,
      "loss": 0.533,
      "num_input_tokens_seen": 15251040,
      "step": 26285
    },
    {
      "epoch": 3.9156985403634197,
      "grad_norm": 12.490638732910156,
      "learning_rate": 4.861578824418491e-05,
      "loss": 0.5719,
      "num_input_tokens_seen": 15253984,
      "step": 26290
    },
    {
      "epoch": 3.916443252904379,
      "grad_norm": 13.503594398498535,
      "learning_rate": 4.861472180225915e-05,
      "loss": 0.2776,
      "num_input_tokens_seen": 15256864,
      "step": 26295
    },
    {
      "epoch": 3.917187965445338,
      "grad_norm": 0.1165843978524208,
      "learning_rate": 4.861365496138667e-05,
      "loss": 0.4882,
      "num_input_tokens_seen": 15259712,
      "step": 26300
    },
    {
      "epoch": 3.9179326779862973,
      "grad_norm": 13.301152229309082,
      "learning_rate": 4.861258772158548e-05,
      "loss": 0.486,
      "num_input_tokens_seen": 15262592,
      "step": 26305
    },
    {
      "epoch": 3.9186773905272565,
      "grad_norm": 12.820575714111328,
      "learning_rate": 4.861152008287362e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 15265600,
      "step": 26310
    },
    {
      "epoch": 3.9194221030682157,
      "grad_norm": 8.803786277770996,
      "learning_rate": 4.861045204526913e-05,
      "loss": 0.6061,
      "num_input_tokens_seen": 15268416,
      "step": 26315
    },
    {
      "epoch": 3.920166815609175,
      "grad_norm": 11.195730209350586,
      "learning_rate": 4.8609383608790046e-05,
      "loss": 0.3934,
      "num_input_tokens_seen": 15271296,
      "step": 26320
    },
    {
      "epoch": 3.920911528150134,
      "grad_norm": 19.194427490234375,
      "learning_rate": 4.860831477345443e-05,
      "loss": 0.4979,
      "num_input_tokens_seen": 15274368,
      "step": 26325
    },
    {
      "epoch": 3.9216562406910933,
      "grad_norm": 12.040401458740234,
      "learning_rate": 4.860724553928032e-05,
      "loss": 0.3272,
      "num_input_tokens_seen": 15277376,
      "step": 26330
    },
    {
      "epoch": 3.9224009532320525,
      "grad_norm": 9.413283348083496,
      "learning_rate": 4.86061759062858e-05,
      "loss": 0.2906,
      "num_input_tokens_seen": 15280288,
      "step": 26335
    },
    {
      "epoch": 3.9231456657730117,
      "grad_norm": 7.484654903411865,
      "learning_rate": 4.8605105874488924e-05,
      "loss": 0.4592,
      "num_input_tokens_seen": 15283104,
      "step": 26340
    },
    {
      "epoch": 3.923890378313971,
      "grad_norm": 3.598268508911133,
      "learning_rate": 4.8604035443907775e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 15286048,
      "step": 26345
    },
    {
      "epoch": 3.92463509085493,
      "grad_norm": 20.863643646240234,
      "learning_rate": 4.860296461456044e-05,
      "loss": 0.3134,
      "num_input_tokens_seen": 15288832,
      "step": 26350
    },
    {
      "epoch": 3.9253798033958893,
      "grad_norm": 15.675125122070312,
      "learning_rate": 4.8601893386465e-05,
      "loss": 0.4459,
      "num_input_tokens_seen": 15291328,
      "step": 26355
    },
    {
      "epoch": 3.9261245159368485,
      "grad_norm": 6.734454154968262,
      "learning_rate": 4.860082175963957e-05,
      "loss": 0.5031,
      "num_input_tokens_seen": 15294272,
      "step": 26360
    },
    {
      "epoch": 3.9268692284778077,
      "grad_norm": 5.40319299697876,
      "learning_rate": 4.859974973410224e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 15297120,
      "step": 26365
    },
    {
      "epoch": 3.927613941018767,
      "grad_norm": 5.86225700378418,
      "learning_rate": 4.8598677309871123e-05,
      "loss": 0.4206,
      "num_input_tokens_seen": 15299904,
      "step": 26370
    },
    {
      "epoch": 3.9283586535597257,
      "grad_norm": 10.912514686584473,
      "learning_rate": 4.859760448696433e-05,
      "loss": 0.5782,
      "num_input_tokens_seen": 15303072,
      "step": 26375
    },
    {
      "epoch": 3.9291033661006853,
      "grad_norm": 22.224506378173828,
      "learning_rate": 4.85965312654e-05,
      "loss": 0.5259,
      "num_input_tokens_seen": 15306080,
      "step": 26380
    },
    {
      "epoch": 3.929848078641644,
      "grad_norm": 8.66638469696045,
      "learning_rate": 4.859545764519625e-05,
      "loss": 0.4616,
      "num_input_tokens_seen": 15308992,
      "step": 26385
    },
    {
      "epoch": 3.9305927911826037,
      "grad_norm": 12.74600601196289,
      "learning_rate": 4.859438362637123e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 15312192,
      "step": 26390
    },
    {
      "epoch": 3.9313375037235625,
      "grad_norm": 5.536323070526123,
      "learning_rate": 4.8593309208943085e-05,
      "loss": 0.6549,
      "num_input_tokens_seen": 15315072,
      "step": 26395
    },
    {
      "epoch": 3.932082216264522,
      "grad_norm": 8.134089469909668,
      "learning_rate": 4.859223439292995e-05,
      "loss": 0.5176,
      "num_input_tokens_seen": 15317760,
      "step": 26400
    },
    {
      "epoch": 3.932826928805481,
      "grad_norm": 0.5286040902137756,
      "learning_rate": 4.859115917835e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 15320864,
      "step": 26405
    },
    {
      "epoch": 3.9335716413464406,
      "grad_norm": 6.263179302215576,
      "learning_rate": 4.859008356522139e-05,
      "loss": 0.6679,
      "num_input_tokens_seen": 15323680,
      "step": 26410
    },
    {
      "epoch": 3.9343163538873993,
      "grad_norm": 13.16627311706543,
      "learning_rate": 4.8589007553562293e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 15326208,
      "step": 26415
    },
    {
      "epoch": 3.9350610664283585,
      "grad_norm": 10.498222351074219,
      "learning_rate": 4.858793114339089e-05,
      "loss": 0.3818,
      "num_input_tokens_seen": 15328896,
      "step": 26420
    },
    {
      "epoch": 3.9358057789693177,
      "grad_norm": 3.4633047580718994,
      "learning_rate": 4.8586854334725365e-05,
      "loss": 0.315,
      "num_input_tokens_seen": 15331872,
      "step": 26425
    },
    {
      "epoch": 3.936550491510277,
      "grad_norm": 15.317288398742676,
      "learning_rate": 4.8585777127583906e-05,
      "loss": 0.3153,
      "num_input_tokens_seen": 15334624,
      "step": 26430
    },
    {
      "epoch": 3.937295204051236,
      "grad_norm": 17.820280075073242,
      "learning_rate": 4.858469952198471e-05,
      "loss": 0.9241,
      "num_input_tokens_seen": 15337632,
      "step": 26435
    },
    {
      "epoch": 3.9380399165921953,
      "grad_norm": 7.765732288360596,
      "learning_rate": 4.8583621517945995e-05,
      "loss": 0.4641,
      "num_input_tokens_seen": 15340672,
      "step": 26440
    },
    {
      "epoch": 3.9387846291331545,
      "grad_norm": 10.28374195098877,
      "learning_rate": 4.858254311548596e-05,
      "loss": 0.2823,
      "num_input_tokens_seen": 15343616,
      "step": 26445
    },
    {
      "epoch": 3.9395293416741137,
      "grad_norm": 41.93976593017578,
      "learning_rate": 4.858146431462283e-05,
      "loss": 0.3194,
      "num_input_tokens_seen": 15346336,
      "step": 26450
    },
    {
      "epoch": 3.940274054215073,
      "grad_norm": 14.503786087036133,
      "learning_rate": 4.858038511537482e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 15349312,
      "step": 26455
    },
    {
      "epoch": 3.941018766756032,
      "grad_norm": 26.201356887817383,
      "learning_rate": 4.857930551776017e-05,
      "loss": 0.3978,
      "num_input_tokens_seen": 15352192,
      "step": 26460
    },
    {
      "epoch": 3.9417634792969913,
      "grad_norm": 4.170958995819092,
      "learning_rate": 4.857822552179713e-05,
      "loss": 0.4975,
      "num_input_tokens_seen": 15355008,
      "step": 26465
    },
    {
      "epoch": 3.9425081918379505,
      "grad_norm": 7.0489888191223145,
      "learning_rate": 4.857714512750392e-05,
      "loss": 0.3016,
      "num_input_tokens_seen": 15357920,
      "step": 26470
    },
    {
      "epoch": 3.9432529043789097,
      "grad_norm": 6.861012935638428,
      "learning_rate": 4.857606433489881e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 15360928,
      "step": 26475
    },
    {
      "epoch": 3.943997616919869,
      "grad_norm": 11.374600410461426,
      "learning_rate": 4.8574983144000055e-05,
      "loss": 0.5166,
      "num_input_tokens_seen": 15363840,
      "step": 26480
    },
    {
      "epoch": 3.944742329460828,
      "grad_norm": 9.709620475769043,
      "learning_rate": 4.8573901554825915e-05,
      "loss": 0.5544,
      "num_input_tokens_seen": 15366528,
      "step": 26485
    },
    {
      "epoch": 3.9454870420017873,
      "grad_norm": 17.22171401977539,
      "learning_rate": 4.857281956739468e-05,
      "loss": 0.257,
      "num_input_tokens_seen": 15369248,
      "step": 26490
    },
    {
      "epoch": 3.9462317545427466,
      "grad_norm": 9.98207950592041,
      "learning_rate": 4.8571737181724606e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 15372128,
      "step": 26495
    },
    {
      "epoch": 3.9469764670837058,
      "grad_norm": 7.145547389984131,
      "learning_rate": 4.8570654397834e-05,
      "loss": 0.4412,
      "num_input_tokens_seen": 15374880,
      "step": 26500
    },
    {
      "epoch": 3.947721179624665,
      "grad_norm": 6.196448802947998,
      "learning_rate": 4.856957121574114e-05,
      "loss": 0.4845,
      "num_input_tokens_seen": 15377824,
      "step": 26505
    },
    {
      "epoch": 3.948465892165624,
      "grad_norm": 5.089339733123779,
      "learning_rate": 4.856848763546433e-05,
      "loss": 0.302,
      "num_input_tokens_seen": 15380800,
      "step": 26510
    },
    {
      "epoch": 3.9492106047065834,
      "grad_norm": 7.126637935638428,
      "learning_rate": 4.856740365702187e-05,
      "loss": 0.524,
      "num_input_tokens_seen": 15383712,
      "step": 26515
    },
    {
      "epoch": 3.9499553172475426,
      "grad_norm": 2.6427345275878906,
      "learning_rate": 4.8566319280432085e-05,
      "loss": 0.2897,
      "num_input_tokens_seen": 15386848,
      "step": 26520
    },
    {
      "epoch": 3.9507000297885018,
      "grad_norm": 0.599622368812561,
      "learning_rate": 4.8565234505713276e-05,
      "loss": 0.2748,
      "num_input_tokens_seen": 15389568,
      "step": 26525
    },
    {
      "epoch": 3.951444742329461,
      "grad_norm": 23.451616287231445,
      "learning_rate": 4.856414933288379e-05,
      "loss": 0.3588,
      "num_input_tokens_seen": 15392672,
      "step": 26530
    },
    {
      "epoch": 3.95218945487042,
      "grad_norm": 26.067859649658203,
      "learning_rate": 4.856306376196195e-05,
      "loss": 0.4943,
      "num_input_tokens_seen": 15395776,
      "step": 26535
    },
    {
      "epoch": 3.9529341674113794,
      "grad_norm": 29.733753204345703,
      "learning_rate": 4.856197779296609e-05,
      "loss": 0.4161,
      "num_input_tokens_seen": 15398560,
      "step": 26540
    },
    {
      "epoch": 3.9536788799523386,
      "grad_norm": 23.074020385742188,
      "learning_rate": 4.856089142591457e-05,
      "loss": 0.3398,
      "num_input_tokens_seen": 15401344,
      "step": 26545
    },
    {
      "epoch": 3.9544235924932973,
      "grad_norm": 16.34658432006836,
      "learning_rate": 4.855980466082574e-05,
      "loss": 0.3969,
      "num_input_tokens_seen": 15404224,
      "step": 26550
    },
    {
      "epoch": 3.955168305034257,
      "grad_norm": 6.912538528442383,
      "learning_rate": 4.855871749771794e-05,
      "loss": 0.3984,
      "num_input_tokens_seen": 15407296,
      "step": 26555
    },
    {
      "epoch": 3.9559130175752157,
      "grad_norm": 3.234917163848877,
      "learning_rate": 4.855762993660956e-05,
      "loss": 0.3708,
      "num_input_tokens_seen": 15410336,
      "step": 26560
    },
    {
      "epoch": 3.9566577301161754,
      "grad_norm": 13.01807689666748,
      "learning_rate": 4.855654197751896e-05,
      "loss": 0.5178,
      "num_input_tokens_seen": 15413568,
      "step": 26565
    },
    {
      "epoch": 3.957402442657134,
      "grad_norm": 18.627044677734375,
      "learning_rate": 4.855545362046454e-05,
      "loss": 0.4164,
      "num_input_tokens_seen": 15416416,
      "step": 26570
    },
    {
      "epoch": 3.958147155198094,
      "grad_norm": 6.081473350524902,
      "learning_rate": 4.855436486546466e-05,
      "loss": 0.5855,
      "num_input_tokens_seen": 15419104,
      "step": 26575
    },
    {
      "epoch": 3.9588918677390526,
      "grad_norm": 47.1463508605957,
      "learning_rate": 4.855327571253773e-05,
      "loss": 0.7047,
      "num_input_tokens_seen": 15421760,
      "step": 26580
    },
    {
      "epoch": 3.9596365802800118,
      "grad_norm": 4.084829330444336,
      "learning_rate": 4.855218616170214e-05,
      "loss": 0.5026,
      "num_input_tokens_seen": 15425088,
      "step": 26585
    },
    {
      "epoch": 3.960381292820971,
      "grad_norm": 3.542285203933716,
      "learning_rate": 4.855109621297631e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 15428032,
      "step": 26590
    },
    {
      "epoch": 3.96112600536193,
      "grad_norm": 4.230597972869873,
      "learning_rate": 4.855000586637864e-05,
      "loss": 0.6062,
      "num_input_tokens_seen": 15430784,
      "step": 26595
    },
    {
      "epoch": 3.9618707179028894,
      "grad_norm": 2.141615629196167,
      "learning_rate": 4.854891512192755e-05,
      "loss": 0.4774,
      "num_input_tokens_seen": 15433760,
      "step": 26600
    },
    {
      "epoch": 3.9626154304438486,
      "grad_norm": 27.119173049926758,
      "learning_rate": 4.8547823979641484e-05,
      "loss": 0.4062,
      "num_input_tokens_seen": 15436672,
      "step": 26605
    },
    {
      "epoch": 3.9633601429848078,
      "grad_norm": 10.860125541687012,
      "learning_rate": 4.854673243953886e-05,
      "loss": 0.5874,
      "num_input_tokens_seen": 15439648,
      "step": 26610
    },
    {
      "epoch": 3.964104855525767,
      "grad_norm": 3.300400495529175,
      "learning_rate": 4.854564050163812e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 15442816,
      "step": 26615
    },
    {
      "epoch": 3.964849568066726,
      "grad_norm": 7.6212053298950195,
      "learning_rate": 4.854454816595773e-05,
      "loss": 0.4006,
      "num_input_tokens_seen": 15445888,
      "step": 26620
    },
    {
      "epoch": 3.9655942806076854,
      "grad_norm": 5.477536201477051,
      "learning_rate": 4.854345543251611e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 15448800,
      "step": 26625
    },
    {
      "epoch": 3.9663389931486446,
      "grad_norm": 7.06534481048584,
      "learning_rate": 4.854236230133175e-05,
      "loss": 0.2896,
      "num_input_tokens_seen": 15452000,
      "step": 26630
    },
    {
      "epoch": 3.967083705689604,
      "grad_norm": 4.837677478790283,
      "learning_rate": 4.85412687724231e-05,
      "loss": 0.167,
      "num_input_tokens_seen": 15454560,
      "step": 26635
    },
    {
      "epoch": 3.967828418230563,
      "grad_norm": 4.110470294952393,
      "learning_rate": 4.854017484580864e-05,
      "loss": 0.6248,
      "num_input_tokens_seen": 15457536,
      "step": 26640
    },
    {
      "epoch": 3.968573130771522,
      "grad_norm": 26.78321647644043,
      "learning_rate": 4.853908052150685e-05,
      "loss": 0.4005,
      "num_input_tokens_seen": 15460096,
      "step": 26645
    },
    {
      "epoch": 3.9693178433124814,
      "grad_norm": 15.448198318481445,
      "learning_rate": 4.8537985799536226e-05,
      "loss": 0.3791,
      "num_input_tokens_seen": 15463168,
      "step": 26650
    },
    {
      "epoch": 3.9700625558534406,
      "grad_norm": 21.840856552124023,
      "learning_rate": 4.853689067991525e-05,
      "loss": 0.565,
      "num_input_tokens_seen": 15466144,
      "step": 26655
    },
    {
      "epoch": 3.9708072683944,
      "grad_norm": 2.622755527496338,
      "learning_rate": 4.853579516266243e-05,
      "loss": 0.3728,
      "num_input_tokens_seen": 15469120,
      "step": 26660
    },
    {
      "epoch": 3.971551980935359,
      "grad_norm": 9.641003608703613,
      "learning_rate": 4.853469924779627e-05,
      "loss": 0.355,
      "num_input_tokens_seen": 15472160,
      "step": 26665
    },
    {
      "epoch": 3.972296693476318,
      "grad_norm": 9.439403533935547,
      "learning_rate": 4.853360293533529e-05,
      "loss": 0.5718,
      "num_input_tokens_seen": 15475264,
      "step": 26670
    },
    {
      "epoch": 3.9730414060172774,
      "grad_norm": 19.300294876098633,
      "learning_rate": 4.8532506225298004e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 15478112,
      "step": 26675
    },
    {
      "epoch": 3.9737861185582366,
      "grad_norm": 10.867737770080566,
      "learning_rate": 4.853140911770294e-05,
      "loss": 0.4495,
      "num_input_tokens_seen": 15481088,
      "step": 26680
    },
    {
      "epoch": 3.974530831099196,
      "grad_norm": 6.216350078582764,
      "learning_rate": 4.853031161256863e-05,
      "loss": 0.4928,
      "num_input_tokens_seen": 15484096,
      "step": 26685
    },
    {
      "epoch": 3.975275543640155,
      "grad_norm": 6.1558427810668945,
      "learning_rate": 4.8529213709913626e-05,
      "loss": 0.6131,
      "num_input_tokens_seen": 15486944,
      "step": 26690
    },
    {
      "epoch": 3.976020256181114,
      "grad_norm": 6.491156101226807,
      "learning_rate": 4.852811540975647e-05,
      "loss": 0.303,
      "num_input_tokens_seen": 15489824,
      "step": 26695
    },
    {
      "epoch": 3.9767649687220734,
      "grad_norm": 17.301725387573242,
      "learning_rate": 4.8527016712115725e-05,
      "loss": 0.3238,
      "num_input_tokens_seen": 15492768,
      "step": 26700
    },
    {
      "epoch": 3.9775096812630326,
      "grad_norm": 14.67854118347168,
      "learning_rate": 4.8525917617009945e-05,
      "loss": 0.4207,
      "num_input_tokens_seen": 15495552,
      "step": 26705
    },
    {
      "epoch": 3.978254393803992,
      "grad_norm": 14.930817604064941,
      "learning_rate": 4.8524818124457684e-05,
      "loss": 0.4674,
      "num_input_tokens_seen": 15498112,
      "step": 26710
    },
    {
      "epoch": 3.9789991063449506,
      "grad_norm": 8.771920204162598,
      "learning_rate": 4.852371823447753e-05,
      "loss": 0.4245,
      "num_input_tokens_seen": 15501120,
      "step": 26715
    },
    {
      "epoch": 3.9797438188859102,
      "grad_norm": 6.679266452789307,
      "learning_rate": 4.852261794708808e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 15503936,
      "step": 26720
    },
    {
      "epoch": 3.980488531426869,
      "grad_norm": 7.846688270568848,
      "learning_rate": 4.8521517262307895e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 15506880,
      "step": 26725
    },
    {
      "epoch": 3.9812332439678286,
      "grad_norm": 26.468719482421875,
      "learning_rate": 4.8520416180155594e-05,
      "loss": 0.8869,
      "num_input_tokens_seen": 15509888,
      "step": 26730
    },
    {
      "epoch": 3.9819779565087874,
      "grad_norm": 14.650077819824219,
      "learning_rate": 4.8519314700649757e-05,
      "loss": 0.2527,
      "num_input_tokens_seen": 15512800,
      "step": 26735
    },
    {
      "epoch": 3.982722669049747,
      "grad_norm": 7.447061538696289,
      "learning_rate": 4.8518212823809e-05,
      "loss": 0.3704,
      "num_input_tokens_seen": 15515968,
      "step": 26740
    },
    {
      "epoch": 3.983467381590706,
      "grad_norm": 9.905142784118652,
      "learning_rate": 4.851711054965194e-05,
      "loss": 0.4166,
      "num_input_tokens_seen": 15518880,
      "step": 26745
    },
    {
      "epoch": 3.9842120941316654,
      "grad_norm": 5.826024532318115,
      "learning_rate": 4.851600787819721e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 15521696,
      "step": 26750
    },
    {
      "epoch": 3.984956806672624,
      "grad_norm": 6.394935607910156,
      "learning_rate": 4.851490480946342e-05,
      "loss": 0.3934,
      "num_input_tokens_seen": 15524960,
      "step": 26755
    },
    {
      "epoch": 3.9857015192135834,
      "grad_norm": 6.39832878112793,
      "learning_rate": 4.851380134346921e-05,
      "loss": 0.477,
      "num_input_tokens_seen": 15527776,
      "step": 26760
    },
    {
      "epoch": 3.9864462317545426,
      "grad_norm": 8.115704536437988,
      "learning_rate": 4.851269748023323e-05,
      "loss": 0.2845,
      "num_input_tokens_seen": 15530592,
      "step": 26765
    },
    {
      "epoch": 3.987190944295502,
      "grad_norm": 13.934420585632324,
      "learning_rate": 4.851159321977412e-05,
      "loss": 0.2918,
      "num_input_tokens_seen": 15533728,
      "step": 26770
    },
    {
      "epoch": 3.987935656836461,
      "grad_norm": 35.47629165649414,
      "learning_rate": 4.851048856211054e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 15536384,
      "step": 26775
    },
    {
      "epoch": 3.98868036937742,
      "grad_norm": 26.885459899902344,
      "learning_rate": 4.850938350726115e-05,
      "loss": 0.3358,
      "num_input_tokens_seen": 15539232,
      "step": 26780
    },
    {
      "epoch": 3.9894250819183794,
      "grad_norm": 3.0663843154907227,
      "learning_rate": 4.8508278055244625e-05,
      "loss": 0.2834,
      "num_input_tokens_seen": 15542144,
      "step": 26785
    },
    {
      "epoch": 3.9901697944593386,
      "grad_norm": 55.231685638427734,
      "learning_rate": 4.8507172206079625e-05,
      "loss": 0.3859,
      "num_input_tokens_seen": 15545120,
      "step": 26790
    },
    {
      "epoch": 3.990914507000298,
      "grad_norm": 5.261985778808594,
      "learning_rate": 4.8506065959784854e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 15548128,
      "step": 26795
    },
    {
      "epoch": 3.991659219541257,
      "grad_norm": 19.42868995666504,
      "learning_rate": 4.8504959316378974e-05,
      "loss": 0.6949,
      "num_input_tokens_seen": 15551872,
      "step": 26800
    },
    {
      "epoch": 3.9924039320822162,
      "grad_norm": 6.938182830810547,
      "learning_rate": 4.850385227588071e-05,
      "loss": 0.566,
      "num_input_tokens_seen": 15554976,
      "step": 26805
    },
    {
      "epoch": 3.9931486446231754,
      "grad_norm": 7.463212966918945,
      "learning_rate": 4.8502744838308744e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 15557952,
      "step": 26810
    },
    {
      "epoch": 3.9938933571641346,
      "grad_norm": 6.771899223327637,
      "learning_rate": 4.8501637003681786e-05,
      "loss": 0.4173,
      "num_input_tokens_seen": 15560864,
      "step": 26815
    },
    {
      "epoch": 3.994638069705094,
      "grad_norm": 17.56741714477539,
      "learning_rate": 4.850052877201857e-05,
      "loss": 0.5422,
      "num_input_tokens_seen": 15563712,
      "step": 26820
    },
    {
      "epoch": 3.995382782246053,
      "grad_norm": 8.440887451171875,
      "learning_rate": 4.8499420143337795e-05,
      "loss": 0.4503,
      "num_input_tokens_seen": 15566976,
      "step": 26825
    },
    {
      "epoch": 3.9961274947870122,
      "grad_norm": 47.68431091308594,
      "learning_rate": 4.84983111176582e-05,
      "loss": 0.382,
      "num_input_tokens_seen": 15569888,
      "step": 26830
    },
    {
      "epoch": 3.9968722073279714,
      "grad_norm": 11.86630916595459,
      "learning_rate": 4.8497201694998526e-05,
      "loss": 0.5167,
      "num_input_tokens_seen": 15572736,
      "step": 26835
    },
    {
      "epoch": 3.9976169198689306,
      "grad_norm": 17.97367286682129,
      "learning_rate": 4.849609187537751e-05,
      "loss": 0.4087,
      "num_input_tokens_seen": 15575488,
      "step": 26840
    },
    {
      "epoch": 3.99836163240989,
      "grad_norm": 67.05378723144531,
      "learning_rate": 4.8494981658813895e-05,
      "loss": 0.3839,
      "num_input_tokens_seen": 15578560,
      "step": 26845
    },
    {
      "epoch": 3.999106344950849,
      "grad_norm": 12.590686798095703,
      "learning_rate": 4.8493871045326455e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 15581536,
      "step": 26850
    },
    {
      "epoch": 3.9998510574918082,
      "grad_norm": 9.853562355041504,
      "learning_rate": 4.849276003493394e-05,
      "loss": 0.2153,
      "num_input_tokens_seen": 15585536,
      "step": 26855
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.6933861970901489,
      "eval_runtime": 49.2111,
      "eval_samples_per_second": 60.637,
      "eval_steps_per_second": 15.159,
      "num_input_tokens_seen": 15585640,
      "step": 26856
    },
    {
      "epoch": 4.000595770032767,
      "grad_norm": 5.0022101402282715,
      "learning_rate": 4.849164862765512e-05,
      "loss": 0.23,
      "num_input_tokens_seen": 15587912,
      "step": 26860
    },
    {
      "epoch": 4.001340482573727,
      "grad_norm": 17.211509704589844,
      "learning_rate": 4.8490536823508767e-05,
      "loss": 0.2926,
      "num_input_tokens_seen": 15590888,
      "step": 26865
    },
    {
      "epoch": 4.002085195114685,
      "grad_norm": 5.817436695098877,
      "learning_rate": 4.848942462251367e-05,
      "loss": 0.2027,
      "num_input_tokens_seen": 15594152,
      "step": 26870
    },
    {
      "epoch": 4.002829907655645,
      "grad_norm": 17.132265090942383,
      "learning_rate": 4.848831202468862e-05,
      "loss": 0.2094,
      "num_input_tokens_seen": 15597288,
      "step": 26875
    },
    {
      "epoch": 4.003574620196604,
      "grad_norm": 11.406338691711426,
      "learning_rate": 4.848719903005241e-05,
      "loss": 0.3498,
      "num_input_tokens_seen": 15600200,
      "step": 26880
    },
    {
      "epoch": 4.0043193327375635,
      "grad_norm": 16.16582489013672,
      "learning_rate": 4.848608563862385e-05,
      "loss": 0.3964,
      "num_input_tokens_seen": 15603272,
      "step": 26885
    },
    {
      "epoch": 4.005064045278522,
      "grad_norm": 14.853079795837402,
      "learning_rate": 4.848497185042173e-05,
      "loss": 0.359,
      "num_input_tokens_seen": 15606184,
      "step": 26890
    },
    {
      "epoch": 4.005808757819482,
      "grad_norm": 5.829668998718262,
      "learning_rate": 4.84838576654649e-05,
      "loss": 0.2024,
      "num_input_tokens_seen": 15609032,
      "step": 26895
    },
    {
      "epoch": 4.006553470360441,
      "grad_norm": 11.803741455078125,
      "learning_rate": 4.848274308377214e-05,
      "loss": 0.3214,
      "num_input_tokens_seen": 15612136,
      "step": 26900
    },
    {
      "epoch": 4.0072981829014,
      "grad_norm": 2.4396049976348877,
      "learning_rate": 4.8481628105362317e-05,
      "loss": 0.1975,
      "num_input_tokens_seen": 15614888,
      "step": 26905
    },
    {
      "epoch": 4.008042895442359,
      "grad_norm": 0.1381395161151886,
      "learning_rate": 4.848051273025425e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 15617960,
      "step": 26910
    },
    {
      "epoch": 4.008787607983319,
      "grad_norm": 9.958776473999023,
      "learning_rate": 4.8479396958466783e-05,
      "loss": 0.3972,
      "num_input_tokens_seen": 15620776,
      "step": 26915
    },
    {
      "epoch": 4.009532320524277,
      "grad_norm": 29.40154457092285,
      "learning_rate": 4.8478280790018765e-05,
      "loss": 0.3441,
      "num_input_tokens_seen": 15623592,
      "step": 26920
    },
    {
      "epoch": 4.010277033065237,
      "grad_norm": 7.147536277770996,
      "learning_rate": 4.847716422492906e-05,
      "loss": 0.5326,
      "num_input_tokens_seen": 15626376,
      "step": 26925
    },
    {
      "epoch": 4.011021745606196,
      "grad_norm": 4.885565757751465,
      "learning_rate": 4.847604726321652e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 15629320,
      "step": 26930
    },
    {
      "epoch": 4.0117664581471555,
      "grad_norm": 6.2951531410217285,
      "learning_rate": 4.847492990490003e-05,
      "loss": 0.5009,
      "num_input_tokens_seen": 15631976,
      "step": 26935
    },
    {
      "epoch": 4.012511170688114,
      "grad_norm": 14.327005386352539,
      "learning_rate": 4.847381214999845e-05,
      "loss": 0.3347,
      "num_input_tokens_seen": 15634760,
      "step": 26940
    },
    {
      "epoch": 4.013255883229074,
      "grad_norm": 22.444276809692383,
      "learning_rate": 4.847269399853068e-05,
      "loss": 0.3448,
      "num_input_tokens_seen": 15637416,
      "step": 26945
    },
    {
      "epoch": 4.014000595770033,
      "grad_norm": 9.027578353881836,
      "learning_rate": 4.84715754505156e-05,
      "loss": 0.1296,
      "num_input_tokens_seen": 15640200,
      "step": 26950
    },
    {
      "epoch": 4.014745308310992,
      "grad_norm": 24.763349533081055,
      "learning_rate": 4.8470456505972105e-05,
      "loss": 0.1611,
      "num_input_tokens_seen": 15643272,
      "step": 26955
    },
    {
      "epoch": 4.015490020851951,
      "grad_norm": 4.094557762145996,
      "learning_rate": 4.8469337164919105e-05,
      "loss": 0.131,
      "num_input_tokens_seen": 15645992,
      "step": 26960
    },
    {
      "epoch": 4.016234733392911,
      "grad_norm": 5.359155178070068,
      "learning_rate": 4.84682174273755e-05,
      "loss": 0.2707,
      "num_input_tokens_seen": 15648872,
      "step": 26965
    },
    {
      "epoch": 4.0169794459338695,
      "grad_norm": 1.98027765750885,
      "learning_rate": 4.846709729336022e-05,
      "loss": 0.2434,
      "num_input_tokens_seen": 15652008,
      "step": 26970
    },
    {
      "epoch": 4.017724158474829,
      "grad_norm": 0.11871595680713654,
      "learning_rate": 4.846597676289218e-05,
      "loss": 0.2812,
      "num_input_tokens_seen": 15655048,
      "step": 26975
    },
    {
      "epoch": 4.018468871015788,
      "grad_norm": 2.417264938354492,
      "learning_rate": 4.846485583599031e-05,
      "loss": 0.1994,
      "num_input_tokens_seen": 15657992,
      "step": 26980
    },
    {
      "epoch": 4.0192135835567475,
      "grad_norm": 0.02853092923760414,
      "learning_rate": 4.846373451267355e-05,
      "loss": 0.561,
      "num_input_tokens_seen": 15660840,
      "step": 26985
    },
    {
      "epoch": 4.019958296097706,
      "grad_norm": 0.9584948420524597,
      "learning_rate": 4.846261279296085e-05,
      "loss": 0.5026,
      "num_input_tokens_seen": 15664232,
      "step": 26990
    },
    {
      "epoch": 4.020703008638666,
      "grad_norm": 5.054055213928223,
      "learning_rate": 4.8461490676871146e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 15666920,
      "step": 26995
    },
    {
      "epoch": 4.021447721179625,
      "grad_norm": 2.146293878555298,
      "learning_rate": 4.84603681644234e-05,
      "loss": 0.1769,
      "num_input_tokens_seen": 15670152,
      "step": 27000
    },
    {
      "epoch": 4.022192433720583,
      "grad_norm": 18.915504455566406,
      "learning_rate": 4.8459245255636585e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 15673128,
      "step": 27005
    },
    {
      "epoch": 4.022937146261543,
      "grad_norm": 0.5326830148696899,
      "learning_rate": 4.8458121950529654e-05,
      "loss": 0.2992,
      "num_input_tokens_seen": 15676776,
      "step": 27010
    },
    {
      "epoch": 4.023681858802502,
      "grad_norm": 9.901729583740234,
      "learning_rate": 4.845699824912161e-05,
      "loss": 0.5314,
      "num_input_tokens_seen": 15679784,
      "step": 27015
    },
    {
      "epoch": 4.0244265713434615,
      "grad_norm": 1.2516536712646484,
      "learning_rate": 4.845587415143141e-05,
      "loss": 0.2144,
      "num_input_tokens_seen": 15682760,
      "step": 27020
    },
    {
      "epoch": 4.02517128388442,
      "grad_norm": 2.455112934112549,
      "learning_rate": 4.845474965747806e-05,
      "loss": 0.2257,
      "num_input_tokens_seen": 15685640,
      "step": 27025
    },
    {
      "epoch": 4.02591599642538,
      "grad_norm": 21.986608505249023,
      "learning_rate": 4.8453624767280545e-05,
      "loss": 0.2395,
      "num_input_tokens_seen": 15688264,
      "step": 27030
    },
    {
      "epoch": 4.026660708966339,
      "grad_norm": 0.9972714781761169,
      "learning_rate": 4.845249948085789e-05,
      "loss": 0.0659,
      "num_input_tokens_seen": 15691368,
      "step": 27035
    },
    {
      "epoch": 4.027405421507298,
      "grad_norm": 21.174959182739258,
      "learning_rate": 4.8451373798229085e-05,
      "loss": 0.1208,
      "num_input_tokens_seen": 15694536,
      "step": 27040
    },
    {
      "epoch": 4.028150134048257,
      "grad_norm": 42.008583068847656,
      "learning_rate": 4.845024771941316e-05,
      "loss": 0.4226,
      "num_input_tokens_seen": 15697512,
      "step": 27045
    },
    {
      "epoch": 4.028894846589217,
      "grad_norm": 30.01715087890625,
      "learning_rate": 4.844912124442912e-05,
      "loss": 0.7903,
      "num_input_tokens_seen": 15700232,
      "step": 27050
    },
    {
      "epoch": 4.0296395591301755,
      "grad_norm": 9.389005661010742,
      "learning_rate": 4.844799437329602e-05,
      "loss": 0.225,
      "num_input_tokens_seen": 15703176,
      "step": 27055
    },
    {
      "epoch": 4.030384271671135,
      "grad_norm": 1.180000901222229,
      "learning_rate": 4.844686710603289e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 15706024,
      "step": 27060
    },
    {
      "epoch": 4.031128984212094,
      "grad_norm": 31.75359344482422,
      "learning_rate": 4.844573944265876e-05,
      "loss": 0.7216,
      "num_input_tokens_seen": 15708808,
      "step": 27065
    },
    {
      "epoch": 4.0318736967530535,
      "grad_norm": 2.383823871612549,
      "learning_rate": 4.8444611383192695e-05,
      "loss": 0.5067,
      "num_input_tokens_seen": 15711592,
      "step": 27070
    },
    {
      "epoch": 4.032618409294012,
      "grad_norm": 21.937564849853516,
      "learning_rate": 4.844348292765375e-05,
      "loss": 0.6457,
      "num_input_tokens_seen": 15714600,
      "step": 27075
    },
    {
      "epoch": 4.033363121834972,
      "grad_norm": 87.50997924804688,
      "learning_rate": 4.844235407606099e-05,
      "loss": 0.3135,
      "num_input_tokens_seen": 15717256,
      "step": 27080
    },
    {
      "epoch": 4.034107834375931,
      "grad_norm": 3.8685834407806396,
      "learning_rate": 4.844122482843347e-05,
      "loss": 0.1799,
      "num_input_tokens_seen": 15720264,
      "step": 27085
    },
    {
      "epoch": 4.03485254691689,
      "grad_norm": 28.136701583862305,
      "learning_rate": 4.8440095184790304e-05,
      "loss": 0.2125,
      "num_input_tokens_seen": 15723176,
      "step": 27090
    },
    {
      "epoch": 4.035597259457849,
      "grad_norm": 30.201997756958008,
      "learning_rate": 4.843896514515054e-05,
      "loss": 0.102,
      "num_input_tokens_seen": 15725896,
      "step": 27095
    },
    {
      "epoch": 4.036341971998809,
      "grad_norm": 2.09987473487854,
      "learning_rate": 4.843783470953328e-05,
      "loss": 0.4441,
      "num_input_tokens_seen": 15728680,
      "step": 27100
    },
    {
      "epoch": 4.0370866845397675,
      "grad_norm": 10.543014526367188,
      "learning_rate": 4.843670387795763e-05,
      "loss": 0.482,
      "num_input_tokens_seen": 15731880,
      "step": 27105
    },
    {
      "epoch": 4.037831397080727,
      "grad_norm": 0.4270390570163727,
      "learning_rate": 4.843557265044268e-05,
      "loss": 0.4993,
      "num_input_tokens_seen": 15734664,
      "step": 27110
    },
    {
      "epoch": 4.038576109621686,
      "grad_norm": 1.456341028213501,
      "learning_rate": 4.843444102700756e-05,
      "loss": 0.0845,
      "num_input_tokens_seen": 15737352,
      "step": 27115
    },
    {
      "epoch": 4.0393208221626455,
      "grad_norm": 20.836551666259766,
      "learning_rate": 4.843330900767137e-05,
      "loss": 0.3028,
      "num_input_tokens_seen": 15740168,
      "step": 27120
    },
    {
      "epoch": 4.040065534703604,
      "grad_norm": 12.926506042480469,
      "learning_rate": 4.843217659245324e-05,
      "loss": 0.4226,
      "num_input_tokens_seen": 15743240,
      "step": 27125
    },
    {
      "epoch": 4.040810247244564,
      "grad_norm": 1.1608775854110718,
      "learning_rate": 4.843104378137231e-05,
      "loss": 0.3656,
      "num_input_tokens_seen": 15746248,
      "step": 27130
    },
    {
      "epoch": 4.041554959785523,
      "grad_norm": 2.6339364051818848,
      "learning_rate": 4.84299105744477e-05,
      "loss": 0.2553,
      "num_input_tokens_seen": 15749448,
      "step": 27135
    },
    {
      "epoch": 4.042299672326482,
      "grad_norm": 8.242046356201172,
      "learning_rate": 4.8428776971698566e-05,
      "loss": 0.1014,
      "num_input_tokens_seen": 15752552,
      "step": 27140
    },
    {
      "epoch": 4.043044384867441,
      "grad_norm": 0.05950272083282471,
      "learning_rate": 4.842764297314406e-05,
      "loss": 0.2184,
      "num_input_tokens_seen": 15755592,
      "step": 27145
    },
    {
      "epoch": 4.043789097408401,
      "grad_norm": 14.638702392578125,
      "learning_rate": 4.842650857880333e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 15758664,
      "step": 27150
    },
    {
      "epoch": 4.0445338099493595,
      "grad_norm": 0.31613093614578247,
      "learning_rate": 4.842537378869556e-05,
      "loss": 0.0685,
      "num_input_tokens_seen": 15761512,
      "step": 27155
    },
    {
      "epoch": 4.045278522490319,
      "grad_norm": 18.005178451538086,
      "learning_rate": 4.84242386028399e-05,
      "loss": 0.2066,
      "num_input_tokens_seen": 15764136,
      "step": 27160
    },
    {
      "epoch": 4.046023235031278,
      "grad_norm": 18.17140769958496,
      "learning_rate": 4.8423103021255535e-05,
      "loss": 0.4962,
      "num_input_tokens_seen": 15767240,
      "step": 27165
    },
    {
      "epoch": 4.046767947572237,
      "grad_norm": 12.967025756835938,
      "learning_rate": 4.842196704396165e-05,
      "loss": 0.2375,
      "num_input_tokens_seen": 15770088,
      "step": 27170
    },
    {
      "epoch": 4.047512660113196,
      "grad_norm": 19.130098342895508,
      "learning_rate": 4.842083067097744e-05,
      "loss": 0.3619,
      "num_input_tokens_seen": 15772776,
      "step": 27175
    },
    {
      "epoch": 4.048257372654155,
      "grad_norm": 0.28243744373321533,
      "learning_rate": 4.84196939023221e-05,
      "loss": 0.5713,
      "num_input_tokens_seen": 15775464,
      "step": 27180
    },
    {
      "epoch": 4.049002085195115,
      "grad_norm": 4.6771039962768555,
      "learning_rate": 4.841855673801483e-05,
      "loss": 0.0917,
      "num_input_tokens_seen": 15778344,
      "step": 27185
    },
    {
      "epoch": 4.0497467977360735,
      "grad_norm": 25.55780601501465,
      "learning_rate": 4.8417419178074854e-05,
      "loss": 0.529,
      "num_input_tokens_seen": 15781224,
      "step": 27190
    },
    {
      "epoch": 4.050491510277033,
      "grad_norm": 3.6532950401306152,
      "learning_rate": 4.841628122252138e-05,
      "loss": 0.3163,
      "num_input_tokens_seen": 15783912,
      "step": 27195
    },
    {
      "epoch": 4.051236222817992,
      "grad_norm": 3.2633438110351562,
      "learning_rate": 4.841514287137362e-05,
      "loss": 0.1601,
      "num_input_tokens_seen": 15786600,
      "step": 27200
    },
    {
      "epoch": 4.0519809353589515,
      "grad_norm": 2.2344400882720947,
      "learning_rate": 4.841400412465083e-05,
      "loss": 0.1054,
      "num_input_tokens_seen": 15789736,
      "step": 27205
    },
    {
      "epoch": 4.05272564789991,
      "grad_norm": 7.254009246826172,
      "learning_rate": 4.8412864982372244e-05,
      "loss": 0.1562,
      "num_input_tokens_seen": 15792616,
      "step": 27210
    },
    {
      "epoch": 4.05347036044087,
      "grad_norm": 0.08300933241844177,
      "learning_rate": 4.841172544455709e-05,
      "loss": 0.213,
      "num_input_tokens_seen": 15795624,
      "step": 27215
    },
    {
      "epoch": 4.054215072981829,
      "grad_norm": 43.5384521484375,
      "learning_rate": 4.841058551122463e-05,
      "loss": 0.3513,
      "num_input_tokens_seen": 15798376,
      "step": 27220
    },
    {
      "epoch": 4.054959785522788,
      "grad_norm": 0.07385856658220291,
      "learning_rate": 4.840944518239412e-05,
      "loss": 0.1733,
      "num_input_tokens_seen": 15801064,
      "step": 27225
    },
    {
      "epoch": 4.055704498063747,
      "grad_norm": 26.412399291992188,
      "learning_rate": 4.840830445808483e-05,
      "loss": 0.3778,
      "num_input_tokens_seen": 15803688,
      "step": 27230
    },
    {
      "epoch": 4.056449210604707,
      "grad_norm": 8.075939178466797,
      "learning_rate": 4.840716333831602e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 15807016,
      "step": 27235
    },
    {
      "epoch": 4.0571939231456655,
      "grad_norm": 0.2555573582649231,
      "learning_rate": 4.8406021823106985e-05,
      "loss": 0.0507,
      "num_input_tokens_seen": 15809896,
      "step": 27240
    },
    {
      "epoch": 4.057938635686625,
      "grad_norm": 32.672332763671875,
      "learning_rate": 4.8404879912477e-05,
      "loss": 0.1999,
      "num_input_tokens_seen": 15813192,
      "step": 27245
    },
    {
      "epoch": 4.058683348227584,
      "grad_norm": 12.851479530334473,
      "learning_rate": 4.8403737606445355e-05,
      "loss": 0.0846,
      "num_input_tokens_seen": 15815784,
      "step": 27250
    },
    {
      "epoch": 4.059428060768544,
      "grad_norm": 35.973602294921875,
      "learning_rate": 4.8402594905031346e-05,
      "loss": 0.3108,
      "num_input_tokens_seen": 15818440,
      "step": 27255
    },
    {
      "epoch": 4.060172773309502,
      "grad_norm": 16.375654220581055,
      "learning_rate": 4.840145180825428e-05,
      "loss": 0.1915,
      "num_input_tokens_seen": 15821352,
      "step": 27260
    },
    {
      "epoch": 4.060917485850462,
      "grad_norm": 0.09332415461540222,
      "learning_rate": 4.840030831613347e-05,
      "loss": 0.1707,
      "num_input_tokens_seen": 15824008,
      "step": 27265
    },
    {
      "epoch": 4.061662198391421,
      "grad_norm": 2.088775634765625,
      "learning_rate": 4.8399164428688244e-05,
      "loss": 0.4585,
      "num_input_tokens_seen": 15826728,
      "step": 27270
    },
    {
      "epoch": 4.06240691093238,
      "grad_norm": 22.739431381225586,
      "learning_rate": 4.83980201459379e-05,
      "loss": 0.3339,
      "num_input_tokens_seen": 15829352,
      "step": 27275
    },
    {
      "epoch": 4.063151623473339,
      "grad_norm": 0.06375658512115479,
      "learning_rate": 4.83968754679018e-05,
      "loss": 0.2949,
      "num_input_tokens_seen": 15832680,
      "step": 27280
    },
    {
      "epoch": 4.063896336014299,
      "grad_norm": 4.355169773101807,
      "learning_rate": 4.839573039459927e-05,
      "loss": 0.5329,
      "num_input_tokens_seen": 15835656,
      "step": 27285
    },
    {
      "epoch": 4.0646410485552575,
      "grad_norm": 12.664331436157227,
      "learning_rate": 4.8394584926049644e-05,
      "loss": 0.3741,
      "num_input_tokens_seen": 15838536,
      "step": 27290
    },
    {
      "epoch": 4.065385761096217,
      "grad_norm": 33.766902923583984,
      "learning_rate": 4.839343906227229e-05,
      "loss": 0.3384,
      "num_input_tokens_seen": 15841352,
      "step": 27295
    },
    {
      "epoch": 4.066130473637176,
      "grad_norm": 1.073678970336914,
      "learning_rate": 4.8392292803286554e-05,
      "loss": 0.4318,
      "num_input_tokens_seen": 15844360,
      "step": 27300
    },
    {
      "epoch": 4.066875186178136,
      "grad_norm": 6.907294273376465,
      "learning_rate": 4.839114614911181e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 15847080,
      "step": 27305
    },
    {
      "epoch": 4.067619898719094,
      "grad_norm": 34.91445541381836,
      "learning_rate": 4.838999909976742e-05,
      "loss": 0.2398,
      "num_input_tokens_seen": 15849896,
      "step": 27310
    },
    {
      "epoch": 4.068364611260054,
      "grad_norm": 5.533205986022949,
      "learning_rate": 4.838885165527277e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 15852840,
      "step": 27315
    },
    {
      "epoch": 4.069109323801013,
      "grad_norm": 0.22549276053905487,
      "learning_rate": 4.8387703815647245e-05,
      "loss": 0.1549,
      "num_input_tokens_seen": 15855528,
      "step": 27320
    },
    {
      "epoch": 4.069854036341972,
      "grad_norm": 28.19477081298828,
      "learning_rate": 4.838655558091024e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 15858472,
      "step": 27325
    },
    {
      "epoch": 4.070598748882931,
      "grad_norm": 104.64747619628906,
      "learning_rate": 4.8385406951081135e-05,
      "loss": 0.2743,
      "num_input_tokens_seen": 15861224,
      "step": 27330
    },
    {
      "epoch": 4.071343461423891,
      "grad_norm": 14.61624813079834,
      "learning_rate": 4.838425792617935e-05,
      "loss": 0.0637,
      "num_input_tokens_seen": 15864008,
      "step": 27335
    },
    {
      "epoch": 4.07208817396485,
      "grad_norm": 0.13288965821266174,
      "learning_rate": 4.8383108506224304e-05,
      "loss": 0.3248,
      "num_input_tokens_seen": 15866952,
      "step": 27340
    },
    {
      "epoch": 4.072832886505808,
      "grad_norm": 23.314693450927734,
      "learning_rate": 4.8381958691235396e-05,
      "loss": 0.297,
      "num_input_tokens_seen": 15870024,
      "step": 27345
    },
    {
      "epoch": 4.073577599046768,
      "grad_norm": 15.593955993652344,
      "learning_rate": 4.838080848123206e-05,
      "loss": 0.2421,
      "num_input_tokens_seen": 15872936,
      "step": 27350
    },
    {
      "epoch": 4.074322311587727,
      "grad_norm": 1.357544183731079,
      "learning_rate": 4.837965787623373e-05,
      "loss": 0.369,
      "num_input_tokens_seen": 15875848,
      "step": 27355
    },
    {
      "epoch": 4.075067024128686,
      "grad_norm": 0.16012318432331085,
      "learning_rate": 4.837850687625985e-05,
      "loss": 0.4699,
      "num_input_tokens_seen": 15879048,
      "step": 27360
    },
    {
      "epoch": 4.075811736669645,
      "grad_norm": 0.1740843504667282,
      "learning_rate": 4.8377355481329846e-05,
      "loss": 0.5936,
      "num_input_tokens_seen": 15881992,
      "step": 27365
    },
    {
      "epoch": 4.076556449210605,
      "grad_norm": 0.33788153529167175,
      "learning_rate": 4.8376203691463184e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 15885128,
      "step": 27370
    },
    {
      "epoch": 4.0773011617515635,
      "grad_norm": 9.687936782836914,
      "learning_rate": 4.837505150667932e-05,
      "loss": 0.1928,
      "num_input_tokens_seen": 15887976,
      "step": 27375
    },
    {
      "epoch": 4.078045874292523,
      "grad_norm": 4.475193977355957,
      "learning_rate": 4.837389892699772e-05,
      "loss": 0.3438,
      "num_input_tokens_seen": 15891144,
      "step": 27380
    },
    {
      "epoch": 4.078790586833482,
      "grad_norm": 0.1851150244474411,
      "learning_rate": 4.837274595243785e-05,
      "loss": 0.2886,
      "num_input_tokens_seen": 15893896,
      "step": 27385
    },
    {
      "epoch": 4.079535299374442,
      "grad_norm": 12.099591255187988,
      "learning_rate": 4.8371592583019196e-05,
      "loss": 0.3757,
      "num_input_tokens_seen": 15896872,
      "step": 27390
    },
    {
      "epoch": 4.0802800119154,
      "grad_norm": 0.07229739427566528,
      "learning_rate": 4.8370438818761235e-05,
      "loss": 0.2459,
      "num_input_tokens_seen": 15899656,
      "step": 27395
    },
    {
      "epoch": 4.08102472445636,
      "grad_norm": 2.623412609100342,
      "learning_rate": 4.836928465968347e-05,
      "loss": 0.2289,
      "num_input_tokens_seen": 15902504,
      "step": 27400
    },
    {
      "epoch": 4.081769436997319,
      "grad_norm": 26.896873474121094,
      "learning_rate": 4.836813010580538e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 15905224,
      "step": 27405
    },
    {
      "epoch": 4.082514149538278,
      "grad_norm": 2.1834301948547363,
      "learning_rate": 4.836697515714649e-05,
      "loss": 0.041,
      "num_input_tokens_seen": 15908008,
      "step": 27410
    },
    {
      "epoch": 4.083258862079237,
      "grad_norm": 21.24104881286621,
      "learning_rate": 4.8365819813726306e-05,
      "loss": 0.2294,
      "num_input_tokens_seen": 15910824,
      "step": 27415
    },
    {
      "epoch": 4.084003574620197,
      "grad_norm": 5.343558311462402,
      "learning_rate": 4.8364664075564334e-05,
      "loss": 0.0886,
      "num_input_tokens_seen": 15913832,
      "step": 27420
    },
    {
      "epoch": 4.084748287161156,
      "grad_norm": 11.889004707336426,
      "learning_rate": 4.836350794268012e-05,
      "loss": 0.5172,
      "num_input_tokens_seen": 15916936,
      "step": 27425
    },
    {
      "epoch": 4.085492999702115,
      "grad_norm": 30.88536834716797,
      "learning_rate": 4.836235141509318e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 15919880,
      "step": 27430
    },
    {
      "epoch": 4.086237712243074,
      "grad_norm": 1.421897053718567,
      "learning_rate": 4.836119449282306e-05,
      "loss": 0.202,
      "num_input_tokens_seen": 15922824,
      "step": 27435
    },
    {
      "epoch": 4.086982424784034,
      "grad_norm": 7.972751140594482,
      "learning_rate": 4.8360037175889304e-05,
      "loss": 0.2167,
      "num_input_tokens_seen": 15925672,
      "step": 27440
    },
    {
      "epoch": 4.087727137324992,
      "grad_norm": 8.161727905273438,
      "learning_rate": 4.8358879464311455e-05,
      "loss": 0.1635,
      "num_input_tokens_seen": 15928552,
      "step": 27445
    },
    {
      "epoch": 4.088471849865952,
      "grad_norm": 16.74486541748047,
      "learning_rate": 4.835772135810909e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 15931464,
      "step": 27450
    },
    {
      "epoch": 4.089216562406911,
      "grad_norm": 17.308435440063477,
      "learning_rate": 4.8356562857301744e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 15934024,
      "step": 27455
    },
    {
      "epoch": 4.08996127494787,
      "grad_norm": 4.212725639343262,
      "learning_rate": 4.835540396190902e-05,
      "loss": 0.2015,
      "num_input_tokens_seen": 15936872,
      "step": 27460
    },
    {
      "epoch": 4.090705987488829,
      "grad_norm": 9.63544750213623,
      "learning_rate": 4.835424467195049e-05,
      "loss": 0.4612,
      "num_input_tokens_seen": 15939816,
      "step": 27465
    },
    {
      "epoch": 4.091450700029789,
      "grad_norm": 6.683929920196533,
      "learning_rate": 4.835308498744572e-05,
      "loss": 0.2853,
      "num_input_tokens_seen": 15942728,
      "step": 27470
    },
    {
      "epoch": 4.092195412570748,
      "grad_norm": 6.568222522735596,
      "learning_rate": 4.8351924908414314e-05,
      "loss": 0.2565,
      "num_input_tokens_seen": 15945768,
      "step": 27475
    },
    {
      "epoch": 4.092940125111707,
      "grad_norm": 11.183398246765137,
      "learning_rate": 4.835076443487587e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 15948392,
      "step": 27480
    },
    {
      "epoch": 4.093684837652666,
      "grad_norm": 17.227819442749023,
      "learning_rate": 4.8349603566850003e-05,
      "loss": 0.26,
      "num_input_tokens_seen": 15951176,
      "step": 27485
    },
    {
      "epoch": 4.094429550193626,
      "grad_norm": 22.732250213623047,
      "learning_rate": 4.834844230435631e-05,
      "loss": 0.4637,
      "num_input_tokens_seen": 15953960,
      "step": 27490
    },
    {
      "epoch": 4.095174262734584,
      "grad_norm": 9.954069137573242,
      "learning_rate": 4.8347280647414416e-05,
      "loss": 0.0979,
      "num_input_tokens_seen": 15957128,
      "step": 27495
    },
    {
      "epoch": 4.095918975275544,
      "grad_norm": 0.8336372375488281,
      "learning_rate": 4.834611859604394e-05,
      "loss": 0.2606,
      "num_input_tokens_seen": 15959848,
      "step": 27500
    },
    {
      "epoch": 4.096663687816503,
      "grad_norm": 3.3259825706481934,
      "learning_rate": 4.8344956150264524e-05,
      "loss": 0.1519,
      "num_input_tokens_seen": 15962504,
      "step": 27505
    },
    {
      "epoch": 4.0974084003574625,
      "grad_norm": 0.022815724834799767,
      "learning_rate": 4.83437933100958e-05,
      "loss": 0.2745,
      "num_input_tokens_seen": 15965224,
      "step": 27510
    },
    {
      "epoch": 4.098153112898421,
      "grad_norm": 22.87444305419922,
      "learning_rate": 4.834263007555741e-05,
      "loss": 0.4913,
      "num_input_tokens_seen": 15967880,
      "step": 27515
    },
    {
      "epoch": 4.09889782543938,
      "grad_norm": 15.356085777282715,
      "learning_rate": 4.834146644666901e-05,
      "loss": 0.3957,
      "num_input_tokens_seen": 15970824,
      "step": 27520
    },
    {
      "epoch": 4.09964253798034,
      "grad_norm": 8.320660591125488,
      "learning_rate": 4.834030242345026e-05,
      "loss": 0.1007,
      "num_input_tokens_seen": 15973576,
      "step": 27525
    },
    {
      "epoch": 4.100387250521298,
      "grad_norm": 6.518393516540527,
      "learning_rate": 4.8339138005920825e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 15976264,
      "step": 27530
    },
    {
      "epoch": 4.101131963062258,
      "grad_norm": 15.732664108276367,
      "learning_rate": 4.833797319410037e-05,
      "loss": 0.2235,
      "num_input_tokens_seen": 15979112,
      "step": 27535
    },
    {
      "epoch": 4.101876675603217,
      "grad_norm": 13.72778606414795,
      "learning_rate": 4.833680798800858e-05,
      "loss": 0.551,
      "num_input_tokens_seen": 15982248,
      "step": 27540
    },
    {
      "epoch": 4.102621388144176,
      "grad_norm": 27.652923583984375,
      "learning_rate": 4.833564238766513e-05,
      "loss": 0.3653,
      "num_input_tokens_seen": 15985192,
      "step": 27545
    },
    {
      "epoch": 4.103366100685135,
      "grad_norm": 15.35209846496582,
      "learning_rate": 4.8334476393089726e-05,
      "loss": 0.5742,
      "num_input_tokens_seen": 15988040,
      "step": 27550
    },
    {
      "epoch": 4.104110813226095,
      "grad_norm": 9.985751152038574,
      "learning_rate": 4.8333310004302054e-05,
      "loss": 0.2518,
      "num_input_tokens_seen": 15990888,
      "step": 27555
    },
    {
      "epoch": 4.104855525767054,
      "grad_norm": 0.4618871212005615,
      "learning_rate": 4.833214322132183e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 15993832,
      "step": 27560
    },
    {
      "epoch": 4.105600238308013,
      "grad_norm": 19.18320083618164,
      "learning_rate": 4.8330976044168766e-05,
      "loss": 0.4194,
      "num_input_tokens_seen": 15996584,
      "step": 27565
    },
    {
      "epoch": 4.106344950848972,
      "grad_norm": 0.6556630730628967,
      "learning_rate": 4.832980847286256e-05,
      "loss": 0.1992,
      "num_input_tokens_seen": 15999560,
      "step": 27570
    },
    {
      "epoch": 4.107089663389932,
      "grad_norm": 11.713790893554688,
      "learning_rate": 4.832864050742296e-05,
      "loss": 0.4828,
      "num_input_tokens_seen": 16002344,
      "step": 27575
    },
    {
      "epoch": 4.10783437593089,
      "grad_norm": 17.871671676635742,
      "learning_rate": 4.8327472147869684e-05,
      "loss": 0.3061,
      "num_input_tokens_seen": 16005288,
      "step": 27580
    },
    {
      "epoch": 4.10857908847185,
      "grad_norm": 0.01514993142336607,
      "learning_rate": 4.8326303394222476e-05,
      "loss": 0.2132,
      "num_input_tokens_seen": 16008360,
      "step": 27585
    },
    {
      "epoch": 4.109323801012809,
      "grad_norm": 25.084575653076172,
      "learning_rate": 4.832513424650108e-05,
      "loss": 0.2537,
      "num_input_tokens_seen": 16011400,
      "step": 27590
    },
    {
      "epoch": 4.1100685135537685,
      "grad_norm": 18.532129287719727,
      "learning_rate": 4.8323964704725254e-05,
      "loss": 0.364,
      "num_input_tokens_seen": 16014440,
      "step": 27595
    },
    {
      "epoch": 4.110813226094727,
      "grad_norm": 0.27769067883491516,
      "learning_rate": 4.8322794768914745e-05,
      "loss": 0.6199,
      "num_input_tokens_seen": 16017512,
      "step": 27600
    },
    {
      "epoch": 4.111557938635687,
      "grad_norm": 10.64482307434082,
      "learning_rate": 4.832162443908932e-05,
      "loss": 0.2744,
      "num_input_tokens_seen": 16020520,
      "step": 27605
    },
    {
      "epoch": 4.112302651176646,
      "grad_norm": 24.506515502929688,
      "learning_rate": 4.832045371526876e-05,
      "loss": 0.3633,
      "num_input_tokens_seen": 16023592,
      "step": 27610
    },
    {
      "epoch": 4.113047363717605,
      "grad_norm": 0.6102654933929443,
      "learning_rate": 4.8319282597472823e-05,
      "loss": 0.2145,
      "num_input_tokens_seen": 16026376,
      "step": 27615
    },
    {
      "epoch": 4.113792076258564,
      "grad_norm": 17.024682998657227,
      "learning_rate": 4.8318111085721324e-05,
      "loss": 0.142,
      "num_input_tokens_seen": 16029064,
      "step": 27620
    },
    {
      "epoch": 4.114536788799524,
      "grad_norm": 4.965982913970947,
      "learning_rate": 4.8316939180034025e-05,
      "loss": 0.2823,
      "num_input_tokens_seen": 16031848,
      "step": 27625
    },
    {
      "epoch": 4.115281501340482,
      "grad_norm": 2.5419211387634277,
      "learning_rate": 4.831576688043075e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 16034792,
      "step": 27630
    },
    {
      "epoch": 4.116026213881442,
      "grad_norm": 17.368135452270508,
      "learning_rate": 4.831459418693128e-05,
      "loss": 0.4015,
      "num_input_tokens_seen": 16037704,
      "step": 27635
    },
    {
      "epoch": 4.116770926422401,
      "grad_norm": 8.780387878417969,
      "learning_rate": 4.8313421099555436e-05,
      "loss": 0.3846,
      "num_input_tokens_seen": 16040424,
      "step": 27640
    },
    {
      "epoch": 4.1175156389633605,
      "grad_norm": 3.7102017402648926,
      "learning_rate": 4.831224761832304e-05,
      "loss": 0.4019,
      "num_input_tokens_seen": 16043336,
      "step": 27645
    },
    {
      "epoch": 4.118260351504319,
      "grad_norm": 1.2091506719589233,
      "learning_rate": 4.831107374325391e-05,
      "loss": 0.3225,
      "num_input_tokens_seen": 16046280,
      "step": 27650
    },
    {
      "epoch": 4.119005064045279,
      "grad_norm": 21.35018539428711,
      "learning_rate": 4.8309899474367894e-05,
      "loss": 0.2773,
      "num_input_tokens_seen": 16048872,
      "step": 27655
    },
    {
      "epoch": 4.119749776586238,
      "grad_norm": 4.628950119018555,
      "learning_rate": 4.8308724811684805e-05,
      "loss": 0.4004,
      "num_input_tokens_seen": 16051720,
      "step": 27660
    },
    {
      "epoch": 4.120494489127197,
      "grad_norm": 26.8038387298584,
      "learning_rate": 4.830754975522451e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 16054888,
      "step": 27665
    },
    {
      "epoch": 4.121239201668156,
      "grad_norm": 17.57279396057129,
      "learning_rate": 4.830637430500684e-05,
      "loss": 0.347,
      "num_input_tokens_seen": 16057960,
      "step": 27670
    },
    {
      "epoch": 4.121983914209116,
      "grad_norm": 18.359859466552734,
      "learning_rate": 4.830519846105167e-05,
      "loss": 0.2016,
      "num_input_tokens_seen": 16061224,
      "step": 27675
    },
    {
      "epoch": 4.1227286267500745,
      "grad_norm": 5.969099998474121,
      "learning_rate": 4.830402222337886e-05,
      "loss": 0.3922,
      "num_input_tokens_seen": 16064200,
      "step": 27680
    },
    {
      "epoch": 4.123473339291033,
      "grad_norm": 23.628482818603516,
      "learning_rate": 4.830284559200828e-05,
      "loss": 0.3224,
      "num_input_tokens_seen": 16067272,
      "step": 27685
    },
    {
      "epoch": 4.124218051831993,
      "grad_norm": 28.723127365112305,
      "learning_rate": 4.83016685669598e-05,
      "loss": 0.321,
      "num_input_tokens_seen": 16070216,
      "step": 27690
    },
    {
      "epoch": 4.124962764372952,
      "grad_norm": 40.422569274902344,
      "learning_rate": 4.8300491148253315e-05,
      "loss": 0.3258,
      "num_input_tokens_seen": 16072872,
      "step": 27695
    },
    {
      "epoch": 4.125707476913911,
      "grad_norm": 0.46112126111984253,
      "learning_rate": 4.829931333590872e-05,
      "loss": 0.1552,
      "num_input_tokens_seen": 16075496,
      "step": 27700
    },
    {
      "epoch": 4.12645218945487,
      "grad_norm": 6.166683673858643,
      "learning_rate": 4.82981351299459e-05,
      "loss": 0.5665,
      "num_input_tokens_seen": 16078184,
      "step": 27705
    },
    {
      "epoch": 4.12719690199583,
      "grad_norm": 29.8005313873291,
      "learning_rate": 4.829695653038477e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 16080872,
      "step": 27710
    },
    {
      "epoch": 4.127941614536788,
      "grad_norm": 0.3124934434890747,
      "learning_rate": 4.829577753724523e-05,
      "loss": 0.153,
      "num_input_tokens_seen": 16083592,
      "step": 27715
    },
    {
      "epoch": 4.128686327077748,
      "grad_norm": 14.117816925048828,
      "learning_rate": 4.829459815054722e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 16086536,
      "step": 27720
    },
    {
      "epoch": 4.129431039618707,
      "grad_norm": 19.964876174926758,
      "learning_rate": 4.829341837031064e-05,
      "loss": 0.4694,
      "num_input_tokens_seen": 16089544,
      "step": 27725
    },
    {
      "epoch": 4.1301757521596665,
      "grad_norm": 47.39606857299805,
      "learning_rate": 4.829223819655543e-05,
      "loss": 0.3381,
      "num_input_tokens_seen": 16092552,
      "step": 27730
    },
    {
      "epoch": 4.130920464700625,
      "grad_norm": 10.030864715576172,
      "learning_rate": 4.829105762930153e-05,
      "loss": 0.2733,
      "num_input_tokens_seen": 16095816,
      "step": 27735
    },
    {
      "epoch": 4.131665177241585,
      "grad_norm": 0.4164755046367645,
      "learning_rate": 4.8289876668568886e-05,
      "loss": 0.2956,
      "num_input_tokens_seen": 16098568,
      "step": 27740
    },
    {
      "epoch": 4.132409889782544,
      "grad_norm": 0.05999148264527321,
      "learning_rate": 4.828869531437744e-05,
      "loss": 0.4273,
      "num_input_tokens_seen": 16101480,
      "step": 27745
    },
    {
      "epoch": 4.133154602323503,
      "grad_norm": 10.489114761352539,
      "learning_rate": 4.828751356674717e-05,
      "loss": 0.3557,
      "num_input_tokens_seen": 16104296,
      "step": 27750
    },
    {
      "epoch": 4.133899314864462,
      "grad_norm": 18.185909271240234,
      "learning_rate": 4.8286331425698014e-05,
      "loss": 0.2719,
      "num_input_tokens_seen": 16107272,
      "step": 27755
    },
    {
      "epoch": 4.134644027405422,
      "grad_norm": 18.08790397644043,
      "learning_rate": 4.828514889124995e-05,
      "loss": 0.2783,
      "num_input_tokens_seen": 16110344,
      "step": 27760
    },
    {
      "epoch": 4.1353887399463805,
      "grad_norm": 4.4960527420043945,
      "learning_rate": 4.828396596342298e-05,
      "loss": 0.2093,
      "num_input_tokens_seen": 16113192,
      "step": 27765
    },
    {
      "epoch": 4.13613345248734,
      "grad_norm": 1.2305818796157837,
      "learning_rate": 4.828278264223706e-05,
      "loss": 0.1362,
      "num_input_tokens_seen": 16116008,
      "step": 27770
    },
    {
      "epoch": 4.136878165028299,
      "grad_norm": 16.572444915771484,
      "learning_rate": 4.828159892771219e-05,
      "loss": 0.1303,
      "num_input_tokens_seen": 16118792,
      "step": 27775
    },
    {
      "epoch": 4.1376228775692585,
      "grad_norm": 11.891645431518555,
      "learning_rate": 4.828041481986837e-05,
      "loss": 0.4002,
      "num_input_tokens_seen": 16121800,
      "step": 27780
    },
    {
      "epoch": 4.138367590110217,
      "grad_norm": 20.259857177734375,
      "learning_rate": 4.82792303187256e-05,
      "loss": 0.322,
      "num_input_tokens_seen": 16124808,
      "step": 27785
    },
    {
      "epoch": 4.139112302651177,
      "grad_norm": 27.48492431640625,
      "learning_rate": 4.82780454243039e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 16127816,
      "step": 27790
    },
    {
      "epoch": 4.139857015192136,
      "grad_norm": 18.572690963745117,
      "learning_rate": 4.827686013662327e-05,
      "loss": 0.3937,
      "num_input_tokens_seen": 16130824,
      "step": 27795
    },
    {
      "epoch": 4.140601727733095,
      "grad_norm": 6.356325626373291,
      "learning_rate": 4.827567445570376e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 16133768,
      "step": 27800
    },
    {
      "epoch": 4.141346440274054,
      "grad_norm": 1.9375667572021484,
      "learning_rate": 4.827448838156537e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 16136520,
      "step": 27805
    },
    {
      "epoch": 4.142091152815014,
      "grad_norm": 37.598472595214844,
      "learning_rate": 4.827330191422817e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 16139496,
      "step": 27810
    },
    {
      "epoch": 4.1428358653559725,
      "grad_norm": 0.4906564950942993,
      "learning_rate": 4.8272115053712185e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 16142280,
      "step": 27815
    },
    {
      "epoch": 4.143580577896932,
      "grad_norm": 0.014633401297032833,
      "learning_rate": 4.8270927800037465e-05,
      "loss": 0.4296,
      "num_input_tokens_seen": 16145000,
      "step": 27820
    },
    {
      "epoch": 4.144325290437891,
      "grad_norm": 3.1812849044799805,
      "learning_rate": 4.826974015322407e-05,
      "loss": 0.1513,
      "num_input_tokens_seen": 16147976,
      "step": 27825
    },
    {
      "epoch": 4.1450700029788505,
      "grad_norm": 6.117741107940674,
      "learning_rate": 4.826855211329206e-05,
      "loss": 0.3402,
      "num_input_tokens_seen": 16150856,
      "step": 27830
    },
    {
      "epoch": 4.145814715519809,
      "grad_norm": 20.359556198120117,
      "learning_rate": 4.826736368026152e-05,
      "loss": 0.1749,
      "num_input_tokens_seen": 16153768,
      "step": 27835
    },
    {
      "epoch": 4.146559428060769,
      "grad_norm": 16.196474075317383,
      "learning_rate": 4.826617485415252e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 16156648,
      "step": 27840
    },
    {
      "epoch": 4.147304140601728,
      "grad_norm": 11.359648704528809,
      "learning_rate": 4.826498563498514e-05,
      "loss": 0.0966,
      "num_input_tokens_seen": 16159496,
      "step": 27845
    },
    {
      "epoch": 4.148048853142687,
      "grad_norm": 15.588418960571289,
      "learning_rate": 4.826379602277947e-05,
      "loss": 0.3564,
      "num_input_tokens_seen": 16162472,
      "step": 27850
    },
    {
      "epoch": 4.148793565683646,
      "grad_norm": 28.95650863647461,
      "learning_rate": 4.8262606017555616e-05,
      "loss": 0.263,
      "num_input_tokens_seen": 16165320,
      "step": 27855
    },
    {
      "epoch": 4.149538278224606,
      "grad_norm": 12.872457504272461,
      "learning_rate": 4.826141561933367e-05,
      "loss": 0.1633,
      "num_input_tokens_seen": 16168104,
      "step": 27860
    },
    {
      "epoch": 4.1502829907655645,
      "grad_norm": 25.201492309570312,
      "learning_rate": 4.826022482813376e-05,
      "loss": 0.3126,
      "num_input_tokens_seen": 16170920,
      "step": 27865
    },
    {
      "epoch": 4.151027703306523,
      "grad_norm": 30.009456634521484,
      "learning_rate": 4.825903364397598e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 16173800,
      "step": 27870
    },
    {
      "epoch": 4.151772415847483,
      "grad_norm": 6.472100257873535,
      "learning_rate": 4.8257842066880474e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 16176808,
      "step": 27875
    },
    {
      "epoch": 4.152517128388442,
      "grad_norm": 0.9514987468719482,
      "learning_rate": 4.8256650096867364e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 16179624,
      "step": 27880
    },
    {
      "epoch": 4.153261840929401,
      "grad_norm": 0.6026068925857544,
      "learning_rate": 4.8255457733956774e-05,
      "loss": 0.091,
      "num_input_tokens_seen": 16182248,
      "step": 27885
    },
    {
      "epoch": 4.15400655347036,
      "grad_norm": 5.562272548675537,
      "learning_rate": 4.825426497816888e-05,
      "loss": 0.2732,
      "num_input_tokens_seen": 16185000,
      "step": 27890
    },
    {
      "epoch": 4.15475126601132,
      "grad_norm": 19.538827896118164,
      "learning_rate": 4.82530718295238e-05,
      "loss": 0.2267,
      "num_input_tokens_seen": 16187976,
      "step": 27895
    },
    {
      "epoch": 4.1554959785522785,
      "grad_norm": 9.944514274597168,
      "learning_rate": 4.825187828804171e-05,
      "loss": 0.3745,
      "num_input_tokens_seen": 16191080,
      "step": 27900
    },
    {
      "epoch": 4.156240691093238,
      "grad_norm": 27.76723289489746,
      "learning_rate": 4.825068435374277e-05,
      "loss": 0.4445,
      "num_input_tokens_seen": 16194024,
      "step": 27905
    },
    {
      "epoch": 4.156985403634197,
      "grad_norm": 0.9249004125595093,
      "learning_rate": 4.824949002664715e-05,
      "loss": 0.2612,
      "num_input_tokens_seen": 16196744,
      "step": 27910
    },
    {
      "epoch": 4.1577301161751565,
      "grad_norm": 17.29564094543457,
      "learning_rate": 4.824829530677503e-05,
      "loss": 0.6518,
      "num_input_tokens_seen": 16199816,
      "step": 27915
    },
    {
      "epoch": 4.158474828716115,
      "grad_norm": 18.431272506713867,
      "learning_rate": 4.824710019414658e-05,
      "loss": 0.3861,
      "num_input_tokens_seen": 16202504,
      "step": 27920
    },
    {
      "epoch": 4.159219541257075,
      "grad_norm": 2.090630531311035,
      "learning_rate": 4.8245904688781994e-05,
      "loss": 0.3526,
      "num_input_tokens_seen": 16205352,
      "step": 27925
    },
    {
      "epoch": 4.159964253798034,
      "grad_norm": 29.3339900970459,
      "learning_rate": 4.8244708790701486e-05,
      "loss": 0.4739,
      "num_input_tokens_seen": 16208328,
      "step": 27930
    },
    {
      "epoch": 4.160708966338993,
      "grad_norm": 8.003743171691895,
      "learning_rate": 4.824351249992525e-05,
      "loss": 0.2212,
      "num_input_tokens_seen": 16211080,
      "step": 27935
    },
    {
      "epoch": 4.161453678879952,
      "grad_norm": 32.264190673828125,
      "learning_rate": 4.824231581647348e-05,
      "loss": 0.3187,
      "num_input_tokens_seen": 16214024,
      "step": 27940
    },
    {
      "epoch": 4.162198391420912,
      "grad_norm": 15.516180992126465,
      "learning_rate": 4.824111874036642e-05,
      "loss": 0.4984,
      "num_input_tokens_seen": 16216712,
      "step": 27945
    },
    {
      "epoch": 4.1629431039618705,
      "grad_norm": 12.643893241882324,
      "learning_rate": 4.823992127162428e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 16219368,
      "step": 27950
    },
    {
      "epoch": 4.16368781650283,
      "grad_norm": 12.151164054870605,
      "learning_rate": 4.8238723410267285e-05,
      "loss": 0.2208,
      "num_input_tokens_seen": 16222280,
      "step": 27955
    },
    {
      "epoch": 4.164432529043789,
      "grad_norm": 16.384565353393555,
      "learning_rate": 4.823752515631568e-05,
      "loss": 0.4162,
      "num_input_tokens_seen": 16225320,
      "step": 27960
    },
    {
      "epoch": 4.165177241584749,
      "grad_norm": 10.108955383300781,
      "learning_rate": 4.8236326509789695e-05,
      "loss": 0.2606,
      "num_input_tokens_seen": 16228424,
      "step": 27965
    },
    {
      "epoch": 4.165921954125707,
      "grad_norm": 25.520061492919922,
      "learning_rate": 4.8235127470709594e-05,
      "loss": 0.5151,
      "num_input_tokens_seen": 16231656,
      "step": 27970
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.6548524498939514,
      "learning_rate": 4.8233928039095635e-05,
      "loss": 0.142,
      "num_input_tokens_seen": 16234440,
      "step": 27975
    },
    {
      "epoch": 4.167411379207626,
      "grad_norm": 14.613057136535645,
      "learning_rate": 4.823272821496808e-05,
      "loss": 0.4096,
      "num_input_tokens_seen": 16237224,
      "step": 27980
    },
    {
      "epoch": 4.168156091748585,
      "grad_norm": 16.222368240356445,
      "learning_rate": 4.823152799834718e-05,
      "loss": 0.2083,
      "num_input_tokens_seen": 16240136,
      "step": 27985
    },
    {
      "epoch": 4.168900804289544,
      "grad_norm": 7.026431083679199,
      "learning_rate": 4.823032738925324e-05,
      "loss": 0.4347,
      "num_input_tokens_seen": 16243368,
      "step": 27990
    },
    {
      "epoch": 4.169645516830504,
      "grad_norm": 1.2057374715805054,
      "learning_rate": 4.8229126387706516e-05,
      "loss": 0.1991,
      "num_input_tokens_seen": 16246792,
      "step": 27995
    },
    {
      "epoch": 4.1703902293714625,
      "grad_norm": 17.455163955688477,
      "learning_rate": 4.822792499372732e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 16249544,
      "step": 28000
    },
    {
      "epoch": 4.171134941912422,
      "grad_norm": 4.392530918121338,
      "learning_rate": 4.822672320733594e-05,
      "loss": 0.2405,
      "num_input_tokens_seen": 16252456,
      "step": 28005
    },
    {
      "epoch": 4.171879654453381,
      "grad_norm": 17.842056274414062,
      "learning_rate": 4.822552102855267e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 16255304,
      "step": 28010
    },
    {
      "epoch": 4.172624366994341,
      "grad_norm": 13.24504280090332,
      "learning_rate": 4.822431845739783e-05,
      "loss": 0.356,
      "num_input_tokens_seen": 16257992,
      "step": 28015
    },
    {
      "epoch": 4.173369079535299,
      "grad_norm": 1.2967153787612915,
      "learning_rate": 4.822311549389174e-05,
      "loss": 0.3403,
      "num_input_tokens_seen": 16260936,
      "step": 28020
    },
    {
      "epoch": 4.174113792076259,
      "grad_norm": 16.48462677001953,
      "learning_rate": 4.8221912138054715e-05,
      "loss": 0.5841,
      "num_input_tokens_seen": 16263496,
      "step": 28025
    },
    {
      "epoch": 4.174858504617218,
      "grad_norm": 7.652049541473389,
      "learning_rate": 4.822070838990708e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 16266504,
      "step": 28030
    },
    {
      "epoch": 4.1756032171581765,
      "grad_norm": 8.442037582397461,
      "learning_rate": 4.8219504249469186e-05,
      "loss": 0.17,
      "num_input_tokens_seen": 16269064,
      "step": 28035
    },
    {
      "epoch": 4.176347929699136,
      "grad_norm": 2.9696056842803955,
      "learning_rate": 4.821829971676136e-05,
      "loss": 0.2322,
      "num_input_tokens_seen": 16271848,
      "step": 28040
    },
    {
      "epoch": 4.177092642240095,
      "grad_norm": 11.804901123046875,
      "learning_rate": 4.8217094791803966e-05,
      "loss": 0.1632,
      "num_input_tokens_seen": 16274728,
      "step": 28045
    },
    {
      "epoch": 4.177837354781055,
      "grad_norm": 5.529369831085205,
      "learning_rate": 4.821588947461734e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 16278728,
      "step": 28050
    },
    {
      "epoch": 4.178582067322013,
      "grad_norm": 11.013683319091797,
      "learning_rate": 4.821468376522186e-05,
      "loss": 0.3625,
      "num_input_tokens_seen": 16281576,
      "step": 28055
    },
    {
      "epoch": 4.179326779862973,
      "grad_norm": 0.2979266345500946,
      "learning_rate": 4.82134776636379e-05,
      "loss": 0.1015,
      "num_input_tokens_seen": 16284520,
      "step": 28060
    },
    {
      "epoch": 4.180071492403932,
      "grad_norm": 21.55179214477539,
      "learning_rate": 4.821227116988583e-05,
      "loss": 0.3279,
      "num_input_tokens_seen": 16287368,
      "step": 28065
    },
    {
      "epoch": 4.180816204944891,
      "grad_norm": 1.4540711641311646,
      "learning_rate": 4.8211064283986015e-05,
      "loss": 0.1174,
      "num_input_tokens_seen": 16289960,
      "step": 28070
    },
    {
      "epoch": 4.18156091748585,
      "grad_norm": 42.10215759277344,
      "learning_rate": 4.8209857005958866e-05,
      "loss": 0.4208,
      "num_input_tokens_seen": 16293288,
      "step": 28075
    },
    {
      "epoch": 4.18230563002681,
      "grad_norm": 34.57118606567383,
      "learning_rate": 4.820864933582478e-05,
      "loss": 0.4364,
      "num_input_tokens_seen": 16296232,
      "step": 28080
    },
    {
      "epoch": 4.1830503425677685,
      "grad_norm": 15.6044340133667,
      "learning_rate": 4.8207441273604145e-05,
      "loss": 0.5002,
      "num_input_tokens_seen": 16299496,
      "step": 28085
    },
    {
      "epoch": 4.183795055108728,
      "grad_norm": 0.25257036089897156,
      "learning_rate": 4.820623281931738e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 16302312,
      "step": 28090
    },
    {
      "epoch": 4.184539767649687,
      "grad_norm": 19.72846221923828,
      "learning_rate": 4.8205023972984896e-05,
      "loss": 0.2713,
      "num_input_tokens_seen": 16305256,
      "step": 28095
    },
    {
      "epoch": 4.185284480190647,
      "grad_norm": 8.439204216003418,
      "learning_rate": 4.820381473462712e-05,
      "loss": 0.2799,
      "num_input_tokens_seen": 16308296,
      "step": 28100
    },
    {
      "epoch": 4.186029192731605,
      "grad_norm": 4.543552398681641,
      "learning_rate": 4.820260510426447e-05,
      "loss": 0.2858,
      "num_input_tokens_seen": 16311144,
      "step": 28105
    },
    {
      "epoch": 4.186773905272565,
      "grad_norm": 2.4554316997528076,
      "learning_rate": 4.820139508191739e-05,
      "loss": 0.2787,
      "num_input_tokens_seen": 16314024,
      "step": 28110
    },
    {
      "epoch": 4.187518617813524,
      "grad_norm": 11.953133583068848,
      "learning_rate": 4.820018466760633e-05,
      "loss": 0.3047,
      "num_input_tokens_seen": 16316776,
      "step": 28115
    },
    {
      "epoch": 4.188263330354483,
      "grad_norm": 14.066210746765137,
      "learning_rate": 4.819897386135172e-05,
      "loss": 0.1884,
      "num_input_tokens_seen": 16319656,
      "step": 28120
    },
    {
      "epoch": 4.189008042895442,
      "grad_norm": 32.06366729736328,
      "learning_rate": 4.819776266317403e-05,
      "loss": 0.1473,
      "num_input_tokens_seen": 16322760,
      "step": 28125
    },
    {
      "epoch": 4.189752755436402,
      "grad_norm": 16.91697120666504,
      "learning_rate": 4.819655107309371e-05,
      "loss": 0.1261,
      "num_input_tokens_seen": 16325448,
      "step": 28130
    },
    {
      "epoch": 4.190497467977361,
      "grad_norm": 19.049423217773438,
      "learning_rate": 4.819533909113124e-05,
      "loss": 0.3498,
      "num_input_tokens_seen": 16328296,
      "step": 28135
    },
    {
      "epoch": 4.19124218051832,
      "grad_norm": 15.520886421203613,
      "learning_rate": 4.819412671730709e-05,
      "loss": 0.4245,
      "num_input_tokens_seen": 16331080,
      "step": 28140
    },
    {
      "epoch": 4.191986893059279,
      "grad_norm": 5.849221706390381,
      "learning_rate": 4.8192913951641746e-05,
      "loss": 0.2373,
      "num_input_tokens_seen": 16333832,
      "step": 28145
    },
    {
      "epoch": 4.192731605600239,
      "grad_norm": 118.54712677001953,
      "learning_rate": 4.819170079415569e-05,
      "loss": 0.4265,
      "num_input_tokens_seen": 16336968,
      "step": 28150
    },
    {
      "epoch": 4.193476318141197,
      "grad_norm": 0.031009096652269363,
      "learning_rate": 4.819048724486942e-05,
      "loss": 0.2178,
      "num_input_tokens_seen": 16340136,
      "step": 28155
    },
    {
      "epoch": 4.194221030682157,
      "grad_norm": 0.23992621898651123,
      "learning_rate": 4.818927330380344e-05,
      "loss": 0.3122,
      "num_input_tokens_seen": 16342696,
      "step": 28160
    },
    {
      "epoch": 4.194965743223116,
      "grad_norm": 0.36293962597846985,
      "learning_rate": 4.8188058970978254e-05,
      "loss": 0.3906,
      "num_input_tokens_seen": 16345192,
      "step": 28165
    },
    {
      "epoch": 4.195710455764075,
      "grad_norm": 17.165634155273438,
      "learning_rate": 4.818684424641438e-05,
      "loss": 0.2556,
      "num_input_tokens_seen": 16347976,
      "step": 28170
    },
    {
      "epoch": 4.196455168305034,
      "grad_norm": 10.206499099731445,
      "learning_rate": 4.8185629130132336e-05,
      "loss": 0.3003,
      "num_input_tokens_seen": 16351080,
      "step": 28175
    },
    {
      "epoch": 4.197199880845994,
      "grad_norm": 10.080279350280762,
      "learning_rate": 4.818441362215266e-05,
      "loss": 0.2206,
      "num_input_tokens_seen": 16354344,
      "step": 28180
    },
    {
      "epoch": 4.197944593386953,
      "grad_norm": 1.5534803867340088,
      "learning_rate": 4.8183197722495877e-05,
      "loss": 0.2423,
      "num_input_tokens_seen": 16357192,
      "step": 28185
    },
    {
      "epoch": 4.198689305927912,
      "grad_norm": 10.67258071899414,
      "learning_rate": 4.8181981431182523e-05,
      "loss": 0.2727,
      "num_input_tokens_seen": 16360168,
      "step": 28190
    },
    {
      "epoch": 4.199434018468871,
      "grad_norm": 6.860591888427734,
      "learning_rate": 4.818076474823316e-05,
      "loss": 0.3392,
      "num_input_tokens_seen": 16362824,
      "step": 28195
    },
    {
      "epoch": 4.200178731009831,
      "grad_norm": 14.15744686126709,
      "learning_rate": 4.817954767366833e-05,
      "loss": 0.3384,
      "num_input_tokens_seen": 16365640,
      "step": 28200
    },
    {
      "epoch": 4.200923443550789,
      "grad_norm": 3.7975425720214844,
      "learning_rate": 4.817833020750861e-05,
      "loss": 0.2675,
      "num_input_tokens_seen": 16368264,
      "step": 28205
    },
    {
      "epoch": 4.201668156091749,
      "grad_norm": 31.022695541381836,
      "learning_rate": 4.8177112349774554e-05,
      "loss": 0.4091,
      "num_input_tokens_seen": 16371368,
      "step": 28210
    },
    {
      "epoch": 4.202412868632708,
      "grad_norm": 11.76838493347168,
      "learning_rate": 4.817589410048674e-05,
      "loss": 0.0927,
      "num_input_tokens_seen": 16374728,
      "step": 28215
    },
    {
      "epoch": 4.203157581173667,
      "grad_norm": 13.175233840942383,
      "learning_rate": 4.817467545966575e-05,
      "loss": 0.2881,
      "num_input_tokens_seen": 16377544,
      "step": 28220
    },
    {
      "epoch": 4.203902293714626,
      "grad_norm": 0.154929056763649,
      "learning_rate": 4.8173456427332176e-05,
      "loss": 0.346,
      "num_input_tokens_seen": 16380392,
      "step": 28225
    },
    {
      "epoch": 4.204647006255585,
      "grad_norm": 0.46197041869163513,
      "learning_rate": 4.817223700350661e-05,
      "loss": 0.2681,
      "num_input_tokens_seen": 16383208,
      "step": 28230
    },
    {
      "epoch": 4.205391718796545,
      "grad_norm": 63.128501892089844,
      "learning_rate": 4.817101718820965e-05,
      "loss": 0.3858,
      "num_input_tokens_seen": 16386024,
      "step": 28235
    },
    {
      "epoch": 4.206136431337503,
      "grad_norm": 14.076781272888184,
      "learning_rate": 4.8169796981461904e-05,
      "loss": 0.3905,
      "num_input_tokens_seen": 16388680,
      "step": 28240
    },
    {
      "epoch": 4.206881143878463,
      "grad_norm": 8.489636421203613,
      "learning_rate": 4.816857638328398e-05,
      "loss": 0.7781,
      "num_input_tokens_seen": 16391592,
      "step": 28245
    },
    {
      "epoch": 4.207625856419422,
      "grad_norm": 15.654195785522461,
      "learning_rate": 4.816735539369651e-05,
      "loss": 0.1729,
      "num_input_tokens_seen": 16394440,
      "step": 28250
    },
    {
      "epoch": 4.208370568960381,
      "grad_norm": 16.33845329284668,
      "learning_rate": 4.816613401272011e-05,
      "loss": 0.2445,
      "num_input_tokens_seen": 16397224,
      "step": 28255
    },
    {
      "epoch": 4.20911528150134,
      "grad_norm": 3.3677585124969482,
      "learning_rate": 4.816491224037543e-05,
      "loss": 0.4025,
      "num_input_tokens_seen": 16400136,
      "step": 28260
    },
    {
      "epoch": 4.2098599940423,
      "grad_norm": 12.572220802307129,
      "learning_rate": 4.81636900766831e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 16403304,
      "step": 28265
    },
    {
      "epoch": 4.210604706583259,
      "grad_norm": 15.09669303894043,
      "learning_rate": 4.816246752166377e-05,
      "loss": 0.2909,
      "num_input_tokens_seen": 16405992,
      "step": 28270
    },
    {
      "epoch": 4.211349419124218,
      "grad_norm": 1.2265371084213257,
      "learning_rate": 4.8161244575338086e-05,
      "loss": 0.5405,
      "num_input_tokens_seen": 16409000,
      "step": 28275
    },
    {
      "epoch": 4.212094131665177,
      "grad_norm": 23.953153610229492,
      "learning_rate": 4.816002123772672e-05,
      "loss": 0.2091,
      "num_input_tokens_seen": 16412296,
      "step": 28280
    },
    {
      "epoch": 4.212838844206137,
      "grad_norm": 11.918573379516602,
      "learning_rate": 4.815879750885033e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 16415272,
      "step": 28285
    },
    {
      "epoch": 4.213583556747095,
      "grad_norm": 63.48115539550781,
      "learning_rate": 4.81575733887296e-05,
      "loss": 0.1972,
      "num_input_tokens_seen": 16418216,
      "step": 28290
    },
    {
      "epoch": 4.214328269288055,
      "grad_norm": 13.625273704528809,
      "learning_rate": 4.81563488773852e-05,
      "loss": 0.5029,
      "num_input_tokens_seen": 16421192,
      "step": 28295
    },
    {
      "epoch": 4.215072981829014,
      "grad_norm": 6.8450608253479,
      "learning_rate": 4.8155123974837824e-05,
      "loss": 0.3223,
      "num_input_tokens_seen": 16424008,
      "step": 28300
    },
    {
      "epoch": 4.2158176943699734,
      "grad_norm": 15.142927169799805,
      "learning_rate": 4.815389868110816e-05,
      "loss": 0.4844,
      "num_input_tokens_seen": 16426728,
      "step": 28305
    },
    {
      "epoch": 4.216562406910932,
      "grad_norm": 12.939191818237305,
      "learning_rate": 4.815267299621691e-05,
      "loss": 0.5664,
      "num_input_tokens_seen": 16429448,
      "step": 28310
    },
    {
      "epoch": 4.217307119451892,
      "grad_norm": 15.117238998413086,
      "learning_rate": 4.815144692018477e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 16432424,
      "step": 28315
    },
    {
      "epoch": 4.218051831992851,
      "grad_norm": 22.202045440673828,
      "learning_rate": 4.815022045303248e-05,
      "loss": 0.3876,
      "num_input_tokens_seen": 16435368,
      "step": 28320
    },
    {
      "epoch": 4.21879654453381,
      "grad_norm": 0.1679103523492813,
      "learning_rate": 4.814899359478074e-05,
      "loss": 0.2788,
      "num_input_tokens_seen": 16438120,
      "step": 28325
    },
    {
      "epoch": 4.219541257074769,
      "grad_norm": 11.368627548217773,
      "learning_rate": 4.814776634545028e-05,
      "loss": 0.4738,
      "num_input_tokens_seen": 16441224,
      "step": 28330
    },
    {
      "epoch": 4.220285969615729,
      "grad_norm": 4.867720603942871,
      "learning_rate": 4.814653870506183e-05,
      "loss": 0.1616,
      "num_input_tokens_seen": 16444072,
      "step": 28335
    },
    {
      "epoch": 4.221030682156687,
      "grad_norm": 3.7066850662231445,
      "learning_rate": 4.8145310673636143e-05,
      "loss": 0.2654,
      "num_input_tokens_seen": 16447080,
      "step": 28340
    },
    {
      "epoch": 4.221775394697647,
      "grad_norm": 1.3099184036254883,
      "learning_rate": 4.814408225119395e-05,
      "loss": 0.1774,
      "num_input_tokens_seen": 16449800,
      "step": 28345
    },
    {
      "epoch": 4.222520107238606,
      "grad_norm": 23.385536193847656,
      "learning_rate": 4.8142853437756006e-05,
      "loss": 0.3543,
      "num_input_tokens_seen": 16452776,
      "step": 28350
    },
    {
      "epoch": 4.2232648197795655,
      "grad_norm": 5.990664005279541,
      "learning_rate": 4.814162423334309e-05,
      "loss": 0.2165,
      "num_input_tokens_seen": 16455464,
      "step": 28355
    },
    {
      "epoch": 4.224009532320524,
      "grad_norm": 0.3734915852546692,
      "learning_rate": 4.814039463797594e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 16458152,
      "step": 28360
    },
    {
      "epoch": 4.224754244861484,
      "grad_norm": 21.126827239990234,
      "learning_rate": 4.813916465167534e-05,
      "loss": 0.2624,
      "num_input_tokens_seen": 16461224,
      "step": 28365
    },
    {
      "epoch": 4.225498957402443,
      "grad_norm": 58.55894088745117,
      "learning_rate": 4.813793427446207e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 16464104,
      "step": 28370
    },
    {
      "epoch": 4.226243669943402,
      "grad_norm": 21.797821044921875,
      "learning_rate": 4.813670350635693e-05,
      "loss": 0.4015,
      "num_input_tokens_seen": 16466856,
      "step": 28375
    },
    {
      "epoch": 4.226988382484361,
      "grad_norm": 7.3815107345581055,
      "learning_rate": 4.8135472347380684e-05,
      "loss": 0.5609,
      "num_input_tokens_seen": 16469800,
      "step": 28380
    },
    {
      "epoch": 4.22773309502532,
      "grad_norm": 43.674949645996094,
      "learning_rate": 4.8134240797554155e-05,
      "loss": 0.5735,
      "num_input_tokens_seen": 16472936,
      "step": 28385
    },
    {
      "epoch": 4.2284778075662794,
      "grad_norm": 14.140411376953125,
      "learning_rate": 4.813300885689814e-05,
      "loss": 0.3591,
      "num_input_tokens_seen": 16476104,
      "step": 28390
    },
    {
      "epoch": 4.229222520107238,
      "grad_norm": 33.23508834838867,
      "learning_rate": 4.813177652543345e-05,
      "loss": 0.2913,
      "num_input_tokens_seen": 16478920,
      "step": 28395
    },
    {
      "epoch": 4.229967232648198,
      "grad_norm": 7.694365978240967,
      "learning_rate": 4.813054380318091e-05,
      "loss": 0.2557,
      "num_input_tokens_seen": 16481864,
      "step": 28400
    },
    {
      "epoch": 4.230711945189157,
      "grad_norm": 5.128744125366211,
      "learning_rate": 4.8129310690161335e-05,
      "loss": 0.5931,
      "num_input_tokens_seen": 16484808,
      "step": 28405
    },
    {
      "epoch": 4.231456657730116,
      "grad_norm": 19.735286712646484,
      "learning_rate": 4.812807718639556e-05,
      "loss": 0.1794,
      "num_input_tokens_seen": 16487784,
      "step": 28410
    },
    {
      "epoch": 4.232201370271075,
      "grad_norm": 12.98327922821045,
      "learning_rate": 4.812684329190443e-05,
      "loss": 0.2498,
      "num_input_tokens_seen": 16490696,
      "step": 28415
    },
    {
      "epoch": 4.232946082812035,
      "grad_norm": 21.34427261352539,
      "learning_rate": 4.8125609006708796e-05,
      "loss": 0.2947,
      "num_input_tokens_seen": 16493480,
      "step": 28420
    },
    {
      "epoch": 4.233690795352993,
      "grad_norm": 6.545272350311279,
      "learning_rate": 4.812437433082949e-05,
      "loss": 0.2506,
      "num_input_tokens_seen": 16496200,
      "step": 28425
    },
    {
      "epoch": 4.234435507893953,
      "grad_norm": 30.247385025024414,
      "learning_rate": 4.812313926428739e-05,
      "loss": 0.3238,
      "num_input_tokens_seen": 16499304,
      "step": 28430
    },
    {
      "epoch": 4.235180220434912,
      "grad_norm": 0.7595754861831665,
      "learning_rate": 4.812190380710335e-05,
      "loss": 0.2482,
      "num_input_tokens_seen": 16502088,
      "step": 28435
    },
    {
      "epoch": 4.2359249329758715,
      "grad_norm": 11.025665283203125,
      "learning_rate": 4.812066795929825e-05,
      "loss": 0.2914,
      "num_input_tokens_seen": 16504872,
      "step": 28440
    },
    {
      "epoch": 4.23666964551683,
      "grad_norm": 62.526065826416016,
      "learning_rate": 4.811943172089296e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 16507592,
      "step": 28445
    },
    {
      "epoch": 4.23741435805779,
      "grad_norm": 31.730785369873047,
      "learning_rate": 4.811819509190837e-05,
      "loss": 0.4216,
      "num_input_tokens_seen": 16510568,
      "step": 28450
    },
    {
      "epoch": 4.238159070598749,
      "grad_norm": 30.40784454345703,
      "learning_rate": 4.811695807236537e-05,
      "loss": 0.2581,
      "num_input_tokens_seen": 16513352,
      "step": 28455
    },
    {
      "epoch": 4.238903783139708,
      "grad_norm": 9.952555656433105,
      "learning_rate": 4.8115720662284855e-05,
      "loss": 0.2698,
      "num_input_tokens_seen": 16516232,
      "step": 28460
    },
    {
      "epoch": 4.239648495680667,
      "grad_norm": 7.747721195220947,
      "learning_rate": 4.8114482861687734e-05,
      "loss": 0.0807,
      "num_input_tokens_seen": 16519304,
      "step": 28465
    },
    {
      "epoch": 4.240393208221627,
      "grad_norm": 1.814454197883606,
      "learning_rate": 4.8113244670594926e-05,
      "loss": 0.219,
      "num_input_tokens_seen": 16522152,
      "step": 28470
    },
    {
      "epoch": 4.2411379207625854,
      "grad_norm": 58.13208770751953,
      "learning_rate": 4.811200608902733e-05,
      "loss": 0.2507,
      "num_input_tokens_seen": 16525256,
      "step": 28475
    },
    {
      "epoch": 4.241882633303545,
      "grad_norm": 8.506237030029297,
      "learning_rate": 4.811076711700588e-05,
      "loss": 0.3288,
      "num_input_tokens_seen": 16528072,
      "step": 28480
    },
    {
      "epoch": 4.242627345844504,
      "grad_norm": 6.648416042327881,
      "learning_rate": 4.810952775455152e-05,
      "loss": 0.3041,
      "num_input_tokens_seen": 16531016,
      "step": 28485
    },
    {
      "epoch": 4.2433720583854635,
      "grad_norm": 2.269057512283325,
      "learning_rate": 4.810828800168517e-05,
      "loss": 0.1532,
      "num_input_tokens_seen": 16533992,
      "step": 28490
    },
    {
      "epoch": 4.244116770926422,
      "grad_norm": 11.622736930847168,
      "learning_rate": 4.810704785842778e-05,
      "loss": 0.5204,
      "num_input_tokens_seen": 16536744,
      "step": 28495
    },
    {
      "epoch": 4.244861483467382,
      "grad_norm": 0.18770024180412292,
      "learning_rate": 4.81058073248003e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 16539560,
      "step": 28500
    },
    {
      "epoch": 4.245606196008341,
      "grad_norm": 26.508081436157227,
      "learning_rate": 4.810456640082369e-05,
      "loss": 0.3533,
      "num_input_tokens_seen": 16542696,
      "step": 28505
    },
    {
      "epoch": 4.2463509085493,
      "grad_norm": 11.609295845031738,
      "learning_rate": 4.810332508651891e-05,
      "loss": 0.294,
      "num_input_tokens_seen": 16545576,
      "step": 28510
    },
    {
      "epoch": 4.247095621090259,
      "grad_norm": 58.2000617980957,
      "learning_rate": 4.810208338190694e-05,
      "loss": 0.4245,
      "num_input_tokens_seen": 16548520,
      "step": 28515
    },
    {
      "epoch": 4.247840333631219,
      "grad_norm": 22.16492462158203,
      "learning_rate": 4.810084128700875e-05,
      "loss": 0.6041,
      "num_input_tokens_seen": 16551400,
      "step": 28520
    },
    {
      "epoch": 4.2485850461721775,
      "grad_norm": 28.445058822631836,
      "learning_rate": 4.809959880184532e-05,
      "loss": 0.3662,
      "num_input_tokens_seen": 16554120,
      "step": 28525
    },
    {
      "epoch": 4.249329758713137,
      "grad_norm": 0.22244572639465332,
      "learning_rate": 4.8098355926437655e-05,
      "loss": 0.155,
      "num_input_tokens_seen": 16556968,
      "step": 28530
    },
    {
      "epoch": 4.250074471254096,
      "grad_norm": 5.529860019683838,
      "learning_rate": 4.809711266080673e-05,
      "loss": 0.177,
      "num_input_tokens_seen": 16560008,
      "step": 28535
    },
    {
      "epoch": 4.2508191837950555,
      "grad_norm": 4.5119218826293945,
      "learning_rate": 4.809586900497357e-05,
      "loss": 0.3252,
      "num_input_tokens_seen": 16562664,
      "step": 28540
    },
    {
      "epoch": 4.251563896336014,
      "grad_norm": 19.32695770263672,
      "learning_rate": 4.809462495895918e-05,
      "loss": 0.6965,
      "num_input_tokens_seen": 16565576,
      "step": 28545
    },
    {
      "epoch": 4.252308608876973,
      "grad_norm": 19.63825035095215,
      "learning_rate": 4.809338052278456e-05,
      "loss": 0.3662,
      "num_input_tokens_seen": 16568712,
      "step": 28550
    },
    {
      "epoch": 4.253053321417933,
      "grad_norm": 9.003499984741211,
      "learning_rate": 4.809213569647076e-05,
      "loss": 0.3795,
      "num_input_tokens_seen": 16571528,
      "step": 28555
    },
    {
      "epoch": 4.253798033958892,
      "grad_norm": 35.00895690917969,
      "learning_rate": 4.8090890480038796e-05,
      "loss": 0.3583,
      "num_input_tokens_seen": 16574600,
      "step": 28560
    },
    {
      "epoch": 4.254542746499851,
      "grad_norm": 25.55508804321289,
      "learning_rate": 4.80896448735097e-05,
      "loss": 0.1651,
      "num_input_tokens_seen": 16577576,
      "step": 28565
    },
    {
      "epoch": 4.25528745904081,
      "grad_norm": 5.491152763366699,
      "learning_rate": 4.8088398876904526e-05,
      "loss": 0.2351,
      "num_input_tokens_seen": 16580552,
      "step": 28570
    },
    {
      "epoch": 4.2560321715817695,
      "grad_norm": 18.341867446899414,
      "learning_rate": 4.808715249024431e-05,
      "loss": 0.2712,
      "num_input_tokens_seen": 16583336,
      "step": 28575
    },
    {
      "epoch": 4.256776884122728,
      "grad_norm": 14.833524703979492,
      "learning_rate": 4.808590571355013e-05,
      "loss": 0.15,
      "num_input_tokens_seen": 16586248,
      "step": 28580
    },
    {
      "epoch": 4.257521596663688,
      "grad_norm": 12.872238159179688,
      "learning_rate": 4.808465854684303e-05,
      "loss": 0.3076,
      "num_input_tokens_seen": 16589128,
      "step": 28585
    },
    {
      "epoch": 4.258266309204647,
      "grad_norm": 2.4483494758605957,
      "learning_rate": 4.8083410990144085e-05,
      "loss": 0.3338,
      "num_input_tokens_seen": 16592232,
      "step": 28590
    },
    {
      "epoch": 4.259011021745606,
      "grad_norm": 7.320087909698486,
      "learning_rate": 4.808216304347438e-05,
      "loss": 0.3129,
      "num_input_tokens_seen": 16595080,
      "step": 28595
    },
    {
      "epoch": 4.259755734286565,
      "grad_norm": 12.158723831176758,
      "learning_rate": 4.8080914706854985e-05,
      "loss": 0.2523,
      "num_input_tokens_seen": 16597992,
      "step": 28600
    },
    {
      "epoch": 4.260500446827525,
      "grad_norm": 0.4721609055995941,
      "learning_rate": 4.8079665980306986e-05,
      "loss": 0.443,
      "num_input_tokens_seen": 16601256,
      "step": 28605
    },
    {
      "epoch": 4.2612451593684835,
      "grad_norm": 12.444458961486816,
      "learning_rate": 4.80784168638515e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 16604264,
      "step": 28610
    },
    {
      "epoch": 4.261989871909443,
      "grad_norm": 24.684040069580078,
      "learning_rate": 4.807716735750961e-05,
      "loss": 0.4453,
      "num_input_tokens_seen": 16606888,
      "step": 28615
    },
    {
      "epoch": 4.262734584450402,
      "grad_norm": 20.777681350708008,
      "learning_rate": 4.8075917461302435e-05,
      "loss": 0.1775,
      "num_input_tokens_seen": 16609992,
      "step": 28620
    },
    {
      "epoch": 4.2634792969913615,
      "grad_norm": 32.34160614013672,
      "learning_rate": 4.807466717525109e-05,
      "loss": 0.3523,
      "num_input_tokens_seen": 16613128,
      "step": 28625
    },
    {
      "epoch": 4.26422400953232,
      "grad_norm": 25.035404205322266,
      "learning_rate": 4.807341649937669e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 16616072,
      "step": 28630
    },
    {
      "epoch": 4.26496872207328,
      "grad_norm": 17.71459197998047,
      "learning_rate": 4.8072165433700366e-05,
      "loss": 0.2573,
      "num_input_tokens_seen": 16619176,
      "step": 28635
    },
    {
      "epoch": 4.265713434614239,
      "grad_norm": 8.50418472290039,
      "learning_rate": 4.807091397824327e-05,
      "loss": 0.4185,
      "num_input_tokens_seen": 16622056,
      "step": 28640
    },
    {
      "epoch": 4.266458147155198,
      "grad_norm": 9.279459953308105,
      "learning_rate": 4.806966213302652e-05,
      "loss": 0.212,
      "num_input_tokens_seen": 16624840,
      "step": 28645
    },
    {
      "epoch": 4.267202859696157,
      "grad_norm": 20.402803421020508,
      "learning_rate": 4.806840989807128e-05,
      "loss": 0.5436,
      "num_input_tokens_seen": 16627848,
      "step": 28650
    },
    {
      "epoch": 4.267947572237117,
      "grad_norm": 22.68590545654297,
      "learning_rate": 4.806715727339869e-05,
      "loss": 0.2539,
      "num_input_tokens_seen": 16631144,
      "step": 28655
    },
    {
      "epoch": 4.2686922847780755,
      "grad_norm": 7.332081317901611,
      "learning_rate": 4.8065904259029934e-05,
      "loss": 0.1094,
      "num_input_tokens_seen": 16633928,
      "step": 28660
    },
    {
      "epoch": 4.269436997319035,
      "grad_norm": 10.118983268737793,
      "learning_rate": 4.806465085498616e-05,
      "loss": 0.363,
      "num_input_tokens_seen": 16636616,
      "step": 28665
    },
    {
      "epoch": 4.270181709859994,
      "grad_norm": 20.867782592773438,
      "learning_rate": 4.806339706128856e-05,
      "loss": 0.4348,
      "num_input_tokens_seen": 16639368,
      "step": 28670
    },
    {
      "epoch": 4.2709264224009535,
      "grad_norm": 0.5322498083114624,
      "learning_rate": 4.8062142877958307e-05,
      "loss": 0.3162,
      "num_input_tokens_seen": 16642312,
      "step": 28675
    },
    {
      "epoch": 4.271671134941912,
      "grad_norm": 1.0327168703079224,
      "learning_rate": 4.8060888305016584e-05,
      "loss": 0.5077,
      "num_input_tokens_seen": 16644904,
      "step": 28680
    },
    {
      "epoch": 4.272415847482872,
      "grad_norm": 4.9293670654296875,
      "learning_rate": 4.8059633342484586e-05,
      "loss": 0.2059,
      "num_input_tokens_seen": 16647688,
      "step": 28685
    },
    {
      "epoch": 4.273160560023831,
      "grad_norm": 6.073970794677734,
      "learning_rate": 4.805837799038353e-05,
      "loss": 0.1492,
      "num_input_tokens_seen": 16650856,
      "step": 28690
    },
    {
      "epoch": 4.27390527256479,
      "grad_norm": 5.861706256866455,
      "learning_rate": 4.805712224873461e-05,
      "loss": 0.2367,
      "num_input_tokens_seen": 16653672,
      "step": 28695
    },
    {
      "epoch": 4.274649985105749,
      "grad_norm": 0.36491137742996216,
      "learning_rate": 4.805586611755905e-05,
      "loss": 0.2706,
      "num_input_tokens_seen": 16656872,
      "step": 28700
    },
    {
      "epoch": 4.275394697646709,
      "grad_norm": 8.053696632385254,
      "learning_rate": 4.805460959687805e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 16659784,
      "step": 28705
    },
    {
      "epoch": 4.2761394101876675,
      "grad_norm": 26.102500915527344,
      "learning_rate": 4.805335268671286e-05,
      "loss": 0.2939,
      "num_input_tokens_seen": 16662472,
      "step": 28710
    },
    {
      "epoch": 4.276884122728626,
      "grad_norm": 3.341538667678833,
      "learning_rate": 4.805209538708471e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 16665416,
      "step": 28715
    },
    {
      "epoch": 4.277628835269586,
      "grad_norm": 28.418487548828125,
      "learning_rate": 4.805083769801484e-05,
      "loss": 0.3155,
      "num_input_tokens_seen": 16668200,
      "step": 28720
    },
    {
      "epoch": 4.278373547810546,
      "grad_norm": 0.9782876372337341,
      "learning_rate": 4.804957961952449e-05,
      "loss": 0.2963,
      "num_input_tokens_seen": 16670984,
      "step": 28725
    },
    {
      "epoch": 4.279118260351504,
      "grad_norm": 17.38591766357422,
      "learning_rate": 4.804832115163491e-05,
      "loss": 0.108,
      "num_input_tokens_seen": 16674056,
      "step": 28730
    },
    {
      "epoch": 4.279862972892463,
      "grad_norm": 12.898707389831543,
      "learning_rate": 4.804706229436739e-05,
      "loss": 0.6551,
      "num_input_tokens_seen": 16677032,
      "step": 28735
    },
    {
      "epoch": 4.280607685433423,
      "grad_norm": 13.190598487854004,
      "learning_rate": 4.804580304774316e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 16679752,
      "step": 28740
    },
    {
      "epoch": 4.2813523979743815,
      "grad_norm": 0.2223665863275528,
      "learning_rate": 4.804454341178352e-05,
      "loss": 0.2731,
      "num_input_tokens_seen": 16682472,
      "step": 28745
    },
    {
      "epoch": 4.282097110515341,
      "grad_norm": 15.181915283203125,
      "learning_rate": 4.804328338650973e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 16685640,
      "step": 28750
    },
    {
      "epoch": 4.2828418230563,
      "grad_norm": 24.433473587036133,
      "learning_rate": 4.804202297194309e-05,
      "loss": 0.1829,
      "num_input_tokens_seen": 16688264,
      "step": 28755
    },
    {
      "epoch": 4.2835865355972595,
      "grad_norm": 60.60916519165039,
      "learning_rate": 4.8040762168104895e-05,
      "loss": 0.4876,
      "num_input_tokens_seen": 16690952,
      "step": 28760
    },
    {
      "epoch": 4.284331248138218,
      "grad_norm": 23.941844940185547,
      "learning_rate": 4.803950097501644e-05,
      "loss": 0.382,
      "num_input_tokens_seen": 16693608,
      "step": 28765
    },
    {
      "epoch": 4.285075960679178,
      "grad_norm": 11.393647193908691,
      "learning_rate": 4.8038239392699033e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 16696552,
      "step": 28770
    },
    {
      "epoch": 4.285820673220137,
      "grad_norm": 7.324754238128662,
      "learning_rate": 4.803697742117399e-05,
      "loss": 0.4031,
      "num_input_tokens_seen": 16699272,
      "step": 28775
    },
    {
      "epoch": 4.286565385761096,
      "grad_norm": 2.588148832321167,
      "learning_rate": 4.8035715060462614e-05,
      "loss": 0.1699,
      "num_input_tokens_seen": 16702216,
      "step": 28780
    },
    {
      "epoch": 4.287310098302055,
      "grad_norm": 36.88038635253906,
      "learning_rate": 4.803445231058625e-05,
      "loss": 0.3498,
      "num_input_tokens_seen": 16704968,
      "step": 28785
    },
    {
      "epoch": 4.288054810843015,
      "grad_norm": 16.00422477722168,
      "learning_rate": 4.803318917156624e-05,
      "loss": 0.1788,
      "num_input_tokens_seen": 16708136,
      "step": 28790
    },
    {
      "epoch": 4.2887995233839735,
      "grad_norm": 14.445192337036133,
      "learning_rate": 4.803192564342389e-05,
      "loss": 0.2399,
      "num_input_tokens_seen": 16711016,
      "step": 28795
    },
    {
      "epoch": 4.289544235924933,
      "grad_norm": 0.2736491858959198,
      "learning_rate": 4.803066172618058e-05,
      "loss": 0.6756,
      "num_input_tokens_seen": 16713640,
      "step": 28800
    },
    {
      "epoch": 4.290288948465892,
      "grad_norm": 13.88592529296875,
      "learning_rate": 4.802939741985763e-05,
      "loss": 0.3986,
      "num_input_tokens_seen": 16716616,
      "step": 28805
    },
    {
      "epoch": 4.291033661006852,
      "grad_norm": 39.9066162109375,
      "learning_rate": 4.802813272447643e-05,
      "loss": 0.3261,
      "num_input_tokens_seen": 16719528,
      "step": 28810
    },
    {
      "epoch": 4.29177837354781,
      "grad_norm": 3.6263744831085205,
      "learning_rate": 4.8026867640058335e-05,
      "loss": 0.1768,
      "num_input_tokens_seen": 16722408,
      "step": 28815
    },
    {
      "epoch": 4.29252308608877,
      "grad_norm": 20.234054565429688,
      "learning_rate": 4.8025602166624705e-05,
      "loss": 0.398,
      "num_input_tokens_seen": 16725256,
      "step": 28820
    },
    {
      "epoch": 4.293267798629729,
      "grad_norm": 12.358269691467285,
      "learning_rate": 4.8024336304196927e-05,
      "loss": 0.0739,
      "num_input_tokens_seen": 16728232,
      "step": 28825
    },
    {
      "epoch": 4.294012511170688,
      "grad_norm": 11.603129386901855,
      "learning_rate": 4.802307005279639e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 16731208,
      "step": 28830
    },
    {
      "epoch": 4.294757223711647,
      "grad_norm": 34.1667594909668,
      "learning_rate": 4.8021803412444496e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 16733864,
      "step": 28835
    },
    {
      "epoch": 4.295501936252607,
      "grad_norm": 11.930604934692383,
      "learning_rate": 4.8020536383162615e-05,
      "loss": 0.4145,
      "num_input_tokens_seen": 16736680,
      "step": 28840
    },
    {
      "epoch": 4.2962466487935655,
      "grad_norm": 13.901052474975586,
      "learning_rate": 4.8019268964972184e-05,
      "loss": 0.6716,
      "num_input_tokens_seen": 16739528,
      "step": 28845
    },
    {
      "epoch": 4.296991361334525,
      "grad_norm": 32.233604431152344,
      "learning_rate": 4.801800115789459e-05,
      "loss": 0.2332,
      "num_input_tokens_seen": 16742600,
      "step": 28850
    },
    {
      "epoch": 4.297736073875484,
      "grad_norm": 16.10392189025879,
      "learning_rate": 4.801673296195126e-05,
      "loss": 0.3902,
      "num_input_tokens_seen": 16745256,
      "step": 28855
    },
    {
      "epoch": 4.298480786416444,
      "grad_norm": 4.813629150390625,
      "learning_rate": 4.801546437716362e-05,
      "loss": 0.2776,
      "num_input_tokens_seen": 16748200,
      "step": 28860
    },
    {
      "epoch": 4.299225498957402,
      "grad_norm": 6.389959335327148,
      "learning_rate": 4.801419540355311e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 16751240,
      "step": 28865
    },
    {
      "epoch": 4.299970211498362,
      "grad_norm": 0.7489991784095764,
      "learning_rate": 4.801292604114115e-05,
      "loss": 0.3449,
      "num_input_tokens_seen": 16754216,
      "step": 28870
    },
    {
      "epoch": 4.300714924039321,
      "grad_norm": 17.529075622558594,
      "learning_rate": 4.80116562899492e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 16757256,
      "step": 28875
    },
    {
      "epoch": 4.30145963658028,
      "grad_norm": 0.32983583211898804,
      "learning_rate": 4.80103861499987e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 16760168,
      "step": 28880
    },
    {
      "epoch": 4.302204349121239,
      "grad_norm": 55.502357482910156,
      "learning_rate": 4.800911562131112e-05,
      "loss": 0.5493,
      "num_input_tokens_seen": 16763208,
      "step": 28885
    },
    {
      "epoch": 4.302949061662199,
      "grad_norm": 0.7423198223114014,
      "learning_rate": 4.800784470390791e-05,
      "loss": 0.3869,
      "num_input_tokens_seen": 16765896,
      "step": 28890
    },
    {
      "epoch": 4.303693774203158,
      "grad_norm": 12.066571235656738,
      "learning_rate": 4.800657339781055e-05,
      "loss": 0.3544,
      "num_input_tokens_seen": 16768776,
      "step": 28895
    },
    {
      "epoch": 4.304438486744116,
      "grad_norm": 11.791247367858887,
      "learning_rate": 4.800530170304051e-05,
      "loss": 0.4899,
      "num_input_tokens_seen": 16771496,
      "step": 28900
    },
    {
      "epoch": 4.305183199285076,
      "grad_norm": 0.0555579736828804,
      "learning_rate": 4.800402961961928e-05,
      "loss": 0.181,
      "num_input_tokens_seen": 16774312,
      "step": 28905
    },
    {
      "epoch": 4.305927911826035,
      "grad_norm": 6.69364595413208,
      "learning_rate": 4.800275714756836e-05,
      "loss": 0.3071,
      "num_input_tokens_seen": 16777192,
      "step": 28910
    },
    {
      "epoch": 4.306672624366994,
      "grad_norm": 11.80146312713623,
      "learning_rate": 4.800148428690923e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 16779976,
      "step": 28915
    },
    {
      "epoch": 4.307417336907953,
      "grad_norm": 9.058241844177246,
      "learning_rate": 4.80002110376634e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 16782696,
      "step": 28920
    },
    {
      "epoch": 4.308162049448913,
      "grad_norm": 40.44047546386719,
      "learning_rate": 4.7998937399852386e-05,
      "loss": 0.4165,
      "num_input_tokens_seen": 16785512,
      "step": 28925
    },
    {
      "epoch": 4.3089067619898715,
      "grad_norm": 17.277315139770508,
      "learning_rate": 4.799766337349769e-05,
      "loss": 0.3868,
      "num_input_tokens_seen": 16788520,
      "step": 28930
    },
    {
      "epoch": 4.309651474530831,
      "grad_norm": 36.355384826660156,
      "learning_rate": 4.799638895862085e-05,
      "loss": 0.0986,
      "num_input_tokens_seen": 16791560,
      "step": 28935
    },
    {
      "epoch": 4.31039618707179,
      "grad_norm": 17.03493309020996,
      "learning_rate": 4.79951141552434e-05,
      "loss": 0.2031,
      "num_input_tokens_seen": 16794376,
      "step": 28940
    },
    {
      "epoch": 4.31114089961275,
      "grad_norm": 16.81293487548828,
      "learning_rate": 4.799383896338686e-05,
      "loss": 0.2114,
      "num_input_tokens_seen": 16797032,
      "step": 28945
    },
    {
      "epoch": 4.311885612153708,
      "grad_norm": 27.28215789794922,
      "learning_rate": 4.7992563383072775e-05,
      "loss": 0.4239,
      "num_input_tokens_seen": 16800392,
      "step": 28950
    },
    {
      "epoch": 4.312630324694668,
      "grad_norm": 13.762392044067383,
      "learning_rate": 4.799128741432271e-05,
      "loss": 0.5424,
      "num_input_tokens_seen": 16803336,
      "step": 28955
    },
    {
      "epoch": 4.313375037235627,
      "grad_norm": 5.303975582122803,
      "learning_rate": 4.7990011057158207e-05,
      "loss": 0.2422,
      "num_input_tokens_seen": 16806344,
      "step": 28960
    },
    {
      "epoch": 4.314119749776586,
      "grad_norm": 94.55976867675781,
      "learning_rate": 4.798873431160084e-05,
      "loss": 0.35,
      "num_input_tokens_seen": 16809416,
      "step": 28965
    },
    {
      "epoch": 4.314864462317545,
      "grad_norm": 1.2118498086929321,
      "learning_rate": 4.798745717767216e-05,
      "loss": 0.2379,
      "num_input_tokens_seen": 16812200,
      "step": 28970
    },
    {
      "epoch": 4.315609174858505,
      "grad_norm": 19.36461639404297,
      "learning_rate": 4.7986179655393756e-05,
      "loss": 0.3517,
      "num_input_tokens_seen": 16815048,
      "step": 28975
    },
    {
      "epoch": 4.316353887399464,
      "grad_norm": 11.258174896240234,
      "learning_rate": 4.798490174478721e-05,
      "loss": 0.4283,
      "num_input_tokens_seen": 16818184,
      "step": 28980
    },
    {
      "epoch": 4.317098599940423,
      "grad_norm": 3.4488139152526855,
      "learning_rate": 4.7983623445874114e-05,
      "loss": 0.2747,
      "num_input_tokens_seen": 16821288,
      "step": 28985
    },
    {
      "epoch": 4.317843312481382,
      "grad_norm": 1.0771557092666626,
      "learning_rate": 4.798234475867606e-05,
      "loss": 0.1047,
      "num_input_tokens_seen": 16824264,
      "step": 28990
    },
    {
      "epoch": 4.318588025022342,
      "grad_norm": 20.762802124023438,
      "learning_rate": 4.7981065683214645e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 16827400,
      "step": 28995
    },
    {
      "epoch": 4.3193327375633,
      "grad_norm": 16.32651710510254,
      "learning_rate": 4.797978621951148e-05,
      "loss": 0.3776,
      "num_input_tokens_seen": 16830376,
      "step": 29000
    },
    {
      "epoch": 4.32007745010426,
      "grad_norm": 32.164031982421875,
      "learning_rate": 4.797850636758819e-05,
      "loss": 0.3846,
      "num_input_tokens_seen": 16833384,
      "step": 29005
    },
    {
      "epoch": 4.320822162645219,
      "grad_norm": 22.56102752685547,
      "learning_rate": 4.7977226127466386e-05,
      "loss": 0.5024,
      "num_input_tokens_seen": 16836584,
      "step": 29010
    },
    {
      "epoch": 4.321566875186178,
      "grad_norm": 17.686939239501953,
      "learning_rate": 4.7975945499167696e-05,
      "loss": 0.1611,
      "num_input_tokens_seen": 16839464,
      "step": 29015
    },
    {
      "epoch": 4.322311587727137,
      "grad_norm": 0.3552860915660858,
      "learning_rate": 4.797466448271376e-05,
      "loss": 0.0846,
      "num_input_tokens_seen": 16842184,
      "step": 29020
    },
    {
      "epoch": 4.323056300268097,
      "grad_norm": 7.5171380043029785,
      "learning_rate": 4.7973383078126223e-05,
      "loss": 0.248,
      "num_input_tokens_seen": 16845000,
      "step": 29025
    },
    {
      "epoch": 4.323801012809056,
      "grad_norm": 0.7746594548225403,
      "learning_rate": 4.797210128542673e-05,
      "loss": 0.3042,
      "num_input_tokens_seen": 16847880,
      "step": 29030
    },
    {
      "epoch": 4.324545725350015,
      "grad_norm": 7.819566249847412,
      "learning_rate": 4.7970819104636924e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 16850600,
      "step": 29035
    },
    {
      "epoch": 4.325290437890974,
      "grad_norm": 18.565412521362305,
      "learning_rate": 4.796953653577848e-05,
      "loss": 0.5971,
      "num_input_tokens_seen": 16853768,
      "step": 29040
    },
    {
      "epoch": 4.326035150431934,
      "grad_norm": 17.36736488342285,
      "learning_rate": 4.7968253578873054e-05,
      "loss": 0.4293,
      "num_input_tokens_seen": 16856840,
      "step": 29045
    },
    {
      "epoch": 4.326779862972892,
      "grad_norm": 7.143970012664795,
      "learning_rate": 4.796697023394234e-05,
      "loss": 0.3265,
      "num_input_tokens_seen": 16859944,
      "step": 29050
    },
    {
      "epoch": 4.327524575513852,
      "grad_norm": 9.650976181030273,
      "learning_rate": 4.7965686501008e-05,
      "loss": 0.2059,
      "num_input_tokens_seen": 16862760,
      "step": 29055
    },
    {
      "epoch": 4.328269288054811,
      "grad_norm": 17.718294143676758,
      "learning_rate": 4.7964402380091734e-05,
      "loss": 0.3829,
      "num_input_tokens_seen": 16865768,
      "step": 29060
    },
    {
      "epoch": 4.32901400059577,
      "grad_norm": 15.215694427490234,
      "learning_rate": 4.7963117871215224e-05,
      "loss": 0.2586,
      "num_input_tokens_seen": 16868520,
      "step": 29065
    },
    {
      "epoch": 4.329758713136729,
      "grad_norm": 1.2841248512268066,
      "learning_rate": 4.796183297440018e-05,
      "loss": 0.1393,
      "num_input_tokens_seen": 16871464,
      "step": 29070
    },
    {
      "epoch": 4.330503425677689,
      "grad_norm": 21.19983673095703,
      "learning_rate": 4.79605476896683e-05,
      "loss": 0.2256,
      "num_input_tokens_seen": 16874536,
      "step": 29075
    },
    {
      "epoch": 4.331248138218648,
      "grad_norm": 28.71918487548828,
      "learning_rate": 4.795926201704131e-05,
      "loss": 0.4738,
      "num_input_tokens_seen": 16877256,
      "step": 29080
    },
    {
      "epoch": 4.331992850759606,
      "grad_norm": 8.154664039611816,
      "learning_rate": 4.795797595654091e-05,
      "loss": 0.5586,
      "num_input_tokens_seen": 16880008,
      "step": 29085
    },
    {
      "epoch": 4.332737563300566,
      "grad_norm": 0.8102456331253052,
      "learning_rate": 4.795668950818885e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 16882888,
      "step": 29090
    },
    {
      "epoch": 4.333482275841525,
      "grad_norm": 9.022817611694336,
      "learning_rate": 4.7955402672006854e-05,
      "loss": 0.2179,
      "num_input_tokens_seen": 16886088,
      "step": 29095
    },
    {
      "epoch": 4.334226988382484,
      "grad_norm": 19.613170623779297,
      "learning_rate": 4.7954115448016654e-05,
      "loss": 0.2926,
      "num_input_tokens_seen": 16888840,
      "step": 29100
    },
    {
      "epoch": 4.334971700923443,
      "grad_norm": 15.364179611206055,
      "learning_rate": 4.795282783624001e-05,
      "loss": 0.2674,
      "num_input_tokens_seen": 16891656,
      "step": 29105
    },
    {
      "epoch": 4.335716413464403,
      "grad_norm": 5.582314968109131,
      "learning_rate": 4.795153983669867e-05,
      "loss": 0.4186,
      "num_input_tokens_seen": 16894504,
      "step": 29110
    },
    {
      "epoch": 4.336461126005362,
      "grad_norm": 14.808785438537598,
      "learning_rate": 4.795025144941438e-05,
      "loss": 0.4142,
      "num_input_tokens_seen": 16897544,
      "step": 29115
    },
    {
      "epoch": 4.337205838546321,
      "grad_norm": 28.303382873535156,
      "learning_rate": 4.794896267440893e-05,
      "loss": 0.3202,
      "num_input_tokens_seen": 16900520,
      "step": 29120
    },
    {
      "epoch": 4.33795055108728,
      "grad_norm": 1.5838038921356201,
      "learning_rate": 4.794767351170406e-05,
      "loss": 0.3683,
      "num_input_tokens_seen": 16903240,
      "step": 29125
    },
    {
      "epoch": 4.33869526362824,
      "grad_norm": 23.91016387939453,
      "learning_rate": 4.794638396132159e-05,
      "loss": 0.2474,
      "num_input_tokens_seen": 16906280,
      "step": 29130
    },
    {
      "epoch": 4.339439976169198,
      "grad_norm": 4.7572021484375,
      "learning_rate": 4.7945094023283275e-05,
      "loss": 0.3814,
      "num_input_tokens_seen": 16909032,
      "step": 29135
    },
    {
      "epoch": 4.340184688710158,
      "grad_norm": 0.7512543201446533,
      "learning_rate": 4.794380369761092e-05,
      "loss": 0.1981,
      "num_input_tokens_seen": 16911816,
      "step": 29140
    },
    {
      "epoch": 4.340929401251117,
      "grad_norm": 0.053192708641290665,
      "learning_rate": 4.794251298432632e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 16915080,
      "step": 29145
    },
    {
      "epoch": 4.3416741137920765,
      "grad_norm": 10.03448486328125,
      "learning_rate": 4.794122188345128e-05,
      "loss": 0.1208,
      "num_input_tokens_seen": 16917960,
      "step": 29150
    },
    {
      "epoch": 4.342418826333035,
      "grad_norm": 3.4358837604522705,
      "learning_rate": 4.7939930395007615e-05,
      "loss": 0.2048,
      "num_input_tokens_seen": 16921192,
      "step": 29155
    },
    {
      "epoch": 4.343163538873995,
      "grad_norm": 26.943166732788086,
      "learning_rate": 4.7938638519017134e-05,
      "loss": 0.5568,
      "num_input_tokens_seen": 16924136,
      "step": 29160
    },
    {
      "epoch": 4.343908251414954,
      "grad_norm": 0.04564622789621353,
      "learning_rate": 4.793734625550167e-05,
      "loss": 0.3927,
      "num_input_tokens_seen": 16926856,
      "step": 29165
    },
    {
      "epoch": 4.344652963955913,
      "grad_norm": 6.370189189910889,
      "learning_rate": 4.7936053604483065e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 16929352,
      "step": 29170
    },
    {
      "epoch": 4.345397676496872,
      "grad_norm": 6.772092819213867,
      "learning_rate": 4.793476056598314e-05,
      "loss": 0.1684,
      "num_input_tokens_seen": 16932328,
      "step": 29175
    },
    {
      "epoch": 4.346142389037832,
      "grad_norm": 45.612388610839844,
      "learning_rate": 4.7933467140023736e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 16935528,
      "step": 29180
    },
    {
      "epoch": 4.34688710157879,
      "grad_norm": 0.10985646396875381,
      "learning_rate": 4.793217332662672e-05,
      "loss": 0.1133,
      "num_input_tokens_seen": 16938472,
      "step": 29185
    },
    {
      "epoch": 4.34763181411975,
      "grad_norm": 18.124460220336914,
      "learning_rate": 4.7930879125813945e-05,
      "loss": 0.1927,
      "num_input_tokens_seen": 16941544,
      "step": 29190
    },
    {
      "epoch": 4.348376526660709,
      "grad_norm": 39.660057067871094,
      "learning_rate": 4.792958453760728e-05,
      "loss": 0.3818,
      "num_input_tokens_seen": 16944584,
      "step": 29195
    },
    {
      "epoch": 4.3491212392016685,
      "grad_norm": 2.778965711593628,
      "learning_rate": 4.792828956202857e-05,
      "loss": 0.3294,
      "num_input_tokens_seen": 16947784,
      "step": 29200
    },
    {
      "epoch": 4.349865951742627,
      "grad_norm": 72.52381896972656,
      "learning_rate": 4.792699419909972e-05,
      "loss": 0.4294,
      "num_input_tokens_seen": 16950728,
      "step": 29205
    },
    {
      "epoch": 4.350610664283587,
      "grad_norm": 40.790306091308594,
      "learning_rate": 4.792569844884261e-05,
      "loss": 0.5015,
      "num_input_tokens_seen": 16953512,
      "step": 29210
    },
    {
      "epoch": 4.351355376824546,
      "grad_norm": 5.385788917541504,
      "learning_rate": 4.792440231127912e-05,
      "loss": 0.4785,
      "num_input_tokens_seen": 16956328,
      "step": 29215
    },
    {
      "epoch": 4.352100089365505,
      "grad_norm": 18.73065757751465,
      "learning_rate": 4.792310578643116e-05,
      "loss": 0.3804,
      "num_input_tokens_seen": 16959016,
      "step": 29220
    },
    {
      "epoch": 4.352844801906464,
      "grad_norm": 10.92342758178711,
      "learning_rate": 4.7921808874320616e-05,
      "loss": 0.2998,
      "num_input_tokens_seen": 16961672,
      "step": 29225
    },
    {
      "epoch": 4.353589514447424,
      "grad_norm": 5.856290817260742,
      "learning_rate": 4.792051157496941e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 16964392,
      "step": 29230
    },
    {
      "epoch": 4.3543342269883825,
      "grad_norm": 1.2671358585357666,
      "learning_rate": 4.791921388839946e-05,
      "loss": 0.1012,
      "num_input_tokens_seen": 16966984,
      "step": 29235
    },
    {
      "epoch": 4.355078939529342,
      "grad_norm": 10.242046356201172,
      "learning_rate": 4.791791581463268e-05,
      "loss": 0.4462,
      "num_input_tokens_seen": 16969800,
      "step": 29240
    },
    {
      "epoch": 4.355823652070301,
      "grad_norm": 13.4539155960083,
      "learning_rate": 4.791661735369101e-05,
      "loss": 0.4095,
      "num_input_tokens_seen": 16972584,
      "step": 29245
    },
    {
      "epoch": 4.35656836461126,
      "grad_norm": 48.61531448364258,
      "learning_rate": 4.791531850559637e-05,
      "loss": 0.2003,
      "num_input_tokens_seen": 16975304,
      "step": 29250
    },
    {
      "epoch": 4.357313077152219,
      "grad_norm": 21.060131072998047,
      "learning_rate": 4.791401927037073e-05,
      "loss": 0.2796,
      "num_input_tokens_seen": 16978024,
      "step": 29255
    },
    {
      "epoch": 4.358057789693178,
      "grad_norm": 23.20469093322754,
      "learning_rate": 4.791271964803602e-05,
      "loss": 0.5387,
      "num_input_tokens_seen": 16981032,
      "step": 29260
    },
    {
      "epoch": 4.358802502234138,
      "grad_norm": 3.8597395420074463,
      "learning_rate": 4.791141963861419e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 16983880,
      "step": 29265
    },
    {
      "epoch": 4.359547214775096,
      "grad_norm": 11.057918548583984,
      "learning_rate": 4.791011924212721e-05,
      "loss": 0.252,
      "num_input_tokens_seen": 16986952,
      "step": 29270
    },
    {
      "epoch": 4.360291927316056,
      "grad_norm": 23.897064208984375,
      "learning_rate": 4.790881845859707e-05,
      "loss": 0.3221,
      "num_input_tokens_seen": 16989512,
      "step": 29275
    },
    {
      "epoch": 4.361036639857015,
      "grad_norm": 20.512956619262695,
      "learning_rate": 4.790751728804571e-05,
      "loss": 0.2588,
      "num_input_tokens_seen": 16992456,
      "step": 29280
    },
    {
      "epoch": 4.3617813523979745,
      "grad_norm": 0.18187493085861206,
      "learning_rate": 4.790621573049513e-05,
      "loss": 0.2191,
      "num_input_tokens_seen": 16995048,
      "step": 29285
    },
    {
      "epoch": 4.362526064938933,
      "grad_norm": 12.917137145996094,
      "learning_rate": 4.790491378596731e-05,
      "loss": 0.424,
      "num_input_tokens_seen": 16998088,
      "step": 29290
    },
    {
      "epoch": 4.363270777479893,
      "grad_norm": 22.196033477783203,
      "learning_rate": 4.7903611454484266e-05,
      "loss": 0.6457,
      "num_input_tokens_seen": 17001000,
      "step": 29295
    },
    {
      "epoch": 4.364015490020852,
      "grad_norm": 3.7984390258789062,
      "learning_rate": 4.790230873606797e-05,
      "loss": 0.3736,
      "num_input_tokens_seen": 17003816,
      "step": 29300
    },
    {
      "epoch": 4.364760202561811,
      "grad_norm": 12.264531135559082,
      "learning_rate": 4.790100563074045e-05,
      "loss": 0.2004,
      "num_input_tokens_seen": 17006568,
      "step": 29305
    },
    {
      "epoch": 4.36550491510277,
      "grad_norm": 1.5438525676727295,
      "learning_rate": 4.789970213852372e-05,
      "loss": 0.162,
      "num_input_tokens_seen": 17009352,
      "step": 29310
    },
    {
      "epoch": 4.36624962764373,
      "grad_norm": 12.565284729003906,
      "learning_rate": 4.789839825943979e-05,
      "loss": 0.5428,
      "num_input_tokens_seen": 17012264,
      "step": 29315
    },
    {
      "epoch": 4.3669943401846885,
      "grad_norm": 11.003668785095215,
      "learning_rate": 4.78970939935107e-05,
      "loss": 0.4705,
      "num_input_tokens_seen": 17015336,
      "step": 29320
    },
    {
      "epoch": 4.367739052725648,
      "grad_norm": 43.70179748535156,
      "learning_rate": 4.789578934075847e-05,
      "loss": 0.4988,
      "num_input_tokens_seen": 17018216,
      "step": 29325
    },
    {
      "epoch": 4.368483765266607,
      "grad_norm": 37.141197204589844,
      "learning_rate": 4.7894484301205156e-05,
      "loss": 0.324,
      "num_input_tokens_seen": 17021064,
      "step": 29330
    },
    {
      "epoch": 4.3692284778075665,
      "grad_norm": 14.394998550415039,
      "learning_rate": 4.78931788748728e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 17024008,
      "step": 29335
    },
    {
      "epoch": 4.369973190348525,
      "grad_norm": 16.11565399169922,
      "learning_rate": 4.789187306178345e-05,
      "loss": 0.224,
      "num_input_tokens_seen": 17026984,
      "step": 29340
    },
    {
      "epoch": 4.370717902889485,
      "grad_norm": 0.4524742066860199,
      "learning_rate": 4.789056686195917e-05,
      "loss": 0.2927,
      "num_input_tokens_seen": 17030024,
      "step": 29345
    },
    {
      "epoch": 4.371462615430444,
      "grad_norm": 11.354485511779785,
      "learning_rate": 4.788926027542203e-05,
      "loss": 0.4048,
      "num_input_tokens_seen": 17032808,
      "step": 29350
    },
    {
      "epoch": 4.372207327971403,
      "grad_norm": 4.938709735870361,
      "learning_rate": 4.7887953302194106e-05,
      "loss": 0.3559,
      "num_input_tokens_seen": 17035784,
      "step": 29355
    },
    {
      "epoch": 4.372952040512362,
      "grad_norm": 0.1022288128733635,
      "learning_rate": 4.788664594229747e-05,
      "loss": 0.2658,
      "num_input_tokens_seen": 17038632,
      "step": 29360
    },
    {
      "epoch": 4.373696753053322,
      "grad_norm": 7.9676594734191895,
      "learning_rate": 4.788533819575421e-05,
      "loss": 0.5115,
      "num_input_tokens_seen": 17041576,
      "step": 29365
    },
    {
      "epoch": 4.3744414655942805,
      "grad_norm": 32.69105911254883,
      "learning_rate": 4.7884030062586424e-05,
      "loss": 0.2545,
      "num_input_tokens_seen": 17044584,
      "step": 29370
    },
    {
      "epoch": 4.37518617813524,
      "grad_norm": 11.968689918518066,
      "learning_rate": 4.78827215428162e-05,
      "loss": 0.5096,
      "num_input_tokens_seen": 17047304,
      "step": 29375
    },
    {
      "epoch": 4.375930890676199,
      "grad_norm": 21.86495590209961,
      "learning_rate": 4.7881412636465664e-05,
      "loss": 0.2981,
      "num_input_tokens_seen": 17050472,
      "step": 29380
    },
    {
      "epoch": 4.3766756032171585,
      "grad_norm": 14.650604248046875,
      "learning_rate": 4.7880103343556906e-05,
      "loss": 0.2448,
      "num_input_tokens_seen": 17053096,
      "step": 29385
    },
    {
      "epoch": 4.377420315758117,
      "grad_norm": 3.438007116317749,
      "learning_rate": 4.787879366411206e-05,
      "loss": 0.483,
      "num_input_tokens_seen": 17056360,
      "step": 29390
    },
    {
      "epoch": 4.378165028299077,
      "grad_norm": 3.3802435398101807,
      "learning_rate": 4.787748359815326e-05,
      "loss": 0.3558,
      "num_input_tokens_seen": 17059176,
      "step": 29395
    },
    {
      "epoch": 4.378909740840036,
      "grad_norm": 4.830338001251221,
      "learning_rate": 4.787617314570261e-05,
      "loss": 0.1874,
      "num_input_tokens_seen": 17061960,
      "step": 29400
    },
    {
      "epoch": 4.379654453380995,
      "grad_norm": 39.165592193603516,
      "learning_rate": 4.7874862306782276e-05,
      "loss": 0.2413,
      "num_input_tokens_seen": 17064968,
      "step": 29405
    },
    {
      "epoch": 4.380399165921954,
      "grad_norm": 3.2304370403289795,
      "learning_rate": 4.787355108141439e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 17067656,
      "step": 29410
    },
    {
      "epoch": 4.381143878462913,
      "grad_norm": 14.02791690826416,
      "learning_rate": 4.78722394696211e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 17070344,
      "step": 29415
    },
    {
      "epoch": 4.3818885910038725,
      "grad_norm": 1.5305776596069336,
      "learning_rate": 4.787092747142458e-05,
      "loss": 0.1045,
      "num_input_tokens_seen": 17073320,
      "step": 29420
    },
    {
      "epoch": 4.382633303544832,
      "grad_norm": 8.247577667236328,
      "learning_rate": 4.7869615086846973e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 17076008,
      "step": 29425
    },
    {
      "epoch": 4.383378016085791,
      "grad_norm": 3.961329936981201,
      "learning_rate": 4.786830231591047e-05,
      "loss": 0.14,
      "num_input_tokens_seen": 17078920,
      "step": 29430
    },
    {
      "epoch": 4.38412272862675,
      "grad_norm": 6.5523762702941895,
      "learning_rate": 4.786698915863724e-05,
      "loss": 0.5812,
      "num_input_tokens_seen": 17081832,
      "step": 29435
    },
    {
      "epoch": 4.384867441167709,
      "grad_norm": 11.198983192443848,
      "learning_rate": 4.7865675615049464e-05,
      "loss": 0.3099,
      "num_input_tokens_seen": 17084712,
      "step": 29440
    },
    {
      "epoch": 4.385612153708668,
      "grad_norm": 20.446369171142578,
      "learning_rate": 4.786436168516935e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 17087784,
      "step": 29445
    },
    {
      "epoch": 4.386356866249628,
      "grad_norm": 30.030534744262695,
      "learning_rate": 4.786304736901908e-05,
      "loss": 0.2554,
      "num_input_tokens_seen": 17090600,
      "step": 29450
    },
    {
      "epoch": 4.3871015787905865,
      "grad_norm": 9.698219299316406,
      "learning_rate": 4.7861732666620856e-05,
      "loss": 0.399,
      "num_input_tokens_seen": 17093128,
      "step": 29455
    },
    {
      "epoch": 4.387846291331546,
      "grad_norm": 0.11368697136640549,
      "learning_rate": 4.78604175779969e-05,
      "loss": 0.7154,
      "num_input_tokens_seen": 17095880,
      "step": 29460
    },
    {
      "epoch": 4.388591003872505,
      "grad_norm": 21.090351104736328,
      "learning_rate": 4.7859102103169415e-05,
      "loss": 0.238,
      "num_input_tokens_seen": 17098696,
      "step": 29465
    },
    {
      "epoch": 4.3893357164134645,
      "grad_norm": 36.8118782043457,
      "learning_rate": 4.785778624216064e-05,
      "loss": 0.2825,
      "num_input_tokens_seen": 17101768,
      "step": 29470
    },
    {
      "epoch": 4.390080428954423,
      "grad_norm": 14.475289344787598,
      "learning_rate": 4.7856469994992805e-05,
      "loss": 0.3526,
      "num_input_tokens_seen": 17104488,
      "step": 29475
    },
    {
      "epoch": 4.390825141495383,
      "grad_norm": 11.107656478881836,
      "learning_rate": 4.7855153361688124e-05,
      "loss": 0.2121,
      "num_input_tokens_seen": 17107336,
      "step": 29480
    },
    {
      "epoch": 4.391569854036342,
      "grad_norm": 20.893157958984375,
      "learning_rate": 4.785383634226887e-05,
      "loss": 0.3933,
      "num_input_tokens_seen": 17110056,
      "step": 29485
    },
    {
      "epoch": 4.392314566577301,
      "grad_norm": 24.372779846191406,
      "learning_rate": 4.785251893675727e-05,
      "loss": 0.4171,
      "num_input_tokens_seen": 17113192,
      "step": 29490
    },
    {
      "epoch": 4.39305927911826,
      "grad_norm": 0.2747070789337158,
      "learning_rate": 4.785120114517559e-05,
      "loss": 0.1826,
      "num_input_tokens_seen": 17115912,
      "step": 29495
    },
    {
      "epoch": 4.39380399165922,
      "grad_norm": 0.5167258381843567,
      "learning_rate": 4.7849882967546086e-05,
      "loss": 0.291,
      "num_input_tokens_seen": 17118856,
      "step": 29500
    },
    {
      "epoch": 4.3945487042001785,
      "grad_norm": 10.692654609680176,
      "learning_rate": 4.784856440389105e-05,
      "loss": 0.1729,
      "num_input_tokens_seen": 17121800,
      "step": 29505
    },
    {
      "epoch": 4.395293416741138,
      "grad_norm": 18.554977416992188,
      "learning_rate": 4.784724545423272e-05,
      "loss": 0.4014,
      "num_input_tokens_seen": 17124552,
      "step": 29510
    },
    {
      "epoch": 4.396038129282097,
      "grad_norm": 17.06614112854004,
      "learning_rate": 4.7845926118593415e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 17127592,
      "step": 29515
    },
    {
      "epoch": 4.396782841823057,
      "grad_norm": 6.360914707183838,
      "learning_rate": 4.784460639699541e-05,
      "loss": 0.2864,
      "num_input_tokens_seen": 17130664,
      "step": 29520
    },
    {
      "epoch": 4.397527554364015,
      "grad_norm": 22.45210838317871,
      "learning_rate": 4.784328628946098e-05,
      "loss": 0.3699,
      "num_input_tokens_seen": 17133448,
      "step": 29525
    },
    {
      "epoch": 4.398272266904975,
      "grad_norm": 7.185526371002197,
      "learning_rate": 4.784196579601246e-05,
      "loss": 0.2117,
      "num_input_tokens_seen": 17136360,
      "step": 29530
    },
    {
      "epoch": 4.399016979445934,
      "grad_norm": 11.690853118896484,
      "learning_rate": 4.784064491667214e-05,
      "loss": 0.3387,
      "num_input_tokens_seen": 17139144,
      "step": 29535
    },
    {
      "epoch": 4.399761691986893,
      "grad_norm": 8.520569801330566,
      "learning_rate": 4.7839323651462334e-05,
      "loss": 0.2074,
      "num_input_tokens_seen": 17141896,
      "step": 29540
    },
    {
      "epoch": 4.400506404527852,
      "grad_norm": 27.14185905456543,
      "learning_rate": 4.783800200040537e-05,
      "loss": 0.2706,
      "num_input_tokens_seen": 17144680,
      "step": 29545
    },
    {
      "epoch": 4.401251117068812,
      "grad_norm": 15.694910049438477,
      "learning_rate": 4.783667996352357e-05,
      "loss": 0.3341,
      "num_input_tokens_seen": 17147560,
      "step": 29550
    },
    {
      "epoch": 4.4019958296097705,
      "grad_norm": 41.95512771606445,
      "learning_rate": 4.783535754083927e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 17150408,
      "step": 29555
    },
    {
      "epoch": 4.40274054215073,
      "grad_norm": 18.458324432373047,
      "learning_rate": 4.783403473237483e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 17153288,
      "step": 29560
    },
    {
      "epoch": 4.403485254691689,
      "grad_norm": 12.148210525512695,
      "learning_rate": 4.783271153815257e-05,
      "loss": 0.238,
      "num_input_tokens_seen": 17156456,
      "step": 29565
    },
    {
      "epoch": 4.404229967232649,
      "grad_norm": 5.021097660064697,
      "learning_rate": 4.783138795819485e-05,
      "loss": 0.1498,
      "num_input_tokens_seen": 17159624,
      "step": 29570
    },
    {
      "epoch": 4.404974679773607,
      "grad_norm": 13.448954582214355,
      "learning_rate": 4.783006399252404e-05,
      "loss": 0.2957,
      "num_input_tokens_seen": 17162376,
      "step": 29575
    },
    {
      "epoch": 4.405719392314566,
      "grad_norm": 4.158318042755127,
      "learning_rate": 4.782873964116251e-05,
      "loss": 0.5085,
      "num_input_tokens_seen": 17165192,
      "step": 29580
    },
    {
      "epoch": 4.406464104855526,
      "grad_norm": 5.572024345397949,
      "learning_rate": 4.782741490413262e-05,
      "loss": 0.2804,
      "num_input_tokens_seen": 17168136,
      "step": 29585
    },
    {
      "epoch": 4.407208817396485,
      "grad_norm": 9.631418228149414,
      "learning_rate": 4.782608978145675e-05,
      "loss": 0.741,
      "num_input_tokens_seen": 17171240,
      "step": 29590
    },
    {
      "epoch": 4.407953529937444,
      "grad_norm": 6.181641101837158,
      "learning_rate": 4.7824764273157295e-05,
      "loss": 0.1977,
      "num_input_tokens_seen": 17174056,
      "step": 29595
    },
    {
      "epoch": 4.408698242478403,
      "grad_norm": 2.220426321029663,
      "learning_rate": 4.782343837925665e-05,
      "loss": 0.2258,
      "num_input_tokens_seen": 17177032,
      "step": 29600
    },
    {
      "epoch": 4.409442955019363,
      "grad_norm": 14.117753028869629,
      "learning_rate": 4.7822112099777205e-05,
      "loss": 0.6275,
      "num_input_tokens_seen": 17179688,
      "step": 29605
    },
    {
      "epoch": 4.410187667560321,
      "grad_norm": 5.7093353271484375,
      "learning_rate": 4.7820785434741375e-05,
      "loss": 0.1022,
      "num_input_tokens_seen": 17182472,
      "step": 29610
    },
    {
      "epoch": 4.410932380101281,
      "grad_norm": 6.864332675933838,
      "learning_rate": 4.7819458384171566e-05,
      "loss": 0.0563,
      "num_input_tokens_seen": 17185416,
      "step": 29615
    },
    {
      "epoch": 4.41167709264224,
      "grad_norm": 15.11374282836914,
      "learning_rate": 4.78181309480902e-05,
      "loss": 0.5794,
      "num_input_tokens_seen": 17188424,
      "step": 29620
    },
    {
      "epoch": 4.412421805183199,
      "grad_norm": 19.60866928100586,
      "learning_rate": 4.781680312651971e-05,
      "loss": 0.5727,
      "num_input_tokens_seen": 17191496,
      "step": 29625
    },
    {
      "epoch": 4.413166517724158,
      "grad_norm": 3.8634862899780273,
      "learning_rate": 4.781547491948252e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 17194344,
      "step": 29630
    },
    {
      "epoch": 4.413911230265118,
      "grad_norm": 1.700366497039795,
      "learning_rate": 4.7814146327001067e-05,
      "loss": 0.4132,
      "num_input_tokens_seen": 17197416,
      "step": 29635
    },
    {
      "epoch": 4.4146559428060765,
      "grad_norm": 39.8609733581543,
      "learning_rate": 4.7812817349097796e-05,
      "loss": 0.2914,
      "num_input_tokens_seen": 17200424,
      "step": 29640
    },
    {
      "epoch": 4.415400655347036,
      "grad_norm": 19.805505752563477,
      "learning_rate": 4.7811487985795164e-05,
      "loss": 0.1992,
      "num_input_tokens_seen": 17203240,
      "step": 29645
    },
    {
      "epoch": 4.416145367887995,
      "grad_norm": 52.770748138427734,
      "learning_rate": 4.781015823711563e-05,
      "loss": 0.2937,
      "num_input_tokens_seen": 17206216,
      "step": 29650
    },
    {
      "epoch": 4.416890080428955,
      "grad_norm": 23.791093826293945,
      "learning_rate": 4.780882810308165e-05,
      "loss": 0.2293,
      "num_input_tokens_seen": 17208872,
      "step": 29655
    },
    {
      "epoch": 4.417634792969913,
      "grad_norm": 9.076042175292969,
      "learning_rate": 4.7807497583715704e-05,
      "loss": 0.1978,
      "num_input_tokens_seen": 17211688,
      "step": 29660
    },
    {
      "epoch": 4.418379505510873,
      "grad_norm": 8.479145050048828,
      "learning_rate": 4.780616667904026e-05,
      "loss": 0.5642,
      "num_input_tokens_seen": 17214344,
      "step": 29665
    },
    {
      "epoch": 4.419124218051832,
      "grad_norm": 11.938398361206055,
      "learning_rate": 4.7804835389077824e-05,
      "loss": 0.2062,
      "num_input_tokens_seen": 17217256,
      "step": 29670
    },
    {
      "epoch": 4.419868930592791,
      "grad_norm": 31.771055221557617,
      "learning_rate": 4.780350371385086e-05,
      "loss": 0.3051,
      "num_input_tokens_seen": 17220264,
      "step": 29675
    },
    {
      "epoch": 4.42061364313375,
      "grad_norm": 0.3210345208644867,
      "learning_rate": 4.7802171653381885e-05,
      "loss": 0.2672,
      "num_input_tokens_seen": 17223048,
      "step": 29680
    },
    {
      "epoch": 4.42135835567471,
      "grad_norm": 7.774303913116455,
      "learning_rate": 4.780083920769339e-05,
      "loss": 0.0645,
      "num_input_tokens_seen": 17225736,
      "step": 29685
    },
    {
      "epoch": 4.422103068215669,
      "grad_norm": 47.700782775878906,
      "learning_rate": 4.779950637680789e-05,
      "loss": 0.4775,
      "num_input_tokens_seen": 17228680,
      "step": 29690
    },
    {
      "epoch": 4.422847780756628,
      "grad_norm": 14.070586204528809,
      "learning_rate": 4.7798173160747906e-05,
      "loss": 0.319,
      "num_input_tokens_seen": 17231496,
      "step": 29695
    },
    {
      "epoch": 4.423592493297587,
      "grad_norm": 3.416041135787964,
      "learning_rate": 4.7796839559535955e-05,
      "loss": 0.5642,
      "num_input_tokens_seen": 17234376,
      "step": 29700
    },
    {
      "epoch": 4.424337205838547,
      "grad_norm": 25.144119262695312,
      "learning_rate": 4.779550557319457e-05,
      "loss": 0.2899,
      "num_input_tokens_seen": 17237224,
      "step": 29705
    },
    {
      "epoch": 4.425081918379505,
      "grad_norm": 11.4511137008667,
      "learning_rate": 4.7794171201746285e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 17240264,
      "step": 29710
    },
    {
      "epoch": 4.425826630920465,
      "grad_norm": 15.19734001159668,
      "learning_rate": 4.779283644521365e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 17243432,
      "step": 29715
    },
    {
      "epoch": 4.426571343461424,
      "grad_norm": 36.48433303833008,
      "learning_rate": 4.7791501303619205e-05,
      "loss": 0.348,
      "num_input_tokens_seen": 17246152,
      "step": 29720
    },
    {
      "epoch": 4.427316056002383,
      "grad_norm": 23.936988830566406,
      "learning_rate": 4.7790165776985504e-05,
      "loss": 0.1387,
      "num_input_tokens_seen": 17248936,
      "step": 29725
    },
    {
      "epoch": 4.428060768543342,
      "grad_norm": 28.765356063842773,
      "learning_rate": 4.7788829865335125e-05,
      "loss": 0.3663,
      "num_input_tokens_seen": 17251752,
      "step": 29730
    },
    {
      "epoch": 4.428805481084302,
      "grad_norm": 33.44552993774414,
      "learning_rate": 4.778749356869062e-05,
      "loss": 0.2451,
      "num_input_tokens_seen": 17254696,
      "step": 29735
    },
    {
      "epoch": 4.429550193625261,
      "grad_norm": 24.192230224609375,
      "learning_rate": 4.778615688707457e-05,
      "loss": 0.7558,
      "num_input_tokens_seen": 17257416,
      "step": 29740
    },
    {
      "epoch": 4.43029490616622,
      "grad_norm": 10.675810813903809,
      "learning_rate": 4.778481982050956e-05,
      "loss": 0.2828,
      "num_input_tokens_seen": 17260520,
      "step": 29745
    },
    {
      "epoch": 4.431039618707179,
      "grad_norm": 14.427544593811035,
      "learning_rate": 4.778348236901818e-05,
      "loss": 0.3522,
      "num_input_tokens_seen": 17263432,
      "step": 29750
    },
    {
      "epoch": 4.431784331248139,
      "grad_norm": 99.39948272705078,
      "learning_rate": 4.7782144532623016e-05,
      "loss": 0.3399,
      "num_input_tokens_seen": 17266280,
      "step": 29755
    },
    {
      "epoch": 4.432529043789097,
      "grad_norm": 14.111903190612793,
      "learning_rate": 4.7780806311346684e-05,
      "loss": 0.1857,
      "num_input_tokens_seen": 17269192,
      "step": 29760
    },
    {
      "epoch": 4.433273756330056,
      "grad_norm": 20.811065673828125,
      "learning_rate": 4.777946770521178e-05,
      "loss": 0.4071,
      "num_input_tokens_seen": 17272200,
      "step": 29765
    },
    {
      "epoch": 4.434018468871016,
      "grad_norm": 42.31199264526367,
      "learning_rate": 4.7778128714240915e-05,
      "loss": 0.5281,
      "num_input_tokens_seen": 17275048,
      "step": 29770
    },
    {
      "epoch": 4.434763181411975,
      "grad_norm": 6.791512489318848,
      "learning_rate": 4.7776789338456717e-05,
      "loss": 0.1983,
      "num_input_tokens_seen": 17277832,
      "step": 29775
    },
    {
      "epoch": 4.435507893952934,
      "grad_norm": 19.66399574279785,
      "learning_rate": 4.777544957788182e-05,
      "loss": 0.3753,
      "num_input_tokens_seen": 17280904,
      "step": 29780
    },
    {
      "epoch": 4.436252606493893,
      "grad_norm": 39.69426727294922,
      "learning_rate": 4.7774109432538843e-05,
      "loss": 0.4662,
      "num_input_tokens_seen": 17283752,
      "step": 29785
    },
    {
      "epoch": 4.436997319034853,
      "grad_norm": 22.270204544067383,
      "learning_rate": 4.777276890245044e-05,
      "loss": 0.1,
      "num_input_tokens_seen": 17286472,
      "step": 29790
    },
    {
      "epoch": 4.437742031575811,
      "grad_norm": 27.771909713745117,
      "learning_rate": 4.7771427987639246e-05,
      "loss": 0.4185,
      "num_input_tokens_seen": 17289288,
      "step": 29795
    },
    {
      "epoch": 4.438486744116771,
      "grad_norm": 0.8090882897377014,
      "learning_rate": 4.777008668812793e-05,
      "loss": 0.0673,
      "num_input_tokens_seen": 17292424,
      "step": 29800
    },
    {
      "epoch": 4.43923145665773,
      "grad_norm": 0.12331974506378174,
      "learning_rate": 4.776874500393912e-05,
      "loss": 0.2913,
      "num_input_tokens_seen": 17295208,
      "step": 29805
    },
    {
      "epoch": 4.439976169198689,
      "grad_norm": 15.503090858459473,
      "learning_rate": 4.7767402935095525e-05,
      "loss": 0.3601,
      "num_input_tokens_seen": 17298216,
      "step": 29810
    },
    {
      "epoch": 4.440720881739648,
      "grad_norm": 16.35944938659668,
      "learning_rate": 4.776606048161979e-05,
      "loss": 0.2477,
      "num_input_tokens_seen": 17301096,
      "step": 29815
    },
    {
      "epoch": 4.441465594280608,
      "grad_norm": 25.000268936157227,
      "learning_rate": 4.77647176435346e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 17304008,
      "step": 29820
    },
    {
      "epoch": 4.442210306821567,
      "grad_norm": 35.45793533325195,
      "learning_rate": 4.7763374420862645e-05,
      "loss": 0.2274,
      "num_input_tokens_seen": 17306920,
      "step": 29825
    },
    {
      "epoch": 4.442955019362526,
      "grad_norm": 18.507549285888672,
      "learning_rate": 4.7762030813626615e-05,
      "loss": 0.5874,
      "num_input_tokens_seen": 17309608,
      "step": 29830
    },
    {
      "epoch": 4.443699731903485,
      "grad_norm": 16.351215362548828,
      "learning_rate": 4.776068682184921e-05,
      "loss": 0.3504,
      "num_input_tokens_seen": 17312392,
      "step": 29835
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 7.687952995300293,
      "learning_rate": 4.7759342445553124e-05,
      "loss": 0.334,
      "num_input_tokens_seen": 17315496,
      "step": 29840
    },
    {
      "epoch": 4.445189156985403,
      "grad_norm": 14.925050735473633,
      "learning_rate": 4.775799768476109e-05,
      "loss": 0.412,
      "num_input_tokens_seen": 17318728,
      "step": 29845
    },
    {
      "epoch": 4.445933869526363,
      "grad_norm": 8.489787101745605,
      "learning_rate": 4.775665253949581e-05,
      "loss": 0.4049,
      "num_input_tokens_seen": 17321704,
      "step": 29850
    },
    {
      "epoch": 4.446678582067322,
      "grad_norm": 5.615865230560303,
      "learning_rate": 4.775530700978002e-05,
      "loss": 0.3345,
      "num_input_tokens_seen": 17324616,
      "step": 29855
    },
    {
      "epoch": 4.4474232946082815,
      "grad_norm": 16.48207664489746,
      "learning_rate": 4.775396109563644e-05,
      "loss": 0.3373,
      "num_input_tokens_seen": 17327400,
      "step": 29860
    },
    {
      "epoch": 4.44816800714924,
      "grad_norm": 20.144271850585938,
      "learning_rate": 4.775261479708781e-05,
      "loss": 0.3999,
      "num_input_tokens_seen": 17330152,
      "step": 29865
    },
    {
      "epoch": 4.4489127196902,
      "grad_norm": 38.9782829284668,
      "learning_rate": 4.775126811415689e-05,
      "loss": 0.315,
      "num_input_tokens_seen": 17333128,
      "step": 29870
    },
    {
      "epoch": 4.449657432231159,
      "grad_norm": 16.819496154785156,
      "learning_rate": 4.7749921046866407e-05,
      "loss": 0.5607,
      "num_input_tokens_seen": 17336072,
      "step": 29875
    },
    {
      "epoch": 4.450402144772118,
      "grad_norm": 8.357396125793457,
      "learning_rate": 4.7748573595239134e-05,
      "loss": 0.4138,
      "num_input_tokens_seen": 17338952,
      "step": 29880
    },
    {
      "epoch": 4.451146857313077,
      "grad_norm": 28.28485870361328,
      "learning_rate": 4.7747225759297835e-05,
      "loss": 0.1008,
      "num_input_tokens_seen": 17341640,
      "step": 29885
    },
    {
      "epoch": 4.451891569854037,
      "grad_norm": 5.268728733062744,
      "learning_rate": 4.774587753906526e-05,
      "loss": 0.1762,
      "num_input_tokens_seen": 17344840,
      "step": 29890
    },
    {
      "epoch": 4.452636282394995,
      "grad_norm": 9.370438575744629,
      "learning_rate": 4.774452893456423e-05,
      "loss": 0.368,
      "num_input_tokens_seen": 17347752,
      "step": 29895
    },
    {
      "epoch": 4.453380994935955,
      "grad_norm": 31.986724853515625,
      "learning_rate": 4.774317994581748e-05,
      "loss": 0.3512,
      "num_input_tokens_seen": 17350984,
      "step": 29900
    },
    {
      "epoch": 4.454125707476914,
      "grad_norm": 2.3085434436798096,
      "learning_rate": 4.7741830572847826e-05,
      "loss": 0.3561,
      "num_input_tokens_seen": 17353832,
      "step": 29905
    },
    {
      "epoch": 4.4548704200178735,
      "grad_norm": 11.956002235412598,
      "learning_rate": 4.774048081567805e-05,
      "loss": 0.3836,
      "num_input_tokens_seen": 17356840,
      "step": 29910
    },
    {
      "epoch": 4.455615132558832,
      "grad_norm": 0.24546417593955994,
      "learning_rate": 4.7739130674330966e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 17359560,
      "step": 29915
    },
    {
      "epoch": 4.456359845099792,
      "grad_norm": 0.9256405830383301,
      "learning_rate": 4.773778014882939e-05,
      "loss": 0.1932,
      "num_input_tokens_seen": 17362280,
      "step": 29920
    },
    {
      "epoch": 4.457104557640751,
      "grad_norm": 27.197134017944336,
      "learning_rate": 4.773642923919612e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 17365000,
      "step": 29925
    },
    {
      "epoch": 4.457849270181709,
      "grad_norm": 5.55785608291626,
      "learning_rate": 4.773507794545399e-05,
      "loss": 0.3242,
      "num_input_tokens_seen": 17368008,
      "step": 29930
    },
    {
      "epoch": 4.458593982722669,
      "grad_norm": 12.477099418640137,
      "learning_rate": 4.7733726267625824e-05,
      "loss": 0.4208,
      "num_input_tokens_seen": 17370888,
      "step": 29935
    },
    {
      "epoch": 4.459338695263629,
      "grad_norm": 3.9182887077331543,
      "learning_rate": 4.7732374205734456e-05,
      "loss": 0.3326,
      "num_input_tokens_seen": 17373896,
      "step": 29940
    },
    {
      "epoch": 4.4600834078045875,
      "grad_norm": 8.591475486755371,
      "learning_rate": 4.773102175980273e-05,
      "loss": 0.3023,
      "num_input_tokens_seen": 17376712,
      "step": 29945
    },
    {
      "epoch": 4.460828120345546,
      "grad_norm": 9.436400413513184,
      "learning_rate": 4.772966892985349e-05,
      "loss": 0.5115,
      "num_input_tokens_seen": 17379592,
      "step": 29950
    },
    {
      "epoch": 4.461572832886506,
      "grad_norm": 4.260168552398682,
      "learning_rate": 4.77283157159096e-05,
      "loss": 0.2612,
      "num_input_tokens_seen": 17382280,
      "step": 29955
    },
    {
      "epoch": 4.462317545427465,
      "grad_norm": 0.5924069881439209,
      "learning_rate": 4.772696211799392e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 17385288,
      "step": 29960
    },
    {
      "epoch": 4.463062257968424,
      "grad_norm": 30.425756454467773,
      "learning_rate": 4.7725608136129305e-05,
      "loss": 0.3697,
      "num_input_tokens_seen": 17388232,
      "step": 29965
    },
    {
      "epoch": 4.463806970509383,
      "grad_norm": 18.548328399658203,
      "learning_rate": 4.7724253770338645e-05,
      "loss": 0.3592,
      "num_input_tokens_seen": 17391464,
      "step": 29970
    },
    {
      "epoch": 4.464551683050343,
      "grad_norm": 5.46065616607666,
      "learning_rate": 4.772289902064481e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 17394472,
      "step": 29975
    },
    {
      "epoch": 4.465296395591301,
      "grad_norm": 13.19996452331543,
      "learning_rate": 4.772154388707069e-05,
      "loss": 0.2318,
      "num_input_tokens_seen": 17397448,
      "step": 29980
    },
    {
      "epoch": 4.466041108132261,
      "grad_norm": 28.73967742919922,
      "learning_rate": 4.7720188369639186e-05,
      "loss": 0.435,
      "num_input_tokens_seen": 17400488,
      "step": 29985
    },
    {
      "epoch": 4.46678582067322,
      "grad_norm": 9.236199378967285,
      "learning_rate": 4.771883246837318e-05,
      "loss": 0.1413,
      "num_input_tokens_seen": 17403272,
      "step": 29990
    },
    {
      "epoch": 4.4675305332141795,
      "grad_norm": 31.390331268310547,
      "learning_rate": 4.77174761832956e-05,
      "loss": 0.5089,
      "num_input_tokens_seen": 17406120,
      "step": 29995
    },
    {
      "epoch": 4.468275245755138,
      "grad_norm": 16.816057205200195,
      "learning_rate": 4.771611951442935e-05,
      "loss": 0.5391,
      "num_input_tokens_seen": 17409224,
      "step": 30000
    },
    {
      "epoch": 4.469019958296098,
      "grad_norm": 3.6250951290130615,
      "learning_rate": 4.771476246179734e-05,
      "loss": 0.564,
      "num_input_tokens_seen": 17411976,
      "step": 30005
    },
    {
      "epoch": 4.469764670837057,
      "grad_norm": 19.46540069580078,
      "learning_rate": 4.7713405025422505e-05,
      "loss": 0.14,
      "num_input_tokens_seen": 17414632,
      "step": 30010
    },
    {
      "epoch": 4.470509383378016,
      "grad_norm": 27.01685333251953,
      "learning_rate": 4.771204720532778e-05,
      "loss": 0.3866,
      "num_input_tokens_seen": 17417352,
      "step": 30015
    },
    {
      "epoch": 4.471254095918975,
      "grad_norm": 17.359325408935547,
      "learning_rate": 4.7710689001536105e-05,
      "loss": 0.6775,
      "num_input_tokens_seen": 17419976,
      "step": 30020
    },
    {
      "epoch": 4.471998808459935,
      "grad_norm": 1.4288986921310425,
      "learning_rate": 4.7709330414070406e-05,
      "loss": 0.1035,
      "num_input_tokens_seen": 17422984,
      "step": 30025
    },
    {
      "epoch": 4.4727435210008935,
      "grad_norm": 0.949925422668457,
      "learning_rate": 4.770797144295366e-05,
      "loss": 0.5699,
      "num_input_tokens_seen": 17425928,
      "step": 30030
    },
    {
      "epoch": 4.473488233541853,
      "grad_norm": 1.9489930868148804,
      "learning_rate": 4.7706612088208826e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 17428776,
      "step": 30035
    },
    {
      "epoch": 4.474232946082812,
      "grad_norm": 19.87050437927246,
      "learning_rate": 4.770525234985884e-05,
      "loss": 0.2299,
      "num_input_tokens_seen": 17431944,
      "step": 30040
    },
    {
      "epoch": 4.4749776586237715,
      "grad_norm": 9.243635177612305,
      "learning_rate": 4.770389222792671e-05,
      "loss": 0.2499,
      "num_input_tokens_seen": 17434792,
      "step": 30045
    },
    {
      "epoch": 4.47572237116473,
      "grad_norm": 10.908175468444824,
      "learning_rate": 4.770253172243538e-05,
      "loss": 0.3276,
      "num_input_tokens_seen": 17438024,
      "step": 30050
    },
    {
      "epoch": 4.47646708370569,
      "grad_norm": 41.79555892944336,
      "learning_rate": 4.770117083340786e-05,
      "loss": 0.6191,
      "num_input_tokens_seen": 17440616,
      "step": 30055
    },
    {
      "epoch": 4.477211796246649,
      "grad_norm": 18.055522918701172,
      "learning_rate": 4.769980956086714e-05,
      "loss": 0.1538,
      "num_input_tokens_seen": 17443400,
      "step": 30060
    },
    {
      "epoch": 4.477956508787608,
      "grad_norm": 6.783602237701416,
      "learning_rate": 4.769844790483619e-05,
      "loss": 0.1623,
      "num_input_tokens_seen": 17445864,
      "step": 30065
    },
    {
      "epoch": 4.478701221328567,
      "grad_norm": 8.30522632598877,
      "learning_rate": 4.769708586533804e-05,
      "loss": 0.1735,
      "num_input_tokens_seen": 17448712,
      "step": 30070
    },
    {
      "epoch": 4.479445933869527,
      "grad_norm": 9.472763061523438,
      "learning_rate": 4.7695723442395694e-05,
      "loss": 0.5038,
      "num_input_tokens_seen": 17451688,
      "step": 30075
    },
    {
      "epoch": 4.4801906464104855,
      "grad_norm": 46.75328063964844,
      "learning_rate": 4.769436063603217e-05,
      "loss": 0.288,
      "num_input_tokens_seen": 17454568,
      "step": 30080
    },
    {
      "epoch": 4.480935358951445,
      "grad_norm": 12.996197700500488,
      "learning_rate": 4.769299744627048e-05,
      "loss": 0.3275,
      "num_input_tokens_seen": 17457288,
      "step": 30085
    },
    {
      "epoch": 4.481680071492404,
      "grad_norm": 26.866966247558594,
      "learning_rate": 4.769163387313367e-05,
      "loss": 0.117,
      "num_input_tokens_seen": 17460488,
      "step": 30090
    },
    {
      "epoch": 4.4824247840333635,
      "grad_norm": 1.1668838262557983,
      "learning_rate": 4.7690269916644766e-05,
      "loss": 0.3763,
      "num_input_tokens_seen": 17463208,
      "step": 30095
    },
    {
      "epoch": 4.483169496574322,
      "grad_norm": 11.900477409362793,
      "learning_rate": 4.768890557682681e-05,
      "loss": 0.2584,
      "num_input_tokens_seen": 17465768,
      "step": 30100
    },
    {
      "epoch": 4.483914209115282,
      "grad_norm": 1.3491543531417847,
      "learning_rate": 4.768754085370286e-05,
      "loss": 0.3186,
      "num_input_tokens_seen": 17468520,
      "step": 30105
    },
    {
      "epoch": 4.484658921656241,
      "grad_norm": 7.279497146606445,
      "learning_rate": 4.768617574729596e-05,
      "loss": 0.2874,
      "num_input_tokens_seen": 17471336,
      "step": 30110
    },
    {
      "epoch": 4.4854036341971995,
      "grad_norm": 12.206192970275879,
      "learning_rate": 4.768481025762918e-05,
      "loss": 0.5292,
      "num_input_tokens_seen": 17474120,
      "step": 30115
    },
    {
      "epoch": 4.486148346738159,
      "grad_norm": 51.96261978149414,
      "learning_rate": 4.768344438472559e-05,
      "loss": 0.2794,
      "num_input_tokens_seen": 17477128,
      "step": 30120
    },
    {
      "epoch": 4.486893059279118,
      "grad_norm": 0.24558524787425995,
      "learning_rate": 4.768207812860826e-05,
      "loss": 0.5695,
      "num_input_tokens_seen": 17480200,
      "step": 30125
    },
    {
      "epoch": 4.4876377718200775,
      "grad_norm": 14.69135570526123,
      "learning_rate": 4.768071148930027e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 17483048,
      "step": 30130
    },
    {
      "epoch": 4.488382484361036,
      "grad_norm": 23.702531814575195,
      "learning_rate": 4.7679344466824716e-05,
      "loss": 0.2572,
      "num_input_tokens_seen": 17485928,
      "step": 30135
    },
    {
      "epoch": 4.489127196901996,
      "grad_norm": 4.735089302062988,
      "learning_rate": 4.767797706120468e-05,
      "loss": 0.1298,
      "num_input_tokens_seen": 17489032,
      "step": 30140
    },
    {
      "epoch": 4.489871909442955,
      "grad_norm": 12.579521179199219,
      "learning_rate": 4.767660927246328e-05,
      "loss": 0.1756,
      "num_input_tokens_seen": 17491880,
      "step": 30145
    },
    {
      "epoch": 4.490616621983914,
      "grad_norm": 11.575754165649414,
      "learning_rate": 4.7675241100623604e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 17494536,
      "step": 30150
    },
    {
      "epoch": 4.491361334524873,
      "grad_norm": 8.659103393554688,
      "learning_rate": 4.7673872545708784e-05,
      "loss": 0.4941,
      "num_input_tokens_seen": 17497896,
      "step": 30155
    },
    {
      "epoch": 4.492106047065833,
      "grad_norm": 21.45680046081543,
      "learning_rate": 4.767250360774193e-05,
      "loss": 0.6331,
      "num_input_tokens_seen": 17500776,
      "step": 30160
    },
    {
      "epoch": 4.4928507596067915,
      "grad_norm": 7.246882915496826,
      "learning_rate": 4.767113428674616e-05,
      "loss": 0.505,
      "num_input_tokens_seen": 17503528,
      "step": 30165
    },
    {
      "epoch": 4.493595472147751,
      "grad_norm": 18.770206451416016,
      "learning_rate": 4.766976458274464e-05,
      "loss": 0.5446,
      "num_input_tokens_seen": 17506440,
      "step": 30170
    },
    {
      "epoch": 4.49434018468871,
      "grad_norm": 27.550098419189453,
      "learning_rate": 4.766839449576047e-05,
      "loss": 0.2055,
      "num_input_tokens_seen": 17509320,
      "step": 30175
    },
    {
      "epoch": 4.4950848972296695,
      "grad_norm": 11.172576904296875,
      "learning_rate": 4.766702402581682e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 17512488,
      "step": 30180
    },
    {
      "epoch": 4.495829609770628,
      "grad_norm": 6.1186699867248535,
      "learning_rate": 4.766565317293683e-05,
      "loss": 0.4354,
      "num_input_tokens_seen": 17515240,
      "step": 30185
    },
    {
      "epoch": 4.496574322311588,
      "grad_norm": 2.2551822662353516,
      "learning_rate": 4.766428193714367e-05,
      "loss": 0.2535,
      "num_input_tokens_seen": 17517928,
      "step": 30190
    },
    {
      "epoch": 4.497319034852547,
      "grad_norm": 27.73151969909668,
      "learning_rate": 4.766291031846051e-05,
      "loss": 0.5097,
      "num_input_tokens_seen": 17520456,
      "step": 30195
    },
    {
      "epoch": 4.498063747393506,
      "grad_norm": 10.94530963897705,
      "learning_rate": 4.76615383169105e-05,
      "loss": 0.4884,
      "num_input_tokens_seen": 17523496,
      "step": 30200
    },
    {
      "epoch": 4.498808459934465,
      "grad_norm": 6.383688926696777,
      "learning_rate": 4.766016593251684e-05,
      "loss": 0.2772,
      "num_input_tokens_seen": 17526568,
      "step": 30205
    },
    {
      "epoch": 4.499553172475425,
      "grad_norm": 9.642579078674316,
      "learning_rate": 4.765879316530272e-05,
      "loss": 0.1508,
      "num_input_tokens_seen": 17529160,
      "step": 30210
    },
    {
      "epoch": 4.5002978850163835,
      "grad_norm": 0.156571164727211,
      "learning_rate": 4.76574200152913e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 17531944,
      "step": 30215
    },
    {
      "epoch": 4.501042597557343,
      "grad_norm": 8.038175582885742,
      "learning_rate": 4.76560464825058e-05,
      "loss": 0.4807,
      "num_input_tokens_seen": 17535176,
      "step": 30220
    },
    {
      "epoch": 4.501787310098302,
      "grad_norm": 11.724285125732422,
      "learning_rate": 4.7654672566969424e-05,
      "loss": 0.3978,
      "num_input_tokens_seen": 17538248,
      "step": 30225
    },
    {
      "epoch": 4.5025320226392616,
      "grad_norm": 0.1960660070180893,
      "learning_rate": 4.765329826870538e-05,
      "loss": 0.2533,
      "num_input_tokens_seen": 17541352,
      "step": 30230
    },
    {
      "epoch": 4.50327673518022,
      "grad_norm": 0.8349612951278687,
      "learning_rate": 4.765192358773689e-05,
      "loss": 0.3786,
      "num_input_tokens_seen": 17544008,
      "step": 30235
    },
    {
      "epoch": 4.50402144772118,
      "grad_norm": 39.34553909301758,
      "learning_rate": 4.765054852408717e-05,
      "loss": 0.37,
      "num_input_tokens_seen": 17546696,
      "step": 30240
    },
    {
      "epoch": 4.504766160262139,
      "grad_norm": 13.709695816040039,
      "learning_rate": 4.7649173077779455e-05,
      "loss": 0.1902,
      "num_input_tokens_seen": 17549512,
      "step": 30245
    },
    {
      "epoch": 4.505510872803098,
      "grad_norm": 25.854934692382812,
      "learning_rate": 4.7647797248836975e-05,
      "loss": 0.3419,
      "num_input_tokens_seen": 17552456,
      "step": 30250
    },
    {
      "epoch": 4.506255585344057,
      "grad_norm": 6.119358062744141,
      "learning_rate": 4.7646421037282984e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 17555432,
      "step": 30255
    },
    {
      "epoch": 4.507000297885017,
      "grad_norm": 11.857098579406738,
      "learning_rate": 4.764504444314072e-05,
      "loss": 0.558,
      "num_input_tokens_seen": 17558248,
      "step": 30260
    },
    {
      "epoch": 4.5077450104259755,
      "grad_norm": 6.3660569190979,
      "learning_rate": 4.7643667466433453e-05,
      "loss": 0.1926,
      "num_input_tokens_seen": 17561416,
      "step": 30265
    },
    {
      "epoch": 4.508489722966935,
      "grad_norm": 21.0277099609375,
      "learning_rate": 4.7642290107184426e-05,
      "loss": 0.5622,
      "num_input_tokens_seen": 17564456,
      "step": 30270
    },
    {
      "epoch": 4.509234435507894,
      "grad_norm": 7.461127281188965,
      "learning_rate": 4.764091236541693e-05,
      "loss": 0.2537,
      "num_input_tokens_seen": 17567144,
      "step": 30275
    },
    {
      "epoch": 4.509979148048853,
      "grad_norm": 13.055624008178711,
      "learning_rate": 4.763953424115424e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 17570184,
      "step": 30280
    },
    {
      "epoch": 4.510723860589812,
      "grad_norm": 25.512012481689453,
      "learning_rate": 4.7638155734419616e-05,
      "loss": 0.4542,
      "num_input_tokens_seen": 17572904,
      "step": 30285
    },
    {
      "epoch": 4.511468573130772,
      "grad_norm": 8.041533470153809,
      "learning_rate": 4.763677684523636e-05,
      "loss": 0.3925,
      "num_input_tokens_seen": 17575784,
      "step": 30290
    },
    {
      "epoch": 4.512213285671731,
      "grad_norm": 28.530715942382812,
      "learning_rate": 4.7635397573627774e-05,
      "loss": 0.1867,
      "num_input_tokens_seen": 17578472,
      "step": 30295
    },
    {
      "epoch": 4.5129579982126895,
      "grad_norm": 13.84403133392334,
      "learning_rate": 4.7634017919617143e-05,
      "loss": 0.2877,
      "num_input_tokens_seen": 17581512,
      "step": 30300
    },
    {
      "epoch": 4.513702710753649,
      "grad_norm": 15.338193893432617,
      "learning_rate": 4.763263788322778e-05,
      "loss": 0.5074,
      "num_input_tokens_seen": 17584360,
      "step": 30305
    },
    {
      "epoch": 4.514447423294608,
      "grad_norm": 0.8030127882957458,
      "learning_rate": 4.7631257464483014e-05,
      "loss": 0.3682,
      "num_input_tokens_seen": 17587144,
      "step": 30310
    },
    {
      "epoch": 4.5151921358355676,
      "grad_norm": 10.792389869689941,
      "learning_rate": 4.762987666340615e-05,
      "loss": 0.2603,
      "num_input_tokens_seen": 17590088,
      "step": 30315
    },
    {
      "epoch": 4.515936848376526,
      "grad_norm": 6.7095770835876465,
      "learning_rate": 4.7628495480020516e-05,
      "loss": 0.3625,
      "num_input_tokens_seen": 17592840,
      "step": 30320
    },
    {
      "epoch": 4.516681560917486,
      "grad_norm": 10.12849235534668,
      "learning_rate": 4.762711391434945e-05,
      "loss": 0.4592,
      "num_input_tokens_seen": 17595912,
      "step": 30325
    },
    {
      "epoch": 4.517426273458445,
      "grad_norm": 11.15310287475586,
      "learning_rate": 4.76257319664163e-05,
      "loss": 0.2085,
      "num_input_tokens_seen": 17598728,
      "step": 30330
    },
    {
      "epoch": 4.518170985999404,
      "grad_norm": 27.370243072509766,
      "learning_rate": 4.76243496362444e-05,
      "loss": 0.578,
      "num_input_tokens_seen": 17601544,
      "step": 30335
    },
    {
      "epoch": 4.518915698540363,
      "grad_norm": 1.2919400930404663,
      "learning_rate": 4.76229669238571e-05,
      "loss": 0.3621,
      "num_input_tokens_seen": 17604520,
      "step": 30340
    },
    {
      "epoch": 4.519660411081323,
      "grad_norm": 8.468731880187988,
      "learning_rate": 4.762158382927777e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 17607624,
      "step": 30345
    },
    {
      "epoch": 4.5204051236222815,
      "grad_norm": 0.3266660273075104,
      "learning_rate": 4.762020035252978e-05,
      "loss": 0.0856,
      "num_input_tokens_seen": 17610760,
      "step": 30350
    },
    {
      "epoch": 4.521149836163241,
      "grad_norm": 10.467588424682617,
      "learning_rate": 4.761881649363649e-05,
      "loss": 0.6638,
      "num_input_tokens_seen": 17613768,
      "step": 30355
    },
    {
      "epoch": 4.5218945487042,
      "grad_norm": 13.392465591430664,
      "learning_rate": 4.7617432252621285e-05,
      "loss": 0.3565,
      "num_input_tokens_seen": 17616648,
      "step": 30360
    },
    {
      "epoch": 4.52263926124516,
      "grad_norm": 33.86690139770508,
      "learning_rate": 4.7616047629507556e-05,
      "loss": 0.6068,
      "num_input_tokens_seen": 17619784,
      "step": 30365
    },
    {
      "epoch": 4.523383973786118,
      "grad_norm": 7.5181169509887695,
      "learning_rate": 4.761466262431867e-05,
      "loss": 0.4096,
      "num_input_tokens_seen": 17622824,
      "step": 30370
    },
    {
      "epoch": 4.524128686327078,
      "grad_norm": 4.2609477043151855,
      "learning_rate": 4.7613277237078055e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 17625576,
      "step": 30375
    },
    {
      "epoch": 4.524873398868037,
      "grad_norm": 13.64247989654541,
      "learning_rate": 4.761189146780911e-05,
      "loss": 0.3545,
      "num_input_tokens_seen": 17628296,
      "step": 30380
    },
    {
      "epoch": 4.525618111408996,
      "grad_norm": 18.420679092407227,
      "learning_rate": 4.761050531653524e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 17631016,
      "step": 30385
    },
    {
      "epoch": 4.526362823949955,
      "grad_norm": 4.859655380249023,
      "learning_rate": 4.760911878327985e-05,
      "loss": 0.366,
      "num_input_tokens_seen": 17634120,
      "step": 30390
    },
    {
      "epoch": 4.527107536490915,
      "grad_norm": 22.562761306762695,
      "learning_rate": 4.760773186806639e-05,
      "loss": 0.28,
      "num_input_tokens_seen": 17637064,
      "step": 30395
    },
    {
      "epoch": 4.5278522490318736,
      "grad_norm": 0.025323279201984406,
      "learning_rate": 4.7606344570918264e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 17639976,
      "step": 30400
    },
    {
      "epoch": 4.528596961572833,
      "grad_norm": 7.392523288726807,
      "learning_rate": 4.760495689185893e-05,
      "loss": 0.1887,
      "num_input_tokens_seen": 17642696,
      "step": 30405
    },
    {
      "epoch": 4.529341674113792,
      "grad_norm": 4.743289947509766,
      "learning_rate": 4.760356883091183e-05,
      "loss": 0.4805,
      "num_input_tokens_seen": 17645320,
      "step": 30410
    },
    {
      "epoch": 4.530086386654752,
      "grad_norm": 42.389984130859375,
      "learning_rate": 4.7602180388100395e-05,
      "loss": 0.2329,
      "num_input_tokens_seen": 17648296,
      "step": 30415
    },
    {
      "epoch": 4.53083109919571,
      "grad_norm": 7.150211811065674,
      "learning_rate": 4.760079156344811e-05,
      "loss": 0.3301,
      "num_input_tokens_seen": 17650888,
      "step": 30420
    },
    {
      "epoch": 4.53157581173667,
      "grad_norm": 7.954832553863525,
      "learning_rate": 4.7599402356978406e-05,
      "loss": 0.3543,
      "num_input_tokens_seen": 17653608,
      "step": 30425
    },
    {
      "epoch": 4.532320524277629,
      "grad_norm": 22.99896812438965,
      "learning_rate": 4.759801276871478e-05,
      "loss": 0.2484,
      "num_input_tokens_seen": 17656360,
      "step": 30430
    },
    {
      "epoch": 4.533065236818588,
      "grad_norm": 25.832979202270508,
      "learning_rate": 4.759662279868069e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 17659176,
      "step": 30435
    },
    {
      "epoch": 4.533809949359547,
      "grad_norm": 12.28950309753418,
      "learning_rate": 4.759523244689963e-05,
      "loss": 0.2971,
      "num_input_tokens_seen": 17661800,
      "step": 30440
    },
    {
      "epoch": 4.534554661900506,
      "grad_norm": 3.2623472213745117,
      "learning_rate": 4.759384171339507e-05,
      "loss": 0.3408,
      "num_input_tokens_seen": 17664808,
      "step": 30445
    },
    {
      "epoch": 4.535299374441466,
      "grad_norm": 26.019207000732422,
      "learning_rate": 4.759245059819053e-05,
      "loss": 0.0851,
      "num_input_tokens_seen": 17667784,
      "step": 30450
    },
    {
      "epoch": 4.536044086982425,
      "grad_norm": 11.671366691589355,
      "learning_rate": 4.759105910130949e-05,
      "loss": 0.2122,
      "num_input_tokens_seen": 17670536,
      "step": 30455
    },
    {
      "epoch": 4.536788799523384,
      "grad_norm": 23.785789489746094,
      "learning_rate": 4.758966722277547e-05,
      "loss": 0.2249,
      "num_input_tokens_seen": 17673192,
      "step": 30460
    },
    {
      "epoch": 4.537533512064343,
      "grad_norm": 25.69703483581543,
      "learning_rate": 4.758827496261199e-05,
      "loss": 1.0315,
      "num_input_tokens_seen": 17676392,
      "step": 30465
    },
    {
      "epoch": 4.538278224605302,
      "grad_norm": 3.3134498596191406,
      "learning_rate": 4.758688232084255e-05,
      "loss": 0.3402,
      "num_input_tokens_seen": 17679112,
      "step": 30470
    },
    {
      "epoch": 4.539022937146262,
      "grad_norm": 18.735294342041016,
      "learning_rate": 4.7585489297490694e-05,
      "loss": 0.2564,
      "num_input_tokens_seen": 17681992,
      "step": 30475
    },
    {
      "epoch": 4.539767649687221,
      "grad_norm": 17.617692947387695,
      "learning_rate": 4.758409589257995e-05,
      "loss": 0.3486,
      "num_input_tokens_seen": 17685000,
      "step": 30480
    },
    {
      "epoch": 4.5405123622281796,
      "grad_norm": 0.5794066786766052,
      "learning_rate": 4.758270210613387e-05,
      "loss": 0.3294,
      "num_input_tokens_seen": 17687912,
      "step": 30485
    },
    {
      "epoch": 4.541257074769139,
      "grad_norm": 14.222421646118164,
      "learning_rate": 4.758130793817598e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 17690888,
      "step": 30490
    },
    {
      "epoch": 4.542001787310098,
      "grad_norm": 4.9816460609436035,
      "learning_rate": 4.7579913388729844e-05,
      "loss": 0.13,
      "num_input_tokens_seen": 17693864,
      "step": 30495
    },
    {
      "epoch": 4.542746499851058,
      "grad_norm": 13.630622863769531,
      "learning_rate": 4.757851845781902e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 17696808,
      "step": 30500
    },
    {
      "epoch": 4.543491212392016,
      "grad_norm": 4.335813045501709,
      "learning_rate": 4.757712314546707e-05,
      "loss": 0.3187,
      "num_input_tokens_seen": 17700104,
      "step": 30505
    },
    {
      "epoch": 4.544235924932976,
      "grad_norm": 20.03923988342285,
      "learning_rate": 4.7575727451697585e-05,
      "loss": 0.8177,
      "num_input_tokens_seen": 17703272,
      "step": 30510
    },
    {
      "epoch": 4.544980637473935,
      "grad_norm": 2.0939435958862305,
      "learning_rate": 4.757433137653411e-05,
      "loss": 0.3399,
      "num_input_tokens_seen": 17706088,
      "step": 30515
    },
    {
      "epoch": 4.545725350014894,
      "grad_norm": 16.0928955078125,
      "learning_rate": 4.757293492000027e-05,
      "loss": 0.4375,
      "num_input_tokens_seen": 17709416,
      "step": 30520
    },
    {
      "epoch": 4.546470062555853,
      "grad_norm": 15.425580024719238,
      "learning_rate": 4.757153808211962e-05,
      "loss": 0.4803,
      "num_input_tokens_seen": 17712200,
      "step": 30525
    },
    {
      "epoch": 4.547214775096813,
      "grad_norm": 13.965435981750488,
      "learning_rate": 4.757014086291579e-05,
      "loss": 0.3435,
      "num_input_tokens_seen": 17714984,
      "step": 30530
    },
    {
      "epoch": 4.547959487637772,
      "grad_norm": 21.242843627929688,
      "learning_rate": 4.7568743262412354e-05,
      "loss": 0.3568,
      "num_input_tokens_seen": 17717896,
      "step": 30535
    },
    {
      "epoch": 4.548704200178731,
      "grad_norm": 24.95477867126465,
      "learning_rate": 4.756734528063295e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 17720648,
      "step": 30540
    },
    {
      "epoch": 4.54944891271969,
      "grad_norm": 5.0897536277771,
      "learning_rate": 4.756594691760118e-05,
      "loss": 0.2373,
      "num_input_tokens_seen": 17723496,
      "step": 30545
    },
    {
      "epoch": 4.55019362526065,
      "grad_norm": 3.374058485031128,
      "learning_rate": 4.7564548173340664e-05,
      "loss": 0.2613,
      "num_input_tokens_seen": 17726248,
      "step": 30550
    },
    {
      "epoch": 4.550938337801608,
      "grad_norm": 7.44043493270874,
      "learning_rate": 4.7563149047875054e-05,
      "loss": 0.229,
      "num_input_tokens_seen": 17729096,
      "step": 30555
    },
    {
      "epoch": 4.551683050342568,
      "grad_norm": 5.942753314971924,
      "learning_rate": 4.756174954122796e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 17732104,
      "step": 30560
    },
    {
      "epoch": 4.552427762883527,
      "grad_norm": 11.825431823730469,
      "learning_rate": 4.7560349653423055e-05,
      "loss": 0.3036,
      "num_input_tokens_seen": 17735496,
      "step": 30565
    },
    {
      "epoch": 4.553172475424486,
      "grad_norm": 9.450372695922852,
      "learning_rate": 4.755894938448395e-05,
      "loss": 0.2303,
      "num_input_tokens_seen": 17738280,
      "step": 30570
    },
    {
      "epoch": 4.553917187965445,
      "grad_norm": 14.041524887084961,
      "learning_rate": 4.755754873443434e-05,
      "loss": 0.3076,
      "num_input_tokens_seen": 17741064,
      "step": 30575
    },
    {
      "epoch": 4.554661900506405,
      "grad_norm": 18.008481979370117,
      "learning_rate": 4.7556147703297865e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 17744040,
      "step": 30580
    },
    {
      "epoch": 4.555406613047364,
      "grad_norm": 10.94771671295166,
      "learning_rate": 4.75547462910982e-05,
      "loss": 0.3943,
      "num_input_tokens_seen": 17746952,
      "step": 30585
    },
    {
      "epoch": 4.556151325588323,
      "grad_norm": 3.5827603340148926,
      "learning_rate": 4.755334449785902e-05,
      "loss": 0.2661,
      "num_input_tokens_seen": 17749768,
      "step": 30590
    },
    {
      "epoch": 4.556896038129282,
      "grad_norm": 21.290752410888672,
      "learning_rate": 4.755194232360401e-05,
      "loss": 0.3132,
      "num_input_tokens_seen": 17753000,
      "step": 30595
    },
    {
      "epoch": 4.557640750670242,
      "grad_norm": 15.715664863586426,
      "learning_rate": 4.755053976835685e-05,
      "loss": 0.5078,
      "num_input_tokens_seen": 17755912,
      "step": 30600
    },
    {
      "epoch": 4.5583854632112,
      "grad_norm": 7.642860412597656,
      "learning_rate": 4.754913683214124e-05,
      "loss": 0.1123,
      "num_input_tokens_seen": 17758568,
      "step": 30605
    },
    {
      "epoch": 4.559130175752159,
      "grad_norm": 6.290487766265869,
      "learning_rate": 4.754773351498088e-05,
      "loss": 0.2838,
      "num_input_tokens_seen": 17761448,
      "step": 30610
    },
    {
      "epoch": 4.559874888293119,
      "grad_norm": 8.769689559936523,
      "learning_rate": 4.754632981689949e-05,
      "loss": 0.7384,
      "num_input_tokens_seen": 17764328,
      "step": 30615
    },
    {
      "epoch": 4.5606196008340785,
      "grad_norm": 26.93143081665039,
      "learning_rate": 4.7544925737920766e-05,
      "loss": 0.2826,
      "num_input_tokens_seen": 17766920,
      "step": 30620
    },
    {
      "epoch": 4.561364313375037,
      "grad_norm": 56.150691986083984,
      "learning_rate": 4.754352127806843e-05,
      "loss": 0.356,
      "num_input_tokens_seen": 17769576,
      "step": 30625
    },
    {
      "epoch": 4.562109025915996,
      "grad_norm": 4.151381015777588,
      "learning_rate": 4.754211643736622e-05,
      "loss": 0.2966,
      "num_input_tokens_seen": 17772264,
      "step": 30630
    },
    {
      "epoch": 4.562853738456956,
      "grad_norm": 14.323806762695312,
      "learning_rate": 4.7540711215837866e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 17775208,
      "step": 30635
    },
    {
      "epoch": 4.563598450997915,
      "grad_norm": 6.171331882476807,
      "learning_rate": 4.7539305613507096e-05,
      "loss": 0.2613,
      "num_input_tokens_seen": 17777992,
      "step": 30640
    },
    {
      "epoch": 4.564343163538874,
      "grad_norm": 5.391292095184326,
      "learning_rate": 4.753789963039767e-05,
      "loss": 0.2661,
      "num_input_tokens_seen": 17780968,
      "step": 30645
    },
    {
      "epoch": 4.565087876079833,
      "grad_norm": 46.45308303833008,
      "learning_rate": 4.753649326653334e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 17783976,
      "step": 30650
    },
    {
      "epoch": 4.565832588620792,
      "grad_norm": 2.8592448234558105,
      "learning_rate": 4.753508652193785e-05,
      "loss": 0.2173,
      "num_input_tokens_seen": 17787144,
      "step": 30655
    },
    {
      "epoch": 4.566577301161751,
      "grad_norm": 20.91925048828125,
      "learning_rate": 4.7533679396634986e-05,
      "loss": 0.6199,
      "num_input_tokens_seen": 17790088,
      "step": 30660
    },
    {
      "epoch": 4.567322013702711,
      "grad_norm": 19.32701873779297,
      "learning_rate": 4.7532271890648516e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 17793000,
      "step": 30665
    },
    {
      "epoch": 4.56806672624367,
      "grad_norm": 16.73773765563965,
      "learning_rate": 4.753086400400221e-05,
      "loss": 0.384,
      "num_input_tokens_seen": 17796040,
      "step": 30670
    },
    {
      "epoch": 4.568811438784629,
      "grad_norm": 29.559600830078125,
      "learning_rate": 4.752945573671985e-05,
      "loss": 0.3532,
      "num_input_tokens_seen": 17799336,
      "step": 30675
    },
    {
      "epoch": 4.569556151325588,
      "grad_norm": 0.7607125043869019,
      "learning_rate": 4.752804708882523e-05,
      "loss": 0.3817,
      "num_input_tokens_seen": 17802280,
      "step": 30680
    },
    {
      "epoch": 4.570300863866548,
      "grad_norm": 5.127870559692383,
      "learning_rate": 4.7526638060342164e-05,
      "loss": 0.296,
      "num_input_tokens_seen": 17805160,
      "step": 30685
    },
    {
      "epoch": 4.571045576407506,
      "grad_norm": 4.0905442237854,
      "learning_rate": 4.752522865129444e-05,
      "loss": 0.3207,
      "num_input_tokens_seen": 17808008,
      "step": 30690
    },
    {
      "epoch": 4.571790288948466,
      "grad_norm": 4.432921886444092,
      "learning_rate": 4.7523818861705865e-05,
      "loss": 0.4635,
      "num_input_tokens_seen": 17811208,
      "step": 30695
    },
    {
      "epoch": 4.572535001489425,
      "grad_norm": 10.762044906616211,
      "learning_rate": 4.752240869160026e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 17814376,
      "step": 30700
    },
    {
      "epoch": 4.5732797140303845,
      "grad_norm": 16.27653694152832,
      "learning_rate": 4.752099814100146e-05,
      "loss": 0.6001,
      "num_input_tokens_seen": 17817480,
      "step": 30705
    },
    {
      "epoch": 4.574024426571343,
      "grad_norm": 4.4265289306640625,
      "learning_rate": 4.751958720993328e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 17820424,
      "step": 30710
    },
    {
      "epoch": 4.574769139112303,
      "grad_norm": 0.583180844783783,
      "learning_rate": 4.751817589841957e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 17823368,
      "step": 30715
    },
    {
      "epoch": 4.575513851653262,
      "grad_norm": 23.477903366088867,
      "learning_rate": 4.7516764206484156e-05,
      "loss": 0.1702,
      "num_input_tokens_seen": 17826376,
      "step": 30720
    },
    {
      "epoch": 4.576258564194221,
      "grad_norm": 15.829808235168457,
      "learning_rate": 4.75153521341509e-05,
      "loss": 0.4513,
      "num_input_tokens_seen": 17829544,
      "step": 30725
    },
    {
      "epoch": 4.57700327673518,
      "grad_norm": 3.4765212535858154,
      "learning_rate": 4.751393968144365e-05,
      "loss": 0.2494,
      "num_input_tokens_seen": 17832360,
      "step": 30730
    },
    {
      "epoch": 4.57774798927614,
      "grad_norm": 11.248552322387695,
      "learning_rate": 4.7512526848386276e-05,
      "loss": 0.1167,
      "num_input_tokens_seen": 17835432,
      "step": 30735
    },
    {
      "epoch": 4.578492701817098,
      "grad_norm": 3.0433263778686523,
      "learning_rate": 4.751111363500263e-05,
      "loss": 0.216,
      "num_input_tokens_seen": 17838312,
      "step": 30740
    },
    {
      "epoch": 4.579237414358058,
      "grad_norm": 0.25737977027893066,
      "learning_rate": 4.750970004131662e-05,
      "loss": 0.3176,
      "num_input_tokens_seen": 17841288,
      "step": 30745
    },
    {
      "epoch": 4.579982126899017,
      "grad_norm": 0.0690893903374672,
      "learning_rate": 4.7508286067352085e-05,
      "loss": 0.2418,
      "num_input_tokens_seen": 17843944,
      "step": 30750
    },
    {
      "epoch": 4.5807268394399765,
      "grad_norm": 10.686723709106445,
      "learning_rate": 4.750687171313294e-05,
      "loss": 0.5555,
      "num_input_tokens_seen": 17846600,
      "step": 30755
    },
    {
      "epoch": 4.581471551980935,
      "grad_norm": 0.5227261185646057,
      "learning_rate": 4.750545697868307e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 17849416,
      "step": 30760
    },
    {
      "epoch": 4.582216264521895,
      "grad_norm": 4.63361930847168,
      "learning_rate": 4.750404186402639e-05,
      "loss": 0.1647,
      "num_input_tokens_seen": 17852072,
      "step": 30765
    },
    {
      "epoch": 4.582960977062854,
      "grad_norm": 7.552951335906982,
      "learning_rate": 4.7502626369186784e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 17854824,
      "step": 30770
    },
    {
      "epoch": 4.583705689603813,
      "grad_norm": 7.253961086273193,
      "learning_rate": 4.750121049418817e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 17857480,
      "step": 30775
    },
    {
      "epoch": 4.584450402144772,
      "grad_norm": 15.043994903564453,
      "learning_rate": 4.749979423905449e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 17860488,
      "step": 30780
    },
    {
      "epoch": 4.585195114685732,
      "grad_norm": 20.40334701538086,
      "learning_rate": 4.749837760380965e-05,
      "loss": 0.1938,
      "num_input_tokens_seen": 17863400,
      "step": 30785
    },
    {
      "epoch": 4.5859398272266905,
      "grad_norm": 1.369874119758606,
      "learning_rate": 4.749696058847758e-05,
      "loss": 0.4019,
      "num_input_tokens_seen": 17866312,
      "step": 30790
    },
    {
      "epoch": 4.586684539767649,
      "grad_norm": 6.846158504486084,
      "learning_rate": 4.749554319308223e-05,
      "loss": 0.2222,
      "num_input_tokens_seen": 17869192,
      "step": 30795
    },
    {
      "epoch": 4.587429252308609,
      "grad_norm": 45.37092590332031,
      "learning_rate": 4.7494125417647536e-05,
      "loss": 0.5182,
      "num_input_tokens_seen": 17871880,
      "step": 30800
    },
    {
      "epoch": 4.5881739648495685,
      "grad_norm": 16.8710994720459,
      "learning_rate": 4.749270726219746e-05,
      "loss": 0.4666,
      "num_input_tokens_seen": 17875016,
      "step": 30805
    },
    {
      "epoch": 4.588918677390527,
      "grad_norm": 32.175811767578125,
      "learning_rate": 4.7491288726755954e-05,
      "loss": 0.265,
      "num_input_tokens_seen": 17878152,
      "step": 30810
    },
    {
      "epoch": 4.589663389931486,
      "grad_norm": 13.268527030944824,
      "learning_rate": 4.7489869811346984e-05,
      "loss": 0.2718,
      "num_input_tokens_seen": 17881128,
      "step": 30815
    },
    {
      "epoch": 4.590408102472446,
      "grad_norm": 13.304349899291992,
      "learning_rate": 4.748845051599452e-05,
      "loss": 0.2932,
      "num_input_tokens_seen": 17884072,
      "step": 30820
    },
    {
      "epoch": 4.591152815013404,
      "grad_norm": 23.809669494628906,
      "learning_rate": 4.748703084072255e-05,
      "loss": 0.2529,
      "num_input_tokens_seen": 17887080,
      "step": 30825
    },
    {
      "epoch": 4.591897527554364,
      "grad_norm": 7.892330646514893,
      "learning_rate": 4.748561078555504e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 17890088,
      "step": 30830
    },
    {
      "epoch": 4.592642240095323,
      "grad_norm": 29.584941864013672,
      "learning_rate": 4.748419035051599e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 17893000,
      "step": 30835
    },
    {
      "epoch": 4.5933869526362825,
      "grad_norm": 1.7881715297698975,
      "learning_rate": 4.748276953562939e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 17895912,
      "step": 30840
    },
    {
      "epoch": 4.594131665177241,
      "grad_norm": 1.3370596170425415,
      "learning_rate": 4.7481348340919255e-05,
      "loss": 0.2307,
      "num_input_tokens_seen": 17898568,
      "step": 30845
    },
    {
      "epoch": 4.594876377718201,
      "grad_norm": 16.391067504882812,
      "learning_rate": 4.747992676640959e-05,
      "loss": 0.1462,
      "num_input_tokens_seen": 17901448,
      "step": 30850
    },
    {
      "epoch": 4.59562109025916,
      "grad_norm": 6.6713972091674805,
      "learning_rate": 4.7478504812124416e-05,
      "loss": 0.3031,
      "num_input_tokens_seen": 17904456,
      "step": 30855
    },
    {
      "epoch": 4.596365802800119,
      "grad_norm": 16.299060821533203,
      "learning_rate": 4.7477082478087734e-05,
      "loss": 0.1694,
      "num_input_tokens_seen": 17907432,
      "step": 30860
    },
    {
      "epoch": 4.597110515341078,
      "grad_norm": 14.640531539916992,
      "learning_rate": 4.74756597643236e-05,
      "loss": 0.2443,
      "num_input_tokens_seen": 17910440,
      "step": 30865
    },
    {
      "epoch": 4.597855227882038,
      "grad_norm": 1.3248556852340698,
      "learning_rate": 4.747423667085603e-05,
      "loss": 0.6542,
      "num_input_tokens_seen": 17913256,
      "step": 30870
    },
    {
      "epoch": 4.5985999404229965,
      "grad_norm": 16.444793701171875,
      "learning_rate": 4.7472813197709084e-05,
      "loss": 0.1715,
      "num_input_tokens_seen": 17916296,
      "step": 30875
    },
    {
      "epoch": 4.599344652963956,
      "grad_norm": 0.04836057126522064,
      "learning_rate": 4.747138934490679e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 17919240,
      "step": 30880
    },
    {
      "epoch": 4.600089365504915,
      "grad_norm": 3.2640717029571533,
      "learning_rate": 4.746996511247321e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 17922184,
      "step": 30885
    },
    {
      "epoch": 4.6008340780458745,
      "grad_norm": 44.696754455566406,
      "learning_rate": 4.746854050043241e-05,
      "loss": 0.241,
      "num_input_tokens_seen": 17925224,
      "step": 30890
    },
    {
      "epoch": 4.601578790586833,
      "grad_norm": 23.9833927154541,
      "learning_rate": 4.7467115508808456e-05,
      "loss": 0.2705,
      "num_input_tokens_seen": 17928488,
      "step": 30895
    },
    {
      "epoch": 4.602323503127793,
      "grad_norm": 1.6735100746154785,
      "learning_rate": 4.746569013762543e-05,
      "loss": 0.7425,
      "num_input_tokens_seen": 17931528,
      "step": 30900
    },
    {
      "epoch": 4.603068215668752,
      "grad_norm": 12.225434303283691,
      "learning_rate": 4.7464264386907385e-05,
      "loss": 0.3065,
      "num_input_tokens_seen": 17934280,
      "step": 30905
    },
    {
      "epoch": 4.603812928209711,
      "grad_norm": 10.428131103515625,
      "learning_rate": 4.746283825667843e-05,
      "loss": 0.3199,
      "num_input_tokens_seen": 17937096,
      "step": 30910
    },
    {
      "epoch": 4.60455764075067,
      "grad_norm": 9.060941696166992,
      "learning_rate": 4.746141174696266e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 17940104,
      "step": 30915
    },
    {
      "epoch": 4.60530235329163,
      "grad_norm": 5.384603977203369,
      "learning_rate": 4.745998485778416e-05,
      "loss": 0.4104,
      "num_input_tokens_seen": 17942888,
      "step": 30920
    },
    {
      "epoch": 4.6060470658325885,
      "grad_norm": 26.782175064086914,
      "learning_rate": 4.7458557589167044e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 17945736,
      "step": 30925
    },
    {
      "epoch": 4.606791778373548,
      "grad_norm": 11.130036354064941,
      "learning_rate": 4.7457129941135424e-05,
      "loss": 0.2977,
      "num_input_tokens_seen": 17948360,
      "step": 30930
    },
    {
      "epoch": 4.607536490914507,
      "grad_norm": 9.792400360107422,
      "learning_rate": 4.7455701913713424e-05,
      "loss": 0.2605,
      "num_input_tokens_seen": 17951112,
      "step": 30935
    },
    {
      "epoch": 4.6082812034554665,
      "grad_norm": 11.14628791809082,
      "learning_rate": 4.745427350692515e-05,
      "loss": 0.4015,
      "num_input_tokens_seen": 17954088,
      "step": 30940
    },
    {
      "epoch": 4.609025915996425,
      "grad_norm": 19.210674285888672,
      "learning_rate": 4.7452844720794756e-05,
      "loss": 0.4026,
      "num_input_tokens_seen": 17957192,
      "step": 30945
    },
    {
      "epoch": 4.609770628537385,
      "grad_norm": 13.328433990478516,
      "learning_rate": 4.745141555534637e-05,
      "loss": 0.3217,
      "num_input_tokens_seen": 17960040,
      "step": 30950
    },
    {
      "epoch": 4.610515341078344,
      "grad_norm": 16.927757263183594,
      "learning_rate": 4.744998601060414e-05,
      "loss": 0.2952,
      "num_input_tokens_seen": 17962984,
      "step": 30955
    },
    {
      "epoch": 4.6112600536193025,
      "grad_norm": 2.454843282699585,
      "learning_rate": 4.74485560865922e-05,
      "loss": 0.0743,
      "num_input_tokens_seen": 17965928,
      "step": 30960
    },
    {
      "epoch": 4.612004766160262,
      "grad_norm": 31.07554054260254,
      "learning_rate": 4.744712578333473e-05,
      "loss": 0.2412,
      "num_input_tokens_seen": 17968808,
      "step": 30965
    },
    {
      "epoch": 4.612749478701222,
      "grad_norm": 31.6810359954834,
      "learning_rate": 4.744569510085589e-05,
      "loss": 0.2241,
      "num_input_tokens_seen": 17972040,
      "step": 30970
    },
    {
      "epoch": 4.6134941912421805,
      "grad_norm": 5.251380920410156,
      "learning_rate": 4.7444264039179845e-05,
      "loss": 0.1567,
      "num_input_tokens_seen": 17974984,
      "step": 30975
    },
    {
      "epoch": 4.614238903783139,
      "grad_norm": 50.14042282104492,
      "learning_rate": 4.744283259833076e-05,
      "loss": 0.8056,
      "num_input_tokens_seen": 17977832,
      "step": 30980
    },
    {
      "epoch": 4.614983616324099,
      "grad_norm": 8.287644386291504,
      "learning_rate": 4.744140077833283e-05,
      "loss": 0.643,
      "num_input_tokens_seen": 17980968,
      "step": 30985
    },
    {
      "epoch": 4.615728328865059,
      "grad_norm": 8.970280647277832,
      "learning_rate": 4.743996857921024e-05,
      "loss": 0.2542,
      "num_input_tokens_seen": 17983528,
      "step": 30990
    },
    {
      "epoch": 4.616473041406017,
      "grad_norm": 8.517645835876465,
      "learning_rate": 4.7438536000987195e-05,
      "loss": 0.2701,
      "num_input_tokens_seen": 17986472,
      "step": 30995
    },
    {
      "epoch": 4.617217753946976,
      "grad_norm": 10.358211517333984,
      "learning_rate": 4.743710304368788e-05,
      "loss": 0.1948,
      "num_input_tokens_seen": 17989416,
      "step": 31000
    },
    {
      "epoch": 4.617962466487936,
      "grad_norm": 34.76526641845703,
      "learning_rate": 4.743566970733652e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 17992232,
      "step": 31005
    },
    {
      "epoch": 4.6187071790288945,
      "grad_norm": 3.7780885696411133,
      "learning_rate": 4.7434235991957326e-05,
      "loss": 0.2196,
      "num_input_tokens_seen": 17995336,
      "step": 31010
    },
    {
      "epoch": 4.619451891569854,
      "grad_norm": 11.634130477905273,
      "learning_rate": 4.743280189757451e-05,
      "loss": 0.3361,
      "num_input_tokens_seen": 17997992,
      "step": 31015
    },
    {
      "epoch": 4.620196604110813,
      "grad_norm": 4.7157464027404785,
      "learning_rate": 4.7431367424212305e-05,
      "loss": 0.3797,
      "num_input_tokens_seen": 18000968,
      "step": 31020
    },
    {
      "epoch": 4.6209413166517725,
      "grad_norm": 31.730180740356445,
      "learning_rate": 4.7429932571894954e-05,
      "loss": 0.7023,
      "num_input_tokens_seen": 18003976,
      "step": 31025
    },
    {
      "epoch": 4.621686029192731,
      "grad_norm": 29.718334197998047,
      "learning_rate": 4.742849734064668e-05,
      "loss": 0.4,
      "num_input_tokens_seen": 18006984,
      "step": 31030
    },
    {
      "epoch": 4.622430741733691,
      "grad_norm": 29.71370506286621,
      "learning_rate": 4.742706173049174e-05,
      "loss": 0.5385,
      "num_input_tokens_seen": 18009992,
      "step": 31035
    },
    {
      "epoch": 4.62317545427465,
      "grad_norm": 21.126449584960938,
      "learning_rate": 4.7425625741454394e-05,
      "loss": 0.5561,
      "num_input_tokens_seen": 18013000,
      "step": 31040
    },
    {
      "epoch": 4.623920166815609,
      "grad_norm": 80.2019271850586,
      "learning_rate": 4.7424189373558886e-05,
      "loss": 0.2288,
      "num_input_tokens_seen": 18016360,
      "step": 31045
    },
    {
      "epoch": 4.624664879356568,
      "grad_norm": 19.364028930664062,
      "learning_rate": 4.742275262682949e-05,
      "loss": 0.6326,
      "num_input_tokens_seen": 18019592,
      "step": 31050
    },
    {
      "epoch": 4.625409591897528,
      "grad_norm": 20.82062530517578,
      "learning_rate": 4.7421315501290484e-05,
      "loss": 0.3316,
      "num_input_tokens_seen": 18022568,
      "step": 31055
    },
    {
      "epoch": 4.6261543044384865,
      "grad_norm": 18.985074996948242,
      "learning_rate": 4.7419877996966134e-05,
      "loss": 0.2775,
      "num_input_tokens_seen": 18025544,
      "step": 31060
    },
    {
      "epoch": 4.626899016979446,
      "grad_norm": 4.8783698081970215,
      "learning_rate": 4.7418440113880736e-05,
      "loss": 0.4554,
      "num_input_tokens_seen": 18028712,
      "step": 31065
    },
    {
      "epoch": 4.627643729520405,
      "grad_norm": 6.990806579589844,
      "learning_rate": 4.7417001852058576e-05,
      "loss": 0.3468,
      "num_input_tokens_seen": 18032040,
      "step": 31070
    },
    {
      "epoch": 4.628388442061365,
      "grad_norm": 11.703381538391113,
      "learning_rate": 4.741556321152395e-05,
      "loss": 0.2787,
      "num_input_tokens_seen": 18034792,
      "step": 31075
    },
    {
      "epoch": 4.629133154602323,
      "grad_norm": 20.361400604248047,
      "learning_rate": 4.741412419230117e-05,
      "loss": 0.4684,
      "num_input_tokens_seen": 18037384,
      "step": 31080
    },
    {
      "epoch": 4.629877867143283,
      "grad_norm": 0.6384364366531372,
      "learning_rate": 4.741268479441453e-05,
      "loss": 0.352,
      "num_input_tokens_seen": 18040296,
      "step": 31085
    },
    {
      "epoch": 4.630622579684242,
      "grad_norm": 0.7396208643913269,
      "learning_rate": 4.7411245017888374e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 18043432,
      "step": 31090
    },
    {
      "epoch": 4.631367292225201,
      "grad_norm": 38.18699645996094,
      "learning_rate": 4.7409804862747007e-05,
      "loss": 0.5522,
      "num_input_tokens_seen": 18046568,
      "step": 31095
    },
    {
      "epoch": 4.63211200476616,
      "grad_norm": 0.22538325190544128,
      "learning_rate": 4.740836432901476e-05,
      "loss": 0.3237,
      "num_input_tokens_seen": 18049352,
      "step": 31100
    },
    {
      "epoch": 4.63285671730712,
      "grad_norm": 9.478645324707031,
      "learning_rate": 4.7406923416715976e-05,
      "loss": 0.2941,
      "num_input_tokens_seen": 18052424,
      "step": 31105
    },
    {
      "epoch": 4.6336014298480785,
      "grad_norm": 26.7703914642334,
      "learning_rate": 4.7405482125875e-05,
      "loss": 0.4764,
      "num_input_tokens_seen": 18055112,
      "step": 31110
    },
    {
      "epoch": 4.634346142389038,
      "grad_norm": 26.96831512451172,
      "learning_rate": 4.7404040456516164e-05,
      "loss": 0.1919,
      "num_input_tokens_seen": 18057896,
      "step": 31115
    },
    {
      "epoch": 4.635090854929997,
      "grad_norm": 16.928213119506836,
      "learning_rate": 4.7402598408663846e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 18060904,
      "step": 31120
    },
    {
      "epoch": 4.635835567470957,
      "grad_norm": 27.399490356445312,
      "learning_rate": 4.740115598234239e-05,
      "loss": 0.4731,
      "num_input_tokens_seen": 18063688,
      "step": 31125
    },
    {
      "epoch": 4.636580280011915,
      "grad_norm": 12.068733215332031,
      "learning_rate": 4.739971317757617e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 18066504,
      "step": 31130
    },
    {
      "epoch": 4.637324992552875,
      "grad_norm": 13.689901351928711,
      "learning_rate": 4.7398269994389567e-05,
      "loss": 0.3862,
      "num_input_tokens_seen": 18069160,
      "step": 31135
    },
    {
      "epoch": 4.638069705093834,
      "grad_norm": 17.89661407470703,
      "learning_rate": 4.739682643280695e-05,
      "loss": 0.5075,
      "num_input_tokens_seen": 18072136,
      "step": 31140
    },
    {
      "epoch": 4.6388144176347925,
      "grad_norm": 14.611342430114746,
      "learning_rate": 4.739538249285272e-05,
      "loss": 0.1918,
      "num_input_tokens_seen": 18074952,
      "step": 31145
    },
    {
      "epoch": 4.639559130175752,
      "grad_norm": 16.044418334960938,
      "learning_rate": 4.739393817455127e-05,
      "loss": 0.5221,
      "num_input_tokens_seen": 18077768,
      "step": 31150
    },
    {
      "epoch": 4.640303842716712,
      "grad_norm": 15.561615943908691,
      "learning_rate": 4.739249347792698e-05,
      "loss": 0.3403,
      "num_input_tokens_seen": 18080360,
      "step": 31155
    },
    {
      "epoch": 4.641048555257671,
      "grad_norm": 18.740646362304688,
      "learning_rate": 4.739104840300428e-05,
      "loss": 0.1147,
      "num_input_tokens_seen": 18083080,
      "step": 31160
    },
    {
      "epoch": 4.641793267798629,
      "grad_norm": 52.56764221191406,
      "learning_rate": 4.738960294980757e-05,
      "loss": 0.2715,
      "num_input_tokens_seen": 18086024,
      "step": 31165
    },
    {
      "epoch": 4.642537980339589,
      "grad_norm": 63.48592758178711,
      "learning_rate": 4.738815711836128e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 18089288,
      "step": 31170
    },
    {
      "epoch": 4.643282692880548,
      "grad_norm": 8.912405967712402,
      "learning_rate": 4.738671090868982e-05,
      "loss": 0.5394,
      "num_input_tokens_seen": 18092360,
      "step": 31175
    },
    {
      "epoch": 4.644027405421507,
      "grad_norm": 12.620546340942383,
      "learning_rate": 4.738526432081765e-05,
      "loss": 0.5242,
      "num_input_tokens_seen": 18095304,
      "step": 31180
    },
    {
      "epoch": 4.644772117962466,
      "grad_norm": 30.439496994018555,
      "learning_rate": 4.738381735476917e-05,
      "loss": 0.485,
      "num_input_tokens_seen": 18097960,
      "step": 31185
    },
    {
      "epoch": 4.645516830503426,
      "grad_norm": 2.253030776977539,
      "learning_rate": 4.738237001056886e-05,
      "loss": 0.1072,
      "num_input_tokens_seen": 18101320,
      "step": 31190
    },
    {
      "epoch": 4.6462615430443845,
      "grad_norm": 2.333932399749756,
      "learning_rate": 4.738092228824115e-05,
      "loss": 0.3106,
      "num_input_tokens_seen": 18104264,
      "step": 31195
    },
    {
      "epoch": 4.647006255585344,
      "grad_norm": 0.15573540329933167,
      "learning_rate": 4.7379474187810506e-05,
      "loss": 0.3424,
      "num_input_tokens_seen": 18107208,
      "step": 31200
    },
    {
      "epoch": 4.647750968126303,
      "grad_norm": 32.10240173339844,
      "learning_rate": 4.7378025709301386e-05,
      "loss": 0.3131,
      "num_input_tokens_seen": 18109864,
      "step": 31205
    },
    {
      "epoch": 4.648495680667263,
      "grad_norm": 58.942508697509766,
      "learning_rate": 4.7376576852738274e-05,
      "loss": 0.339,
      "num_input_tokens_seen": 18112584,
      "step": 31210
    },
    {
      "epoch": 4.649240393208221,
      "grad_norm": 33.286521911621094,
      "learning_rate": 4.7375127618145645e-05,
      "loss": 0.4412,
      "num_input_tokens_seen": 18115560,
      "step": 31215
    },
    {
      "epoch": 4.649985105749181,
      "grad_norm": 9.357953071594238,
      "learning_rate": 4.737367800554796e-05,
      "loss": 0.5798,
      "num_input_tokens_seen": 18118472,
      "step": 31220
    },
    {
      "epoch": 4.65072981829014,
      "grad_norm": 1.1880333423614502,
      "learning_rate": 4.737222801496973e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 18121064,
      "step": 31225
    },
    {
      "epoch": 4.651474530831099,
      "grad_norm": 4.86465311050415,
      "learning_rate": 4.737077764643545e-05,
      "loss": 0.2198,
      "num_input_tokens_seen": 18123944,
      "step": 31230
    },
    {
      "epoch": 4.652219243372058,
      "grad_norm": 6.108052730560303,
      "learning_rate": 4.736932689996962e-05,
      "loss": 0.1885,
      "num_input_tokens_seen": 18127080,
      "step": 31235
    },
    {
      "epoch": 4.652963955913018,
      "grad_norm": 1.0116450786590576,
      "learning_rate": 4.7367875775596746e-05,
      "loss": 0.4224,
      "num_input_tokens_seen": 18130120,
      "step": 31240
    },
    {
      "epoch": 4.653708668453977,
      "grad_norm": 13.27885913848877,
      "learning_rate": 4.7366424273341334e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 18133032,
      "step": 31245
    },
    {
      "epoch": 4.654453380994936,
      "grad_norm": 0.08310269564390182,
      "learning_rate": 4.7364972393227925e-05,
      "loss": 0.11,
      "num_input_tokens_seen": 18136072,
      "step": 31250
    },
    {
      "epoch": 4.655198093535895,
      "grad_norm": 23.035259246826172,
      "learning_rate": 4.736352013528104e-05,
      "loss": 0.2041,
      "num_input_tokens_seen": 18139208,
      "step": 31255
    },
    {
      "epoch": 4.655942806076855,
      "grad_norm": 14.824957847595215,
      "learning_rate": 4.736206749952521e-05,
      "loss": 0.3939,
      "num_input_tokens_seen": 18141992,
      "step": 31260
    },
    {
      "epoch": 4.656687518617813,
      "grad_norm": 0.03477833792567253,
      "learning_rate": 4.736061448598498e-05,
      "loss": 0.4759,
      "num_input_tokens_seen": 18144840,
      "step": 31265
    },
    {
      "epoch": 4.657432231158773,
      "grad_norm": 42.09959030151367,
      "learning_rate": 4.7359161094684886e-05,
      "loss": 0.4811,
      "num_input_tokens_seen": 18147784,
      "step": 31270
    },
    {
      "epoch": 4.658176943699732,
      "grad_norm": 16.463642120361328,
      "learning_rate": 4.735770732564949e-05,
      "loss": 0.2901,
      "num_input_tokens_seen": 18150760,
      "step": 31275
    },
    {
      "epoch": 4.658921656240691,
      "grad_norm": 6.53075647354126,
      "learning_rate": 4.735625317890336e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 18154184,
      "step": 31280
    },
    {
      "epoch": 4.65966636878165,
      "grad_norm": 4.089470863342285,
      "learning_rate": 4.735479865447105e-05,
      "loss": 0.189,
      "num_input_tokens_seen": 18157192,
      "step": 31285
    },
    {
      "epoch": 4.66041108132261,
      "grad_norm": 0.331166535615921,
      "learning_rate": 4.735334375237714e-05,
      "loss": 0.1313,
      "num_input_tokens_seen": 18159848,
      "step": 31290
    },
    {
      "epoch": 4.661155793863569,
      "grad_norm": 17.856266021728516,
      "learning_rate": 4.7351888472646204e-05,
      "loss": 0.4274,
      "num_input_tokens_seen": 18162792,
      "step": 31295
    },
    {
      "epoch": 4.661900506404528,
      "grad_norm": 11.642943382263184,
      "learning_rate": 4.735043281530283e-05,
      "loss": 0.4896,
      "num_input_tokens_seen": 18165672,
      "step": 31300
    },
    {
      "epoch": 4.662645218945487,
      "grad_norm": 6.219631195068359,
      "learning_rate": 4.7348976780371615e-05,
      "loss": 0.365,
      "num_input_tokens_seen": 18168488,
      "step": 31305
    },
    {
      "epoch": 4.663389931486446,
      "grad_norm": 4.891852378845215,
      "learning_rate": 4.734752036787714e-05,
      "loss": 0.0967,
      "num_input_tokens_seen": 18171144,
      "step": 31310
    },
    {
      "epoch": 4.664134644027405,
      "grad_norm": 20.126834869384766,
      "learning_rate": 4.734606357784403e-05,
      "loss": 0.4226,
      "num_input_tokens_seen": 18174472,
      "step": 31315
    },
    {
      "epoch": 4.664879356568365,
      "grad_norm": 45.53769302368164,
      "learning_rate": 4.734460641029689e-05,
      "loss": 0.675,
      "num_input_tokens_seen": 18177704,
      "step": 31320
    },
    {
      "epoch": 4.665624069109324,
      "grad_norm": 0.16087095439434052,
      "learning_rate": 4.7343148865260326e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 18180392,
      "step": 31325
    },
    {
      "epoch": 4.666368781650283,
      "grad_norm": 12.741495132446289,
      "learning_rate": 4.7341690942758974e-05,
      "loss": 0.4816,
      "num_input_tokens_seen": 18183368,
      "step": 31330
    },
    {
      "epoch": 4.667113494191242,
      "grad_norm": 1.0323249101638794,
      "learning_rate": 4.734023264281746e-05,
      "loss": 0.2651,
      "num_input_tokens_seen": 18186408,
      "step": 31335
    },
    {
      "epoch": 4.667858206732202,
      "grad_norm": 39.2105598449707,
      "learning_rate": 4.7338773965460426e-05,
      "loss": 0.7046,
      "num_input_tokens_seen": 18189192,
      "step": 31340
    },
    {
      "epoch": 4.668602919273161,
      "grad_norm": 7.6114182472229,
      "learning_rate": 4.733731491071251e-05,
      "loss": 0.3805,
      "num_input_tokens_seen": 18192168,
      "step": 31345
    },
    {
      "epoch": 4.669347631814119,
      "grad_norm": 5.9526262283325195,
      "learning_rate": 4.7335855478598354e-05,
      "loss": 0.2493,
      "num_input_tokens_seen": 18195048,
      "step": 31350
    },
    {
      "epoch": 4.670092344355079,
      "grad_norm": 31.345937728881836,
      "learning_rate": 4.7334395669142616e-05,
      "loss": 0.3762,
      "num_input_tokens_seen": 18197960,
      "step": 31355
    },
    {
      "epoch": 4.670837056896038,
      "grad_norm": 18.567277908325195,
      "learning_rate": 4.733293548236998e-05,
      "loss": 0.3709,
      "num_input_tokens_seen": 18200808,
      "step": 31360
    },
    {
      "epoch": 4.671581769436997,
      "grad_norm": 8.059598922729492,
      "learning_rate": 4.7331474918305086e-05,
      "loss": 0.4429,
      "num_input_tokens_seen": 18203560,
      "step": 31365
    },
    {
      "epoch": 4.672326481977956,
      "grad_norm": 43.52138137817383,
      "learning_rate": 4.733001397697262e-05,
      "loss": 0.29,
      "num_input_tokens_seen": 18206280,
      "step": 31370
    },
    {
      "epoch": 4.673071194518916,
      "grad_norm": 31.220062255859375,
      "learning_rate": 4.732855265839726e-05,
      "loss": 0.4445,
      "num_input_tokens_seen": 18209160,
      "step": 31375
    },
    {
      "epoch": 4.673815907059875,
      "grad_norm": 14.849207878112793,
      "learning_rate": 4.7327090962603704e-05,
      "loss": 0.4314,
      "num_input_tokens_seen": 18212136,
      "step": 31380
    },
    {
      "epoch": 4.674560619600834,
      "grad_norm": 13.664344787597656,
      "learning_rate": 4.7325628889616644e-05,
      "loss": 0.2029,
      "num_input_tokens_seen": 18215112,
      "step": 31385
    },
    {
      "epoch": 4.675305332141793,
      "grad_norm": 11.893228530883789,
      "learning_rate": 4.732416643946076e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 18217960,
      "step": 31390
    },
    {
      "epoch": 4.676050044682753,
      "grad_norm": 15.494446754455566,
      "learning_rate": 4.732270361216078e-05,
      "loss": 0.358,
      "num_input_tokens_seen": 18220712,
      "step": 31395
    },
    {
      "epoch": 4.676794757223711,
      "grad_norm": 7.832284927368164,
      "learning_rate": 4.732124040774142e-05,
      "loss": 0.4185,
      "num_input_tokens_seen": 18223752,
      "step": 31400
    },
    {
      "epoch": 4.677539469764671,
      "grad_norm": 8.721263885498047,
      "learning_rate": 4.731977682622737e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 18226536,
      "step": 31405
    },
    {
      "epoch": 4.67828418230563,
      "grad_norm": 7.00792932510376,
      "learning_rate": 4.731831286764339e-05,
      "loss": 0.3337,
      "num_input_tokens_seen": 18229512,
      "step": 31410
    },
    {
      "epoch": 4.6790288948465895,
      "grad_norm": 11.05775260925293,
      "learning_rate": 4.731684853201419e-05,
      "loss": 0.3678,
      "num_input_tokens_seen": 18232328,
      "step": 31415
    },
    {
      "epoch": 4.679773607387548,
      "grad_norm": 8.85022258758545,
      "learning_rate": 4.7315383819364526e-05,
      "loss": 0.4904,
      "num_input_tokens_seen": 18235208,
      "step": 31420
    },
    {
      "epoch": 4.680518319928508,
      "grad_norm": 5.634578704833984,
      "learning_rate": 4.731391872971912e-05,
      "loss": 0.303,
      "num_input_tokens_seen": 18238248,
      "step": 31425
    },
    {
      "epoch": 4.681263032469467,
      "grad_norm": 29.779766082763672,
      "learning_rate": 4.731245326310274e-05,
      "loss": 0.6327,
      "num_input_tokens_seen": 18241288,
      "step": 31430
    },
    {
      "epoch": 4.682007745010426,
      "grad_norm": 20.721813201904297,
      "learning_rate": 4.731098741954014e-05,
      "loss": 0.2763,
      "num_input_tokens_seen": 18244264,
      "step": 31435
    },
    {
      "epoch": 4.682752457551385,
      "grad_norm": 4.667425155639648,
      "learning_rate": 4.730952119905609e-05,
      "loss": 0.364,
      "num_input_tokens_seen": 18247400,
      "step": 31440
    },
    {
      "epoch": 4.683497170092345,
      "grad_norm": 3.970170021057129,
      "learning_rate": 4.730805460167534e-05,
      "loss": 0.2737,
      "num_input_tokens_seen": 18250280,
      "step": 31445
    },
    {
      "epoch": 4.684241882633303,
      "grad_norm": 4.192573547363281,
      "learning_rate": 4.730658762742269e-05,
      "loss": 0.3171,
      "num_input_tokens_seen": 18253256,
      "step": 31450
    },
    {
      "epoch": 4.684986595174263,
      "grad_norm": 14.767316818237305,
      "learning_rate": 4.730512027632292e-05,
      "loss": 0.4088,
      "num_input_tokens_seen": 18256008,
      "step": 31455
    },
    {
      "epoch": 4.685731307715222,
      "grad_norm": 7.164702415466309,
      "learning_rate": 4.7303652548400803e-05,
      "loss": 0.3897,
      "num_input_tokens_seen": 18259048,
      "step": 31460
    },
    {
      "epoch": 4.6864760202561815,
      "grad_norm": 5.4343581199646,
      "learning_rate": 4.730218444368114e-05,
      "loss": 0.4062,
      "num_input_tokens_seen": 18261960,
      "step": 31465
    },
    {
      "epoch": 4.68722073279714,
      "grad_norm": 4.067524433135986,
      "learning_rate": 4.7300715962188744e-05,
      "loss": 0.2033,
      "num_input_tokens_seen": 18264808,
      "step": 31470
    },
    {
      "epoch": 4.687965445338099,
      "grad_norm": 12.293991088867188,
      "learning_rate": 4.7299247103948417e-05,
      "loss": 0.5377,
      "num_input_tokens_seen": 18267496,
      "step": 31475
    },
    {
      "epoch": 4.688710157879059,
      "grad_norm": 5.1098246574401855,
      "learning_rate": 4.729777786898498e-05,
      "loss": 0.3521,
      "num_input_tokens_seen": 18270248,
      "step": 31480
    },
    {
      "epoch": 4.689454870420018,
      "grad_norm": 7.2511372566223145,
      "learning_rate": 4.729630825732324e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 18273224,
      "step": 31485
    },
    {
      "epoch": 4.690199582960977,
      "grad_norm": 5.973445415496826,
      "learning_rate": 4.729483826898804e-05,
      "loss": 0.2527,
      "num_input_tokens_seen": 18276136,
      "step": 31490
    },
    {
      "epoch": 4.690944295501936,
      "grad_norm": 11.705106735229492,
      "learning_rate": 4.729336790400421e-05,
      "loss": 0.2953,
      "num_input_tokens_seen": 18278952,
      "step": 31495
    },
    {
      "epoch": 4.6916890080428955,
      "grad_norm": 15.433453559875488,
      "learning_rate": 4.729189716239657e-05,
      "loss": 0.4131,
      "num_input_tokens_seen": 18281800,
      "step": 31500
    },
    {
      "epoch": 4.692433720583855,
      "grad_norm": 4.949207782745361,
      "learning_rate": 4.7290426044189995e-05,
      "loss": 0.3083,
      "num_input_tokens_seen": 18284776,
      "step": 31505
    },
    {
      "epoch": 4.693178433124814,
      "grad_norm": 22.3586368560791,
      "learning_rate": 4.728895454940933e-05,
      "loss": 0.2762,
      "num_input_tokens_seen": 18287528,
      "step": 31510
    },
    {
      "epoch": 4.693923145665773,
      "grad_norm": 10.435245513916016,
      "learning_rate": 4.728748267807942e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 18290632,
      "step": 31515
    },
    {
      "epoch": 4.694667858206732,
      "grad_norm": 9.106758117675781,
      "learning_rate": 4.728601043022515e-05,
      "loss": 0.2528,
      "num_input_tokens_seen": 18293544,
      "step": 31520
    },
    {
      "epoch": 4.695412570747691,
      "grad_norm": 7.294667720794678,
      "learning_rate": 4.728453780587139e-05,
      "loss": 0.1692,
      "num_input_tokens_seen": 18296296,
      "step": 31525
    },
    {
      "epoch": 4.696157283288651,
      "grad_norm": 11.273910522460938,
      "learning_rate": 4.7283064805043e-05,
      "loss": 0.3419,
      "num_input_tokens_seen": 18299208,
      "step": 31530
    },
    {
      "epoch": 4.696901995829609,
      "grad_norm": 22.03045082092285,
      "learning_rate": 4.7281591427764886e-05,
      "loss": 0.1301,
      "num_input_tokens_seen": 18302024,
      "step": 31535
    },
    {
      "epoch": 4.697646708370569,
      "grad_norm": 10.849733352661133,
      "learning_rate": 4.728011767406193e-05,
      "loss": 0.2445,
      "num_input_tokens_seen": 18304680,
      "step": 31540
    },
    {
      "epoch": 4.698391420911528,
      "grad_norm": 34.650733947753906,
      "learning_rate": 4.7278643543959025e-05,
      "loss": 0.1987,
      "num_input_tokens_seen": 18307432,
      "step": 31545
    },
    {
      "epoch": 4.6991361334524875,
      "grad_norm": 7.001794815063477,
      "learning_rate": 4.727716903748108e-05,
      "loss": 0.4012,
      "num_input_tokens_seen": 18310504,
      "step": 31550
    },
    {
      "epoch": 4.699880845993446,
      "grad_norm": 3.4147279262542725,
      "learning_rate": 4.727569415465302e-05,
      "loss": 0.2146,
      "num_input_tokens_seen": 18313288,
      "step": 31555
    },
    {
      "epoch": 4.700625558534406,
      "grad_norm": 18.24269676208496,
      "learning_rate": 4.727421889549973e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 18316104,
      "step": 31560
    },
    {
      "epoch": 4.701370271075365,
      "grad_norm": 60.87087631225586,
      "learning_rate": 4.727274326004616e-05,
      "loss": 0.3227,
      "num_input_tokens_seen": 18318888,
      "step": 31565
    },
    {
      "epoch": 4.702114983616324,
      "grad_norm": 7.261077404022217,
      "learning_rate": 4.727126724831723e-05,
      "loss": 0.2158,
      "num_input_tokens_seen": 18321928,
      "step": 31570
    },
    {
      "epoch": 4.702859696157283,
      "grad_norm": 0.3658120334148407,
      "learning_rate": 4.726979086033787e-05,
      "loss": 0.264,
      "num_input_tokens_seen": 18324552,
      "step": 31575
    },
    {
      "epoch": 4.703604408698243,
      "grad_norm": 10.21300220489502,
      "learning_rate": 4.726831409613303e-05,
      "loss": 0.3494,
      "num_input_tokens_seen": 18327816,
      "step": 31580
    },
    {
      "epoch": 4.7043491212392015,
      "grad_norm": 41.79399490356445,
      "learning_rate": 4.7266836955727655e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 18331048,
      "step": 31585
    },
    {
      "epoch": 4.705093833780161,
      "grad_norm": 9.682948112487793,
      "learning_rate": 4.72653594391467e-05,
      "loss": 0.4151,
      "num_input_tokens_seen": 18333896,
      "step": 31590
    },
    {
      "epoch": 4.70583854632112,
      "grad_norm": 23.630979537963867,
      "learning_rate": 4.7263881546415135e-05,
      "loss": 0.4797,
      "num_input_tokens_seen": 18336904,
      "step": 31595
    },
    {
      "epoch": 4.7065832588620795,
      "grad_norm": 21.44422721862793,
      "learning_rate": 4.726240327755791e-05,
      "loss": 0.3135,
      "num_input_tokens_seen": 18339496,
      "step": 31600
    },
    {
      "epoch": 4.707327971403038,
      "grad_norm": 33.526268005371094,
      "learning_rate": 4.726092463260001e-05,
      "loss": 0.2853,
      "num_input_tokens_seen": 18342728,
      "step": 31605
    },
    {
      "epoch": 4.708072683943998,
      "grad_norm": 19.365758895874023,
      "learning_rate": 4.7259445611566414e-05,
      "loss": 0.1988,
      "num_input_tokens_seen": 18345576,
      "step": 31610
    },
    {
      "epoch": 4.708817396484957,
      "grad_norm": 14.162931442260742,
      "learning_rate": 4.7257966214482106e-05,
      "loss": 0.3515,
      "num_input_tokens_seen": 18348520,
      "step": 31615
    },
    {
      "epoch": 4.709562109025916,
      "grad_norm": 5.143548011779785,
      "learning_rate": 4.725648644137208e-05,
      "loss": 0.6865,
      "num_input_tokens_seen": 18351432,
      "step": 31620
    },
    {
      "epoch": 4.710306821566875,
      "grad_norm": 19.205045700073242,
      "learning_rate": 4.725500629226134e-05,
      "loss": 0.3855,
      "num_input_tokens_seen": 18353960,
      "step": 31625
    },
    {
      "epoch": 4.711051534107835,
      "grad_norm": 30.94952392578125,
      "learning_rate": 4.725352576717489e-05,
      "loss": 0.6672,
      "num_input_tokens_seen": 18356648,
      "step": 31630
    },
    {
      "epoch": 4.7117962466487935,
      "grad_norm": 5.974973201751709,
      "learning_rate": 4.7252044866137736e-05,
      "loss": 0.3553,
      "num_input_tokens_seen": 18359400,
      "step": 31635
    },
    {
      "epoch": 4.712540959189753,
      "grad_norm": 1.1636059284210205,
      "learning_rate": 4.72505635891749e-05,
      "loss": 0.1084,
      "num_input_tokens_seen": 18362216,
      "step": 31640
    },
    {
      "epoch": 4.713285671730712,
      "grad_norm": 0.24286194145679474,
      "learning_rate": 4.7249081936311415e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 18365064,
      "step": 31645
    },
    {
      "epoch": 4.7140303842716715,
      "grad_norm": 35.65977478027344,
      "learning_rate": 4.7247599907572285e-05,
      "loss": 0.5054,
      "num_input_tokens_seen": 18367816,
      "step": 31650
    },
    {
      "epoch": 4.71477509681263,
      "grad_norm": 19.94524574279785,
      "learning_rate": 4.724611750298258e-05,
      "loss": 0.4146,
      "num_input_tokens_seen": 18371048,
      "step": 31655
    },
    {
      "epoch": 4.715519809353589,
      "grad_norm": 8.891241073608398,
      "learning_rate": 4.724463472256733e-05,
      "loss": 0.3357,
      "num_input_tokens_seen": 18373896,
      "step": 31660
    },
    {
      "epoch": 4.716264521894549,
      "grad_norm": 13.375462532043457,
      "learning_rate": 4.724315156635157e-05,
      "loss": 0.4059,
      "num_input_tokens_seen": 18376936,
      "step": 31665
    },
    {
      "epoch": 4.717009234435508,
      "grad_norm": 1.9188154935836792,
      "learning_rate": 4.7241668034360384e-05,
      "loss": 0.1504,
      "num_input_tokens_seen": 18380072,
      "step": 31670
    },
    {
      "epoch": 4.717753946976467,
      "grad_norm": 12.032962799072266,
      "learning_rate": 4.724018412661883e-05,
      "loss": 0.504,
      "num_input_tokens_seen": 18382696,
      "step": 31675
    },
    {
      "epoch": 4.718498659517426,
      "grad_norm": 3.6642866134643555,
      "learning_rate": 4.7238699843151954e-05,
      "loss": 0.1949,
      "num_input_tokens_seen": 18385640,
      "step": 31680
    },
    {
      "epoch": 4.7192433720583855,
      "grad_norm": 9.313056945800781,
      "learning_rate": 4.723721518398485e-05,
      "loss": 0.2481,
      "num_input_tokens_seen": 18388456,
      "step": 31685
    },
    {
      "epoch": 4.719988084599344,
      "grad_norm": 14.315291404724121,
      "learning_rate": 4.72357301491426e-05,
      "loss": 0.3957,
      "num_input_tokens_seen": 18391560,
      "step": 31690
    },
    {
      "epoch": 4.720732797140304,
      "grad_norm": 6.742582321166992,
      "learning_rate": 4.723424473865029e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 18394440,
      "step": 31695
    },
    {
      "epoch": 4.721477509681263,
      "grad_norm": 26.86890983581543,
      "learning_rate": 4.7232758952533006e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 18397384,
      "step": 31700
    },
    {
      "epoch": 4.722222222222222,
      "grad_norm": 10.892529487609863,
      "learning_rate": 4.723127279081586e-05,
      "loss": 0.2076,
      "num_input_tokens_seen": 18400520,
      "step": 31705
    },
    {
      "epoch": 4.722966934763181,
      "grad_norm": 28.40313720703125,
      "learning_rate": 4.7229786253523956e-05,
      "loss": 0.5975,
      "num_input_tokens_seen": 18403304,
      "step": 31710
    },
    {
      "epoch": 4.723711647304141,
      "grad_norm": 16.48113441467285,
      "learning_rate": 4.7228299340682405e-05,
      "loss": 0.3698,
      "num_input_tokens_seen": 18406056,
      "step": 31715
    },
    {
      "epoch": 4.7244563598450995,
      "grad_norm": 8.005910873413086,
      "learning_rate": 4.7226812052316325e-05,
      "loss": 0.2492,
      "num_input_tokens_seen": 18408936,
      "step": 31720
    },
    {
      "epoch": 4.725201072386059,
      "grad_norm": 8.750921249389648,
      "learning_rate": 4.722532438845085e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 18411880,
      "step": 31725
    },
    {
      "epoch": 4.725945784927018,
      "grad_norm": 16.277437210083008,
      "learning_rate": 4.7223836349111106e-05,
      "loss": 0.2739,
      "num_input_tokens_seen": 18414440,
      "step": 31730
    },
    {
      "epoch": 4.7266904974679775,
      "grad_norm": 43.86058044433594,
      "learning_rate": 4.722234793432224e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 18417192,
      "step": 31735
    },
    {
      "epoch": 4.727435210008936,
      "grad_norm": 5.229799747467041,
      "learning_rate": 4.722085914410938e-05,
      "loss": 0.4122,
      "num_input_tokens_seen": 18420136,
      "step": 31740
    },
    {
      "epoch": 4.728179922549896,
      "grad_norm": 20.37178611755371,
      "learning_rate": 4.7219369978497705e-05,
      "loss": 0.2322,
      "num_input_tokens_seen": 18423304,
      "step": 31745
    },
    {
      "epoch": 4.728924635090855,
      "grad_norm": 11.998851776123047,
      "learning_rate": 4.7217880437512344e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 18426120,
      "step": 31750
    },
    {
      "epoch": 4.729669347631814,
      "grad_norm": 13.294367790222168,
      "learning_rate": 4.7216390521178475e-05,
      "loss": 0.2966,
      "num_input_tokens_seen": 18428904,
      "step": 31755
    },
    {
      "epoch": 4.730414060172773,
      "grad_norm": 13.716497421264648,
      "learning_rate": 4.721490022952128e-05,
      "loss": 0.3458,
      "num_input_tokens_seen": 18431848,
      "step": 31760
    },
    {
      "epoch": 4.731158772713733,
      "grad_norm": 16.749563217163086,
      "learning_rate": 4.721340956256591e-05,
      "loss": 0.271,
      "num_input_tokens_seen": 18434728,
      "step": 31765
    },
    {
      "epoch": 4.7319034852546915,
      "grad_norm": 13.000362396240234,
      "learning_rate": 4.721191852033757e-05,
      "loss": 0.4215,
      "num_input_tokens_seen": 18437672,
      "step": 31770
    },
    {
      "epoch": 4.732648197795651,
      "grad_norm": 12.294417381286621,
      "learning_rate": 4.7210427102861437e-05,
      "loss": 0.2644,
      "num_input_tokens_seen": 18440808,
      "step": 31775
    },
    {
      "epoch": 4.73339291033661,
      "grad_norm": 4.778816223144531,
      "learning_rate": 4.720893531016271e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 18443784,
      "step": 31780
    },
    {
      "epoch": 4.73413762287757,
      "grad_norm": 1.8743976354599,
      "learning_rate": 4.72074431422666e-05,
      "loss": 0.5597,
      "num_input_tokens_seen": 18446952,
      "step": 31785
    },
    {
      "epoch": 4.734882335418528,
      "grad_norm": 1.6745431423187256,
      "learning_rate": 4.72059505991983e-05,
      "loss": 0.1012,
      "num_input_tokens_seen": 18449768,
      "step": 31790
    },
    {
      "epoch": 4.735627047959488,
      "grad_norm": 2.6395299434661865,
      "learning_rate": 4.720445768098304e-05,
      "loss": 0.317,
      "num_input_tokens_seen": 18452872,
      "step": 31795
    },
    {
      "epoch": 4.736371760500447,
      "grad_norm": 3.2396562099456787,
      "learning_rate": 4.720296438764604e-05,
      "loss": 0.2735,
      "num_input_tokens_seen": 18455848,
      "step": 31800
    },
    {
      "epoch": 4.737116473041406,
      "grad_norm": 10.125141143798828,
      "learning_rate": 4.7201470719212514e-05,
      "loss": 0.2804,
      "num_input_tokens_seen": 18458824,
      "step": 31805
    },
    {
      "epoch": 4.737861185582365,
      "grad_norm": 27.75637435913086,
      "learning_rate": 4.7199976675707716e-05,
      "loss": 0.4228,
      "num_input_tokens_seen": 18461704,
      "step": 31810
    },
    {
      "epoch": 4.738605898123325,
      "grad_norm": 67.1789321899414,
      "learning_rate": 4.719848225715686e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 18464904,
      "step": 31815
    },
    {
      "epoch": 4.7393506106642835,
      "grad_norm": 25.77381706237793,
      "learning_rate": 4.719698746358522e-05,
      "loss": 0.4499,
      "num_input_tokens_seen": 18467912,
      "step": 31820
    },
    {
      "epoch": 4.740095323205242,
      "grad_norm": 9.877792358398438,
      "learning_rate": 4.719549229501803e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 18470984,
      "step": 31825
    },
    {
      "epoch": 4.740840035746202,
      "grad_norm": 42.76946258544922,
      "learning_rate": 4.7193996751480555e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 18473960,
      "step": 31830
    },
    {
      "epoch": 4.741584748287162,
      "grad_norm": 20.264938354492188,
      "learning_rate": 4.7192500832998065e-05,
      "loss": 0.5894,
      "num_input_tokens_seen": 18476872,
      "step": 31835
    },
    {
      "epoch": 4.74232946082812,
      "grad_norm": 16.844629287719727,
      "learning_rate": 4.719100453959583e-05,
      "loss": 0.3345,
      "num_input_tokens_seen": 18479880,
      "step": 31840
    },
    {
      "epoch": 4.743074173369079,
      "grad_norm": 0.1883314549922943,
      "learning_rate": 4.718950787129912e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 18482504,
      "step": 31845
    },
    {
      "epoch": 4.743818885910039,
      "grad_norm": 4.57478141784668,
      "learning_rate": 4.7188010828133233e-05,
      "loss": 0.2738,
      "num_input_tokens_seen": 18485320,
      "step": 31850
    },
    {
      "epoch": 4.744563598450998,
      "grad_norm": 6.149291038513184,
      "learning_rate": 4.7186513410123455e-05,
      "loss": 0.2513,
      "num_input_tokens_seen": 18487976,
      "step": 31855
    },
    {
      "epoch": 4.745308310991957,
      "grad_norm": 10.42951488494873,
      "learning_rate": 4.718501561729508e-05,
      "loss": 0.4031,
      "num_input_tokens_seen": 18491208,
      "step": 31860
    },
    {
      "epoch": 4.746053023532916,
      "grad_norm": 7.40865421295166,
      "learning_rate": 4.718351744967342e-05,
      "loss": 0.3006,
      "num_input_tokens_seen": 18493864,
      "step": 31865
    },
    {
      "epoch": 4.746797736073876,
      "grad_norm": 26.469268798828125,
      "learning_rate": 4.7182018907283776e-05,
      "loss": 0.5123,
      "num_input_tokens_seen": 18496744,
      "step": 31870
    },
    {
      "epoch": 4.747542448614834,
      "grad_norm": 4.0775370597839355,
      "learning_rate": 4.718051999015146e-05,
      "loss": 0.1269,
      "num_input_tokens_seen": 18499560,
      "step": 31875
    },
    {
      "epoch": 4.748287161155794,
      "grad_norm": 19.099525451660156,
      "learning_rate": 4.7179020698301814e-05,
      "loss": 0.3505,
      "num_input_tokens_seen": 18502696,
      "step": 31880
    },
    {
      "epoch": 4.749031873696753,
      "grad_norm": 18.168760299682617,
      "learning_rate": 4.717752103176014e-05,
      "loss": 0.4535,
      "num_input_tokens_seen": 18505832,
      "step": 31885
    },
    {
      "epoch": 4.749776586237712,
      "grad_norm": 2.1524438858032227,
      "learning_rate": 4.71760209905518e-05,
      "loss": 0.3108,
      "num_input_tokens_seen": 18508808,
      "step": 31890
    },
    {
      "epoch": 4.750521298778671,
      "grad_norm": 7.417525768280029,
      "learning_rate": 4.717452057470212e-05,
      "loss": 0.5146,
      "num_input_tokens_seen": 18511656,
      "step": 31895
    },
    {
      "epoch": 4.751266011319631,
      "grad_norm": 11.366439819335938,
      "learning_rate": 4.7173019784236455e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 18514824,
      "step": 31900
    },
    {
      "epoch": 4.7520107238605895,
      "grad_norm": 2.003479480743408,
      "learning_rate": 4.717151861918015e-05,
      "loss": 0.1499,
      "num_input_tokens_seen": 18517704,
      "step": 31905
    },
    {
      "epoch": 4.752755436401549,
      "grad_norm": 4.3420209884643555,
      "learning_rate": 4.717001707955858e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 18520680,
      "step": 31910
    },
    {
      "epoch": 4.753500148942508,
      "grad_norm": 17.474411010742188,
      "learning_rate": 4.71685151653971e-05,
      "loss": 0.453,
      "num_input_tokens_seen": 18523432,
      "step": 31915
    },
    {
      "epoch": 4.754244861483468,
      "grad_norm": 3.6291937828063965,
      "learning_rate": 4.716701287672109e-05,
      "loss": 0.2678,
      "num_input_tokens_seen": 18526472,
      "step": 31920
    },
    {
      "epoch": 4.754989574024426,
      "grad_norm": 9.14345932006836,
      "learning_rate": 4.716551021355593e-05,
      "loss": 0.2174,
      "num_input_tokens_seen": 18529128,
      "step": 31925
    },
    {
      "epoch": 4.755734286565386,
      "grad_norm": 9.264425277709961,
      "learning_rate": 4.716400717592699e-05,
      "loss": 0.2112,
      "num_input_tokens_seen": 18531912,
      "step": 31930
    },
    {
      "epoch": 4.756478999106345,
      "grad_norm": 20.539173126220703,
      "learning_rate": 4.716250376385969e-05,
      "loss": 0.2284,
      "num_input_tokens_seen": 18534696,
      "step": 31935
    },
    {
      "epoch": 4.757223711647304,
      "grad_norm": 6.741641998291016,
      "learning_rate": 4.716099997737941e-05,
      "loss": 0.2058,
      "num_input_tokens_seen": 18537544,
      "step": 31940
    },
    {
      "epoch": 4.757968424188263,
      "grad_norm": 18.293081283569336,
      "learning_rate": 4.7159495816511546e-05,
      "loss": 0.2331,
      "num_input_tokens_seen": 18540168,
      "step": 31945
    },
    {
      "epoch": 4.758713136729223,
      "grad_norm": 5.052215099334717,
      "learning_rate": 4.7157991281281536e-05,
      "loss": 0.2145,
      "num_input_tokens_seen": 18542888,
      "step": 31950
    },
    {
      "epoch": 4.759457849270182,
      "grad_norm": 55.85312271118164,
      "learning_rate": 4.715648637171478e-05,
      "loss": 0.4896,
      "num_input_tokens_seen": 18545800,
      "step": 31955
    },
    {
      "epoch": 4.760202561811141,
      "grad_norm": 17.118593215942383,
      "learning_rate": 4.71549810878367e-05,
      "loss": 0.4046,
      "num_input_tokens_seen": 18548616,
      "step": 31960
    },
    {
      "epoch": 4.7609472743521,
      "grad_norm": 19.118206024169922,
      "learning_rate": 4.7153475429672736e-05,
      "loss": 0.2515,
      "num_input_tokens_seen": 18551912,
      "step": 31965
    },
    {
      "epoch": 4.76169198689306,
      "grad_norm": 22.721036911010742,
      "learning_rate": 4.715196939724832e-05,
      "loss": 0.4443,
      "num_input_tokens_seen": 18555016,
      "step": 31970
    },
    {
      "epoch": 4.762436699434018,
      "grad_norm": 27.529619216918945,
      "learning_rate": 4.71504629905889e-05,
      "loss": 0.4638,
      "num_input_tokens_seen": 18558120,
      "step": 31975
    },
    {
      "epoch": 4.763181411974978,
      "grad_norm": 5.5101189613342285,
      "learning_rate": 4.714895620971992e-05,
      "loss": 0.2209,
      "num_input_tokens_seen": 18561032,
      "step": 31980
    },
    {
      "epoch": 4.763926124515937,
      "grad_norm": 6.173002243041992,
      "learning_rate": 4.714744905466683e-05,
      "loss": 0.5128,
      "num_input_tokens_seen": 18564072,
      "step": 31985
    },
    {
      "epoch": 4.764670837056896,
      "grad_norm": 10.507281303405762,
      "learning_rate": 4.71459415254551e-05,
      "loss": 0.3274,
      "num_input_tokens_seen": 18567144,
      "step": 31990
    },
    {
      "epoch": 4.765415549597855,
      "grad_norm": 21.01775360107422,
      "learning_rate": 4.71444336221102e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 18570024,
      "step": 31995
    },
    {
      "epoch": 4.766160262138815,
      "grad_norm": 36.77174377441406,
      "learning_rate": 4.71429253446576e-05,
      "loss": 0.4362,
      "num_input_tokens_seen": 18572904,
      "step": 32000
    },
    {
      "epoch": 4.766904974679774,
      "grad_norm": 17.940643310546875,
      "learning_rate": 4.714141669312278e-05,
      "loss": 0.4434,
      "num_input_tokens_seen": 18575848,
      "step": 32005
    },
    {
      "epoch": 4.767649687220732,
      "grad_norm": 2.8700852394104004,
      "learning_rate": 4.713990766753123e-05,
      "loss": 0.2892,
      "num_input_tokens_seen": 18579112,
      "step": 32010
    },
    {
      "epoch": 4.768394399761692,
      "grad_norm": 19.858572006225586,
      "learning_rate": 4.7138398267908434e-05,
      "loss": 0.4736,
      "num_input_tokens_seen": 18581992,
      "step": 32015
    },
    {
      "epoch": 4.769139112302652,
      "grad_norm": 7.169066905975342,
      "learning_rate": 4.713688849427991e-05,
      "loss": 0.136,
      "num_input_tokens_seen": 18584648,
      "step": 32020
    },
    {
      "epoch": 4.76988382484361,
      "grad_norm": 9.423295974731445,
      "learning_rate": 4.713537834667115e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 18587720,
      "step": 32025
    },
    {
      "epoch": 4.770628537384569,
      "grad_norm": 6.653738498687744,
      "learning_rate": 4.713386782510766e-05,
      "loss": 0.1632,
      "num_input_tokens_seen": 18590664,
      "step": 32030
    },
    {
      "epoch": 4.771373249925529,
      "grad_norm": 1.293540120124817,
      "learning_rate": 4.713235692961498e-05,
      "loss": 0.4035,
      "num_input_tokens_seen": 18593256,
      "step": 32035
    },
    {
      "epoch": 4.772117962466488,
      "grad_norm": 5.9859514236450195,
      "learning_rate": 4.713084566021863e-05,
      "loss": 0.3754,
      "num_input_tokens_seen": 18596040,
      "step": 32040
    },
    {
      "epoch": 4.772862675007447,
      "grad_norm": 0.4534321427345276,
      "learning_rate": 4.7129334016944124e-05,
      "loss": 0.2897,
      "num_input_tokens_seen": 18598952,
      "step": 32045
    },
    {
      "epoch": 4.773607387548406,
      "grad_norm": 23.59476089477539,
      "learning_rate": 4.7127821999817014e-05,
      "loss": 0.5869,
      "num_input_tokens_seen": 18601736,
      "step": 32050
    },
    {
      "epoch": 4.774352100089366,
      "grad_norm": 57.224151611328125,
      "learning_rate": 4.712630960886284e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 18604552,
      "step": 32055
    },
    {
      "epoch": 4.775096812630324,
      "grad_norm": 22.359477996826172,
      "learning_rate": 4.7124796844107155e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 18607208,
      "step": 32060
    },
    {
      "epoch": 4.775841525171284,
      "grad_norm": 27.978561401367188,
      "learning_rate": 4.7123283705575514e-05,
      "loss": 0.476,
      "num_input_tokens_seen": 18610088,
      "step": 32065
    },
    {
      "epoch": 4.776586237712243,
      "grad_norm": 18.89323616027832,
      "learning_rate": 4.712177019329348e-05,
      "loss": 0.3421,
      "num_input_tokens_seen": 18613128,
      "step": 32070
    },
    {
      "epoch": 4.777330950253202,
      "grad_norm": 5.479314804077148,
      "learning_rate": 4.712025630728662e-05,
      "loss": 0.1266,
      "num_input_tokens_seen": 18615880,
      "step": 32075
    },
    {
      "epoch": 4.778075662794161,
      "grad_norm": 11.08547592163086,
      "learning_rate": 4.711874204758051e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 18618568,
      "step": 32080
    },
    {
      "epoch": 4.778820375335121,
      "grad_norm": 4.001447677612305,
      "learning_rate": 4.7117227414200735e-05,
      "loss": 0.1288,
      "num_input_tokens_seen": 18621576,
      "step": 32085
    },
    {
      "epoch": 4.77956508787608,
      "grad_norm": 1.387888789176941,
      "learning_rate": 4.711571240717289e-05,
      "loss": 0.3437,
      "num_input_tokens_seen": 18624168,
      "step": 32090
    },
    {
      "epoch": 4.780309800417039,
      "grad_norm": 20.68040657043457,
      "learning_rate": 4.7114197026522555e-05,
      "loss": 0.2822,
      "num_input_tokens_seen": 18626760,
      "step": 32095
    },
    {
      "epoch": 4.781054512957998,
      "grad_norm": 4.855103492736816,
      "learning_rate": 4.711268127227534e-05,
      "loss": 0.5081,
      "num_input_tokens_seen": 18629672,
      "step": 32100
    },
    {
      "epoch": 4.781799225498958,
      "grad_norm": 17.532093048095703,
      "learning_rate": 4.711116514445685e-05,
      "loss": 0.1727,
      "num_input_tokens_seen": 18632520,
      "step": 32105
    },
    {
      "epoch": 4.782543938039916,
      "grad_norm": 7.6986894607543945,
      "learning_rate": 4.710964864309269e-05,
      "loss": 0.4129,
      "num_input_tokens_seen": 18635592,
      "step": 32110
    },
    {
      "epoch": 4.783288650580876,
      "grad_norm": 5.615453243255615,
      "learning_rate": 4.710813176820848e-05,
      "loss": 0.2987,
      "num_input_tokens_seen": 18638344,
      "step": 32115
    },
    {
      "epoch": 4.784033363121835,
      "grad_norm": 19.73893165588379,
      "learning_rate": 4.710661451982987e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 18641032,
      "step": 32120
    },
    {
      "epoch": 4.7847780756627944,
      "grad_norm": 31.040149688720703,
      "learning_rate": 4.7105096897982473e-05,
      "loss": 0.3357,
      "num_input_tokens_seen": 18643816,
      "step": 32125
    },
    {
      "epoch": 4.785522788203753,
      "grad_norm": 22.305904388427734,
      "learning_rate": 4.710357890269193e-05,
      "loss": 0.2367,
      "num_input_tokens_seen": 18646536,
      "step": 32130
    },
    {
      "epoch": 4.786267500744713,
      "grad_norm": 9.887243270874023,
      "learning_rate": 4.710206053398388e-05,
      "loss": 0.6091,
      "num_input_tokens_seen": 18649576,
      "step": 32135
    },
    {
      "epoch": 4.787012213285672,
      "grad_norm": 4.153303623199463,
      "learning_rate": 4.710054179188399e-05,
      "loss": 0.3941,
      "num_input_tokens_seen": 18652648,
      "step": 32140
    },
    {
      "epoch": 4.787756925826631,
      "grad_norm": 16.307024002075195,
      "learning_rate": 4.7099022676417904e-05,
      "loss": 0.318,
      "num_input_tokens_seen": 18655528,
      "step": 32145
    },
    {
      "epoch": 4.78850163836759,
      "grad_norm": 34.95174026489258,
      "learning_rate": 4.709750318761129e-05,
      "loss": 0.2567,
      "num_input_tokens_seen": 18658408,
      "step": 32150
    },
    {
      "epoch": 4.78924635090855,
      "grad_norm": 16.797212600708008,
      "learning_rate": 4.709598332548982e-05,
      "loss": 0.264,
      "num_input_tokens_seen": 18661256,
      "step": 32155
    },
    {
      "epoch": 4.789991063449508,
      "grad_norm": 11.510344505310059,
      "learning_rate": 4.709446309007917e-05,
      "loss": 0.1629,
      "num_input_tokens_seen": 18664040,
      "step": 32160
    },
    {
      "epoch": 4.790735775990468,
      "grad_norm": 27.99103546142578,
      "learning_rate": 4.709294248140502e-05,
      "loss": 0.4634,
      "num_input_tokens_seen": 18667048,
      "step": 32165
    },
    {
      "epoch": 4.791480488531427,
      "grad_norm": 8.555859565734863,
      "learning_rate": 4.709142149949306e-05,
      "loss": 0.388,
      "num_input_tokens_seen": 18669832,
      "step": 32170
    },
    {
      "epoch": 4.792225201072386,
      "grad_norm": 5.108758926391602,
      "learning_rate": 4.708990014436899e-05,
      "loss": 0.2729,
      "num_input_tokens_seen": 18672520,
      "step": 32175
    },
    {
      "epoch": 4.792969913613345,
      "grad_norm": 12.917012214660645,
      "learning_rate": 4.708837841605851e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 18675400,
      "step": 32180
    },
    {
      "epoch": 4.793714626154305,
      "grad_norm": 10.080144882202148,
      "learning_rate": 4.7086856314587316e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 18678248,
      "step": 32185
    },
    {
      "epoch": 4.794459338695264,
      "grad_norm": 0.11728189140558243,
      "learning_rate": 4.708533383998114e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 18680840,
      "step": 32190
    },
    {
      "epoch": 4.795204051236222,
      "grad_norm": 72.84281158447266,
      "learning_rate": 4.7083810992265696e-05,
      "loss": 0.4279,
      "num_input_tokens_seen": 18683880,
      "step": 32195
    },
    {
      "epoch": 4.795948763777182,
      "grad_norm": 18.372201919555664,
      "learning_rate": 4.7082287771466705e-05,
      "loss": 0.2833,
      "num_input_tokens_seen": 18686568,
      "step": 32200
    },
    {
      "epoch": 4.796693476318142,
      "grad_norm": 43.242496490478516,
      "learning_rate": 4.7080764177609914e-05,
      "loss": 0.3939,
      "num_input_tokens_seen": 18689064,
      "step": 32205
    },
    {
      "epoch": 4.7974381888591004,
      "grad_norm": 4.54302453994751,
      "learning_rate": 4.7079240210721046e-05,
      "loss": 0.2495,
      "num_input_tokens_seen": 18692136,
      "step": 32210
    },
    {
      "epoch": 4.798182901400059,
      "grad_norm": 3.578080654144287,
      "learning_rate": 4.707771587082586e-05,
      "loss": 0.1877,
      "num_input_tokens_seen": 18695080,
      "step": 32215
    },
    {
      "epoch": 4.798927613941019,
      "grad_norm": 6.245945453643799,
      "learning_rate": 4.70761911579501e-05,
      "loss": 0.2664,
      "num_input_tokens_seen": 18698024,
      "step": 32220
    },
    {
      "epoch": 4.799672326481978,
      "grad_norm": 12.375049591064453,
      "learning_rate": 4.707466607211953e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 18700872,
      "step": 32225
    },
    {
      "epoch": 4.800417039022937,
      "grad_norm": 1.6079185009002686,
      "learning_rate": 4.707314061335991e-05,
      "loss": 0.0918,
      "num_input_tokens_seen": 18703496,
      "step": 32230
    },
    {
      "epoch": 4.801161751563896,
      "grad_norm": 10.907876014709473,
      "learning_rate": 4.707161478169702e-05,
      "loss": 0.5484,
      "num_input_tokens_seen": 18706664,
      "step": 32235
    },
    {
      "epoch": 4.801906464104856,
      "grad_norm": 6.414841175079346,
      "learning_rate": 4.7070088577156625e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 18709960,
      "step": 32240
    },
    {
      "epoch": 4.802651176645814,
      "grad_norm": 24.839536666870117,
      "learning_rate": 4.706856199976451e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 18712904,
      "step": 32245
    },
    {
      "epoch": 4.803395889186774,
      "grad_norm": 23.246915817260742,
      "learning_rate": 4.706703504954647e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 18715720,
      "step": 32250
    },
    {
      "epoch": 4.804140601727733,
      "grad_norm": 28.519611358642578,
      "learning_rate": 4.706550772652831e-05,
      "loss": 0.3976,
      "num_input_tokens_seen": 18718536,
      "step": 32255
    },
    {
      "epoch": 4.8048853142686925,
      "grad_norm": 23.924030303955078,
      "learning_rate": 4.7063980030735824e-05,
      "loss": 0.0966,
      "num_input_tokens_seen": 18721416,
      "step": 32260
    },
    {
      "epoch": 4.805630026809651,
      "grad_norm": 30.78472900390625,
      "learning_rate": 4.7062451962194806e-05,
      "loss": 0.399,
      "num_input_tokens_seen": 18724520,
      "step": 32265
    },
    {
      "epoch": 4.806374739350611,
      "grad_norm": 0.15018008649349213,
      "learning_rate": 4.70609235209311e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 18727176,
      "step": 32270
    },
    {
      "epoch": 4.80711945189157,
      "grad_norm": 13.347792625427246,
      "learning_rate": 4.705939470697051e-05,
      "loss": 0.2608,
      "num_input_tokens_seen": 18730600,
      "step": 32275
    },
    {
      "epoch": 4.807864164432529,
      "grad_norm": 93.28764343261719,
      "learning_rate": 4.7057865520338865e-05,
      "loss": 0.1516,
      "num_input_tokens_seen": 18733288,
      "step": 32280
    },
    {
      "epoch": 4.808608876973488,
      "grad_norm": 0.4634578824043274,
      "learning_rate": 4.7056335961061994e-05,
      "loss": 0.3642,
      "num_input_tokens_seen": 18736232,
      "step": 32285
    },
    {
      "epoch": 4.809353589514448,
      "grad_norm": 15.54397964477539,
      "learning_rate": 4.705480602916575e-05,
      "loss": 0.3314,
      "num_input_tokens_seen": 18739112,
      "step": 32290
    },
    {
      "epoch": 4.8100983020554064,
      "grad_norm": 15.91637897491455,
      "learning_rate": 4.705327572467597e-05,
      "loss": 0.2149,
      "num_input_tokens_seen": 18741928,
      "step": 32295
    },
    {
      "epoch": 4.810843014596366,
      "grad_norm": 12.167119979858398,
      "learning_rate": 4.705174504761851e-05,
      "loss": 0.3075,
      "num_input_tokens_seen": 18744456,
      "step": 32300
    },
    {
      "epoch": 4.811587727137325,
      "grad_norm": 26.805706024169922,
      "learning_rate": 4.705021399801924e-05,
      "loss": 0.4483,
      "num_input_tokens_seen": 18747400,
      "step": 32305
    },
    {
      "epoch": 4.8123324396782845,
      "grad_norm": 28.37626838684082,
      "learning_rate": 4.704868257590401e-05,
      "loss": 0.5494,
      "num_input_tokens_seen": 18750440,
      "step": 32310
    },
    {
      "epoch": 4.813077152219243,
      "grad_norm": 0.39876022934913635,
      "learning_rate": 4.7047150781298693e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 18753256,
      "step": 32315
    },
    {
      "epoch": 4.813821864760203,
      "grad_norm": 0.6701844334602356,
      "learning_rate": 4.704561861422917e-05,
      "loss": 0.2007,
      "num_input_tokens_seen": 18756136,
      "step": 32320
    },
    {
      "epoch": 4.814566577301162,
      "grad_norm": 0.07011647522449493,
      "learning_rate": 4.704408607472134e-05,
      "loss": 0.2856,
      "num_input_tokens_seen": 18759144,
      "step": 32325
    },
    {
      "epoch": 4.815311289842121,
      "grad_norm": 32.5926399230957,
      "learning_rate": 4.704255316280106e-05,
      "loss": 0.5057,
      "num_input_tokens_seen": 18762120,
      "step": 32330
    },
    {
      "epoch": 4.81605600238308,
      "grad_norm": 12.572908401489258,
      "learning_rate": 4.704101987849426e-05,
      "loss": 0.3301,
      "num_input_tokens_seen": 18765032,
      "step": 32335
    },
    {
      "epoch": 4.816800714924039,
      "grad_norm": 16.34720230102539,
      "learning_rate": 4.7039486221826834e-05,
      "loss": 0.2793,
      "num_input_tokens_seen": 18767944,
      "step": 32340
    },
    {
      "epoch": 4.8175454274649985,
      "grad_norm": 1.6870980262756348,
      "learning_rate": 4.703795219282469e-05,
      "loss": 0.2779,
      "num_input_tokens_seen": 18770824,
      "step": 32345
    },
    {
      "epoch": 4.818290140005958,
      "grad_norm": 46.76316833496094,
      "learning_rate": 4.7036417791513735e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 18773704,
      "step": 32350
    },
    {
      "epoch": 4.819034852546917,
      "grad_norm": 7.821192264556885,
      "learning_rate": 4.7034883017919896e-05,
      "loss": 0.2485,
      "num_input_tokens_seen": 18777032,
      "step": 32355
    },
    {
      "epoch": 4.819779565087876,
      "grad_norm": 4.641339302062988,
      "learning_rate": 4.70333478720691e-05,
      "loss": 0.4099,
      "num_input_tokens_seen": 18779720,
      "step": 32360
    },
    {
      "epoch": 4.820524277628835,
      "grad_norm": 8.00686264038086,
      "learning_rate": 4.703181235398729e-05,
      "loss": 0.2457,
      "num_input_tokens_seen": 18782568,
      "step": 32365
    },
    {
      "epoch": 4.821268990169795,
      "grad_norm": 0.553993821144104,
      "learning_rate": 4.7030276463700405e-05,
      "loss": 0.0782,
      "num_input_tokens_seen": 18785256,
      "step": 32370
    },
    {
      "epoch": 4.822013702710754,
      "grad_norm": 10.797935485839844,
      "learning_rate": 4.702874020123439e-05,
      "loss": 0.4642,
      "num_input_tokens_seen": 18787816,
      "step": 32375
    },
    {
      "epoch": 4.8227584152517124,
      "grad_norm": 52.85088348388672,
      "learning_rate": 4.70272035666152e-05,
      "loss": 0.3433,
      "num_input_tokens_seen": 18791016,
      "step": 32380
    },
    {
      "epoch": 4.823503127792672,
      "grad_norm": 6.299554824829102,
      "learning_rate": 4.702566655986879e-05,
      "loss": 0.3101,
      "num_input_tokens_seen": 18794024,
      "step": 32385
    },
    {
      "epoch": 4.824247840333631,
      "grad_norm": 17.07248878479004,
      "learning_rate": 4.702412918102113e-05,
      "loss": 0.4584,
      "num_input_tokens_seen": 18796872,
      "step": 32390
    },
    {
      "epoch": 4.8249925528745905,
      "grad_norm": 18.99465560913086,
      "learning_rate": 4.702259143009819e-05,
      "loss": 0.3323,
      "num_input_tokens_seen": 18799784,
      "step": 32395
    },
    {
      "epoch": 4.825737265415549,
      "grad_norm": 18.076332092285156,
      "learning_rate": 4.702105330712595e-05,
      "loss": 0.4661,
      "num_input_tokens_seen": 18802760,
      "step": 32400
    },
    {
      "epoch": 4.826481977956509,
      "grad_norm": 2.9341230392456055,
      "learning_rate": 4.70195148121304e-05,
      "loss": 0.4978,
      "num_input_tokens_seen": 18805576,
      "step": 32405
    },
    {
      "epoch": 4.827226690497468,
      "grad_norm": 15.838553428649902,
      "learning_rate": 4.7017975945137524e-05,
      "loss": 0.5324,
      "num_input_tokens_seen": 18808168,
      "step": 32410
    },
    {
      "epoch": 4.827971403038427,
      "grad_norm": 18.060897827148438,
      "learning_rate": 4.701643670617333e-05,
      "loss": 0.3414,
      "num_input_tokens_seen": 18810984,
      "step": 32415
    },
    {
      "epoch": 4.828716115579386,
      "grad_norm": 7.495484828948975,
      "learning_rate": 4.70148970952638e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 18813832,
      "step": 32420
    },
    {
      "epoch": 4.829460828120346,
      "grad_norm": 4.722352027893066,
      "learning_rate": 4.701335711243497e-05,
      "loss": 0.3704,
      "num_input_tokens_seen": 18817064,
      "step": 32425
    },
    {
      "epoch": 4.8302055406613045,
      "grad_norm": 44.509193420410156,
      "learning_rate": 4.7011816757712835e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 18819848,
      "step": 32430
    },
    {
      "epoch": 4.830950253202264,
      "grad_norm": 0.6510232090950012,
      "learning_rate": 4.701027603112343e-05,
      "loss": 0.3727,
      "num_input_tokens_seen": 18822568,
      "step": 32435
    },
    {
      "epoch": 4.831694965743223,
      "grad_norm": 17.51034164428711,
      "learning_rate": 4.7008734932692795e-05,
      "loss": 0.4003,
      "num_input_tokens_seen": 18825672,
      "step": 32440
    },
    {
      "epoch": 4.8324396782841825,
      "grad_norm": 18.264036178588867,
      "learning_rate": 4.700719346244694e-05,
      "loss": 0.4428,
      "num_input_tokens_seen": 18828584,
      "step": 32445
    },
    {
      "epoch": 4.833184390825141,
      "grad_norm": 21.93686294555664,
      "learning_rate": 4.7005651620411914e-05,
      "loss": 0.3231,
      "num_input_tokens_seen": 18831624,
      "step": 32450
    },
    {
      "epoch": 4.833929103366101,
      "grad_norm": 16.83134651184082,
      "learning_rate": 4.7004109406613786e-05,
      "loss": 0.18,
      "num_input_tokens_seen": 18834472,
      "step": 32455
    },
    {
      "epoch": 4.83467381590706,
      "grad_norm": 10.76249885559082,
      "learning_rate": 4.700256682107858e-05,
      "loss": 0.2795,
      "num_input_tokens_seen": 18837192,
      "step": 32460
    },
    {
      "epoch": 4.835418528448019,
      "grad_norm": 20.852184295654297,
      "learning_rate": 4.700102386383237e-05,
      "loss": 0.2348,
      "num_input_tokens_seen": 18840072,
      "step": 32465
    },
    {
      "epoch": 4.836163240988978,
      "grad_norm": 20.045032501220703,
      "learning_rate": 4.699948053490123e-05,
      "loss": 0.3052,
      "num_input_tokens_seen": 18843016,
      "step": 32470
    },
    {
      "epoch": 4.836907953529938,
      "grad_norm": 2.0404720306396484,
      "learning_rate": 4.699793683431122e-05,
      "loss": 0.2493,
      "num_input_tokens_seen": 18845960,
      "step": 32475
    },
    {
      "epoch": 4.8376526660708965,
      "grad_norm": 9.39045524597168,
      "learning_rate": 4.699639276208843e-05,
      "loss": 0.324,
      "num_input_tokens_seen": 18848776,
      "step": 32480
    },
    {
      "epoch": 4.838397378611856,
      "grad_norm": 42.099117279052734,
      "learning_rate": 4.699484831825894e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 18851528,
      "step": 32485
    },
    {
      "epoch": 4.839142091152815,
      "grad_norm": 4.97114896774292,
      "learning_rate": 4.699330350284884e-05,
      "loss": 0.2867,
      "num_input_tokens_seen": 18854408,
      "step": 32490
    },
    {
      "epoch": 4.8398868036937746,
      "grad_norm": 32.68950271606445,
      "learning_rate": 4.6991758315884225e-05,
      "loss": 0.5101,
      "num_input_tokens_seen": 18857032,
      "step": 32495
    },
    {
      "epoch": 4.840631516234733,
      "grad_norm": 2.7265372276306152,
      "learning_rate": 4.699021275739121e-05,
      "loss": 0.2635,
      "num_input_tokens_seen": 18860200,
      "step": 32500
    },
    {
      "epoch": 4.841376228775693,
      "grad_norm": 14.507299423217773,
      "learning_rate": 4.69886668273959e-05,
      "loss": 0.2591,
      "num_input_tokens_seen": 18862760,
      "step": 32505
    },
    {
      "epoch": 4.842120941316652,
      "grad_norm": 6.613483428955078,
      "learning_rate": 4.698712052592441e-05,
      "loss": 0.3438,
      "num_input_tokens_seen": 18865832,
      "step": 32510
    },
    {
      "epoch": 4.842865653857611,
      "grad_norm": 12.32528305053711,
      "learning_rate": 4.6985573853002875e-05,
      "loss": 0.155,
      "num_input_tokens_seen": 18868872,
      "step": 32515
    },
    {
      "epoch": 4.84361036639857,
      "grad_norm": 10.324625968933105,
      "learning_rate": 4.698402680865741e-05,
      "loss": 0.3433,
      "num_input_tokens_seen": 18872776,
      "step": 32520
    },
    {
      "epoch": 4.844355078939529,
      "grad_norm": 22.276641845703125,
      "learning_rate": 4.6982479392914144e-05,
      "loss": 0.4657,
      "num_input_tokens_seen": 18875784,
      "step": 32525
    },
    {
      "epoch": 4.8450997914804885,
      "grad_norm": 18.697628021240234,
      "learning_rate": 4.698093160579924e-05,
      "loss": 0.2796,
      "num_input_tokens_seen": 18878664,
      "step": 32530
    },
    {
      "epoch": 4.845844504021448,
      "grad_norm": 6.954930305480957,
      "learning_rate": 4.697938344733884e-05,
      "loss": 0.3101,
      "num_input_tokens_seen": 18881544,
      "step": 32535
    },
    {
      "epoch": 4.846589216562407,
      "grad_norm": 4.252366542816162,
      "learning_rate": 4.6977834917559095e-05,
      "loss": 0.3518,
      "num_input_tokens_seen": 18884424,
      "step": 32540
    },
    {
      "epoch": 4.847333929103366,
      "grad_norm": 32.670127868652344,
      "learning_rate": 4.697628601648616e-05,
      "loss": 0.3919,
      "num_input_tokens_seen": 18887400,
      "step": 32545
    },
    {
      "epoch": 4.848078641644325,
      "grad_norm": 31.806428909301758,
      "learning_rate": 4.697473674414621e-05,
      "loss": 0.422,
      "num_input_tokens_seen": 18890184,
      "step": 32550
    },
    {
      "epoch": 4.848823354185284,
      "grad_norm": 27.79412841796875,
      "learning_rate": 4.697318710056542e-05,
      "loss": 0.4747,
      "num_input_tokens_seen": 18893160,
      "step": 32555
    },
    {
      "epoch": 4.849568066726244,
      "grad_norm": 14.331902503967285,
      "learning_rate": 4.697163708576997e-05,
      "loss": 0.375,
      "num_input_tokens_seen": 18895880,
      "step": 32560
    },
    {
      "epoch": 4.8503127792672025,
      "grad_norm": 2.582631826400757,
      "learning_rate": 4.697008669978603e-05,
      "loss": 0.3267,
      "num_input_tokens_seen": 18899432,
      "step": 32565
    },
    {
      "epoch": 4.851057491808162,
      "grad_norm": 23.686513900756836,
      "learning_rate": 4.696853594263981e-05,
      "loss": 0.5209,
      "num_input_tokens_seen": 18902344,
      "step": 32570
    },
    {
      "epoch": 4.851802204349121,
      "grad_norm": 8.658343315124512,
      "learning_rate": 4.6966984814357515e-05,
      "loss": 0.4356,
      "num_input_tokens_seen": 18905096,
      "step": 32575
    },
    {
      "epoch": 4.8525469168900806,
      "grad_norm": 6.05745267868042,
      "learning_rate": 4.6965433314965325e-05,
      "loss": 0.221,
      "num_input_tokens_seen": 18907848,
      "step": 32580
    },
    {
      "epoch": 4.853291629431039,
      "grad_norm": 32.96223831176758,
      "learning_rate": 4.6963881444489464e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 18910376,
      "step": 32585
    },
    {
      "epoch": 4.854036341971999,
      "grad_norm": 2.9332029819488525,
      "learning_rate": 4.696232920295616e-05,
      "loss": 0.1431,
      "num_input_tokens_seen": 18912904,
      "step": 32590
    },
    {
      "epoch": 4.854781054512958,
      "grad_norm": 10.844010353088379,
      "learning_rate": 4.696077659039161e-05,
      "loss": 0.6375,
      "num_input_tokens_seen": 18915912,
      "step": 32595
    },
    {
      "epoch": 4.855525767053917,
      "grad_norm": 7.5363311767578125,
      "learning_rate": 4.6959223606822066e-05,
      "loss": 0.3078,
      "num_input_tokens_seen": 18918856,
      "step": 32600
    },
    {
      "epoch": 4.856270479594876,
      "grad_norm": 10.143864631652832,
      "learning_rate": 4.695767025227376e-05,
      "loss": 0.1644,
      "num_input_tokens_seen": 18921672,
      "step": 32605
    },
    {
      "epoch": 4.857015192135836,
      "grad_norm": 3.2408571243286133,
      "learning_rate": 4.6956116526772934e-05,
      "loss": 0.3097,
      "num_input_tokens_seen": 18924552,
      "step": 32610
    },
    {
      "epoch": 4.8577599046767945,
      "grad_norm": 1.2625243663787842,
      "learning_rate": 4.6954562430345825e-05,
      "loss": 0.2581,
      "num_input_tokens_seen": 18927272,
      "step": 32615
    },
    {
      "epoch": 4.858504617217754,
      "grad_norm": 25.706148147583008,
      "learning_rate": 4.695300796301871e-05,
      "loss": 0.6012,
      "num_input_tokens_seen": 18930024,
      "step": 32620
    },
    {
      "epoch": 4.859249329758713,
      "grad_norm": 3.9711315631866455,
      "learning_rate": 4.695145312481783e-05,
      "loss": 0.2469,
      "num_input_tokens_seen": 18933320,
      "step": 32625
    },
    {
      "epoch": 4.859994042299673,
      "grad_norm": 6.6531081199646,
      "learning_rate": 4.694989791576946e-05,
      "loss": 0.6439,
      "num_input_tokens_seen": 18936040,
      "step": 32630
    },
    {
      "epoch": 4.860738754840631,
      "grad_norm": 6.129965305328369,
      "learning_rate": 4.6948342335899874e-05,
      "loss": 0.5666,
      "num_input_tokens_seen": 18938760,
      "step": 32635
    },
    {
      "epoch": 4.861483467381591,
      "grad_norm": 0.4319889545440674,
      "learning_rate": 4.694678638523535e-05,
      "loss": 0.3662,
      "num_input_tokens_seen": 18941256,
      "step": 32640
    },
    {
      "epoch": 4.86222817992255,
      "grad_norm": 69.68524169921875,
      "learning_rate": 4.694523006380218e-05,
      "loss": 0.5855,
      "num_input_tokens_seen": 18944104,
      "step": 32645
    },
    {
      "epoch": 4.862972892463509,
      "grad_norm": 11.368767738342285,
      "learning_rate": 4.694367337162665e-05,
      "loss": 0.3228,
      "num_input_tokens_seen": 18946888,
      "step": 32650
    },
    {
      "epoch": 4.863717605004468,
      "grad_norm": 3.2044429779052734,
      "learning_rate": 4.694211630873506e-05,
      "loss": 0.3917,
      "num_input_tokens_seen": 18949640,
      "step": 32655
    },
    {
      "epoch": 4.864462317545428,
      "grad_norm": 9.34310245513916,
      "learning_rate": 4.694055887515372e-05,
      "loss": 0.2538,
      "num_input_tokens_seen": 18952296,
      "step": 32660
    },
    {
      "epoch": 4.8652070300863866,
      "grad_norm": 14.032490730285645,
      "learning_rate": 4.6939001070908925e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 18955336,
      "step": 32665
    },
    {
      "epoch": 4.865951742627346,
      "grad_norm": 6.193756103515625,
      "learning_rate": 4.693744289602702e-05,
      "loss": 0.4644,
      "num_input_tokens_seen": 18958344,
      "step": 32670
    },
    {
      "epoch": 4.866696455168305,
      "grad_norm": 11.79283618927002,
      "learning_rate": 4.693588435053431e-05,
      "loss": 0.2323,
      "num_input_tokens_seen": 18961064,
      "step": 32675
    },
    {
      "epoch": 4.867441167709265,
      "grad_norm": 0.12263292074203491,
      "learning_rate": 4.693432543445712e-05,
      "loss": 0.2645,
      "num_input_tokens_seen": 18963816,
      "step": 32680
    },
    {
      "epoch": 4.868185880250223,
      "grad_norm": 0.036355726420879364,
      "learning_rate": 4.6932766147821804e-05,
      "loss": 0.2854,
      "num_input_tokens_seen": 18966792,
      "step": 32685
    },
    {
      "epoch": 4.868930592791182,
      "grad_norm": 0.6593903303146362,
      "learning_rate": 4.693120649065469e-05,
      "loss": 0.3451,
      "num_input_tokens_seen": 18969768,
      "step": 32690
    },
    {
      "epoch": 4.869675305332142,
      "grad_norm": 17.46229362487793,
      "learning_rate": 4.6929646462982135e-05,
      "loss": 0.5584,
      "num_input_tokens_seen": 18972424,
      "step": 32695
    },
    {
      "epoch": 4.870420017873101,
      "grad_norm": 3.3161981105804443,
      "learning_rate": 4.692808606483049e-05,
      "loss": 0.3087,
      "num_input_tokens_seen": 18975240,
      "step": 32700
    },
    {
      "epoch": 4.87116473041406,
      "grad_norm": 17.49736785888672,
      "learning_rate": 4.692652529622612e-05,
      "loss": 0.5553,
      "num_input_tokens_seen": 18978280,
      "step": 32705
    },
    {
      "epoch": 4.871909442955019,
      "grad_norm": 21.003021240234375,
      "learning_rate": 4.692496415719539e-05,
      "loss": 0.3243,
      "num_input_tokens_seen": 18981192,
      "step": 32710
    },
    {
      "epoch": 4.872654155495979,
      "grad_norm": 5.94516658782959,
      "learning_rate": 4.692340264776467e-05,
      "loss": 0.4191,
      "num_input_tokens_seen": 18984136,
      "step": 32715
    },
    {
      "epoch": 4.873398868036938,
      "grad_norm": 0.3305199444293976,
      "learning_rate": 4.6921840767960346e-05,
      "loss": 0.3877,
      "num_input_tokens_seen": 18986792,
      "step": 32720
    },
    {
      "epoch": 4.874143580577897,
      "grad_norm": 9.657418251037598,
      "learning_rate": 4.69202785178088e-05,
      "loss": 0.2642,
      "num_input_tokens_seen": 18989512,
      "step": 32725
    },
    {
      "epoch": 4.874888293118856,
      "grad_norm": 40.9836311340332,
      "learning_rate": 4.6918715897336434e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 18992264,
      "step": 32730
    },
    {
      "epoch": 4.875633005659815,
      "grad_norm": 1.4352748394012451,
      "learning_rate": 4.691715290656964e-05,
      "loss": 0.2976,
      "num_input_tokens_seen": 18994920,
      "step": 32735
    },
    {
      "epoch": 4.876377718200774,
      "grad_norm": 12.04818344116211,
      "learning_rate": 4.6915589545534814e-05,
      "loss": 0.2935,
      "num_input_tokens_seen": 18997832,
      "step": 32740
    },
    {
      "epoch": 4.877122430741734,
      "grad_norm": 1.6575016975402832,
      "learning_rate": 4.691402581425839e-05,
      "loss": 0.1745,
      "num_input_tokens_seen": 19000680,
      "step": 32745
    },
    {
      "epoch": 4.8778671432826926,
      "grad_norm": 8.628061294555664,
      "learning_rate": 4.691246171276676e-05,
      "loss": 0.2849,
      "num_input_tokens_seen": 19003624,
      "step": 32750
    },
    {
      "epoch": 4.878611855823652,
      "grad_norm": 0.5275489687919617,
      "learning_rate": 4.691089724108636e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 19006632,
      "step": 32755
    },
    {
      "epoch": 4.879356568364611,
      "grad_norm": 0.5196471214294434,
      "learning_rate": 4.6909332399243636e-05,
      "loss": 0.2259,
      "num_input_tokens_seen": 19009480,
      "step": 32760
    },
    {
      "epoch": 4.880101280905571,
      "grad_norm": 20.897689819335938,
      "learning_rate": 4.690776718726499e-05,
      "loss": 0.3652,
      "num_input_tokens_seen": 19012616,
      "step": 32765
    },
    {
      "epoch": 4.880845993446529,
      "grad_norm": 25.782651901245117,
      "learning_rate": 4.690620160517689e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 19015368,
      "step": 32770
    },
    {
      "epoch": 4.881590705987489,
      "grad_norm": 10.704837799072266,
      "learning_rate": 4.690463565300579e-05,
      "loss": 0.2451,
      "num_input_tokens_seen": 19018024,
      "step": 32775
    },
    {
      "epoch": 4.882335418528448,
      "grad_norm": 71.64158630371094,
      "learning_rate": 4.690306933077811e-05,
      "loss": 0.4842,
      "num_input_tokens_seen": 19020712,
      "step": 32780
    },
    {
      "epoch": 4.883080131069407,
      "grad_norm": 11.442219734191895,
      "learning_rate": 4.6901502638520355e-05,
      "loss": 0.1758,
      "num_input_tokens_seen": 19023368,
      "step": 32785
    },
    {
      "epoch": 4.883824843610366,
      "grad_norm": 38.214508056640625,
      "learning_rate": 4.689993557625897e-05,
      "loss": 0.5626,
      "num_input_tokens_seen": 19026440,
      "step": 32790
    },
    {
      "epoch": 4.884569556151326,
      "grad_norm": 26.815296173095703,
      "learning_rate": 4.689836814402042e-05,
      "loss": 0.5722,
      "num_input_tokens_seen": 19029352,
      "step": 32795
    },
    {
      "epoch": 4.885314268692285,
      "grad_norm": 9.653321266174316,
      "learning_rate": 4.689680034183121e-05,
      "loss": 0.4193,
      "num_input_tokens_seen": 19032104,
      "step": 32800
    },
    {
      "epoch": 4.886058981233244,
      "grad_norm": 1.7601350545883179,
      "learning_rate": 4.689523216971781e-05,
      "loss": 0.2474,
      "num_input_tokens_seen": 19034824,
      "step": 32805
    },
    {
      "epoch": 4.886803693774203,
      "grad_norm": 18.68520164489746,
      "learning_rate": 4.689366362770671e-05,
      "loss": 0.4237,
      "num_input_tokens_seen": 19037480,
      "step": 32810
    },
    {
      "epoch": 4.887548406315163,
      "grad_norm": 3.9957523345947266,
      "learning_rate": 4.689209471582442e-05,
      "loss": 0.2324,
      "num_input_tokens_seen": 19040328,
      "step": 32815
    },
    {
      "epoch": 4.888293118856121,
      "grad_norm": 1.1791071891784668,
      "learning_rate": 4.689052543409743e-05,
      "loss": 0.4269,
      "num_input_tokens_seen": 19042984,
      "step": 32820
    },
    {
      "epoch": 4.889037831397081,
      "grad_norm": 12.825460433959961,
      "learning_rate": 4.6888955782552274e-05,
      "loss": 0.3022,
      "num_input_tokens_seen": 19046120,
      "step": 32825
    },
    {
      "epoch": 4.88978254393804,
      "grad_norm": 12.468828201293945,
      "learning_rate": 4.688738576121545e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 19048936,
      "step": 32830
    },
    {
      "epoch": 4.890527256478999,
      "grad_norm": 10.709234237670898,
      "learning_rate": 4.68858153701135e-05,
      "loss": 0.4104,
      "num_input_tokens_seen": 19052008,
      "step": 32835
    },
    {
      "epoch": 4.891271969019958,
      "grad_norm": 6.117239952087402,
      "learning_rate": 4.688424460927293e-05,
      "loss": 0.1431,
      "num_input_tokens_seen": 19054792,
      "step": 32840
    },
    {
      "epoch": 4.892016681560918,
      "grad_norm": 6.689784526824951,
      "learning_rate": 4.688267347872029e-05,
      "loss": 0.0713,
      "num_input_tokens_seen": 19057768,
      "step": 32845
    },
    {
      "epoch": 4.892761394101877,
      "grad_norm": 15.467963218688965,
      "learning_rate": 4.6881101978482124e-05,
      "loss": 0.6788,
      "num_input_tokens_seen": 19060808,
      "step": 32850
    },
    {
      "epoch": 4.893506106642836,
      "grad_norm": 11.454972267150879,
      "learning_rate": 4.687953010858498e-05,
      "loss": 0.4699,
      "num_input_tokens_seen": 19063720,
      "step": 32855
    },
    {
      "epoch": 4.894250819183795,
      "grad_norm": 0.42265626788139343,
      "learning_rate": 4.6877957869055414e-05,
      "loss": 0.4628,
      "num_input_tokens_seen": 19066696,
      "step": 32860
    },
    {
      "epoch": 4.894995531724755,
      "grad_norm": 7.447173118591309,
      "learning_rate": 4.6876385259919984e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 19069352,
      "step": 32865
    },
    {
      "epoch": 4.895740244265713,
      "grad_norm": 20.295576095581055,
      "learning_rate": 4.687481228120526e-05,
      "loss": 0.4381,
      "num_input_tokens_seen": 19072072,
      "step": 32870
    },
    {
      "epoch": 4.896484956806672,
      "grad_norm": 4.293102264404297,
      "learning_rate": 4.687323893293781e-05,
      "loss": 0.4349,
      "num_input_tokens_seen": 19075048,
      "step": 32875
    },
    {
      "epoch": 4.897229669347632,
      "grad_norm": 15.890630722045898,
      "learning_rate": 4.687166521514423e-05,
      "loss": 0.4643,
      "num_input_tokens_seen": 19077960,
      "step": 32880
    },
    {
      "epoch": 4.8979743818885915,
      "grad_norm": 13.902511596679688,
      "learning_rate": 4.687009112785109e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 19081000,
      "step": 32885
    },
    {
      "epoch": 4.89871909442955,
      "grad_norm": 6.935927867889404,
      "learning_rate": 4.686851667108499e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 19083688,
      "step": 32890
    },
    {
      "epoch": 4.899463806970509,
      "grad_norm": 11.87651538848877,
      "learning_rate": 4.686694184487253e-05,
      "loss": 0.3039,
      "num_input_tokens_seen": 19086312,
      "step": 32895
    },
    {
      "epoch": 4.900208519511469,
      "grad_norm": 49.058929443359375,
      "learning_rate": 4.68653666492403e-05,
      "loss": 0.3995,
      "num_input_tokens_seen": 19089096,
      "step": 32900
    },
    {
      "epoch": 4.900953232052427,
      "grad_norm": 17.259424209594727,
      "learning_rate": 4.686379108421493e-05,
      "loss": 0.2856,
      "num_input_tokens_seen": 19091976,
      "step": 32905
    },
    {
      "epoch": 4.901697944593387,
      "grad_norm": 27.05030632019043,
      "learning_rate": 4.686221514982303e-05,
      "loss": 0.3248,
      "num_input_tokens_seen": 19094952,
      "step": 32910
    },
    {
      "epoch": 4.902442657134346,
      "grad_norm": 42.92724609375,
      "learning_rate": 4.686063884609122e-05,
      "loss": 0.5444,
      "num_input_tokens_seen": 19097800,
      "step": 32915
    },
    {
      "epoch": 4.903187369675305,
      "grad_norm": 11.289691925048828,
      "learning_rate": 4.685906217304615e-05,
      "loss": 0.1914,
      "num_input_tokens_seen": 19100680,
      "step": 32920
    },
    {
      "epoch": 4.903932082216264,
      "grad_norm": 1.7583324909210205,
      "learning_rate": 4.685748513071443e-05,
      "loss": 0.5041,
      "num_input_tokens_seen": 19103240,
      "step": 32925
    },
    {
      "epoch": 4.904676794757224,
      "grad_norm": 18.228240966796875,
      "learning_rate": 4.685590771912272e-05,
      "loss": 0.1683,
      "num_input_tokens_seen": 19106248,
      "step": 32930
    },
    {
      "epoch": 4.905421507298183,
      "grad_norm": 13.875752449035645,
      "learning_rate": 4.685432993829765e-05,
      "loss": 0.626,
      "num_input_tokens_seen": 19108840,
      "step": 32935
    },
    {
      "epoch": 4.906166219839142,
      "grad_norm": 21.390762329101562,
      "learning_rate": 4.6852751788265895e-05,
      "loss": 0.5254,
      "num_input_tokens_seen": 19111592,
      "step": 32940
    },
    {
      "epoch": 4.906910932380101,
      "grad_norm": 39.511470794677734,
      "learning_rate": 4.6851173269054116e-05,
      "loss": 0.1267,
      "num_input_tokens_seen": 19114376,
      "step": 32945
    },
    {
      "epoch": 4.907655644921061,
      "grad_norm": 13.163442611694336,
      "learning_rate": 4.6849594380688966e-05,
      "loss": 0.3768,
      "num_input_tokens_seen": 19117000,
      "step": 32950
    },
    {
      "epoch": 4.908400357462019,
      "grad_norm": 11.573521614074707,
      "learning_rate": 4.684801512319712e-05,
      "loss": 0.2309,
      "num_input_tokens_seen": 19120040,
      "step": 32955
    },
    {
      "epoch": 4.909145070002979,
      "grad_norm": 7.659100532531738,
      "learning_rate": 4.6846435496605275e-05,
      "loss": 0.4018,
      "num_input_tokens_seen": 19122696,
      "step": 32960
    },
    {
      "epoch": 4.909889782543938,
      "grad_norm": 39.63294982910156,
      "learning_rate": 4.6844855500940096e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 19125928,
      "step": 32965
    },
    {
      "epoch": 4.9106344950848975,
      "grad_norm": 12.296347618103027,
      "learning_rate": 4.684327513622829e-05,
      "loss": 0.2261,
      "num_input_tokens_seen": 19129160,
      "step": 32970
    },
    {
      "epoch": 4.911379207625856,
      "grad_norm": 7.695390224456787,
      "learning_rate": 4.684169440249656e-05,
      "loss": 0.4358,
      "num_input_tokens_seen": 19132200,
      "step": 32975
    },
    {
      "epoch": 4.912123920166816,
      "grad_norm": 15.157764434814453,
      "learning_rate": 4.684011329977159e-05,
      "loss": 0.2666,
      "num_input_tokens_seen": 19134856,
      "step": 32980
    },
    {
      "epoch": 4.912868632707775,
      "grad_norm": 9.944856643676758,
      "learning_rate": 4.6838531828080104e-05,
      "loss": 0.5177,
      "num_input_tokens_seen": 19137896,
      "step": 32985
    },
    {
      "epoch": 4.913613345248734,
      "grad_norm": 10.15951156616211,
      "learning_rate": 4.6836949987448824e-05,
      "loss": 0.163,
      "num_input_tokens_seen": 19141736,
      "step": 32990
    },
    {
      "epoch": 4.914358057789693,
      "grad_norm": 58.97755432128906,
      "learning_rate": 4.6835367777904466e-05,
      "loss": 0.3306,
      "num_input_tokens_seen": 19144552,
      "step": 32995
    },
    {
      "epoch": 4.915102770330653,
      "grad_norm": 15.57166576385498,
      "learning_rate": 4.6833785199473756e-05,
      "loss": 0.2927,
      "num_input_tokens_seen": 19147272,
      "step": 33000
    },
    {
      "epoch": 4.915847482871611,
      "grad_norm": 21.420974731445312,
      "learning_rate": 4.683220225218344e-05,
      "loss": 0.5817,
      "num_input_tokens_seen": 19150088,
      "step": 33005
    },
    {
      "epoch": 4.916592195412571,
      "grad_norm": 5.0066680908203125,
      "learning_rate": 4.683061893606026e-05,
      "loss": 0.2421,
      "num_input_tokens_seen": 19152808,
      "step": 33010
    },
    {
      "epoch": 4.91733690795353,
      "grad_norm": 0.46764785051345825,
      "learning_rate": 4.682903525113096e-05,
      "loss": 0.5362,
      "num_input_tokens_seen": 19155720,
      "step": 33015
    },
    {
      "epoch": 4.9180816204944895,
      "grad_norm": 16.724773406982422,
      "learning_rate": 4.682745119742229e-05,
      "loss": 0.33,
      "num_input_tokens_seen": 19158536,
      "step": 33020
    },
    {
      "epoch": 4.918826333035448,
      "grad_norm": 14.401801109313965,
      "learning_rate": 4.682586677496102e-05,
      "loss": 0.7971,
      "num_input_tokens_seen": 19161320,
      "step": 33025
    },
    {
      "epoch": 4.919571045576408,
      "grad_norm": 14.833769798278809,
      "learning_rate": 4.6824281983773914e-05,
      "loss": 0.3311,
      "num_input_tokens_seen": 19164232,
      "step": 33030
    },
    {
      "epoch": 4.920315758117367,
      "grad_norm": 9.102145195007324,
      "learning_rate": 4.682269682388775e-05,
      "loss": 0.1879,
      "num_input_tokens_seen": 19167112,
      "step": 33035
    },
    {
      "epoch": 4.921060470658325,
      "grad_norm": 22.846651077270508,
      "learning_rate": 4.6821111295329294e-05,
      "loss": 0.2873,
      "num_input_tokens_seen": 19169768,
      "step": 33040
    },
    {
      "epoch": 4.921805183199285,
      "grad_norm": 5.656024932861328,
      "learning_rate": 4.681952539812534e-05,
      "loss": 0.3457,
      "num_input_tokens_seen": 19172840,
      "step": 33045
    },
    {
      "epoch": 4.922549895740245,
      "grad_norm": 0.1590396761894226,
      "learning_rate": 4.681793913230269e-05,
      "loss": 0.4728,
      "num_input_tokens_seen": 19175720,
      "step": 33050
    },
    {
      "epoch": 4.9232946082812035,
      "grad_norm": 16.2869815826416,
      "learning_rate": 4.6816352497888125e-05,
      "loss": 0.2526,
      "num_input_tokens_seen": 19178472,
      "step": 33055
    },
    {
      "epoch": 4.924039320822162,
      "grad_norm": 24.403270721435547,
      "learning_rate": 4.6814765494908465e-05,
      "loss": 0.6168,
      "num_input_tokens_seen": 19181576,
      "step": 33060
    },
    {
      "epoch": 4.924784033363122,
      "grad_norm": 0.610060453414917,
      "learning_rate": 4.681317812339051e-05,
      "loss": 0.3899,
      "num_input_tokens_seen": 19184232,
      "step": 33065
    },
    {
      "epoch": 4.9255287459040815,
      "grad_norm": 12.088325500488281,
      "learning_rate": 4.681159038336108e-05,
      "loss": 0.3553,
      "num_input_tokens_seen": 19187144,
      "step": 33070
    },
    {
      "epoch": 4.92627345844504,
      "grad_norm": 41.65258026123047,
      "learning_rate": 4.6810002274847e-05,
      "loss": 0.3899,
      "num_input_tokens_seen": 19189800,
      "step": 33075
    },
    {
      "epoch": 4.927018170985999,
      "grad_norm": 14.657791137695312,
      "learning_rate": 4.680841379787509e-05,
      "loss": 0.2581,
      "num_input_tokens_seen": 19192808,
      "step": 33080
    },
    {
      "epoch": 4.927762883526959,
      "grad_norm": 5.52704381942749,
      "learning_rate": 4.6806824952472204e-05,
      "loss": 0.3009,
      "num_input_tokens_seen": 19195848,
      "step": 33085
    },
    {
      "epoch": 4.928507596067917,
      "grad_norm": 13.056931495666504,
      "learning_rate": 4.6805235738665164e-05,
      "loss": 0.4426,
      "num_input_tokens_seen": 19198472,
      "step": 33090
    },
    {
      "epoch": 4.929252308608877,
      "grad_norm": 37.0506591796875,
      "learning_rate": 4.680364615648084e-05,
      "loss": 0.3627,
      "num_input_tokens_seen": 19201288,
      "step": 33095
    },
    {
      "epoch": 4.929997021149836,
      "grad_norm": 4.779306411743164,
      "learning_rate": 4.680205620594606e-05,
      "loss": 0.2495,
      "num_input_tokens_seen": 19204104,
      "step": 33100
    },
    {
      "epoch": 4.9307417336907955,
      "grad_norm": 8.723950386047363,
      "learning_rate": 4.680046588708772e-05,
      "loss": 0.4482,
      "num_input_tokens_seen": 19207240,
      "step": 33105
    },
    {
      "epoch": 4.931486446231754,
      "grad_norm": 11.013922691345215,
      "learning_rate": 4.679887519993265e-05,
      "loss": 0.4252,
      "num_input_tokens_seen": 19210088,
      "step": 33110
    },
    {
      "epoch": 4.932231158772714,
      "grad_norm": 2.216500759124756,
      "learning_rate": 4.679728414450774e-05,
      "loss": 0.2804,
      "num_input_tokens_seen": 19212904,
      "step": 33115
    },
    {
      "epoch": 4.932975871313673,
      "grad_norm": 23.513389587402344,
      "learning_rate": 4.679569272083987e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 19215624,
      "step": 33120
    },
    {
      "epoch": 4.933720583854632,
      "grad_norm": 5.719543933868408,
      "learning_rate": 4.6794100928955934e-05,
      "loss": 0.327,
      "num_input_tokens_seen": 19218536,
      "step": 33125
    },
    {
      "epoch": 4.934465296395591,
      "grad_norm": 15.903630256652832,
      "learning_rate": 4.67925087688828e-05,
      "loss": 0.3155,
      "num_input_tokens_seen": 19221448,
      "step": 33130
    },
    {
      "epoch": 4.935210008936551,
      "grad_norm": 6.933220386505127,
      "learning_rate": 4.679091624064738e-05,
      "loss": 0.2904,
      "num_input_tokens_seen": 19224424,
      "step": 33135
    },
    {
      "epoch": 4.9359547214775095,
      "grad_norm": 7.061210632324219,
      "learning_rate": 4.678932334427658e-05,
      "loss": 0.4855,
      "num_input_tokens_seen": 19227336,
      "step": 33140
    },
    {
      "epoch": 4.936699434018469,
      "grad_norm": 4.041369915008545,
      "learning_rate": 4.678773007979731e-05,
      "loss": 0.2372,
      "num_input_tokens_seen": 19230312,
      "step": 33145
    },
    {
      "epoch": 4.937444146559428,
      "grad_norm": 10.052809715270996,
      "learning_rate": 4.678613644723649e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 19233224,
      "step": 33150
    },
    {
      "epoch": 4.9381888591003875,
      "grad_norm": 6.458380222320557,
      "learning_rate": 4.6784542446621026e-05,
      "loss": 0.1795,
      "num_input_tokens_seen": 19236200,
      "step": 33155
    },
    {
      "epoch": 4.938933571641346,
      "grad_norm": 0.256107896566391,
      "learning_rate": 4.678294807797786e-05,
      "loss": 0.276,
      "num_input_tokens_seen": 19239048,
      "step": 33160
    },
    {
      "epoch": 4.939678284182306,
      "grad_norm": 14.537559509277344,
      "learning_rate": 4.6781353341333926e-05,
      "loss": 0.2681,
      "num_input_tokens_seen": 19241864,
      "step": 33165
    },
    {
      "epoch": 4.940422996723265,
      "grad_norm": 13.941368103027344,
      "learning_rate": 4.6779758236716165e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 19244904,
      "step": 33170
    },
    {
      "epoch": 4.941167709264224,
      "grad_norm": 26.175806045532227,
      "learning_rate": 4.677816276415153e-05,
      "loss": 0.5058,
      "num_input_tokens_seen": 19247592,
      "step": 33175
    },
    {
      "epoch": 4.941912421805183,
      "grad_norm": 74.14871215820312,
      "learning_rate": 4.677656692366696e-05,
      "loss": 0.2757,
      "num_input_tokens_seen": 19250696,
      "step": 33180
    },
    {
      "epoch": 4.942657134346143,
      "grad_norm": 3.344863176345825,
      "learning_rate": 4.677497071528944e-05,
      "loss": 0.4139,
      "num_input_tokens_seen": 19253736,
      "step": 33185
    },
    {
      "epoch": 4.9434018468871015,
      "grad_norm": 21.029314041137695,
      "learning_rate": 4.67733741390459e-05,
      "loss": 0.4307,
      "num_input_tokens_seen": 19256712,
      "step": 33190
    },
    {
      "epoch": 4.944146559428061,
      "grad_norm": 0.42340612411499023,
      "learning_rate": 4.677177719496335e-05,
      "loss": 0.3516,
      "num_input_tokens_seen": 19259560,
      "step": 33195
    },
    {
      "epoch": 4.94489127196902,
      "grad_norm": 20.386720657348633,
      "learning_rate": 4.677017988306874e-05,
      "loss": 0.4465,
      "num_input_tokens_seen": 19262728,
      "step": 33200
    },
    {
      "epoch": 4.945635984509979,
      "grad_norm": 3.380042791366577,
      "learning_rate": 4.676858220338908e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 19265832,
      "step": 33205
    },
    {
      "epoch": 4.946380697050938,
      "grad_norm": 19.4681396484375,
      "learning_rate": 4.676698415595134e-05,
      "loss": 0.6493,
      "num_input_tokens_seen": 19268616,
      "step": 33210
    },
    {
      "epoch": 4.947125409591898,
      "grad_norm": 52.8865852355957,
      "learning_rate": 4.676538574078253e-05,
      "loss": 0.5465,
      "num_input_tokens_seen": 19271560,
      "step": 33215
    },
    {
      "epoch": 4.947870122132857,
      "grad_norm": 22.56653594970703,
      "learning_rate": 4.676378695790964e-05,
      "loss": 0.4885,
      "num_input_tokens_seen": 19274696,
      "step": 33220
    },
    {
      "epoch": 4.9486148346738155,
      "grad_norm": 4.465168476104736,
      "learning_rate": 4.67621878073597e-05,
      "loss": 0.2743,
      "num_input_tokens_seen": 19277544,
      "step": 33225
    },
    {
      "epoch": 4.949359547214775,
      "grad_norm": 11.957223892211914,
      "learning_rate": 4.676058828915971e-05,
      "loss": 0.4309,
      "num_input_tokens_seen": 19280424,
      "step": 33230
    },
    {
      "epoch": 4.950104259755735,
      "grad_norm": 9.03612232208252,
      "learning_rate": 4.67589884033367e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 19284488,
      "step": 33235
    },
    {
      "epoch": 4.9508489722966935,
      "grad_norm": 24.57413101196289,
      "learning_rate": 4.675738814991769e-05,
      "loss": 0.4945,
      "num_input_tokens_seen": 19287336,
      "step": 33240
    },
    {
      "epoch": 4.951593684837652,
      "grad_norm": 19.09266471862793,
      "learning_rate": 4.6755787528929726e-05,
      "loss": 0.4391,
      "num_input_tokens_seen": 19290440,
      "step": 33245
    },
    {
      "epoch": 4.952338397378612,
      "grad_norm": 23.81960105895996,
      "learning_rate": 4.675418654039984e-05,
      "loss": 0.1797,
      "num_input_tokens_seen": 19293320,
      "step": 33250
    },
    {
      "epoch": 4.953083109919571,
      "grad_norm": 2.2159273624420166,
      "learning_rate": 4.6752585184355084e-05,
      "loss": 0.1179,
      "num_input_tokens_seen": 19296328,
      "step": 33255
    },
    {
      "epoch": 4.95382782246053,
      "grad_norm": 14.882633209228516,
      "learning_rate": 4.675098346082251e-05,
      "loss": 0.2475,
      "num_input_tokens_seen": 19299144,
      "step": 33260
    },
    {
      "epoch": 4.954572535001489,
      "grad_norm": 0.8904169201850891,
      "learning_rate": 4.674938136982918e-05,
      "loss": 0.185,
      "num_input_tokens_seen": 19302344,
      "step": 33265
    },
    {
      "epoch": 4.955317247542449,
      "grad_norm": 0.5603158473968506,
      "learning_rate": 4.674777891140215e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 19305032,
      "step": 33270
    },
    {
      "epoch": 4.9560619600834075,
      "grad_norm": 3.4040722846984863,
      "learning_rate": 4.6746176085568506e-05,
      "loss": 0.2399,
      "num_input_tokens_seen": 19308072,
      "step": 33275
    },
    {
      "epoch": 4.956806672624367,
      "grad_norm": 15.03547477722168,
      "learning_rate": 4.674457289235531e-05,
      "loss": 0.471,
      "num_input_tokens_seen": 19311240,
      "step": 33280
    },
    {
      "epoch": 4.957551385165326,
      "grad_norm": 9.05012035369873,
      "learning_rate": 4.674296933178967e-05,
      "loss": 0.3289,
      "num_input_tokens_seen": 19314088,
      "step": 33285
    },
    {
      "epoch": 4.9582960977062855,
      "grad_norm": 45.01036834716797,
      "learning_rate": 4.674136540389864e-05,
      "loss": 0.3249,
      "num_input_tokens_seen": 19316904,
      "step": 33290
    },
    {
      "epoch": 4.959040810247244,
      "grad_norm": 23.48708724975586,
      "learning_rate": 4.6739761108709356e-05,
      "loss": 0.7848,
      "num_input_tokens_seen": 19319720,
      "step": 33295
    },
    {
      "epoch": 4.959785522788204,
      "grad_norm": 17.507429122924805,
      "learning_rate": 4.673815644624889e-05,
      "loss": 0.3799,
      "num_input_tokens_seen": 19322728,
      "step": 33300
    },
    {
      "epoch": 4.960530235329163,
      "grad_norm": 21.06489372253418,
      "learning_rate": 4.673655141654438e-05,
      "loss": 0.2975,
      "num_input_tokens_seen": 19325416,
      "step": 33305
    },
    {
      "epoch": 4.961274947870122,
      "grad_norm": 63.9959602355957,
      "learning_rate": 4.673494601962292e-05,
      "loss": 0.3105,
      "num_input_tokens_seen": 19328392,
      "step": 33310
    },
    {
      "epoch": 4.962019660411081,
      "grad_norm": 14.392731666564941,
      "learning_rate": 4.673334025551164e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 19331176,
      "step": 33315
    },
    {
      "epoch": 4.962764372952041,
      "grad_norm": 30.279109954833984,
      "learning_rate": 4.6731734124237654e-05,
      "loss": 0.3048,
      "num_input_tokens_seen": 19334248,
      "step": 33320
    },
    {
      "epoch": 4.9635090854929995,
      "grad_norm": 36.291595458984375,
      "learning_rate": 4.6730127625828113e-05,
      "loss": 0.4402,
      "num_input_tokens_seen": 19337192,
      "step": 33325
    },
    {
      "epoch": 4.964253798033959,
      "grad_norm": 12.040776252746582,
      "learning_rate": 4.672852076031015e-05,
      "loss": 0.4953,
      "num_input_tokens_seen": 19340264,
      "step": 33330
    },
    {
      "epoch": 4.964998510574918,
      "grad_norm": 0.20911231637001038,
      "learning_rate": 4.6726913527710915e-05,
      "loss": 0.2583,
      "num_input_tokens_seen": 19343272,
      "step": 33335
    },
    {
      "epoch": 4.965743223115878,
      "grad_norm": 30.165037155151367,
      "learning_rate": 4.672530592805756e-05,
      "loss": 0.3199,
      "num_input_tokens_seen": 19346120,
      "step": 33340
    },
    {
      "epoch": 4.966487935656836,
      "grad_norm": 11.670225143432617,
      "learning_rate": 4.672369796137724e-05,
      "loss": 0.4418,
      "num_input_tokens_seen": 19349192,
      "step": 33345
    },
    {
      "epoch": 4.967232648197796,
      "grad_norm": 1.5844337940216064,
      "learning_rate": 4.672208962769713e-05,
      "loss": 0.2824,
      "num_input_tokens_seen": 19352072,
      "step": 33350
    },
    {
      "epoch": 4.967977360738755,
      "grad_norm": 20.895591735839844,
      "learning_rate": 4.672048092704438e-05,
      "loss": 0.3784,
      "num_input_tokens_seen": 19354856,
      "step": 33355
    },
    {
      "epoch": 4.968722073279714,
      "grad_norm": 0.20123179256916046,
      "learning_rate": 4.671887185944618e-05,
      "loss": 0.5022,
      "num_input_tokens_seen": 19357672,
      "step": 33360
    },
    {
      "epoch": 4.969466785820673,
      "grad_norm": 2.5567684173583984,
      "learning_rate": 4.671726242492972e-05,
      "loss": 0.2463,
      "num_input_tokens_seen": 19360296,
      "step": 33365
    },
    {
      "epoch": 4.970211498361633,
      "grad_norm": 15.91479778289795,
      "learning_rate": 4.671565262352219e-05,
      "loss": 0.379,
      "num_input_tokens_seen": 19363176,
      "step": 33370
    },
    {
      "epoch": 4.9709562109025915,
      "grad_norm": 18.668014526367188,
      "learning_rate": 4.671404245525077e-05,
      "loss": 0.411,
      "num_input_tokens_seen": 19365960,
      "step": 33375
    },
    {
      "epoch": 4.971700923443551,
      "grad_norm": 9.040289878845215,
      "learning_rate": 4.671243192014267e-05,
      "loss": 0.2582,
      "num_input_tokens_seen": 19368840,
      "step": 33380
    },
    {
      "epoch": 4.97244563598451,
      "grad_norm": 8.879156112670898,
      "learning_rate": 4.6710821018225104e-05,
      "loss": 0.2321,
      "num_input_tokens_seen": 19371880,
      "step": 33385
    },
    {
      "epoch": 4.973190348525469,
      "grad_norm": 8.763981819152832,
      "learning_rate": 4.670920974952529e-05,
      "loss": 0.5297,
      "num_input_tokens_seen": 19374696,
      "step": 33390
    },
    {
      "epoch": 4.973935061066428,
      "grad_norm": 7.284691333770752,
      "learning_rate": 4.6707598114070436e-05,
      "loss": 0.1663,
      "num_input_tokens_seen": 19377416,
      "step": 33395
    },
    {
      "epoch": 4.974679773607388,
      "grad_norm": 32.77594757080078,
      "learning_rate": 4.6705986111887765e-05,
      "loss": 0.4278,
      "num_input_tokens_seen": 19380360,
      "step": 33400
    },
    {
      "epoch": 4.975424486148347,
      "grad_norm": 6.22134256362915,
      "learning_rate": 4.6704373743004534e-05,
      "loss": 0.4161,
      "num_input_tokens_seen": 19383656,
      "step": 33405
    },
    {
      "epoch": 4.9761691986893055,
      "grad_norm": 4.624778747558594,
      "learning_rate": 4.670276100744796e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 19386536,
      "step": 33410
    },
    {
      "epoch": 4.976913911230265,
      "grad_norm": 8.610233306884766,
      "learning_rate": 4.67011479052453e-05,
      "loss": 0.3696,
      "num_input_tokens_seen": 19389608,
      "step": 33415
    },
    {
      "epoch": 4.977658623771224,
      "grad_norm": 15.502975463867188,
      "learning_rate": 4.66995344364238e-05,
      "loss": 0.1603,
      "num_input_tokens_seen": 19392360,
      "step": 33420
    },
    {
      "epoch": 4.978403336312184,
      "grad_norm": 0.16784998774528503,
      "learning_rate": 4.6697920601010724e-05,
      "loss": 0.3571,
      "num_input_tokens_seen": 19395304,
      "step": 33425
    },
    {
      "epoch": 4.979148048853142,
      "grad_norm": 3.2130191326141357,
      "learning_rate": 4.669630639903333e-05,
      "loss": 0.41,
      "num_input_tokens_seen": 19398696,
      "step": 33430
    },
    {
      "epoch": 4.979892761394102,
      "grad_norm": 1.9737015962600708,
      "learning_rate": 4.669469183051889e-05,
      "loss": 0.1896,
      "num_input_tokens_seen": 19402024,
      "step": 33435
    },
    {
      "epoch": 4.980637473935061,
      "grad_norm": 20.79897117614746,
      "learning_rate": 4.669307689549468e-05,
      "loss": 0.3521,
      "num_input_tokens_seen": 19404936,
      "step": 33440
    },
    {
      "epoch": 4.98138218647602,
      "grad_norm": 9.40605640411377,
      "learning_rate": 4.6691461593987985e-05,
      "loss": 0.5016,
      "num_input_tokens_seen": 19407912,
      "step": 33445
    },
    {
      "epoch": 4.982126899016979,
      "grad_norm": 0.10597731918096542,
      "learning_rate": 4.668984592602609e-05,
      "loss": 0.3361,
      "num_input_tokens_seen": 19410888,
      "step": 33450
    },
    {
      "epoch": 4.982871611557939,
      "grad_norm": 19.00144386291504,
      "learning_rate": 4.66882298916363e-05,
      "loss": 0.2603,
      "num_input_tokens_seen": 19413832,
      "step": 33455
    },
    {
      "epoch": 4.9836163240988975,
      "grad_norm": 7.711165428161621,
      "learning_rate": 4.66866134908459e-05,
      "loss": 0.2473,
      "num_input_tokens_seen": 19416520,
      "step": 33460
    },
    {
      "epoch": 4.984361036639857,
      "grad_norm": 3.273524284362793,
      "learning_rate": 4.668499672368221e-05,
      "loss": 0.3063,
      "num_input_tokens_seen": 19419720,
      "step": 33465
    },
    {
      "epoch": 4.985105749180816,
      "grad_norm": 44.09377670288086,
      "learning_rate": 4.668337959017254e-05,
      "loss": 0.6528,
      "num_input_tokens_seen": 19422536,
      "step": 33470
    },
    {
      "epoch": 4.985850461721776,
      "grad_norm": 6.34849739074707,
      "learning_rate": 4.668176209034421e-05,
      "loss": 0.2062,
      "num_input_tokens_seen": 19425800,
      "step": 33475
    },
    {
      "epoch": 4.986595174262734,
      "grad_norm": 26.292739868164062,
      "learning_rate": 4.668014422422455e-05,
      "loss": 0.2451,
      "num_input_tokens_seen": 19428808,
      "step": 33480
    },
    {
      "epoch": 4.987339886803694,
      "grad_norm": 15.629075050354004,
      "learning_rate": 4.6678525991840886e-05,
      "loss": 0.4396,
      "num_input_tokens_seen": 19431592,
      "step": 33485
    },
    {
      "epoch": 4.988084599344653,
      "grad_norm": 12.011242866516113,
      "learning_rate": 4.667690739322055e-05,
      "loss": 0.1999,
      "num_input_tokens_seen": 19434568,
      "step": 33490
    },
    {
      "epoch": 4.988829311885612,
      "grad_norm": 3.2907564640045166,
      "learning_rate": 4.667528842839091e-05,
      "loss": 0.1967,
      "num_input_tokens_seen": 19437512,
      "step": 33495
    },
    {
      "epoch": 4.989574024426571,
      "grad_norm": 12.790111541748047,
      "learning_rate": 4.6673669097379294e-05,
      "loss": 0.2254,
      "num_input_tokens_seen": 19440520,
      "step": 33500
    },
    {
      "epoch": 4.990318736967531,
      "grad_norm": 13.144169807434082,
      "learning_rate": 4.6672049400213056e-05,
      "loss": 0.4148,
      "num_input_tokens_seen": 19443656,
      "step": 33505
    },
    {
      "epoch": 4.99106344950849,
      "grad_norm": 23.740772247314453,
      "learning_rate": 4.6670429336919585e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 19446728,
      "step": 33510
    },
    {
      "epoch": 4.991808162049449,
      "grad_norm": 15.873635292053223,
      "learning_rate": 4.666880890752623e-05,
      "loss": 0.4933,
      "num_input_tokens_seen": 19449736,
      "step": 33515
    },
    {
      "epoch": 4.992552874590408,
      "grad_norm": 14.68409538269043,
      "learning_rate": 4.6667188112060365e-05,
      "loss": 0.3779,
      "num_input_tokens_seen": 19452584,
      "step": 33520
    },
    {
      "epoch": 4.993297587131368,
      "grad_norm": 10.200261116027832,
      "learning_rate": 4.666556695054939e-05,
      "loss": 0.478,
      "num_input_tokens_seen": 19455656,
      "step": 33525
    },
    {
      "epoch": 4.994042299672326,
      "grad_norm": 9.718151092529297,
      "learning_rate": 4.666394542302068e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 19458344,
      "step": 33530
    },
    {
      "epoch": 4.994787012213286,
      "grad_norm": 9.223444938659668,
      "learning_rate": 4.6662323529501625e-05,
      "loss": 0.1324,
      "num_input_tokens_seen": 19461032,
      "step": 33535
    },
    {
      "epoch": 4.995531724754245,
      "grad_norm": 25.922813415527344,
      "learning_rate": 4.666070127001963e-05,
      "loss": 0.2311,
      "num_input_tokens_seen": 19463848,
      "step": 33540
    },
    {
      "epoch": 4.996276437295204,
      "grad_norm": 20.351343154907227,
      "learning_rate": 4.6659078644602103e-05,
      "loss": 0.4974,
      "num_input_tokens_seen": 19466824,
      "step": 33545
    },
    {
      "epoch": 4.997021149836163,
      "grad_norm": 1.4573229551315308,
      "learning_rate": 4.665745565327646e-05,
      "loss": 0.1366,
      "num_input_tokens_seen": 19469800,
      "step": 33550
    },
    {
      "epoch": 4.997765862377122,
      "grad_norm": 7.267192363739014,
      "learning_rate": 4.665583229607011e-05,
      "loss": 0.4349,
      "num_input_tokens_seen": 19472968,
      "step": 33555
    },
    {
      "epoch": 4.998510574918082,
      "grad_norm": 6.7052001953125,
      "learning_rate": 4.6654208573010484e-05,
      "loss": 0.1644,
      "num_input_tokens_seen": 19475848,
      "step": 33560
    },
    {
      "epoch": 4.999255287459041,
      "grad_norm": 17.778667449951172,
      "learning_rate": 4.665258448412502e-05,
      "loss": 0.4333,
      "num_input_tokens_seen": 19478888,
      "step": 33565
    },
    {
      "epoch": 5.0,
      "grad_norm": 35.396759033203125,
      "learning_rate": 4.665096002944114e-05,
      "loss": 0.4709,
      "num_input_tokens_seen": 19481256,
      "step": 33570
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.830727756023407,
      "eval_runtime": 49.1725,
      "eval_samples_per_second": 60.684,
      "eval_steps_per_second": 15.171,
      "num_input_tokens_seen": 19481256,
      "step": 33570
    },
    {
      "epoch": 5.000744712540959,
      "grad_norm": 4.349068641662598,
      "learning_rate": 4.6649335208986294e-05,
      "loss": 0.1156,
      "num_input_tokens_seen": 19484008,
      "step": 33575
    },
    {
      "epoch": 5.001489425081918,
      "grad_norm": 12.85274600982666,
      "learning_rate": 4.6647710022787935e-05,
      "loss": 0.221,
      "num_input_tokens_seen": 19486696,
      "step": 33580
    },
    {
      "epoch": 5.002234137622877,
      "grad_norm": 0.20366664230823517,
      "learning_rate": 4.664608447087352e-05,
      "loss": 0.0297,
      "num_input_tokens_seen": 19489896,
      "step": 33585
    },
    {
      "epoch": 5.002978850163837,
      "grad_norm": 0.04981648176908493,
      "learning_rate": 4.664445855327051e-05,
      "loss": 0.079,
      "num_input_tokens_seen": 19493000,
      "step": 33590
    },
    {
      "epoch": 5.003723562704796,
      "grad_norm": 0.049457695335149765,
      "learning_rate": 4.664283227000636e-05,
      "loss": 0.2967,
      "num_input_tokens_seen": 19495752,
      "step": 33595
    },
    {
      "epoch": 5.004468275245755,
      "grad_norm": 6.325039863586426,
      "learning_rate": 4.664120562110857e-05,
      "loss": 0.303,
      "num_input_tokens_seen": 19498696,
      "step": 33600
    },
    {
      "epoch": 5.005212987786714,
      "grad_norm": 15.133088111877441,
      "learning_rate": 4.6639578606604596e-05,
      "loss": 0.3541,
      "num_input_tokens_seen": 19501480,
      "step": 33605
    },
    {
      "epoch": 5.005957700327674,
      "grad_norm": 8.156023025512695,
      "learning_rate": 4.6637951226521935e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 19504392,
      "step": 33610
    },
    {
      "epoch": 5.006702412868632,
      "grad_norm": 79.70309448242188,
      "learning_rate": 4.663632348088809e-05,
      "loss": 0.2586,
      "num_input_tokens_seen": 19507272,
      "step": 33615
    },
    {
      "epoch": 5.007447125409592,
      "grad_norm": 10.662027359008789,
      "learning_rate": 4.663469536973054e-05,
      "loss": 0.2085,
      "num_input_tokens_seen": 19510088,
      "step": 33620
    },
    {
      "epoch": 5.008191837950551,
      "grad_norm": 24.18564224243164,
      "learning_rate": 4.6633066893076804e-05,
      "loss": 0.2714,
      "num_input_tokens_seen": 19513096,
      "step": 33625
    },
    {
      "epoch": 5.00893655049151,
      "grad_norm": 4.812113285064697,
      "learning_rate": 4.663143805095439e-05,
      "loss": 0.087,
      "num_input_tokens_seen": 19515880,
      "step": 33630
    },
    {
      "epoch": 5.009681263032469,
      "grad_norm": 2.419602394104004,
      "learning_rate": 4.662980884339081e-05,
      "loss": 0.3645,
      "num_input_tokens_seen": 19518568,
      "step": 33635
    },
    {
      "epoch": 5.010425975573429,
      "grad_norm": 99.49034881591797,
      "learning_rate": 4.66281792704136e-05,
      "loss": 0.3645,
      "num_input_tokens_seen": 19521352,
      "step": 33640
    },
    {
      "epoch": 5.011170688114388,
      "grad_norm": 6.082979679107666,
      "learning_rate": 4.6626549332050284e-05,
      "loss": 0.0931,
      "num_input_tokens_seen": 19524104,
      "step": 33645
    },
    {
      "epoch": 5.011915400655347,
      "grad_norm": 2.663897752761841,
      "learning_rate": 4.6624919028328394e-05,
      "loss": 0.1638,
      "num_input_tokens_seen": 19526792,
      "step": 33650
    },
    {
      "epoch": 5.012660113196306,
      "grad_norm": 8.127872467041016,
      "learning_rate": 4.6623288359275474e-05,
      "loss": 0.0797,
      "num_input_tokens_seen": 19529480,
      "step": 33655
    },
    {
      "epoch": 5.013404825737266,
      "grad_norm": 8.821853637695312,
      "learning_rate": 4.662165732491907e-05,
      "loss": 0.124,
      "num_input_tokens_seen": 19532328,
      "step": 33660
    },
    {
      "epoch": 5.014149538278224,
      "grad_norm": 42.02035903930664,
      "learning_rate": 4.662002592528675e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 19535304,
      "step": 33665
    },
    {
      "epoch": 5.014894250819184,
      "grad_norm": 0.48194625973701477,
      "learning_rate": 4.661839416040606e-05,
      "loss": 0.1781,
      "num_input_tokens_seen": 19538504,
      "step": 33670
    },
    {
      "epoch": 5.015638963360143,
      "grad_norm": 7.095041751861572,
      "learning_rate": 4.6616762030304576e-05,
      "loss": 0.1815,
      "num_input_tokens_seen": 19541512,
      "step": 33675
    },
    {
      "epoch": 5.0163836759011025,
      "grad_norm": 51.29145050048828,
      "learning_rate": 4.661512953500987e-05,
      "loss": 0.2258,
      "num_input_tokens_seen": 19544456,
      "step": 33680
    },
    {
      "epoch": 5.017128388442061,
      "grad_norm": 11.740087509155273,
      "learning_rate": 4.661349667454951e-05,
      "loss": 0.1859,
      "num_input_tokens_seen": 19547432,
      "step": 33685
    },
    {
      "epoch": 5.017873100983021,
      "grad_norm": 0.05669870972633362,
      "learning_rate": 4.6611863448951096e-05,
      "loss": 0.4423,
      "num_input_tokens_seen": 19550248,
      "step": 33690
    },
    {
      "epoch": 5.01861781352398,
      "grad_norm": 41.9098014831543,
      "learning_rate": 4.661022985824222e-05,
      "loss": 0.3866,
      "num_input_tokens_seen": 19553160,
      "step": 33695
    },
    {
      "epoch": 5.019362526064939,
      "grad_norm": 0.0849187895655632,
      "learning_rate": 4.660859590245046e-05,
      "loss": 0.1962,
      "num_input_tokens_seen": 19556104,
      "step": 33700
    },
    {
      "epoch": 5.020107238605898,
      "grad_norm": 15.28347396850586,
      "learning_rate": 4.6606961581603446e-05,
      "loss": 0.2464,
      "num_input_tokens_seen": 19559400,
      "step": 33705
    },
    {
      "epoch": 5.020851951146858,
      "grad_norm": 15.589067459106445,
      "learning_rate": 4.6605326895728773e-05,
      "loss": 0.3935,
      "num_input_tokens_seen": 19562632,
      "step": 33710
    },
    {
      "epoch": 5.021596663687816,
      "grad_norm": 17.599044799804688,
      "learning_rate": 4.6603691844854065e-05,
      "loss": 0.3341,
      "num_input_tokens_seen": 19565608,
      "step": 33715
    },
    {
      "epoch": 5.022341376228776,
      "grad_norm": 1.7181028127670288,
      "learning_rate": 4.660205642900693e-05,
      "loss": 0.1144,
      "num_input_tokens_seen": 19568360,
      "step": 33720
    },
    {
      "epoch": 5.023086088769735,
      "grad_norm": 24.72718048095703,
      "learning_rate": 4.660042064821501e-05,
      "loss": 0.1358,
      "num_input_tokens_seen": 19570984,
      "step": 33725
    },
    {
      "epoch": 5.0238308013106945,
      "grad_norm": 98.37307739257812,
      "learning_rate": 4.659878450250595e-05,
      "loss": 0.2316,
      "num_input_tokens_seen": 19573960,
      "step": 33730
    },
    {
      "epoch": 5.024575513851653,
      "grad_norm": 0.843557596206665,
      "learning_rate": 4.6597147991907365e-05,
      "loss": 0.2829,
      "num_input_tokens_seen": 19576904,
      "step": 33735
    },
    {
      "epoch": 5.025320226392613,
      "grad_norm": 6.840639114379883,
      "learning_rate": 4.659551111644692e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 19580104,
      "step": 33740
    },
    {
      "epoch": 5.026064938933572,
      "grad_norm": 8.9620361328125,
      "learning_rate": 4.659387387615226e-05,
      "loss": 0.1226,
      "num_input_tokens_seen": 19583368,
      "step": 33745
    },
    {
      "epoch": 5.02680965147453,
      "grad_norm": 15.126739501953125,
      "learning_rate": 4.659223627105105e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 19585992,
      "step": 33750
    },
    {
      "epoch": 5.02755436401549,
      "grad_norm": 35.00745391845703,
      "learning_rate": 4.659059830117095e-05,
      "loss": 0.3928,
      "num_input_tokens_seen": 19588936,
      "step": 33755
    },
    {
      "epoch": 5.028299076556449,
      "grad_norm": 0.0865054503083229,
      "learning_rate": 4.658895996653964e-05,
      "loss": 0.5272,
      "num_input_tokens_seen": 19591976,
      "step": 33760
    },
    {
      "epoch": 5.0290437890974085,
      "grad_norm": 30.867563247680664,
      "learning_rate": 4.658732126718479e-05,
      "loss": 0.4721,
      "num_input_tokens_seen": 19594984,
      "step": 33765
    },
    {
      "epoch": 5.029788501638367,
      "grad_norm": 1.939026951789856,
      "learning_rate": 4.6585682203134094e-05,
      "loss": 0.2243,
      "num_input_tokens_seen": 19597832,
      "step": 33770
    },
    {
      "epoch": 5.030533214179327,
      "grad_norm": 0.20482423901557922,
      "learning_rate": 4.658404277441523e-05,
      "loss": 0.0854,
      "num_input_tokens_seen": 19600584,
      "step": 33775
    },
    {
      "epoch": 5.031277926720286,
      "grad_norm": 12.026228904724121,
      "learning_rate": 4.65824029810559e-05,
      "loss": 0.2266,
      "num_input_tokens_seen": 19603432,
      "step": 33780
    },
    {
      "epoch": 5.032022639261245,
      "grad_norm": 0.2154204398393631,
      "learning_rate": 4.658076282308381e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 19606248,
      "step": 33785
    },
    {
      "epoch": 5.032767351802204,
      "grad_norm": 12.149806022644043,
      "learning_rate": 4.657912230052667e-05,
      "loss": 0.2905,
      "num_input_tokens_seen": 19608872,
      "step": 33790
    },
    {
      "epoch": 5.033512064343164,
      "grad_norm": 17.259382247924805,
      "learning_rate": 4.657748141341218e-05,
      "loss": 0.2385,
      "num_input_tokens_seen": 19611816,
      "step": 33795
    },
    {
      "epoch": 5.034256776884122,
      "grad_norm": 21.359012603759766,
      "learning_rate": 4.657584016176808e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 19614440,
      "step": 33800
    },
    {
      "epoch": 5.035001489425082,
      "grad_norm": 17.36172103881836,
      "learning_rate": 4.657419854562208e-05,
      "loss": 0.1338,
      "num_input_tokens_seen": 19617128,
      "step": 33805
    },
    {
      "epoch": 5.035746201966041,
      "grad_norm": 12.974020004272461,
      "learning_rate": 4.657255656500193e-05,
      "loss": 0.3256,
      "num_input_tokens_seen": 19619976,
      "step": 33810
    },
    {
      "epoch": 5.0364909145070005,
      "grad_norm": 0.4621460437774658,
      "learning_rate": 4.657091421993536e-05,
      "loss": 0.0865,
      "num_input_tokens_seen": 19622792,
      "step": 33815
    },
    {
      "epoch": 5.037235627047959,
      "grad_norm": 1.056550145149231,
      "learning_rate": 4.656927151045012e-05,
      "loss": 0.0696,
      "num_input_tokens_seen": 19626088,
      "step": 33820
    },
    {
      "epoch": 5.037980339588919,
      "grad_norm": 10.894355773925781,
      "learning_rate": 4.656762843657396e-05,
      "loss": 0.1578,
      "num_input_tokens_seen": 19629416,
      "step": 33825
    },
    {
      "epoch": 5.038725052129878,
      "grad_norm": 14.312285423278809,
      "learning_rate": 4.656598499833463e-05,
      "loss": 0.2079,
      "num_input_tokens_seen": 19632136,
      "step": 33830
    },
    {
      "epoch": 5.039469764670837,
      "grad_norm": 0.023301318287849426,
      "learning_rate": 4.6564341195759915e-05,
      "loss": 0.1997,
      "num_input_tokens_seen": 19634952,
      "step": 33835
    },
    {
      "epoch": 5.040214477211796,
      "grad_norm": 19.186779022216797,
      "learning_rate": 4.656269702887757e-05,
      "loss": 0.1437,
      "num_input_tokens_seen": 19638024,
      "step": 33840
    },
    {
      "epoch": 5.040959189752756,
      "grad_norm": 47.501365661621094,
      "learning_rate": 4.656105249771536e-05,
      "loss": 0.2822,
      "num_input_tokens_seen": 19641160,
      "step": 33845
    },
    {
      "epoch": 5.0417039022937145,
      "grad_norm": 0.005066492594778538,
      "learning_rate": 4.65594076023011e-05,
      "loss": 0.2284,
      "num_input_tokens_seen": 19644072,
      "step": 33850
    },
    {
      "epoch": 5.042448614834674,
      "grad_norm": 15.75804328918457,
      "learning_rate": 4.655776234266255e-05,
      "loss": 0.1655,
      "num_input_tokens_seen": 19646920,
      "step": 33855
    },
    {
      "epoch": 5.043193327375633,
      "grad_norm": 43.439395904541016,
      "learning_rate": 4.655611671882752e-05,
      "loss": 0.3052,
      "num_input_tokens_seen": 19649576,
      "step": 33860
    },
    {
      "epoch": 5.0439380399165925,
      "grad_norm": 0.06066451966762543,
      "learning_rate": 4.655447073082381e-05,
      "loss": 0.2061,
      "num_input_tokens_seen": 19652616,
      "step": 33865
    },
    {
      "epoch": 5.044682752457551,
      "grad_norm": 1.2586749792099,
      "learning_rate": 4.6552824378679216e-05,
      "loss": 0.212,
      "num_input_tokens_seen": 19655464,
      "step": 33870
    },
    {
      "epoch": 5.045427464998511,
      "grad_norm": 0.7070541977882385,
      "learning_rate": 4.655117766242156e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 19658440,
      "step": 33875
    },
    {
      "epoch": 5.04617217753947,
      "grad_norm": 5.929793834686279,
      "learning_rate": 4.654953058207866e-05,
      "loss": 0.3208,
      "num_input_tokens_seen": 19661288,
      "step": 33880
    },
    {
      "epoch": 5.046916890080429,
      "grad_norm": 0.023707397282123566,
      "learning_rate": 4.654788313767835e-05,
      "loss": 0.0551,
      "num_input_tokens_seen": 19664360,
      "step": 33885
    },
    {
      "epoch": 5.047661602621388,
      "grad_norm": 66.58526611328125,
      "learning_rate": 4.654623532924845e-05,
      "loss": 0.4041,
      "num_input_tokens_seen": 19667240,
      "step": 33890
    },
    {
      "epoch": 5.048406315162348,
      "grad_norm": 18.590471267700195,
      "learning_rate": 4.6544587156816806e-05,
      "loss": 0.1219,
      "num_input_tokens_seen": 19670184,
      "step": 33895
    },
    {
      "epoch": 5.0491510277033065,
      "grad_norm": 29.331632614135742,
      "learning_rate": 4.6542938620411256e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 19673000,
      "step": 33900
    },
    {
      "epoch": 5.049895740244266,
      "grad_norm": 0.6051741242408752,
      "learning_rate": 4.654128972005966e-05,
      "loss": 0.1633,
      "num_input_tokens_seen": 19675848,
      "step": 33905
    },
    {
      "epoch": 5.050640452785225,
      "grad_norm": 11.06479549407959,
      "learning_rate": 4.653964045578986e-05,
      "loss": 0.1486,
      "num_input_tokens_seen": 19679048,
      "step": 33910
    },
    {
      "epoch": 5.0513851653261845,
      "grad_norm": 17.6701717376709,
      "learning_rate": 4.6537990827629726e-05,
      "loss": 0.2376,
      "num_input_tokens_seen": 19681960,
      "step": 33915
    },
    {
      "epoch": 5.052129877867143,
      "grad_norm": 17.315099716186523,
      "learning_rate": 4.653634083560713e-05,
      "loss": 0.4335,
      "num_input_tokens_seen": 19685032,
      "step": 33920
    },
    {
      "epoch": 5.052874590408102,
      "grad_norm": 0.020024562254548073,
      "learning_rate": 4.653469047974994e-05,
      "loss": 0.1935,
      "num_input_tokens_seen": 19687880,
      "step": 33925
    },
    {
      "epoch": 5.053619302949062,
      "grad_norm": 21.759374618530273,
      "learning_rate": 4.653303976008604e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 19690792,
      "step": 33930
    },
    {
      "epoch": 5.0543640154900205,
      "grad_norm": 0.475122332572937,
      "learning_rate": 4.6531388676643325e-05,
      "loss": 0.327,
      "num_input_tokens_seen": 19693800,
      "step": 33935
    },
    {
      "epoch": 5.05510872803098,
      "grad_norm": 25.612564086914062,
      "learning_rate": 4.6529737229449676e-05,
      "loss": 0.6206,
      "num_input_tokens_seen": 19696552,
      "step": 33940
    },
    {
      "epoch": 5.055853440571939,
      "grad_norm": 10.893579483032227,
      "learning_rate": 4.6528085418533004e-05,
      "loss": 0.0552,
      "num_input_tokens_seen": 19699560,
      "step": 33945
    },
    {
      "epoch": 5.0565981531128985,
      "grad_norm": 20.886592864990234,
      "learning_rate": 4.652643324392121e-05,
      "loss": 0.2136,
      "num_input_tokens_seen": 19702280,
      "step": 33950
    },
    {
      "epoch": 5.057342865653857,
      "grad_norm": 13.125431060791016,
      "learning_rate": 4.65247807056422e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 19705288,
      "step": 33955
    },
    {
      "epoch": 5.058087578194817,
      "grad_norm": 0.10359568148851395,
      "learning_rate": 4.65231278037239e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 19708168,
      "step": 33960
    },
    {
      "epoch": 5.058832290735776,
      "grad_norm": 42.746986389160156,
      "learning_rate": 4.652147453819423e-05,
      "loss": 0.2155,
      "num_input_tokens_seen": 19711112,
      "step": 33965
    },
    {
      "epoch": 5.059577003276735,
      "grad_norm": 1.1122833490371704,
      "learning_rate": 4.651982090908112e-05,
      "loss": 0.0195,
      "num_input_tokens_seen": 19713992,
      "step": 33970
    },
    {
      "epoch": 5.060321715817694,
      "grad_norm": 2.701082706451416,
      "learning_rate": 4.6518166916412506e-05,
      "loss": 0.3064,
      "num_input_tokens_seen": 19717000,
      "step": 33975
    },
    {
      "epoch": 5.061066428358654,
      "grad_norm": 0.04270002245903015,
      "learning_rate": 4.651651256021634e-05,
      "loss": 0.255,
      "num_input_tokens_seen": 19720200,
      "step": 33980
    },
    {
      "epoch": 5.0618111408996125,
      "grad_norm": 0.08449049293994904,
      "learning_rate": 4.651485784052055e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 19722792,
      "step": 33985
    },
    {
      "epoch": 5.062555853440572,
      "grad_norm": 0.010986273176968098,
      "learning_rate": 4.6513202757353116e-05,
      "loss": 0.262,
      "num_input_tokens_seen": 19725736,
      "step": 33990
    },
    {
      "epoch": 5.063300565981531,
      "grad_norm": 0.35965046286582947,
      "learning_rate": 4.6511547310741984e-05,
      "loss": 0.082,
      "num_input_tokens_seen": 19728680,
      "step": 33995
    },
    {
      "epoch": 5.0640452785224905,
      "grad_norm": 1.9010790586471558,
      "learning_rate": 4.650989150071512e-05,
      "loss": 0.2396,
      "num_input_tokens_seen": 19731752,
      "step": 34000
    },
    {
      "epoch": 5.064789991063449,
      "grad_norm": 147.3673095703125,
      "learning_rate": 4.6508235327300496e-05,
      "loss": 0.1411,
      "num_input_tokens_seen": 19734376,
      "step": 34005
    },
    {
      "epoch": 5.065534703604409,
      "grad_norm": 22.11646270751953,
      "learning_rate": 4.65065787905261e-05,
      "loss": 0.3302,
      "num_input_tokens_seen": 19737224,
      "step": 34010
    },
    {
      "epoch": 5.066279416145368,
      "grad_norm": 1.3695741891860962,
      "learning_rate": 4.650492189041992e-05,
      "loss": 0.2425,
      "num_input_tokens_seen": 19740200,
      "step": 34015
    },
    {
      "epoch": 5.067024128686327,
      "grad_norm": 26.352188110351562,
      "learning_rate": 4.650326462700993e-05,
      "loss": 0.2009,
      "num_input_tokens_seen": 19743176,
      "step": 34020
    },
    {
      "epoch": 5.067768841227286,
      "grad_norm": 13.28728199005127,
      "learning_rate": 4.650160700032416e-05,
      "loss": 0.1956,
      "num_input_tokens_seen": 19746408,
      "step": 34025
    },
    {
      "epoch": 5.068513553768246,
      "grad_norm": 40.83159255981445,
      "learning_rate": 4.649994901039057e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 19749416,
      "step": 34030
    },
    {
      "epoch": 5.0692582663092045,
      "grad_norm": 2.3149659633636475,
      "learning_rate": 4.6498290657237205e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 19752360,
      "step": 34035
    },
    {
      "epoch": 5.070002978850164,
      "grad_norm": 22.702970504760742,
      "learning_rate": 4.649663194089207e-05,
      "loss": 0.881,
      "num_input_tokens_seen": 19754888,
      "step": 34040
    },
    {
      "epoch": 5.070747691391123,
      "grad_norm": 20.88273811340332,
      "learning_rate": 4.649497286138318e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 19758056,
      "step": 34045
    },
    {
      "epoch": 5.071492403932083,
      "grad_norm": 20.8207950592041,
      "learning_rate": 4.6493313418738564e-05,
      "loss": 0.1776,
      "num_input_tokens_seen": 19761192,
      "step": 34050
    },
    {
      "epoch": 5.072237116473041,
      "grad_norm": 20.48201560974121,
      "learning_rate": 4.649165361298628e-05,
      "loss": 0.6508,
      "num_input_tokens_seen": 19764168,
      "step": 34055
    },
    {
      "epoch": 5.072981829014001,
      "grad_norm": 2.0772790908813477,
      "learning_rate": 4.6489993444154334e-05,
      "loss": 0.1731,
      "num_input_tokens_seen": 19766984,
      "step": 34060
    },
    {
      "epoch": 5.07372654155496,
      "grad_norm": 9.958674430847168,
      "learning_rate": 4.64883329122708e-05,
      "loss": 0.3012,
      "num_input_tokens_seen": 19770152,
      "step": 34065
    },
    {
      "epoch": 5.074471254095919,
      "grad_norm": 0.11184398084878922,
      "learning_rate": 4.648667201736372e-05,
      "loss": 0.1943,
      "num_input_tokens_seen": 19773320,
      "step": 34070
    },
    {
      "epoch": 5.075215966636878,
      "grad_norm": 0.13586604595184326,
      "learning_rate": 4.648501075946116e-05,
      "loss": 0.0412,
      "num_input_tokens_seen": 19776360,
      "step": 34075
    },
    {
      "epoch": 5.075960679177838,
      "grad_norm": 23.113460540771484,
      "learning_rate": 4.648334913859117e-05,
      "loss": 0.2946,
      "num_input_tokens_seen": 19779304,
      "step": 34080
    },
    {
      "epoch": 5.0767053917187965,
      "grad_norm": 24.118783950805664,
      "learning_rate": 4.648168715478183e-05,
      "loss": 0.3036,
      "num_input_tokens_seen": 19782376,
      "step": 34085
    },
    {
      "epoch": 5.077450104259755,
      "grad_norm": 21.393842697143555,
      "learning_rate": 4.648002480806123e-05,
      "loss": 0.2656,
      "num_input_tokens_seen": 19785288,
      "step": 34090
    },
    {
      "epoch": 5.078194816800715,
      "grad_norm": 32.57619857788086,
      "learning_rate": 4.647836209845744e-05,
      "loss": 0.2029,
      "num_input_tokens_seen": 19787880,
      "step": 34095
    },
    {
      "epoch": 5.078939529341674,
      "grad_norm": 19.611255645751953,
      "learning_rate": 4.647669902599854e-05,
      "loss": 0.2116,
      "num_input_tokens_seen": 19790792,
      "step": 34100
    },
    {
      "epoch": 5.079684241882633,
      "grad_norm": 11.199660301208496,
      "learning_rate": 4.6475035590712646e-05,
      "loss": 0.129,
      "num_input_tokens_seen": 19793672,
      "step": 34105
    },
    {
      "epoch": 5.080428954423592,
      "grad_norm": 0.31556323170661926,
      "learning_rate": 4.6473371792627854e-05,
      "loss": 0.2668,
      "num_input_tokens_seen": 19796520,
      "step": 34110
    },
    {
      "epoch": 5.081173666964552,
      "grad_norm": 0.5281712412834167,
      "learning_rate": 4.6471707631772267e-05,
      "loss": 0.3184,
      "num_input_tokens_seen": 19799176,
      "step": 34115
    },
    {
      "epoch": 5.0819183795055105,
      "grad_norm": 15.68899154663086,
      "learning_rate": 4.6470043108174e-05,
      "loss": 0.4063,
      "num_input_tokens_seen": 19801960,
      "step": 34120
    },
    {
      "epoch": 5.08266309204647,
      "grad_norm": 0.02451307512819767,
      "learning_rate": 4.6468378221861175e-05,
      "loss": 0.2958,
      "num_input_tokens_seen": 19804872,
      "step": 34125
    },
    {
      "epoch": 5.083407804587429,
      "grad_norm": 20.4730167388916,
      "learning_rate": 4.646671297286193e-05,
      "loss": 0.2831,
      "num_input_tokens_seen": 19808040,
      "step": 34130
    },
    {
      "epoch": 5.084152517128389,
      "grad_norm": 0.04218319058418274,
      "learning_rate": 4.646504736120438e-05,
      "loss": 0.1281,
      "num_input_tokens_seen": 19810856,
      "step": 34135
    },
    {
      "epoch": 5.084897229669347,
      "grad_norm": 17.053449630737305,
      "learning_rate": 4.646338138691667e-05,
      "loss": 0.4612,
      "num_input_tokens_seen": 19813800,
      "step": 34140
    },
    {
      "epoch": 5.085641942210307,
      "grad_norm": 23.424989700317383,
      "learning_rate": 4.646171505002694e-05,
      "loss": 0.2497,
      "num_input_tokens_seen": 19817224,
      "step": 34145
    },
    {
      "epoch": 5.086386654751266,
      "grad_norm": 13.49062728881836,
      "learning_rate": 4.646004835056336e-05,
      "loss": 0.127,
      "num_input_tokens_seen": 19819976,
      "step": 34150
    },
    {
      "epoch": 5.087131367292225,
      "grad_norm": 13.021184921264648,
      "learning_rate": 4.645838128855406e-05,
      "loss": 0.0987,
      "num_input_tokens_seen": 19822600,
      "step": 34155
    },
    {
      "epoch": 5.087876079833184,
      "grad_norm": 8.341370582580566,
      "learning_rate": 4.6456713864027234e-05,
      "loss": 0.2408,
      "num_input_tokens_seen": 19825352,
      "step": 34160
    },
    {
      "epoch": 5.088620792374144,
      "grad_norm": 13.998540878295898,
      "learning_rate": 4.645504607701102e-05,
      "loss": 0.2536,
      "num_input_tokens_seen": 19828232,
      "step": 34165
    },
    {
      "epoch": 5.0893655049151025,
      "grad_norm": 25.067100524902344,
      "learning_rate": 4.645337792753362e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 19830760,
      "step": 34170
    },
    {
      "epoch": 5.090110217456062,
      "grad_norm": 0.7077450752258301,
      "learning_rate": 4.64517094156232e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 19833832,
      "step": 34175
    },
    {
      "epoch": 5.090854929997021,
      "grad_norm": 19.168516159057617,
      "learning_rate": 4.645004054130795e-05,
      "loss": 0.341,
      "num_input_tokens_seen": 19836936,
      "step": 34180
    },
    {
      "epoch": 5.091599642537981,
      "grad_norm": 36.974449157714844,
      "learning_rate": 4.644837130461607e-05,
      "loss": 0.1223,
      "num_input_tokens_seen": 19839976,
      "step": 34185
    },
    {
      "epoch": 5.092344355078939,
      "grad_norm": 15.138927459716797,
      "learning_rate": 4.644670170557575e-05,
      "loss": 0.0954,
      "num_input_tokens_seen": 19842888,
      "step": 34190
    },
    {
      "epoch": 5.093089067619899,
      "grad_norm": 13.232950210571289,
      "learning_rate": 4.644503174421521e-05,
      "loss": 0.2423,
      "num_input_tokens_seen": 19845704,
      "step": 34195
    },
    {
      "epoch": 5.093833780160858,
      "grad_norm": 10.940520286560059,
      "learning_rate": 4.644336142056265e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 19848840,
      "step": 34200
    },
    {
      "epoch": 5.094578492701817,
      "grad_norm": 18.27092742919922,
      "learning_rate": 4.644169073464629e-05,
      "loss": 0.5453,
      "num_input_tokens_seen": 19851496,
      "step": 34205
    },
    {
      "epoch": 5.095323205242776,
      "grad_norm": 1.2927838563919067,
      "learning_rate": 4.644001968649436e-05,
      "loss": 0.1251,
      "num_input_tokens_seen": 19854184,
      "step": 34210
    },
    {
      "epoch": 5.096067917783736,
      "grad_norm": 6.966007709503174,
      "learning_rate": 4.643834827613508e-05,
      "loss": 0.138,
      "num_input_tokens_seen": 19857288,
      "step": 34215
    },
    {
      "epoch": 5.096812630324695,
      "grad_norm": 5.930119037628174,
      "learning_rate": 4.643667650359671e-05,
      "loss": 0.3387,
      "num_input_tokens_seen": 19860424,
      "step": 34220
    },
    {
      "epoch": 5.097557342865654,
      "grad_norm": 9.187100410461426,
      "learning_rate": 4.643500436890746e-05,
      "loss": 0.4406,
      "num_input_tokens_seen": 19863368,
      "step": 34225
    },
    {
      "epoch": 5.098302055406613,
      "grad_norm": 0.4906841516494751,
      "learning_rate": 4.6433331872095615e-05,
      "loss": 0.1011,
      "num_input_tokens_seen": 19866184,
      "step": 34230
    },
    {
      "epoch": 5.099046767947573,
      "grad_norm": 0.27591174840927124,
      "learning_rate": 4.643165901318941e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 19869160,
      "step": 34235
    },
    {
      "epoch": 5.099791480488531,
      "grad_norm": 16.588388442993164,
      "learning_rate": 4.6429985792217095e-05,
      "loss": 0.426,
      "num_input_tokens_seen": 19871880,
      "step": 34240
    },
    {
      "epoch": 5.100536193029491,
      "grad_norm": 0.376031756401062,
      "learning_rate": 4.642831220920696e-05,
      "loss": 0.0791,
      "num_input_tokens_seen": 19874856,
      "step": 34245
    },
    {
      "epoch": 5.10128090557045,
      "grad_norm": 61.94309616088867,
      "learning_rate": 4.642663826418726e-05,
      "loss": 0.3909,
      "num_input_tokens_seen": 19877608,
      "step": 34250
    },
    {
      "epoch": 5.102025618111409,
      "grad_norm": 13.027544021606445,
      "learning_rate": 4.64249639571863e-05,
      "loss": 0.2828,
      "num_input_tokens_seen": 19880456,
      "step": 34255
    },
    {
      "epoch": 5.102770330652368,
      "grad_norm": 0.037402424961328506,
      "learning_rate": 4.642328928823234e-05,
      "loss": 0.2857,
      "num_input_tokens_seen": 19883272,
      "step": 34260
    },
    {
      "epoch": 5.103515043193327,
      "grad_norm": 2.5871331691741943,
      "learning_rate": 4.6421614257353676e-05,
      "loss": 0.0712,
      "num_input_tokens_seen": 19886024,
      "step": 34265
    },
    {
      "epoch": 5.104259755734287,
      "grad_norm": 9.53138256072998,
      "learning_rate": 4.6419938864578615e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 19888712,
      "step": 34270
    },
    {
      "epoch": 5.105004468275245,
      "grad_norm": 11.925853729248047,
      "learning_rate": 4.641826310993546e-05,
      "loss": 0.1486,
      "num_input_tokens_seen": 19891528,
      "step": 34275
    },
    {
      "epoch": 5.105749180816205,
      "grad_norm": 0.09008094668388367,
      "learning_rate": 4.641658699345251e-05,
      "loss": 0.1102,
      "num_input_tokens_seen": 19894312,
      "step": 34280
    },
    {
      "epoch": 5.106493893357164,
      "grad_norm": 0.15330816805362701,
      "learning_rate": 4.64149105151581e-05,
      "loss": 0.0417,
      "num_input_tokens_seen": 19897096,
      "step": 34285
    },
    {
      "epoch": 5.107238605898123,
      "grad_norm": 41.216346740722656,
      "learning_rate": 4.641323367508054e-05,
      "loss": 0.2242,
      "num_input_tokens_seen": 19900008,
      "step": 34290
    },
    {
      "epoch": 5.107983318439082,
      "grad_norm": 101.46096801757812,
      "learning_rate": 4.641155647324816e-05,
      "loss": 0.2922,
      "num_input_tokens_seen": 19902760,
      "step": 34295
    },
    {
      "epoch": 5.108728030980042,
      "grad_norm": 0.9212547540664673,
      "learning_rate": 4.6409878909689286e-05,
      "loss": 0.5088,
      "num_input_tokens_seen": 19905768,
      "step": 34300
    },
    {
      "epoch": 5.109472743521001,
      "grad_norm": 42.55859375,
      "learning_rate": 4.6408200984432276e-05,
      "loss": 0.241,
      "num_input_tokens_seen": 19908360,
      "step": 34305
    },
    {
      "epoch": 5.11021745606196,
      "grad_norm": 0.10423610359430313,
      "learning_rate": 4.640652269750547e-05,
      "loss": 0.2645,
      "num_input_tokens_seen": 19911272,
      "step": 34310
    },
    {
      "epoch": 5.110962168602919,
      "grad_norm": 16.020673751831055,
      "learning_rate": 4.640484404893722e-05,
      "loss": 0.2597,
      "num_input_tokens_seen": 19914120,
      "step": 34315
    },
    {
      "epoch": 5.111706881143879,
      "grad_norm": 42.60505294799805,
      "learning_rate": 4.640316503875588e-05,
      "loss": 0.1003,
      "num_input_tokens_seen": 19917384,
      "step": 34320
    },
    {
      "epoch": 5.112451593684837,
      "grad_norm": 19.50392723083496,
      "learning_rate": 4.640148566698982e-05,
      "loss": 0.2671,
      "num_input_tokens_seen": 19920264,
      "step": 34325
    },
    {
      "epoch": 5.113196306225797,
      "grad_norm": 11.423922538757324,
      "learning_rate": 4.639980593366742e-05,
      "loss": 0.2358,
      "num_input_tokens_seen": 19923368,
      "step": 34330
    },
    {
      "epoch": 5.113941018766756,
      "grad_norm": 28.21225929260254,
      "learning_rate": 4.639812583881704e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 19926184,
      "step": 34335
    },
    {
      "epoch": 5.114685731307715,
      "grad_norm": 10.831335067749023,
      "learning_rate": 4.6396445382467067e-05,
      "loss": 0.2237,
      "num_input_tokens_seen": 19929000,
      "step": 34340
    },
    {
      "epoch": 5.115430443848674,
      "grad_norm": 0.03670613095164299,
      "learning_rate": 4.639476456464591e-05,
      "loss": 0.0375,
      "num_input_tokens_seen": 19931752,
      "step": 34345
    },
    {
      "epoch": 5.116175156389634,
      "grad_norm": 13.54574203491211,
      "learning_rate": 4.639308338538194e-05,
      "loss": 0.1642,
      "num_input_tokens_seen": 19934664,
      "step": 34350
    },
    {
      "epoch": 5.116919868930593,
      "grad_norm": 16.983400344848633,
      "learning_rate": 4.639140184470357e-05,
      "loss": 0.1453,
      "num_input_tokens_seen": 19937384,
      "step": 34355
    },
    {
      "epoch": 5.117664581471552,
      "grad_norm": 28.621566772460938,
      "learning_rate": 4.638971994263921e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 19940232,
      "step": 34360
    },
    {
      "epoch": 5.118409294012511,
      "grad_norm": 0.5680999755859375,
      "learning_rate": 4.6388037679217274e-05,
      "loss": 0.2187,
      "num_input_tokens_seen": 19943048,
      "step": 34365
    },
    {
      "epoch": 5.119154006553471,
      "grad_norm": 22.491539001464844,
      "learning_rate": 4.638635505446617e-05,
      "loss": 0.4909,
      "num_input_tokens_seen": 19946312,
      "step": 34370
    },
    {
      "epoch": 5.119898719094429,
      "grad_norm": 25.09168243408203,
      "learning_rate": 4.638467206841434e-05,
      "loss": 0.0789,
      "num_input_tokens_seen": 19949416,
      "step": 34375
    },
    {
      "epoch": 5.120643431635389,
      "grad_norm": 46.73725509643555,
      "learning_rate": 4.6382988721090214e-05,
      "loss": 0.2638,
      "num_input_tokens_seen": 19952072,
      "step": 34380
    },
    {
      "epoch": 5.121388144176348,
      "grad_norm": 35.21220016479492,
      "learning_rate": 4.638130501252221e-05,
      "loss": 0.2458,
      "num_input_tokens_seen": 19954920,
      "step": 34385
    },
    {
      "epoch": 5.1221328567173074,
      "grad_norm": 35.549659729003906,
      "learning_rate": 4.6379620942738814e-05,
      "loss": 0.1026,
      "num_input_tokens_seen": 19957544,
      "step": 34390
    },
    {
      "epoch": 5.122877569258266,
      "grad_norm": 8.969720840454102,
      "learning_rate": 4.637793651176843e-05,
      "loss": 0.0907,
      "num_input_tokens_seen": 19960488,
      "step": 34395
    },
    {
      "epoch": 5.123622281799226,
      "grad_norm": 41.39862823486328,
      "learning_rate": 4.637625171963954e-05,
      "loss": 0.3508,
      "num_input_tokens_seen": 19963304,
      "step": 34400
    },
    {
      "epoch": 5.124366994340185,
      "grad_norm": 0.4860442578792572,
      "learning_rate": 4.63745665663806e-05,
      "loss": 0.2665,
      "num_input_tokens_seen": 19966248,
      "step": 34405
    },
    {
      "epoch": 5.125111706881144,
      "grad_norm": 26.63771629333496,
      "learning_rate": 4.63728810520201e-05,
      "loss": 0.2163,
      "num_input_tokens_seen": 19969000,
      "step": 34410
    },
    {
      "epoch": 5.125856419422103,
      "grad_norm": 11.430767059326172,
      "learning_rate": 4.637119517658648e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 19971944,
      "step": 34415
    },
    {
      "epoch": 5.126601131963063,
      "grad_norm": 27.273866653442383,
      "learning_rate": 4.636950894010825e-05,
      "loss": 0.4749,
      "num_input_tokens_seen": 19974856,
      "step": 34420
    },
    {
      "epoch": 5.127345844504021,
      "grad_norm": 2.0916647911071777,
      "learning_rate": 4.636782234261388e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 19978024,
      "step": 34425
    },
    {
      "epoch": 5.128090557044981,
      "grad_norm": 0.5969244241714478,
      "learning_rate": 4.6366135384131866e-05,
      "loss": 0.2145,
      "num_input_tokens_seen": 19980968,
      "step": 34430
    },
    {
      "epoch": 5.12883526958594,
      "grad_norm": 42.06663513183594,
      "learning_rate": 4.6364448064690716e-05,
      "loss": 0.1498,
      "num_input_tokens_seen": 19983816,
      "step": 34435
    },
    {
      "epoch": 5.129579982126899,
      "grad_norm": 0.0712975338101387,
      "learning_rate": 4.636276038431892e-05,
      "loss": 0.2406,
      "num_input_tokens_seen": 19986824,
      "step": 34440
    },
    {
      "epoch": 5.130324694667858,
      "grad_norm": 27.83970069885254,
      "learning_rate": 4.636107234304501e-05,
      "loss": 0.0622,
      "num_input_tokens_seen": 19989928,
      "step": 34445
    },
    {
      "epoch": 5.131069407208817,
      "grad_norm": 0.3136398196220398,
      "learning_rate": 4.635938394089748e-05,
      "loss": 0.0248,
      "num_input_tokens_seen": 19992872,
      "step": 34450
    },
    {
      "epoch": 5.131814119749777,
      "grad_norm": 20.09735679626465,
      "learning_rate": 4.635769517790488e-05,
      "loss": 0.4254,
      "num_input_tokens_seen": 19995752,
      "step": 34455
    },
    {
      "epoch": 5.132558832290735,
      "grad_norm": 2.586927890777588,
      "learning_rate": 4.635600605409572e-05,
      "loss": 0.1015,
      "num_input_tokens_seen": 19998408,
      "step": 34460
    },
    {
      "epoch": 5.133303544831695,
      "grad_norm": 0.011749360710382462,
      "learning_rate": 4.6354316569498545e-05,
      "loss": 0.2399,
      "num_input_tokens_seen": 20001224,
      "step": 34465
    },
    {
      "epoch": 5.134048257372654,
      "grad_norm": 0.5678117871284485,
      "learning_rate": 4.63526267241419e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 20004168,
      "step": 34470
    },
    {
      "epoch": 5.1347929699136134,
      "grad_norm": 85.06815338134766,
      "learning_rate": 4.6350936518054325e-05,
      "loss": 0.4414,
      "num_input_tokens_seen": 20006856,
      "step": 34475
    },
    {
      "epoch": 5.135537682454572,
      "grad_norm": 9.326550483703613,
      "learning_rate": 4.634924595126437e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 20009768,
      "step": 34480
    },
    {
      "epoch": 5.136282394995532,
      "grad_norm": 0.012521680444478989,
      "learning_rate": 4.6347555023800616e-05,
      "loss": 0.2973,
      "num_input_tokens_seen": 20012648,
      "step": 34485
    },
    {
      "epoch": 5.137027107536491,
      "grad_norm": 58.26018524169922,
      "learning_rate": 4.634586373569161e-05,
      "loss": 0.4437,
      "num_input_tokens_seen": 20015400,
      "step": 34490
    },
    {
      "epoch": 5.13777182007745,
      "grad_norm": 6.673954963684082,
      "learning_rate": 4.634417208696593e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 20018376,
      "step": 34495
    },
    {
      "epoch": 5.138516532618409,
      "grad_norm": 25.799285888671875,
      "learning_rate": 4.634248007765216e-05,
      "loss": 0.3291,
      "num_input_tokens_seen": 20021416,
      "step": 34500
    },
    {
      "epoch": 5.139261245159369,
      "grad_norm": 37.487464904785156,
      "learning_rate": 4.6340787707778874e-05,
      "loss": 0.1906,
      "num_input_tokens_seen": 20024040,
      "step": 34505
    },
    {
      "epoch": 5.140005957700327,
      "grad_norm": 0.8090283870697021,
      "learning_rate": 4.633909497737468e-05,
      "loss": 0.0174,
      "num_input_tokens_seen": 20026920,
      "step": 34510
    },
    {
      "epoch": 5.140750670241287,
      "grad_norm": 1.0810314416885376,
      "learning_rate": 4.6337401886468156e-05,
      "loss": 0.1953,
      "num_input_tokens_seen": 20029480,
      "step": 34515
    },
    {
      "epoch": 5.141495382782246,
      "grad_norm": 0.018626689910888672,
      "learning_rate": 4.633570843508792e-05,
      "loss": 0.1282,
      "num_input_tokens_seen": 20032392,
      "step": 34520
    },
    {
      "epoch": 5.1422400953232055,
      "grad_norm": 126.77118682861328,
      "learning_rate": 4.633401462326257e-05,
      "loss": 0.2966,
      "num_input_tokens_seen": 20035176,
      "step": 34525
    },
    {
      "epoch": 5.142984807864164,
      "grad_norm": 33.503440856933594,
      "learning_rate": 4.633232045102072e-05,
      "loss": 0.3964,
      "num_input_tokens_seen": 20037832,
      "step": 34530
    },
    {
      "epoch": 5.143729520405124,
      "grad_norm": 8.507281303405762,
      "learning_rate": 4.6330625918391e-05,
      "loss": 0.1729,
      "num_input_tokens_seen": 20040648,
      "step": 34535
    },
    {
      "epoch": 5.144474232946083,
      "grad_norm": 38.15073776245117,
      "learning_rate": 4.6328931025402045e-05,
      "loss": 0.394,
      "num_input_tokens_seen": 20043432,
      "step": 34540
    },
    {
      "epoch": 5.145218945487042,
      "grad_norm": 4.870335578918457,
      "learning_rate": 4.6327235772082466e-05,
      "loss": 0.0911,
      "num_input_tokens_seen": 20046440,
      "step": 34545
    },
    {
      "epoch": 5.145963658028001,
      "grad_norm": 52.25593566894531,
      "learning_rate": 4.632554015846092e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 20049224,
      "step": 34550
    },
    {
      "epoch": 5.146708370568961,
      "grad_norm": 9.793065071105957,
      "learning_rate": 4.6323844184566045e-05,
      "loss": 0.557,
      "num_input_tokens_seen": 20052392,
      "step": 34555
    },
    {
      "epoch": 5.1474530831099194,
      "grad_norm": 6.2428460121154785,
      "learning_rate": 4.6322147850426504e-05,
      "loss": 0.251,
      "num_input_tokens_seen": 20055400,
      "step": 34560
    },
    {
      "epoch": 5.148197795650879,
      "grad_norm": 0.27742302417755127,
      "learning_rate": 4.6320451156070934e-05,
      "loss": 0.2992,
      "num_input_tokens_seen": 20058440,
      "step": 34565
    },
    {
      "epoch": 5.148942508191838,
      "grad_norm": 13.714488983154297,
      "learning_rate": 4.6318754101528014e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 20061672,
      "step": 34570
    },
    {
      "epoch": 5.1496872207327975,
      "grad_norm": 5.710298538208008,
      "learning_rate": 4.631705668682641e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 20064584,
      "step": 34575
    },
    {
      "epoch": 5.150431933273756,
      "grad_norm": 17.13532066345215,
      "learning_rate": 4.631535891199481e-05,
      "loss": 0.2477,
      "num_input_tokens_seen": 20067336,
      "step": 34580
    },
    {
      "epoch": 5.151176645814716,
      "grad_norm": 5.341555595397949,
      "learning_rate": 4.6313660777061874e-05,
      "loss": 0.2984,
      "num_input_tokens_seen": 20070344,
      "step": 34585
    },
    {
      "epoch": 5.151921358355675,
      "grad_norm": 12.42190170288086,
      "learning_rate": 4.63119622820563e-05,
      "loss": 0.2664,
      "num_input_tokens_seen": 20072840,
      "step": 34590
    },
    {
      "epoch": 5.152666070896634,
      "grad_norm": 23.352174758911133,
      "learning_rate": 4.6310263427006786e-05,
      "loss": 0.3338,
      "num_input_tokens_seen": 20075752,
      "step": 34595
    },
    {
      "epoch": 5.153410783437593,
      "grad_norm": 46.025482177734375,
      "learning_rate": 4.6308564211942044e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 20078696,
      "step": 34600
    },
    {
      "epoch": 5.154155495978552,
      "grad_norm": 12.959031105041504,
      "learning_rate": 4.6306864636890745e-05,
      "loss": 0.2353,
      "num_input_tokens_seen": 20081544,
      "step": 34605
    },
    {
      "epoch": 5.1549002085195115,
      "grad_norm": 11.02906322479248,
      "learning_rate": 4.6305164701881634e-05,
      "loss": 0.2722,
      "num_input_tokens_seen": 20084456,
      "step": 34610
    },
    {
      "epoch": 5.15564492106047,
      "grad_norm": 12.238663673400879,
      "learning_rate": 4.6303464406943416e-05,
      "loss": 0.2528,
      "num_input_tokens_seen": 20087080,
      "step": 34615
    },
    {
      "epoch": 5.15638963360143,
      "grad_norm": 30.740039825439453,
      "learning_rate": 4.630176375210482e-05,
      "loss": 0.1563,
      "num_input_tokens_seen": 20089736,
      "step": 34620
    },
    {
      "epoch": 5.157134346142389,
      "grad_norm": 9.141752243041992,
      "learning_rate": 4.630006273739458e-05,
      "loss": 0.3581,
      "num_input_tokens_seen": 20092616,
      "step": 34625
    },
    {
      "epoch": 5.157879058683348,
      "grad_norm": 35.46717834472656,
      "learning_rate": 4.629836136284143e-05,
      "loss": 0.4625,
      "num_input_tokens_seen": 20095400,
      "step": 34630
    },
    {
      "epoch": 5.158623771224307,
      "grad_norm": 2.380340576171875,
      "learning_rate": 4.62966596284741e-05,
      "loss": 0.3101,
      "num_input_tokens_seen": 20098408,
      "step": 34635
    },
    {
      "epoch": 5.159368483765267,
      "grad_norm": 0.735215961933136,
      "learning_rate": 4.629495753432136e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 20101352,
      "step": 34640
    },
    {
      "epoch": 5.1601131963062254,
      "grad_norm": 0.3196227252483368,
      "learning_rate": 4.629325508041195e-05,
      "loss": 0.0209,
      "num_input_tokens_seen": 20104104,
      "step": 34645
    },
    {
      "epoch": 5.160857908847185,
      "grad_norm": 1.5483943223953247,
      "learning_rate": 4.629155226677464e-05,
      "loss": 0.0951,
      "num_input_tokens_seen": 20107080,
      "step": 34650
    },
    {
      "epoch": 5.161602621388144,
      "grad_norm": 23.438371658325195,
      "learning_rate": 4.628984909343819e-05,
      "loss": 0.0855,
      "num_input_tokens_seen": 20109992,
      "step": 34655
    },
    {
      "epoch": 5.1623473339291035,
      "grad_norm": 61.06216049194336,
      "learning_rate": 4.6288145560431385e-05,
      "loss": 0.2048,
      "num_input_tokens_seen": 20112648,
      "step": 34660
    },
    {
      "epoch": 5.163092046470062,
      "grad_norm": 0.050874367356300354,
      "learning_rate": 4.628644166778299e-05,
      "loss": 0.0349,
      "num_input_tokens_seen": 20115336,
      "step": 34665
    },
    {
      "epoch": 5.163836759011022,
      "grad_norm": 0.011312518268823624,
      "learning_rate": 4.6284737415521806e-05,
      "loss": 0.1895,
      "num_input_tokens_seen": 20118184,
      "step": 34670
    },
    {
      "epoch": 5.164581471551981,
      "grad_norm": 35.64796829223633,
      "learning_rate": 4.628303280367661e-05,
      "loss": 0.5501,
      "num_input_tokens_seen": 20121000,
      "step": 34675
    },
    {
      "epoch": 5.16532618409294,
      "grad_norm": 0.16965587437152863,
      "learning_rate": 4.6281327832276204e-05,
      "loss": 0.3037,
      "num_input_tokens_seen": 20123944,
      "step": 34680
    },
    {
      "epoch": 5.166070896633899,
      "grad_norm": 25.396968841552734,
      "learning_rate": 4.627962250134939e-05,
      "loss": 0.2598,
      "num_input_tokens_seen": 20126568,
      "step": 34685
    },
    {
      "epoch": 5.166815609174859,
      "grad_norm": 16.355466842651367,
      "learning_rate": 4.627791681092499e-05,
      "loss": 0.2869,
      "num_input_tokens_seen": 20129576,
      "step": 34690
    },
    {
      "epoch": 5.1675603217158175,
      "grad_norm": 1.254152536392212,
      "learning_rate": 4.627621076103181e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 20132296,
      "step": 34695
    },
    {
      "epoch": 5.168305034256777,
      "grad_norm": 0.050908394157886505,
      "learning_rate": 4.627450435169868e-05,
      "loss": 0.1916,
      "num_input_tokens_seen": 20135144,
      "step": 34700
    },
    {
      "epoch": 5.169049746797736,
      "grad_norm": 0.05440216884016991,
      "learning_rate": 4.627279758295441e-05,
      "loss": 0.3703,
      "num_input_tokens_seen": 20138056,
      "step": 34705
    },
    {
      "epoch": 5.1697944593386955,
      "grad_norm": 1.3203496932983398,
      "learning_rate": 4.627109045482785e-05,
      "loss": 0.4817,
      "num_input_tokens_seen": 20141096,
      "step": 34710
    },
    {
      "epoch": 5.170539171879654,
      "grad_norm": 0.024538693949580193,
      "learning_rate": 4.626938296734784e-05,
      "loss": 0.255,
      "num_input_tokens_seen": 20143976,
      "step": 34715
    },
    {
      "epoch": 5.171283884420614,
      "grad_norm": 16.87546730041504,
      "learning_rate": 4.626767512054321e-05,
      "loss": 0.1907,
      "num_input_tokens_seen": 20146984,
      "step": 34720
    },
    {
      "epoch": 5.172028596961573,
      "grad_norm": 7.701794624328613,
      "learning_rate": 4.626596691444284e-05,
      "loss": 0.1842,
      "num_input_tokens_seen": 20149928,
      "step": 34725
    },
    {
      "epoch": 5.172773309502532,
      "grad_norm": 1.8521671295166016,
      "learning_rate": 4.626425834907556e-05,
      "loss": 0.1146,
      "num_input_tokens_seen": 20152584,
      "step": 34730
    },
    {
      "epoch": 5.173518022043491,
      "grad_norm": 0.24561433494091034,
      "learning_rate": 4.6262549424470253e-05,
      "loss": 0.1542,
      "num_input_tokens_seen": 20155592,
      "step": 34735
    },
    {
      "epoch": 5.174262734584451,
      "grad_norm": 0.05426200106739998,
      "learning_rate": 4.626084014065578e-05,
      "loss": 0.1611,
      "num_input_tokens_seen": 20158344,
      "step": 34740
    },
    {
      "epoch": 5.1750074471254095,
      "grad_norm": 26.107446670532227,
      "learning_rate": 4.625913049766103e-05,
      "loss": 0.331,
      "num_input_tokens_seen": 20161448,
      "step": 34745
    },
    {
      "epoch": 5.175752159666369,
      "grad_norm": 1.1040645837783813,
      "learning_rate": 4.625742049551487e-05,
      "loss": 0.3789,
      "num_input_tokens_seen": 20164104,
      "step": 34750
    },
    {
      "epoch": 5.176496872207328,
      "grad_norm": 3.1699931621551514,
      "learning_rate": 4.6255710134246197e-05,
      "loss": 0.0328,
      "num_input_tokens_seen": 20167368,
      "step": 34755
    },
    {
      "epoch": 5.1772415847482876,
      "grad_norm": 0.055170632898807526,
      "learning_rate": 4.6253999413883905e-05,
      "loss": 0.063,
      "num_input_tokens_seen": 20169960,
      "step": 34760
    },
    {
      "epoch": 5.177986297289246,
      "grad_norm": 0.0370408371090889,
      "learning_rate": 4.6252288334456887e-05,
      "loss": 0.5094,
      "num_input_tokens_seen": 20173032,
      "step": 34765
    },
    {
      "epoch": 5.178731009830206,
      "grad_norm": 0.006786120589822531,
      "learning_rate": 4.625057689599407e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 20175720,
      "step": 34770
    },
    {
      "epoch": 5.179475722371165,
      "grad_norm": 0.02676670253276825,
      "learning_rate": 4.6248865098524346e-05,
      "loss": 0.6435,
      "num_input_tokens_seen": 20178696,
      "step": 34775
    },
    {
      "epoch": 5.180220434912124,
      "grad_norm": 24.944665908813477,
      "learning_rate": 4.6247152942076646e-05,
      "loss": 0.3816,
      "num_input_tokens_seen": 20181864,
      "step": 34780
    },
    {
      "epoch": 5.180965147453083,
      "grad_norm": 104.866455078125,
      "learning_rate": 4.624544042667989e-05,
      "loss": 0.1806,
      "num_input_tokens_seen": 20184712,
      "step": 34785
    },
    {
      "epoch": 5.181709859994042,
      "grad_norm": 12.843768119812012,
      "learning_rate": 4.624372755236301e-05,
      "loss": 0.0572,
      "num_input_tokens_seen": 20187432,
      "step": 34790
    },
    {
      "epoch": 5.1824545725350015,
      "grad_norm": 36.77229309082031,
      "learning_rate": 4.624201431915495e-05,
      "loss": 0.4142,
      "num_input_tokens_seen": 20190344,
      "step": 34795
    },
    {
      "epoch": 5.18319928507596,
      "grad_norm": 15.015137672424316,
      "learning_rate": 4.624030072708464e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 20193288,
      "step": 34800
    },
    {
      "epoch": 5.18394399761692,
      "grad_norm": 26.729938507080078,
      "learning_rate": 4.623858677618104e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 20195944,
      "step": 34805
    },
    {
      "epoch": 5.184688710157879,
      "grad_norm": 33.24140930175781,
      "learning_rate": 4.62368724664731e-05,
      "loss": 0.2465,
      "num_input_tokens_seen": 20199176,
      "step": 34810
    },
    {
      "epoch": 5.185433422698838,
      "grad_norm": 20.130695343017578,
      "learning_rate": 4.623515779798979e-05,
      "loss": 0.2334,
      "num_input_tokens_seen": 20201832,
      "step": 34815
    },
    {
      "epoch": 5.186178135239797,
      "grad_norm": 1.9011833667755127,
      "learning_rate": 4.623344277076007e-05,
      "loss": 0.0848,
      "num_input_tokens_seen": 20204520,
      "step": 34820
    },
    {
      "epoch": 5.186922847780757,
      "grad_norm": 7.861323356628418,
      "learning_rate": 4.6231727384812916e-05,
      "loss": 0.1173,
      "num_input_tokens_seen": 20207400,
      "step": 34825
    },
    {
      "epoch": 5.1876675603217155,
      "grad_norm": 0.19743004441261292,
      "learning_rate": 4.62300116401773e-05,
      "loss": 0.1277,
      "num_input_tokens_seen": 20210312,
      "step": 34830
    },
    {
      "epoch": 5.188412272862675,
      "grad_norm": 55.13460922241211,
      "learning_rate": 4.622829553688222e-05,
      "loss": 0.1129,
      "num_input_tokens_seen": 20213000,
      "step": 34835
    },
    {
      "epoch": 5.189156985403634,
      "grad_norm": 24.159265518188477,
      "learning_rate": 4.622657907495667e-05,
      "loss": 0.3031,
      "num_input_tokens_seen": 20216072,
      "step": 34840
    },
    {
      "epoch": 5.1899016979445936,
      "grad_norm": 23.150190353393555,
      "learning_rate": 4.6224862254429623e-05,
      "loss": 0.4053,
      "num_input_tokens_seen": 20218856,
      "step": 34845
    },
    {
      "epoch": 5.190646410485552,
      "grad_norm": 0.2774924635887146,
      "learning_rate": 4.622314507533011e-05,
      "loss": 0.0092,
      "num_input_tokens_seen": 20221736,
      "step": 34850
    },
    {
      "epoch": 5.191391123026512,
      "grad_norm": 14.828859329223633,
      "learning_rate": 4.622142753768713e-05,
      "loss": 0.3677,
      "num_input_tokens_seen": 20224712,
      "step": 34855
    },
    {
      "epoch": 5.192135835567471,
      "grad_norm": 66.683837890625,
      "learning_rate": 4.6219709641529695e-05,
      "loss": 0.3857,
      "num_input_tokens_seen": 20227560,
      "step": 34860
    },
    {
      "epoch": 5.19288054810843,
      "grad_norm": 24.347156524658203,
      "learning_rate": 4.621799138688684e-05,
      "loss": 0.2681,
      "num_input_tokens_seen": 20230472,
      "step": 34865
    },
    {
      "epoch": 5.193625260649389,
      "grad_norm": 11.77114486694336,
      "learning_rate": 4.6216272773787586e-05,
      "loss": 0.2225,
      "num_input_tokens_seen": 20233800,
      "step": 34870
    },
    {
      "epoch": 5.194369973190349,
      "grad_norm": 8.354575157165527,
      "learning_rate": 4.621455380226096e-05,
      "loss": 0.2629,
      "num_input_tokens_seen": 20236616,
      "step": 34875
    },
    {
      "epoch": 5.1951146857313075,
      "grad_norm": 0.06408471614122391,
      "learning_rate": 4.6212834472336016e-05,
      "loss": 0.243,
      "num_input_tokens_seen": 20239528,
      "step": 34880
    },
    {
      "epoch": 5.195859398272267,
      "grad_norm": 16.513511657714844,
      "learning_rate": 4.6211114784041784e-05,
      "loss": 0.2953,
      "num_input_tokens_seen": 20242312,
      "step": 34885
    },
    {
      "epoch": 5.196604110813226,
      "grad_norm": 38.31756591796875,
      "learning_rate": 4.620939473740733e-05,
      "loss": 0.2935,
      "num_input_tokens_seen": 20245160,
      "step": 34890
    },
    {
      "epoch": 5.197348823354186,
      "grad_norm": 11.613807678222656,
      "learning_rate": 4.6207674332461716e-05,
      "loss": 0.2966,
      "num_input_tokens_seen": 20248296,
      "step": 34895
    },
    {
      "epoch": 5.198093535895144,
      "grad_norm": 1.8879351615905762,
      "learning_rate": 4.620595356923399e-05,
      "loss": 0.2266,
      "num_input_tokens_seen": 20251176,
      "step": 34900
    },
    {
      "epoch": 5.198838248436104,
      "grad_norm": 3.6574220657348633,
      "learning_rate": 4.620423244775323e-05,
      "loss": 0.4405,
      "num_input_tokens_seen": 20254088,
      "step": 34905
    },
    {
      "epoch": 5.199582960977063,
      "grad_norm": 2.0178704261779785,
      "learning_rate": 4.6202510968048515e-05,
      "loss": 0.1329,
      "num_input_tokens_seen": 20256968,
      "step": 34910
    },
    {
      "epoch": 5.200327673518022,
      "grad_norm": 0.2594096064567566,
      "learning_rate": 4.620078913014893e-05,
      "loss": 0.2079,
      "num_input_tokens_seen": 20259592,
      "step": 34915
    },
    {
      "epoch": 5.201072386058981,
      "grad_norm": 36.41256332397461,
      "learning_rate": 4.619906693408357e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 20262824,
      "step": 34920
    },
    {
      "epoch": 5.201817098599941,
      "grad_norm": 42.35374069213867,
      "learning_rate": 4.61973443798815e-05,
      "loss": 0.2615,
      "num_input_tokens_seen": 20265736,
      "step": 34925
    },
    {
      "epoch": 5.2025618111408996,
      "grad_norm": 15.210213661193848,
      "learning_rate": 4.6195621467571856e-05,
      "loss": 0.3264,
      "num_input_tokens_seen": 20268712,
      "step": 34930
    },
    {
      "epoch": 5.203306523681859,
      "grad_norm": 2.1674373149871826,
      "learning_rate": 4.619389819718371e-05,
      "loss": 0.2994,
      "num_input_tokens_seen": 20271720,
      "step": 34935
    },
    {
      "epoch": 5.204051236222818,
      "grad_norm": 17.555875778198242,
      "learning_rate": 4.619217456874622e-05,
      "loss": 0.1503,
      "num_input_tokens_seen": 20274344,
      "step": 34940
    },
    {
      "epoch": 5.204795948763778,
      "grad_norm": 55.58058166503906,
      "learning_rate": 4.619045058228847e-05,
      "loss": 0.1173,
      "num_input_tokens_seen": 20276968,
      "step": 34945
    },
    {
      "epoch": 5.205540661304736,
      "grad_norm": 12.785698890686035,
      "learning_rate": 4.6188726237839586e-05,
      "loss": 0.4283,
      "num_input_tokens_seen": 20279880,
      "step": 34950
    },
    {
      "epoch": 5.206285373845695,
      "grad_norm": 4.739705562591553,
      "learning_rate": 4.6187001535428716e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 20282792,
      "step": 34955
    },
    {
      "epoch": 5.207030086386655,
      "grad_norm": 0.05789785832166672,
      "learning_rate": 4.618527647508498e-05,
      "loss": 0.1263,
      "num_input_tokens_seen": 20285640,
      "step": 34960
    },
    {
      "epoch": 5.2077747989276135,
      "grad_norm": 34.32462692260742,
      "learning_rate": 4.618355105683754e-05,
      "loss": 0.1469,
      "num_input_tokens_seen": 20288488,
      "step": 34965
    },
    {
      "epoch": 5.208519511468573,
      "grad_norm": 65.36644744873047,
      "learning_rate": 4.618182528071553e-05,
      "loss": 0.3983,
      "num_input_tokens_seen": 20291304,
      "step": 34970
    },
    {
      "epoch": 5.209264224009532,
      "grad_norm": 21.23809051513672,
      "learning_rate": 4.618009914674811e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 20294216,
      "step": 34975
    },
    {
      "epoch": 5.210008936550492,
      "grad_norm": 2.670325756072998,
      "learning_rate": 4.617837265496444e-05,
      "loss": 0.5359,
      "num_input_tokens_seen": 20297032,
      "step": 34980
    },
    {
      "epoch": 5.21075364909145,
      "grad_norm": 0.07139312475919724,
      "learning_rate": 4.617664580539369e-05,
      "loss": 0.0687,
      "num_input_tokens_seen": 20299752,
      "step": 34985
    },
    {
      "epoch": 5.21149836163241,
      "grad_norm": 0.8939769864082336,
      "learning_rate": 4.6174918598065034e-05,
      "loss": 0.1481,
      "num_input_tokens_seen": 20302696,
      "step": 34990
    },
    {
      "epoch": 5.212243074173369,
      "grad_norm": 2.0576565265655518,
      "learning_rate": 4.617319103300764e-05,
      "loss": 0.2778,
      "num_input_tokens_seen": 20305256,
      "step": 34995
    },
    {
      "epoch": 5.212987786714328,
      "grad_norm": 2.0683791637420654,
      "learning_rate": 4.6171463110250725e-05,
      "loss": 0.0184,
      "num_input_tokens_seen": 20308136,
      "step": 35000
    },
    {
      "epoch": 5.213732499255287,
      "grad_norm": 0.06177137792110443,
      "learning_rate": 4.616973482982344e-05,
      "loss": 0.094,
      "num_input_tokens_seen": 20310920,
      "step": 35005
    },
    {
      "epoch": 5.214477211796247,
      "grad_norm": 27.92180061340332,
      "learning_rate": 4.616800619175501e-05,
      "loss": 0.4502,
      "num_input_tokens_seen": 20313896,
      "step": 35010
    },
    {
      "epoch": 5.2152219243372056,
      "grad_norm": 0.07549498230218887,
      "learning_rate": 4.616627719607462e-05,
      "loss": 0.2721,
      "num_input_tokens_seen": 20316808,
      "step": 35015
    },
    {
      "epoch": 5.215966636878165,
      "grad_norm": 0.21640697121620178,
      "learning_rate": 4.6164547842811494e-05,
      "loss": 0.3702,
      "num_input_tokens_seen": 20319592,
      "step": 35020
    },
    {
      "epoch": 5.216711349419124,
      "grad_norm": 0.10510000586509705,
      "learning_rate": 4.6162818131994845e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 20322792,
      "step": 35025
    },
    {
      "epoch": 5.217456061960084,
      "grad_norm": 1.2700930833816528,
      "learning_rate": 4.616108806365389e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 20325640,
      "step": 35030
    },
    {
      "epoch": 5.218200774501042,
      "grad_norm": 7.677762508392334,
      "learning_rate": 4.6159357637817855e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 20328456,
      "step": 35035
    },
    {
      "epoch": 5.218945487042002,
      "grad_norm": 79.79651641845703,
      "learning_rate": 4.6157626854515986e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 20331112,
      "step": 35040
    },
    {
      "epoch": 5.219690199582961,
      "grad_norm": 39.59104919433594,
      "learning_rate": 4.615589571377752e-05,
      "loss": 0.2987,
      "num_input_tokens_seen": 20333896,
      "step": 35045
    },
    {
      "epoch": 5.22043491212392,
      "grad_norm": 0.2088882476091385,
      "learning_rate": 4.6154164215631685e-05,
      "loss": 0.3393,
      "num_input_tokens_seen": 20337000,
      "step": 35050
    },
    {
      "epoch": 5.221179624664879,
      "grad_norm": 13.573864936828613,
      "learning_rate": 4.615243236010775e-05,
      "loss": 0.3767,
      "num_input_tokens_seen": 20339912,
      "step": 35055
    },
    {
      "epoch": 5.221924337205839,
      "grad_norm": 10.54984188079834,
      "learning_rate": 4.615070014723497e-05,
      "loss": 0.2239,
      "num_input_tokens_seen": 20342728,
      "step": 35060
    },
    {
      "epoch": 5.222669049746798,
      "grad_norm": 15.324125289916992,
      "learning_rate": 4.614896757704261e-05,
      "loss": 0.0517,
      "num_input_tokens_seen": 20346088,
      "step": 35065
    },
    {
      "epoch": 5.223413762287757,
      "grad_norm": 26.964040756225586,
      "learning_rate": 4.614723464955993e-05,
      "loss": 0.5144,
      "num_input_tokens_seen": 20349416,
      "step": 35070
    },
    {
      "epoch": 5.224158474828716,
      "grad_norm": 120.84310150146484,
      "learning_rate": 4.6145501364816226e-05,
      "loss": 0.1142,
      "num_input_tokens_seen": 20352296,
      "step": 35075
    },
    {
      "epoch": 5.224903187369676,
      "grad_norm": 29.601009368896484,
      "learning_rate": 4.614376772284075e-05,
      "loss": 0.6509,
      "num_input_tokens_seen": 20355176,
      "step": 35080
    },
    {
      "epoch": 5.225647899910634,
      "grad_norm": 8.483551025390625,
      "learning_rate": 4.6142033723662825e-05,
      "loss": 0.3445,
      "num_input_tokens_seen": 20358152,
      "step": 35085
    },
    {
      "epoch": 5.226392612451594,
      "grad_norm": 58.79280471801758,
      "learning_rate": 4.614029936731172e-05,
      "loss": 0.6899,
      "num_input_tokens_seen": 20360904,
      "step": 35090
    },
    {
      "epoch": 5.227137324992553,
      "grad_norm": 30.51245880126953,
      "learning_rate": 4.613856465381674e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 20363816,
      "step": 35095
    },
    {
      "epoch": 5.227882037533512,
      "grad_norm": 0.014028877019882202,
      "learning_rate": 4.6136829583207197e-05,
      "loss": 0.3899,
      "num_input_tokens_seen": 20366600,
      "step": 35100
    },
    {
      "epoch": 5.228626750074471,
      "grad_norm": 0.23526601493358612,
      "learning_rate": 4.6135094155512405e-05,
      "loss": 0.1265,
      "num_input_tokens_seen": 20369448,
      "step": 35105
    },
    {
      "epoch": 5.229371462615431,
      "grad_norm": 9.395195007324219,
      "learning_rate": 4.613335837076168e-05,
      "loss": 0.1618,
      "num_input_tokens_seen": 20372072,
      "step": 35110
    },
    {
      "epoch": 5.23011617515639,
      "grad_norm": 0.30929601192474365,
      "learning_rate": 4.6131622228984336e-05,
      "loss": 0.2329,
      "num_input_tokens_seen": 20374984,
      "step": 35115
    },
    {
      "epoch": 5.230860887697349,
      "grad_norm": 14.849608421325684,
      "learning_rate": 4.6129885730209715e-05,
      "loss": 0.1139,
      "num_input_tokens_seen": 20377992,
      "step": 35120
    },
    {
      "epoch": 5.231605600238308,
      "grad_norm": 1.4392575025558472,
      "learning_rate": 4.612814887446715e-05,
      "loss": 0.2069,
      "num_input_tokens_seen": 20381160,
      "step": 35125
    },
    {
      "epoch": 5.232350312779268,
      "grad_norm": 10.285196304321289,
      "learning_rate": 4.6126411661785984e-05,
      "loss": 0.2034,
      "num_input_tokens_seen": 20384072,
      "step": 35130
    },
    {
      "epoch": 5.233095025320226,
      "grad_norm": 9.61085319519043,
      "learning_rate": 4.612467409219556e-05,
      "loss": 0.3009,
      "num_input_tokens_seen": 20386984,
      "step": 35135
    },
    {
      "epoch": 5.233839737861185,
      "grad_norm": 0.035949744284152985,
      "learning_rate": 4.612293616572525e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 20390248,
      "step": 35140
    },
    {
      "epoch": 5.234584450402145,
      "grad_norm": 8.016090393066406,
      "learning_rate": 4.612119788240439e-05,
      "loss": 0.2867,
      "num_input_tokens_seen": 20393192,
      "step": 35145
    },
    {
      "epoch": 5.235329162943104,
      "grad_norm": 0.07201611250638962,
      "learning_rate": 4.6119459242262366e-05,
      "loss": 0.2524,
      "num_input_tokens_seen": 20395944,
      "step": 35150
    },
    {
      "epoch": 5.236073875484063,
      "grad_norm": 4.219404697418213,
      "learning_rate": 4.611772024532854e-05,
      "loss": 0.0201,
      "num_input_tokens_seen": 20398760,
      "step": 35155
    },
    {
      "epoch": 5.236818588025022,
      "grad_norm": 0.49975916743278503,
      "learning_rate": 4.611598089163229e-05,
      "loss": 0.17,
      "num_input_tokens_seen": 20401864,
      "step": 35160
    },
    {
      "epoch": 5.237563300565982,
      "grad_norm": 46.68241882324219,
      "learning_rate": 4.611424118120301e-05,
      "loss": 0.0609,
      "num_input_tokens_seen": 20404872,
      "step": 35165
    },
    {
      "epoch": 5.23830801310694,
      "grad_norm": 24.120080947875977,
      "learning_rate": 4.611250111407008e-05,
      "loss": 0.3327,
      "num_input_tokens_seen": 20407656,
      "step": 35170
    },
    {
      "epoch": 5.2390527256479,
      "grad_norm": 33.573123931884766,
      "learning_rate": 4.6110760690262907e-05,
      "loss": 0.4659,
      "num_input_tokens_seen": 20410536,
      "step": 35175
    },
    {
      "epoch": 5.239797438188859,
      "grad_norm": 31.144298553466797,
      "learning_rate": 4.610901990981088e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 20413352,
      "step": 35180
    },
    {
      "epoch": 5.240542150729818,
      "grad_norm": 0.02865706756711006,
      "learning_rate": 4.6107278772743426e-05,
      "loss": 0.3129,
      "num_input_tokens_seen": 20416264,
      "step": 35185
    },
    {
      "epoch": 5.241286863270777,
      "grad_norm": 10.295634269714355,
      "learning_rate": 4.610553727908994e-05,
      "loss": 0.147,
      "num_input_tokens_seen": 20418952,
      "step": 35190
    },
    {
      "epoch": 5.242031575811737,
      "grad_norm": 0.16529934108257294,
      "learning_rate": 4.6103795428879856e-05,
      "loss": 0.0753,
      "num_input_tokens_seen": 20421672,
      "step": 35195
    },
    {
      "epoch": 5.242776288352696,
      "grad_norm": 0.09125448018312454,
      "learning_rate": 4.6102053222142595e-05,
      "loss": 0.2858,
      "num_input_tokens_seen": 20424584,
      "step": 35200
    },
    {
      "epoch": 5.243521000893655,
      "grad_norm": 6.59439754486084,
      "learning_rate": 4.61003106589076e-05,
      "loss": 0.3579,
      "num_input_tokens_seen": 20427624,
      "step": 35205
    },
    {
      "epoch": 5.244265713434614,
      "grad_norm": 35.223670959472656,
      "learning_rate": 4.6098567739204294e-05,
      "loss": 0.1858,
      "num_input_tokens_seen": 20430376,
      "step": 35210
    },
    {
      "epoch": 5.245010425975574,
      "grad_norm": 8.071791648864746,
      "learning_rate": 4.609682446306213e-05,
      "loss": 0.2752,
      "num_input_tokens_seen": 20433160,
      "step": 35215
    },
    {
      "epoch": 5.245755138516532,
      "grad_norm": 0.10520172119140625,
      "learning_rate": 4.6095080830510564e-05,
      "loss": 0.1274,
      "num_input_tokens_seen": 20436008,
      "step": 35220
    },
    {
      "epoch": 5.246499851057492,
      "grad_norm": 100.92549896240234,
      "learning_rate": 4.6093336841579044e-05,
      "loss": 0.258,
      "num_input_tokens_seen": 20438952,
      "step": 35225
    },
    {
      "epoch": 5.247244563598451,
      "grad_norm": 22.12152671813965,
      "learning_rate": 4.609159249629704e-05,
      "loss": 0.4357,
      "num_input_tokens_seen": 20441704,
      "step": 35230
    },
    {
      "epoch": 5.2479892761394105,
      "grad_norm": 0.9771813154220581,
      "learning_rate": 4.6089847794694005e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 20444328,
      "step": 35235
    },
    {
      "epoch": 5.248733988680369,
      "grad_norm": 26.9788761138916,
      "learning_rate": 4.6088102736799445e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 20447336,
      "step": 35240
    },
    {
      "epoch": 5.249478701221329,
      "grad_norm": 0.06529738754034042,
      "learning_rate": 4.60863573226428e-05,
      "loss": 0.0577,
      "num_input_tokens_seen": 20450184,
      "step": 35245
    },
    {
      "epoch": 5.250223413762288,
      "grad_norm": 0.05769609287381172,
      "learning_rate": 4.6084611552253595e-05,
      "loss": 0.2644,
      "num_input_tokens_seen": 20453128,
      "step": 35250
    },
    {
      "epoch": 5.250968126303247,
      "grad_norm": 17.79273223876953,
      "learning_rate": 4.6082865425661307e-05,
      "loss": 0.3919,
      "num_input_tokens_seen": 20455976,
      "step": 35255
    },
    {
      "epoch": 5.251712838844206,
      "grad_norm": 125.31006622314453,
      "learning_rate": 4.608111894289543e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 20458984,
      "step": 35260
    },
    {
      "epoch": 5.252457551385166,
      "grad_norm": 0.3020061254501343,
      "learning_rate": 4.607937210398548e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 20461704,
      "step": 35265
    },
    {
      "epoch": 5.253202263926124,
      "grad_norm": 2.5798394680023193,
      "learning_rate": 4.607762490896096e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 20464584,
      "step": 35270
    },
    {
      "epoch": 5.253946976467084,
      "grad_norm": 21.819643020629883,
      "learning_rate": 4.6075877357851384e-05,
      "loss": 0.4886,
      "num_input_tokens_seen": 20467720,
      "step": 35275
    },
    {
      "epoch": 5.254691689008043,
      "grad_norm": 0.384625107049942,
      "learning_rate": 4.607412945068629e-05,
      "loss": 0.4148,
      "num_input_tokens_seen": 20470632,
      "step": 35280
    },
    {
      "epoch": 5.2554364015490025,
      "grad_norm": 0.4086288809776306,
      "learning_rate": 4.607238118749519e-05,
      "loss": 0.1512,
      "num_input_tokens_seen": 20473640,
      "step": 35285
    },
    {
      "epoch": 5.256181114089961,
      "grad_norm": 108.11670684814453,
      "learning_rate": 4.607063256830763e-05,
      "loss": 0.5739,
      "num_input_tokens_seen": 20476488,
      "step": 35290
    },
    {
      "epoch": 5.256925826630921,
      "grad_norm": 11.567900657653809,
      "learning_rate": 4.6068883593153147e-05,
      "loss": 0.2584,
      "num_input_tokens_seen": 20479368,
      "step": 35295
    },
    {
      "epoch": 5.25767053917188,
      "grad_norm": 18.04758071899414,
      "learning_rate": 4.606713426206129e-05,
      "loss": 0.1557,
      "num_input_tokens_seen": 20482344,
      "step": 35300
    },
    {
      "epoch": 5.258415251712838,
      "grad_norm": 7.657675743103027,
      "learning_rate": 4.606538457506161e-05,
      "loss": 0.0854,
      "num_input_tokens_seen": 20485608,
      "step": 35305
    },
    {
      "epoch": 5.259159964253798,
      "grad_norm": 13.605476379394531,
      "learning_rate": 4.606363453218367e-05,
      "loss": 0.224,
      "num_input_tokens_seen": 20488840,
      "step": 35310
    },
    {
      "epoch": 5.259904676794757,
      "grad_norm": 60.20191192626953,
      "learning_rate": 4.606188413345704e-05,
      "loss": 0.4953,
      "num_input_tokens_seen": 20491720,
      "step": 35315
    },
    {
      "epoch": 5.2606493893357165,
      "grad_norm": 0.3083026111125946,
      "learning_rate": 4.6060133378911265e-05,
      "loss": 0.1716,
      "num_input_tokens_seen": 20494568,
      "step": 35320
    },
    {
      "epoch": 5.261394101876675,
      "grad_norm": 2.21077823638916,
      "learning_rate": 4.605838226857595e-05,
      "loss": 0.3661,
      "num_input_tokens_seen": 20497448,
      "step": 35325
    },
    {
      "epoch": 5.262138814417635,
      "grad_norm": 1.691512107849121,
      "learning_rate": 4.605663080248067e-05,
      "loss": 0.0312,
      "num_input_tokens_seen": 20500264,
      "step": 35330
    },
    {
      "epoch": 5.262883526958594,
      "grad_norm": 34.15386199951172,
      "learning_rate": 4.6054878980655015e-05,
      "loss": 0.2337,
      "num_input_tokens_seen": 20502952,
      "step": 35335
    },
    {
      "epoch": 5.263628239499553,
      "grad_norm": 5.8673248291015625,
      "learning_rate": 4.605312680312858e-05,
      "loss": 0.0831,
      "num_input_tokens_seen": 20505800,
      "step": 35340
    },
    {
      "epoch": 5.264372952040512,
      "grad_norm": 0.024537522345781326,
      "learning_rate": 4.605137426993096e-05,
      "loss": 0.3352,
      "num_input_tokens_seen": 20508680,
      "step": 35345
    },
    {
      "epoch": 5.265117664581472,
      "grad_norm": 1.002314567565918,
      "learning_rate": 4.6049621381091776e-05,
      "loss": 0.1208,
      "num_input_tokens_seen": 20511528,
      "step": 35350
    },
    {
      "epoch": 5.26586237712243,
      "grad_norm": 6.6016154289245605,
      "learning_rate": 4.604786813664063e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 20514376,
      "step": 35355
    },
    {
      "epoch": 5.26660708966339,
      "grad_norm": 14.185757637023926,
      "learning_rate": 4.6046114536607133e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 20517384,
      "step": 35360
    },
    {
      "epoch": 5.267351802204349,
      "grad_norm": 3.6027417182922363,
      "learning_rate": 4.604436058102093e-05,
      "loss": 0.2868,
      "num_input_tokens_seen": 20520552,
      "step": 35365
    },
    {
      "epoch": 5.2680965147453085,
      "grad_norm": 0.42560774087905884,
      "learning_rate": 4.6042606269911645e-05,
      "loss": 0.2961,
      "num_input_tokens_seen": 20523336,
      "step": 35370
    },
    {
      "epoch": 5.268841227286267,
      "grad_norm": 55.875205993652344,
      "learning_rate": 4.604085160330891e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 20525736,
      "step": 35375
    },
    {
      "epoch": 5.269585939827227,
      "grad_norm": 2.7566027641296387,
      "learning_rate": 4.603909658124238e-05,
      "loss": 0.5022,
      "num_input_tokens_seen": 20528648,
      "step": 35380
    },
    {
      "epoch": 5.270330652368186,
      "grad_norm": 0.3575143814086914,
      "learning_rate": 4.6037341203741686e-05,
      "loss": 0.6364,
      "num_input_tokens_seen": 20531560,
      "step": 35385
    },
    {
      "epoch": 5.271075364909145,
      "grad_norm": 12.06855297088623,
      "learning_rate": 4.6035585470836494e-05,
      "loss": 0.292,
      "num_input_tokens_seen": 20534440,
      "step": 35390
    },
    {
      "epoch": 5.271820077450104,
      "grad_norm": 3.329111099243164,
      "learning_rate": 4.603382938255647e-05,
      "loss": 0.2231,
      "num_input_tokens_seen": 20537192,
      "step": 35395
    },
    {
      "epoch": 5.272564789991064,
      "grad_norm": 6.54929256439209,
      "learning_rate": 4.603207293893128e-05,
      "loss": 0.1631,
      "num_input_tokens_seen": 20539656,
      "step": 35400
    },
    {
      "epoch": 5.2733095025320225,
      "grad_norm": 7.628970146179199,
      "learning_rate": 4.6030316139990595e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 20542664,
      "step": 35405
    },
    {
      "epoch": 5.274054215072982,
      "grad_norm": 2.3473470211029053,
      "learning_rate": 4.602855898576408e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 20545736,
      "step": 35410
    },
    {
      "epoch": 5.274798927613941,
      "grad_norm": 31.72603988647461,
      "learning_rate": 4.6026801476281436e-05,
      "loss": 0.0378,
      "num_input_tokens_seen": 20548488,
      "step": 35415
    },
    {
      "epoch": 5.2755436401549005,
      "grad_norm": 7.055297374725342,
      "learning_rate": 4.602504361157236e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 20551400,
      "step": 35420
    },
    {
      "epoch": 5.276288352695859,
      "grad_norm": 23.809728622436523,
      "learning_rate": 4.602328539166654e-05,
      "loss": 0.0718,
      "num_input_tokens_seen": 20554152,
      "step": 35425
    },
    {
      "epoch": 5.277033065236819,
      "grad_norm": 40.89632797241211,
      "learning_rate": 4.602152681659368e-05,
      "loss": 0.1248,
      "num_input_tokens_seen": 20556840,
      "step": 35430
    },
    {
      "epoch": 5.277777777777778,
      "grad_norm": 1.6712894439697266,
      "learning_rate": 4.601976788638349e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 20559752,
      "step": 35435
    },
    {
      "epoch": 5.278522490318737,
      "grad_norm": 0.23007246851921082,
      "learning_rate": 4.601800860106568e-05,
      "loss": 0.1149,
      "num_input_tokens_seen": 20562600,
      "step": 35440
    },
    {
      "epoch": 5.279267202859696,
      "grad_norm": 22.2539119720459,
      "learning_rate": 4.601624896066998e-05,
      "loss": 0.1146,
      "num_input_tokens_seen": 20565640,
      "step": 35445
    },
    {
      "epoch": 5.280011915400656,
      "grad_norm": 8.480880737304688,
      "learning_rate": 4.601448896522611e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 20568456,
      "step": 35450
    },
    {
      "epoch": 5.2807566279416145,
      "grad_norm": 28.573537826538086,
      "learning_rate": 4.601272861476381e-05,
      "loss": 0.4072,
      "num_input_tokens_seen": 20571368,
      "step": 35455
    },
    {
      "epoch": 5.281501340482574,
      "grad_norm": 49.15058898925781,
      "learning_rate": 4.601096790931282e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 20574280,
      "step": 35460
    },
    {
      "epoch": 5.282246053023533,
      "grad_norm": 23.031286239624023,
      "learning_rate": 4.6009206848902874e-05,
      "loss": 0.6405,
      "num_input_tokens_seen": 20577064,
      "step": 35465
    },
    {
      "epoch": 5.282990765564492,
      "grad_norm": 0.1381508708000183,
      "learning_rate": 4.6007445433563734e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 20580072,
      "step": 35470
    },
    {
      "epoch": 5.283735478105451,
      "grad_norm": 0.9433437585830688,
      "learning_rate": 4.600568366332516e-05,
      "loss": 0.1757,
      "num_input_tokens_seen": 20582952,
      "step": 35475
    },
    {
      "epoch": 5.284480190646411,
      "grad_norm": 14.341324806213379,
      "learning_rate": 4.60039215382169e-05,
      "loss": 0.6593,
      "num_input_tokens_seen": 20586024,
      "step": 35480
    },
    {
      "epoch": 5.28522490318737,
      "grad_norm": 7.12791633605957,
      "learning_rate": 4.6002159058268744e-05,
      "loss": 0.1299,
      "num_input_tokens_seen": 20588808,
      "step": 35485
    },
    {
      "epoch": 5.2859696157283285,
      "grad_norm": 12.658761978149414,
      "learning_rate": 4.600039622351045e-05,
      "loss": 0.1499,
      "num_input_tokens_seen": 20591720,
      "step": 35490
    },
    {
      "epoch": 5.286714328269288,
      "grad_norm": 5.60979700088501,
      "learning_rate": 4.59986330339718e-05,
      "loss": 0.1655,
      "num_input_tokens_seen": 20594728,
      "step": 35495
    },
    {
      "epoch": 5.287459040810247,
      "grad_norm": 35.296531677246094,
      "learning_rate": 4.59968694896826e-05,
      "loss": 0.3486,
      "num_input_tokens_seen": 20597448,
      "step": 35500
    },
    {
      "epoch": 5.2882037533512065,
      "grad_norm": 0.05344820022583008,
      "learning_rate": 4.599510559067263e-05,
      "loss": 0.0791,
      "num_input_tokens_seen": 20600808,
      "step": 35505
    },
    {
      "epoch": 5.288948465892165,
      "grad_norm": 40.755245208740234,
      "learning_rate": 4.599334133697167e-05,
      "loss": 0.2208,
      "num_input_tokens_seen": 20603784,
      "step": 35510
    },
    {
      "epoch": 5.289693178433125,
      "grad_norm": 29.305435180664062,
      "learning_rate": 4.5991576728609565e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 20606472,
      "step": 35515
    },
    {
      "epoch": 5.290437890974084,
      "grad_norm": 1.9208239316940308,
      "learning_rate": 4.5989811765616094e-05,
      "loss": 0.3916,
      "num_input_tokens_seen": 20609608,
      "step": 35520
    },
    {
      "epoch": 5.291182603515043,
      "grad_norm": 27.780780792236328,
      "learning_rate": 4.5988046448021096e-05,
      "loss": 0.1705,
      "num_input_tokens_seen": 20612456,
      "step": 35525
    },
    {
      "epoch": 5.291927316056002,
      "grad_norm": 10.765044212341309,
      "learning_rate": 4.598628077585438e-05,
      "loss": 0.4088,
      "num_input_tokens_seen": 20615208,
      "step": 35530
    },
    {
      "epoch": 5.292672028596962,
      "grad_norm": 14.223751068115234,
      "learning_rate": 4.598451474914578e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 20618024,
      "step": 35535
    },
    {
      "epoch": 5.2934167411379205,
      "grad_norm": 0.5058702826499939,
      "learning_rate": 4.598274836792513e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 20620840,
      "step": 35540
    },
    {
      "epoch": 5.29416145367888,
      "grad_norm": 0.6063665151596069,
      "learning_rate": 4.5980981632222275e-05,
      "loss": 0.2679,
      "num_input_tokens_seen": 20623624,
      "step": 35545
    },
    {
      "epoch": 5.294906166219839,
      "grad_norm": 0.5395335555076599,
      "learning_rate": 4.5979214542067056e-05,
      "loss": 0.2298,
      "num_input_tokens_seen": 20626536,
      "step": 35550
    },
    {
      "epoch": 5.2956508787607985,
      "grad_norm": 25.40200424194336,
      "learning_rate": 4.597744709748933e-05,
      "loss": 0.5154,
      "num_input_tokens_seen": 20629704,
      "step": 35555
    },
    {
      "epoch": 5.296395591301757,
      "grad_norm": 12.467034339904785,
      "learning_rate": 4.597567929851896e-05,
      "loss": 0.3399,
      "num_input_tokens_seen": 20632456,
      "step": 35560
    },
    {
      "epoch": 5.297140303842717,
      "grad_norm": 1.7836500406265259,
      "learning_rate": 4.59739111451858e-05,
      "loss": 0.1212,
      "num_input_tokens_seen": 20635368,
      "step": 35565
    },
    {
      "epoch": 5.297885016383676,
      "grad_norm": 15.605351448059082,
      "learning_rate": 4.5972142637519735e-05,
      "loss": 0.3903,
      "num_input_tokens_seen": 20637960,
      "step": 35570
    },
    {
      "epoch": 5.298629728924635,
      "grad_norm": 63.44164276123047,
      "learning_rate": 4.597037377555063e-05,
      "loss": 0.462,
      "num_input_tokens_seen": 20640808,
      "step": 35575
    },
    {
      "epoch": 5.299374441465594,
      "grad_norm": 16.620485305786133,
      "learning_rate": 4.5968604559308374e-05,
      "loss": 0.3771,
      "num_input_tokens_seen": 20643784,
      "step": 35580
    },
    {
      "epoch": 5.300119154006554,
      "grad_norm": 1.231805443763733,
      "learning_rate": 4.596683498882286e-05,
      "loss": 0.3051,
      "num_input_tokens_seen": 20646728,
      "step": 35585
    },
    {
      "epoch": 5.3008638665475125,
      "grad_norm": 35.743499755859375,
      "learning_rate": 4.596506506412398e-05,
      "loss": 0.1613,
      "num_input_tokens_seen": 20649576,
      "step": 35590
    },
    {
      "epoch": 5.301608579088472,
      "grad_norm": 0.18085049092769623,
      "learning_rate": 4.596329478524163e-05,
      "loss": 0.186,
      "num_input_tokens_seen": 20652424,
      "step": 35595
    },
    {
      "epoch": 5.302353291629431,
      "grad_norm": 28.199695587158203,
      "learning_rate": 4.596152415220572e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 20655208,
      "step": 35600
    },
    {
      "epoch": 5.303098004170391,
      "grad_norm": 10.797770500183105,
      "learning_rate": 4.595975316504616e-05,
      "loss": 0.1803,
      "num_input_tokens_seen": 20658024,
      "step": 35605
    },
    {
      "epoch": 5.303842716711349,
      "grad_norm": 30.221282958984375,
      "learning_rate": 4.595798182379288e-05,
      "loss": 0.1145,
      "num_input_tokens_seen": 20661416,
      "step": 35610
    },
    {
      "epoch": 5.304587429252309,
      "grad_norm": 28.012258529663086,
      "learning_rate": 4.595621012847579e-05,
      "loss": 0.4365,
      "num_input_tokens_seen": 20664040,
      "step": 35615
    },
    {
      "epoch": 5.305332141793268,
      "grad_norm": 6.978050231933594,
      "learning_rate": 4.5954438079124836e-05,
      "loss": 0.1616,
      "num_input_tokens_seen": 20666856,
      "step": 35620
    },
    {
      "epoch": 5.306076854334227,
      "grad_norm": 67.65575408935547,
      "learning_rate": 4.595266567576995e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 20669672,
      "step": 35625
    },
    {
      "epoch": 5.306821566875186,
      "grad_norm": 11.153139114379883,
      "learning_rate": 4.595089291844106e-05,
      "loss": 0.3819,
      "num_input_tokens_seen": 20672328,
      "step": 35630
    },
    {
      "epoch": 5.307566279416146,
      "grad_norm": 16.203006744384766,
      "learning_rate": 4.594911980716814e-05,
      "loss": 0.1327,
      "num_input_tokens_seen": 20675176,
      "step": 35635
    },
    {
      "epoch": 5.3083109919571045,
      "grad_norm": 0.34385284781455994,
      "learning_rate": 4.594734634198112e-05,
      "loss": 0.0443,
      "num_input_tokens_seen": 20678088,
      "step": 35640
    },
    {
      "epoch": 5.309055704498064,
      "grad_norm": 0.5057341456413269,
      "learning_rate": 4.594557252290998e-05,
      "loss": 0.2849,
      "num_input_tokens_seen": 20680936,
      "step": 35645
    },
    {
      "epoch": 5.309800417039023,
      "grad_norm": 20.45757484436035,
      "learning_rate": 4.594379834998469e-05,
      "loss": 0.2307,
      "num_input_tokens_seen": 20683912,
      "step": 35650
    },
    {
      "epoch": 5.310545129579982,
      "grad_norm": 19.77174186706543,
      "learning_rate": 4.594202382323521e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 20686664,
      "step": 35655
    },
    {
      "epoch": 5.311289842120941,
      "grad_norm": 20.64638328552246,
      "learning_rate": 4.594024894269151e-05,
      "loss": 0.3936,
      "num_input_tokens_seen": 20689736,
      "step": 35660
    },
    {
      "epoch": 5.3120345546619,
      "grad_norm": 6.5942840576171875,
      "learning_rate": 4.59384737083836e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 20692584,
      "step": 35665
    },
    {
      "epoch": 5.31277926720286,
      "grad_norm": 23.663908004760742,
      "learning_rate": 4.5936698120341445e-05,
      "loss": 0.1027,
      "num_input_tokens_seen": 20695432,
      "step": 35670
    },
    {
      "epoch": 5.3135239797438185,
      "grad_norm": 7.207112789154053,
      "learning_rate": 4.593492217859506e-05,
      "loss": 0.2771,
      "num_input_tokens_seen": 20698376,
      "step": 35675
    },
    {
      "epoch": 5.314268692284778,
      "grad_norm": 2.905116558074951,
      "learning_rate": 4.593314588317445e-05,
      "loss": 0.0388,
      "num_input_tokens_seen": 20701256,
      "step": 35680
    },
    {
      "epoch": 5.315013404825737,
      "grad_norm": 68.03370666503906,
      "learning_rate": 4.5931369234109614e-05,
      "loss": 0.0975,
      "num_input_tokens_seen": 20704040,
      "step": 35685
    },
    {
      "epoch": 5.315758117366697,
      "grad_norm": 0.012435453943908215,
      "learning_rate": 4.592959223143056e-05,
      "loss": 0.3083,
      "num_input_tokens_seen": 20706952,
      "step": 35690
    },
    {
      "epoch": 5.316502829907655,
      "grad_norm": 0.008031800389289856,
      "learning_rate": 4.592781487516732e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 20710024,
      "step": 35695
    },
    {
      "epoch": 5.317247542448615,
      "grad_norm": 9.377609252929688,
      "learning_rate": 4.592603716534992e-05,
      "loss": 0.4292,
      "num_input_tokens_seen": 20712680,
      "step": 35700
    },
    {
      "epoch": 5.317992254989574,
      "grad_norm": 9.85698127746582,
      "learning_rate": 4.5924259102008386e-05,
      "loss": 0.1734,
      "num_input_tokens_seen": 20715624,
      "step": 35705
    },
    {
      "epoch": 5.318736967530533,
      "grad_norm": 0.7470415234565735,
      "learning_rate": 4.592248068517276e-05,
      "loss": 0.2568,
      "num_input_tokens_seen": 20718568,
      "step": 35710
    },
    {
      "epoch": 5.319481680071492,
      "grad_norm": 0.08325890451669693,
      "learning_rate": 4.59207019148731e-05,
      "loss": 0.1755,
      "num_input_tokens_seen": 20721576,
      "step": 35715
    },
    {
      "epoch": 5.320226392612452,
      "grad_norm": 0.22219818830490112,
      "learning_rate": 4.591892279113943e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 20724840,
      "step": 35720
    },
    {
      "epoch": 5.3209711051534105,
      "grad_norm": 0.041319672018289566,
      "learning_rate": 4.591714331400183e-05,
      "loss": 0.0583,
      "num_input_tokens_seen": 20728104,
      "step": 35725
    },
    {
      "epoch": 5.32171581769437,
      "grad_norm": 6.211491107940674,
      "learning_rate": 4.5915363483490346e-05,
      "loss": 0.4025,
      "num_input_tokens_seen": 20731112,
      "step": 35730
    },
    {
      "epoch": 5.322460530235329,
      "grad_norm": 41.57251739501953,
      "learning_rate": 4.591358329963505e-05,
      "loss": 0.3421,
      "num_input_tokens_seen": 20733928,
      "step": 35735
    },
    {
      "epoch": 5.323205242776289,
      "grad_norm": 11.95158576965332,
      "learning_rate": 4.5911802762466034e-05,
      "loss": 0.3236,
      "num_input_tokens_seen": 20736584,
      "step": 35740
    },
    {
      "epoch": 5.323949955317247,
      "grad_norm": 1.1929811239242554,
      "learning_rate": 4.5910021872013355e-05,
      "loss": 0.1389,
      "num_input_tokens_seen": 20739720,
      "step": 35745
    },
    {
      "epoch": 5.324694667858207,
      "grad_norm": 0.024493778124451637,
      "learning_rate": 4.590824062830711e-05,
      "loss": 0.0993,
      "num_input_tokens_seen": 20742920,
      "step": 35750
    },
    {
      "epoch": 5.325439380399166,
      "grad_norm": 3.1887106895446777,
      "learning_rate": 4.590645903137739e-05,
      "loss": 0.1511,
      "num_input_tokens_seen": 20746088,
      "step": 35755
    },
    {
      "epoch": 5.326184092940125,
      "grad_norm": 32.701698303222656,
      "learning_rate": 4.590467708125429e-05,
      "loss": 0.3908,
      "num_input_tokens_seen": 20749192,
      "step": 35760
    },
    {
      "epoch": 5.326928805481084,
      "grad_norm": 31.68146324157715,
      "learning_rate": 4.590289477796792e-05,
      "loss": 0.5102,
      "num_input_tokens_seen": 20752232,
      "step": 35765
    },
    {
      "epoch": 5.327673518022044,
      "grad_norm": 65.65554809570312,
      "learning_rate": 4.590111212154839e-05,
      "loss": 0.2848,
      "num_input_tokens_seen": 20755336,
      "step": 35770
    },
    {
      "epoch": 5.328418230563003,
      "grad_norm": 13.819068908691406,
      "learning_rate": 4.589932911202581e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 20758088,
      "step": 35775
    },
    {
      "epoch": 5.329162943103962,
      "grad_norm": 0.13807085156440735,
      "learning_rate": 4.5897545749430305e-05,
      "loss": 0.4552,
      "num_input_tokens_seen": 20761192,
      "step": 35780
    },
    {
      "epoch": 5.329907655644921,
      "grad_norm": 0.39910975098609924,
      "learning_rate": 4.5895762033792e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 20763944,
      "step": 35785
    },
    {
      "epoch": 5.330652368185881,
      "grad_norm": 5.892601490020752,
      "learning_rate": 4.589397796514104e-05,
      "loss": 0.4732,
      "num_input_tokens_seen": 20766984,
      "step": 35790
    },
    {
      "epoch": 5.331397080726839,
      "grad_norm": 39.093910217285156,
      "learning_rate": 4.5892193543507556e-05,
      "loss": 0.2235,
      "num_input_tokens_seen": 20770184,
      "step": 35795
    },
    {
      "epoch": 5.332141793267799,
      "grad_norm": 35.20600128173828,
      "learning_rate": 4.58904087689217e-05,
      "loss": 0.2885,
      "num_input_tokens_seen": 20772872,
      "step": 35800
    },
    {
      "epoch": 5.332886505808758,
      "grad_norm": 80.5584945678711,
      "learning_rate": 4.5888623641413615e-05,
      "loss": 0.3837,
      "num_input_tokens_seen": 20775688,
      "step": 35805
    },
    {
      "epoch": 5.333631218349717,
      "grad_norm": 41.51253128051758,
      "learning_rate": 4.588683816101347e-05,
      "loss": 0.0867,
      "num_input_tokens_seen": 20778600,
      "step": 35810
    },
    {
      "epoch": 5.334375930890676,
      "grad_norm": 97.86792755126953,
      "learning_rate": 4.588505232775141e-05,
      "loss": 0.3868,
      "num_input_tokens_seen": 20781704,
      "step": 35815
    },
    {
      "epoch": 5.335120643431635,
      "grad_norm": 18.37080192565918,
      "learning_rate": 4.588326614165763e-05,
      "loss": 0.1606,
      "num_input_tokens_seen": 20784552,
      "step": 35820
    },
    {
      "epoch": 5.335865355972595,
      "grad_norm": 13.61408519744873,
      "learning_rate": 4.5881479602762286e-05,
      "loss": 0.2695,
      "num_input_tokens_seen": 20787688,
      "step": 35825
    },
    {
      "epoch": 5.336610068513554,
      "grad_norm": 61.026275634765625,
      "learning_rate": 4.587969271109557e-05,
      "loss": 0.1031,
      "num_input_tokens_seen": 20790760,
      "step": 35830
    },
    {
      "epoch": 5.337354781054513,
      "grad_norm": 0.10929093509912491,
      "learning_rate": 4.5877905466687666e-05,
      "loss": 0.1635,
      "num_input_tokens_seen": 20793704,
      "step": 35835
    },
    {
      "epoch": 5.338099493595472,
      "grad_norm": 40.03017044067383,
      "learning_rate": 4.5876117869568766e-05,
      "loss": 0.6828,
      "num_input_tokens_seen": 20796936,
      "step": 35840
    },
    {
      "epoch": 5.338844206136431,
      "grad_norm": 0.059837955981492996,
      "learning_rate": 4.587432991976908e-05,
      "loss": 0.0328,
      "num_input_tokens_seen": 20799688,
      "step": 35845
    },
    {
      "epoch": 5.33958891867739,
      "grad_norm": 5.524081707000732,
      "learning_rate": 4.58725416173188e-05,
      "loss": 0.1717,
      "num_input_tokens_seen": 20802600,
      "step": 35850
    },
    {
      "epoch": 5.34033363121835,
      "grad_norm": 59.313167572021484,
      "learning_rate": 4.587075296224814e-05,
      "loss": 0.2985,
      "num_input_tokens_seen": 20805384,
      "step": 35855
    },
    {
      "epoch": 5.341078343759309,
      "grad_norm": 0.1412886679172516,
      "learning_rate": 4.586896395458733e-05,
      "loss": 0.3561,
      "num_input_tokens_seen": 20808328,
      "step": 35860
    },
    {
      "epoch": 5.341823056300268,
      "grad_norm": 13.860408782958984,
      "learning_rate": 4.586717459436658e-05,
      "loss": 0.1683,
      "num_input_tokens_seen": 20811080,
      "step": 35865
    },
    {
      "epoch": 5.342567768841227,
      "grad_norm": 28.166667938232422,
      "learning_rate": 4.586538488161612e-05,
      "loss": 0.1349,
      "num_input_tokens_seen": 20813864,
      "step": 35870
    },
    {
      "epoch": 5.343312481382187,
      "grad_norm": 0.34688666462898254,
      "learning_rate": 4.58635948163662e-05,
      "loss": 0.2754,
      "num_input_tokens_seen": 20816712,
      "step": 35875
    },
    {
      "epoch": 5.344057193923145,
      "grad_norm": 1.6454625129699707,
      "learning_rate": 4.586180439864704e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 20820872,
      "step": 35880
    },
    {
      "epoch": 5.344801906464105,
      "grad_norm": 0.18188521265983582,
      "learning_rate": 4.586001362848889e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 20823720,
      "step": 35885
    },
    {
      "epoch": 5.345546619005064,
      "grad_norm": 52.612274169921875,
      "learning_rate": 4.5858222505922026e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 20826728,
      "step": 35890
    },
    {
      "epoch": 5.346291331546023,
      "grad_norm": 24.691072463989258,
      "learning_rate": 4.585643103097669e-05,
      "loss": 0.5834,
      "num_input_tokens_seen": 20829352,
      "step": 35895
    },
    {
      "epoch": 5.347036044086982,
      "grad_norm": 24.676952362060547,
      "learning_rate": 4.5854639203683146e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 20832424,
      "step": 35900
    },
    {
      "epoch": 5.347780756627942,
      "grad_norm": 28.30046272277832,
      "learning_rate": 4.5852847024071664e-05,
      "loss": 0.105,
      "num_input_tokens_seen": 20835208,
      "step": 35905
    },
    {
      "epoch": 5.348525469168901,
      "grad_norm": 17.10516357421875,
      "learning_rate": 4.585105449217253e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 20838120,
      "step": 35910
    },
    {
      "epoch": 5.34927018170986,
      "grad_norm": 0.5917953848838806,
      "learning_rate": 4.5849261608016026e-05,
      "loss": 0.2393,
      "num_input_tokens_seen": 20841224,
      "step": 35915
    },
    {
      "epoch": 5.350014894250819,
      "grad_norm": 0.07196706533432007,
      "learning_rate": 4.584746837163243e-05,
      "loss": 0.0544,
      "num_input_tokens_seen": 20843976,
      "step": 35920
    },
    {
      "epoch": 5.350759606791779,
      "grad_norm": 63.33958053588867,
      "learning_rate": 4.584567478305205e-05,
      "loss": 0.5373,
      "num_input_tokens_seen": 20846760,
      "step": 35925
    },
    {
      "epoch": 5.351504319332737,
      "grad_norm": 37.99957275390625,
      "learning_rate": 4.584388084230518e-05,
      "loss": 0.1434,
      "num_input_tokens_seen": 20849640,
      "step": 35930
    },
    {
      "epoch": 5.352249031873697,
      "grad_norm": 1.045307993888855,
      "learning_rate": 4.584208654942212e-05,
      "loss": 0.0294,
      "num_input_tokens_seen": 20852488,
      "step": 35935
    },
    {
      "epoch": 5.352993744414656,
      "grad_norm": 62.72571563720703,
      "learning_rate": 4.584029190443321e-05,
      "loss": 0.2665,
      "num_input_tokens_seen": 20855368,
      "step": 35940
    },
    {
      "epoch": 5.3537384569556155,
      "grad_norm": 61.44136428833008,
      "learning_rate": 4.583849690736873e-05,
      "loss": 0.272,
      "num_input_tokens_seen": 20858216,
      "step": 35945
    },
    {
      "epoch": 5.354483169496574,
      "grad_norm": 4.397767066955566,
      "learning_rate": 4.583670155825903e-05,
      "loss": 0.1174,
      "num_input_tokens_seen": 20861032,
      "step": 35950
    },
    {
      "epoch": 5.355227882037534,
      "grad_norm": 6.251237869262695,
      "learning_rate": 4.5834905857134436e-05,
      "loss": 0.2597,
      "num_input_tokens_seen": 20864200,
      "step": 35955
    },
    {
      "epoch": 5.355972594578493,
      "grad_norm": 3.7261104583740234,
      "learning_rate": 4.583310980402529e-05,
      "loss": 0.1315,
      "num_input_tokens_seen": 20867048,
      "step": 35960
    },
    {
      "epoch": 5.356717307119452,
      "grad_norm": 13.368806838989258,
      "learning_rate": 4.5831313398961915e-05,
      "loss": 0.0602,
      "num_input_tokens_seen": 20870056,
      "step": 35965
    },
    {
      "epoch": 5.357462019660411,
      "grad_norm": 31.434814453125,
      "learning_rate": 4.5829516641974676e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 20873096,
      "step": 35970
    },
    {
      "epoch": 5.358206732201371,
      "grad_norm": 0.03600414842367172,
      "learning_rate": 4.582771953309393e-05,
      "loss": 0.2667,
      "num_input_tokens_seen": 20875752,
      "step": 35975
    },
    {
      "epoch": 5.358951444742329,
      "grad_norm": 0.02855042554438114,
      "learning_rate": 4.582592207235002e-05,
      "loss": 0.2916,
      "num_input_tokens_seen": 20878920,
      "step": 35980
    },
    {
      "epoch": 5.359696157283288,
      "grad_norm": 39.93760681152344,
      "learning_rate": 4.5824124259773336e-05,
      "loss": 0.1371,
      "num_input_tokens_seen": 20881832,
      "step": 35985
    },
    {
      "epoch": 5.360440869824248,
      "grad_norm": 5.672247409820557,
      "learning_rate": 4.582232609539423e-05,
      "loss": 0.1674,
      "num_input_tokens_seen": 20884648,
      "step": 35990
    },
    {
      "epoch": 5.3611855823652075,
      "grad_norm": 18.28638458251953,
      "learning_rate": 4.582052757924309e-05,
      "loss": 0.2012,
      "num_input_tokens_seen": 20887528,
      "step": 35995
    },
    {
      "epoch": 5.361930294906166,
      "grad_norm": 14.571720123291016,
      "learning_rate": 4.5818728711350296e-05,
      "loss": 0.327,
      "num_input_tokens_seen": 20890440,
      "step": 36000
    },
    {
      "epoch": 5.362675007447125,
      "grad_norm": 0.09658483415842056,
      "learning_rate": 4.581692949174624e-05,
      "loss": 0.1915,
      "num_input_tokens_seen": 20893384,
      "step": 36005
    },
    {
      "epoch": 5.363419719988085,
      "grad_norm": 0.044515736401081085,
      "learning_rate": 4.581512992046132e-05,
      "loss": 0.2923,
      "num_input_tokens_seen": 20896232,
      "step": 36010
    },
    {
      "epoch": 5.364164432529043,
      "grad_norm": 114.93510437011719,
      "learning_rate": 4.5813329997525925e-05,
      "loss": 0.2642,
      "num_input_tokens_seen": 20899176,
      "step": 36015
    },
    {
      "epoch": 5.364909145070003,
      "grad_norm": 39.42191696166992,
      "learning_rate": 4.5811529722970484e-05,
      "loss": 0.7399,
      "num_input_tokens_seen": 20901832,
      "step": 36020
    },
    {
      "epoch": 5.365653857610962,
      "grad_norm": 0.8351113796234131,
      "learning_rate": 4.5809729096825396e-05,
      "loss": 0.1976,
      "num_input_tokens_seen": 20904840,
      "step": 36025
    },
    {
      "epoch": 5.3663985701519215,
      "grad_norm": 0.04592365026473999,
      "learning_rate": 4.580792811912109e-05,
      "loss": 0.1929,
      "num_input_tokens_seen": 20908136,
      "step": 36030
    },
    {
      "epoch": 5.36714328269288,
      "grad_norm": 0.07574951648712158,
      "learning_rate": 4.5806126789887984e-05,
      "loss": 0.1728,
      "num_input_tokens_seen": 20911432,
      "step": 36035
    },
    {
      "epoch": 5.36788799523384,
      "grad_norm": 0.5837886333465576,
      "learning_rate": 4.580432510915651e-05,
      "loss": 0.2861,
      "num_input_tokens_seen": 20914344,
      "step": 36040
    },
    {
      "epoch": 5.368632707774799,
      "grad_norm": 12.370049476623535,
      "learning_rate": 4.580252307695711e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 20917416,
      "step": 36045
    },
    {
      "epoch": 5.369377420315758,
      "grad_norm": 4.078102111816406,
      "learning_rate": 4.580072069332022e-05,
      "loss": 0.276,
      "num_input_tokens_seen": 20920232,
      "step": 36050
    },
    {
      "epoch": 5.370122132856717,
      "grad_norm": 0.14105096459388733,
      "learning_rate": 4.57989179582763e-05,
      "loss": 0.2306,
      "num_input_tokens_seen": 20923208,
      "step": 36055
    },
    {
      "epoch": 5.370866845397677,
      "grad_norm": 0.10150633007287979,
      "learning_rate": 4.57971148718558e-05,
      "loss": 0.275,
      "num_input_tokens_seen": 20926024,
      "step": 36060
    },
    {
      "epoch": 5.371611557938635,
      "grad_norm": 29.548635482788086,
      "learning_rate": 4.579531143408918e-05,
      "loss": 0.1914,
      "num_input_tokens_seen": 20928872,
      "step": 36065
    },
    {
      "epoch": 5.372356270479595,
      "grad_norm": 1.9698925018310547,
      "learning_rate": 4.579350764500691e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 20931912,
      "step": 36070
    },
    {
      "epoch": 5.373100983020554,
      "grad_norm": 28.066776275634766,
      "learning_rate": 4.579170350463946e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 20935208,
      "step": 36075
    },
    {
      "epoch": 5.3738456955615135,
      "grad_norm": 1.36185884475708,
      "learning_rate": 4.5789899013017315e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 20938056,
      "step": 36080
    },
    {
      "epoch": 5.374590408102472,
      "grad_norm": 0.02735765464603901,
      "learning_rate": 4.578809417017095e-05,
      "loss": 0.1551,
      "num_input_tokens_seen": 20940840,
      "step": 36085
    },
    {
      "epoch": 5.375335120643432,
      "grad_norm": 19.881196975708008,
      "learning_rate": 4.578628897613087e-05,
      "loss": 0.3221,
      "num_input_tokens_seen": 20943720,
      "step": 36090
    },
    {
      "epoch": 5.376079833184391,
      "grad_norm": 9.706588745117188,
      "learning_rate": 4.578448343092756e-05,
      "loss": 0.566,
      "num_input_tokens_seen": 20946664,
      "step": 36095
    },
    {
      "epoch": 5.37682454572535,
      "grad_norm": 12.319637298583984,
      "learning_rate": 4.5782677534591524e-05,
      "loss": 0.1967,
      "num_input_tokens_seen": 20949416,
      "step": 36100
    },
    {
      "epoch": 5.377569258266309,
      "grad_norm": 21.411808013916016,
      "learning_rate": 4.578087128715328e-05,
      "loss": 0.3124,
      "num_input_tokens_seen": 20952168,
      "step": 36105
    },
    {
      "epoch": 5.378313970807269,
      "grad_norm": 0.07727151364088058,
      "learning_rate": 4.577906468864333e-05,
      "loss": 0.0749,
      "num_input_tokens_seen": 20955080,
      "step": 36110
    },
    {
      "epoch": 5.3790586833482275,
      "grad_norm": 8.50660228729248,
      "learning_rate": 4.577725773909221e-05,
      "loss": 0.5786,
      "num_input_tokens_seen": 20957992,
      "step": 36115
    },
    {
      "epoch": 5.379803395889187,
      "grad_norm": 10.260931015014648,
      "learning_rate": 4.577545043853042e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 20960616,
      "step": 36120
    },
    {
      "epoch": 5.380548108430146,
      "grad_norm": 0.8635237812995911,
      "learning_rate": 4.577364278698852e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 20963368,
      "step": 36125
    },
    {
      "epoch": 5.3812928209711055,
      "grad_norm": 6.548806667327881,
      "learning_rate": 4.577183478449705e-05,
      "loss": 0.0721,
      "num_input_tokens_seen": 20966024,
      "step": 36130
    },
    {
      "epoch": 5.382037533512064,
      "grad_norm": 2.7004120349884033,
      "learning_rate": 4.5770026431086524e-05,
      "loss": 0.1556,
      "num_input_tokens_seen": 20968616,
      "step": 36135
    },
    {
      "epoch": 5.382782246053024,
      "grad_norm": 0.09183141589164734,
      "learning_rate": 4.576821772678752e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 20971368,
      "step": 36140
    },
    {
      "epoch": 5.383526958593983,
      "grad_norm": 17.9559383392334,
      "learning_rate": 4.576640867163059e-05,
      "loss": 0.4243,
      "num_input_tokens_seen": 20974408,
      "step": 36145
    },
    {
      "epoch": 5.384271671134942,
      "grad_norm": 38.05023193359375,
      "learning_rate": 4.5764599265646286e-05,
      "loss": 0.2676,
      "num_input_tokens_seen": 20977128,
      "step": 36150
    },
    {
      "epoch": 5.385016383675901,
      "grad_norm": 45.59128189086914,
      "learning_rate": 4.576278950886518e-05,
      "loss": 0.2608,
      "num_input_tokens_seen": 20980008,
      "step": 36155
    },
    {
      "epoch": 5.385761096216861,
      "grad_norm": 36.94935607910156,
      "learning_rate": 4.576097940131785e-05,
      "loss": 0.6417,
      "num_input_tokens_seen": 20982920,
      "step": 36160
    },
    {
      "epoch": 5.3865058087578195,
      "grad_norm": 21.7088623046875,
      "learning_rate": 4.5759168943034875e-05,
      "loss": 0.382,
      "num_input_tokens_seen": 20985672,
      "step": 36165
    },
    {
      "epoch": 5.387250521298778,
      "grad_norm": 17.395523071289062,
      "learning_rate": 4.5757358134046835e-05,
      "loss": 0.1301,
      "num_input_tokens_seen": 20988520,
      "step": 36170
    },
    {
      "epoch": 5.387995233839738,
      "grad_norm": 0.27407193183898926,
      "learning_rate": 4.5755546974384336e-05,
      "loss": 0.2284,
      "num_input_tokens_seen": 20991304,
      "step": 36175
    },
    {
      "epoch": 5.388739946380697,
      "grad_norm": 52.486717224121094,
      "learning_rate": 4.575373546407795e-05,
      "loss": 0.2179,
      "num_input_tokens_seen": 20994440,
      "step": 36180
    },
    {
      "epoch": 5.389484658921656,
      "grad_norm": 3.2556400299072266,
      "learning_rate": 4.5751923603158305e-05,
      "loss": 0.2736,
      "num_input_tokens_seen": 20997224,
      "step": 36185
    },
    {
      "epoch": 5.390229371462615,
      "grad_norm": 0.751770555973053,
      "learning_rate": 4.5750111391656005e-05,
      "loss": 0.0668,
      "num_input_tokens_seen": 21000264,
      "step": 36190
    },
    {
      "epoch": 5.390974084003575,
      "grad_norm": 24.77915382385254,
      "learning_rate": 4.574829882960166e-05,
      "loss": 0.1311,
      "num_input_tokens_seen": 21003048,
      "step": 36195
    },
    {
      "epoch": 5.3917187965445335,
      "grad_norm": 3.956397771835327,
      "learning_rate": 4.5746485917025894e-05,
      "loss": 0.4903,
      "num_input_tokens_seen": 21006056,
      "step": 36200
    },
    {
      "epoch": 5.392463509085493,
      "grad_norm": 21.92739486694336,
      "learning_rate": 4.574467265395933e-05,
      "loss": 0.2509,
      "num_input_tokens_seen": 21008936,
      "step": 36205
    },
    {
      "epoch": 5.393208221626452,
      "grad_norm": 13.932372093200684,
      "learning_rate": 4.574285904043261e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 21011912,
      "step": 36210
    },
    {
      "epoch": 5.3939529341674115,
      "grad_norm": 2.316678285598755,
      "learning_rate": 4.574104507647637e-05,
      "loss": 0.3615,
      "num_input_tokens_seen": 21014760,
      "step": 36215
    },
    {
      "epoch": 5.39469764670837,
      "grad_norm": 24.269628524780273,
      "learning_rate": 4.5739230762121255e-05,
      "loss": 0.7221,
      "num_input_tokens_seen": 21017608,
      "step": 36220
    },
    {
      "epoch": 5.39544235924933,
      "grad_norm": 3.108245372772217,
      "learning_rate": 4.573741609739791e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 21020424,
      "step": 36225
    },
    {
      "epoch": 5.396187071790289,
      "grad_norm": 13.571296691894531,
      "learning_rate": 4.5735601082336995e-05,
      "loss": 0.0368,
      "num_input_tokens_seen": 21023592,
      "step": 36230
    },
    {
      "epoch": 5.396931784331248,
      "grad_norm": 35.861019134521484,
      "learning_rate": 4.573378571696918e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 21026472,
      "step": 36235
    },
    {
      "epoch": 5.397676496872207,
      "grad_norm": 18.560739517211914,
      "learning_rate": 4.573197000132512e-05,
      "loss": 0.3512,
      "num_input_tokens_seen": 21029896,
      "step": 36240
    },
    {
      "epoch": 5.398421209413167,
      "grad_norm": 0.032790299504995346,
      "learning_rate": 4.57301539354355e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 21032840,
      "step": 36245
    },
    {
      "epoch": 5.3991659219541255,
      "grad_norm": 0.06689383089542389,
      "learning_rate": 4.572833751933101e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 21035592,
      "step": 36250
    },
    {
      "epoch": 5.399910634495085,
      "grad_norm": 5.816099166870117,
      "learning_rate": 4.5726520753042314e-05,
      "loss": 0.2623,
      "num_input_tokens_seen": 21038632,
      "step": 36255
    },
    {
      "epoch": 5.400655347036044,
      "grad_norm": 0.8032070398330688,
      "learning_rate": 4.572470363660012e-05,
      "loss": 0.1114,
      "num_input_tokens_seen": 21041384,
      "step": 36260
    },
    {
      "epoch": 5.4014000595770035,
      "grad_norm": 22.338979721069336,
      "learning_rate": 4.572288617003512e-05,
      "loss": 0.138,
      "num_input_tokens_seen": 21044200,
      "step": 36265
    },
    {
      "epoch": 5.402144772117962,
      "grad_norm": 6.288490295410156,
      "learning_rate": 4.5721068353378016e-05,
      "loss": 0.3974,
      "num_input_tokens_seen": 21047240,
      "step": 36270
    },
    {
      "epoch": 5.402889484658922,
      "grad_norm": 10.085596084594727,
      "learning_rate": 4.571925018665953e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 21050152,
      "step": 36275
    },
    {
      "epoch": 5.403634197199881,
      "grad_norm": 0.9872755408287048,
      "learning_rate": 4.5717431669910364e-05,
      "loss": 0.3765,
      "num_input_tokens_seen": 21053256,
      "step": 36280
    },
    {
      "epoch": 5.40437890974084,
      "grad_norm": 52.47899627685547,
      "learning_rate": 4.571561280316125e-05,
      "loss": 0.0618,
      "num_input_tokens_seen": 21055880,
      "step": 36285
    },
    {
      "epoch": 5.405123622281799,
      "grad_norm": 0.0452251210808754,
      "learning_rate": 4.571379358644291e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 21058888,
      "step": 36290
    },
    {
      "epoch": 5.405868334822759,
      "grad_norm": 0.4995870292186737,
      "learning_rate": 4.571197401978608e-05,
      "loss": 0.2933,
      "num_input_tokens_seen": 21061992,
      "step": 36295
    },
    {
      "epoch": 5.4066130473637175,
      "grad_norm": 3.8501546382904053,
      "learning_rate": 4.5710154103221504e-05,
      "loss": 0.4996,
      "num_input_tokens_seen": 21065032,
      "step": 36300
    },
    {
      "epoch": 5.407357759904677,
      "grad_norm": 33.471221923828125,
      "learning_rate": 4.570833383677991e-05,
      "loss": 0.7031,
      "num_input_tokens_seen": 21068008,
      "step": 36305
    },
    {
      "epoch": 5.408102472445636,
      "grad_norm": 0.2502060532569885,
      "learning_rate": 4.570651322049208e-05,
      "loss": 0.0801,
      "num_input_tokens_seen": 21070952,
      "step": 36310
    },
    {
      "epoch": 5.408847184986596,
      "grad_norm": 47.150718688964844,
      "learning_rate": 4.570469225438875e-05,
      "loss": 0.4013,
      "num_input_tokens_seen": 21074088,
      "step": 36315
    },
    {
      "epoch": 5.409591897527554,
      "grad_norm": 65.55664825439453,
      "learning_rate": 4.570287093850068e-05,
      "loss": 0.5374,
      "num_input_tokens_seen": 21077064,
      "step": 36320
    },
    {
      "epoch": 5.410336610068514,
      "grad_norm": 0.033273980021476746,
      "learning_rate": 4.570104927285865e-05,
      "loss": 0.2521,
      "num_input_tokens_seen": 21079752,
      "step": 36325
    },
    {
      "epoch": 5.411081322609473,
      "grad_norm": 11.734539985656738,
      "learning_rate": 4.5699227257493434e-05,
      "loss": 0.2766,
      "num_input_tokens_seen": 21082760,
      "step": 36330
    },
    {
      "epoch": 5.4118260351504315,
      "grad_norm": 0.07384251803159714,
      "learning_rate": 4.5697404892435816e-05,
      "loss": 0.2004,
      "num_input_tokens_seen": 21085704,
      "step": 36335
    },
    {
      "epoch": 5.412570747691391,
      "grad_norm": 3.691701889038086,
      "learning_rate": 4.5695582177716566e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 21088680,
      "step": 36340
    },
    {
      "epoch": 5.413315460232351,
      "grad_norm": 0.468717098236084,
      "learning_rate": 4.56937591133665e-05,
      "loss": 0.1205,
      "num_input_tokens_seen": 21091624,
      "step": 36345
    },
    {
      "epoch": 5.4140601727733095,
      "grad_norm": 0.3363841474056244,
      "learning_rate": 4.56919356994164e-05,
      "loss": 0.1986,
      "num_input_tokens_seen": 21094408,
      "step": 36350
    },
    {
      "epoch": 5.414804885314268,
      "grad_norm": 39.8432731628418,
      "learning_rate": 4.569011193589707e-05,
      "loss": 0.5829,
      "num_input_tokens_seen": 21097352,
      "step": 36355
    },
    {
      "epoch": 5.415549597855228,
      "grad_norm": 0.0506020188331604,
      "learning_rate": 4.568828782283934e-05,
      "loss": 0.0144,
      "num_input_tokens_seen": 21101032,
      "step": 36360
    },
    {
      "epoch": 5.416294310396187,
      "grad_norm": 0.6914606690406799,
      "learning_rate": 4.5686463360274015e-05,
      "loss": 0.271,
      "num_input_tokens_seen": 21104040,
      "step": 36365
    },
    {
      "epoch": 5.417039022937146,
      "grad_norm": 1.9743915796279907,
      "learning_rate": 4.568463854823191e-05,
      "loss": 0.2056,
      "num_input_tokens_seen": 21106696,
      "step": 36370
    },
    {
      "epoch": 5.417783735478105,
      "grad_norm": 45.95372772216797,
      "learning_rate": 4.5682813386743864e-05,
      "loss": 0.2731,
      "num_input_tokens_seen": 21109576,
      "step": 36375
    },
    {
      "epoch": 5.418528448019065,
      "grad_norm": 0.6390756368637085,
      "learning_rate": 4.56809878758407e-05,
      "loss": 0.6661,
      "num_input_tokens_seen": 21112520,
      "step": 36380
    },
    {
      "epoch": 5.4192731605600235,
      "grad_norm": 31.69528579711914,
      "learning_rate": 4.567916201555327e-05,
      "loss": 0.2792,
      "num_input_tokens_seen": 21115304,
      "step": 36385
    },
    {
      "epoch": 5.420017873100983,
      "grad_norm": 3.785365343093872,
      "learning_rate": 4.567733580591241e-05,
      "loss": 0.3028,
      "num_input_tokens_seen": 21118056,
      "step": 36390
    },
    {
      "epoch": 5.420762585641942,
      "grad_norm": 10.672410011291504,
      "learning_rate": 4.567550924694898e-05,
      "loss": 0.2056,
      "num_input_tokens_seen": 21120872,
      "step": 36395
    },
    {
      "epoch": 5.421507298182902,
      "grad_norm": 0.3775498569011688,
      "learning_rate": 4.5673682338693836e-05,
      "loss": 0.1665,
      "num_input_tokens_seen": 21123752,
      "step": 36400
    },
    {
      "epoch": 5.42225201072386,
      "grad_norm": 11.983466148376465,
      "learning_rate": 4.567185508117784e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 21126600,
      "step": 36405
    },
    {
      "epoch": 5.42299672326482,
      "grad_norm": 43.63988494873047,
      "learning_rate": 4.567002747443186e-05,
      "loss": 0.4152,
      "num_input_tokens_seen": 21129512,
      "step": 36410
    },
    {
      "epoch": 5.423741435805779,
      "grad_norm": 0.7987005114555359,
      "learning_rate": 4.5668199518486785e-05,
      "loss": 0.1711,
      "num_input_tokens_seen": 21132520,
      "step": 36415
    },
    {
      "epoch": 5.424486148346738,
      "grad_norm": 17.45232582092285,
      "learning_rate": 4.566637121337347e-05,
      "loss": 0.0569,
      "num_input_tokens_seen": 21136104,
      "step": 36420
    },
    {
      "epoch": 5.425230860887697,
      "grad_norm": 35.38516616821289,
      "learning_rate": 4.566454255912283e-05,
      "loss": 0.3829,
      "num_input_tokens_seen": 21138856,
      "step": 36425
    },
    {
      "epoch": 5.425975573428657,
      "grad_norm": 25.079517364501953,
      "learning_rate": 4.5662713555765735e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 21141960,
      "step": 36430
    },
    {
      "epoch": 5.4267202859696155,
      "grad_norm": 3.7265241146087646,
      "learning_rate": 4.56608842033331e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 21144904,
      "step": 36435
    },
    {
      "epoch": 5.427464998510575,
      "grad_norm": 28.14341926574707,
      "learning_rate": 4.565905450185583e-05,
      "loss": 0.1112,
      "num_input_tokens_seen": 21147656,
      "step": 36440
    },
    {
      "epoch": 5.428209711051534,
      "grad_norm": 23.756925582885742,
      "learning_rate": 4.565722445136483e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 21150632,
      "step": 36445
    },
    {
      "epoch": 5.428954423592494,
      "grad_norm": 6.810663223266602,
      "learning_rate": 4.565539405189101e-05,
      "loss": 0.3314,
      "num_input_tokens_seen": 21153832,
      "step": 36450
    },
    {
      "epoch": 5.429699136133452,
      "grad_norm": 24.088991165161133,
      "learning_rate": 4.5653563303465306e-05,
      "loss": 0.1081,
      "num_input_tokens_seen": 21156392,
      "step": 36455
    },
    {
      "epoch": 5.430443848674412,
      "grad_norm": 5.348756313323975,
      "learning_rate": 4.565173220611864e-05,
      "loss": 0.1671,
      "num_input_tokens_seen": 21159144,
      "step": 36460
    },
    {
      "epoch": 5.431188561215371,
      "grad_norm": 32.07391357421875,
      "learning_rate": 4.5649900759881956e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 21161832,
      "step": 36465
    },
    {
      "epoch": 5.43193327375633,
      "grad_norm": 1.0108681917190552,
      "learning_rate": 4.564806896478617e-05,
      "loss": 0.0671,
      "num_input_tokens_seen": 21164488,
      "step": 36470
    },
    {
      "epoch": 5.432677986297289,
      "grad_norm": 13.787705421447754,
      "learning_rate": 4.564623682086226e-05,
      "loss": 0.2009,
      "num_input_tokens_seen": 21167848,
      "step": 36475
    },
    {
      "epoch": 5.433422698838249,
      "grad_norm": 18.1943416595459,
      "learning_rate": 4.564440432814116e-05,
      "loss": 0.1783,
      "num_input_tokens_seen": 21170440,
      "step": 36480
    },
    {
      "epoch": 5.434167411379208,
      "grad_norm": 25.888286590576172,
      "learning_rate": 4.5642571486653825e-05,
      "loss": 0.2653,
      "num_input_tokens_seen": 21173384,
      "step": 36485
    },
    {
      "epoch": 5.434912123920167,
      "grad_norm": 25.668060302734375,
      "learning_rate": 4.5640738296431224e-05,
      "loss": 0.4169,
      "num_input_tokens_seen": 21176264,
      "step": 36490
    },
    {
      "epoch": 5.435656836461126,
      "grad_norm": 0.0931699201464653,
      "learning_rate": 4.563890475750433e-05,
      "loss": 0.0674,
      "num_input_tokens_seen": 21179304,
      "step": 36495
    },
    {
      "epoch": 5.436401549002086,
      "grad_norm": 15.694074630737305,
      "learning_rate": 4.563707086990412e-05,
      "loss": 0.5643,
      "num_input_tokens_seen": 21182216,
      "step": 36500
    },
    {
      "epoch": 5.437146261543044,
      "grad_norm": 0.06531906127929688,
      "learning_rate": 4.563523663366157e-05,
      "loss": 0.4822,
      "num_input_tokens_seen": 21185192,
      "step": 36505
    },
    {
      "epoch": 5.437890974084004,
      "grad_norm": 0.14726580679416656,
      "learning_rate": 4.563340204880767e-05,
      "loss": 0.2856,
      "num_input_tokens_seen": 21188232,
      "step": 36510
    },
    {
      "epoch": 5.438635686624963,
      "grad_norm": 18.035314559936523,
      "learning_rate": 4.563156711537341e-05,
      "loss": 0.1737,
      "num_input_tokens_seen": 21191112,
      "step": 36515
    },
    {
      "epoch": 5.4393803991659215,
      "grad_norm": 8.785017013549805,
      "learning_rate": 4.56297318333898e-05,
      "loss": 0.1618,
      "num_input_tokens_seen": 21194152,
      "step": 36520
    },
    {
      "epoch": 5.440125111706881,
      "grad_norm": 0.07368846982717514,
      "learning_rate": 4.562789620288783e-05,
      "loss": 0.0695,
      "num_input_tokens_seen": 21196680,
      "step": 36525
    },
    {
      "epoch": 5.44086982424784,
      "grad_norm": 0.14198634028434753,
      "learning_rate": 4.562606022389853e-05,
      "loss": 0.0256,
      "num_input_tokens_seen": 21199496,
      "step": 36530
    },
    {
      "epoch": 5.4416145367888,
      "grad_norm": 29.091060638427734,
      "learning_rate": 4.5624223896452894e-05,
      "loss": 0.351,
      "num_input_tokens_seen": 21202408,
      "step": 36535
    },
    {
      "epoch": 5.442359249329758,
      "grad_norm": 49.63295364379883,
      "learning_rate": 4.5622387220581965e-05,
      "loss": 0.0958,
      "num_input_tokens_seen": 21205224,
      "step": 36540
    },
    {
      "epoch": 5.443103961870718,
      "grad_norm": 0.0841192975640297,
      "learning_rate": 4.5620550196316757e-05,
      "loss": 0.4594,
      "num_input_tokens_seen": 21208424,
      "step": 36545
    },
    {
      "epoch": 5.443848674411677,
      "grad_norm": 40.43951416015625,
      "learning_rate": 4.5618712823688316e-05,
      "loss": 0.4328,
      "num_input_tokens_seen": 21211464,
      "step": 36550
    },
    {
      "epoch": 5.444593386952636,
      "grad_norm": 0.23686937987804413,
      "learning_rate": 4.561687510272767e-05,
      "loss": 0.2209,
      "num_input_tokens_seen": 21214344,
      "step": 36555
    },
    {
      "epoch": 5.445338099493595,
      "grad_norm": 7.986141681671143,
      "learning_rate": 4.5615037033465876e-05,
      "loss": 0.107,
      "num_input_tokens_seen": 21217224,
      "step": 36560
    },
    {
      "epoch": 5.446082812034555,
      "grad_norm": 5.046163082122803,
      "learning_rate": 4.5613198615933994e-05,
      "loss": 0.2139,
      "num_input_tokens_seen": 21219944,
      "step": 36565
    },
    {
      "epoch": 5.446827524575514,
      "grad_norm": 0.4533155858516693,
      "learning_rate": 4.561135985016306e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 21222792,
      "step": 36570
    },
    {
      "epoch": 5.447572237116473,
      "grad_norm": 40.72690200805664,
      "learning_rate": 4.560952073618415e-05,
      "loss": 0.6233,
      "num_input_tokens_seen": 21225608,
      "step": 36575
    },
    {
      "epoch": 5.448316949657432,
      "grad_norm": 4.214341163635254,
      "learning_rate": 4.560768127402834e-05,
      "loss": 0.3634,
      "num_input_tokens_seen": 21228520,
      "step": 36580
    },
    {
      "epoch": 5.449061662198392,
      "grad_norm": 0.6487834453582764,
      "learning_rate": 4.5605841463726695e-05,
      "loss": 0.1492,
      "num_input_tokens_seen": 21231496,
      "step": 36585
    },
    {
      "epoch": 5.44980637473935,
      "grad_norm": 2.698791980743408,
      "learning_rate": 4.5604001305310304e-05,
      "loss": 0.4107,
      "num_input_tokens_seen": 21234696,
      "step": 36590
    },
    {
      "epoch": 5.45055108728031,
      "grad_norm": 31.901445388793945,
      "learning_rate": 4.5602160798810256e-05,
      "loss": 0.5497,
      "num_input_tokens_seen": 21237704,
      "step": 36595
    },
    {
      "epoch": 5.451295799821269,
      "grad_norm": 20.082508087158203,
      "learning_rate": 4.5600319944257635e-05,
      "loss": 0.537,
      "num_input_tokens_seen": 21240488,
      "step": 36600
    },
    {
      "epoch": 5.452040512362228,
      "grad_norm": 58.90796661376953,
      "learning_rate": 4.559847874168355e-05,
      "loss": 0.4827,
      "num_input_tokens_seen": 21243656,
      "step": 36605
    },
    {
      "epoch": 5.452785224903187,
      "grad_norm": 0.10562868416309357,
      "learning_rate": 4.55966371911191e-05,
      "loss": 0.2713,
      "num_input_tokens_seen": 21246632,
      "step": 36610
    },
    {
      "epoch": 5.453529937444147,
      "grad_norm": 37.62330627441406,
      "learning_rate": 4.5594795292595394e-05,
      "loss": 0.2701,
      "num_input_tokens_seen": 21249480,
      "step": 36615
    },
    {
      "epoch": 5.454274649985106,
      "grad_norm": 8.722641944885254,
      "learning_rate": 4.559295304614355e-05,
      "loss": 0.2671,
      "num_input_tokens_seen": 21252328,
      "step": 36620
    },
    {
      "epoch": 5.455019362526065,
      "grad_norm": 1.37640380859375,
      "learning_rate": 4.559111045179471e-05,
      "loss": 0.1769,
      "num_input_tokens_seen": 21255528,
      "step": 36625
    },
    {
      "epoch": 5.455764075067024,
      "grad_norm": 0.9962418079376221,
      "learning_rate": 4.558926750957997e-05,
      "loss": 0.2545,
      "num_input_tokens_seen": 21258440,
      "step": 36630
    },
    {
      "epoch": 5.456508787607984,
      "grad_norm": 11.796055793762207,
      "learning_rate": 4.558742421953049e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 21261256,
      "step": 36635
    },
    {
      "epoch": 5.457253500148942,
      "grad_norm": 41.720977783203125,
      "learning_rate": 4.55855805816774e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 21264040,
      "step": 36640
    },
    {
      "epoch": 5.457998212689902,
      "grad_norm": 0.7508819699287415,
      "learning_rate": 4.558373659605185e-05,
      "loss": 0.1884,
      "num_input_tokens_seen": 21266824,
      "step": 36645
    },
    {
      "epoch": 5.458742925230861,
      "grad_norm": 44.59841537475586,
      "learning_rate": 4.5581892262684984e-05,
      "loss": 0.2218,
      "num_input_tokens_seen": 21269608,
      "step": 36650
    },
    {
      "epoch": 5.4594876377718204,
      "grad_norm": 13.972248077392578,
      "learning_rate": 4.558004758160798e-05,
      "loss": 0.1003,
      "num_input_tokens_seen": 21272584,
      "step": 36655
    },
    {
      "epoch": 5.460232350312779,
      "grad_norm": 27.2101993560791,
      "learning_rate": 4.5578202552851976e-05,
      "loss": 0.0347,
      "num_input_tokens_seen": 21275592,
      "step": 36660
    },
    {
      "epoch": 5.460977062853739,
      "grad_norm": 14.52779769897461,
      "learning_rate": 4.557635717644816e-05,
      "loss": 0.2149,
      "num_input_tokens_seen": 21278312,
      "step": 36665
    },
    {
      "epoch": 5.461721775394698,
      "grad_norm": 5.760975360870361,
      "learning_rate": 4.557451145242769e-05,
      "loss": 0.3326,
      "num_input_tokens_seen": 21281128,
      "step": 36670
    },
    {
      "epoch": 5.462466487935657,
      "grad_norm": 34.47415542602539,
      "learning_rate": 4.557266538082178e-05,
      "loss": 0.1263,
      "num_input_tokens_seen": 21284104,
      "step": 36675
    },
    {
      "epoch": 5.463211200476616,
      "grad_norm": 32.006935119628906,
      "learning_rate": 4.557081896166159e-05,
      "loss": 0.3623,
      "num_input_tokens_seen": 21286792,
      "step": 36680
    },
    {
      "epoch": 5.463955913017575,
      "grad_norm": 30.700885772705078,
      "learning_rate": 4.556897219497832e-05,
      "loss": 0.1862,
      "num_input_tokens_seen": 21289960,
      "step": 36685
    },
    {
      "epoch": 5.464700625558534,
      "grad_norm": 31.44464874267578,
      "learning_rate": 4.556712508080316e-05,
      "loss": 0.2544,
      "num_input_tokens_seen": 21292616,
      "step": 36690
    },
    {
      "epoch": 5.465445338099494,
      "grad_norm": 18.078781127929688,
      "learning_rate": 4.556527761916735e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 21295464,
      "step": 36695
    },
    {
      "epoch": 5.466190050640453,
      "grad_norm": 40.53714370727539,
      "learning_rate": 4.556342981010205e-05,
      "loss": 0.1731,
      "num_input_tokens_seen": 21298280,
      "step": 36700
    },
    {
      "epoch": 5.466934763181412,
      "grad_norm": 25.144596099853516,
      "learning_rate": 4.5561581653638516e-05,
      "loss": 0.3037,
      "num_input_tokens_seen": 21301224,
      "step": 36705
    },
    {
      "epoch": 5.467679475722371,
      "grad_norm": 1.439716100692749,
      "learning_rate": 4.555973314980796e-05,
      "loss": 0.0356,
      "num_input_tokens_seen": 21303944,
      "step": 36710
    },
    {
      "epoch": 5.46842418826333,
      "grad_norm": 11.293083190917969,
      "learning_rate": 4.555788429864161e-05,
      "loss": 0.2689,
      "num_input_tokens_seen": 21306952,
      "step": 36715
    },
    {
      "epoch": 5.46916890080429,
      "grad_norm": 42.78358840942383,
      "learning_rate": 4.5556035100170683e-05,
      "loss": 0.168,
      "num_input_tokens_seen": 21309960,
      "step": 36720
    },
    {
      "epoch": 5.469913613345248,
      "grad_norm": 1.089888334274292,
      "learning_rate": 4.555418555442645e-05,
      "loss": 0.2431,
      "num_input_tokens_seen": 21313032,
      "step": 36725
    },
    {
      "epoch": 5.470658325886208,
      "grad_norm": 10.957331657409668,
      "learning_rate": 4.555233566144014e-05,
      "loss": 0.33,
      "num_input_tokens_seen": 21316040,
      "step": 36730
    },
    {
      "epoch": 5.471403038427167,
      "grad_norm": 9.01827335357666,
      "learning_rate": 4.5550485421243006e-05,
      "loss": 0.2744,
      "num_input_tokens_seen": 21318824,
      "step": 36735
    },
    {
      "epoch": 5.4721477509681264,
      "grad_norm": 2.2158801555633545,
      "learning_rate": 4.554863483386631e-05,
      "loss": 0.2503,
      "num_input_tokens_seen": 21321832,
      "step": 36740
    },
    {
      "epoch": 5.472892463509085,
      "grad_norm": 11.280929565429688,
      "learning_rate": 4.554678389934131e-05,
      "loss": 0.4597,
      "num_input_tokens_seen": 21325096,
      "step": 36745
    },
    {
      "epoch": 5.473637176050045,
      "grad_norm": 2.8615360260009766,
      "learning_rate": 4.554493261769928e-05,
      "loss": 0.3387,
      "num_input_tokens_seen": 21328296,
      "step": 36750
    },
    {
      "epoch": 5.474381888591004,
      "grad_norm": 33.768035888671875,
      "learning_rate": 4.5543080988971484e-05,
      "loss": 0.2717,
      "num_input_tokens_seen": 21330888,
      "step": 36755
    },
    {
      "epoch": 5.475126601131963,
      "grad_norm": 15.783858299255371,
      "learning_rate": 4.554122901318922e-05,
      "loss": 0.3763,
      "num_input_tokens_seen": 21334120,
      "step": 36760
    },
    {
      "epoch": 5.475871313672922,
      "grad_norm": 0.4486387073993683,
      "learning_rate": 4.553937669038378e-05,
      "loss": 0.6119,
      "num_input_tokens_seen": 21337224,
      "step": 36765
    },
    {
      "epoch": 5.476616026213882,
      "grad_norm": 111.15837860107422,
      "learning_rate": 4.553752402058644e-05,
      "loss": 0.5251,
      "num_input_tokens_seen": 21340072,
      "step": 36770
    },
    {
      "epoch": 5.47736073875484,
      "grad_norm": 5.221685409545898,
      "learning_rate": 4.55356710038285e-05,
      "loss": 0.3971,
      "num_input_tokens_seen": 21342760,
      "step": 36775
    },
    {
      "epoch": 5.4781054512958,
      "grad_norm": 5.039912223815918,
      "learning_rate": 4.5533817640141275e-05,
      "loss": 0.0967,
      "num_input_tokens_seen": 21345672,
      "step": 36780
    },
    {
      "epoch": 5.478850163836759,
      "grad_norm": 28.45421600341797,
      "learning_rate": 4.553196392955606e-05,
      "loss": 0.2109,
      "num_input_tokens_seen": 21348936,
      "step": 36785
    },
    {
      "epoch": 5.4795948763777185,
      "grad_norm": 1.4214760065078735,
      "learning_rate": 4.55301098721042e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 21351656,
      "step": 36790
    },
    {
      "epoch": 5.480339588918677,
      "grad_norm": 0.26905208826065063,
      "learning_rate": 4.5528255467816994e-05,
      "loss": 0.2204,
      "num_input_tokens_seen": 21354824,
      "step": 36795
    },
    {
      "epoch": 5.481084301459637,
      "grad_norm": 0.024522602558135986,
      "learning_rate": 4.552640071672577e-05,
      "loss": 0.0615,
      "num_input_tokens_seen": 21357608,
      "step": 36800
    },
    {
      "epoch": 5.481829014000596,
      "grad_norm": 3.810189723968506,
      "learning_rate": 4.552454561886187e-05,
      "loss": 0.1796,
      "num_input_tokens_seen": 21360360,
      "step": 36805
    },
    {
      "epoch": 5.482573726541555,
      "grad_norm": 7.017350196838379,
      "learning_rate": 4.5522690174256635e-05,
      "loss": 0.5763,
      "num_input_tokens_seen": 21363144,
      "step": 36810
    },
    {
      "epoch": 5.483318439082514,
      "grad_norm": 34.59178161621094,
      "learning_rate": 4.55208343829414e-05,
      "loss": 0.3982,
      "num_input_tokens_seen": 21365960,
      "step": 36815
    },
    {
      "epoch": 5.484063151623474,
      "grad_norm": 48.558937072753906,
      "learning_rate": 4.551897824494753e-05,
      "loss": 0.344,
      "num_input_tokens_seen": 21368872,
      "step": 36820
    },
    {
      "epoch": 5.4848078641644324,
      "grad_norm": 0.029696088284254074,
      "learning_rate": 4.551712176030638e-05,
      "loss": 0.0411,
      "num_input_tokens_seen": 21372232,
      "step": 36825
    },
    {
      "epoch": 5.485552576705392,
      "grad_norm": 0.07151804864406586,
      "learning_rate": 4.551526492904931e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 21375272,
      "step": 36830
    },
    {
      "epoch": 5.486297289246351,
      "grad_norm": 0.1652684360742569,
      "learning_rate": 4.551340775120768e-05,
      "loss": 0.4383,
      "num_input_tokens_seen": 21378632,
      "step": 36835
    },
    {
      "epoch": 5.4870420017873105,
      "grad_norm": 0.08058147877454758,
      "learning_rate": 4.551155022681288e-05,
      "loss": 0.2558,
      "num_input_tokens_seen": 21381448,
      "step": 36840
    },
    {
      "epoch": 5.487786714328269,
      "grad_norm": 87.79718780517578,
      "learning_rate": 4.5509692355896296e-05,
      "loss": 0.5714,
      "num_input_tokens_seen": 21384232,
      "step": 36845
    },
    {
      "epoch": 5.488531426869228,
      "grad_norm": 22.27303123474121,
      "learning_rate": 4.550783413848929e-05,
      "loss": 0.0813,
      "num_input_tokens_seen": 21387016,
      "step": 36850
    },
    {
      "epoch": 5.489276139410188,
      "grad_norm": 6.452620983123779,
      "learning_rate": 4.550597557462328e-05,
      "loss": 0.1922,
      "num_input_tokens_seen": 21391176,
      "step": 36855
    },
    {
      "epoch": 5.490020851951147,
      "grad_norm": 20.544824600219727,
      "learning_rate": 4.5504116664329656e-05,
      "loss": 0.1214,
      "num_input_tokens_seen": 21394216,
      "step": 36860
    },
    {
      "epoch": 5.490765564492106,
      "grad_norm": 103.67225646972656,
      "learning_rate": 4.550225740763981e-05,
      "loss": 0.3212,
      "num_input_tokens_seen": 21397032,
      "step": 36865
    },
    {
      "epoch": 5.491510277033065,
      "grad_norm": 26.47796630859375,
      "learning_rate": 4.5500397804585166e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 21399944,
      "step": 36870
    },
    {
      "epoch": 5.4922549895740245,
      "grad_norm": 3.988584041595459,
      "learning_rate": 4.5498537855197145e-05,
      "loss": 0.334,
      "num_input_tokens_seen": 21402856,
      "step": 36875
    },
    {
      "epoch": 5.492999702114983,
      "grad_norm": 16.226863861083984,
      "learning_rate": 4.549667755950715e-05,
      "loss": 0.2573,
      "num_input_tokens_seen": 21405832,
      "step": 36880
    },
    {
      "epoch": 5.493744414655943,
      "grad_norm": 0.2635287046432495,
      "learning_rate": 4.5494816917546625e-05,
      "loss": 0.2348,
      "num_input_tokens_seen": 21408904,
      "step": 36885
    },
    {
      "epoch": 5.494489127196902,
      "grad_norm": 59.030303955078125,
      "learning_rate": 4.549295592934699e-05,
      "loss": 0.3926,
      "num_input_tokens_seen": 21411912,
      "step": 36890
    },
    {
      "epoch": 5.495233839737861,
      "grad_norm": 24.639650344848633,
      "learning_rate": 4.5491094594939705e-05,
      "loss": 0.5322,
      "num_input_tokens_seen": 21414856,
      "step": 36895
    },
    {
      "epoch": 5.49597855227882,
      "grad_norm": 0.35462045669555664,
      "learning_rate": 4.5489232914356196e-05,
      "loss": 0.1526,
      "num_input_tokens_seen": 21417832,
      "step": 36900
    },
    {
      "epoch": 5.49672326481978,
      "grad_norm": 16.351991653442383,
      "learning_rate": 4.548737088762792e-05,
      "loss": 0.5443,
      "num_input_tokens_seen": 21420680,
      "step": 36905
    },
    {
      "epoch": 5.4974679773607384,
      "grad_norm": 17.87716293334961,
      "learning_rate": 4.548550851478634e-05,
      "loss": 0.7182,
      "num_input_tokens_seen": 21423464,
      "step": 36910
    },
    {
      "epoch": 5.498212689901698,
      "grad_norm": 67.79045104980469,
      "learning_rate": 4.548364579586291e-05,
      "loss": 0.4049,
      "num_input_tokens_seen": 21426344,
      "step": 36915
    },
    {
      "epoch": 5.498957402442657,
      "grad_norm": 17.080785751342773,
      "learning_rate": 4.548178273088911e-05,
      "loss": 0.2416,
      "num_input_tokens_seen": 21429608,
      "step": 36920
    },
    {
      "epoch": 5.4997021149836165,
      "grad_norm": 13.929975509643555,
      "learning_rate": 4.54799193198964e-05,
      "loss": 0.2209,
      "num_input_tokens_seen": 21432296,
      "step": 36925
    },
    {
      "epoch": 5.500446827524575,
      "grad_norm": 0.7372556328773499,
      "learning_rate": 4.547805556291627e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 21435240,
      "step": 36930
    },
    {
      "epoch": 5.501191540065535,
      "grad_norm": 16.024030685424805,
      "learning_rate": 4.54761914599802e-05,
      "loss": 0.2584,
      "num_input_tokens_seen": 21438600,
      "step": 36935
    },
    {
      "epoch": 5.501936252606494,
      "grad_norm": 4.258963584899902,
      "learning_rate": 4.54743270111197e-05,
      "loss": 0.4307,
      "num_input_tokens_seen": 21441672,
      "step": 36940
    },
    {
      "epoch": 5.502680965147453,
      "grad_norm": 35.5065803527832,
      "learning_rate": 4.547246221636624e-05,
      "loss": 0.2334,
      "num_input_tokens_seen": 21444520,
      "step": 36945
    },
    {
      "epoch": 5.503425677688412,
      "grad_norm": 21.28279685974121,
      "learning_rate": 4.5470597075751345e-05,
      "loss": 0.306,
      "num_input_tokens_seen": 21447336,
      "step": 36950
    },
    {
      "epoch": 5.504170390229372,
      "grad_norm": 28.93758201599121,
      "learning_rate": 4.5468731589306516e-05,
      "loss": 0.2896,
      "num_input_tokens_seen": 21450120,
      "step": 36955
    },
    {
      "epoch": 5.5049151027703305,
      "grad_norm": 4.45582914352417,
      "learning_rate": 4.546686575706327e-05,
      "loss": 0.3412,
      "num_input_tokens_seen": 21453000,
      "step": 36960
    },
    {
      "epoch": 5.50565981531129,
      "grad_norm": 32.67793655395508,
      "learning_rate": 4.546499957905313e-05,
      "loss": 0.2761,
      "num_input_tokens_seen": 21456008,
      "step": 36965
    },
    {
      "epoch": 5.506404527852249,
      "grad_norm": 25.279664993286133,
      "learning_rate": 4.546313305530762e-05,
      "loss": 0.4929,
      "num_input_tokens_seen": 21458984,
      "step": 36970
    },
    {
      "epoch": 5.5071492403932085,
      "grad_norm": 17.2277774810791,
      "learning_rate": 4.546126618585828e-05,
      "loss": 0.2349,
      "num_input_tokens_seen": 21462184,
      "step": 36975
    },
    {
      "epoch": 5.507893952934167,
      "grad_norm": 1.2815970182418823,
      "learning_rate": 4.5459398970736636e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 21465096,
      "step": 36980
    },
    {
      "epoch": 5.508638665475127,
      "grad_norm": 12.530535697937012,
      "learning_rate": 4.545753140997424e-05,
      "loss": 0.1047,
      "num_input_tokens_seen": 21467848,
      "step": 36985
    },
    {
      "epoch": 5.509383378016086,
      "grad_norm": 3.8555102348327637,
      "learning_rate": 4.545566350360265e-05,
      "loss": 0.0936,
      "num_input_tokens_seen": 21470696,
      "step": 36990
    },
    {
      "epoch": 5.510128090557045,
      "grad_norm": 11.151154518127441,
      "learning_rate": 4.5453795251653416e-05,
      "loss": 0.2874,
      "num_input_tokens_seen": 21473864,
      "step": 36995
    },
    {
      "epoch": 5.510872803098004,
      "grad_norm": 17.62196922302246,
      "learning_rate": 4.545192665415809e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 21476904,
      "step": 37000
    },
    {
      "epoch": 5.511617515638964,
      "grad_norm": 17.75640296936035,
      "learning_rate": 4.545005771114826e-05,
      "loss": 0.3617,
      "num_input_tokens_seen": 21479592,
      "step": 37005
    },
    {
      "epoch": 5.5123622281799225,
      "grad_norm": 12.096290588378906,
      "learning_rate": 4.544818842265548e-05,
      "loss": 0.2996,
      "num_input_tokens_seen": 21482600,
      "step": 37010
    },
    {
      "epoch": 5.513106940720881,
      "grad_norm": 0.1490813046693802,
      "learning_rate": 4.544631878871135e-05,
      "loss": 0.2264,
      "num_input_tokens_seen": 21485096,
      "step": 37015
    },
    {
      "epoch": 5.513851653261841,
      "grad_norm": 0.12360592186450958,
      "learning_rate": 4.544444880934744e-05,
      "loss": 0.1505,
      "num_input_tokens_seen": 21488072,
      "step": 37020
    },
    {
      "epoch": 5.5145963658028005,
      "grad_norm": 4.247776031494141,
      "learning_rate": 4.5442578484595346e-05,
      "loss": 0.3328,
      "num_input_tokens_seen": 21490888,
      "step": 37025
    },
    {
      "epoch": 5.515341078343759,
      "grad_norm": 0.010797198861837387,
      "learning_rate": 4.544070781448666e-05,
      "loss": 0.1468,
      "num_input_tokens_seen": 21493928,
      "step": 37030
    },
    {
      "epoch": 5.516085790884718,
      "grad_norm": 37.13518524169922,
      "learning_rate": 4.5438836799053e-05,
      "loss": 0.2448,
      "num_input_tokens_seen": 21497032,
      "step": 37035
    },
    {
      "epoch": 5.516830503425678,
      "grad_norm": 57.24016189575195,
      "learning_rate": 4.5436965438325953e-05,
      "loss": 0.4905,
      "num_input_tokens_seen": 21500232,
      "step": 37040
    },
    {
      "epoch": 5.517575215966637,
      "grad_norm": 6.903549671173096,
      "learning_rate": 4.543509373233715e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 21503592,
      "step": 37045
    },
    {
      "epoch": 5.518319928507596,
      "grad_norm": 43.18333435058594,
      "learning_rate": 4.5433221681118215e-05,
      "loss": 0.4039,
      "num_input_tokens_seen": 21506568,
      "step": 37050
    },
    {
      "epoch": 5.519064641048555,
      "grad_norm": 0.10141520947217941,
      "learning_rate": 4.5431349284700764e-05,
      "loss": 0.3095,
      "num_input_tokens_seen": 21509224,
      "step": 37055
    },
    {
      "epoch": 5.5198093535895145,
      "grad_norm": 11.37722396850586,
      "learning_rate": 4.542947654311643e-05,
      "loss": 0.3252,
      "num_input_tokens_seen": 21512008,
      "step": 37060
    },
    {
      "epoch": 5.520554066130473,
      "grad_norm": 2.8045647144317627,
      "learning_rate": 4.542760345639686e-05,
      "loss": 0.1375,
      "num_input_tokens_seen": 21514664,
      "step": 37065
    },
    {
      "epoch": 5.521298778671433,
      "grad_norm": 21.888139724731445,
      "learning_rate": 4.542573002457368e-05,
      "loss": 0.5074,
      "num_input_tokens_seen": 21517352,
      "step": 37070
    },
    {
      "epoch": 5.522043491212392,
      "grad_norm": 7.482855796813965,
      "learning_rate": 4.5423856247678556e-05,
      "loss": 0.5722,
      "num_input_tokens_seen": 21520232,
      "step": 37075
    },
    {
      "epoch": 5.522788203753351,
      "grad_norm": 0.6309580206871033,
      "learning_rate": 4.542198212574314e-05,
      "loss": 0.2214,
      "num_input_tokens_seen": 21523144,
      "step": 37080
    },
    {
      "epoch": 5.52353291629431,
      "grad_norm": 0.5198545455932617,
      "learning_rate": 4.5420107658799094e-05,
      "loss": 0.2379,
      "num_input_tokens_seen": 21525992,
      "step": 37085
    },
    {
      "epoch": 5.52427762883527,
      "grad_norm": 23.421207427978516,
      "learning_rate": 4.541823284687808e-05,
      "loss": 0.1919,
      "num_input_tokens_seen": 21528872,
      "step": 37090
    },
    {
      "epoch": 5.5250223413762285,
      "grad_norm": 20.911575317382812,
      "learning_rate": 4.541635769001178e-05,
      "loss": 0.1872,
      "num_input_tokens_seen": 21531816,
      "step": 37095
    },
    {
      "epoch": 5.525767053917188,
      "grad_norm": 15.228216171264648,
      "learning_rate": 4.5414482188231864e-05,
      "loss": 0.4686,
      "num_input_tokens_seen": 21534728,
      "step": 37100
    },
    {
      "epoch": 5.526511766458147,
      "grad_norm": 17.44672966003418,
      "learning_rate": 4.5412606341570016e-05,
      "loss": 0.3067,
      "num_input_tokens_seen": 21537800,
      "step": 37105
    },
    {
      "epoch": 5.5272564789991065,
      "grad_norm": 5.418606281280518,
      "learning_rate": 4.5410730150057935e-05,
      "loss": 0.093,
      "num_input_tokens_seen": 21540424,
      "step": 37110
    },
    {
      "epoch": 5.528001191540065,
      "grad_norm": 14.495963096618652,
      "learning_rate": 4.5408853613727307e-05,
      "loss": 0.1951,
      "num_input_tokens_seen": 21543016,
      "step": 37115
    },
    {
      "epoch": 5.528745904081025,
      "grad_norm": 16.833782196044922,
      "learning_rate": 4.540697673260984e-05,
      "loss": 0.2003,
      "num_input_tokens_seen": 21545960,
      "step": 37120
    },
    {
      "epoch": 5.529490616621984,
      "grad_norm": 21.50313377380371,
      "learning_rate": 4.5405099506737244e-05,
      "loss": 0.6267,
      "num_input_tokens_seen": 21548776,
      "step": 37125
    },
    {
      "epoch": 5.530235329162943,
      "grad_norm": 9.259724617004395,
      "learning_rate": 4.540322193614123e-05,
      "loss": 0.3364,
      "num_input_tokens_seen": 21551432,
      "step": 37130
    },
    {
      "epoch": 5.530980041703902,
      "grad_norm": 7.171678066253662,
      "learning_rate": 4.540134402085352e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 21554056,
      "step": 37135
    },
    {
      "epoch": 5.531724754244862,
      "grad_norm": 4.115632057189941,
      "learning_rate": 4.539946576090584e-05,
      "loss": 0.1384,
      "num_input_tokens_seen": 21556968,
      "step": 37140
    },
    {
      "epoch": 5.5324694667858205,
      "grad_norm": 13.865294456481934,
      "learning_rate": 4.539758715632992e-05,
      "loss": 0.3887,
      "num_input_tokens_seen": 21559912,
      "step": 37145
    },
    {
      "epoch": 5.53321417932678,
      "grad_norm": 43.41212844848633,
      "learning_rate": 4.539570820715749e-05,
      "loss": 0.1405,
      "num_input_tokens_seen": 21563144,
      "step": 37150
    },
    {
      "epoch": 5.533958891867739,
      "grad_norm": 8.950263977050781,
      "learning_rate": 4.53938289134203e-05,
      "loss": 0.1819,
      "num_input_tokens_seen": 21565768,
      "step": 37155
    },
    {
      "epoch": 5.534703604408699,
      "grad_norm": 12.188464164733887,
      "learning_rate": 4.5391949275150104e-05,
      "loss": 0.5185,
      "num_input_tokens_seen": 21568584,
      "step": 37160
    },
    {
      "epoch": 5.535448316949657,
      "grad_norm": 20.38827133178711,
      "learning_rate": 4.539006929237864e-05,
      "loss": 0.5447,
      "num_input_tokens_seen": 21571560,
      "step": 37165
    },
    {
      "epoch": 5.536193029490617,
      "grad_norm": 3.7369184494018555,
      "learning_rate": 4.538818896513769e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 21574312,
      "step": 37170
    },
    {
      "epoch": 5.536937742031576,
      "grad_norm": 76.5910873413086,
      "learning_rate": 4.5386308293459e-05,
      "loss": 0.2007,
      "num_input_tokens_seen": 21577128,
      "step": 37175
    },
    {
      "epoch": 5.537682454572535,
      "grad_norm": 0.08738188445568085,
      "learning_rate": 4.5384427277374355e-05,
      "loss": 0.1291,
      "num_input_tokens_seen": 21580296,
      "step": 37180
    },
    {
      "epoch": 5.538427167113494,
      "grad_norm": 44.635902404785156,
      "learning_rate": 4.538254591691553e-05,
      "loss": 0.1172,
      "num_input_tokens_seen": 21583112,
      "step": 37185
    },
    {
      "epoch": 5.539171879654454,
      "grad_norm": 7.927577018737793,
      "learning_rate": 4.538066421211431e-05,
      "loss": 0.3245,
      "num_input_tokens_seen": 21585768,
      "step": 37190
    },
    {
      "epoch": 5.5399165921954125,
      "grad_norm": 1.3985118865966797,
      "learning_rate": 4.5378782163002476e-05,
      "loss": 0.1185,
      "num_input_tokens_seen": 21588776,
      "step": 37195
    },
    {
      "epoch": 5.540661304736371,
      "grad_norm": 0.2680399715900421,
      "learning_rate": 4.537689976961184e-05,
      "loss": 0.1338,
      "num_input_tokens_seen": 21591336,
      "step": 37200
    },
    {
      "epoch": 5.541406017277331,
      "grad_norm": 20.263317108154297,
      "learning_rate": 4.537501703197418e-05,
      "loss": 0.0391,
      "num_input_tokens_seen": 21594120,
      "step": 37205
    },
    {
      "epoch": 5.542150729818291,
      "grad_norm": 0.1229126900434494,
      "learning_rate": 4.5373133950121314e-05,
      "loss": 0.0233,
      "num_input_tokens_seen": 21596840,
      "step": 37210
    },
    {
      "epoch": 5.542895442359249,
      "grad_norm": 18.11501693725586,
      "learning_rate": 4.537125052408506e-05,
      "loss": 0.2672,
      "num_input_tokens_seen": 21599592,
      "step": 37215
    },
    {
      "epoch": 5.543640154900208,
      "grad_norm": 4.757322311401367,
      "learning_rate": 4.536936675389724e-05,
      "loss": 0.6962,
      "num_input_tokens_seen": 21602664,
      "step": 37220
    },
    {
      "epoch": 5.544384867441168,
      "grad_norm": 10.782829284667969,
      "learning_rate": 4.5367482639589665e-05,
      "loss": 0.1987,
      "num_input_tokens_seen": 21605320,
      "step": 37225
    },
    {
      "epoch": 5.5451295799821265,
      "grad_norm": 0.1331356018781662,
      "learning_rate": 4.536559818119418e-05,
      "loss": 0.3146,
      "num_input_tokens_seen": 21608264,
      "step": 37230
    },
    {
      "epoch": 5.545874292523086,
      "grad_norm": 25.155780792236328,
      "learning_rate": 4.53637133787426e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 21610952,
      "step": 37235
    },
    {
      "epoch": 5.546619005064045,
      "grad_norm": 12.360664367675781,
      "learning_rate": 4.536182823226678e-05,
      "loss": 0.2553,
      "num_input_tokens_seen": 21614088,
      "step": 37240
    },
    {
      "epoch": 5.547363717605005,
      "grad_norm": 25.756441116333008,
      "learning_rate": 4.535994274179858e-05,
      "loss": 0.106,
      "num_input_tokens_seen": 21616840,
      "step": 37245
    },
    {
      "epoch": 5.548108430145963,
      "grad_norm": 3.0758848190307617,
      "learning_rate": 4.535805690736983e-05,
      "loss": 0.1362,
      "num_input_tokens_seen": 21619912,
      "step": 37250
    },
    {
      "epoch": 5.548853142686923,
      "grad_norm": 35.04789733886719,
      "learning_rate": 4.535617072901239e-05,
      "loss": 0.3932,
      "num_input_tokens_seen": 21622504,
      "step": 37255
    },
    {
      "epoch": 5.549597855227882,
      "grad_norm": 0.01738254725933075,
      "learning_rate": 4.535428420675816e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 21625448,
      "step": 37260
    },
    {
      "epoch": 5.550342567768841,
      "grad_norm": 10.659793853759766,
      "learning_rate": 4.535239734063896e-05,
      "loss": 0.1808,
      "num_input_tokens_seen": 21628200,
      "step": 37265
    },
    {
      "epoch": 5.5510872803098,
      "grad_norm": 24.653783798217773,
      "learning_rate": 4.535051013068671e-05,
      "loss": 0.6145,
      "num_input_tokens_seen": 21630952,
      "step": 37270
    },
    {
      "epoch": 5.55183199285076,
      "grad_norm": 1.975205898284912,
      "learning_rate": 4.5348622576933265e-05,
      "loss": 0.1973,
      "num_input_tokens_seen": 21633640,
      "step": 37275
    },
    {
      "epoch": 5.5525767053917185,
      "grad_norm": 0.2196575105190277,
      "learning_rate": 4.534673467941053e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 21636648,
      "step": 37280
    },
    {
      "epoch": 5.553321417932678,
      "grad_norm": 26.587181091308594,
      "learning_rate": 4.534484643815038e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 21639304,
      "step": 37285
    },
    {
      "epoch": 5.554066130473637,
      "grad_norm": 24.950239181518555,
      "learning_rate": 4.534295785318474e-05,
      "loss": 0.4657,
      "num_input_tokens_seen": 21641992,
      "step": 37290
    },
    {
      "epoch": 5.554810843014597,
      "grad_norm": 27.557973861694336,
      "learning_rate": 4.53410689245455e-05,
      "loss": 0.4286,
      "num_input_tokens_seen": 21644776,
      "step": 37295
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 25.204280853271484,
      "learning_rate": 4.5339179652264576e-05,
      "loss": 0.3226,
      "num_input_tokens_seen": 21647624,
      "step": 37300
    },
    {
      "epoch": 5.556300268096515,
      "grad_norm": 36.43193817138672,
      "learning_rate": 4.5337290036373875e-05,
      "loss": 0.434,
      "num_input_tokens_seen": 21650344,
      "step": 37305
    },
    {
      "epoch": 5.557044980637474,
      "grad_norm": 9.44365119934082,
      "learning_rate": 4.533540007690533e-05,
      "loss": 0.4536,
      "num_input_tokens_seen": 21652936,
      "step": 37310
    },
    {
      "epoch": 5.557789693178433,
      "grad_norm": 3.045741081237793,
      "learning_rate": 4.533350977389087e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 21655912,
      "step": 37315
    },
    {
      "epoch": 5.558534405719392,
      "grad_norm": 27.453962326049805,
      "learning_rate": 4.533161912736243e-05,
      "loss": 0.2923,
      "num_input_tokens_seen": 21658856,
      "step": 37320
    },
    {
      "epoch": 5.559279118260352,
      "grad_norm": 15.826193809509277,
      "learning_rate": 4.532972813735196e-05,
      "loss": 0.1955,
      "num_input_tokens_seen": 21661896,
      "step": 37325
    },
    {
      "epoch": 5.560023830801311,
      "grad_norm": 4.259759902954102,
      "learning_rate": 4.532783680389138e-05,
      "loss": 0.1542,
      "num_input_tokens_seen": 21664680,
      "step": 37330
    },
    {
      "epoch": 5.56076854334227,
      "grad_norm": 1.3447240591049194,
      "learning_rate": 4.532594512701266e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 21667336,
      "step": 37335
    },
    {
      "epoch": 5.561513255883229,
      "grad_norm": 45.1294059753418,
      "learning_rate": 4.532405310674776e-05,
      "loss": 0.2875,
      "num_input_tokens_seen": 21670056,
      "step": 37340
    },
    {
      "epoch": 5.562257968424189,
      "grad_norm": 0.1030418649315834,
      "learning_rate": 4.532216074312864e-05,
      "loss": 0.3414,
      "num_input_tokens_seen": 21672904,
      "step": 37345
    },
    {
      "epoch": 5.563002680965147,
      "grad_norm": 12.275189399719238,
      "learning_rate": 4.5320268036187266e-05,
      "loss": 0.3922,
      "num_input_tokens_seen": 21676040,
      "step": 37350
    },
    {
      "epoch": 5.563747393506107,
      "grad_norm": 13.976282119750977,
      "learning_rate": 4.531837498595561e-05,
      "loss": 0.3265,
      "num_input_tokens_seen": 21678952,
      "step": 37355
    },
    {
      "epoch": 5.564492106047066,
      "grad_norm": 23.66509246826172,
      "learning_rate": 4.531648159246567e-05,
      "loss": 0.2577,
      "num_input_tokens_seen": 21681896,
      "step": 37360
    },
    {
      "epoch": 5.5652368185880245,
      "grad_norm": 9.337224960327148,
      "learning_rate": 4.531458785574941e-05,
      "loss": 0.3035,
      "num_input_tokens_seen": 21685000,
      "step": 37365
    },
    {
      "epoch": 5.565981531128984,
      "grad_norm": 23.818449020385742,
      "learning_rate": 4.531269377583885e-05,
      "loss": 0.4115,
      "num_input_tokens_seen": 21688104,
      "step": 37370
    },
    {
      "epoch": 5.566726243669944,
      "grad_norm": 10.304412841796875,
      "learning_rate": 4.5310799352765964e-05,
      "loss": 0.1245,
      "num_input_tokens_seen": 21691080,
      "step": 37375
    },
    {
      "epoch": 5.567470956210903,
      "grad_norm": 7.735142707824707,
      "learning_rate": 4.5308904586562774e-05,
      "loss": 0.3051,
      "num_input_tokens_seen": 21693672,
      "step": 37380
    },
    {
      "epoch": 5.568215668751861,
      "grad_norm": 4.848415374755859,
      "learning_rate": 4.530700947726127e-05,
      "loss": 0.806,
      "num_input_tokens_seen": 21696520,
      "step": 37385
    },
    {
      "epoch": 5.568960381292821,
      "grad_norm": 0.10157959908246994,
      "learning_rate": 4.530511402489349e-05,
      "loss": 0.1364,
      "num_input_tokens_seen": 21699496,
      "step": 37390
    },
    {
      "epoch": 5.569705093833781,
      "grad_norm": 1.6719077825546265,
      "learning_rate": 4.530321822949144e-05,
      "loss": 0.1175,
      "num_input_tokens_seen": 21702472,
      "step": 37395
    },
    {
      "epoch": 5.570449806374739,
      "grad_norm": 26.065139770507812,
      "learning_rate": 4.530132209108715e-05,
      "loss": 0.1505,
      "num_input_tokens_seen": 21705384,
      "step": 37400
    },
    {
      "epoch": 5.571194518915698,
      "grad_norm": 21.531570434570312,
      "learning_rate": 4.529942560971266e-05,
      "loss": 0.0653,
      "num_input_tokens_seen": 21708392,
      "step": 37405
    },
    {
      "epoch": 5.571939231456658,
      "grad_norm": 13.547782897949219,
      "learning_rate": 4.529752878540001e-05,
      "loss": 0.1523,
      "num_input_tokens_seen": 21711176,
      "step": 37410
    },
    {
      "epoch": 5.572683943997617,
      "grad_norm": 42.81368637084961,
      "learning_rate": 4.529563161818124e-05,
      "loss": 0.371,
      "num_input_tokens_seen": 21714312,
      "step": 37415
    },
    {
      "epoch": 5.573428656538576,
      "grad_norm": 0.03330761939287186,
      "learning_rate": 4.529373410808841e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 21717128,
      "step": 37420
    },
    {
      "epoch": 5.574173369079535,
      "grad_norm": 22.848876953125,
      "learning_rate": 4.5291836255153555e-05,
      "loss": 0.4232,
      "num_input_tokens_seen": 21719976,
      "step": 37425
    },
    {
      "epoch": 5.574918081620495,
      "grad_norm": 29.359323501586914,
      "learning_rate": 4.528993805940874e-05,
      "loss": 0.0574,
      "num_input_tokens_seen": 21722504,
      "step": 37430
    },
    {
      "epoch": 5.575662794161453,
      "grad_norm": 13.91381549835205,
      "learning_rate": 4.528803952088606e-05,
      "loss": 0.5175,
      "num_input_tokens_seen": 21725192,
      "step": 37435
    },
    {
      "epoch": 5.576407506702413,
      "grad_norm": 16.5749568939209,
      "learning_rate": 4.5286140639617566e-05,
      "loss": 0.2448,
      "num_input_tokens_seen": 21727880,
      "step": 37440
    },
    {
      "epoch": 5.577152219243372,
      "grad_norm": 14.50253963470459,
      "learning_rate": 4.528424141563535e-05,
      "loss": 0.1459,
      "num_input_tokens_seen": 21730888,
      "step": 37445
    },
    {
      "epoch": 5.577896931784331,
      "grad_norm": 22.457605361938477,
      "learning_rate": 4.528234184897149e-05,
      "loss": 0.0687,
      "num_input_tokens_seen": 21734120,
      "step": 37450
    },
    {
      "epoch": 5.57864164432529,
      "grad_norm": 35.15459442138672,
      "learning_rate": 4.528044193965807e-05,
      "loss": 0.5944,
      "num_input_tokens_seen": 21736776,
      "step": 37455
    },
    {
      "epoch": 5.57938635686625,
      "grad_norm": 61.00994110107422,
      "learning_rate": 4.527854168772721e-05,
      "loss": 0.2971,
      "num_input_tokens_seen": 21739944,
      "step": 37460
    },
    {
      "epoch": 5.580131069407209,
      "grad_norm": 2.8047103881835938,
      "learning_rate": 4.527664109321098e-05,
      "loss": 0.3387,
      "num_input_tokens_seen": 21742888,
      "step": 37465
    },
    {
      "epoch": 5.580875781948168,
      "grad_norm": 4.713564395904541,
      "learning_rate": 4.5274740156141516e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 21746024,
      "step": 37470
    },
    {
      "epoch": 5.581620494489127,
      "grad_norm": 46.41624450683594,
      "learning_rate": 4.527283887655093e-05,
      "loss": 0.3067,
      "num_input_tokens_seen": 21748904,
      "step": 37475
    },
    {
      "epoch": 5.582365207030087,
      "grad_norm": 2.005457639694214,
      "learning_rate": 4.5270937254471325e-05,
      "loss": 0.3997,
      "num_input_tokens_seen": 21751656,
      "step": 37480
    },
    {
      "epoch": 5.583109919571045,
      "grad_norm": 19.227359771728516,
      "learning_rate": 4.526903528993484e-05,
      "loss": 0.4569,
      "num_input_tokens_seen": 21754600,
      "step": 37485
    },
    {
      "epoch": 5.583854632112005,
      "grad_norm": 20.030176162719727,
      "learning_rate": 4.526713298297361e-05,
      "loss": 0.1452,
      "num_input_tokens_seen": 21757864,
      "step": 37490
    },
    {
      "epoch": 5.584599344652964,
      "grad_norm": 0.565311074256897,
      "learning_rate": 4.526523033361976e-05,
      "loss": 0.185,
      "num_input_tokens_seen": 21760936,
      "step": 37495
    },
    {
      "epoch": 5.5853440571939235,
      "grad_norm": 0.1643233299255371,
      "learning_rate": 4.5263327341905443e-05,
      "loss": 0.2352,
      "num_input_tokens_seen": 21763688,
      "step": 37500
    },
    {
      "epoch": 5.586088769734882,
      "grad_norm": 23.254003524780273,
      "learning_rate": 4.526142400786281e-05,
      "loss": 0.5209,
      "num_input_tokens_seen": 21766376,
      "step": 37505
    },
    {
      "epoch": 5.586833482275842,
      "grad_norm": 15.246827125549316,
      "learning_rate": 4.5259520331524004e-05,
      "loss": 0.3394,
      "num_input_tokens_seen": 21769192,
      "step": 37510
    },
    {
      "epoch": 5.587578194816801,
      "grad_norm": 35.188392639160156,
      "learning_rate": 4.525761631292119e-05,
      "loss": 0.4247,
      "num_input_tokens_seen": 21772040,
      "step": 37515
    },
    {
      "epoch": 5.58832290735776,
      "grad_norm": 32.419002532958984,
      "learning_rate": 4.5255711952086545e-05,
      "loss": 0.3987,
      "num_input_tokens_seen": 21775176,
      "step": 37520
    },
    {
      "epoch": 5.589067619898719,
      "grad_norm": 25.488506317138672,
      "learning_rate": 4.525380724905224e-05,
      "loss": 0.2722,
      "num_input_tokens_seen": 21777800,
      "step": 37525
    },
    {
      "epoch": 5.589812332439678,
      "grad_norm": 22.9531307220459,
      "learning_rate": 4.525190220385043e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 21780872,
      "step": 37530
    },
    {
      "epoch": 5.590557044980637,
      "grad_norm": 24.160423278808594,
      "learning_rate": 4.5249996816513325e-05,
      "loss": 0.2817,
      "num_input_tokens_seen": 21783688,
      "step": 37535
    },
    {
      "epoch": 5.591301757521597,
      "grad_norm": 1.6826015710830688,
      "learning_rate": 4.52480910870731e-05,
      "loss": 0.2555,
      "num_input_tokens_seen": 21786440,
      "step": 37540
    },
    {
      "epoch": 5.592046470062556,
      "grad_norm": 44.476314544677734,
      "learning_rate": 4.524618501556196e-05,
      "loss": 0.1449,
      "num_input_tokens_seen": 21789800,
      "step": 37545
    },
    {
      "epoch": 5.592791182603515,
      "grad_norm": 36.561710357666016,
      "learning_rate": 4.52442786020121e-05,
      "loss": 0.3781,
      "num_input_tokens_seen": 21792712,
      "step": 37550
    },
    {
      "epoch": 5.593535895144474,
      "grad_norm": 11.755091667175293,
      "learning_rate": 4.524237184645573e-05,
      "loss": 0.3814,
      "num_input_tokens_seen": 21795592,
      "step": 37555
    },
    {
      "epoch": 5.594280607685434,
      "grad_norm": 0.09976588189601898,
      "learning_rate": 4.524046474892506e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 21798248,
      "step": 37560
    },
    {
      "epoch": 5.595025320226393,
      "grad_norm": 12.204977035522461,
      "learning_rate": 4.523855730945231e-05,
      "loss": 0.3676,
      "num_input_tokens_seen": 21800936,
      "step": 37565
    },
    {
      "epoch": 5.595770032767351,
      "grad_norm": 13.927915573120117,
      "learning_rate": 4.52366495280697e-05,
      "loss": 0.2767,
      "num_input_tokens_seen": 21803624,
      "step": 37570
    },
    {
      "epoch": 5.596514745308311,
      "grad_norm": 27.915761947631836,
      "learning_rate": 4.523474140480947e-05,
      "loss": 0.2756,
      "num_input_tokens_seen": 21807016,
      "step": 37575
    },
    {
      "epoch": 5.59725945784927,
      "grad_norm": 32.16106414794922,
      "learning_rate": 4.5232832939703846e-05,
      "loss": 0.2412,
      "num_input_tokens_seen": 21810024,
      "step": 37580
    },
    {
      "epoch": 5.5980041703902295,
      "grad_norm": 9.21735954284668,
      "learning_rate": 4.5230924132785066e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 21812936,
      "step": 37585
    },
    {
      "epoch": 5.598748882931188,
      "grad_norm": 11.686293601989746,
      "learning_rate": 4.52290149840854e-05,
      "loss": 0.236,
      "num_input_tokens_seen": 21815816,
      "step": 37590
    },
    {
      "epoch": 5.599493595472148,
      "grad_norm": 0.1089508980512619,
      "learning_rate": 4.522710549363708e-05,
      "loss": 0.0344,
      "num_input_tokens_seen": 21818824,
      "step": 37595
    },
    {
      "epoch": 5.600238308013107,
      "grad_norm": 7.03009033203125,
      "learning_rate": 4.5225195661472364e-05,
      "loss": 0.1481,
      "num_input_tokens_seen": 21821448,
      "step": 37600
    },
    {
      "epoch": 5.600983020554066,
      "grad_norm": 55.636627197265625,
      "learning_rate": 4.522328548762353e-05,
      "loss": 0.2117,
      "num_input_tokens_seen": 21824200,
      "step": 37605
    },
    {
      "epoch": 5.601727733095025,
      "grad_norm": 16.559656143188477,
      "learning_rate": 4.5221374972122837e-05,
      "loss": 0.4777,
      "num_input_tokens_seen": 21827080,
      "step": 37610
    },
    {
      "epoch": 5.602472445635985,
      "grad_norm": 11.022067070007324,
      "learning_rate": 4.521946411500257e-05,
      "loss": 0.5394,
      "num_input_tokens_seen": 21829928,
      "step": 37615
    },
    {
      "epoch": 5.603217158176943,
      "grad_norm": 14.340620040893555,
      "learning_rate": 4.5217552916295e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 21832584,
      "step": 37620
    },
    {
      "epoch": 5.603961870717903,
      "grad_norm": 1.8621119260787964,
      "learning_rate": 4.521564137603244e-05,
      "loss": 0.2414,
      "num_input_tokens_seen": 21835880,
      "step": 37625
    },
    {
      "epoch": 5.604706583258862,
      "grad_norm": 14.881540298461914,
      "learning_rate": 4.521372949424715e-05,
      "loss": 0.1937,
      "num_input_tokens_seen": 21838568,
      "step": 37630
    },
    {
      "epoch": 5.6054512957998215,
      "grad_norm": 64.53773498535156,
      "learning_rate": 4.521181727097144e-05,
      "loss": 0.2047,
      "num_input_tokens_seen": 21841384,
      "step": 37635
    },
    {
      "epoch": 5.60619600834078,
      "grad_norm": 37.764244079589844,
      "learning_rate": 4.5209904706237626e-05,
      "loss": 0.1847,
      "num_input_tokens_seen": 21844296,
      "step": 37640
    },
    {
      "epoch": 5.60694072088174,
      "grad_norm": 30.978544235229492,
      "learning_rate": 4.5207991800078015e-05,
      "loss": 0.3049,
      "num_input_tokens_seen": 21847176,
      "step": 37645
    },
    {
      "epoch": 5.607685433422699,
      "grad_norm": 15.639491081237793,
      "learning_rate": 4.520607855252492e-05,
      "loss": 0.0542,
      "num_input_tokens_seen": 21850248,
      "step": 37650
    },
    {
      "epoch": 5.608430145963658,
      "grad_norm": 0.7517163753509521,
      "learning_rate": 4.520416496361066e-05,
      "loss": 0.4636,
      "num_input_tokens_seen": 21852936,
      "step": 37655
    },
    {
      "epoch": 5.609174858504617,
      "grad_norm": 78.153564453125,
      "learning_rate": 4.5202251033367574e-05,
      "loss": 0.4171,
      "num_input_tokens_seen": 21855816,
      "step": 37660
    },
    {
      "epoch": 5.609919571045577,
      "grad_norm": 12.53016471862793,
      "learning_rate": 4.5200336761827985e-05,
      "loss": 0.3148,
      "num_input_tokens_seen": 21858824,
      "step": 37665
    },
    {
      "epoch": 5.6106642835865355,
      "grad_norm": 0.5953274369239807,
      "learning_rate": 4.519842214902423e-05,
      "loss": 0.3373,
      "num_input_tokens_seen": 21861736,
      "step": 37670
    },
    {
      "epoch": 5.611408996127495,
      "grad_norm": 16.50619125366211,
      "learning_rate": 4.519650719498868e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 21864584,
      "step": 37675
    },
    {
      "epoch": 5.612153708668454,
      "grad_norm": 2.773125171661377,
      "learning_rate": 4.519459189975365e-05,
      "loss": 0.3114,
      "num_input_tokens_seen": 21867400,
      "step": 37680
    },
    {
      "epoch": 5.6128984212094135,
      "grad_norm": 11.20211124420166,
      "learning_rate": 4.519267626335153e-05,
      "loss": 0.0664,
      "num_input_tokens_seen": 21870312,
      "step": 37685
    },
    {
      "epoch": 5.613643133750372,
      "grad_norm": 0.2797448933124542,
      "learning_rate": 4.519076028581466e-05,
      "loss": 0.239,
      "num_input_tokens_seen": 21873480,
      "step": 37690
    },
    {
      "epoch": 5.614387846291332,
      "grad_norm": 13.481431007385254,
      "learning_rate": 4.518884396717541e-05,
      "loss": 0.3387,
      "num_input_tokens_seen": 21876488,
      "step": 37695
    },
    {
      "epoch": 5.615132558832291,
      "grad_norm": 0.19585533440113068,
      "learning_rate": 4.518692730746616e-05,
      "loss": 0.1697,
      "num_input_tokens_seen": 21879560,
      "step": 37700
    },
    {
      "epoch": 5.61587727137325,
      "grad_norm": 44.686214447021484,
      "learning_rate": 4.51850103067193e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 21882312,
      "step": 37705
    },
    {
      "epoch": 5.616621983914209,
      "grad_norm": 13.777664184570312,
      "learning_rate": 4.5183092964967204e-05,
      "loss": 0.7613,
      "num_input_tokens_seen": 21885384,
      "step": 37710
    },
    {
      "epoch": 5.617366696455168,
      "grad_norm": 0.44252222776412964,
      "learning_rate": 4.518117528224226e-05,
      "loss": 0.3314,
      "num_input_tokens_seen": 21888232,
      "step": 37715
    },
    {
      "epoch": 5.6181114089961275,
      "grad_norm": 29.420881271362305,
      "learning_rate": 4.517925725857688e-05,
      "loss": 0.4583,
      "num_input_tokens_seen": 21891400,
      "step": 37720
    },
    {
      "epoch": 5.618856121537087,
      "grad_norm": 4.766207218170166,
      "learning_rate": 4.5177338894003454e-05,
      "loss": 0.0973,
      "num_input_tokens_seen": 21894280,
      "step": 37725
    },
    {
      "epoch": 5.619600834078046,
      "grad_norm": 13.009326934814453,
      "learning_rate": 4.517542018855439e-05,
      "loss": 0.2676,
      "num_input_tokens_seen": 21897032,
      "step": 37730
    },
    {
      "epoch": 5.620345546619005,
      "grad_norm": 0.9924889802932739,
      "learning_rate": 4.517350114226211e-05,
      "loss": 0.1381,
      "num_input_tokens_seen": 21900040,
      "step": 37735
    },
    {
      "epoch": 5.621090259159964,
      "grad_norm": 0.5583512187004089,
      "learning_rate": 4.517158175515903e-05,
      "loss": 0.4608,
      "num_input_tokens_seen": 21902824,
      "step": 37740
    },
    {
      "epoch": 5.621834971700923,
      "grad_norm": 0.03497888147830963,
      "learning_rate": 4.516966202727758e-05,
      "loss": 0.1851,
      "num_input_tokens_seen": 21905800,
      "step": 37745
    },
    {
      "epoch": 5.622579684241883,
      "grad_norm": 11.190500259399414,
      "learning_rate": 4.516774195865019e-05,
      "loss": 0.4448,
      "num_input_tokens_seen": 21909032,
      "step": 37750
    },
    {
      "epoch": 5.6233243967828415,
      "grad_norm": 24.84697723388672,
      "learning_rate": 4.5165821549309294e-05,
      "loss": 0.3947,
      "num_input_tokens_seen": 21911944,
      "step": 37755
    },
    {
      "epoch": 5.624069109323801,
      "grad_norm": 17.928346633911133,
      "learning_rate": 4.516390079928734e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 21914440,
      "step": 37760
    },
    {
      "epoch": 5.62481382186476,
      "grad_norm": 13.677019119262695,
      "learning_rate": 4.516197970861679e-05,
      "loss": 0.0463,
      "num_input_tokens_seen": 21917256,
      "step": 37765
    },
    {
      "epoch": 5.6255585344057195,
      "grad_norm": 8.018411636352539,
      "learning_rate": 4.5160058277330066e-05,
      "loss": 0.2441,
      "num_input_tokens_seen": 21920040,
      "step": 37770
    },
    {
      "epoch": 5.626303246946678,
      "grad_norm": 10.392892837524414,
      "learning_rate": 4.515813650545965e-05,
      "loss": 0.379,
      "num_input_tokens_seen": 21922856,
      "step": 37775
    },
    {
      "epoch": 5.627047959487638,
      "grad_norm": 9.530144691467285,
      "learning_rate": 4.515621439303801e-05,
      "loss": 0.1452,
      "num_input_tokens_seen": 21926088,
      "step": 37780
    },
    {
      "epoch": 5.627792672028597,
      "grad_norm": 15.307487487792969,
      "learning_rate": 4.515429194009761e-05,
      "loss": 0.177,
      "num_input_tokens_seen": 21928968,
      "step": 37785
    },
    {
      "epoch": 5.628537384569556,
      "grad_norm": 6.2837982177734375,
      "learning_rate": 4.515236914667094e-05,
      "loss": 0.1325,
      "num_input_tokens_seen": 21932040,
      "step": 37790
    },
    {
      "epoch": 5.629282097110515,
      "grad_norm": 7.197637557983398,
      "learning_rate": 4.515044601279046e-05,
      "loss": 0.1277,
      "num_input_tokens_seen": 21934984,
      "step": 37795
    },
    {
      "epoch": 5.630026809651475,
      "grad_norm": 26.417558670043945,
      "learning_rate": 4.514852253848868e-05,
      "loss": 0.1526,
      "num_input_tokens_seen": 21937896,
      "step": 37800
    },
    {
      "epoch": 5.6307715221924335,
      "grad_norm": 0.37967270612716675,
      "learning_rate": 4.51465987237981e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 21940968,
      "step": 37805
    },
    {
      "epoch": 5.631516234733393,
      "grad_norm": 8.921283721923828,
      "learning_rate": 4.51446745687512e-05,
      "loss": 0.5208,
      "num_input_tokens_seen": 21944168,
      "step": 37810
    },
    {
      "epoch": 5.632260947274352,
      "grad_norm": 0.04535164684057236,
      "learning_rate": 4.5142750073380505e-05,
      "loss": 0.2601,
      "num_input_tokens_seen": 21947208,
      "step": 37815
    },
    {
      "epoch": 5.6330056598153115,
      "grad_norm": 7.5101799964904785,
      "learning_rate": 4.514082523771851e-05,
      "loss": 0.2469,
      "num_input_tokens_seen": 21950312,
      "step": 37820
    },
    {
      "epoch": 5.63375037235627,
      "grad_norm": 9.505189895629883,
      "learning_rate": 4.513890006179775e-05,
      "loss": 0.4234,
      "num_input_tokens_seen": 21953192,
      "step": 37825
    },
    {
      "epoch": 5.63449508489723,
      "grad_norm": 46.62641525268555,
      "learning_rate": 4.513697454565074e-05,
      "loss": 0.2136,
      "num_input_tokens_seen": 21956072,
      "step": 37830
    },
    {
      "epoch": 5.635239797438189,
      "grad_norm": 16.36479377746582,
      "learning_rate": 4.513504868931001e-05,
      "loss": 0.4818,
      "num_input_tokens_seen": 21959112,
      "step": 37835
    },
    {
      "epoch": 5.635984509979148,
      "grad_norm": 13.0418119430542,
      "learning_rate": 4.51331224928081e-05,
      "loss": 0.3161,
      "num_input_tokens_seen": 21961928,
      "step": 37840
    },
    {
      "epoch": 5.636729222520107,
      "grad_norm": 1.8216875791549683,
      "learning_rate": 4.5131195956177546e-05,
      "loss": 0.2267,
      "num_input_tokens_seen": 21965128,
      "step": 37845
    },
    {
      "epoch": 5.637473935061067,
      "grad_norm": 0.4550294578075409,
      "learning_rate": 4.5129269079450894e-05,
      "loss": 0.0849,
      "num_input_tokens_seen": 21967880,
      "step": 37850
    },
    {
      "epoch": 5.6382186476020255,
      "grad_norm": 10.688087463378906,
      "learning_rate": 4.512734186266071e-05,
      "loss": 0.1779,
      "num_input_tokens_seen": 21970696,
      "step": 37855
    },
    {
      "epoch": 5.638963360142985,
      "grad_norm": 4.219703674316406,
      "learning_rate": 4.512541430583953e-05,
      "loss": 0.2167,
      "num_input_tokens_seen": 21973992,
      "step": 37860
    },
    {
      "epoch": 5.639708072683944,
      "grad_norm": 0.10198966413736343,
      "learning_rate": 4.5123486409019936e-05,
      "loss": 0.4228,
      "num_input_tokens_seen": 21976680,
      "step": 37865
    },
    {
      "epoch": 5.640452785224904,
      "grad_norm": 2.364616632461548,
      "learning_rate": 4.5121558172234484e-05,
      "loss": 0.3301,
      "num_input_tokens_seen": 21979912,
      "step": 37870
    },
    {
      "epoch": 5.641197497765862,
      "grad_norm": 16.581453323364258,
      "learning_rate": 4.511962959551576e-05,
      "loss": 0.494,
      "num_input_tokens_seen": 21982504,
      "step": 37875
    },
    {
      "epoch": 5.641942210306821,
      "grad_norm": 1.2774088382720947,
      "learning_rate": 4.511770067889635e-05,
      "loss": 0.1388,
      "num_input_tokens_seen": 21985256,
      "step": 37880
    },
    {
      "epoch": 5.642686922847781,
      "grad_norm": 0.8660895228385925,
      "learning_rate": 4.5115771422408826e-05,
      "loss": 0.2668,
      "num_input_tokens_seen": 21988360,
      "step": 37885
    },
    {
      "epoch": 5.64343163538874,
      "grad_norm": 10.240601539611816,
      "learning_rate": 4.5113841826085796e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 21991304,
      "step": 37890
    },
    {
      "epoch": 5.644176347929699,
      "grad_norm": 0.9786179065704346,
      "learning_rate": 4.5111911889959846e-05,
      "loss": 0.2432,
      "num_input_tokens_seen": 21993928,
      "step": 37895
    },
    {
      "epoch": 5.644921060470658,
      "grad_norm": 26.265321731567383,
      "learning_rate": 4.5109981614063584e-05,
      "loss": 0.4359,
      "num_input_tokens_seen": 21997256,
      "step": 37900
    },
    {
      "epoch": 5.6456657730116175,
      "grad_norm": 32.16937255859375,
      "learning_rate": 4.510805099842963e-05,
      "loss": 0.4806,
      "num_input_tokens_seen": 21999976,
      "step": 37905
    },
    {
      "epoch": 5.646410485552577,
      "grad_norm": 6.946249485015869,
      "learning_rate": 4.5106120043090585e-05,
      "loss": 0.2669,
      "num_input_tokens_seen": 22002504,
      "step": 37910
    },
    {
      "epoch": 5.647155198093536,
      "grad_norm": 0.06442844867706299,
      "learning_rate": 4.510418874807907e-05,
      "loss": 0.2632,
      "num_input_tokens_seen": 22005128,
      "step": 37915
    },
    {
      "epoch": 5.647899910634495,
      "grad_norm": 0.36553218960762024,
      "learning_rate": 4.5102257113427726e-05,
      "loss": 0.2656,
      "num_input_tokens_seen": 22008008,
      "step": 37920
    },
    {
      "epoch": 5.648644623175454,
      "grad_norm": 0.18810804188251495,
      "learning_rate": 4.510032513916919e-05,
      "loss": 0.0931,
      "num_input_tokens_seen": 22010632,
      "step": 37925
    },
    {
      "epoch": 5.649389335716413,
      "grad_norm": 0.922124445438385,
      "learning_rate": 4.509839282533607e-05,
      "loss": 0.2362,
      "num_input_tokens_seen": 22013672,
      "step": 37930
    },
    {
      "epoch": 5.650134048257373,
      "grad_norm": 8.372344017028809,
      "learning_rate": 4.509646017196104e-05,
      "loss": 0.4577,
      "num_input_tokens_seen": 22016616,
      "step": 37935
    },
    {
      "epoch": 5.6508787607983315,
      "grad_norm": 10.996625900268555,
      "learning_rate": 4.509452717907674e-05,
      "loss": 0.1935,
      "num_input_tokens_seen": 22019592,
      "step": 37940
    },
    {
      "epoch": 5.651623473339291,
      "grad_norm": 0.7261985540390015,
      "learning_rate": 4.509259384671582e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 22022600,
      "step": 37945
    },
    {
      "epoch": 5.65236818588025,
      "grad_norm": 38.83126449584961,
      "learning_rate": 4.509066017491096e-05,
      "loss": 0.3322,
      "num_input_tokens_seen": 22025384,
      "step": 37950
    },
    {
      "epoch": 5.65311289842121,
      "grad_norm": 18.463056564331055,
      "learning_rate": 4.508872616369481e-05,
      "loss": 0.1853,
      "num_input_tokens_seen": 22028232,
      "step": 37955
    },
    {
      "epoch": 5.653857610962168,
      "grad_norm": 40.974334716796875,
      "learning_rate": 4.508679181310005e-05,
      "loss": 0.0628,
      "num_input_tokens_seen": 22030984,
      "step": 37960
    },
    {
      "epoch": 5.654602323503128,
      "grad_norm": 0.6020135879516602,
      "learning_rate": 4.508485712315935e-05,
      "loss": 0.2276,
      "num_input_tokens_seen": 22033928,
      "step": 37965
    },
    {
      "epoch": 5.655347036044087,
      "grad_norm": 8.726208686828613,
      "learning_rate": 4.508292209390541e-05,
      "loss": 0.0869,
      "num_input_tokens_seen": 22036872,
      "step": 37970
    },
    {
      "epoch": 5.656091748585046,
      "grad_norm": 31.509021759033203,
      "learning_rate": 4.5080986725370914e-05,
      "loss": 0.168,
      "num_input_tokens_seen": 22039816,
      "step": 37975
    },
    {
      "epoch": 5.656836461126005,
      "grad_norm": 5.537774562835693,
      "learning_rate": 4.507905101758855e-05,
      "loss": 0.507,
      "num_input_tokens_seen": 22042504,
      "step": 37980
    },
    {
      "epoch": 5.657581173666965,
      "grad_norm": 9.718387603759766,
      "learning_rate": 4.507711497059104e-05,
      "loss": 0.2907,
      "num_input_tokens_seen": 22045416,
      "step": 37985
    },
    {
      "epoch": 5.6583258862079235,
      "grad_norm": 3.1752939224243164,
      "learning_rate": 4.5075178584411064e-05,
      "loss": 0.1309,
      "num_input_tokens_seen": 22048424,
      "step": 37990
    },
    {
      "epoch": 5.659070598748883,
      "grad_norm": 10.653615951538086,
      "learning_rate": 4.507324185908135e-05,
      "loss": 0.1237,
      "num_input_tokens_seen": 22051592,
      "step": 37995
    },
    {
      "epoch": 5.659815311289842,
      "grad_norm": 0.14077353477478027,
      "learning_rate": 4.507130479463462e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 22054664,
      "step": 38000
    },
    {
      "epoch": 5.660560023830802,
      "grad_norm": 44.8621940612793,
      "learning_rate": 4.50693673911036e-05,
      "loss": 0.5705,
      "num_input_tokens_seen": 22057544,
      "step": 38005
    },
    {
      "epoch": 5.66130473637176,
      "grad_norm": 34.26008987426758,
      "learning_rate": 4.506742964852101e-05,
      "loss": 0.2989,
      "num_input_tokens_seen": 22060392,
      "step": 38010
    },
    {
      "epoch": 5.66204944891272,
      "grad_norm": 52.59455871582031,
      "learning_rate": 4.506549156691959e-05,
      "loss": 0.1682,
      "num_input_tokens_seen": 22063336,
      "step": 38015
    },
    {
      "epoch": 5.662794161453679,
      "grad_norm": 0.6038466095924377,
      "learning_rate": 4.506355314633209e-05,
      "loss": 0.2986,
      "num_input_tokens_seen": 22066344,
      "step": 38020
    },
    {
      "epoch": 5.663538873994638,
      "grad_norm": 12.603833198547363,
      "learning_rate": 4.506161438679125e-05,
      "loss": 0.3107,
      "num_input_tokens_seen": 22069576,
      "step": 38025
    },
    {
      "epoch": 5.664283586535597,
      "grad_norm": 0.5082175731658936,
      "learning_rate": 4.5059675288329815e-05,
      "loss": 0.0127,
      "num_input_tokens_seen": 22072424,
      "step": 38030
    },
    {
      "epoch": 5.665028299076557,
      "grad_norm": 0.44627645611763,
      "learning_rate": 4.5057735850980564e-05,
      "loss": 0.3163,
      "num_input_tokens_seen": 22075336,
      "step": 38035
    },
    {
      "epoch": 5.665773011617516,
      "grad_norm": 0.019094910472631454,
      "learning_rate": 4.5055796074776244e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 22078344,
      "step": 38040
    },
    {
      "epoch": 5.666517724158475,
      "grad_norm": 0.3797704875469208,
      "learning_rate": 4.505385595974964e-05,
      "loss": 0.4401,
      "num_input_tokens_seen": 22081064,
      "step": 38045
    },
    {
      "epoch": 5.667262436699434,
      "grad_norm": 34.38664245605469,
      "learning_rate": 4.505191550593352e-05,
      "loss": 0.258,
      "num_input_tokens_seen": 22084136,
      "step": 38050
    },
    {
      "epoch": 5.668007149240394,
      "grad_norm": 55.40057373046875,
      "learning_rate": 4.5049974713360665e-05,
      "loss": 0.5743,
      "num_input_tokens_seen": 22086824,
      "step": 38055
    },
    {
      "epoch": 5.668751861781352,
      "grad_norm": 3.889475107192993,
      "learning_rate": 4.504803358206387e-05,
      "loss": 0.3053,
      "num_input_tokens_seen": 22089800,
      "step": 38060
    },
    {
      "epoch": 5.669496574322311,
      "grad_norm": 28.194631576538086,
      "learning_rate": 4.504609211207591e-05,
      "loss": 0.2193,
      "num_input_tokens_seen": 22092872,
      "step": 38065
    },
    {
      "epoch": 5.670241286863271,
      "grad_norm": 0.29139444231987,
      "learning_rate": 4.504415030342961e-05,
      "loss": 0.4781,
      "num_input_tokens_seen": 22095528,
      "step": 38070
    },
    {
      "epoch": 5.67098599940423,
      "grad_norm": 22.870330810546875,
      "learning_rate": 4.504220815615776e-05,
      "loss": 0.1171,
      "num_input_tokens_seen": 22098568,
      "step": 38075
    },
    {
      "epoch": 5.671730711945189,
      "grad_norm": 17.96239471435547,
      "learning_rate": 4.5040265670293174e-05,
      "loss": 0.2677,
      "num_input_tokens_seen": 22101576,
      "step": 38080
    },
    {
      "epoch": 5.672475424486148,
      "grad_norm": 15.781978607177734,
      "learning_rate": 4.503832284586867e-05,
      "loss": 0.3839,
      "num_input_tokens_seen": 22104744,
      "step": 38085
    },
    {
      "epoch": 5.673220137027108,
      "grad_norm": 27.008867263793945,
      "learning_rate": 4.5036379682917065e-05,
      "loss": 0.4837,
      "num_input_tokens_seen": 22107976,
      "step": 38090
    },
    {
      "epoch": 5.673964849568066,
      "grad_norm": 13.167802810668945,
      "learning_rate": 4.503443618147119e-05,
      "loss": 0.1523,
      "num_input_tokens_seen": 22110952,
      "step": 38095
    },
    {
      "epoch": 5.674709562109026,
      "grad_norm": 13.503201484680176,
      "learning_rate": 4.503249234156387e-05,
      "loss": 0.337,
      "num_input_tokens_seen": 22113800,
      "step": 38100
    },
    {
      "epoch": 5.675454274649985,
      "grad_norm": 14.378680229187012,
      "learning_rate": 4.503054816322796e-05,
      "loss": 0.9614,
      "num_input_tokens_seen": 22116488,
      "step": 38105
    },
    {
      "epoch": 5.676198987190944,
      "grad_norm": 34.80965805053711,
      "learning_rate": 4.50286036464963e-05,
      "loss": 0.4643,
      "num_input_tokens_seen": 22119560,
      "step": 38110
    },
    {
      "epoch": 5.676943699731903,
      "grad_norm": 0.4770931601524353,
      "learning_rate": 4.502665879140173e-05,
      "loss": 0.3341,
      "num_input_tokens_seen": 22122664,
      "step": 38115
    },
    {
      "epoch": 5.677688412272863,
      "grad_norm": 15.396449089050293,
      "learning_rate": 4.502471359797712e-05,
      "loss": 0.0858,
      "num_input_tokens_seen": 22125416,
      "step": 38120
    },
    {
      "epoch": 5.678433124813822,
      "grad_norm": 9.972894668579102,
      "learning_rate": 4.5022768066255315e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 22128520,
      "step": 38125
    },
    {
      "epoch": 5.679177837354781,
      "grad_norm": 18.90657615661621,
      "learning_rate": 4.502082219626921e-05,
      "loss": 0.3359,
      "num_input_tokens_seen": 22131624,
      "step": 38130
    },
    {
      "epoch": 5.67992254989574,
      "grad_norm": 0.08779017627239227,
      "learning_rate": 4.501887598805165e-05,
      "loss": 0.191,
      "num_input_tokens_seen": 22134536,
      "step": 38135
    },
    {
      "epoch": 5.6806672624367,
      "grad_norm": 1.6230913400650024,
      "learning_rate": 4.501692944163553e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 22137384,
      "step": 38140
    },
    {
      "epoch": 5.681411974977658,
      "grad_norm": 21.439594268798828,
      "learning_rate": 4.501498255705373e-05,
      "loss": 0.4684,
      "num_input_tokens_seen": 22140456,
      "step": 38145
    },
    {
      "epoch": 5.682156687518618,
      "grad_norm": 0.0501256100833416,
      "learning_rate": 4.501303533433915e-05,
      "loss": 0.1792,
      "num_input_tokens_seen": 22143560,
      "step": 38150
    },
    {
      "epoch": 5.682901400059577,
      "grad_norm": 35.00741195678711,
      "learning_rate": 4.501108777352467e-05,
      "loss": 0.4221,
      "num_input_tokens_seen": 22146568,
      "step": 38155
    },
    {
      "epoch": 5.683646112600536,
      "grad_norm": 1.1970864534378052,
      "learning_rate": 4.50091398746432e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 22149288,
      "step": 38160
    },
    {
      "epoch": 5.684390825141495,
      "grad_norm": 9.6422758102417,
      "learning_rate": 4.500719163772765e-05,
      "loss": 0.266,
      "num_input_tokens_seen": 22152424,
      "step": 38165
    },
    {
      "epoch": 5.685135537682455,
      "grad_norm": 37.59708786010742,
      "learning_rate": 4.5005243062810934e-05,
      "loss": 0.4488,
      "num_input_tokens_seen": 22155368,
      "step": 38170
    },
    {
      "epoch": 5.685880250223414,
      "grad_norm": 24.730924606323242,
      "learning_rate": 4.500329414992597e-05,
      "loss": 0.2693,
      "num_input_tokens_seen": 22158504,
      "step": 38175
    },
    {
      "epoch": 5.686624962764373,
      "grad_norm": 12.865570068359375,
      "learning_rate": 4.500134489910567e-05,
      "loss": 0.5293,
      "num_input_tokens_seen": 22161448,
      "step": 38180
    },
    {
      "epoch": 5.687369675305332,
      "grad_norm": 28.918781280517578,
      "learning_rate": 4.4999395310382994e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 22164136,
      "step": 38185
    },
    {
      "epoch": 5.688114387846292,
      "grad_norm": 0.11097870767116547,
      "learning_rate": 4.4997445383790846e-05,
      "loss": 0.2939,
      "num_input_tokens_seen": 22166952,
      "step": 38190
    },
    {
      "epoch": 5.68885910038725,
      "grad_norm": 0.029411548748612404,
      "learning_rate": 4.499549511936219e-05,
      "loss": 0.3678,
      "num_input_tokens_seen": 22169512,
      "step": 38195
    },
    {
      "epoch": 5.68960381292821,
      "grad_norm": 46.599884033203125,
      "learning_rate": 4.499354451712997e-05,
      "loss": 0.2164,
      "num_input_tokens_seen": 22172648,
      "step": 38200
    },
    {
      "epoch": 5.690348525469169,
      "grad_norm": 18.51526641845703,
      "learning_rate": 4.499159357712713e-05,
      "loss": 0.454,
      "num_input_tokens_seen": 22175688,
      "step": 38205
    },
    {
      "epoch": 5.6910932380101285,
      "grad_norm": 26.473081588745117,
      "learning_rate": 4.4989642299386636e-05,
      "loss": 0.1931,
      "num_input_tokens_seen": 22178600,
      "step": 38210
    },
    {
      "epoch": 5.691837950551087,
      "grad_norm": 63.97661209106445,
      "learning_rate": 4.498769068394145e-05,
      "loss": 0.5289,
      "num_input_tokens_seen": 22181800,
      "step": 38215
    },
    {
      "epoch": 5.692582663092047,
      "grad_norm": 0.060602813959121704,
      "learning_rate": 4.498573873082454e-05,
      "loss": 0.0365,
      "num_input_tokens_seen": 22184648,
      "step": 38220
    },
    {
      "epoch": 5.693327375633006,
      "grad_norm": 0.27536818385124207,
      "learning_rate": 4.4983786440068896e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 22187496,
      "step": 38225
    },
    {
      "epoch": 5.694072088173964,
      "grad_norm": 7.939377784729004,
      "learning_rate": 4.498183381170749e-05,
      "loss": 0.1234,
      "num_input_tokens_seen": 22190728,
      "step": 38230
    },
    {
      "epoch": 5.694816800714924,
      "grad_norm": 0.19340093433856964,
      "learning_rate": 4.497988084577331e-05,
      "loss": 0.1887,
      "num_input_tokens_seen": 22193768,
      "step": 38235
    },
    {
      "epoch": 5.695561513255884,
      "grad_norm": 9.23050308227539,
      "learning_rate": 4.497792754229935e-05,
      "loss": 0.3478,
      "num_input_tokens_seen": 22196648,
      "step": 38240
    },
    {
      "epoch": 5.696306225796842,
      "grad_norm": 9.440268516540527,
      "learning_rate": 4.49759739013186e-05,
      "loss": 0.3356,
      "num_input_tokens_seen": 22199496,
      "step": 38245
    },
    {
      "epoch": 5.697050938337801,
      "grad_norm": 22.533470153808594,
      "learning_rate": 4.4974019922864086e-05,
      "loss": 0.1675,
      "num_input_tokens_seen": 22202152,
      "step": 38250
    },
    {
      "epoch": 5.697795650878761,
      "grad_norm": 0.47246959805488586,
      "learning_rate": 4.497206560696881e-05,
      "loss": 0.2542,
      "num_input_tokens_seen": 22205160,
      "step": 38255
    },
    {
      "epoch": 5.6985403634197205,
      "grad_norm": 32.63277053833008,
      "learning_rate": 4.497011095366577e-05,
      "loss": 0.3554,
      "num_input_tokens_seen": 22207976,
      "step": 38260
    },
    {
      "epoch": 5.699285075960679,
      "grad_norm": 42.54680633544922,
      "learning_rate": 4.4968155962988e-05,
      "loss": 0.3077,
      "num_input_tokens_seen": 22210824,
      "step": 38265
    },
    {
      "epoch": 5.700029788501638,
      "grad_norm": 8.056714057922363,
      "learning_rate": 4.496620063496854e-05,
      "loss": 0.4956,
      "num_input_tokens_seen": 22213992,
      "step": 38270
    },
    {
      "epoch": 5.700774501042598,
      "grad_norm": 42.940975189208984,
      "learning_rate": 4.496424496964041e-05,
      "loss": 0.2931,
      "num_input_tokens_seen": 22217000,
      "step": 38275
    },
    {
      "epoch": 5.701519213583556,
      "grad_norm": 29.58592987060547,
      "learning_rate": 4.496228896703665e-05,
      "loss": 0.1682,
      "num_input_tokens_seen": 22220008,
      "step": 38280
    },
    {
      "epoch": 5.702263926124516,
      "grad_norm": 6.776374340057373,
      "learning_rate": 4.496033262719031e-05,
      "loss": 0.1171,
      "num_input_tokens_seen": 22222824,
      "step": 38285
    },
    {
      "epoch": 5.703008638665475,
      "grad_norm": 3.5013864040374756,
      "learning_rate": 4.495837595013443e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 22225640,
      "step": 38290
    },
    {
      "epoch": 5.7037533512064345,
      "grad_norm": 0.07222724705934525,
      "learning_rate": 4.495641893590209e-05,
      "loss": 0.2152,
      "num_input_tokens_seen": 22228520,
      "step": 38295
    },
    {
      "epoch": 5.704498063747393,
      "grad_norm": 60.304595947265625,
      "learning_rate": 4.495446158452632e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 22231080,
      "step": 38300
    },
    {
      "epoch": 5.705242776288353,
      "grad_norm": 0.42229533195495605,
      "learning_rate": 4.49525038960402e-05,
      "loss": 0.219,
      "num_input_tokens_seen": 22234024,
      "step": 38305
    },
    {
      "epoch": 5.705987488829312,
      "grad_norm": 6.451422691345215,
      "learning_rate": 4.495054587047682e-05,
      "loss": 0.3642,
      "num_input_tokens_seen": 22236776,
      "step": 38310
    },
    {
      "epoch": 5.706732201370271,
      "grad_norm": 22.04938316345215,
      "learning_rate": 4.4948587507869235e-05,
      "loss": 0.302,
      "num_input_tokens_seen": 22239560,
      "step": 38315
    },
    {
      "epoch": 5.70747691391123,
      "grad_norm": 0.029013073071837425,
      "learning_rate": 4.494662880825053e-05,
      "loss": 0.0998,
      "num_input_tokens_seen": 22242376,
      "step": 38320
    },
    {
      "epoch": 5.70822162645219,
      "grad_norm": 27.782333374023438,
      "learning_rate": 4.494466977165382e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 22245320,
      "step": 38325
    },
    {
      "epoch": 5.708966338993148,
      "grad_norm": 8.443899154663086,
      "learning_rate": 4.494271039811217e-05,
      "loss": 0.0926,
      "num_input_tokens_seen": 22248264,
      "step": 38330
    },
    {
      "epoch": 5.709711051534108,
      "grad_norm": 32.20818328857422,
      "learning_rate": 4.4940750687658716e-05,
      "loss": 0.2537,
      "num_input_tokens_seen": 22251144,
      "step": 38335
    },
    {
      "epoch": 5.710455764075067,
      "grad_norm": 0.032024629414081573,
      "learning_rate": 4.4938790640326534e-05,
      "loss": 0.134,
      "num_input_tokens_seen": 22253704,
      "step": 38340
    },
    {
      "epoch": 5.7112004766160265,
      "grad_norm": 1.455180048942566,
      "learning_rate": 4.4936830256148755e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 22256904,
      "step": 38345
    },
    {
      "epoch": 5.711945189156985,
      "grad_norm": 8.02340316772461,
      "learning_rate": 4.493486953515848e-05,
      "loss": 0.5706,
      "num_input_tokens_seen": 22259976,
      "step": 38350
    },
    {
      "epoch": 5.712689901697945,
      "grad_norm": 14.46735668182373,
      "learning_rate": 4.493290847738886e-05,
      "loss": 0.3359,
      "num_input_tokens_seen": 22262952,
      "step": 38355
    },
    {
      "epoch": 5.713434614238904,
      "grad_norm": 0.03292582929134369,
      "learning_rate": 4.4930947082873e-05,
      "loss": 0.2124,
      "num_input_tokens_seen": 22265768,
      "step": 38360
    },
    {
      "epoch": 5.714179326779863,
      "grad_norm": 8.803689956665039,
      "learning_rate": 4.492898535164405e-05,
      "loss": 0.4222,
      "num_input_tokens_seen": 22268648,
      "step": 38365
    },
    {
      "epoch": 5.714924039320822,
      "grad_norm": 2.856548547744751,
      "learning_rate": 4.492702328373515e-05,
      "loss": 0.1148,
      "num_input_tokens_seen": 22271560,
      "step": 38370
    },
    {
      "epoch": 5.715668751861782,
      "grad_norm": 1.1127508878707886,
      "learning_rate": 4.492506087917944e-05,
      "loss": 0.2073,
      "num_input_tokens_seen": 22274568,
      "step": 38375
    },
    {
      "epoch": 5.7164134644027405,
      "grad_norm": 35.09922790527344,
      "learning_rate": 4.4923098138010064e-05,
      "loss": 0.1175,
      "num_input_tokens_seen": 22277384,
      "step": 38380
    },
    {
      "epoch": 5.7171581769437,
      "grad_norm": 22.79485321044922,
      "learning_rate": 4.492113506026021e-05,
      "loss": 0.3708,
      "num_input_tokens_seen": 22280104,
      "step": 38385
    },
    {
      "epoch": 5.717902889484659,
      "grad_norm": 114.45106506347656,
      "learning_rate": 4.491917164596303e-05,
      "loss": 0.4712,
      "num_input_tokens_seen": 22282664,
      "step": 38390
    },
    {
      "epoch": 5.718647602025618,
      "grad_norm": 10.190073013305664,
      "learning_rate": 4.491720789515168e-05,
      "loss": 0.2366,
      "num_input_tokens_seen": 22285768,
      "step": 38395
    },
    {
      "epoch": 5.719392314566577,
      "grad_norm": 4.317157745361328,
      "learning_rate": 4.491524380785935e-05,
      "loss": 0.0709,
      "num_input_tokens_seen": 22288712,
      "step": 38400
    },
    {
      "epoch": 5.720137027107537,
      "grad_norm": 11.58871841430664,
      "learning_rate": 4.4913279384119214e-05,
      "loss": 0.2673,
      "num_input_tokens_seen": 22292200,
      "step": 38405
    },
    {
      "epoch": 5.720881739648496,
      "grad_norm": 13.449824333190918,
      "learning_rate": 4.4911314623964466e-05,
      "loss": 0.3742,
      "num_input_tokens_seen": 22295080,
      "step": 38410
    },
    {
      "epoch": 5.721626452189454,
      "grad_norm": 0.08979710191488266,
      "learning_rate": 4.490934952742829e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 22298024,
      "step": 38415
    },
    {
      "epoch": 5.722371164730414,
      "grad_norm": 7.913395881652832,
      "learning_rate": 4.490738409454389e-05,
      "loss": 0.1306,
      "num_input_tokens_seen": 22300680,
      "step": 38420
    },
    {
      "epoch": 5.723115877271374,
      "grad_norm": 7.149605751037598,
      "learning_rate": 4.4905418325344475e-05,
      "loss": 0.2515,
      "num_input_tokens_seen": 22303528,
      "step": 38425
    },
    {
      "epoch": 5.7238605898123325,
      "grad_norm": 0.5609306693077087,
      "learning_rate": 4.490345221986324e-05,
      "loss": 0.0826,
      "num_input_tokens_seen": 22306568,
      "step": 38430
    },
    {
      "epoch": 5.724605302353291,
      "grad_norm": 22.463764190673828,
      "learning_rate": 4.490148577813341e-05,
      "loss": 0.4724,
      "num_input_tokens_seen": 22309544,
      "step": 38435
    },
    {
      "epoch": 5.725350014894251,
      "grad_norm": 0.021719787269830704,
      "learning_rate": 4.489951900018821e-05,
      "loss": 0.2397,
      "num_input_tokens_seen": 22312168,
      "step": 38440
    },
    {
      "epoch": 5.72609472743521,
      "grad_norm": 30.465837478637695,
      "learning_rate": 4.4897551886060866e-05,
      "loss": 0.3193,
      "num_input_tokens_seen": 22315080,
      "step": 38445
    },
    {
      "epoch": 5.726839439976169,
      "grad_norm": 9.267036437988281,
      "learning_rate": 4.489558443578459e-05,
      "loss": 0.2214,
      "num_input_tokens_seen": 22317992,
      "step": 38450
    },
    {
      "epoch": 5.727584152517128,
      "grad_norm": 0.11391927301883698,
      "learning_rate": 4.4893616649392646e-05,
      "loss": 0.308,
      "num_input_tokens_seen": 22320584,
      "step": 38455
    },
    {
      "epoch": 5.728328865058088,
      "grad_norm": 0.27552348375320435,
      "learning_rate": 4.4891648526918265e-05,
      "loss": 0.1075,
      "num_input_tokens_seen": 22323240,
      "step": 38460
    },
    {
      "epoch": 5.7290735775990465,
      "grad_norm": 31.71965789794922,
      "learning_rate": 4.48896800683947e-05,
      "loss": 0.479,
      "num_input_tokens_seen": 22326024,
      "step": 38465
    },
    {
      "epoch": 5.729818290140006,
      "grad_norm": 28.770002365112305,
      "learning_rate": 4.48877112738552e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 22328904,
      "step": 38470
    },
    {
      "epoch": 5.730563002680965,
      "grad_norm": 30.983346939086914,
      "learning_rate": 4.488574214333304e-05,
      "loss": 0.4685,
      "num_input_tokens_seen": 22331848,
      "step": 38475
    },
    {
      "epoch": 5.7313077152219245,
      "grad_norm": 0.19933368265628815,
      "learning_rate": 4.488377267686147e-05,
      "loss": 0.1642,
      "num_input_tokens_seen": 22334568,
      "step": 38480
    },
    {
      "epoch": 5.732052427762883,
      "grad_norm": 1.6404709815979004,
      "learning_rate": 4.488180287447378e-05,
      "loss": 0.0872,
      "num_input_tokens_seen": 22337288,
      "step": 38485
    },
    {
      "epoch": 5.732797140303843,
      "grad_norm": 6.39882755279541,
      "learning_rate": 4.4879832736203224e-05,
      "loss": 0.022,
      "num_input_tokens_seen": 22340168,
      "step": 38490
    },
    {
      "epoch": 5.733541852844802,
      "grad_norm": 16.71599006652832,
      "learning_rate": 4.48778622620831e-05,
      "loss": 0.6251,
      "num_input_tokens_seen": 22343144,
      "step": 38495
    },
    {
      "epoch": 5.734286565385761,
      "grad_norm": 203.85897827148438,
      "learning_rate": 4.487589145214671e-05,
      "loss": 0.3639,
      "num_input_tokens_seen": 22346120,
      "step": 38500
    },
    {
      "epoch": 5.73503127792672,
      "grad_norm": 18.559383392333984,
      "learning_rate": 4.487392030642733e-05,
      "loss": 0.3328,
      "num_input_tokens_seen": 22349224,
      "step": 38505
    },
    {
      "epoch": 5.73577599046768,
      "grad_norm": 11.841196060180664,
      "learning_rate": 4.487194882495826e-05,
      "loss": 0.4676,
      "num_input_tokens_seen": 22352104,
      "step": 38510
    },
    {
      "epoch": 5.7365207030086385,
      "grad_norm": 0.32472336292266846,
      "learning_rate": 4.486997700777281e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 22354952,
      "step": 38515
    },
    {
      "epoch": 5.737265415549598,
      "grad_norm": 113.88356018066406,
      "learning_rate": 4.486800485490429e-05,
      "loss": 0.3198,
      "num_input_tokens_seen": 22358216,
      "step": 38520
    },
    {
      "epoch": 5.738010128090557,
      "grad_norm": 38.54707717895508,
      "learning_rate": 4.4866032366386034e-05,
      "loss": 0.3243,
      "num_input_tokens_seen": 22361128,
      "step": 38525
    },
    {
      "epoch": 5.7387548406315165,
      "grad_norm": 25.104896545410156,
      "learning_rate": 4.486405954225135e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 22364040,
      "step": 38530
    },
    {
      "epoch": 5.739499553172475,
      "grad_norm": 0.04188985377550125,
      "learning_rate": 4.486208638253356e-05,
      "loss": 0.1261,
      "num_input_tokens_seen": 22366824,
      "step": 38535
    },
    {
      "epoch": 5.740244265713435,
      "grad_norm": 0.49275243282318115,
      "learning_rate": 4.486011288726601e-05,
      "loss": 0.1733,
      "num_input_tokens_seen": 22369704,
      "step": 38540
    },
    {
      "epoch": 5.740988978254394,
      "grad_norm": 25.254587173461914,
      "learning_rate": 4.485813905648204e-05,
      "loss": 0.0627,
      "num_input_tokens_seen": 22372712,
      "step": 38545
    },
    {
      "epoch": 5.741733690795353,
      "grad_norm": 64.84516906738281,
      "learning_rate": 4.485616489021499e-05,
      "loss": 0.3071,
      "num_input_tokens_seen": 22375752,
      "step": 38550
    },
    {
      "epoch": 5.742478403336312,
      "grad_norm": 22.85572052001953,
      "learning_rate": 4.485419038849822e-05,
      "loss": 0.3691,
      "num_input_tokens_seen": 22378696,
      "step": 38555
    },
    {
      "epoch": 5.743223115877272,
      "grad_norm": 5.324082851409912,
      "learning_rate": 4.485221555136508e-05,
      "loss": 0.3513,
      "num_input_tokens_seen": 22381448,
      "step": 38560
    },
    {
      "epoch": 5.7439678284182305,
      "grad_norm": 29.598037719726562,
      "learning_rate": 4.485024037884894e-05,
      "loss": 0.15,
      "num_input_tokens_seen": 22384424,
      "step": 38565
    },
    {
      "epoch": 5.74471254095919,
      "grad_norm": 54.95947265625,
      "learning_rate": 4.484826487098316e-05,
      "loss": 0.2203,
      "num_input_tokens_seen": 22387272,
      "step": 38570
    },
    {
      "epoch": 5.745457253500149,
      "grad_norm": 26.39845085144043,
      "learning_rate": 4.484628902780111e-05,
      "loss": 0.1044,
      "num_input_tokens_seen": 22390600,
      "step": 38575
    },
    {
      "epoch": 5.746201966041108,
      "grad_norm": 48.73097229003906,
      "learning_rate": 4.484431284933619e-05,
      "loss": 0.1448,
      "num_input_tokens_seen": 22393256,
      "step": 38580
    },
    {
      "epoch": 5.746946678582067,
      "grad_norm": 115.42329406738281,
      "learning_rate": 4.484233633562176e-05,
      "loss": 0.0533,
      "num_input_tokens_seen": 22395944,
      "step": 38585
    },
    {
      "epoch": 5.747691391123027,
      "grad_norm": 59.82887268066406,
      "learning_rate": 4.484035948669124e-05,
      "loss": 0.1994,
      "num_input_tokens_seen": 22399112,
      "step": 38590
    },
    {
      "epoch": 5.748436103663986,
      "grad_norm": 51.36890411376953,
      "learning_rate": 4.4838382302577995e-05,
      "loss": 0.3638,
      "num_input_tokens_seen": 22401960,
      "step": 38595
    },
    {
      "epoch": 5.7491808162049445,
      "grad_norm": 52.99616241455078,
      "learning_rate": 4.483640478331546e-05,
      "loss": 0.2365,
      "num_input_tokens_seen": 22404712,
      "step": 38600
    },
    {
      "epoch": 5.749925528745904,
      "grad_norm": 0.028226520866155624,
      "learning_rate": 4.483442692893702e-05,
      "loss": 0.3012,
      "num_input_tokens_seen": 22407656,
      "step": 38605
    },
    {
      "epoch": 5.750670241286863,
      "grad_norm": 0.046064577996730804,
      "learning_rate": 4.483244873947609e-05,
      "loss": 0.5108,
      "num_input_tokens_seen": 22410440,
      "step": 38610
    },
    {
      "epoch": 5.7514149538278225,
      "grad_norm": 12.912999153137207,
      "learning_rate": 4.48304702149661e-05,
      "loss": 0.5632,
      "num_input_tokens_seen": 22413000,
      "step": 38615
    },
    {
      "epoch": 5.752159666368781,
      "grad_norm": 27.148691177368164,
      "learning_rate": 4.482849135544048e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 22415720,
      "step": 38620
    },
    {
      "epoch": 5.752904378909741,
      "grad_norm": 36.811485290527344,
      "learning_rate": 4.4826512160932636e-05,
      "loss": 0.378,
      "num_input_tokens_seen": 22419144,
      "step": 38625
    },
    {
      "epoch": 5.7536490914507,
      "grad_norm": 16.851972579956055,
      "learning_rate": 4.482453263147603e-05,
      "loss": 0.3813,
      "num_input_tokens_seen": 22422088,
      "step": 38630
    },
    {
      "epoch": 5.754393803991659,
      "grad_norm": 43.06715774536133,
      "learning_rate": 4.4822552767104095e-05,
      "loss": 0.4507,
      "num_input_tokens_seen": 22424936,
      "step": 38635
    },
    {
      "epoch": 5.755138516532618,
      "grad_norm": 27.613407135009766,
      "learning_rate": 4.482057256785027e-05,
      "loss": 0.4922,
      "num_input_tokens_seen": 22427912,
      "step": 38640
    },
    {
      "epoch": 5.755883229073578,
      "grad_norm": 3.285259246826172,
      "learning_rate": 4.481859203374802e-05,
      "loss": 0.179,
      "num_input_tokens_seen": 22430888,
      "step": 38645
    },
    {
      "epoch": 5.7566279416145365,
      "grad_norm": 15.996696472167969,
      "learning_rate": 4.48166111648308e-05,
      "loss": 0.2792,
      "num_input_tokens_seen": 22433608,
      "step": 38650
    },
    {
      "epoch": 5.757372654155496,
      "grad_norm": 29.68243408203125,
      "learning_rate": 4.481462996113207e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 22436584,
      "step": 38655
    },
    {
      "epoch": 5.758117366696455,
      "grad_norm": 10.235788345336914,
      "learning_rate": 4.481264842268531e-05,
      "loss": 0.1485,
      "num_input_tokens_seen": 22439688,
      "step": 38660
    },
    {
      "epoch": 5.7588620792374146,
      "grad_norm": 17.996109008789062,
      "learning_rate": 4.4810666549523997e-05,
      "loss": 0.0986,
      "num_input_tokens_seen": 22442504,
      "step": 38665
    },
    {
      "epoch": 5.759606791778373,
      "grad_norm": 10.749945640563965,
      "learning_rate": 4.48086843416816e-05,
      "loss": 0.271,
      "num_input_tokens_seen": 22445128,
      "step": 38670
    },
    {
      "epoch": 5.760351504319333,
      "grad_norm": 31.473556518554688,
      "learning_rate": 4.480670179919162e-05,
      "loss": 0.4029,
      "num_input_tokens_seen": 22448008,
      "step": 38675
    },
    {
      "epoch": 5.761096216860292,
      "grad_norm": 23.955934524536133,
      "learning_rate": 4.480471892208754e-05,
      "loss": 0.1779,
      "num_input_tokens_seen": 22451144,
      "step": 38680
    },
    {
      "epoch": 5.761840929401251,
      "grad_norm": 33.70621109008789,
      "learning_rate": 4.480273571040285e-05,
      "loss": 0.2562,
      "num_input_tokens_seen": 22454152,
      "step": 38685
    },
    {
      "epoch": 5.76258564194221,
      "grad_norm": 0.5025746822357178,
      "learning_rate": 4.480075216417109e-05,
      "loss": 0.0233,
      "num_input_tokens_seen": 22457000,
      "step": 38690
    },
    {
      "epoch": 5.76333035448317,
      "grad_norm": 4.40801477432251,
      "learning_rate": 4.479876828342573e-05,
      "loss": 0.255,
      "num_input_tokens_seen": 22460264,
      "step": 38695
    },
    {
      "epoch": 5.7640750670241285,
      "grad_norm": 47.62503433227539,
      "learning_rate": 4.479678406820031e-05,
      "loss": 0.47,
      "num_input_tokens_seen": 22463400,
      "step": 38700
    },
    {
      "epoch": 5.764819779565088,
      "grad_norm": 0.08274992555379868,
      "learning_rate": 4.479479951852834e-05,
      "loss": 0.4469,
      "num_input_tokens_seen": 22466024,
      "step": 38705
    },
    {
      "epoch": 5.765564492106047,
      "grad_norm": 0.4315389096736908,
      "learning_rate": 4.479281463444335e-05,
      "loss": 0.2178,
      "num_input_tokens_seen": 22468936,
      "step": 38710
    },
    {
      "epoch": 5.766309204647007,
      "grad_norm": 44.76838302612305,
      "learning_rate": 4.479082941597888e-05,
      "loss": 0.6697,
      "num_input_tokens_seen": 22471688,
      "step": 38715
    },
    {
      "epoch": 5.767053917187965,
      "grad_norm": 18.448511123657227,
      "learning_rate": 4.4788843863168455e-05,
      "loss": 0.1963,
      "num_input_tokens_seen": 22474408,
      "step": 38720
    },
    {
      "epoch": 5.767798629728925,
      "grad_norm": 8.681745529174805,
      "learning_rate": 4.4786857976045625e-05,
      "loss": 0.722,
      "num_input_tokens_seen": 22477256,
      "step": 38725
    },
    {
      "epoch": 5.768543342269884,
      "grad_norm": 3.2815728187561035,
      "learning_rate": 4.4784871754643946e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 22480264,
      "step": 38730
    },
    {
      "epoch": 5.769288054810843,
      "grad_norm": 0.4734181761741638,
      "learning_rate": 4.478288519899697e-05,
      "loss": 0.2279,
      "num_input_tokens_seen": 22483176,
      "step": 38735
    },
    {
      "epoch": 5.770032767351802,
      "grad_norm": 39.45090103149414,
      "learning_rate": 4.4780898309138245e-05,
      "loss": 0.4231,
      "num_input_tokens_seen": 22486312,
      "step": 38740
    },
    {
      "epoch": 5.770777479892761,
      "grad_norm": 1.8559237718582153,
      "learning_rate": 4.477891108510135e-05,
      "loss": 0.1206,
      "num_input_tokens_seen": 22489416,
      "step": 38745
    },
    {
      "epoch": 5.7715221924337206,
      "grad_norm": 13.764286994934082,
      "learning_rate": 4.4776923526919855e-05,
      "loss": 0.1203,
      "num_input_tokens_seen": 22492360,
      "step": 38750
    },
    {
      "epoch": 5.77226690497468,
      "grad_norm": 1.3795647621154785,
      "learning_rate": 4.477493563462733e-05,
      "loss": 0.479,
      "num_input_tokens_seen": 22495272,
      "step": 38755
    },
    {
      "epoch": 5.773011617515639,
      "grad_norm": 25.58616828918457,
      "learning_rate": 4.477294740825738e-05,
      "loss": 0.408,
      "num_input_tokens_seen": 22497896,
      "step": 38760
    },
    {
      "epoch": 5.773756330056598,
      "grad_norm": 0.6746538877487183,
      "learning_rate": 4.477095884784358e-05,
      "loss": 0.5683,
      "num_input_tokens_seen": 22500744,
      "step": 38765
    },
    {
      "epoch": 5.774501042597557,
      "grad_norm": 0.040959808975458145,
      "learning_rate": 4.476896995341951e-05,
      "loss": 0.4959,
      "num_input_tokens_seen": 22503752,
      "step": 38770
    },
    {
      "epoch": 5.775245755138517,
      "grad_norm": 5.631655216217041,
      "learning_rate": 4.47669807250188e-05,
      "loss": 0.3121,
      "num_input_tokens_seen": 22506568,
      "step": 38775
    },
    {
      "epoch": 5.775990467679476,
      "grad_norm": 19.679397583007812,
      "learning_rate": 4.476499116267503e-05,
      "loss": 0.2215,
      "num_input_tokens_seen": 22509384,
      "step": 38780
    },
    {
      "epoch": 5.7767351802204345,
      "grad_norm": 7.387241840362549,
      "learning_rate": 4.476300126642183e-05,
      "loss": 0.1975,
      "num_input_tokens_seen": 22512168,
      "step": 38785
    },
    {
      "epoch": 5.777479892761394,
      "grad_norm": 1.4693423509597778,
      "learning_rate": 4.4761011036292804e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 22515080,
      "step": 38790
    },
    {
      "epoch": 5.778224605302353,
      "grad_norm": 0.30041611194610596,
      "learning_rate": 4.475902047232159e-05,
      "loss": 0.1602,
      "num_input_tokens_seen": 22517960,
      "step": 38795
    },
    {
      "epoch": 5.778969317843313,
      "grad_norm": 40.486209869384766,
      "learning_rate": 4.4757029574541795e-05,
      "loss": 0.0806,
      "num_input_tokens_seen": 22520744,
      "step": 38800
    },
    {
      "epoch": 5.779714030384271,
      "grad_norm": 7.588821887969971,
      "learning_rate": 4.475503834298707e-05,
      "loss": 0.4209,
      "num_input_tokens_seen": 22523880,
      "step": 38805
    },
    {
      "epoch": 5.780458742925231,
      "grad_norm": 0.3441740572452545,
      "learning_rate": 4.475304677769105e-05,
      "loss": 0.3753,
      "num_input_tokens_seen": 22526536,
      "step": 38810
    },
    {
      "epoch": 5.78120345546619,
      "grad_norm": 11.768133163452148,
      "learning_rate": 4.475105487868739e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 22529544,
      "step": 38815
    },
    {
      "epoch": 5.781948168007149,
      "grad_norm": 14.679935455322266,
      "learning_rate": 4.474906264600972e-05,
      "loss": 0.2541,
      "num_input_tokens_seen": 22532552,
      "step": 38820
    },
    {
      "epoch": 5.782692880548108,
      "grad_norm": 54.674461364746094,
      "learning_rate": 4.474707007969171e-05,
      "loss": 0.2811,
      "num_input_tokens_seen": 22535528,
      "step": 38825
    },
    {
      "epoch": 5.783437593089068,
      "grad_norm": 21.907224655151367,
      "learning_rate": 4.4745077179767026e-05,
      "loss": 0.2949,
      "num_input_tokens_seen": 22538312,
      "step": 38830
    },
    {
      "epoch": 5.7841823056300266,
      "grad_norm": 19.357637405395508,
      "learning_rate": 4.4743083946269324e-05,
      "loss": 0.3403,
      "num_input_tokens_seen": 22541416,
      "step": 38835
    },
    {
      "epoch": 5.784927018170986,
      "grad_norm": 20.860939025878906,
      "learning_rate": 4.47410903792323e-05,
      "loss": 0.2494,
      "num_input_tokens_seen": 22544456,
      "step": 38840
    },
    {
      "epoch": 5.785671730711945,
      "grad_norm": 83.53853607177734,
      "learning_rate": 4.47390964786896e-05,
      "loss": 0.3238,
      "num_input_tokens_seen": 22547304,
      "step": 38845
    },
    {
      "epoch": 5.786416443252905,
      "grad_norm": 31.53380012512207,
      "learning_rate": 4.4737102244674934e-05,
      "loss": 0.1379,
      "num_input_tokens_seen": 22550120,
      "step": 38850
    },
    {
      "epoch": 5.787161155793863,
      "grad_norm": 42.5847282409668,
      "learning_rate": 4.473510767722199e-05,
      "loss": 0.2653,
      "num_input_tokens_seen": 22552904,
      "step": 38855
    },
    {
      "epoch": 5.787905868334823,
      "grad_norm": 2.8266913890838623,
      "learning_rate": 4.473311277636445e-05,
      "loss": 0.1666,
      "num_input_tokens_seen": 22556008,
      "step": 38860
    },
    {
      "epoch": 5.788650580875782,
      "grad_norm": 0.017575137317180634,
      "learning_rate": 4.4731117542136034e-05,
      "loss": 0.1571,
      "num_input_tokens_seen": 22559144,
      "step": 38865
    },
    {
      "epoch": 5.789395293416741,
      "grad_norm": 0.15482908487319946,
      "learning_rate": 4.472912197457044e-05,
      "loss": 0.2047,
      "num_input_tokens_seen": 22562152,
      "step": 38870
    },
    {
      "epoch": 5.7901400059577,
      "grad_norm": 21.830095291137695,
      "learning_rate": 4.472712607370137e-05,
      "loss": 0.5434,
      "num_input_tokens_seen": 22565128,
      "step": 38875
    },
    {
      "epoch": 5.79088471849866,
      "grad_norm": 152.04550170898438,
      "learning_rate": 4.472512983956257e-05,
      "loss": 0.28,
      "num_input_tokens_seen": 22567688,
      "step": 38880
    },
    {
      "epoch": 5.791629431039619,
      "grad_norm": 0.04587054252624512,
      "learning_rate": 4.4723133272187745e-05,
      "loss": 0.4988,
      "num_input_tokens_seen": 22570216,
      "step": 38885
    },
    {
      "epoch": 5.792374143580578,
      "grad_norm": 20.328733444213867,
      "learning_rate": 4.4721136371610626e-05,
      "loss": 0.2449,
      "num_input_tokens_seen": 22572872,
      "step": 38890
    },
    {
      "epoch": 5.793118856121537,
      "grad_norm": 1.0365478992462158,
      "learning_rate": 4.4719139137864956e-05,
      "loss": 0.3078,
      "num_input_tokens_seen": 22576232,
      "step": 38895
    },
    {
      "epoch": 5.793863568662497,
      "grad_norm": 22.644210815429688,
      "learning_rate": 4.4717141570984474e-05,
      "loss": 0.1474,
      "num_input_tokens_seen": 22579560,
      "step": 38900
    },
    {
      "epoch": 5.794608281203455,
      "grad_norm": 21.455799102783203,
      "learning_rate": 4.471514367100292e-05,
      "loss": 0.0476,
      "num_input_tokens_seen": 22582440,
      "step": 38905
    },
    {
      "epoch": 5.795352993744415,
      "grad_norm": 0.10878710448741913,
      "learning_rate": 4.471314543795405e-05,
      "loss": 0.0812,
      "num_input_tokens_seen": 22585256,
      "step": 38910
    },
    {
      "epoch": 5.796097706285374,
      "grad_norm": 3.6571013927459717,
      "learning_rate": 4.4711146871871625e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 22588616,
      "step": 38915
    },
    {
      "epoch": 5.796842418826333,
      "grad_norm": 16.2471923828125,
      "learning_rate": 4.4709147972789405e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 22591624,
      "step": 38920
    },
    {
      "epoch": 5.797587131367292,
      "grad_norm": 18.82807159423828,
      "learning_rate": 4.470714874074117e-05,
      "loss": 0.1544,
      "num_input_tokens_seen": 22594184,
      "step": 38925
    },
    {
      "epoch": 5.798331843908251,
      "grad_norm": 1.5621846914291382,
      "learning_rate": 4.470514917576067e-05,
      "loss": 0.0324,
      "num_input_tokens_seen": 22597096,
      "step": 38930
    },
    {
      "epoch": 5.799076556449211,
      "grad_norm": 30.482839584350586,
      "learning_rate": 4.470314927788172e-05,
      "loss": 0.2927,
      "num_input_tokens_seen": 22599976,
      "step": 38935
    },
    {
      "epoch": 5.79982126899017,
      "grad_norm": 16.442794799804688,
      "learning_rate": 4.470114904713808e-05,
      "loss": 0.2072,
      "num_input_tokens_seen": 22602920,
      "step": 38940
    },
    {
      "epoch": 5.800565981531129,
      "grad_norm": 9.838552474975586,
      "learning_rate": 4.4699148483563546e-05,
      "loss": 0.8548,
      "num_input_tokens_seen": 22605832,
      "step": 38945
    },
    {
      "epoch": 5.801310694072088,
      "grad_norm": 0.02291666902601719,
      "learning_rate": 4.469714758719192e-05,
      "loss": 0.3088,
      "num_input_tokens_seen": 22608712,
      "step": 38950
    },
    {
      "epoch": 5.802055406613047,
      "grad_norm": 0.1427668333053589,
      "learning_rate": 4.469514635805702e-05,
      "loss": 0.3942,
      "num_input_tokens_seen": 22611592,
      "step": 38955
    },
    {
      "epoch": 5.802800119154006,
      "grad_norm": 0.28502997756004333,
      "learning_rate": 4.469314479619262e-05,
      "loss": 0.2276,
      "num_input_tokens_seen": 22614440,
      "step": 38960
    },
    {
      "epoch": 5.803544831694966,
      "grad_norm": 8.270760536193848,
      "learning_rate": 4.469114290163257e-05,
      "loss": 0.2574,
      "num_input_tokens_seen": 22617352,
      "step": 38965
    },
    {
      "epoch": 5.804289544235925,
      "grad_norm": 12.803827285766602,
      "learning_rate": 4.468914067441066e-05,
      "loss": 0.2134,
      "num_input_tokens_seen": 22620232,
      "step": 38970
    },
    {
      "epoch": 5.805034256776884,
      "grad_norm": 20.088802337646484,
      "learning_rate": 4.468713811456074e-05,
      "loss": 0.3143,
      "num_input_tokens_seen": 22623016,
      "step": 38975
    },
    {
      "epoch": 5.805778969317843,
      "grad_norm": 3.114527940750122,
      "learning_rate": 4.468513522211662e-05,
      "loss": 0.3,
      "num_input_tokens_seen": 22625800,
      "step": 38980
    },
    {
      "epoch": 5.806523681858803,
      "grad_norm": 18.858619689941406,
      "learning_rate": 4.468313199711216e-05,
      "loss": 0.3714,
      "num_input_tokens_seen": 22628648,
      "step": 38985
    },
    {
      "epoch": 5.807268394399761,
      "grad_norm": 37.23586654663086,
      "learning_rate": 4.468112843958118e-05,
      "loss": 0.2553,
      "num_input_tokens_seen": 22631368,
      "step": 38990
    },
    {
      "epoch": 5.808013106940721,
      "grad_norm": 16.435300827026367,
      "learning_rate": 4.467912454955755e-05,
      "loss": 0.4244,
      "num_input_tokens_seen": 22634248,
      "step": 38995
    },
    {
      "epoch": 5.80875781948168,
      "grad_norm": 20.604047775268555,
      "learning_rate": 4.46771203270751e-05,
      "loss": 0.4928,
      "num_input_tokens_seen": 22636968,
      "step": 39000
    },
    {
      "epoch": 5.809502532022639,
      "grad_norm": 13.996114730834961,
      "learning_rate": 4.4675115772167706e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 22639752,
      "step": 39005
    },
    {
      "epoch": 5.810247244563598,
      "grad_norm": 4.950176239013672,
      "learning_rate": 4.467311088486922e-05,
      "loss": 0.4879,
      "num_input_tokens_seen": 22642856,
      "step": 39010
    },
    {
      "epoch": 5.810991957104558,
      "grad_norm": 12.923099517822266,
      "learning_rate": 4.467110566521353e-05,
      "loss": 0.3062,
      "num_input_tokens_seen": 22646280,
      "step": 39015
    },
    {
      "epoch": 5.811736669645517,
      "grad_norm": 53.00244140625,
      "learning_rate": 4.4669100113234504e-05,
      "loss": 0.3153,
      "num_input_tokens_seen": 22649352,
      "step": 39020
    },
    {
      "epoch": 5.812481382186476,
      "grad_norm": 5.021273612976074,
      "learning_rate": 4.466709422896601e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 22652200,
      "step": 39025
    },
    {
      "epoch": 5.813226094727435,
      "grad_norm": 20.673738479614258,
      "learning_rate": 4.466508801244196e-05,
      "loss": 0.2534,
      "num_input_tokens_seen": 22655112,
      "step": 39030
    },
    {
      "epoch": 5.813970807268395,
      "grad_norm": 1.7397934198379517,
      "learning_rate": 4.466308146369623e-05,
      "loss": 0.0949,
      "num_input_tokens_seen": 22658120,
      "step": 39035
    },
    {
      "epoch": 5.814715519809353,
      "grad_norm": 10.27577018737793,
      "learning_rate": 4.466107458276273e-05,
      "loss": 0.5854,
      "num_input_tokens_seen": 22660904,
      "step": 39040
    },
    {
      "epoch": 5.815460232350313,
      "grad_norm": 0.5132591128349304,
      "learning_rate": 4.465906736967534e-05,
      "loss": 0.2788,
      "num_input_tokens_seen": 22663880,
      "step": 39045
    },
    {
      "epoch": 5.816204944891272,
      "grad_norm": 37.52992630004883,
      "learning_rate": 4.465705982446801e-05,
      "loss": 0.3738,
      "num_input_tokens_seen": 22666664,
      "step": 39050
    },
    {
      "epoch": 5.8169496574322315,
      "grad_norm": 8.592206001281738,
      "learning_rate": 4.465505194717462e-05,
      "loss": 0.4243,
      "num_input_tokens_seen": 22669352,
      "step": 39055
    },
    {
      "epoch": 5.81769436997319,
      "grad_norm": 34.18099594116211,
      "learning_rate": 4.46530437378291e-05,
      "loss": 0.1556,
      "num_input_tokens_seen": 22672200,
      "step": 39060
    },
    {
      "epoch": 5.81843908251415,
      "grad_norm": 2.4371793270111084,
      "learning_rate": 4.465103519646539e-05,
      "loss": 0.2583,
      "num_input_tokens_seen": 22675176,
      "step": 39065
    },
    {
      "epoch": 5.819183795055109,
      "grad_norm": 0.3882777690887451,
      "learning_rate": 4.4649026323117404e-05,
      "loss": 0.3711,
      "num_input_tokens_seen": 22678152,
      "step": 39070
    },
    {
      "epoch": 5.819928507596068,
      "grad_norm": 1.554555892944336,
      "learning_rate": 4.464701711781909e-05,
      "loss": 0.298,
      "num_input_tokens_seen": 22681000,
      "step": 39075
    },
    {
      "epoch": 5.820673220137027,
      "grad_norm": 49.274356842041016,
      "learning_rate": 4.46450075806044e-05,
      "loss": 0.0797,
      "num_input_tokens_seen": 22683880,
      "step": 39080
    },
    {
      "epoch": 5.821417932677987,
      "grad_norm": 9.996072769165039,
      "learning_rate": 4.464299771150727e-05,
      "loss": 0.1777,
      "num_input_tokens_seen": 22686824,
      "step": 39085
    },
    {
      "epoch": 5.822162645218945,
      "grad_norm": 20.135591506958008,
      "learning_rate": 4.464098751056165e-05,
      "loss": 0.182,
      "num_input_tokens_seen": 22689736,
      "step": 39090
    },
    {
      "epoch": 5.822907357759904,
      "grad_norm": 17.093692779541016,
      "learning_rate": 4.463897697780152e-05,
      "loss": 0.5117,
      "num_input_tokens_seen": 22692392,
      "step": 39095
    },
    {
      "epoch": 5.823652070300864,
      "grad_norm": 13.094775199890137,
      "learning_rate": 4.463696611326082e-05,
      "loss": 0.1682,
      "num_input_tokens_seen": 22695176,
      "step": 39100
    },
    {
      "epoch": 5.8243967828418235,
      "grad_norm": 7.054564476013184,
      "learning_rate": 4.4634954916973545e-05,
      "loss": 0.1571,
      "num_input_tokens_seen": 22697960,
      "step": 39105
    },
    {
      "epoch": 5.825141495382782,
      "grad_norm": 10.9889497756958,
      "learning_rate": 4.463294338897366e-05,
      "loss": 0.4585,
      "num_input_tokens_seen": 22701064,
      "step": 39110
    },
    {
      "epoch": 5.825886207923741,
      "grad_norm": 6.774542808532715,
      "learning_rate": 4.463093152929515e-05,
      "loss": 0.6282,
      "num_input_tokens_seen": 22704008,
      "step": 39115
    },
    {
      "epoch": 5.826630920464701,
      "grad_norm": 9.831100463867188,
      "learning_rate": 4.4628919337972e-05,
      "loss": 0.2113,
      "num_input_tokens_seen": 22706728,
      "step": 39120
    },
    {
      "epoch": 5.82737563300566,
      "grad_norm": 0.1520930826663971,
      "learning_rate": 4.462690681503822e-05,
      "loss": 0.2402,
      "num_input_tokens_seen": 22709736,
      "step": 39125
    },
    {
      "epoch": 5.828120345546619,
      "grad_norm": 36.66958999633789,
      "learning_rate": 4.462489396052779e-05,
      "loss": 0.2183,
      "num_input_tokens_seen": 22712488,
      "step": 39130
    },
    {
      "epoch": 5.828865058087578,
      "grad_norm": 2.1377017498016357,
      "learning_rate": 4.462288077447472e-05,
      "loss": 0.2994,
      "num_input_tokens_seen": 22715592,
      "step": 39135
    },
    {
      "epoch": 5.8296097706285375,
      "grad_norm": 22.895606994628906,
      "learning_rate": 4.462086725691302e-05,
      "loss": 0.2216,
      "num_input_tokens_seen": 22718472,
      "step": 39140
    },
    {
      "epoch": 5.830354483169496,
      "grad_norm": 0.054121360182762146,
      "learning_rate": 4.4618853407876714e-05,
      "loss": 0.0635,
      "num_input_tokens_seen": 22721256,
      "step": 39145
    },
    {
      "epoch": 5.831099195710456,
      "grad_norm": 31.72368621826172,
      "learning_rate": 4.461683922739982e-05,
      "loss": 0.1327,
      "num_input_tokens_seen": 22724072,
      "step": 39150
    },
    {
      "epoch": 5.831843908251415,
      "grad_norm": 60.05765151977539,
      "learning_rate": 4.461482471551637e-05,
      "loss": 0.3973,
      "num_input_tokens_seen": 22727048,
      "step": 39155
    },
    {
      "epoch": 5.832588620792374,
      "grad_norm": 18.16803550720215,
      "learning_rate": 4.4612809872260386e-05,
      "loss": 0.2254,
      "num_input_tokens_seen": 22729768,
      "step": 39160
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 37.360633850097656,
      "learning_rate": 4.461079469766592e-05,
      "loss": 0.5957,
      "num_input_tokens_seen": 22732264,
      "step": 39165
    },
    {
      "epoch": 5.834078045874293,
      "grad_norm": 0.06130027398467064,
      "learning_rate": 4.4608779191766994e-05,
      "loss": 0.1703,
      "num_input_tokens_seen": 22735304,
      "step": 39170
    },
    {
      "epoch": 5.834822758415251,
      "grad_norm": 14.744404792785645,
      "learning_rate": 4.460676335459768e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 22738248,
      "step": 39175
    },
    {
      "epoch": 5.835567470956211,
      "grad_norm": 0.05659065395593643,
      "learning_rate": 4.460474718619203e-05,
      "loss": 0.4549,
      "num_input_tokens_seen": 22741000,
      "step": 39180
    },
    {
      "epoch": 5.83631218349717,
      "grad_norm": 34.4426383972168,
      "learning_rate": 4.4602730686584105e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 22744200,
      "step": 39185
    },
    {
      "epoch": 5.8370568960381295,
      "grad_norm": 24.12767219543457,
      "learning_rate": 4.460071385580796e-05,
      "loss": 0.3364,
      "num_input_tokens_seen": 22747112,
      "step": 39190
    },
    {
      "epoch": 5.837801608579088,
      "grad_norm": 26.76056480407715,
      "learning_rate": 4.459869669389768e-05,
      "loss": 0.2453,
      "num_input_tokens_seen": 22749800,
      "step": 39195
    },
    {
      "epoch": 5.838546321120048,
      "grad_norm": 13.896818161010742,
      "learning_rate": 4.459667920088734e-05,
      "loss": 0.2204,
      "num_input_tokens_seen": 22752648,
      "step": 39200
    },
    {
      "epoch": 5.839291033661007,
      "grad_norm": 23.14775276184082,
      "learning_rate": 4.459466137681102e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 22755496,
      "step": 39205
    },
    {
      "epoch": 5.840035746201966,
      "grad_norm": 36.73936462402344,
      "learning_rate": 4.4592643221702805e-05,
      "loss": 0.7368,
      "num_input_tokens_seen": 22758152,
      "step": 39210
    },
    {
      "epoch": 5.840780458742925,
      "grad_norm": 30.4232234954834,
      "learning_rate": 4.459062473559681e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 22760776,
      "step": 39215
    },
    {
      "epoch": 5.841525171283885,
      "grad_norm": 18.85411262512207,
      "learning_rate": 4.4588605918527104e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 22763560,
      "step": 39220
    },
    {
      "epoch": 5.8422698838248435,
      "grad_norm": 7.955727577209473,
      "learning_rate": 4.458658677052782e-05,
      "loss": 0.1498,
      "num_input_tokens_seen": 22766504,
      "step": 39225
    },
    {
      "epoch": 5.843014596365803,
      "grad_norm": 36.04253005981445,
      "learning_rate": 4.458456729163306e-05,
      "loss": 0.2617,
      "num_input_tokens_seen": 22769480,
      "step": 39230
    },
    {
      "epoch": 5.843759308906762,
      "grad_norm": 0.3737274706363678,
      "learning_rate": 4.458254748187693e-05,
      "loss": 0.0582,
      "num_input_tokens_seen": 22772424,
      "step": 39235
    },
    {
      "epoch": 5.8445040214477215,
      "grad_norm": 67.49222564697266,
      "learning_rate": 4.458052734129358e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 22775272,
      "step": 39240
    },
    {
      "epoch": 5.84524873398868,
      "grad_norm": 40.228309631347656,
      "learning_rate": 4.457850686991711e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 22778152,
      "step": 39245
    },
    {
      "epoch": 5.84599344652964,
      "grad_norm": 3.264575719833374,
      "learning_rate": 4.4576486067781675e-05,
      "loss": 0.3327,
      "num_input_tokens_seen": 22781000,
      "step": 39250
    },
    {
      "epoch": 5.846738159070599,
      "grad_norm": 22.494659423828125,
      "learning_rate": 4.45744649349214e-05,
      "loss": 0.1632,
      "num_input_tokens_seen": 22783944,
      "step": 39255
    },
    {
      "epoch": 5.847482871611557,
      "grad_norm": 17.40938377380371,
      "learning_rate": 4.457244347137043e-05,
      "loss": 0.1535,
      "num_input_tokens_seen": 22786824,
      "step": 39260
    },
    {
      "epoch": 5.848227584152517,
      "grad_norm": 17.83949851989746,
      "learning_rate": 4.457042167716292e-05,
      "loss": 0.3601,
      "num_input_tokens_seen": 22789512,
      "step": 39265
    },
    {
      "epoch": 5.848972296693477,
      "grad_norm": 14.478198051452637,
      "learning_rate": 4.456839955233303e-05,
      "loss": 0.2941,
      "num_input_tokens_seen": 22792296,
      "step": 39270
    },
    {
      "epoch": 5.8497170092344355,
      "grad_norm": 8.123322486877441,
      "learning_rate": 4.456637709691491e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 22795144,
      "step": 39275
    },
    {
      "epoch": 5.850461721775394,
      "grad_norm": 20.109277725219727,
      "learning_rate": 4.456435431094275e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 22797800,
      "step": 39280
    },
    {
      "epoch": 5.851206434316354,
      "grad_norm": 11.200170516967773,
      "learning_rate": 4.45623311944507e-05,
      "loss": 0.6753,
      "num_input_tokens_seen": 22800328,
      "step": 39285
    },
    {
      "epoch": 5.8519511468573135,
      "grad_norm": 2.271357297897339,
      "learning_rate": 4.4560307747472945e-05,
      "loss": 0.1873,
      "num_input_tokens_seen": 22803432,
      "step": 39290
    },
    {
      "epoch": 5.852695859398272,
      "grad_norm": 26.577600479125977,
      "learning_rate": 4.4558283970043676e-05,
      "loss": 0.3579,
      "num_input_tokens_seen": 22806216,
      "step": 39295
    },
    {
      "epoch": 5.853440571939231,
      "grad_norm": 18.814542770385742,
      "learning_rate": 4.4556259862197067e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 22808872,
      "step": 39300
    },
    {
      "epoch": 5.854185284480191,
      "grad_norm": 7.605380058288574,
      "learning_rate": 4.4554235423967336e-05,
      "loss": 0.1044,
      "num_input_tokens_seen": 22811848,
      "step": 39305
    },
    {
      "epoch": 5.8549299970211495,
      "grad_norm": 35.15524673461914,
      "learning_rate": 4.4552210655388664e-05,
      "loss": 0.081,
      "num_input_tokens_seen": 22814728,
      "step": 39310
    },
    {
      "epoch": 5.855674709562109,
      "grad_norm": 3.3746049404144287,
      "learning_rate": 4.455018555649527e-05,
      "loss": 0.0372,
      "num_input_tokens_seen": 22817640,
      "step": 39315
    },
    {
      "epoch": 5.856419422103068,
      "grad_norm": 1.0528063774108887,
      "learning_rate": 4.4548160127321356e-05,
      "loss": 0.3033,
      "num_input_tokens_seen": 22820520,
      "step": 39320
    },
    {
      "epoch": 5.8571641346440275,
      "grad_norm": 0.06964796036481857,
      "learning_rate": 4.454613436790115e-05,
      "loss": 0.2782,
      "num_input_tokens_seen": 22823240,
      "step": 39325
    },
    {
      "epoch": 5.857908847184986,
      "grad_norm": 0.2454497218132019,
      "learning_rate": 4.454410827826887e-05,
      "loss": 0.3628,
      "num_input_tokens_seen": 22825992,
      "step": 39330
    },
    {
      "epoch": 5.858653559725946,
      "grad_norm": 4.291609287261963,
      "learning_rate": 4.454208185845874e-05,
      "loss": 0.1567,
      "num_input_tokens_seen": 22829032,
      "step": 39335
    },
    {
      "epoch": 5.859398272266905,
      "grad_norm": 12.650115013122559,
      "learning_rate": 4.4540055108504996e-05,
      "loss": 0.3093,
      "num_input_tokens_seen": 22832168,
      "step": 39340
    },
    {
      "epoch": 5.860142984807864,
      "grad_norm": 0.03102056309580803,
      "learning_rate": 4.4538028028441885e-05,
      "loss": 0.2919,
      "num_input_tokens_seen": 22834792,
      "step": 39345
    },
    {
      "epoch": 5.860887697348823,
      "grad_norm": 21.29344367980957,
      "learning_rate": 4.453600061830365e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 22837768,
      "step": 39350
    },
    {
      "epoch": 5.861632409889783,
      "grad_norm": 75.41163635253906,
      "learning_rate": 4.453397287812453e-05,
      "loss": 0.3688,
      "num_input_tokens_seen": 22840872,
      "step": 39355
    },
    {
      "epoch": 5.8623771224307415,
      "grad_norm": 8.845317840576172,
      "learning_rate": 4.4531944807938806e-05,
      "loss": 0.6958,
      "num_input_tokens_seen": 22843688,
      "step": 39360
    },
    {
      "epoch": 5.863121834971701,
      "grad_norm": 15.882719039916992,
      "learning_rate": 4.4529916407780715e-05,
      "loss": 0.4421,
      "num_input_tokens_seen": 22846728,
      "step": 39365
    },
    {
      "epoch": 5.86386654751266,
      "grad_norm": 0.12108460068702698,
      "learning_rate": 4.452788767768454e-05,
      "loss": 0.1088,
      "num_input_tokens_seen": 22849544,
      "step": 39370
    },
    {
      "epoch": 5.8646112600536195,
      "grad_norm": 14.138110160827637,
      "learning_rate": 4.4525858617684545e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 22852360,
      "step": 39375
    },
    {
      "epoch": 5.865355972594578,
      "grad_norm": 26.70035171508789,
      "learning_rate": 4.452382922781503e-05,
      "loss": 0.2002,
      "num_input_tokens_seen": 22855816,
      "step": 39380
    },
    {
      "epoch": 5.866100685135538,
      "grad_norm": 0.9566901922225952,
      "learning_rate": 4.4521799508110245e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 22858856,
      "step": 39385
    },
    {
      "epoch": 5.866845397676497,
      "grad_norm": 1.0025900602340698,
      "learning_rate": 4.4519769458604504e-05,
      "loss": 0.5001,
      "num_input_tokens_seen": 22861768,
      "step": 39390
    },
    {
      "epoch": 5.867590110217456,
      "grad_norm": 0.3581577241420746,
      "learning_rate": 4.45177390793321e-05,
      "loss": 0.1827,
      "num_input_tokens_seen": 22864456,
      "step": 39395
    },
    {
      "epoch": 5.868334822758415,
      "grad_norm": 39.347572326660156,
      "learning_rate": 4.451570837032733e-05,
      "loss": 0.4295,
      "num_input_tokens_seen": 22867080,
      "step": 39400
    },
    {
      "epoch": 5.869079535299375,
      "grad_norm": 0.05996876582503319,
      "learning_rate": 4.45136773316245e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 22869896,
      "step": 39405
    },
    {
      "epoch": 5.8698242478403335,
      "grad_norm": 0.20463433861732483,
      "learning_rate": 4.451164596325793e-05,
      "loss": 0.1137,
      "num_input_tokens_seen": 22872776,
      "step": 39410
    },
    {
      "epoch": 5.870568960381293,
      "grad_norm": 2.659370183944702,
      "learning_rate": 4.450961426526192e-05,
      "loss": 0.1748,
      "num_input_tokens_seen": 22875784,
      "step": 39415
    },
    {
      "epoch": 5.871313672922252,
      "grad_norm": 0.07979448139667511,
      "learning_rate": 4.450758223767082e-05,
      "loss": 0.0173,
      "num_input_tokens_seen": 22878600,
      "step": 39420
    },
    {
      "epoch": 5.872058385463212,
      "grad_norm": 0.5396023392677307,
      "learning_rate": 4.4505549880518935e-05,
      "loss": 0.1989,
      "num_input_tokens_seen": 22881512,
      "step": 39425
    },
    {
      "epoch": 5.87280309800417,
      "grad_norm": 71.40257263183594,
      "learning_rate": 4.4503517193840615e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 22884264,
      "step": 39430
    },
    {
      "epoch": 5.87354781054513,
      "grad_norm": 8.44288158416748,
      "learning_rate": 4.4501484177670186e-05,
      "loss": 0.2292,
      "num_input_tokens_seen": 22887208,
      "step": 39435
    },
    {
      "epoch": 5.874292523086089,
      "grad_norm": 2.6468818187713623,
      "learning_rate": 4.449945083204201e-05,
      "loss": 0.1675,
      "num_input_tokens_seen": 22890184,
      "step": 39440
    },
    {
      "epoch": 5.8750372356270475,
      "grad_norm": 0.11440324038267136,
      "learning_rate": 4.4497417156990427e-05,
      "loss": 0.3537,
      "num_input_tokens_seen": 22892808,
      "step": 39445
    },
    {
      "epoch": 5.875781948168007,
      "grad_norm": 0.5421634912490845,
      "learning_rate": 4.44953831525498e-05,
      "loss": 0.5753,
      "num_input_tokens_seen": 22895720,
      "step": 39450
    },
    {
      "epoch": 5.876526660708967,
      "grad_norm": 26.545223236083984,
      "learning_rate": 4.449334881875449e-05,
      "loss": 0.477,
      "num_input_tokens_seen": 22898440,
      "step": 39455
    },
    {
      "epoch": 5.8772713732499255,
      "grad_norm": 0.051596127450466156,
      "learning_rate": 4.4491314155638865e-05,
      "loss": 0.2078,
      "num_input_tokens_seen": 22901640,
      "step": 39460
    },
    {
      "epoch": 5.878016085790884,
      "grad_norm": 45.10072708129883,
      "learning_rate": 4.448927916323729e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 22904232,
      "step": 39465
    },
    {
      "epoch": 5.878760798331844,
      "grad_norm": 26.506921768188477,
      "learning_rate": 4.448724384158416e-05,
      "loss": 0.1368,
      "num_input_tokens_seen": 22906888,
      "step": 39470
    },
    {
      "epoch": 5.879505510872804,
      "grad_norm": 19.083171844482422,
      "learning_rate": 4.4485208190713846e-05,
      "loss": 0.2183,
      "num_input_tokens_seen": 22909832,
      "step": 39475
    },
    {
      "epoch": 5.880250223413762,
      "grad_norm": 0.3089063763618469,
      "learning_rate": 4.448317221066074e-05,
      "loss": 0.2521,
      "num_input_tokens_seen": 22912712,
      "step": 39480
    },
    {
      "epoch": 5.880994935954721,
      "grad_norm": 0.34350869059562683,
      "learning_rate": 4.4481135901459245e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 22915656,
      "step": 39485
    },
    {
      "epoch": 5.881739648495681,
      "grad_norm": 8.740777015686035,
      "learning_rate": 4.4479099263143765e-05,
      "loss": 0.4231,
      "num_input_tokens_seen": 22918536,
      "step": 39490
    },
    {
      "epoch": 5.8824843610366395,
      "grad_norm": 9.3169527053833,
      "learning_rate": 4.447706229574869e-05,
      "loss": 0.0416,
      "num_input_tokens_seen": 22921416,
      "step": 39495
    },
    {
      "epoch": 5.883229073577599,
      "grad_norm": 0.39319708943367004,
      "learning_rate": 4.4475024999308454e-05,
      "loss": 0.0313,
      "num_input_tokens_seen": 22924072,
      "step": 39500
    },
    {
      "epoch": 5.883973786118558,
      "grad_norm": 11.610799789428711,
      "learning_rate": 4.4472987373857456e-05,
      "loss": 0.2252,
      "num_input_tokens_seen": 22926792,
      "step": 39505
    },
    {
      "epoch": 5.884718498659518,
      "grad_norm": 16.771942138671875,
      "learning_rate": 4.447094941943013e-05,
      "loss": 0.4719,
      "num_input_tokens_seen": 22929736,
      "step": 39510
    },
    {
      "epoch": 5.885463211200476,
      "grad_norm": 32.153141021728516,
      "learning_rate": 4.44689111360609e-05,
      "loss": 0.4391,
      "num_input_tokens_seen": 22932840,
      "step": 39515
    },
    {
      "epoch": 5.886207923741436,
      "grad_norm": 0.019812865182757378,
      "learning_rate": 4.446687252378421e-05,
      "loss": 0.2566,
      "num_input_tokens_seen": 22935592,
      "step": 39520
    },
    {
      "epoch": 5.886952636282395,
      "grad_norm": 0.5466365218162537,
      "learning_rate": 4.446483358263449e-05,
      "loss": 0.0566,
      "num_input_tokens_seen": 22938376,
      "step": 39525
    },
    {
      "epoch": 5.887697348823354,
      "grad_norm": 18.653427124023438,
      "learning_rate": 4.44627943126462e-05,
      "loss": 0.2831,
      "num_input_tokens_seen": 22941192,
      "step": 39530
    },
    {
      "epoch": 5.888442061364313,
      "grad_norm": 0.9178239703178406,
      "learning_rate": 4.446075471385376e-05,
      "loss": 0.4671,
      "num_input_tokens_seen": 22943944,
      "step": 39535
    },
    {
      "epoch": 5.889186773905273,
      "grad_norm": 0.37753209471702576,
      "learning_rate": 4.4458714786291666e-05,
      "loss": 0.175,
      "num_input_tokens_seen": 22946600,
      "step": 39540
    },
    {
      "epoch": 5.8899314864462315,
      "grad_norm": 26.573352813720703,
      "learning_rate": 4.4456674529994356e-05,
      "loss": 0.2116,
      "num_input_tokens_seen": 22949672,
      "step": 39545
    },
    {
      "epoch": 5.890676198987191,
      "grad_norm": 0.3861645758152008,
      "learning_rate": 4.44546339449963e-05,
      "loss": 0.1316,
      "num_input_tokens_seen": 22952616,
      "step": 39550
    },
    {
      "epoch": 5.89142091152815,
      "grad_norm": 5.501306056976318,
      "learning_rate": 4.445259303133198e-05,
      "loss": 0.3009,
      "num_input_tokens_seen": 22955528,
      "step": 39555
    },
    {
      "epoch": 5.89216562406911,
      "grad_norm": 0.3129268288612366,
      "learning_rate": 4.445055178903588e-05,
      "loss": 0.2567,
      "num_input_tokens_seen": 22958056,
      "step": 39560
    },
    {
      "epoch": 5.892910336610068,
      "grad_norm": 35.43241500854492,
      "learning_rate": 4.444851021814247e-05,
      "loss": 0.3385,
      "num_input_tokens_seen": 22961256,
      "step": 39565
    },
    {
      "epoch": 5.893655049151028,
      "grad_norm": 1.4549719095230103,
      "learning_rate": 4.444646831868624e-05,
      "loss": 0.2992,
      "num_input_tokens_seen": 22964264,
      "step": 39570
    },
    {
      "epoch": 5.894399761691987,
      "grad_norm": 3.4506125450134277,
      "learning_rate": 4.44444260907017e-05,
      "loss": 0.0869,
      "num_input_tokens_seen": 22967528,
      "step": 39575
    },
    {
      "epoch": 5.895144474232946,
      "grad_norm": 43.97581100463867,
      "learning_rate": 4.444238353422334e-05,
      "loss": 0.4702,
      "num_input_tokens_seen": 22970120,
      "step": 39580
    },
    {
      "epoch": 5.895889186773905,
      "grad_norm": 48.93603515625,
      "learning_rate": 4.444034064928567e-05,
      "loss": 0.5135,
      "num_input_tokens_seen": 22973192,
      "step": 39585
    },
    {
      "epoch": 5.896633899314865,
      "grad_norm": 2.231858968734741,
      "learning_rate": 4.443829743592321e-05,
      "loss": 0.0517,
      "num_input_tokens_seen": 22976456,
      "step": 39590
    },
    {
      "epoch": 5.897378611855824,
      "grad_norm": 12.209030151367188,
      "learning_rate": 4.4436253894170464e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 22979016,
      "step": 39595
    },
    {
      "epoch": 5.898123324396783,
      "grad_norm": 15.677682876586914,
      "learning_rate": 4.4434210024061966e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 22981960,
      "step": 39600
    },
    {
      "epoch": 5.898868036937742,
      "grad_norm": 20.771284103393555,
      "learning_rate": 4.443216582563224e-05,
      "loss": 0.3431,
      "num_input_tokens_seen": 22984936,
      "step": 39605
    },
    {
      "epoch": 5.899612749478701,
      "grad_norm": 9.092172622680664,
      "learning_rate": 4.443012129891583e-05,
      "loss": 0.1822,
      "num_input_tokens_seen": 22987720,
      "step": 39610
    },
    {
      "epoch": 5.90035746201966,
      "grad_norm": 5.818126201629639,
      "learning_rate": 4.442807644394725e-05,
      "loss": 0.3136,
      "num_input_tokens_seen": 22990760,
      "step": 39615
    },
    {
      "epoch": 5.90110217456062,
      "grad_norm": 4.01413106918335,
      "learning_rate": 4.442603126076108e-05,
      "loss": 0.3756,
      "num_input_tokens_seen": 22993736,
      "step": 39620
    },
    {
      "epoch": 5.901846887101579,
      "grad_norm": 0.03655613586306572,
      "learning_rate": 4.442398574939185e-05,
      "loss": 0.1145,
      "num_input_tokens_seen": 22996392,
      "step": 39625
    },
    {
      "epoch": 5.9025915996425375,
      "grad_norm": 4.428056716918945,
      "learning_rate": 4.442193990987412e-05,
      "loss": 0.3603,
      "num_input_tokens_seen": 22999336,
      "step": 39630
    },
    {
      "epoch": 5.903336312183497,
      "grad_norm": 69.25991821289062,
      "learning_rate": 4.441989374224246e-05,
      "loss": 0.326,
      "num_input_tokens_seen": 23002408,
      "step": 39635
    },
    {
      "epoch": 5.904081024724457,
      "grad_norm": 20.312156677246094,
      "learning_rate": 4.4417847246531435e-05,
      "loss": 0.1543,
      "num_input_tokens_seen": 23005352,
      "step": 39640
    },
    {
      "epoch": 5.904825737265416,
      "grad_norm": 6.372790813446045,
      "learning_rate": 4.4415800422775614e-05,
      "loss": 0.1046,
      "num_input_tokens_seen": 23008232,
      "step": 39645
    },
    {
      "epoch": 5.905570449806374,
      "grad_norm": 0.4437601864337921,
      "learning_rate": 4.441375327100957e-05,
      "loss": 0.294,
      "num_input_tokens_seen": 23011400,
      "step": 39650
    },
    {
      "epoch": 5.906315162347334,
      "grad_norm": 4.864513874053955,
      "learning_rate": 4.4411705791267904e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 23014120,
      "step": 39655
    },
    {
      "epoch": 5.907059874888293,
      "grad_norm": 12.351981163024902,
      "learning_rate": 4.44096579835852e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 23016808,
      "step": 39660
    },
    {
      "epoch": 5.907804587429252,
      "grad_norm": 0.4652121663093567,
      "learning_rate": 4.440760984799605e-05,
      "loss": 0.0886,
      "num_input_tokens_seen": 23019816,
      "step": 39665
    },
    {
      "epoch": 5.908549299970211,
      "grad_norm": 0.3132474422454834,
      "learning_rate": 4.440556138453505e-05,
      "loss": 0.2186,
      "num_input_tokens_seen": 23022952,
      "step": 39670
    },
    {
      "epoch": 5.909294012511171,
      "grad_norm": 17.537771224975586,
      "learning_rate": 4.440351259323682e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 23025608,
      "step": 39675
    },
    {
      "epoch": 5.91003872505213,
      "grad_norm": 69.97949981689453,
      "learning_rate": 4.440146347413596e-05,
      "loss": 0.5206,
      "num_input_tokens_seen": 23028808,
      "step": 39680
    },
    {
      "epoch": 5.910783437593089,
      "grad_norm": 16.133878707885742,
      "learning_rate": 4.4399414027267094e-05,
      "loss": 0.0351,
      "num_input_tokens_seen": 23031720,
      "step": 39685
    },
    {
      "epoch": 5.911528150134048,
      "grad_norm": 10.264010429382324,
      "learning_rate": 4.439736425266485e-05,
      "loss": 0.0756,
      "num_input_tokens_seen": 23034856,
      "step": 39690
    },
    {
      "epoch": 5.912272862675008,
      "grad_norm": 0.0140645457431674,
      "learning_rate": 4.4395314150363856e-05,
      "loss": 0.2293,
      "num_input_tokens_seen": 23037992,
      "step": 39695
    },
    {
      "epoch": 5.913017575215966,
      "grad_norm": 0.23616543412208557,
      "learning_rate": 4.439326372039872e-05,
      "loss": 0.4899,
      "num_input_tokens_seen": 23040936,
      "step": 39700
    },
    {
      "epoch": 5.913762287756926,
      "grad_norm": 31.721946716308594,
      "learning_rate": 4.439121296280413e-05,
      "loss": 0.2797,
      "num_input_tokens_seen": 23043816,
      "step": 39705
    },
    {
      "epoch": 5.914507000297885,
      "grad_norm": 7.480061054229736,
      "learning_rate": 4.438916187761469e-05,
      "loss": 0.2202,
      "num_input_tokens_seen": 23046856,
      "step": 39710
    },
    {
      "epoch": 5.915251712838844,
      "grad_norm": 3.5380423069000244,
      "learning_rate": 4.4387110464865066e-05,
      "loss": 0.0735,
      "num_input_tokens_seen": 23049416,
      "step": 39715
    },
    {
      "epoch": 5.915996425379803,
      "grad_norm": 83.57322692871094,
      "learning_rate": 4.4385058724589925e-05,
      "loss": 0.8187,
      "num_input_tokens_seen": 23052328,
      "step": 39720
    },
    {
      "epoch": 5.916741137920763,
      "grad_norm": 10.41171932220459,
      "learning_rate": 4.438300665682391e-05,
      "loss": 0.0291,
      "num_input_tokens_seen": 23055208,
      "step": 39725
    },
    {
      "epoch": 5.917485850461722,
      "grad_norm": 37.56096649169922,
      "learning_rate": 4.43809542616017e-05,
      "loss": 0.1475,
      "num_input_tokens_seen": 23058312,
      "step": 39730
    },
    {
      "epoch": 5.918230563002681,
      "grad_norm": 9.040141105651855,
      "learning_rate": 4.437890153895797e-05,
      "loss": 0.2366,
      "num_input_tokens_seen": 23061480,
      "step": 39735
    },
    {
      "epoch": 5.91897527554364,
      "grad_norm": 15.2183198928833,
      "learning_rate": 4.437684848892739e-05,
      "loss": 0.2562,
      "num_input_tokens_seen": 23064136,
      "step": 39740
    },
    {
      "epoch": 5.9197199880846,
      "grad_norm": 0.4537963271141052,
      "learning_rate": 4.437479511154465e-05,
      "loss": 0.2365,
      "num_input_tokens_seen": 23066856,
      "step": 39745
    },
    {
      "epoch": 5.920464700625558,
      "grad_norm": 79.67375183105469,
      "learning_rate": 4.4372741406844434e-05,
      "loss": 0.3007,
      "num_input_tokens_seen": 23069640,
      "step": 39750
    },
    {
      "epoch": 5.921209413166518,
      "grad_norm": 26.185062408447266,
      "learning_rate": 4.437068737486145e-05,
      "loss": 0.6391,
      "num_input_tokens_seen": 23072968,
      "step": 39755
    },
    {
      "epoch": 5.921954125707477,
      "grad_norm": 16.251792907714844,
      "learning_rate": 4.4368633015630385e-05,
      "loss": 0.084,
      "num_input_tokens_seen": 23075752,
      "step": 39760
    },
    {
      "epoch": 5.9226988382484365,
      "grad_norm": 19.107975006103516,
      "learning_rate": 4.436657832918595e-05,
      "loss": 0.3114,
      "num_input_tokens_seen": 23078792,
      "step": 39765
    },
    {
      "epoch": 5.923443550789395,
      "grad_norm": 24.046106338500977,
      "learning_rate": 4.436452331556286e-05,
      "loss": 0.6018,
      "num_input_tokens_seen": 23081896,
      "step": 39770
    },
    {
      "epoch": 5.924188263330355,
      "grad_norm": 22.91981315612793,
      "learning_rate": 4.436246797479582e-05,
      "loss": 0.0402,
      "num_input_tokens_seen": 23085000,
      "step": 39775
    },
    {
      "epoch": 5.924932975871314,
      "grad_norm": 22.264169692993164,
      "learning_rate": 4.436041230691957e-05,
      "loss": 0.2959,
      "num_input_tokens_seen": 23087848,
      "step": 39780
    },
    {
      "epoch": 5.925677688412273,
      "grad_norm": 13.278221130371094,
      "learning_rate": 4.435835631196884e-05,
      "loss": 0.1935,
      "num_input_tokens_seen": 23091304,
      "step": 39785
    },
    {
      "epoch": 5.926422400953232,
      "grad_norm": 19.608152389526367,
      "learning_rate": 4.435629998997835e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 23093864,
      "step": 39790
    },
    {
      "epoch": 5.927167113494191,
      "grad_norm": 5.246122360229492,
      "learning_rate": 4.435424334098284e-05,
      "loss": 0.2108,
      "num_input_tokens_seen": 23096776,
      "step": 39795
    },
    {
      "epoch": 5.92791182603515,
      "grad_norm": 98.55410766601562,
      "learning_rate": 4.435218636501706e-05,
      "loss": 0.3207,
      "num_input_tokens_seen": 23099944,
      "step": 39800
    },
    {
      "epoch": 5.92865653857611,
      "grad_norm": 15.740306854248047,
      "learning_rate": 4.435012906211576e-05,
      "loss": 0.1634,
      "num_input_tokens_seen": 23102888,
      "step": 39805
    },
    {
      "epoch": 5.929401251117069,
      "grad_norm": 38.06350326538086,
      "learning_rate": 4.43480714323137e-05,
      "loss": 0.1923,
      "num_input_tokens_seen": 23105768,
      "step": 39810
    },
    {
      "epoch": 5.930145963658028,
      "grad_norm": 0.528677761554718,
      "learning_rate": 4.434601347564563e-05,
      "loss": 0.3051,
      "num_input_tokens_seen": 23108584,
      "step": 39815
    },
    {
      "epoch": 5.930890676198987,
      "grad_norm": 26.99091339111328,
      "learning_rate": 4.434395519214633e-05,
      "loss": 0.2134,
      "num_input_tokens_seen": 23111560,
      "step": 39820
    },
    {
      "epoch": 5.931635388739946,
      "grad_norm": 16.333702087402344,
      "learning_rate": 4.4341896581850566e-05,
      "loss": 0.246,
      "num_input_tokens_seen": 23114408,
      "step": 39825
    },
    {
      "epoch": 5.932380101280906,
      "grad_norm": 39.573360443115234,
      "learning_rate": 4.433983764479312e-05,
      "loss": 0.3736,
      "num_input_tokens_seen": 23117256,
      "step": 39830
    },
    {
      "epoch": 5.933124813821864,
      "grad_norm": 38.304771423339844,
      "learning_rate": 4.433777838100876e-05,
      "loss": 0.3576,
      "num_input_tokens_seen": 23120072,
      "step": 39835
    },
    {
      "epoch": 5.933869526362824,
      "grad_norm": 15.980874061584473,
      "learning_rate": 4.433571879053231e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 23123016,
      "step": 39840
    },
    {
      "epoch": 5.934614238903783,
      "grad_norm": 0.0322582982480526,
      "learning_rate": 4.433365887339853e-05,
      "loss": 0.264,
      "num_input_tokens_seen": 23125640,
      "step": 39845
    },
    {
      "epoch": 5.9353589514447425,
      "grad_norm": 0.7919040322303772,
      "learning_rate": 4.4331598629642235e-05,
      "loss": 0.1807,
      "num_input_tokens_seen": 23128456,
      "step": 39850
    },
    {
      "epoch": 5.936103663985701,
      "grad_norm": 0.9863943457603455,
      "learning_rate": 4.432953805929823e-05,
      "loss": 0.3065,
      "num_input_tokens_seen": 23131048,
      "step": 39855
    },
    {
      "epoch": 5.936848376526661,
      "grad_norm": 10.875448226928711,
      "learning_rate": 4.432747716240133e-05,
      "loss": 0.2831,
      "num_input_tokens_seen": 23134184,
      "step": 39860
    },
    {
      "epoch": 5.93759308906762,
      "grad_norm": 18.818485260009766,
      "learning_rate": 4.432541593898634e-05,
      "loss": 0.3995,
      "num_input_tokens_seen": 23137288,
      "step": 39865
    },
    {
      "epoch": 5.938337801608579,
      "grad_norm": 0.2470402866601944,
      "learning_rate": 4.432335438908809e-05,
      "loss": 0.3996,
      "num_input_tokens_seen": 23139912,
      "step": 39870
    },
    {
      "epoch": 5.939082514149538,
      "grad_norm": 15.84013557434082,
      "learning_rate": 4.432129251274141e-05,
      "loss": 0.2432,
      "num_input_tokens_seen": 23142920,
      "step": 39875
    },
    {
      "epoch": 5.939827226690498,
      "grad_norm": 2.5701050758361816,
      "learning_rate": 4.431923030998113e-05,
      "loss": 0.4721,
      "num_input_tokens_seen": 23145640,
      "step": 39880
    },
    {
      "epoch": 5.940571939231456,
      "grad_norm": 12.925286293029785,
      "learning_rate": 4.4317167780842086e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 23148616,
      "step": 39885
    },
    {
      "epoch": 5.941316651772416,
      "grad_norm": 14.671625137329102,
      "learning_rate": 4.4315104925359124e-05,
      "loss": 0.2002,
      "num_input_tokens_seen": 23151240,
      "step": 39890
    },
    {
      "epoch": 5.942061364313375,
      "grad_norm": 0.6927469372749329,
      "learning_rate": 4.431304174356709e-05,
      "loss": 0.0678,
      "num_input_tokens_seen": 23154088,
      "step": 39895
    },
    {
      "epoch": 5.9428060768543345,
      "grad_norm": 11.605335235595703,
      "learning_rate": 4.431097823550086e-05,
      "loss": 0.3714,
      "num_input_tokens_seen": 23157000,
      "step": 39900
    },
    {
      "epoch": 5.943550789395293,
      "grad_norm": 0.25198379158973694,
      "learning_rate": 4.4308914401195275e-05,
      "loss": 0.2799,
      "num_input_tokens_seen": 23159720,
      "step": 39905
    },
    {
      "epoch": 5.944295501936253,
      "grad_norm": 17.290918350219727,
      "learning_rate": 4.43068502406852e-05,
      "loss": 0.348,
      "num_input_tokens_seen": 23162632,
      "step": 39910
    },
    {
      "epoch": 5.945040214477212,
      "grad_norm": 3.835479497909546,
      "learning_rate": 4.4304785754005516e-05,
      "loss": 0.1983,
      "num_input_tokens_seen": 23165640,
      "step": 39915
    },
    {
      "epoch": 5.945784927018171,
      "grad_norm": 0.040763065218925476,
      "learning_rate": 4.43027209411911e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 23168616,
      "step": 39920
    },
    {
      "epoch": 5.94652963955913,
      "grad_norm": 21.626131057739258,
      "learning_rate": 4.430065580227683e-05,
      "loss": 0.5499,
      "num_input_tokens_seen": 23171656,
      "step": 39925
    },
    {
      "epoch": 5.94727435210009,
      "grad_norm": 14.181754112243652,
      "learning_rate": 4.4298590337297595e-05,
      "loss": 0.342,
      "num_input_tokens_seen": 23174792,
      "step": 39930
    },
    {
      "epoch": 5.9480190646410485,
      "grad_norm": 60.52979278564453,
      "learning_rate": 4.4296524546288286e-05,
      "loss": 0.0871,
      "num_input_tokens_seen": 23177800,
      "step": 39935
    },
    {
      "epoch": 5.948763777182008,
      "grad_norm": 1.557861566543579,
      "learning_rate": 4.429445842928382e-05,
      "loss": 0.2634,
      "num_input_tokens_seen": 23180456,
      "step": 39940
    },
    {
      "epoch": 5.949508489722967,
      "grad_norm": 19.74998664855957,
      "learning_rate": 4.4292391986319084e-05,
      "loss": 0.4985,
      "num_input_tokens_seen": 23183432,
      "step": 39945
    },
    {
      "epoch": 5.9502532022639265,
      "grad_norm": 17.684852600097656,
      "learning_rate": 4.429032521742899e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 23186280,
      "step": 39950
    },
    {
      "epoch": 5.950997914804885,
      "grad_norm": 20.875028610229492,
      "learning_rate": 4.428825812264845e-05,
      "loss": 0.4477,
      "num_input_tokens_seen": 23189224,
      "step": 39955
    },
    {
      "epoch": 5.951742627345844,
      "grad_norm": 13.837991714477539,
      "learning_rate": 4.4286190702012405e-05,
      "loss": 0.3901,
      "num_input_tokens_seen": 23192104,
      "step": 39960
    },
    {
      "epoch": 5.952487339886804,
      "grad_norm": 14.651638984680176,
      "learning_rate": 4.428412295555576e-05,
      "loss": 0.2558,
      "num_input_tokens_seen": 23195464,
      "step": 39965
    },
    {
      "epoch": 5.953232052427763,
      "grad_norm": 2.7724103927612305,
      "learning_rate": 4.4282054883313464e-05,
      "loss": 0.2154,
      "num_input_tokens_seen": 23198344,
      "step": 39970
    },
    {
      "epoch": 5.953976764968722,
      "grad_norm": 103.56169891357422,
      "learning_rate": 4.427998648532045e-05,
      "loss": 0.4265,
      "num_input_tokens_seen": 23201128,
      "step": 39975
    },
    {
      "epoch": 5.954721477509681,
      "grad_norm": 40.3212776184082,
      "learning_rate": 4.427791776161165e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 23204008,
      "step": 39980
    },
    {
      "epoch": 5.9554661900506405,
      "grad_norm": 8.039701461791992,
      "learning_rate": 4.4275848712222035e-05,
      "loss": 0.0238,
      "num_input_tokens_seen": 23207016,
      "step": 39985
    },
    {
      "epoch": 5.9562109025916,
      "grad_norm": 52.82595443725586,
      "learning_rate": 4.4273779337186536e-05,
      "loss": 0.1327,
      "num_input_tokens_seen": 23209704,
      "step": 39990
    },
    {
      "epoch": 5.956955615132559,
      "grad_norm": 6.5325093269348145,
      "learning_rate": 4.427170963654013e-05,
      "loss": 0.1643,
      "num_input_tokens_seen": 23212648,
      "step": 39995
    },
    {
      "epoch": 5.957700327673518,
      "grad_norm": 14.184966087341309,
      "learning_rate": 4.426963961031777e-05,
      "loss": 0.7993,
      "num_input_tokens_seen": 23215656,
      "step": 40000
    },
    {
      "epoch": 5.958445040214477,
      "grad_norm": 6.48727560043335,
      "learning_rate": 4.426756925855444e-05,
      "loss": 0.24,
      "num_input_tokens_seen": 23218888,
      "step": 40005
    },
    {
      "epoch": 5.959189752755436,
      "grad_norm": 10.26798152923584,
      "learning_rate": 4.4265498581285114e-05,
      "loss": 0.0791,
      "num_input_tokens_seen": 23221704,
      "step": 40010
    },
    {
      "epoch": 5.959934465296396,
      "grad_norm": 25.749631881713867,
      "learning_rate": 4.426342757854476e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 23224616,
      "step": 40015
    },
    {
      "epoch": 5.9606791778373545,
      "grad_norm": 23.69338607788086,
      "learning_rate": 4.4261356250368386e-05,
      "loss": 0.4112,
      "num_input_tokens_seen": 23227528,
      "step": 40020
    },
    {
      "epoch": 5.961423890378314,
      "grad_norm": 0.40330302715301514,
      "learning_rate": 4.4259284596790976e-05,
      "loss": 0.4311,
      "num_input_tokens_seen": 23230120,
      "step": 40025
    },
    {
      "epoch": 5.962168602919273,
      "grad_norm": 27.115236282348633,
      "learning_rate": 4.425721261784751e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 23232840,
      "step": 40030
    },
    {
      "epoch": 5.9629133154602325,
      "grad_norm": 12.477795600891113,
      "learning_rate": 4.425514031357302e-05,
      "loss": 0.3922,
      "num_input_tokens_seen": 23235496,
      "step": 40035
    },
    {
      "epoch": 5.963658028001191,
      "grad_norm": 48.79899978637695,
      "learning_rate": 4.4253067684002505e-05,
      "loss": 0.6117,
      "num_input_tokens_seen": 23238440,
      "step": 40040
    },
    {
      "epoch": 5.964402740542151,
      "grad_norm": 7.626687049865723,
      "learning_rate": 4.425099472917098e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 23241448,
      "step": 40045
    },
    {
      "epoch": 5.96514745308311,
      "grad_norm": 19.529712677001953,
      "learning_rate": 4.4248921449113464e-05,
      "loss": 0.1676,
      "num_input_tokens_seen": 23244328,
      "step": 40050
    },
    {
      "epoch": 5.965892165624069,
      "grad_norm": 4.3851542472839355,
      "learning_rate": 4.424684784386498e-05,
      "loss": 0.1609,
      "num_input_tokens_seen": 23247304,
      "step": 40055
    },
    {
      "epoch": 5.966636878165028,
      "grad_norm": 18.280698776245117,
      "learning_rate": 4.424477391346057e-05,
      "loss": 0.233,
      "num_input_tokens_seen": 23250472,
      "step": 40060
    },
    {
      "epoch": 5.967381590705988,
      "grad_norm": 5.340608596801758,
      "learning_rate": 4.424269965793526e-05,
      "loss": 0.4445,
      "num_input_tokens_seen": 23253192,
      "step": 40065
    },
    {
      "epoch": 5.9681263032469465,
      "grad_norm": 6.308098793029785,
      "learning_rate": 4.424062507732409e-05,
      "loss": 0.3098,
      "num_input_tokens_seen": 23256136,
      "step": 40070
    },
    {
      "epoch": 5.968871015787906,
      "grad_norm": 41.77428436279297,
      "learning_rate": 4.4238550171662127e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 23259080,
      "step": 40075
    },
    {
      "epoch": 5.969615728328865,
      "grad_norm": 0.09362050145864487,
      "learning_rate": 4.423647494098441e-05,
      "loss": 0.1799,
      "num_input_tokens_seen": 23261896,
      "step": 40080
    },
    {
      "epoch": 5.9703604408698245,
      "grad_norm": 3.072319746017456,
      "learning_rate": 4.423439938532599e-05,
      "loss": 0.1101,
      "num_input_tokens_seen": 23264840,
      "step": 40085
    },
    {
      "epoch": 5.971105153410783,
      "grad_norm": 0.16362488269805908,
      "learning_rate": 4.423232350472195e-05,
      "loss": 0.3035,
      "num_input_tokens_seen": 23268136,
      "step": 40090
    },
    {
      "epoch": 5.971849865951743,
      "grad_norm": 6.350831985473633,
      "learning_rate": 4.423024729920735e-05,
      "loss": 0.4119,
      "num_input_tokens_seen": 23270888,
      "step": 40095
    },
    {
      "epoch": 5.972594578492702,
      "grad_norm": 0.09566330164670944,
      "learning_rate": 4.422817076881726e-05,
      "loss": 0.2062,
      "num_input_tokens_seen": 23273448,
      "step": 40100
    },
    {
      "epoch": 5.973339291033661,
      "grad_norm": 1.6068717241287231,
      "learning_rate": 4.422609391358677e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 23276552,
      "step": 40105
    },
    {
      "epoch": 5.97408400357462,
      "grad_norm": 44.967220306396484,
      "learning_rate": 4.4224016733550975e-05,
      "loss": 0.3361,
      "num_input_tokens_seen": 23279176,
      "step": 40110
    },
    {
      "epoch": 5.97482871611558,
      "grad_norm": 10.747042655944824,
      "learning_rate": 4.4221939228744945e-05,
      "loss": 0.346,
      "num_input_tokens_seen": 23281928,
      "step": 40115
    },
    {
      "epoch": 5.9755734286565385,
      "grad_norm": 0.14848434925079346,
      "learning_rate": 4.421986139920379e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 23284520,
      "step": 40120
    },
    {
      "epoch": 5.976318141197497,
      "grad_norm": 35.84635543823242,
      "learning_rate": 4.4217783244962615e-05,
      "loss": 0.2143,
      "num_input_tokens_seen": 23287336,
      "step": 40125
    },
    {
      "epoch": 5.977062853738457,
      "grad_norm": 6.2212677001953125,
      "learning_rate": 4.421570476605652e-05,
      "loss": 0.2824,
      "num_input_tokens_seen": 23290184,
      "step": 40130
    },
    {
      "epoch": 5.977807566279417,
      "grad_norm": 10.052428245544434,
      "learning_rate": 4.421362596252062e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 23293224,
      "step": 40135
    },
    {
      "epoch": 5.978552278820375,
      "grad_norm": 30.750951766967773,
      "learning_rate": 4.4211546834390046e-05,
      "loss": 0.2986,
      "num_input_tokens_seen": 23296072,
      "step": 40140
    },
    {
      "epoch": 5.979296991361334,
      "grad_norm": 2.589836359024048,
      "learning_rate": 4.420946738169991e-05,
      "loss": 0.4091,
      "num_input_tokens_seen": 23298856,
      "step": 40145
    },
    {
      "epoch": 5.980041703902294,
      "grad_norm": 0.015587588772177696,
      "learning_rate": 4.4207387604485345e-05,
      "loss": 0.2576,
      "num_input_tokens_seen": 23302280,
      "step": 40150
    },
    {
      "epoch": 5.980786416443253,
      "grad_norm": 38.768070220947266,
      "learning_rate": 4.420530750278149e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 23305128,
      "step": 40155
    },
    {
      "epoch": 5.981531128984212,
      "grad_norm": 14.593893051147461,
      "learning_rate": 4.420322707662348e-05,
      "loss": 0.1391,
      "num_input_tokens_seen": 23307912,
      "step": 40160
    },
    {
      "epoch": 5.982275841525171,
      "grad_norm": 4.371773719787598,
      "learning_rate": 4.420114632604647e-05,
      "loss": 0.4047,
      "num_input_tokens_seen": 23310920,
      "step": 40165
    },
    {
      "epoch": 5.9830205540661305,
      "grad_norm": 8.925863265991211,
      "learning_rate": 4.41990652510856e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 23313864,
      "step": 40170
    },
    {
      "epoch": 5.983765266607089,
      "grad_norm": 15.174493789672852,
      "learning_rate": 4.4196983851776044e-05,
      "loss": 0.1846,
      "num_input_tokens_seen": 23316904,
      "step": 40175
    },
    {
      "epoch": 5.984509979148049,
      "grad_norm": 35.14815902709961,
      "learning_rate": 4.419490212815296e-05,
      "loss": 0.2819,
      "num_input_tokens_seen": 23319752,
      "step": 40180
    },
    {
      "epoch": 5.985254691689008,
      "grad_norm": 32.06937789916992,
      "learning_rate": 4.419282008025151e-05,
      "loss": 0.3673,
      "num_input_tokens_seen": 23322536,
      "step": 40185
    },
    {
      "epoch": 5.985999404229967,
      "grad_norm": 22.995525360107422,
      "learning_rate": 4.4190737708106864e-05,
      "loss": 0.1552,
      "num_input_tokens_seen": 23325512,
      "step": 40190
    },
    {
      "epoch": 5.986744116770926,
      "grad_norm": 23.32501983642578,
      "learning_rate": 4.418865501175422e-05,
      "loss": 0.5227,
      "num_input_tokens_seen": 23328616,
      "step": 40195
    },
    {
      "epoch": 5.987488829311886,
      "grad_norm": 12.568269729614258,
      "learning_rate": 4.418657199122874e-05,
      "loss": 0.3037,
      "num_input_tokens_seen": 23331400,
      "step": 40200
    },
    {
      "epoch": 5.9882335418528445,
      "grad_norm": 0.0368940606713295,
      "learning_rate": 4.418448864656564e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 23334248,
      "step": 40205
    },
    {
      "epoch": 5.988978254393804,
      "grad_norm": 13.935013771057129,
      "learning_rate": 4.418240497780009e-05,
      "loss": 0.3128,
      "num_input_tokens_seen": 23336904,
      "step": 40210
    },
    {
      "epoch": 5.989722966934763,
      "grad_norm": 0.04327183589339256,
      "learning_rate": 4.4180320984967305e-05,
      "loss": 0.2843,
      "num_input_tokens_seen": 23339656,
      "step": 40215
    },
    {
      "epoch": 5.990467679475723,
      "grad_norm": 0.24213288724422455,
      "learning_rate": 4.4178236668102504e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 23342440,
      "step": 40220
    },
    {
      "epoch": 5.991212392016681,
      "grad_norm": 14.566359519958496,
      "learning_rate": 4.417615202724087e-05,
      "loss": 0.3209,
      "num_input_tokens_seen": 23345288,
      "step": 40225
    },
    {
      "epoch": 5.991957104557641,
      "grad_norm": 25.073471069335938,
      "learning_rate": 4.4174067062417645e-05,
      "loss": 0.2895,
      "num_input_tokens_seen": 23348136,
      "step": 40230
    },
    {
      "epoch": 5.9927018170986,
      "grad_norm": 9.645401000976562,
      "learning_rate": 4.417198177366805e-05,
      "loss": 0.3404,
      "num_input_tokens_seen": 23351208,
      "step": 40235
    },
    {
      "epoch": 5.993446529639559,
      "grad_norm": 22.410478591918945,
      "learning_rate": 4.41698961610273e-05,
      "loss": 0.2507,
      "num_input_tokens_seen": 23354184,
      "step": 40240
    },
    {
      "epoch": 5.994191242180518,
      "grad_norm": 11.454850196838379,
      "learning_rate": 4.416781022453064e-05,
      "loss": 0.3196,
      "num_input_tokens_seen": 23357192,
      "step": 40245
    },
    {
      "epoch": 5.994935954721478,
      "grad_norm": 0.4008276164531708,
      "learning_rate": 4.4165723964213314e-05,
      "loss": 0.0758,
      "num_input_tokens_seen": 23359880,
      "step": 40250
    },
    {
      "epoch": 5.9956806672624365,
      "grad_norm": 19.86423683166504,
      "learning_rate": 4.4163637380110555e-05,
      "loss": 0.3622,
      "num_input_tokens_seen": 23362600,
      "step": 40255
    },
    {
      "epoch": 5.996425379803396,
      "grad_norm": 5.066745281219482,
      "learning_rate": 4.416155047225762e-05,
      "loss": 0.0476,
      "num_input_tokens_seen": 23365704,
      "step": 40260
    },
    {
      "epoch": 5.997170092344355,
      "grad_norm": 40.650848388671875,
      "learning_rate": 4.415946324068976e-05,
      "loss": 0.4882,
      "num_input_tokens_seen": 23368712,
      "step": 40265
    },
    {
      "epoch": 5.997914804885315,
      "grad_norm": 0.16932976245880127,
      "learning_rate": 4.4157375685442246e-05,
      "loss": 0.1864,
      "num_input_tokens_seen": 23371560,
      "step": 40270
    },
    {
      "epoch": 5.998659517426273,
      "grad_norm": 0.08565788716077805,
      "learning_rate": 4.415528780655034e-05,
      "loss": 0.3409,
      "num_input_tokens_seen": 23374728,
      "step": 40275
    },
    {
      "epoch": 5.999404229967233,
      "grad_norm": 18.535219192504883,
      "learning_rate": 4.4153199604049315e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 23378088,
      "step": 40280
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.03684663772583,
      "eval_runtime": 49.1748,
      "eval_samples_per_second": 60.681,
      "eval_steps_per_second": 15.17,
      "num_input_tokens_seen": 23379928,
      "step": 40284
    },
    {
      "epoch": 6.000148942508192,
      "grad_norm": 13.182443618774414,
      "learning_rate": 4.415111107797445e-05,
      "loss": 0.2961,
      "num_input_tokens_seen": 23380472,
      "step": 40285
    },
    {
      "epoch": 6.000893655049151,
      "grad_norm": 0.32882174849510193,
      "learning_rate": 4.414902222836103e-05,
      "loss": 0.0414,
      "num_input_tokens_seen": 23383224,
      "step": 40290
    },
    {
      "epoch": 6.00163836759011,
      "grad_norm": 0.009594641625881195,
      "learning_rate": 4.414693305524434e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 23386200,
      "step": 40295
    },
    {
      "epoch": 6.00238308013107,
      "grad_norm": 14.51459789276123,
      "learning_rate": 4.4144843558659675e-05,
      "loss": 0.2729,
      "num_input_tokens_seen": 23389176,
      "step": 40300
    },
    {
      "epoch": 6.003127792672029,
      "grad_norm": 41.45011520385742,
      "learning_rate": 4.414275373864234e-05,
      "loss": 0.2225,
      "num_input_tokens_seen": 23391960,
      "step": 40305
    },
    {
      "epoch": 6.003872505212988,
      "grad_norm": 24.469545364379883,
      "learning_rate": 4.4140663595227624e-05,
      "loss": 0.2269,
      "num_input_tokens_seen": 23395000,
      "step": 40310
    },
    {
      "epoch": 6.004617217753947,
      "grad_norm": 0.014389376156032085,
      "learning_rate": 4.413857312845086e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 23397816,
      "step": 40315
    },
    {
      "epoch": 6.005361930294906,
      "grad_norm": 0.7618528604507446,
      "learning_rate": 4.4136482338347356e-05,
      "loss": 0.3193,
      "num_input_tokens_seen": 23400664,
      "step": 40320
    },
    {
      "epoch": 6.006106642835865,
      "grad_norm": 11.105302810668945,
      "learning_rate": 4.413439122495243e-05,
      "loss": 0.1288,
      "num_input_tokens_seen": 23403736,
      "step": 40325
    },
    {
      "epoch": 6.006851355376824,
      "grad_norm": 7.500568389892578,
      "learning_rate": 4.413229978830141e-05,
      "loss": 0.3218,
      "num_input_tokens_seen": 23406808,
      "step": 40330
    },
    {
      "epoch": 6.007596067917784,
      "grad_norm": 36.13631820678711,
      "learning_rate": 4.413020802842963e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 23409624,
      "step": 40335
    },
    {
      "epoch": 6.0083407804587425,
      "grad_norm": 10.767953872680664,
      "learning_rate": 4.412811594537243e-05,
      "loss": 0.4194,
      "num_input_tokens_seen": 23412344,
      "step": 40340
    },
    {
      "epoch": 6.009085492999702,
      "grad_norm": 2.381131172180176,
      "learning_rate": 4.4126023539165155e-05,
      "loss": 0.2207,
      "num_input_tokens_seen": 23416152,
      "step": 40345
    },
    {
      "epoch": 6.009830205540661,
      "grad_norm": 0.10176722705364227,
      "learning_rate": 4.412393080984315e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 23419064,
      "step": 40350
    },
    {
      "epoch": 6.010574918081621,
      "grad_norm": 28.50912094116211,
      "learning_rate": 4.412183775744177e-05,
      "loss": 0.6079,
      "num_input_tokens_seen": 23422136,
      "step": 40355
    },
    {
      "epoch": 6.011319630622579,
      "grad_norm": 0.04954536259174347,
      "learning_rate": 4.411974438199637e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 23424824,
      "step": 40360
    },
    {
      "epoch": 6.012064343163539,
      "grad_norm": 31.452421188354492,
      "learning_rate": 4.411765068354233e-05,
      "loss": 0.0559,
      "num_input_tokens_seen": 23427928,
      "step": 40365
    },
    {
      "epoch": 6.012809055704498,
      "grad_norm": 73.90205383300781,
      "learning_rate": 4.4115556662115004e-05,
      "loss": 0.3144,
      "num_input_tokens_seen": 23430616,
      "step": 40370
    },
    {
      "epoch": 6.013553768245457,
      "grad_norm": 22.98151206970215,
      "learning_rate": 4.411346231774978e-05,
      "loss": 0.1947,
      "num_input_tokens_seen": 23433272,
      "step": 40375
    },
    {
      "epoch": 6.014298480786416,
      "grad_norm": 0.07098730653524399,
      "learning_rate": 4.411136765048204e-05,
      "loss": 0.0612,
      "num_input_tokens_seen": 23436344,
      "step": 40380
    },
    {
      "epoch": 6.015043193327376,
      "grad_norm": 0.09250841289758682,
      "learning_rate": 4.410927266034716e-05,
      "loss": 0.1598,
      "num_input_tokens_seen": 23439224,
      "step": 40385
    },
    {
      "epoch": 6.015787905868335,
      "grad_norm": 15.661545753479004,
      "learning_rate": 4.4107177347380545e-05,
      "loss": 0.3527,
      "num_input_tokens_seen": 23442168,
      "step": 40390
    },
    {
      "epoch": 6.016532618409294,
      "grad_norm": 2.3963685035705566,
      "learning_rate": 4.4105081711617594e-05,
      "loss": 0.2569,
      "num_input_tokens_seen": 23445144,
      "step": 40395
    },
    {
      "epoch": 6.017277330950253,
      "grad_norm": 0.044262077659368515,
      "learning_rate": 4.410298575309369e-05,
      "loss": 0.1639,
      "num_input_tokens_seen": 23448120,
      "step": 40400
    },
    {
      "epoch": 6.018022043491213,
      "grad_norm": 0.2774161696434021,
      "learning_rate": 4.4100889471844263e-05,
      "loss": 0.2304,
      "num_input_tokens_seen": 23451064,
      "step": 40405
    },
    {
      "epoch": 6.018766756032171,
      "grad_norm": 0.07954226434230804,
      "learning_rate": 4.4098792867904724e-05,
      "loss": 0.0111,
      "num_input_tokens_seen": 23454072,
      "step": 40410
    },
    {
      "epoch": 6.019511468573131,
      "grad_norm": 0.03279693424701691,
      "learning_rate": 4.409669594131049e-05,
      "loss": 0.2147,
      "num_input_tokens_seen": 23456728,
      "step": 40415
    },
    {
      "epoch": 6.02025618111409,
      "grad_norm": 26.472457885742188,
      "learning_rate": 4.409459869209699e-05,
      "loss": 0.1351,
      "num_input_tokens_seen": 23459832,
      "step": 40420
    },
    {
      "epoch": 6.021000893655049,
      "grad_norm": 3.947248697280884,
      "learning_rate": 4.409250112029965e-05,
      "loss": 0.2466,
      "num_input_tokens_seen": 23462424,
      "step": 40425
    },
    {
      "epoch": 6.021745606196008,
      "grad_norm": 0.04935649037361145,
      "learning_rate": 4.4090403225953915e-05,
      "loss": 0.0608,
      "num_input_tokens_seen": 23465528,
      "step": 40430
    },
    {
      "epoch": 6.022490318736968,
      "grad_norm": 87.95396423339844,
      "learning_rate": 4.408830500909521e-05,
      "loss": 0.1974,
      "num_input_tokens_seen": 23468632,
      "step": 40435
    },
    {
      "epoch": 6.023235031277927,
      "grad_norm": 7.674720287322998,
      "learning_rate": 4.408620646975899e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 23471480,
      "step": 40440
    },
    {
      "epoch": 6.023979743818886,
      "grad_norm": 0.006618673913180828,
      "learning_rate": 4.408410760798072e-05,
      "loss": 0.1722,
      "num_input_tokens_seen": 23474456,
      "step": 40445
    },
    {
      "epoch": 6.024724456359845,
      "grad_norm": 0.43923619389533997,
      "learning_rate": 4.408200842379584e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 23477272,
      "step": 40450
    },
    {
      "epoch": 6.025469168900805,
      "grad_norm": 72.66649627685547,
      "learning_rate": 4.407990891723983e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 23480120,
      "step": 40455
    },
    {
      "epoch": 6.026213881441763,
      "grad_norm": 0.025533678010106087,
      "learning_rate": 4.407780908834814e-05,
      "loss": 0.0209,
      "num_input_tokens_seen": 23483128,
      "step": 40460
    },
    {
      "epoch": 6.026958593982723,
      "grad_norm": 28.50337791442871,
      "learning_rate": 4.407570893715627e-05,
      "loss": 0.6039,
      "num_input_tokens_seen": 23486072,
      "step": 40465
    },
    {
      "epoch": 6.027703306523682,
      "grad_norm": 29.077882766723633,
      "learning_rate": 4.4073608463699676e-05,
      "loss": 0.2634,
      "num_input_tokens_seen": 23488728,
      "step": 40470
    },
    {
      "epoch": 6.0284480190646414,
      "grad_norm": 22.239717483520508,
      "learning_rate": 4.4071507668013854e-05,
      "loss": 0.2271,
      "num_input_tokens_seen": 23491448,
      "step": 40475
    },
    {
      "epoch": 6.0291927316056,
      "grad_norm": 37.374794006347656,
      "learning_rate": 4.406940655013429e-05,
      "loss": 0.3713,
      "num_input_tokens_seen": 23494424,
      "step": 40480
    },
    {
      "epoch": 6.02993744414656,
      "grad_norm": 31.069141387939453,
      "learning_rate": 4.406730511009649e-05,
      "loss": 0.2242,
      "num_input_tokens_seen": 23497688,
      "step": 40485
    },
    {
      "epoch": 6.030682156687519,
      "grad_norm": 0.011680010706186295,
      "learning_rate": 4.406520334793595e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 23500760,
      "step": 40490
    },
    {
      "epoch": 6.031426869228477,
      "grad_norm": 49.01988983154297,
      "learning_rate": 4.4063101263688164e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 23503512,
      "step": 40495
    },
    {
      "epoch": 6.032171581769437,
      "grad_norm": 10.566808700561523,
      "learning_rate": 4.406099885738866e-05,
      "loss": 0.1703,
      "num_input_tokens_seen": 23506360,
      "step": 40500
    },
    {
      "epoch": 6.032916294310396,
      "grad_norm": 0.6453107595443726,
      "learning_rate": 4.405889612907296e-05,
      "loss": 0.0828,
      "num_input_tokens_seen": 23509368,
      "step": 40505
    },
    {
      "epoch": 6.033661006851355,
      "grad_norm": 12.498258590698242,
      "learning_rate": 4.405679307877658e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 23512376,
      "step": 40510
    },
    {
      "epoch": 6.034405719392314,
      "grad_norm": 14.074872016906738,
      "learning_rate": 4.4054689706535044e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 23515256,
      "step": 40515
    },
    {
      "epoch": 6.035150431933274,
      "grad_norm": 1.946832537651062,
      "learning_rate": 4.40525860123839e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 23517848,
      "step": 40520
    },
    {
      "epoch": 6.035895144474233,
      "grad_norm": 180.51361083984375,
      "learning_rate": 4.405048199635868e-05,
      "loss": 0.2578,
      "num_input_tokens_seen": 23520728,
      "step": 40525
    },
    {
      "epoch": 6.036639857015192,
      "grad_norm": 111.07543182373047,
      "learning_rate": 4.404837765849492e-05,
      "loss": 0.1291,
      "num_input_tokens_seen": 23523480,
      "step": 40530
    },
    {
      "epoch": 6.037384569556151,
      "grad_norm": 0.07656387239694595,
      "learning_rate": 4.4046272998828186e-05,
      "loss": 0.1264,
      "num_input_tokens_seen": 23526264,
      "step": 40535
    },
    {
      "epoch": 6.038129282097111,
      "grad_norm": 16.473230361938477,
      "learning_rate": 4.4044168017394025e-05,
      "loss": 0.3215,
      "num_input_tokens_seen": 23529112,
      "step": 40540
    },
    {
      "epoch": 6.038873994638069,
      "grad_norm": 0.17804627120494843,
      "learning_rate": 4.4042062714228e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 23531928,
      "step": 40545
    },
    {
      "epoch": 6.039618707179029,
      "grad_norm": 0.09194162487983704,
      "learning_rate": 4.403995708936568e-05,
      "loss": 0.1859,
      "num_input_tokens_seen": 23534520,
      "step": 40550
    },
    {
      "epoch": 6.040363419719988,
      "grad_norm": 20.390159606933594,
      "learning_rate": 4.403785114284263e-05,
      "loss": 0.4877,
      "num_input_tokens_seen": 23537272,
      "step": 40555
    },
    {
      "epoch": 6.0411081322609474,
      "grad_norm": 8.566064834594727,
      "learning_rate": 4.4035744874694444e-05,
      "loss": 0.3765,
      "num_input_tokens_seen": 23540152,
      "step": 40560
    },
    {
      "epoch": 6.041852844801906,
      "grad_norm": 18.72742462158203,
      "learning_rate": 4.403363828495669e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 23543096,
      "step": 40565
    },
    {
      "epoch": 6.042597557342866,
      "grad_norm": 0.18273356556892395,
      "learning_rate": 4.403153137366497e-05,
      "loss": 0.3175,
      "num_input_tokens_seen": 23546488,
      "step": 40570
    },
    {
      "epoch": 6.043342269883825,
      "grad_norm": 65.41050720214844,
      "learning_rate": 4.402942414085486e-05,
      "loss": 0.3188,
      "num_input_tokens_seen": 23549208,
      "step": 40575
    },
    {
      "epoch": 6.044086982424784,
      "grad_norm": 13.632119178771973,
      "learning_rate": 4.4027316586561976e-05,
      "loss": 0.0644,
      "num_input_tokens_seen": 23551992,
      "step": 40580
    },
    {
      "epoch": 6.044831694965743,
      "grad_norm": 0.027764664962887764,
      "learning_rate": 4.402520871082191e-05,
      "loss": 0.0091,
      "num_input_tokens_seen": 23555160,
      "step": 40585
    },
    {
      "epoch": 6.045576407506703,
      "grad_norm": 12.83210563659668,
      "learning_rate": 4.402310051367029e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 23558200,
      "step": 40590
    },
    {
      "epoch": 6.046321120047661,
      "grad_norm": 0.1556568145751953,
      "learning_rate": 4.4020991995142716e-05,
      "loss": 0.2168,
      "num_input_tokens_seen": 23561080,
      "step": 40595
    },
    {
      "epoch": 6.047065832588621,
      "grad_norm": 0.011237726546823978,
      "learning_rate": 4.401888315527481e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 23564216,
      "step": 40600
    },
    {
      "epoch": 6.04781054512958,
      "grad_norm": 0.5816669464111328,
      "learning_rate": 4.40167739941022e-05,
      "loss": 0.5442,
      "num_input_tokens_seen": 23567064,
      "step": 40605
    },
    {
      "epoch": 6.0485552576705395,
      "grad_norm": 16.48281478881836,
      "learning_rate": 4.401466451166053e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 23569752,
      "step": 40610
    },
    {
      "epoch": 6.049299970211498,
      "grad_norm": 7.012032985687256,
      "learning_rate": 4.401255470798543e-05,
      "loss": 0.0474,
      "num_input_tokens_seen": 23572824,
      "step": 40615
    },
    {
      "epoch": 6.050044682752458,
      "grad_norm": 24.643993377685547,
      "learning_rate": 4.401044458311254e-05,
      "loss": 0.3092,
      "num_input_tokens_seen": 23575672,
      "step": 40620
    },
    {
      "epoch": 6.050789395293417,
      "grad_norm": 3.578244209289551,
      "learning_rate": 4.40083341370775e-05,
      "loss": 0.3713,
      "num_input_tokens_seen": 23578392,
      "step": 40625
    },
    {
      "epoch": 6.051534107834376,
      "grad_norm": 12.764883995056152,
      "learning_rate": 4.400622336991599e-05,
      "loss": 0.1687,
      "num_input_tokens_seen": 23581560,
      "step": 40630
    },
    {
      "epoch": 6.052278820375335,
      "grad_norm": 0.02070925384759903,
      "learning_rate": 4.400411228166364e-05,
      "loss": 0.075,
      "num_input_tokens_seen": 23584408,
      "step": 40635
    },
    {
      "epoch": 6.053023532916295,
      "grad_norm": 18.744647979736328,
      "learning_rate": 4.400200087235613e-05,
      "loss": 0.2404,
      "num_input_tokens_seen": 23587352,
      "step": 40640
    },
    {
      "epoch": 6.0537682454572534,
      "grad_norm": 17.765443801879883,
      "learning_rate": 4.399988914202913e-05,
      "loss": 0.3486,
      "num_input_tokens_seen": 23590072,
      "step": 40645
    },
    {
      "epoch": 6.054512957998213,
      "grad_norm": 0.022894952446222305,
      "learning_rate": 4.399777709071832e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 23592888,
      "step": 40650
    },
    {
      "epoch": 6.055257670539172,
      "grad_norm": 38.75582504272461,
      "learning_rate": 4.399566471845937e-05,
      "loss": 0.3398,
      "num_input_tokens_seen": 23595960,
      "step": 40655
    },
    {
      "epoch": 6.0560023830801315,
      "grad_norm": 4.411760330200195,
      "learning_rate": 4.3993552025287966e-05,
      "loss": 0.2856,
      "num_input_tokens_seen": 23598936,
      "step": 40660
    },
    {
      "epoch": 6.05674709562109,
      "grad_norm": 9.26700210571289,
      "learning_rate": 4.399143901123981e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 23601560,
      "step": 40665
    },
    {
      "epoch": 6.057491808162049,
      "grad_norm": 0.18779265880584717,
      "learning_rate": 4.398932567635059e-05,
      "loss": 0.0473,
      "num_input_tokens_seen": 23604472,
      "step": 40670
    },
    {
      "epoch": 6.058236520703009,
      "grad_norm": 28.477210998535156,
      "learning_rate": 4.398721202065602e-05,
      "loss": 0.1291,
      "num_input_tokens_seen": 23607320,
      "step": 40675
    },
    {
      "epoch": 6.058981233243967,
      "grad_norm": 0.2451891452074051,
      "learning_rate": 4.398509804419179e-05,
      "loss": 0.1136,
      "num_input_tokens_seen": 23610136,
      "step": 40680
    },
    {
      "epoch": 6.059725945784927,
      "grad_norm": 18.317808151245117,
      "learning_rate": 4.3982983746993636e-05,
      "loss": 0.1206,
      "num_input_tokens_seen": 23613080,
      "step": 40685
    },
    {
      "epoch": 6.060470658325886,
      "grad_norm": 22.96356964111328,
      "learning_rate": 4.398086912909726e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 23616312,
      "step": 40690
    },
    {
      "epoch": 6.0612153708668455,
      "grad_norm": 16.364538192749023,
      "learning_rate": 4.397875419053838e-05,
      "loss": 0.2734,
      "num_input_tokens_seen": 23619224,
      "step": 40695
    },
    {
      "epoch": 6.061960083407804,
      "grad_norm": 18.510196685791016,
      "learning_rate": 4.397663893135275e-05,
      "loss": 0.0947,
      "num_input_tokens_seen": 23622456,
      "step": 40700
    },
    {
      "epoch": 6.062704795948764,
      "grad_norm": 15.447555541992188,
      "learning_rate": 4.397452335157609e-05,
      "loss": 0.1455,
      "num_input_tokens_seen": 23625272,
      "step": 40705
    },
    {
      "epoch": 6.063449508489723,
      "grad_norm": 1.2702052593231201,
      "learning_rate": 4.397240745124414e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 23628216,
      "step": 40710
    },
    {
      "epoch": 6.064194221030682,
      "grad_norm": 72.2334976196289,
      "learning_rate": 4.397029123039266e-05,
      "loss": 0.0751,
      "num_input_tokens_seen": 23630872,
      "step": 40715
    },
    {
      "epoch": 6.064938933571641,
      "grad_norm": 58.09873580932617,
      "learning_rate": 4.396817468905738e-05,
      "loss": 0.4063,
      "num_input_tokens_seen": 23633720,
      "step": 40720
    },
    {
      "epoch": 6.065683646112601,
      "grad_norm": 162.61651611328125,
      "learning_rate": 4.396605782727406e-05,
      "loss": 0.5048,
      "num_input_tokens_seen": 23636888,
      "step": 40725
    },
    {
      "epoch": 6.0664283586535594,
      "grad_norm": 0.15391622483730316,
      "learning_rate": 4.3963940645078484e-05,
      "loss": 0.0413,
      "num_input_tokens_seen": 23639768,
      "step": 40730
    },
    {
      "epoch": 6.067173071194519,
      "grad_norm": 46.15802764892578,
      "learning_rate": 4.3961823142506395e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 23642904,
      "step": 40735
    },
    {
      "epoch": 6.067917783735478,
      "grad_norm": 71.9757308959961,
      "learning_rate": 4.395970531959358e-05,
      "loss": 0.2218,
      "num_input_tokens_seen": 23645528,
      "step": 40740
    },
    {
      "epoch": 6.0686624962764375,
      "grad_norm": 54.01708984375,
      "learning_rate": 4.395758717637581e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 23648664,
      "step": 40745
    },
    {
      "epoch": 6.069407208817396,
      "grad_norm": 0.10651817172765732,
      "learning_rate": 4.3955468712888884e-05,
      "loss": 0.1269,
      "num_input_tokens_seen": 23651672,
      "step": 40750
    },
    {
      "epoch": 6.070151921358356,
      "grad_norm": 0.18506896495819092,
      "learning_rate": 4.395334992916857e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 23654776,
      "step": 40755
    },
    {
      "epoch": 6.070896633899315,
      "grad_norm": 0.18009452521800995,
      "learning_rate": 4.395123082525067e-05,
      "loss": 0.2856,
      "num_input_tokens_seen": 23657688,
      "step": 40760
    },
    {
      "epoch": 6.071641346440274,
      "grad_norm": 6.731750011444092,
      "learning_rate": 4.394911140117099e-05,
      "loss": 0.1367,
      "num_input_tokens_seen": 23660408,
      "step": 40765
    },
    {
      "epoch": 6.072386058981233,
      "grad_norm": 40.009979248046875,
      "learning_rate": 4.3946991656965334e-05,
      "loss": 0.2226,
      "num_input_tokens_seen": 23663288,
      "step": 40770
    },
    {
      "epoch": 6.073130771522193,
      "grad_norm": 16.444503784179688,
      "learning_rate": 4.394487159266951e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 23666136,
      "step": 40775
    },
    {
      "epoch": 6.0738754840631515,
      "grad_norm": 4.930080890655518,
      "learning_rate": 4.394275120831933e-05,
      "loss": 0.2651,
      "num_input_tokens_seen": 23669112,
      "step": 40780
    },
    {
      "epoch": 6.074620196604111,
      "grad_norm": 0.0483749657869339,
      "learning_rate": 4.394063050395063e-05,
      "loss": 0.0598,
      "num_input_tokens_seen": 23672184,
      "step": 40785
    },
    {
      "epoch": 6.07536490914507,
      "grad_norm": 8.094442367553711,
      "learning_rate": 4.393850947959922e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 23675288,
      "step": 40790
    },
    {
      "epoch": 6.0761096216860295,
      "grad_norm": 0.0450853556394577,
      "learning_rate": 4.3936388135300946e-05,
      "loss": 0.0852,
      "num_input_tokens_seen": 23678040,
      "step": 40795
    },
    {
      "epoch": 6.076854334226988,
      "grad_norm": 0.014386417344212532,
      "learning_rate": 4.3934266471091635e-05,
      "loss": 0.061,
      "num_input_tokens_seen": 23680984,
      "step": 40800
    },
    {
      "epoch": 6.077599046767948,
      "grad_norm": 7.653378486633301,
      "learning_rate": 4.393214448700713e-05,
      "loss": 0.0379,
      "num_input_tokens_seen": 23683896,
      "step": 40805
    },
    {
      "epoch": 6.078343759308907,
      "grad_norm": 23.313709259033203,
      "learning_rate": 4.39300221830833e-05,
      "loss": 0.1791,
      "num_input_tokens_seen": 23686680,
      "step": 40810
    },
    {
      "epoch": 6.079088471849866,
      "grad_norm": 0.015460316091775894,
      "learning_rate": 4.392789955935598e-05,
      "loss": 0.3985,
      "num_input_tokens_seen": 23689592,
      "step": 40815
    },
    {
      "epoch": 6.079833184390825,
      "grad_norm": 47.09079360961914,
      "learning_rate": 4.3925776615861034e-05,
      "loss": 0.2497,
      "num_input_tokens_seen": 23692568,
      "step": 40820
    },
    {
      "epoch": 6.080577896931785,
      "grad_norm": 3.7903382778167725,
      "learning_rate": 4.392365335263432e-05,
      "loss": 0.1313,
      "num_input_tokens_seen": 23695800,
      "step": 40825
    },
    {
      "epoch": 6.0813226094727435,
      "grad_norm": 32.05513000488281,
      "learning_rate": 4.392152976971173e-05,
      "loss": 0.1926,
      "num_input_tokens_seen": 23698872,
      "step": 40830
    },
    {
      "epoch": 6.082067322013703,
      "grad_norm": 0.13415665924549103,
      "learning_rate": 4.3919405867129114e-05,
      "loss": 0.0903,
      "num_input_tokens_seen": 23701592,
      "step": 40835
    },
    {
      "epoch": 6.082812034554662,
      "grad_norm": 0.0329781174659729,
      "learning_rate": 4.391728164492237e-05,
      "loss": 0.0829,
      "num_input_tokens_seen": 23704216,
      "step": 40840
    },
    {
      "epoch": 6.083556747095621,
      "grad_norm": 0.0443892665207386,
      "learning_rate": 4.391515710312738e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 23707160,
      "step": 40845
    },
    {
      "epoch": 6.08430145963658,
      "grad_norm": 1.058644413948059,
      "learning_rate": 4.391303224178003e-05,
      "loss": 0.2967,
      "num_input_tokens_seen": 23710264,
      "step": 40850
    },
    {
      "epoch": 6.085046172177539,
      "grad_norm": 0.009142720140516758,
      "learning_rate": 4.391090706091623e-05,
      "loss": 0.1254,
      "num_input_tokens_seen": 23713240,
      "step": 40855
    },
    {
      "epoch": 6.085790884718499,
      "grad_norm": 9.33178424835205,
      "learning_rate": 4.390878156057186e-05,
      "loss": 0.2803,
      "num_input_tokens_seen": 23716376,
      "step": 40860
    },
    {
      "epoch": 6.0865355972594575,
      "grad_norm": 138.87486267089844,
      "learning_rate": 4.390665574078286e-05,
      "loss": 0.6037,
      "num_input_tokens_seen": 23719128,
      "step": 40865
    },
    {
      "epoch": 6.087280309800417,
      "grad_norm": 70.83161163330078,
      "learning_rate": 4.390452960158512e-05,
      "loss": 0.2048,
      "num_input_tokens_seen": 23722040,
      "step": 40870
    },
    {
      "epoch": 6.088025022341376,
      "grad_norm": 0.061487358063459396,
      "learning_rate": 4.390240314301457e-05,
      "loss": 0.0177,
      "num_input_tokens_seen": 23725016,
      "step": 40875
    },
    {
      "epoch": 6.0887697348823355,
      "grad_norm": 9.963239669799805,
      "learning_rate": 4.3900276365107126e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 23727928,
      "step": 40880
    },
    {
      "epoch": 6.089514447423294,
      "grad_norm": 0.13819704949855804,
      "learning_rate": 4.3898149267898727e-05,
      "loss": 0.2224,
      "num_input_tokens_seen": 23730744,
      "step": 40885
    },
    {
      "epoch": 6.090259159964254,
      "grad_norm": 21.11104393005371,
      "learning_rate": 4.3896021851425306e-05,
      "loss": 0.2815,
      "num_input_tokens_seen": 23733688,
      "step": 40890
    },
    {
      "epoch": 6.091003872505213,
      "grad_norm": 30.802852630615234,
      "learning_rate": 4.389389411572279e-05,
      "loss": 0.3335,
      "num_input_tokens_seen": 23736472,
      "step": 40895
    },
    {
      "epoch": 6.091748585046172,
      "grad_norm": 0.08090655505657196,
      "learning_rate": 4.389176606082714e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 23739832,
      "step": 40900
    },
    {
      "epoch": 6.092493297587131,
      "grad_norm": 10.517230987548828,
      "learning_rate": 4.388963768677431e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 23742328,
      "step": 40905
    },
    {
      "epoch": 6.093238010128091,
      "grad_norm": 25.744047164916992,
      "learning_rate": 4.388750899360025e-05,
      "loss": 0.2073,
      "num_input_tokens_seen": 23745400,
      "step": 40910
    },
    {
      "epoch": 6.0939827226690495,
      "grad_norm": 22.29070281982422,
      "learning_rate": 4.3885379981340905e-05,
      "loss": 0.0778,
      "num_input_tokens_seen": 23748312,
      "step": 40915
    },
    {
      "epoch": 6.094727435210009,
      "grad_norm": 5.222284317016602,
      "learning_rate": 4.388325065003228e-05,
      "loss": 0.2101,
      "num_input_tokens_seen": 23751032,
      "step": 40920
    },
    {
      "epoch": 6.095472147750968,
      "grad_norm": 56.248836517333984,
      "learning_rate": 4.3881120999710315e-05,
      "loss": 0.4509,
      "num_input_tokens_seen": 23753784,
      "step": 40925
    },
    {
      "epoch": 6.0962168602919276,
      "grad_norm": 0.3471278250217438,
      "learning_rate": 4.3878991030411e-05,
      "loss": 0.0315,
      "num_input_tokens_seen": 23756696,
      "step": 40930
    },
    {
      "epoch": 6.096961572832886,
      "grad_norm": 0.30416104197502136,
      "learning_rate": 4.387686074217032e-05,
      "loss": 0.2838,
      "num_input_tokens_seen": 23759448,
      "step": 40935
    },
    {
      "epoch": 6.097706285373846,
      "grad_norm": 19.785133361816406,
      "learning_rate": 4.387473013502427e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 23762232,
      "step": 40940
    },
    {
      "epoch": 6.098450997914805,
      "grad_norm": 0.31535759568214417,
      "learning_rate": 4.387259920900884e-05,
      "loss": 0.3045,
      "num_input_tokens_seen": 23765304,
      "step": 40945
    },
    {
      "epoch": 6.099195710455764,
      "grad_norm": 8.008661270141602,
      "learning_rate": 4.3870467964160015e-05,
      "loss": 0.2197,
      "num_input_tokens_seen": 23768152,
      "step": 40950
    },
    {
      "epoch": 6.099940422996723,
      "grad_norm": 32.439483642578125,
      "learning_rate": 4.3868336400513823e-05,
      "loss": 0.2701,
      "num_input_tokens_seen": 23771000,
      "step": 40955
    },
    {
      "epoch": 6.100685135537683,
      "grad_norm": 12.306802749633789,
      "learning_rate": 4.386620451810626e-05,
      "loss": 0.2087,
      "num_input_tokens_seen": 23773784,
      "step": 40960
    },
    {
      "epoch": 6.1014298480786415,
      "grad_norm": 0.16065537929534912,
      "learning_rate": 4.3864072316973345e-05,
      "loss": 0.0262,
      "num_input_tokens_seen": 23776472,
      "step": 40965
    },
    {
      "epoch": 6.102174560619601,
      "grad_norm": 8.424428939819336,
      "learning_rate": 4.386193979715111e-05,
      "loss": 0.2638,
      "num_input_tokens_seen": 23779288,
      "step": 40970
    },
    {
      "epoch": 6.10291927316056,
      "grad_norm": 0.027464477345347404,
      "learning_rate": 4.385980695867556e-05,
      "loss": 0.2686,
      "num_input_tokens_seen": 23782008,
      "step": 40975
    },
    {
      "epoch": 6.10366398570152,
      "grad_norm": 2.0629971027374268,
      "learning_rate": 4.385767380158275e-05,
      "loss": 0.2614,
      "num_input_tokens_seen": 23784760,
      "step": 40980
    },
    {
      "epoch": 6.104408698242478,
      "grad_norm": 24.600332260131836,
      "learning_rate": 4.38555403259087e-05,
      "loss": 0.1319,
      "num_input_tokens_seen": 23787672,
      "step": 40985
    },
    {
      "epoch": 6.105153410783438,
      "grad_norm": 0.41824769973754883,
      "learning_rate": 4.3853406531689465e-05,
      "loss": 0.1515,
      "num_input_tokens_seen": 23790648,
      "step": 40990
    },
    {
      "epoch": 6.105898123324397,
      "grad_norm": 58.79763412475586,
      "learning_rate": 4.3851272418961085e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 23793496,
      "step": 40995
    },
    {
      "epoch": 6.106642835865356,
      "grad_norm": 0.20017924904823303,
      "learning_rate": 4.384913798775962e-05,
      "loss": 0.0845,
      "num_input_tokens_seen": 23796152,
      "step": 41000
    },
    {
      "epoch": 6.107387548406315,
      "grad_norm": 22.904386520385742,
      "learning_rate": 4.384700323812112e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 23798712,
      "step": 41005
    },
    {
      "epoch": 6.108132260947274,
      "grad_norm": 0.06307469308376312,
      "learning_rate": 4.3844868170081665e-05,
      "loss": 0.0149,
      "num_input_tokens_seen": 23801496,
      "step": 41010
    },
    {
      "epoch": 6.1088769734882336,
      "grad_norm": 0.9376562833786011,
      "learning_rate": 4.384273278367731e-05,
      "loss": 0.2389,
      "num_input_tokens_seen": 23804408,
      "step": 41015
    },
    {
      "epoch": 6.109621686029192,
      "grad_norm": 45.39823913574219,
      "learning_rate": 4.3840597078944135e-05,
      "loss": 0.3555,
      "num_input_tokens_seen": 23807160,
      "step": 41020
    },
    {
      "epoch": 6.110366398570152,
      "grad_norm": 146.58993530273438,
      "learning_rate": 4.3838461055918226e-05,
      "loss": 0.2751,
      "num_input_tokens_seen": 23810104,
      "step": 41025
    },
    {
      "epoch": 6.111111111111111,
      "grad_norm": 0.007595906965434551,
      "learning_rate": 4.383632471463566e-05,
      "loss": 0.0477,
      "num_input_tokens_seen": 23813048,
      "step": 41030
    },
    {
      "epoch": 6.11185582365207,
      "grad_norm": 0.007782097440212965,
      "learning_rate": 4.383418805513253e-05,
      "loss": 0.082,
      "num_input_tokens_seen": 23815960,
      "step": 41035
    },
    {
      "epoch": 6.112600536193029,
      "grad_norm": 0.009610513225197792,
      "learning_rate": 4.3832051077444937e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 23818616,
      "step": 41040
    },
    {
      "epoch": 6.113345248733989,
      "grad_norm": 13.002264022827148,
      "learning_rate": 4.382991378160898e-05,
      "loss": 0.3933,
      "num_input_tokens_seen": 23821880,
      "step": 41045
    },
    {
      "epoch": 6.1140899612749475,
      "grad_norm": 3.9189066886901855,
      "learning_rate": 4.3827776167660775e-05,
      "loss": 0.1012,
      "num_input_tokens_seen": 23824792,
      "step": 41050
    },
    {
      "epoch": 6.114834673815907,
      "grad_norm": 28.03483009338379,
      "learning_rate": 4.382563823563642e-05,
      "loss": 0.2803,
      "num_input_tokens_seen": 23827672,
      "step": 41055
    },
    {
      "epoch": 6.115579386356866,
      "grad_norm": 9.533242225646973,
      "learning_rate": 4.382349998557204e-05,
      "loss": 0.145,
      "num_input_tokens_seen": 23830712,
      "step": 41060
    },
    {
      "epoch": 6.116324098897826,
      "grad_norm": 13.65128231048584,
      "learning_rate": 4.382136141750376e-05,
      "loss": 0.0085,
      "num_input_tokens_seen": 23833560,
      "step": 41065
    },
    {
      "epoch": 6.117068811438784,
      "grad_norm": 6.234966278076172,
      "learning_rate": 4.381922253146771e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 23836472,
      "step": 41070
    },
    {
      "epoch": 6.117813523979744,
      "grad_norm": 39.76869583129883,
      "learning_rate": 4.381708332750002e-05,
      "loss": 0.6665,
      "num_input_tokens_seen": 23839608,
      "step": 41075
    },
    {
      "epoch": 6.118558236520703,
      "grad_norm": 18.185075759887695,
      "learning_rate": 4.381494380563683e-05,
      "loss": 0.1611,
      "num_input_tokens_seen": 23842360,
      "step": 41080
    },
    {
      "epoch": 6.119302949061662,
      "grad_norm": 0.060450296849012375,
      "learning_rate": 4.3812803965914296e-05,
      "loss": 0.2381,
      "num_input_tokens_seen": 23845080,
      "step": 41085
    },
    {
      "epoch": 6.120047661602621,
      "grad_norm": 4.382379055023193,
      "learning_rate": 4.381066380836855e-05,
      "loss": 0.1858,
      "num_input_tokens_seen": 23848184,
      "step": 41090
    },
    {
      "epoch": 6.120792374143581,
      "grad_norm": 0.2018953263759613,
      "learning_rate": 4.380852333303576e-05,
      "loss": 0.2807,
      "num_input_tokens_seen": 23851032,
      "step": 41095
    },
    {
      "epoch": 6.1215370866845396,
      "grad_norm": 0.5168042182922363,
      "learning_rate": 4.380638253995209e-05,
      "loss": 0.0411,
      "num_input_tokens_seen": 23854072,
      "step": 41100
    },
    {
      "epoch": 6.122281799225499,
      "grad_norm": 0.5204839706420898,
      "learning_rate": 4.380424142915369e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 23856920,
      "step": 41105
    },
    {
      "epoch": 6.123026511766458,
      "grad_norm": 0.02551897242665291,
      "learning_rate": 4.380210000067675e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 23859768,
      "step": 41110
    },
    {
      "epoch": 6.123771224307418,
      "grad_norm": 12.40012264251709,
      "learning_rate": 4.379995825455744e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 23862712,
      "step": 41115
    },
    {
      "epoch": 6.124515936848376,
      "grad_norm": 22.04653549194336,
      "learning_rate": 4.379781619083195e-05,
      "loss": 0.177,
      "num_input_tokens_seen": 23865624,
      "step": 41120
    },
    {
      "epoch": 6.125260649389336,
      "grad_norm": 5.5290608406066895,
      "learning_rate": 4.379567380953645e-05,
      "loss": 0.1068,
      "num_input_tokens_seen": 23868728,
      "step": 41125
    },
    {
      "epoch": 6.126005361930295,
      "grad_norm": 132.2743682861328,
      "learning_rate": 4.3793531110707143e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 23871736,
      "step": 41130
    },
    {
      "epoch": 6.126750074471254,
      "grad_norm": 13.75870418548584,
      "learning_rate": 4.3791388094380236e-05,
      "loss": 0.067,
      "num_input_tokens_seen": 23874680,
      "step": 41135
    },
    {
      "epoch": 6.127494787012213,
      "grad_norm": 0.014797705225646496,
      "learning_rate": 4.378924476059192e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 23878008,
      "step": 41140
    },
    {
      "epoch": 6.128239499553173,
      "grad_norm": 18.549970626831055,
      "learning_rate": 4.378710110937842e-05,
      "loss": 0.1495,
      "num_input_tokens_seen": 23881176,
      "step": 41145
    },
    {
      "epoch": 6.128984212094132,
      "grad_norm": 0.6442628502845764,
      "learning_rate": 4.378495714077593e-05,
      "loss": 0.3348,
      "num_input_tokens_seen": 23883992,
      "step": 41150
    },
    {
      "epoch": 6.129728924635091,
      "grad_norm": 8.792030334472656,
      "learning_rate": 4.3782812854820687e-05,
      "loss": 0.2999,
      "num_input_tokens_seen": 23886680,
      "step": 41155
    },
    {
      "epoch": 6.13047363717605,
      "grad_norm": 56.824073791503906,
      "learning_rate": 4.378066825154891e-05,
      "loss": 0.1134,
      "num_input_tokens_seen": 23889720,
      "step": 41160
    },
    {
      "epoch": 6.13121834971701,
      "grad_norm": 0.021767525002360344,
      "learning_rate": 4.3778523330996824e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 23892696,
      "step": 41165
    },
    {
      "epoch": 6.131963062257968,
      "grad_norm": 12.552759170532227,
      "learning_rate": 4.377637809320068e-05,
      "loss": 0.2955,
      "num_input_tokens_seen": 23895608,
      "step": 41170
    },
    {
      "epoch": 6.132707774798928,
      "grad_norm": 0.011027450673282146,
      "learning_rate": 4.377423253819671e-05,
      "loss": 0.2226,
      "num_input_tokens_seen": 23898776,
      "step": 41175
    },
    {
      "epoch": 6.133452487339887,
      "grad_norm": 0.14591163396835327,
      "learning_rate": 4.377208666602116e-05,
      "loss": 0.1091,
      "num_input_tokens_seen": 23901432,
      "step": 41180
    },
    {
      "epoch": 6.134197199880846,
      "grad_norm": 0.045408543199300766,
      "learning_rate": 4.3769940476710284e-05,
      "loss": 0.1868,
      "num_input_tokens_seen": 23904248,
      "step": 41185
    },
    {
      "epoch": 6.134941912421805,
      "grad_norm": 0.4188699424266815,
      "learning_rate": 4.376779397030034e-05,
      "loss": 0.3398,
      "num_input_tokens_seen": 23907160,
      "step": 41190
    },
    {
      "epoch": 6.135686624962764,
      "grad_norm": 1.1071468591690063,
      "learning_rate": 4.376564714682761e-05,
      "loss": 0.4888,
      "num_input_tokens_seen": 23910456,
      "step": 41195
    },
    {
      "epoch": 6.136431337503724,
      "grad_norm": 2.060242176055908,
      "learning_rate": 4.376350000632832e-05,
      "loss": 0.0744,
      "num_input_tokens_seen": 23913464,
      "step": 41200
    },
    {
      "epoch": 6.137176050044682,
      "grad_norm": 35.37512969970703,
      "learning_rate": 4.376135254883877e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 23916568,
      "step": 41205
    },
    {
      "epoch": 6.137920762585642,
      "grad_norm": 5.880462646484375,
      "learning_rate": 4.375920477439525e-05,
      "loss": 0.1598,
      "num_input_tokens_seen": 23919736,
      "step": 41210
    },
    {
      "epoch": 6.138665475126601,
      "grad_norm": 0.7197878956794739,
      "learning_rate": 4.375705668303403e-05,
      "loss": 0.3433,
      "num_input_tokens_seen": 23922424,
      "step": 41215
    },
    {
      "epoch": 6.13941018766756,
      "grad_norm": 0.23924261331558228,
      "learning_rate": 4.37549082747914e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 23925432,
      "step": 41220
    },
    {
      "epoch": 6.140154900208519,
      "grad_norm": 0.056557320058345795,
      "learning_rate": 4.375275954970364e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 23928376,
      "step": 41225
    },
    {
      "epoch": 6.140899612749479,
      "grad_norm": 16.444856643676758,
      "learning_rate": 4.3750610507807075e-05,
      "loss": 0.4957,
      "num_input_tokens_seen": 23931000,
      "step": 41230
    },
    {
      "epoch": 6.141644325290438,
      "grad_norm": 0.053796958178281784,
      "learning_rate": 4.3748461149138016e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 23933688,
      "step": 41235
    },
    {
      "epoch": 6.142389037831397,
      "grad_norm": 0.040395643562078476,
      "learning_rate": 4.374631147373275e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 23936344,
      "step": 41240
    },
    {
      "epoch": 6.143133750372356,
      "grad_norm": 14.216675758361816,
      "learning_rate": 4.374416148162761e-05,
      "loss": 0.2526,
      "num_input_tokens_seen": 23939576,
      "step": 41245
    },
    {
      "epoch": 6.143878462913316,
      "grad_norm": 24.857519149780273,
      "learning_rate": 4.374201117285891e-05,
      "loss": 0.1339,
      "num_input_tokens_seen": 23942392,
      "step": 41250
    },
    {
      "epoch": 6.144623175454274,
      "grad_norm": 28.669597625732422,
      "learning_rate": 4.3739860547462976e-05,
      "loss": 0.3892,
      "num_input_tokens_seen": 23945400,
      "step": 41255
    },
    {
      "epoch": 6.145367887995234,
      "grad_norm": 30.385478973388672,
      "learning_rate": 4.373770960547614e-05,
      "loss": 0.2129,
      "num_input_tokens_seen": 23948312,
      "step": 41260
    },
    {
      "epoch": 6.146112600536193,
      "grad_norm": 0.024138089269399643,
      "learning_rate": 4.3735558346934755e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 23951064,
      "step": 41265
    },
    {
      "epoch": 6.146857313077152,
      "grad_norm": 15.737265586853027,
      "learning_rate": 4.373340677187515e-05,
      "loss": 0.2826,
      "num_input_tokens_seen": 23953976,
      "step": 41270
    },
    {
      "epoch": 6.147602025618111,
      "grad_norm": 14.027080535888672,
      "learning_rate": 4.373125488033368e-05,
      "loss": 0.1006,
      "num_input_tokens_seen": 23956632,
      "step": 41275
    },
    {
      "epoch": 6.148346738159071,
      "grad_norm": 0.3916264474391937,
      "learning_rate": 4.372910267234669e-05,
      "loss": 0.1201,
      "num_input_tokens_seen": 23959640,
      "step": 41280
    },
    {
      "epoch": 6.14909145070003,
      "grad_norm": 52.44602584838867,
      "learning_rate": 4.3726950147950554e-05,
      "loss": 0.1086,
      "num_input_tokens_seen": 23962328,
      "step": 41285
    },
    {
      "epoch": 6.149836163240989,
      "grad_norm": 74.3421859741211,
      "learning_rate": 4.372479730718162e-05,
      "loss": 0.1766,
      "num_input_tokens_seen": 23965144,
      "step": 41290
    },
    {
      "epoch": 6.150580875781948,
      "grad_norm": 39.177268981933594,
      "learning_rate": 4.3722644150076275e-05,
      "loss": 0.0621,
      "num_input_tokens_seen": 23968088,
      "step": 41295
    },
    {
      "epoch": 6.151325588322908,
      "grad_norm": 29.43288230895996,
      "learning_rate": 4.3720490676670886e-05,
      "loss": 0.375,
      "num_input_tokens_seen": 23970680,
      "step": 41300
    },
    {
      "epoch": 6.152070300863866,
      "grad_norm": 7.3230085372924805,
      "learning_rate": 4.371833688700182e-05,
      "loss": 0.2782,
      "num_input_tokens_seen": 23973688,
      "step": 41305
    },
    {
      "epoch": 6.152815013404826,
      "grad_norm": 11.093733787536621,
      "learning_rate": 4.3716182781105484e-05,
      "loss": 0.0318,
      "num_input_tokens_seen": 23976696,
      "step": 41310
    },
    {
      "epoch": 6.153559725945785,
      "grad_norm": 3.1630210876464844,
      "learning_rate": 4.3714028359018274e-05,
      "loss": 0.325,
      "num_input_tokens_seen": 23979736,
      "step": 41315
    },
    {
      "epoch": 6.1543044384867445,
      "grad_norm": 1.2082797288894653,
      "learning_rate": 4.3711873620776566e-05,
      "loss": 0.0342,
      "num_input_tokens_seen": 23982680,
      "step": 41320
    },
    {
      "epoch": 6.155049151027703,
      "grad_norm": 0.1398380845785141,
      "learning_rate": 4.370971856641677e-05,
      "loss": 0.1987,
      "num_input_tokens_seen": 23985720,
      "step": 41325
    },
    {
      "epoch": 6.155793863568663,
      "grad_norm": 20.77555274963379,
      "learning_rate": 4.3707563195975296e-05,
      "loss": 0.2042,
      "num_input_tokens_seen": 23988792,
      "step": 41330
    },
    {
      "epoch": 6.156538576109622,
      "grad_norm": 0.36338141560554504,
      "learning_rate": 4.370540750948855e-05,
      "loss": 0.217,
      "num_input_tokens_seen": 23992376,
      "step": 41335
    },
    {
      "epoch": 6.157283288650581,
      "grad_norm": 2.2741599082946777,
      "learning_rate": 4.370325150699296e-05,
      "loss": 0.1236,
      "num_input_tokens_seen": 23995384,
      "step": 41340
    },
    {
      "epoch": 6.15802800119154,
      "grad_norm": 0.026695428416132927,
      "learning_rate": 4.3701095188524943e-05,
      "loss": 0.0743,
      "num_input_tokens_seen": 23998104,
      "step": 41345
    },
    {
      "epoch": 6.1587727137325,
      "grad_norm": 0.2546427249908447,
      "learning_rate": 4.369893855412093e-05,
      "loss": 0.0367,
      "num_input_tokens_seen": 24000888,
      "step": 41350
    },
    {
      "epoch": 6.159517426273458,
      "grad_norm": 0.03254474326968193,
      "learning_rate": 4.369678160381736e-05,
      "loss": 0.3579,
      "num_input_tokens_seen": 24003928,
      "step": 41355
    },
    {
      "epoch": 6.160262138814417,
      "grad_norm": 26.99081039428711,
      "learning_rate": 4.3694624337650656e-05,
      "loss": 0.1267,
      "num_input_tokens_seen": 24007128,
      "step": 41360
    },
    {
      "epoch": 6.161006851355377,
      "grad_norm": 105.36786651611328,
      "learning_rate": 4.369246675565729e-05,
      "loss": 0.1019,
      "num_input_tokens_seen": 24010104,
      "step": 41365
    },
    {
      "epoch": 6.161751563896336,
      "grad_norm": 25.69533920288086,
      "learning_rate": 4.369030885787369e-05,
      "loss": 0.1748,
      "num_input_tokens_seen": 24013208,
      "step": 41370
    },
    {
      "epoch": 6.162496276437295,
      "grad_norm": 11.924317359924316,
      "learning_rate": 4.368815064433631e-05,
      "loss": 0.116,
      "num_input_tokens_seen": 24016184,
      "step": 41375
    },
    {
      "epoch": 6.163240988978254,
      "grad_norm": 0.09481105953454971,
      "learning_rate": 4.368599211508162e-05,
      "loss": 0.5498,
      "num_input_tokens_seen": 24018936,
      "step": 41380
    },
    {
      "epoch": 6.163985701519214,
      "grad_norm": 0.30813291668891907,
      "learning_rate": 4.3683833270146095e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 24021816,
      "step": 41385
    },
    {
      "epoch": 6.164730414060172,
      "grad_norm": 30.059865951538086,
      "learning_rate": 4.368167410956619e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 24024408,
      "step": 41390
    },
    {
      "epoch": 6.165475126601132,
      "grad_norm": 54.97645568847656,
      "learning_rate": 4.367951463337839e-05,
      "loss": 0.2176,
      "num_input_tokens_seen": 24027320,
      "step": 41395
    },
    {
      "epoch": 6.166219839142091,
      "grad_norm": 58.001834869384766,
      "learning_rate": 4.367735484161918e-05,
      "loss": 0.0491,
      "num_input_tokens_seen": 24030072,
      "step": 41400
    },
    {
      "epoch": 6.1669645516830505,
      "grad_norm": 0.18747635185718536,
      "learning_rate": 4.367519473432503e-05,
      "loss": 0.0898,
      "num_input_tokens_seen": 24032952,
      "step": 41405
    },
    {
      "epoch": 6.167709264224009,
      "grad_norm": 21.852428436279297,
      "learning_rate": 4.367303431153245e-05,
      "loss": 0.2216,
      "num_input_tokens_seen": 24035640,
      "step": 41410
    },
    {
      "epoch": 6.168453976764969,
      "grad_norm": 0.5218592286109924,
      "learning_rate": 4.367087357327794e-05,
      "loss": 0.1233,
      "num_input_tokens_seen": 24038392,
      "step": 41415
    },
    {
      "epoch": 6.169198689305928,
      "grad_norm": 34.6694221496582,
      "learning_rate": 4.366871251959799e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 24041304,
      "step": 41420
    },
    {
      "epoch": 6.169943401846887,
      "grad_norm": 14.357034683227539,
      "learning_rate": 4.3666551150529124e-05,
      "loss": 0.3031,
      "num_input_tokens_seen": 24044056,
      "step": 41425
    },
    {
      "epoch": 6.170688114387846,
      "grad_norm": 2.8476452827453613,
      "learning_rate": 4.366438946610784e-05,
      "loss": 0.2586,
      "num_input_tokens_seen": 24047128,
      "step": 41430
    },
    {
      "epoch": 6.171432826928806,
      "grad_norm": 0.01582277938723564,
      "learning_rate": 4.366222746637067e-05,
      "loss": 0.5062,
      "num_input_tokens_seen": 24049912,
      "step": 41435
    },
    {
      "epoch": 6.172177539469764,
      "grad_norm": 0.23870030045509338,
      "learning_rate": 4.366006515135413e-05,
      "loss": 0.1388,
      "num_input_tokens_seen": 24052920,
      "step": 41440
    },
    {
      "epoch": 6.172922252010724,
      "grad_norm": 0.07179134339094162,
      "learning_rate": 4.3657902521094764e-05,
      "loss": 0.3083,
      "num_input_tokens_seen": 24055832,
      "step": 41445
    },
    {
      "epoch": 6.173666964551683,
      "grad_norm": 32.24616622924805,
      "learning_rate": 4.365573957562909e-05,
      "loss": 0.4213,
      "num_input_tokens_seen": 24058616,
      "step": 41450
    },
    {
      "epoch": 6.1744116770926425,
      "grad_norm": 0.23943594098091125,
      "learning_rate": 4.365357631499366e-05,
      "loss": 0.0612,
      "num_input_tokens_seen": 24061560,
      "step": 41455
    },
    {
      "epoch": 6.175156389633601,
      "grad_norm": 0.2396138608455658,
      "learning_rate": 4.365141273922502e-05,
      "loss": 0.0451,
      "num_input_tokens_seen": 24064760,
      "step": 41460
    },
    {
      "epoch": 6.175901102174561,
      "grad_norm": 0.11509497463703156,
      "learning_rate": 4.3649248848359706e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 24067736,
      "step": 41465
    },
    {
      "epoch": 6.17664581471552,
      "grad_norm": 69.92153930664062,
      "learning_rate": 4.36470846424343e-05,
      "loss": 0.4189,
      "num_input_tokens_seen": 24070616,
      "step": 41470
    },
    {
      "epoch": 6.177390527256479,
      "grad_norm": 0.9514132142066956,
      "learning_rate": 4.364492012148534e-05,
      "loss": 0.0864,
      "num_input_tokens_seen": 24073432,
      "step": 41475
    },
    {
      "epoch": 6.178135239797438,
      "grad_norm": 20.565305709838867,
      "learning_rate": 4.364275528554941e-05,
      "loss": 0.3325,
      "num_input_tokens_seen": 24076536,
      "step": 41480
    },
    {
      "epoch": 6.178879952338398,
      "grad_norm": 0.8868763446807861,
      "learning_rate": 4.3640590134663076e-05,
      "loss": 0.2665,
      "num_input_tokens_seen": 24079512,
      "step": 41485
    },
    {
      "epoch": 6.1796246648793565,
      "grad_norm": 26.91924476623535,
      "learning_rate": 4.363842466886292e-05,
      "loss": 0.3207,
      "num_input_tokens_seen": 24082392,
      "step": 41490
    },
    {
      "epoch": 6.180369377420316,
      "grad_norm": 41.29258728027344,
      "learning_rate": 4.363625888818552e-05,
      "loss": 0.2142,
      "num_input_tokens_seen": 24085272,
      "step": 41495
    },
    {
      "epoch": 6.181114089961275,
      "grad_norm": 6.549929141998291,
      "learning_rate": 4.363409279266747e-05,
      "loss": 0.1112,
      "num_input_tokens_seen": 24088184,
      "step": 41500
    },
    {
      "epoch": 6.1818588025022345,
      "grad_norm": 0.09225328266620636,
      "learning_rate": 4.3631926382345356e-05,
      "loss": 0.2629,
      "num_input_tokens_seen": 24091000,
      "step": 41505
    },
    {
      "epoch": 6.182603515043193,
      "grad_norm": 0.025371089577674866,
      "learning_rate": 4.3629759657255786e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 24093784,
      "step": 41510
    },
    {
      "epoch": 6.183348227584153,
      "grad_norm": 18.673564910888672,
      "learning_rate": 4.3627592617435363e-05,
      "loss": 0.0183,
      "num_input_tokens_seen": 24096344,
      "step": 41515
    },
    {
      "epoch": 6.184092940125112,
      "grad_norm": 0.009831004776060581,
      "learning_rate": 4.362542526292069e-05,
      "loss": 0.2042,
      "num_input_tokens_seen": 24099192,
      "step": 41520
    },
    {
      "epoch": 6.18483765266607,
      "grad_norm": 20.882770538330078,
      "learning_rate": 4.362325759374839e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 24102168,
      "step": 41525
    },
    {
      "epoch": 6.18558236520703,
      "grad_norm": 8.857357025146484,
      "learning_rate": 4.3621089609955084e-05,
      "loss": 0.2786,
      "num_input_tokens_seen": 24105048,
      "step": 41530
    },
    {
      "epoch": 6.18632707774799,
      "grad_norm": 1.0943628549575806,
      "learning_rate": 4.3618921311577384e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 24107704,
      "step": 41535
    },
    {
      "epoch": 6.1870717902889485,
      "grad_norm": 6.917951583862305,
      "learning_rate": 4.361675269865194e-05,
      "loss": 0.2954,
      "num_input_tokens_seen": 24110552,
      "step": 41540
    },
    {
      "epoch": 6.187816502829907,
      "grad_norm": 23.217060089111328,
      "learning_rate": 4.361458377121538e-05,
      "loss": 0.2201,
      "num_input_tokens_seen": 24113208,
      "step": 41545
    },
    {
      "epoch": 6.188561215370867,
      "grad_norm": 39.732391357421875,
      "learning_rate": 4.3612414529304344e-05,
      "loss": 0.1175,
      "num_input_tokens_seen": 24116024,
      "step": 41550
    },
    {
      "epoch": 6.189305927911826,
      "grad_norm": 0.040715839713811874,
      "learning_rate": 4.3610244972955486e-05,
      "loss": 0.04,
      "num_input_tokens_seen": 24118872,
      "step": 41555
    },
    {
      "epoch": 6.190050640452785,
      "grad_norm": 6.76390266418457,
      "learning_rate": 4.3608075102205454e-05,
      "loss": 0.0361,
      "num_input_tokens_seen": 24122136,
      "step": 41560
    },
    {
      "epoch": 6.190795352993744,
      "grad_norm": 27.496435165405273,
      "learning_rate": 4.36059049170909e-05,
      "loss": 0.304,
      "num_input_tokens_seen": 24125144,
      "step": 41565
    },
    {
      "epoch": 6.191540065534704,
      "grad_norm": 0.0769626572728157,
      "learning_rate": 4.36037344176485e-05,
      "loss": 0.05,
      "num_input_tokens_seen": 24128056,
      "step": 41570
    },
    {
      "epoch": 6.1922847780756625,
      "grad_norm": 0.811662495136261,
      "learning_rate": 4.3601563603914906e-05,
      "loss": 0.0062,
      "num_input_tokens_seen": 24130776,
      "step": 41575
    },
    {
      "epoch": 6.193029490616622,
      "grad_norm": 56.33072280883789,
      "learning_rate": 4.3599392475926806e-05,
      "loss": 0.4222,
      "num_input_tokens_seen": 24134136,
      "step": 41580
    },
    {
      "epoch": 6.193774203157581,
      "grad_norm": 12.587045669555664,
      "learning_rate": 4.359722103372087e-05,
      "loss": 0.3028,
      "num_input_tokens_seen": 24137304,
      "step": 41585
    },
    {
      "epoch": 6.1945189156985405,
      "grad_norm": 0.15840519964694977,
      "learning_rate": 4.3595049277333785e-05,
      "loss": 0.1072,
      "num_input_tokens_seen": 24139960,
      "step": 41590
    },
    {
      "epoch": 6.195263628239499,
      "grad_norm": 0.4525440037250519,
      "learning_rate": 4.359287720680225e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 24143128,
      "step": 41595
    },
    {
      "epoch": 6.196008340780459,
      "grad_norm": 62.3684196472168,
      "learning_rate": 4.359070482216295e-05,
      "loss": 0.4154,
      "num_input_tokens_seen": 24146040,
      "step": 41600
    },
    {
      "epoch": 6.196753053321418,
      "grad_norm": 6.943801403045654,
      "learning_rate": 4.358853212345258e-05,
      "loss": 0.0856,
      "num_input_tokens_seen": 24149272,
      "step": 41605
    },
    {
      "epoch": 6.197497765862377,
      "grad_norm": 51.234474182128906,
      "learning_rate": 4.358635911070785e-05,
      "loss": 0.2873,
      "num_input_tokens_seen": 24152184,
      "step": 41610
    },
    {
      "epoch": 6.198242478403336,
      "grad_norm": 7.684576988220215,
      "learning_rate": 4.3584185783965484e-05,
      "loss": 0.1444,
      "num_input_tokens_seen": 24155064,
      "step": 41615
    },
    {
      "epoch": 6.198987190944296,
      "grad_norm": 5.896766662597656,
      "learning_rate": 4.358201214326218e-05,
      "loss": 0.0727,
      "num_input_tokens_seen": 24157848,
      "step": 41620
    },
    {
      "epoch": 6.1997319034852545,
      "grad_norm": 0.08372379094362259,
      "learning_rate": 4.357983818863467e-05,
      "loss": 0.0541,
      "num_input_tokens_seen": 24160728,
      "step": 41625
    },
    {
      "epoch": 6.200476616026214,
      "grad_norm": 32.67116928100586,
      "learning_rate": 4.357766392011968e-05,
      "loss": 0.1245,
      "num_input_tokens_seen": 24163544,
      "step": 41630
    },
    {
      "epoch": 6.201221328567173,
      "grad_norm": 0.010865175165235996,
      "learning_rate": 4.357548933775393e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 24166424,
      "step": 41635
    },
    {
      "epoch": 6.2019660411081325,
      "grad_norm": 74.84568786621094,
      "learning_rate": 4.3573314441574176e-05,
      "loss": 0.165,
      "num_input_tokens_seen": 24169560,
      "step": 41640
    },
    {
      "epoch": 6.202710753649091,
      "grad_norm": 0.007123129907995462,
      "learning_rate": 4.357113923161715e-05,
      "loss": 0.2699,
      "num_input_tokens_seen": 24172472,
      "step": 41645
    },
    {
      "epoch": 6.203455466190051,
      "grad_norm": 11.279468536376953,
      "learning_rate": 4.35689637079196e-05,
      "loss": 0.2224,
      "num_input_tokens_seen": 24175288,
      "step": 41650
    },
    {
      "epoch": 6.20420017873101,
      "grad_norm": 0.029309121891856194,
      "learning_rate": 4.356678787051828e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 24178136,
      "step": 41655
    },
    {
      "epoch": 6.204944891271969,
      "grad_norm": 43.05764389038086,
      "learning_rate": 4.356461171944994e-05,
      "loss": 0.1804,
      "num_input_tokens_seen": 24180888,
      "step": 41660
    },
    {
      "epoch": 6.205689603812928,
      "grad_norm": 8.148855209350586,
      "learning_rate": 4.356243525475137e-05,
      "loss": 0.2259,
      "num_input_tokens_seen": 24183864,
      "step": 41665
    },
    {
      "epoch": 6.206434316353888,
      "grad_norm": 50.180519104003906,
      "learning_rate": 4.3560258476459315e-05,
      "loss": 0.0659,
      "num_input_tokens_seen": 24186808,
      "step": 41670
    },
    {
      "epoch": 6.2071790288948465,
      "grad_norm": 0.025665638968348503,
      "learning_rate": 4.355808138461056e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 24189592,
      "step": 41675
    },
    {
      "epoch": 6.207923741435806,
      "grad_norm": 0.014499145559966564,
      "learning_rate": 4.355590397924188e-05,
      "loss": 0.1279,
      "num_input_tokens_seen": 24192440,
      "step": 41680
    },
    {
      "epoch": 6.208668453976765,
      "grad_norm": 51.537906646728516,
      "learning_rate": 4.355372626039006e-05,
      "loss": 0.1874,
      "num_input_tokens_seen": 24195224,
      "step": 41685
    },
    {
      "epoch": 6.209413166517725,
      "grad_norm": 0.03517099469900131,
      "learning_rate": 4.355154822809189e-05,
      "loss": 0.2499,
      "num_input_tokens_seen": 24198136,
      "step": 41690
    },
    {
      "epoch": 6.210157879058683,
      "grad_norm": 3.7893869876861572,
      "learning_rate": 4.3549369882384174e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 24201240,
      "step": 41695
    },
    {
      "epoch": 6.210902591599643,
      "grad_norm": 0.19769775867462158,
      "learning_rate": 4.35471912233037e-05,
      "loss": 0.3346,
      "num_input_tokens_seen": 24204344,
      "step": 41700
    },
    {
      "epoch": 6.211647304140602,
      "grad_norm": 74.2822036743164,
      "learning_rate": 4.3545012250887286e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 24206840,
      "step": 41705
    },
    {
      "epoch": 6.2123920166815605,
      "grad_norm": 0.008672532625496387,
      "learning_rate": 4.354283296517173e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 24209624,
      "step": 41710
    },
    {
      "epoch": 6.21313672922252,
      "grad_norm": 6.330441474914551,
      "learning_rate": 4.354065336619387e-05,
      "loss": 0.4447,
      "num_input_tokens_seen": 24212472,
      "step": 41715
    },
    {
      "epoch": 6.213881441763479,
      "grad_norm": 29.579065322875977,
      "learning_rate": 4.3538473453990506e-05,
      "loss": 0.7895,
      "num_input_tokens_seen": 24215288,
      "step": 41720
    },
    {
      "epoch": 6.2146261543044385,
      "grad_norm": 66.88003540039062,
      "learning_rate": 4.353629322859848e-05,
      "loss": 0.3236,
      "num_input_tokens_seen": 24218200,
      "step": 41725
    },
    {
      "epoch": 6.215370866845397,
      "grad_norm": 126.26667785644531,
      "learning_rate": 4.353411269005462e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 24221368,
      "step": 41730
    },
    {
      "epoch": 6.216115579386357,
      "grad_norm": 0.4104258418083191,
      "learning_rate": 4.353193183839576e-05,
      "loss": 0.2824,
      "num_input_tokens_seen": 24224184,
      "step": 41735
    },
    {
      "epoch": 6.216860291927316,
      "grad_norm": 1.4457257986068726,
      "learning_rate": 4.352975067365874e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 24226872,
      "step": 41740
    },
    {
      "epoch": 6.217605004468275,
      "grad_norm": 1.8523738384246826,
      "learning_rate": 4.352756919588042e-05,
      "loss": 0.017,
      "num_input_tokens_seen": 24230136,
      "step": 41745
    },
    {
      "epoch": 6.218349717009234,
      "grad_norm": 26.992355346679688,
      "learning_rate": 4.3525387405097654e-05,
      "loss": 0.3084,
      "num_input_tokens_seen": 24232824,
      "step": 41750
    },
    {
      "epoch": 6.219094429550194,
      "grad_norm": 57.514404296875,
      "learning_rate": 4.352320530134729e-05,
      "loss": 0.203,
      "num_input_tokens_seen": 24235576,
      "step": 41755
    },
    {
      "epoch": 6.2198391420911525,
      "grad_norm": 0.08248244971036911,
      "learning_rate": 4.35210228846662e-05,
      "loss": 0.2313,
      "num_input_tokens_seen": 24238584,
      "step": 41760
    },
    {
      "epoch": 6.220583854632112,
      "grad_norm": 20.9377498626709,
      "learning_rate": 4.3518840155091255e-05,
      "loss": 0.3261,
      "num_input_tokens_seen": 24241240,
      "step": 41765
    },
    {
      "epoch": 6.221328567173071,
      "grad_norm": 0.2561318874359131,
      "learning_rate": 4.351665711265933e-05,
      "loss": 0.3639,
      "num_input_tokens_seen": 24244120,
      "step": 41770
    },
    {
      "epoch": 6.222073279714031,
      "grad_norm": 0.04403884708881378,
      "learning_rate": 4.351447375740729e-05,
      "loss": 0.0466,
      "num_input_tokens_seen": 24247288,
      "step": 41775
    },
    {
      "epoch": 6.222817992254989,
      "grad_norm": 3.4684431552886963,
      "learning_rate": 4.351229008937205e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 24250104,
      "step": 41780
    },
    {
      "epoch": 6.223562704795949,
      "grad_norm": 0.0397559329867363,
      "learning_rate": 4.3510106108590476e-05,
      "loss": 0.0141,
      "num_input_tokens_seen": 24252952,
      "step": 41785
    },
    {
      "epoch": 6.224307417336908,
      "grad_norm": 55.71770095825195,
      "learning_rate": 4.350792181509947e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 24255896,
      "step": 41790
    },
    {
      "epoch": 6.225052129877867,
      "grad_norm": 0.05757719278335571,
      "learning_rate": 4.350573720893594e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 24258552,
      "step": 41795
    },
    {
      "epoch": 6.225796842418826,
      "grad_norm": 13.364952087402344,
      "learning_rate": 4.350355229013679e-05,
      "loss": 0.2998,
      "num_input_tokens_seen": 24261496,
      "step": 41800
    },
    {
      "epoch": 6.226541554959786,
      "grad_norm": 2.5725455284118652,
      "learning_rate": 4.3501367058738916e-05,
      "loss": 0.1901,
      "num_input_tokens_seen": 24264440,
      "step": 41805
    },
    {
      "epoch": 6.2272862675007445,
      "grad_norm": 0.015609814785420895,
      "learning_rate": 4.3499181514779266e-05,
      "loss": 0.7066,
      "num_input_tokens_seen": 24267256,
      "step": 41810
    },
    {
      "epoch": 6.228030980041704,
      "grad_norm": 88.7729263305664,
      "learning_rate": 4.3496995658294735e-05,
      "loss": 0.106,
      "num_input_tokens_seen": 24270072,
      "step": 41815
    },
    {
      "epoch": 6.228775692582663,
      "grad_norm": 0.9528615474700928,
      "learning_rate": 4.349480948932226e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 24272984,
      "step": 41820
    },
    {
      "epoch": 6.229520405123623,
      "grad_norm": 1.307020902633667,
      "learning_rate": 4.3492623007898786e-05,
      "loss": 0.3042,
      "num_input_tokens_seen": 24275800,
      "step": 41825
    },
    {
      "epoch": 6.230265117664581,
      "grad_norm": 4.222564697265625,
      "learning_rate": 4.3490436214061236e-05,
      "loss": 0.1776,
      "num_input_tokens_seen": 24278808,
      "step": 41830
    },
    {
      "epoch": 6.231009830205541,
      "grad_norm": 4.691070079803467,
      "learning_rate": 4.348824910784656e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 24281688,
      "step": 41835
    },
    {
      "epoch": 6.2317545427465,
      "grad_norm": 0.19002766907215118,
      "learning_rate": 4.348606168929171e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 24284536,
      "step": 41840
    },
    {
      "epoch": 6.232499255287459,
      "grad_norm": 0.9461442828178406,
      "learning_rate": 4.348387395843363e-05,
      "loss": 0.2866,
      "num_input_tokens_seen": 24287352,
      "step": 41845
    },
    {
      "epoch": 6.233243967828418,
      "grad_norm": 23.633970260620117,
      "learning_rate": 4.348168591530929e-05,
      "loss": 0.6742,
      "num_input_tokens_seen": 24290040,
      "step": 41850
    },
    {
      "epoch": 6.233988680369378,
      "grad_norm": 0.06001981720328331,
      "learning_rate": 4.3479497559955654e-05,
      "loss": 0.0435,
      "num_input_tokens_seen": 24293144,
      "step": 41855
    },
    {
      "epoch": 6.234733392910337,
      "grad_norm": 37.77267074584961,
      "learning_rate": 4.347730889240968e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 24296056,
      "step": 41860
    },
    {
      "epoch": 6.235478105451296,
      "grad_norm": 7.096533298492432,
      "learning_rate": 4.347511991270835e-05,
      "loss": 0.1139,
      "num_input_tokens_seen": 24299064,
      "step": 41865
    },
    {
      "epoch": 6.236222817992255,
      "grad_norm": 43.96971893310547,
      "learning_rate": 4.347293062088865e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 24301944,
      "step": 41870
    },
    {
      "epoch": 6.236967530533214,
      "grad_norm": 25.523317337036133,
      "learning_rate": 4.3470741016987574e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 24304888,
      "step": 41875
    },
    {
      "epoch": 6.237712243074173,
      "grad_norm": 18.211158752441406,
      "learning_rate": 4.3468551101042084e-05,
      "loss": 0.2633,
      "num_input_tokens_seen": 24307928,
      "step": 41880
    },
    {
      "epoch": 6.238456955615132,
      "grad_norm": 90.1658706665039,
      "learning_rate": 4.3466360873089204e-05,
      "loss": 0.3494,
      "num_input_tokens_seen": 24310712,
      "step": 41885
    },
    {
      "epoch": 6.239201668156092,
      "grad_norm": 18.250587463378906,
      "learning_rate": 4.346417033316592e-05,
      "loss": 0.3529,
      "num_input_tokens_seen": 24313624,
      "step": 41890
    },
    {
      "epoch": 6.2399463806970505,
      "grad_norm": 0.03759478032588959,
      "learning_rate": 4.346197948130925e-05,
      "loss": 0.2279,
      "num_input_tokens_seen": 24316536,
      "step": 41895
    },
    {
      "epoch": 6.24069109323801,
      "grad_norm": 0.6011228561401367,
      "learning_rate": 4.34597883175562e-05,
      "loss": 0.0703,
      "num_input_tokens_seen": 24319576,
      "step": 41900
    },
    {
      "epoch": 6.241435805778969,
      "grad_norm": 48.30458068847656,
      "learning_rate": 4.3457596841943775e-05,
      "loss": 0.279,
      "num_input_tokens_seen": 24322552,
      "step": 41905
    },
    {
      "epoch": 6.242180518319929,
      "grad_norm": 0.010735099203884602,
      "learning_rate": 4.345540505450902e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 24325400,
      "step": 41910
    },
    {
      "epoch": 6.242925230860887,
      "grad_norm": 47.488895416259766,
      "learning_rate": 4.345321295528896e-05,
      "loss": 0.2336,
      "num_input_tokens_seen": 24328184,
      "step": 41915
    },
    {
      "epoch": 6.243669943401847,
      "grad_norm": 0.21435466408729553,
      "learning_rate": 4.345102054432061e-05,
      "loss": 0.0945,
      "num_input_tokens_seen": 24331096,
      "step": 41920
    },
    {
      "epoch": 6.244414655942806,
      "grad_norm": 13.565953254699707,
      "learning_rate": 4.344882782164103e-05,
      "loss": 0.245,
      "num_input_tokens_seen": 24333848,
      "step": 41925
    },
    {
      "epoch": 6.245159368483765,
      "grad_norm": 17.15757942199707,
      "learning_rate": 4.344663478728725e-05,
      "loss": 0.235,
      "num_input_tokens_seen": 24336536,
      "step": 41930
    },
    {
      "epoch": 6.245904081024724,
      "grad_norm": 1.713532567024231,
      "learning_rate": 4.3444441441296324e-05,
      "loss": 0.03,
      "num_input_tokens_seen": 24339544,
      "step": 41935
    },
    {
      "epoch": 6.246648793565684,
      "grad_norm": 0.10191469639539719,
      "learning_rate": 4.344224778370531e-05,
      "loss": 0.0908,
      "num_input_tokens_seen": 24342392,
      "step": 41940
    },
    {
      "epoch": 6.247393506106643,
      "grad_norm": 6.905994415283203,
      "learning_rate": 4.344005381455126e-05,
      "loss": 0.0809,
      "num_input_tokens_seen": 24345144,
      "step": 41945
    },
    {
      "epoch": 6.248138218647602,
      "grad_norm": 9.183751106262207,
      "learning_rate": 4.343785953387125e-05,
      "loss": 0.2815,
      "num_input_tokens_seen": 24348408,
      "step": 41950
    },
    {
      "epoch": 6.248882931188561,
      "grad_norm": 26.806320190429688,
      "learning_rate": 4.343566494170233e-05,
      "loss": 0.4058,
      "num_input_tokens_seen": 24351384,
      "step": 41955
    },
    {
      "epoch": 6.249627643729521,
      "grad_norm": 0.030653275549411774,
      "learning_rate": 4.34334700380816e-05,
      "loss": 0.3109,
      "num_input_tokens_seen": 24354232,
      "step": 41960
    },
    {
      "epoch": 6.250372356270479,
      "grad_norm": 2.9771764278411865,
      "learning_rate": 4.343127482304612e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 24357272,
      "step": 41965
    },
    {
      "epoch": 6.251117068811439,
      "grad_norm": 6.494445323944092,
      "learning_rate": 4.342907929663299e-05,
      "loss": 0.4387,
      "num_input_tokens_seen": 24360216,
      "step": 41970
    },
    {
      "epoch": 6.251861781352398,
      "grad_norm": 0.057210199534893036,
      "learning_rate": 4.342688345887929e-05,
      "loss": 0.0873,
      "num_input_tokens_seen": 24363128,
      "step": 41975
    },
    {
      "epoch": 6.252606493893357,
      "grad_norm": 3.1911263465881348,
      "learning_rate": 4.342468730982212e-05,
      "loss": 0.114,
      "num_input_tokens_seen": 24365848,
      "step": 41980
    },
    {
      "epoch": 6.253351206434316,
      "grad_norm": 0.14817535877227783,
      "learning_rate": 4.342249084949859e-05,
      "loss": 0.1896,
      "num_input_tokens_seen": 24369016,
      "step": 41985
    },
    {
      "epoch": 6.254095918975276,
      "grad_norm": 1.936363935470581,
      "learning_rate": 4.34202940779458e-05,
      "loss": 0.1524,
      "num_input_tokens_seen": 24372280,
      "step": 41990
    },
    {
      "epoch": 6.254840631516235,
      "grad_norm": 27.449007034301758,
      "learning_rate": 4.341809699520086e-05,
      "loss": 0.2858,
      "num_input_tokens_seen": 24375480,
      "step": 41995
    },
    {
      "epoch": 6.255585344057194,
      "grad_norm": 0.09772983938455582,
      "learning_rate": 4.34158996013009e-05,
      "loss": 0.0421,
      "num_input_tokens_seen": 24378520,
      "step": 42000
    },
    {
      "epoch": 6.256330056598153,
      "grad_norm": 1.0745564699172974,
      "learning_rate": 4.3413701896283024e-05,
      "loss": 0.3226,
      "num_input_tokens_seen": 24381528,
      "step": 42005
    },
    {
      "epoch": 6.257074769139113,
      "grad_norm": 0.020887605845928192,
      "learning_rate": 4.341150388018437e-05,
      "loss": 0.3473,
      "num_input_tokens_seen": 24384408,
      "step": 42010
    },
    {
      "epoch": 6.257819481680071,
      "grad_norm": 25.564598083496094,
      "learning_rate": 4.340930555304208e-05,
      "loss": 0.1356,
      "num_input_tokens_seen": 24387480,
      "step": 42015
    },
    {
      "epoch": 6.258564194221031,
      "grad_norm": 21.613842010498047,
      "learning_rate": 4.340710691489327e-05,
      "loss": 0.3328,
      "num_input_tokens_seen": 24390456,
      "step": 42020
    },
    {
      "epoch": 6.25930890676199,
      "grad_norm": 0.04938919469714165,
      "learning_rate": 4.340490796577511e-05,
      "loss": 0.1005,
      "num_input_tokens_seen": 24393336,
      "step": 42025
    },
    {
      "epoch": 6.2600536193029495,
      "grad_norm": 5.163848876953125,
      "learning_rate": 4.340270870572472e-05,
      "loss": 0.1765,
      "num_input_tokens_seen": 24396024,
      "step": 42030
    },
    {
      "epoch": 6.260798331843908,
      "grad_norm": 3.6889562606811523,
      "learning_rate": 4.340050913477928e-05,
      "loss": 0.0749,
      "num_input_tokens_seen": 24398840,
      "step": 42035
    },
    {
      "epoch": 6.261543044384867,
      "grad_norm": 0.07421953231096268,
      "learning_rate": 4.339830925297594e-05,
      "loss": 0.1202,
      "num_input_tokens_seen": 24401752,
      "step": 42040
    },
    {
      "epoch": 6.262287756925827,
      "grad_norm": 5.9120707511901855,
      "learning_rate": 4.3396109060351864e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 24404440,
      "step": 42045
    },
    {
      "epoch": 6.263032469466786,
      "grad_norm": 0.8721613883972168,
      "learning_rate": 4.339390855694422e-05,
      "loss": 0.2295,
      "num_input_tokens_seen": 24407320,
      "step": 42050
    },
    {
      "epoch": 6.263777182007745,
      "grad_norm": 0.14001812040805817,
      "learning_rate": 4.339170774279019e-05,
      "loss": 0.0258,
      "num_input_tokens_seen": 24409880,
      "step": 42055
    },
    {
      "epoch": 6.264521894548704,
      "grad_norm": 0.0313037671148777,
      "learning_rate": 4.3389506617926945e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 24412888,
      "step": 42060
    },
    {
      "epoch": 6.265266607089663,
      "grad_norm": 201.88473510742188,
      "learning_rate": 4.3387305182391677e-05,
      "loss": 0.3446,
      "num_input_tokens_seen": 24415576,
      "step": 42065
    },
    {
      "epoch": 6.266011319630622,
      "grad_norm": 21.540599822998047,
      "learning_rate": 4.3385103436221575e-05,
      "loss": 0.3898,
      "num_input_tokens_seen": 24418456,
      "step": 42070
    },
    {
      "epoch": 6.266756032171582,
      "grad_norm": 0.6410669684410095,
      "learning_rate": 4.338290137945384e-05,
      "loss": 0.5269,
      "num_input_tokens_seen": 24421112,
      "step": 42075
    },
    {
      "epoch": 6.267500744712541,
      "grad_norm": 54.87926483154297,
      "learning_rate": 4.338069901212567e-05,
      "loss": 0.3072,
      "num_input_tokens_seen": 24423768,
      "step": 42080
    },
    {
      "epoch": 6.2682454572535,
      "grad_norm": 7.52390193939209,
      "learning_rate": 4.337849633427427e-05,
      "loss": 0.4105,
      "num_input_tokens_seen": 24426680,
      "step": 42085
    },
    {
      "epoch": 6.268990169794459,
      "grad_norm": 50.59245300292969,
      "learning_rate": 4.337629334593685e-05,
      "loss": 0.2882,
      "num_input_tokens_seen": 24429496,
      "step": 42090
    },
    {
      "epoch": 6.269734882335419,
      "grad_norm": 32.98667526245117,
      "learning_rate": 4.337409004715063e-05,
      "loss": 0.2426,
      "num_input_tokens_seen": 24432440,
      "step": 42095
    },
    {
      "epoch": 6.270479594876377,
      "grad_norm": 0.03468233346939087,
      "learning_rate": 4.337188643795284e-05,
      "loss": 0.0514,
      "num_input_tokens_seen": 24435352,
      "step": 42100
    },
    {
      "epoch": 6.271224307417337,
      "grad_norm": 17.211318969726562,
      "learning_rate": 4.33696825183807e-05,
      "loss": 0.1363,
      "num_input_tokens_seen": 24438264,
      "step": 42105
    },
    {
      "epoch": 6.271969019958296,
      "grad_norm": 10.936079025268555,
      "learning_rate": 4.3367478288471444e-05,
      "loss": 0.2186,
      "num_input_tokens_seen": 24440888,
      "step": 42110
    },
    {
      "epoch": 6.2727137324992555,
      "grad_norm": 7.077120780944824,
      "learning_rate": 4.33652737482623e-05,
      "loss": 0.0963,
      "num_input_tokens_seen": 24443928,
      "step": 42115
    },
    {
      "epoch": 6.273458445040214,
      "grad_norm": 13.984457015991211,
      "learning_rate": 4.336306889779054e-05,
      "loss": 0.3638,
      "num_input_tokens_seen": 24446904,
      "step": 42120
    },
    {
      "epoch": 6.274203157581174,
      "grad_norm": 8.545419692993164,
      "learning_rate": 4.3360863737093375e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 24450040,
      "step": 42125
    },
    {
      "epoch": 6.274947870122133,
      "grad_norm": 0.14893099665641785,
      "learning_rate": 4.335865826620809e-05,
      "loss": 0.2573,
      "num_input_tokens_seen": 24452792,
      "step": 42130
    },
    {
      "epoch": 6.275692582663092,
      "grad_norm": 40.21207809448242,
      "learning_rate": 4.335645248517193e-05,
      "loss": 0.3089,
      "num_input_tokens_seen": 24455960,
      "step": 42135
    },
    {
      "epoch": 6.276437295204051,
      "grad_norm": 60.57772445678711,
      "learning_rate": 4.335424639402216e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 24459000,
      "step": 42140
    },
    {
      "epoch": 6.277182007745011,
      "grad_norm": 22.76128578186035,
      "learning_rate": 4.3352039992796056e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 24461720,
      "step": 42145
    },
    {
      "epoch": 6.277926720285969,
      "grad_norm": 8.20240306854248,
      "learning_rate": 4.334983328153088e-05,
      "loss": 0.2576,
      "num_input_tokens_seen": 24464600,
      "step": 42150
    },
    {
      "epoch": 6.278671432826929,
      "grad_norm": 0.06990450620651245,
      "learning_rate": 4.334762626026393e-05,
      "loss": 0.2061,
      "num_input_tokens_seen": 24467448,
      "step": 42155
    },
    {
      "epoch": 6.279416145367888,
      "grad_norm": 9.006553649902344,
      "learning_rate": 4.3345418929032475e-05,
      "loss": 0.1268,
      "num_input_tokens_seen": 24470296,
      "step": 42160
    },
    {
      "epoch": 6.2801608579088475,
      "grad_norm": 21.255268096923828,
      "learning_rate": 4.334321128787382e-05,
      "loss": 0.1306,
      "num_input_tokens_seen": 24473112,
      "step": 42165
    },
    {
      "epoch": 6.280905570449806,
      "grad_norm": 0.0652046948671341,
      "learning_rate": 4.3341003336825246e-05,
      "loss": 0.2692,
      "num_input_tokens_seen": 24476280,
      "step": 42170
    },
    {
      "epoch": 6.281650282990766,
      "grad_norm": 36.12448501586914,
      "learning_rate": 4.333879507592407e-05,
      "loss": 0.1906,
      "num_input_tokens_seen": 24479000,
      "step": 42175
    },
    {
      "epoch": 6.282394995531725,
      "grad_norm": 134.06700134277344,
      "learning_rate": 4.3336586505207587e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 24481816,
      "step": 42180
    },
    {
      "epoch": 6.283139708072684,
      "grad_norm": 0.031107008457183838,
      "learning_rate": 4.3334377624713104e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 24484568,
      "step": 42185
    },
    {
      "epoch": 6.283884420613643,
      "grad_norm": 0.02846512570977211,
      "learning_rate": 4.333216843447795e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 24487512,
      "step": 42190
    },
    {
      "epoch": 6.284629133154603,
      "grad_norm": 0.03200859576463699,
      "learning_rate": 4.332995893453945e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 24490424,
      "step": 42195
    },
    {
      "epoch": 6.2853738456955615,
      "grad_norm": 0.009855944663286209,
      "learning_rate": 4.3327749124934916e-05,
      "loss": 0.2667,
      "num_input_tokens_seen": 24493528,
      "step": 42200
    },
    {
      "epoch": 6.286118558236521,
      "grad_norm": 0.025892000645399094,
      "learning_rate": 4.332553900570169e-05,
      "loss": 0.4461,
      "num_input_tokens_seen": 24496440,
      "step": 42205
    },
    {
      "epoch": 6.28686327077748,
      "grad_norm": 0.19595052301883698,
      "learning_rate": 4.3323328576877104e-05,
      "loss": 0.0515,
      "num_input_tokens_seen": 24499128,
      "step": 42210
    },
    {
      "epoch": 6.2876079833184395,
      "grad_norm": 17.346580505371094,
      "learning_rate": 4.33211178384985e-05,
      "loss": 0.2513,
      "num_input_tokens_seen": 24501944,
      "step": 42215
    },
    {
      "epoch": 6.288352695859398,
      "grad_norm": 9.290806770324707,
      "learning_rate": 4.331890679060324e-05,
      "loss": 0.3105,
      "num_input_tokens_seen": 24504888,
      "step": 42220
    },
    {
      "epoch": 6.289097408400357,
      "grad_norm": 0.3348284661769867,
      "learning_rate": 4.331669543322867e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 24507800,
      "step": 42225
    },
    {
      "epoch": 6.289842120941317,
      "grad_norm": 27.323667526245117,
      "learning_rate": 4.331448376641214e-05,
      "loss": 0.3347,
      "num_input_tokens_seen": 24510584,
      "step": 42230
    },
    {
      "epoch": 6.290586833482275,
      "grad_norm": 4.186479091644287,
      "learning_rate": 4.331227179019103e-05,
      "loss": 0.1829,
      "num_input_tokens_seen": 24513176,
      "step": 42235
    },
    {
      "epoch": 6.291331546023235,
      "grad_norm": 1.5479629039764404,
      "learning_rate": 4.3310059504602685e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 24515928,
      "step": 42240
    },
    {
      "epoch": 6.292076258564194,
      "grad_norm": 0.43593236804008484,
      "learning_rate": 4.330784690968451e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 24518904,
      "step": 42245
    },
    {
      "epoch": 6.2928209711051535,
      "grad_norm": 0.0604015588760376,
      "learning_rate": 4.330563400547386e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 24521912,
      "step": 42250
    },
    {
      "epoch": 6.293565683646112,
      "grad_norm": 4.534226894378662,
      "learning_rate": 4.330342079200813e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 24524920,
      "step": 42255
    },
    {
      "epoch": 6.294310396187072,
      "grad_norm": 0.5546713471412659,
      "learning_rate": 4.330120726932471e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 24528088,
      "step": 42260
    },
    {
      "epoch": 6.295055108728031,
      "grad_norm": 15.416125297546387,
      "learning_rate": 4.329899343746099e-05,
      "loss": 0.3631,
      "num_input_tokens_seen": 24531160,
      "step": 42265
    },
    {
      "epoch": 6.29579982126899,
      "grad_norm": 21.45660400390625,
      "learning_rate": 4.3296779296454374e-05,
      "loss": 0.2605,
      "num_input_tokens_seen": 24533944,
      "step": 42270
    },
    {
      "epoch": 6.296544533809949,
      "grad_norm": 124.6870346069336,
      "learning_rate": 4.3294564846342275e-05,
      "loss": 0.1553,
      "num_input_tokens_seen": 24536568,
      "step": 42275
    },
    {
      "epoch": 6.297289246350909,
      "grad_norm": 0.08862389624118805,
      "learning_rate": 4.329235008716209e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 24539160,
      "step": 42280
    },
    {
      "epoch": 6.2980339588918675,
      "grad_norm": 40.55941390991211,
      "learning_rate": 4.329013501895125e-05,
      "loss": 0.334,
      "num_input_tokens_seen": 24542040,
      "step": 42285
    },
    {
      "epoch": 6.298778671432827,
      "grad_norm": 4.703885555267334,
      "learning_rate": 4.3287919641747155e-05,
      "loss": 0.0936,
      "num_input_tokens_seen": 24544888,
      "step": 42290
    },
    {
      "epoch": 6.299523383973786,
      "grad_norm": 3.9083688259124756,
      "learning_rate": 4.328570395558725e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 24547960,
      "step": 42295
    },
    {
      "epoch": 6.3002680965147455,
      "grad_norm": 4.510324478149414,
      "learning_rate": 4.328348796050896e-05,
      "loss": 0.2968,
      "num_input_tokens_seen": 24550872,
      "step": 42300
    },
    {
      "epoch": 6.301012809055704,
      "grad_norm": 0.7454314827919006,
      "learning_rate": 4.3281271656549734e-05,
      "loss": 0.0882,
      "num_input_tokens_seen": 24553688,
      "step": 42305
    },
    {
      "epoch": 6.301757521596664,
      "grad_norm": 13.51656436920166,
      "learning_rate": 4.3279055043746996e-05,
      "loss": 0.267,
      "num_input_tokens_seen": 24556408,
      "step": 42310
    },
    {
      "epoch": 6.302502234137623,
      "grad_norm": 0.12489296495914459,
      "learning_rate": 4.3276838122138196e-05,
      "loss": 0.1905,
      "num_input_tokens_seen": 24559352,
      "step": 42315
    },
    {
      "epoch": 6.303246946678582,
      "grad_norm": 16.80455207824707,
      "learning_rate": 4.3274620891760795e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 24562456,
      "step": 42320
    },
    {
      "epoch": 6.303991659219541,
      "grad_norm": 25.264503479003906,
      "learning_rate": 4.327240335265226e-05,
      "loss": 0.1873,
      "num_input_tokens_seen": 24565400,
      "step": 42325
    },
    {
      "epoch": 6.304736371760501,
      "grad_norm": 0.09501195698976517,
      "learning_rate": 4.3270185504850024e-05,
      "loss": 0.3555,
      "num_input_tokens_seen": 24568312,
      "step": 42330
    },
    {
      "epoch": 6.3054810843014595,
      "grad_norm": 0.366171658039093,
      "learning_rate": 4.326796734839158e-05,
      "loss": 0.2068,
      "num_input_tokens_seen": 24571000,
      "step": 42335
    },
    {
      "epoch": 6.306225796842419,
      "grad_norm": 0.03764476254582405,
      "learning_rate": 4.32657488833144e-05,
      "loss": 0.1827,
      "num_input_tokens_seen": 24574040,
      "step": 42340
    },
    {
      "epoch": 6.306970509383378,
      "grad_norm": 23.290451049804688,
      "learning_rate": 4.326353010965595e-05,
      "loss": 0.3443,
      "num_input_tokens_seen": 24576952,
      "step": 42345
    },
    {
      "epoch": 6.3077152219243375,
      "grad_norm": 15.24565315246582,
      "learning_rate": 4.326131102745372e-05,
      "loss": 0.0126,
      "num_input_tokens_seen": 24579928,
      "step": 42350
    },
    {
      "epoch": 6.308459934465296,
      "grad_norm": 0.04231603443622589,
      "learning_rate": 4.3259091636745196e-05,
      "loss": 0.1274,
      "num_input_tokens_seen": 24582712,
      "step": 42355
    },
    {
      "epoch": 6.309204647006256,
      "grad_norm": 0.07150710374116898,
      "learning_rate": 4.325687193756789e-05,
      "loss": 0.1465,
      "num_input_tokens_seen": 24585464,
      "step": 42360
    },
    {
      "epoch": 6.309949359547215,
      "grad_norm": 0.03025723248720169,
      "learning_rate": 4.325465192995928e-05,
      "loss": 0.0549,
      "num_input_tokens_seen": 24588344,
      "step": 42365
    },
    {
      "epoch": 6.310694072088174,
      "grad_norm": 0.080767422914505,
      "learning_rate": 4.325243161395688e-05,
      "loss": 0.1802,
      "num_input_tokens_seen": 24591032,
      "step": 42370
    },
    {
      "epoch": 6.311438784629133,
      "grad_norm": 87.15040588378906,
      "learning_rate": 4.3250210989598196e-05,
      "loss": 0.5492,
      "num_input_tokens_seen": 24593880,
      "step": 42375
    },
    {
      "epoch": 6.312183497170093,
      "grad_norm": 0.0812206044793129,
      "learning_rate": 4.324799005692075e-05,
      "loss": 0.0685,
      "num_input_tokens_seen": 24596664,
      "step": 42380
    },
    {
      "epoch": 6.3129282097110515,
      "grad_norm": 0.09033684432506561,
      "learning_rate": 4.3245768815962055e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 24599576,
      "step": 42385
    },
    {
      "epoch": 6.31367292225201,
      "grad_norm": 0.36574527621269226,
      "learning_rate": 4.3243547266759646e-05,
      "loss": 0.1014,
      "num_input_tokens_seen": 24602232,
      "step": 42390
    },
    {
      "epoch": 6.31441763479297,
      "grad_norm": 26.396947860717773,
      "learning_rate": 4.3241325409351044e-05,
      "loss": 0.6088,
      "num_input_tokens_seen": 24605208,
      "step": 42395
    },
    {
      "epoch": 6.31516234733393,
      "grad_norm": 0.07462052255868912,
      "learning_rate": 4.323910324377379e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 24608280,
      "step": 42400
    },
    {
      "epoch": 6.315907059874888,
      "grad_norm": 10.68480110168457,
      "learning_rate": 4.3236880770065426e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 24610840,
      "step": 42405
    },
    {
      "epoch": 6.316651772415847,
      "grad_norm": 0.03585126996040344,
      "learning_rate": 4.323465798826349e-05,
      "loss": 0.1904,
      "num_input_tokens_seen": 24613656,
      "step": 42410
    },
    {
      "epoch": 6.317396484956807,
      "grad_norm": 15.165401458740234,
      "learning_rate": 4.323243489840554e-05,
      "loss": 0.4304,
      "num_input_tokens_seen": 24616632,
      "step": 42415
    },
    {
      "epoch": 6.3181411974977655,
      "grad_norm": 0.40464717149734497,
      "learning_rate": 4.323021150052914e-05,
      "loss": 0.1734,
      "num_input_tokens_seen": 24619384,
      "step": 42420
    },
    {
      "epoch": 6.318885910038725,
      "grad_norm": 53.30167770385742,
      "learning_rate": 4.322798779467184e-05,
      "loss": 0.3891,
      "num_input_tokens_seen": 24622296,
      "step": 42425
    },
    {
      "epoch": 6.319630622579684,
      "grad_norm": 67.41094207763672,
      "learning_rate": 4.322576378087121e-05,
      "loss": 0.1686,
      "num_input_tokens_seen": 24624920,
      "step": 42430
    },
    {
      "epoch": 6.3203753351206435,
      "grad_norm": 13.740769386291504,
      "learning_rate": 4.322353945916483e-05,
      "loss": 0.1251,
      "num_input_tokens_seen": 24627544,
      "step": 42435
    },
    {
      "epoch": 6.321120047661602,
      "grad_norm": 47.61952209472656,
      "learning_rate": 4.322131482959027e-05,
      "loss": 0.3952,
      "num_input_tokens_seen": 24630296,
      "step": 42440
    },
    {
      "epoch": 6.321864760202562,
      "grad_norm": 0.00776041392236948,
      "learning_rate": 4.321908989218512e-05,
      "loss": 0.1917,
      "num_input_tokens_seen": 24633080,
      "step": 42445
    },
    {
      "epoch": 6.322609472743521,
      "grad_norm": 40.04196548461914,
      "learning_rate": 4.321686464698696e-05,
      "loss": 0.3764,
      "num_input_tokens_seen": 24636120,
      "step": 42450
    },
    {
      "epoch": 6.32335418528448,
      "grad_norm": 2.9219963550567627,
      "learning_rate": 4.321463909403338e-05,
      "loss": 0.1093,
      "num_input_tokens_seen": 24639096,
      "step": 42455
    },
    {
      "epoch": 6.324098897825439,
      "grad_norm": 0.01640407182276249,
      "learning_rate": 4.3212413233362e-05,
      "loss": 0.2297,
      "num_input_tokens_seen": 24641912,
      "step": 42460
    },
    {
      "epoch": 6.324843610366399,
      "grad_norm": 91.13518524169922,
      "learning_rate": 4.32101870650104e-05,
      "loss": 0.1351,
      "num_input_tokens_seen": 24645016,
      "step": 42465
    },
    {
      "epoch": 6.3255883229073575,
      "grad_norm": 129.95606994628906,
      "learning_rate": 4.3207960589016196e-05,
      "loss": 0.1049,
      "num_input_tokens_seen": 24648056,
      "step": 42470
    },
    {
      "epoch": 6.326333035448317,
      "grad_norm": 0.08704385906457901,
      "learning_rate": 4.3205733805417e-05,
      "loss": 0.1361,
      "num_input_tokens_seen": 24650936,
      "step": 42475
    },
    {
      "epoch": 6.327077747989276,
      "grad_norm": 53.49189376831055,
      "learning_rate": 4.320350671425044e-05,
      "loss": 0.0508,
      "num_input_tokens_seen": 24653720,
      "step": 42480
    },
    {
      "epoch": 6.327822460530236,
      "grad_norm": 14.118215560913086,
      "learning_rate": 4.320127931555415e-05,
      "loss": 0.1739,
      "num_input_tokens_seen": 24656504,
      "step": 42485
    },
    {
      "epoch": 6.328567173071194,
      "grad_norm": 75.61268615722656,
      "learning_rate": 4.319905160936572e-05,
      "loss": 0.2437,
      "num_input_tokens_seen": 24659448,
      "step": 42490
    },
    {
      "epoch": 6.329311885612154,
      "grad_norm": 0.011820410378277302,
      "learning_rate": 4.319682359572282e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 24662232,
      "step": 42495
    },
    {
      "epoch": 6.330056598153113,
      "grad_norm": 0.014372369274497032,
      "learning_rate": 4.319459527466308e-05,
      "loss": 0.1399,
      "num_input_tokens_seen": 24665240,
      "step": 42500
    },
    {
      "epoch": 6.330801310694072,
      "grad_norm": 2.810621976852417,
      "learning_rate": 4.3192366646224146e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 24668088,
      "step": 42505
    },
    {
      "epoch": 6.331546023235031,
      "grad_norm": 0.04336567968130112,
      "learning_rate": 4.3190137710443666e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 24671000,
      "step": 42510
    },
    {
      "epoch": 6.332290735775991,
      "grad_norm": 33.59245300292969,
      "learning_rate": 4.3187908467359294e-05,
      "loss": 0.2733,
      "num_input_tokens_seen": 24674424,
      "step": 42515
    },
    {
      "epoch": 6.3330354483169495,
      "grad_norm": 0.00747564435005188,
      "learning_rate": 4.31856789170087e-05,
      "loss": 0.1921,
      "num_input_tokens_seen": 24677336,
      "step": 42520
    },
    {
      "epoch": 6.333780160857909,
      "grad_norm": 4.538506031036377,
      "learning_rate": 4.318344905942954e-05,
      "loss": 0.2774,
      "num_input_tokens_seen": 24680504,
      "step": 42525
    },
    {
      "epoch": 6.334524873398868,
      "grad_norm": 9.945465087890625,
      "learning_rate": 4.318121889465949e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 24683576,
      "step": 42530
    },
    {
      "epoch": 6.335269585939828,
      "grad_norm": 8.799051284790039,
      "learning_rate": 4.317898842273622e-05,
      "loss": 0.2457,
      "num_input_tokens_seen": 24686168,
      "step": 42535
    },
    {
      "epoch": 6.336014298480786,
      "grad_norm": 32.3859977722168,
      "learning_rate": 4.317675764369743e-05,
      "loss": 0.1417,
      "num_input_tokens_seen": 24688920,
      "step": 42540
    },
    {
      "epoch": 6.336759011021746,
      "grad_norm": 0.013301650993525982,
      "learning_rate": 4.3174526557580785e-05,
      "loss": 0.4464,
      "num_input_tokens_seen": 24691992,
      "step": 42545
    },
    {
      "epoch": 6.337503723562705,
      "grad_norm": 0.6676663160324097,
      "learning_rate": 4.317229516442398e-05,
      "loss": 0.1659,
      "num_input_tokens_seen": 24694776,
      "step": 42550
    },
    {
      "epoch": 6.338248436103664,
      "grad_norm": 2.7077460289001465,
      "learning_rate": 4.317006346426473e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 24697624,
      "step": 42555
    },
    {
      "epoch": 6.338993148644623,
      "grad_norm": 39.74204635620117,
      "learning_rate": 4.3167831457140715e-05,
      "loss": 0.3768,
      "num_input_tokens_seen": 24700632,
      "step": 42560
    },
    {
      "epoch": 6.339737861185583,
      "grad_norm": 147.62973022460938,
      "learning_rate": 4.316559914308966e-05,
      "loss": 0.1809,
      "num_input_tokens_seen": 24703288,
      "step": 42565
    },
    {
      "epoch": 6.340482573726542,
      "grad_norm": 40.27306365966797,
      "learning_rate": 4.316336652214926e-05,
      "loss": 0.3057,
      "num_input_tokens_seen": 24706360,
      "step": 42570
    },
    {
      "epoch": 6.3412272862675,
      "grad_norm": 11.943339347839355,
      "learning_rate": 4.316113359435725e-05,
      "loss": 0.4263,
      "num_input_tokens_seen": 24709144,
      "step": 42575
    },
    {
      "epoch": 6.34197199880846,
      "grad_norm": 0.12977753579616547,
      "learning_rate": 4.315890035975135e-05,
      "loss": 0.1402,
      "num_input_tokens_seen": 24712088,
      "step": 42580
    },
    {
      "epoch": 6.342716711349419,
      "grad_norm": 1.1795601844787598,
      "learning_rate": 4.315666681836928e-05,
      "loss": 0.4518,
      "num_input_tokens_seen": 24714776,
      "step": 42585
    },
    {
      "epoch": 6.343461423890378,
      "grad_norm": 8.457587242126465,
      "learning_rate": 4.315443297024878e-05,
      "loss": 0.741,
      "num_input_tokens_seen": 24717464,
      "step": 42590
    },
    {
      "epoch": 6.344206136431337,
      "grad_norm": 0.0249716155230999,
      "learning_rate": 4.315219881542758e-05,
      "loss": 0.2691,
      "num_input_tokens_seen": 24720248,
      "step": 42595
    },
    {
      "epoch": 6.344950848972297,
      "grad_norm": 0.5470841526985168,
      "learning_rate": 4.314996435394344e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 24723096,
      "step": 42600
    },
    {
      "epoch": 6.3456955615132555,
      "grad_norm": 0.027036966755986214,
      "learning_rate": 4.314772958583408e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 24725944,
      "step": 42605
    },
    {
      "epoch": 6.346440274054215,
      "grad_norm": 7.199173450469971,
      "learning_rate": 4.3145494511137294e-05,
      "loss": 0.2418,
      "num_input_tokens_seen": 24728824,
      "step": 42610
    },
    {
      "epoch": 6.347184986595174,
      "grad_norm": 0.45455798506736755,
      "learning_rate": 4.3143259129890814e-05,
      "loss": 0.0977,
      "num_input_tokens_seen": 24731736,
      "step": 42615
    },
    {
      "epoch": 6.347929699136134,
      "grad_norm": 0.40401312708854675,
      "learning_rate": 4.314102344213241e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 24734712,
      "step": 42620
    },
    {
      "epoch": 6.348674411677092,
      "grad_norm": 0.09309116005897522,
      "learning_rate": 4.3138787447899854e-05,
      "loss": 0.1904,
      "num_input_tokens_seen": 24737688,
      "step": 42625
    },
    {
      "epoch": 6.349419124218052,
      "grad_norm": 1.1636106967926025,
      "learning_rate": 4.313655114723092e-05,
      "loss": 0.0251,
      "num_input_tokens_seen": 24740536,
      "step": 42630
    },
    {
      "epoch": 6.350163836759011,
      "grad_norm": 16.68024253845215,
      "learning_rate": 4.3134314540163376e-05,
      "loss": 0.4513,
      "num_input_tokens_seen": 24743448,
      "step": 42635
    },
    {
      "epoch": 6.35090854929997,
      "grad_norm": 0.06909006088972092,
      "learning_rate": 4.3132077626735036e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 24746232,
      "step": 42640
    },
    {
      "epoch": 6.351653261840929,
      "grad_norm": 19.56658172607422,
      "learning_rate": 4.312984040698366e-05,
      "loss": 0.2963,
      "num_input_tokens_seen": 24749496,
      "step": 42645
    },
    {
      "epoch": 6.352397974381889,
      "grad_norm": 0.2883184850215912,
      "learning_rate": 4.3127602880947065e-05,
      "loss": 0.2703,
      "num_input_tokens_seen": 24752472,
      "step": 42650
    },
    {
      "epoch": 6.353142686922848,
      "grad_norm": 20.860916137695312,
      "learning_rate": 4.3125365048663035e-05,
      "loss": 0.3242,
      "num_input_tokens_seen": 24755064,
      "step": 42655
    },
    {
      "epoch": 6.353887399463807,
      "grad_norm": 11.803902626037598,
      "learning_rate": 4.31231269101694e-05,
      "loss": 0.1799,
      "num_input_tokens_seen": 24757976,
      "step": 42660
    },
    {
      "epoch": 6.354632112004766,
      "grad_norm": 80.33008575439453,
      "learning_rate": 4.312088846550394e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 24760920,
      "step": 42665
    },
    {
      "epoch": 6.355376824545726,
      "grad_norm": 0.94178307056427,
      "learning_rate": 4.311864971470449e-05,
      "loss": 0.0879,
      "num_input_tokens_seen": 24763928,
      "step": 42670
    },
    {
      "epoch": 6.356121537086684,
      "grad_norm": 13.304100036621094,
      "learning_rate": 4.311641065780887e-05,
      "loss": 0.1386,
      "num_input_tokens_seen": 24766776,
      "step": 42675
    },
    {
      "epoch": 6.356866249627644,
      "grad_norm": 34.751914978027344,
      "learning_rate": 4.31141712948549e-05,
      "loss": 0.1885,
      "num_input_tokens_seen": 24769976,
      "step": 42680
    },
    {
      "epoch": 6.357610962168603,
      "grad_norm": 0.029566800221800804,
      "learning_rate": 4.311193162588043e-05,
      "loss": 0.0696,
      "num_input_tokens_seen": 24772952,
      "step": 42685
    },
    {
      "epoch": 6.358355674709562,
      "grad_norm": 0.11036203801631927,
      "learning_rate": 4.3109691650923265e-05,
      "loss": 0.354,
      "num_input_tokens_seen": 24775768,
      "step": 42690
    },
    {
      "epoch": 6.359100387250521,
      "grad_norm": 0.31578052043914795,
      "learning_rate": 4.310745137002128e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 24778456,
      "step": 42695
    },
    {
      "epoch": 6.359845099791481,
      "grad_norm": 0.05805390700697899,
      "learning_rate": 4.3105210783212304e-05,
      "loss": 0.284,
      "num_input_tokens_seen": 24781208,
      "step": 42700
    },
    {
      "epoch": 6.36058981233244,
      "grad_norm": 19.264862060546875,
      "learning_rate": 4.310296989053419e-05,
      "loss": 0.527,
      "num_input_tokens_seen": 24784216,
      "step": 42705
    },
    {
      "epoch": 6.361334524873399,
      "grad_norm": 34.79288101196289,
      "learning_rate": 4.31007286920248e-05,
      "loss": 0.35,
      "num_input_tokens_seen": 24786744,
      "step": 42710
    },
    {
      "epoch": 6.362079237414358,
      "grad_norm": 117.3338851928711,
      "learning_rate": 4.3098487187721995e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 24789720,
      "step": 42715
    },
    {
      "epoch": 6.362823949955318,
      "grad_norm": 1.763919711112976,
      "learning_rate": 4.3096245377663645e-05,
      "loss": 0.0227,
      "num_input_tokens_seen": 24792728,
      "step": 42720
    },
    {
      "epoch": 6.363568662496276,
      "grad_norm": 12.870111465454102,
      "learning_rate": 4.3094003261887625e-05,
      "loss": 0.2435,
      "num_input_tokens_seen": 24795352,
      "step": 42725
    },
    {
      "epoch": 6.364313375037236,
      "grad_norm": 21.976526260375977,
      "learning_rate": 4.30917608404318e-05,
      "loss": 0.4736,
      "num_input_tokens_seen": 24798488,
      "step": 42730
    },
    {
      "epoch": 6.365058087578195,
      "grad_norm": 78.54776763916016,
      "learning_rate": 4.308951811333407e-05,
      "loss": 0.3127,
      "num_input_tokens_seen": 24801304,
      "step": 42735
    },
    {
      "epoch": 6.365802800119154,
      "grad_norm": 22.232711791992188,
      "learning_rate": 4.3087275080632314e-05,
      "loss": 0.0591,
      "num_input_tokens_seen": 24803896,
      "step": 42740
    },
    {
      "epoch": 6.366547512660113,
      "grad_norm": 0.0769108235836029,
      "learning_rate": 4.308503174236443e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 24806648,
      "step": 42745
    },
    {
      "epoch": 6.367292225201073,
      "grad_norm": 0.18420247733592987,
      "learning_rate": 4.308278809856832e-05,
      "loss": 0.306,
      "num_input_tokens_seen": 24809560,
      "step": 42750
    },
    {
      "epoch": 6.368036937742032,
      "grad_norm": 13.351520538330078,
      "learning_rate": 4.3080544149281875e-05,
      "loss": 0.2854,
      "num_input_tokens_seen": 24812376,
      "step": 42755
    },
    {
      "epoch": 6.36878165028299,
      "grad_norm": 17.865772247314453,
      "learning_rate": 4.307829989454302e-05,
      "loss": 0.0749,
      "num_input_tokens_seen": 24815448,
      "step": 42760
    },
    {
      "epoch": 6.36952636282395,
      "grad_norm": 14.739843368530273,
      "learning_rate": 4.307605533438965e-05,
      "loss": 0.1286,
      "num_input_tokens_seen": 24818232,
      "step": 42765
    },
    {
      "epoch": 6.370271075364909,
      "grad_norm": 0.0971786379814148,
      "learning_rate": 4.307381046885971e-05,
      "loss": 0.0432,
      "num_input_tokens_seen": 24821112,
      "step": 42770
    },
    {
      "epoch": 6.371015787905868,
      "grad_norm": 0.0932273119688034,
      "learning_rate": 4.307156529799111e-05,
      "loss": 0.0246,
      "num_input_tokens_seen": 24823960,
      "step": 42775
    },
    {
      "epoch": 6.371760500446827,
      "grad_norm": 20.427047729492188,
      "learning_rate": 4.306931982182178e-05,
      "loss": 0.3261,
      "num_input_tokens_seen": 24826840,
      "step": 42780
    },
    {
      "epoch": 6.372505212987787,
      "grad_norm": 11.775651931762695,
      "learning_rate": 4.306707404038966e-05,
      "loss": 0.0361,
      "num_input_tokens_seen": 24829752,
      "step": 42785
    },
    {
      "epoch": 6.373249925528746,
      "grad_norm": 21.058475494384766,
      "learning_rate": 4.306482795373268e-05,
      "loss": 0.3548,
      "num_input_tokens_seen": 24832632,
      "step": 42790
    },
    {
      "epoch": 6.373994638069705,
      "grad_norm": 69.91252899169922,
      "learning_rate": 4.306258156188879e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 24835736,
      "step": 42795
    },
    {
      "epoch": 6.374739350610664,
      "grad_norm": 16.758262634277344,
      "learning_rate": 4.306033486489595e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 24838776,
      "step": 42800
    },
    {
      "epoch": 6.375484063151624,
      "grad_norm": 20.028690338134766,
      "learning_rate": 4.30580878627921e-05,
      "loss": 0.4768,
      "num_input_tokens_seen": 24841720,
      "step": 42805
    },
    {
      "epoch": 6.376228775692582,
      "grad_norm": 44.018165588378906,
      "learning_rate": 4.305584055561522e-05,
      "loss": 0.4614,
      "num_input_tokens_seen": 24844408,
      "step": 42810
    },
    {
      "epoch": 6.376973488233542,
      "grad_norm": 0.03903094679117203,
      "learning_rate": 4.3053592943403256e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 24847064,
      "step": 42815
    },
    {
      "epoch": 6.377718200774501,
      "grad_norm": 5.843480587005615,
      "learning_rate": 4.305134502619419e-05,
      "loss": 0.3123,
      "num_input_tokens_seen": 24849880,
      "step": 42820
    },
    {
      "epoch": 6.3784629133154604,
      "grad_norm": 34.48606491088867,
      "learning_rate": 4.3049096804026e-05,
      "loss": 0.2939,
      "num_input_tokens_seen": 24853048,
      "step": 42825
    },
    {
      "epoch": 6.379207625856419,
      "grad_norm": 2.103797674179077,
      "learning_rate": 4.304684827693666e-05,
      "loss": 0.2019,
      "num_input_tokens_seen": 24855704,
      "step": 42830
    },
    {
      "epoch": 6.379952338397379,
      "grad_norm": 3.922142267227173,
      "learning_rate": 4.304459944496416e-05,
      "loss": 0.2088,
      "num_input_tokens_seen": 24858808,
      "step": 42835
    },
    {
      "epoch": 6.380697050938338,
      "grad_norm": 27.911907196044922,
      "learning_rate": 4.3042350308146496e-05,
      "loss": 0.037,
      "num_input_tokens_seen": 24861624,
      "step": 42840
    },
    {
      "epoch": 6.381441763479297,
      "grad_norm": 0.16983984410762787,
      "learning_rate": 4.304010086652165e-05,
      "loss": 0.2457,
      "num_input_tokens_seen": 24864760,
      "step": 42845
    },
    {
      "epoch": 6.382186476020256,
      "grad_norm": 58.39799880981445,
      "learning_rate": 4.3037851120127645e-05,
      "loss": 0.2785,
      "num_input_tokens_seen": 24867640,
      "step": 42850
    },
    {
      "epoch": 6.382931188561216,
      "grad_norm": 26.248563766479492,
      "learning_rate": 4.3035601069002476e-05,
      "loss": 0.3511,
      "num_input_tokens_seen": 24870456,
      "step": 42855
    },
    {
      "epoch": 6.383675901102174,
      "grad_norm": 0.14907313883304596,
      "learning_rate": 4.303335071318416e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 24873176,
      "step": 42860
    },
    {
      "epoch": 6.384420613643134,
      "grad_norm": 51.59496307373047,
      "learning_rate": 4.303110005271071e-05,
      "loss": 0.2582,
      "num_input_tokens_seen": 24876024,
      "step": 42865
    },
    {
      "epoch": 6.385165326184093,
      "grad_norm": 1.7115554809570312,
      "learning_rate": 4.302884908762015e-05,
      "loss": 0.1524,
      "num_input_tokens_seen": 24878744,
      "step": 42870
    },
    {
      "epoch": 6.3859100387250525,
      "grad_norm": 9.800944328308105,
      "learning_rate": 4.302659781795051e-05,
      "loss": 0.3523,
      "num_input_tokens_seen": 24881464,
      "step": 42875
    },
    {
      "epoch": 6.386654751266011,
      "grad_norm": 0.11233136802911758,
      "learning_rate": 4.302434624373982e-05,
      "loss": 0.039,
      "num_input_tokens_seen": 24884280,
      "step": 42880
    },
    {
      "epoch": 6.387399463806971,
      "grad_norm": 0.05539112165570259,
      "learning_rate": 4.3022094365026124e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 24887128,
      "step": 42885
    },
    {
      "epoch": 6.38814417634793,
      "grad_norm": 0.17687158286571503,
      "learning_rate": 4.3019842181847456e-05,
      "loss": 0.0338,
      "num_input_tokens_seen": 24890296,
      "step": 42890
    },
    {
      "epoch": 6.388888888888889,
      "grad_norm": 1.0918223857879639,
      "learning_rate": 4.301758969424187e-05,
      "loss": 0.0734,
      "num_input_tokens_seen": 24893304,
      "step": 42895
    },
    {
      "epoch": 6.389633601429848,
      "grad_norm": 2.52043080329895,
      "learning_rate": 4.301533690224741e-05,
      "loss": 0.1774,
      "num_input_tokens_seen": 24896280,
      "step": 42900
    },
    {
      "epoch": 6.390378313970807,
      "grad_norm": 5.457824230194092,
      "learning_rate": 4.3013083805902156e-05,
      "loss": 0.4238,
      "num_input_tokens_seen": 24899192,
      "step": 42905
    },
    {
      "epoch": 6.3911230265117664,
      "grad_norm": 67.43920135498047,
      "learning_rate": 4.301083040524415e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 24902488,
      "step": 42910
    },
    {
      "epoch": 6.391867739052726,
      "grad_norm": 6.782203197479248,
      "learning_rate": 4.3008576700311473e-05,
      "loss": 0.2497,
      "num_input_tokens_seen": 24905144,
      "step": 42915
    },
    {
      "epoch": 6.392612451593685,
      "grad_norm": 7.873197555541992,
      "learning_rate": 4.30063226911422e-05,
      "loss": 0.0799,
      "num_input_tokens_seen": 24907768,
      "step": 42920
    },
    {
      "epoch": 6.393357164134644,
      "grad_norm": 36.44375228881836,
      "learning_rate": 4.30040683777744e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 24911032,
      "step": 42925
    },
    {
      "epoch": 6.394101876675603,
      "grad_norm": 1.3454787731170654,
      "learning_rate": 4.300181376024616e-05,
      "loss": 0.1381,
      "num_input_tokens_seen": 24913784,
      "step": 42930
    },
    {
      "epoch": 6.394846589216562,
      "grad_norm": 0.7129709720611572,
      "learning_rate": 4.299955883859558e-05,
      "loss": 0.0511,
      "num_input_tokens_seen": 24916856,
      "step": 42935
    },
    {
      "epoch": 6.395591301757522,
      "grad_norm": 0.09153573215007782,
      "learning_rate": 4.2997303612860746e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 24919608,
      "step": 42940
    },
    {
      "epoch": 6.39633601429848,
      "grad_norm": 167.7152099609375,
      "learning_rate": 4.299504808307976e-05,
      "loss": 0.1425,
      "num_input_tokens_seen": 24922456,
      "step": 42945
    },
    {
      "epoch": 6.39708072683944,
      "grad_norm": 58.45399475097656,
      "learning_rate": 4.299279224929072e-05,
      "loss": 0.138,
      "num_input_tokens_seen": 24925432,
      "step": 42950
    },
    {
      "epoch": 6.397825439380399,
      "grad_norm": 38.06243133544922,
      "learning_rate": 4.299053611153175e-05,
      "loss": 0.3461,
      "num_input_tokens_seen": 24928248,
      "step": 42955
    },
    {
      "epoch": 6.3985701519213585,
      "grad_norm": 33.96758270263672,
      "learning_rate": 4.2988279669840945e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 24930936,
      "step": 42960
    },
    {
      "epoch": 6.399314864462317,
      "grad_norm": 58.25897979736328,
      "learning_rate": 4.298602292425645e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 24933976,
      "step": 42965
    },
    {
      "epoch": 6.400059577003277,
      "grad_norm": 24.30744171142578,
      "learning_rate": 4.298376587481637e-05,
      "loss": 0.1742,
      "num_input_tokens_seen": 24936664,
      "step": 42970
    },
    {
      "epoch": 6.400804289544236,
      "grad_norm": 0.012139856815338135,
      "learning_rate": 4.2981508521558854e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 24939672,
      "step": 42975
    },
    {
      "epoch": 6.401549002085195,
      "grad_norm": 0.48454102873802185,
      "learning_rate": 4.2979250864522016e-05,
      "loss": 0.3711,
      "num_input_tokens_seen": 24942328,
      "step": 42980
    },
    {
      "epoch": 6.402293714626154,
      "grad_norm": 0.011377032846212387,
      "learning_rate": 4.297699290374401e-05,
      "loss": 0.1127,
      "num_input_tokens_seen": 24945208,
      "step": 42985
    },
    {
      "epoch": 6.403038427167114,
      "grad_norm": 0.006035985890775919,
      "learning_rate": 4.297473463926299e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 24948376,
      "step": 42990
    },
    {
      "epoch": 6.4037831397080724,
      "grad_norm": 22.747831344604492,
      "learning_rate": 4.2972476071117086e-05,
      "loss": 0.3428,
      "num_input_tokens_seen": 24951192,
      "step": 42995
    },
    {
      "epoch": 6.404527852249032,
      "grad_norm": 2.115424156188965,
      "learning_rate": 4.2970217199344465e-05,
      "loss": 0.4195,
      "num_input_tokens_seen": 24954136,
      "step": 43000
    },
    {
      "epoch": 6.405272564789991,
      "grad_norm": 106.37933349609375,
      "learning_rate": 4.296795802398329e-05,
      "loss": 0.5013,
      "num_input_tokens_seen": 24956952,
      "step": 43005
    },
    {
      "epoch": 6.4060172773309505,
      "grad_norm": 59.7185173034668,
      "learning_rate": 4.296569854507173e-05,
      "loss": 0.1172,
      "num_input_tokens_seen": 24959704,
      "step": 43010
    },
    {
      "epoch": 6.406761989871909,
      "grad_norm": 11.945916175842285,
      "learning_rate": 4.2963438762647954e-05,
      "loss": 0.3749,
      "num_input_tokens_seen": 24962712,
      "step": 43015
    },
    {
      "epoch": 6.407506702412869,
      "grad_norm": 7.0305304527282715,
      "learning_rate": 4.2961178676750124e-05,
      "loss": 0.3232,
      "num_input_tokens_seen": 24965688,
      "step": 43020
    },
    {
      "epoch": 6.408251414953828,
      "grad_norm": 102.63444519042969,
      "learning_rate": 4.295891828741645e-05,
      "loss": 0.7687,
      "num_input_tokens_seen": 24968600,
      "step": 43025
    },
    {
      "epoch": 6.408996127494787,
      "grad_norm": 9.894671440124512,
      "learning_rate": 4.29566575946851e-05,
      "loss": 0.1372,
      "num_input_tokens_seen": 24971544,
      "step": 43030
    },
    {
      "epoch": 6.409740840035746,
      "grad_norm": 0.030650900676846504,
      "learning_rate": 4.295439659859427e-05,
      "loss": 0.0701,
      "num_input_tokens_seen": 24974104,
      "step": 43035
    },
    {
      "epoch": 6.410485552576706,
      "grad_norm": 31.032808303833008,
      "learning_rate": 4.2952135299182155e-05,
      "loss": 0.2806,
      "num_input_tokens_seen": 24976856,
      "step": 43040
    },
    {
      "epoch": 6.4112302651176645,
      "grad_norm": 29.439743041992188,
      "learning_rate": 4.294987369648696e-05,
      "loss": 0.1197,
      "num_input_tokens_seen": 24979736,
      "step": 43045
    },
    {
      "epoch": 6.411974977658624,
      "grad_norm": 0.6724430918693542,
      "learning_rate": 4.2947611790546894e-05,
      "loss": 0.1621,
      "num_input_tokens_seen": 24982616,
      "step": 43050
    },
    {
      "epoch": 6.412719690199583,
      "grad_norm": 46.00857162475586,
      "learning_rate": 4.2945349581400174e-05,
      "loss": 0.156,
      "num_input_tokens_seen": 24985560,
      "step": 43055
    },
    {
      "epoch": 6.4134644027405425,
      "grad_norm": 0.8901790976524353,
      "learning_rate": 4.2943087069085e-05,
      "loss": 0.2828,
      "num_input_tokens_seen": 24988312,
      "step": 43060
    },
    {
      "epoch": 6.414209115281501,
      "grad_norm": 39.06229782104492,
      "learning_rate": 4.294082425363961e-05,
      "loss": 0.2236,
      "num_input_tokens_seen": 24991256,
      "step": 43065
    },
    {
      "epoch": 6.414953827822461,
      "grad_norm": 12.141946792602539,
      "learning_rate": 4.293856113510223e-05,
      "loss": 0.3806,
      "num_input_tokens_seen": 24994616,
      "step": 43070
    },
    {
      "epoch": 6.41569854036342,
      "grad_norm": 0.10260331630706787,
      "learning_rate": 4.29362977135111e-05,
      "loss": 0.2356,
      "num_input_tokens_seen": 24997688,
      "step": 43075
    },
    {
      "epoch": 6.416443252904379,
      "grad_norm": 3.959961175918579,
      "learning_rate": 4.2934033988904437e-05,
      "loss": 0.1585,
      "num_input_tokens_seen": 25000568,
      "step": 43080
    },
    {
      "epoch": 6.417187965445338,
      "grad_norm": 8.39416790008545,
      "learning_rate": 4.2931769961320504e-05,
      "loss": 0.425,
      "num_input_tokens_seen": 25003544,
      "step": 43085
    },
    {
      "epoch": 6.417932677986297,
      "grad_norm": 10.768298149108887,
      "learning_rate": 4.292950563079754e-05,
      "loss": 0.3962,
      "num_input_tokens_seen": 25006584,
      "step": 43090
    },
    {
      "epoch": 6.4186773905272565,
      "grad_norm": 18.961240768432617,
      "learning_rate": 4.2927240997373795e-05,
      "loss": 0.1233,
      "num_input_tokens_seen": 25009368,
      "step": 43095
    },
    {
      "epoch": 6.419422103068215,
      "grad_norm": 12.321810722351074,
      "learning_rate": 4.292497606108754e-05,
      "loss": 0.1955,
      "num_input_tokens_seen": 25012248,
      "step": 43100
    },
    {
      "epoch": 6.420166815609175,
      "grad_norm": 0.04799296334385872,
      "learning_rate": 4.2922710821977044e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 25015160,
      "step": 43105
    },
    {
      "epoch": 6.420911528150134,
      "grad_norm": 6.215921401977539,
      "learning_rate": 4.2920445280080544e-05,
      "loss": 0.1371,
      "num_input_tokens_seen": 25017976,
      "step": 43110
    },
    {
      "epoch": 6.421656240691093,
      "grad_norm": 14.078085899353027,
      "learning_rate": 4.291817943543634e-05,
      "loss": 0.0643,
      "num_input_tokens_seen": 25020952,
      "step": 43115
    },
    {
      "epoch": 6.422400953232052,
      "grad_norm": 20.842819213867188,
      "learning_rate": 4.291591328808272e-05,
      "loss": 0.4145,
      "num_input_tokens_seen": 25023992,
      "step": 43120
    },
    {
      "epoch": 6.423145665773012,
      "grad_norm": 0.10389896482229233,
      "learning_rate": 4.291364683805794e-05,
      "loss": 0.2627,
      "num_input_tokens_seen": 25026904,
      "step": 43125
    },
    {
      "epoch": 6.4238903783139705,
      "grad_norm": 0.5936380624771118,
      "learning_rate": 4.291138008540031e-05,
      "loss": 0.4301,
      "num_input_tokens_seen": 25029688,
      "step": 43130
    },
    {
      "epoch": 6.42463509085493,
      "grad_norm": 31.877914428710938,
      "learning_rate": 4.2909113030148106e-05,
      "loss": 0.1028,
      "num_input_tokens_seen": 25032632,
      "step": 43135
    },
    {
      "epoch": 6.425379803395889,
      "grad_norm": 7.409134864807129,
      "learning_rate": 4.290684567233965e-05,
      "loss": 0.1151,
      "num_input_tokens_seen": 25035384,
      "step": 43140
    },
    {
      "epoch": 6.4261245159368485,
      "grad_norm": 14.42861557006836,
      "learning_rate": 4.2904578012013233e-05,
      "loss": 0.4517,
      "num_input_tokens_seen": 25038360,
      "step": 43145
    },
    {
      "epoch": 6.426869228477807,
      "grad_norm": 4.912631988525391,
      "learning_rate": 4.290231004920717e-05,
      "loss": 0.1397,
      "num_input_tokens_seen": 25041272,
      "step": 43150
    },
    {
      "epoch": 6.427613941018767,
      "grad_norm": 24.39996910095215,
      "learning_rate": 4.2900041783959775e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 25044184,
      "step": 43155
    },
    {
      "epoch": 6.428358653559726,
      "grad_norm": 12.064023971557617,
      "learning_rate": 4.2897773216309366e-05,
      "loss": 0.1458,
      "num_input_tokens_seen": 25047160,
      "step": 43160
    },
    {
      "epoch": 6.429103366100685,
      "grad_norm": 0.5967956185340881,
      "learning_rate": 4.289550434629426e-05,
      "loss": 0.1702,
      "num_input_tokens_seen": 25050040,
      "step": 43165
    },
    {
      "epoch": 6.429848078641644,
      "grad_norm": 0.054254237562417984,
      "learning_rate": 4.2893235173952805e-05,
      "loss": 0.1669,
      "num_input_tokens_seen": 25052856,
      "step": 43170
    },
    {
      "epoch": 6.430592791182604,
      "grad_norm": 0.05256275832653046,
      "learning_rate": 4.2890965699323335e-05,
      "loss": 0.32,
      "num_input_tokens_seen": 25055832,
      "step": 43175
    },
    {
      "epoch": 6.4313375037235625,
      "grad_norm": 18.255178451538086,
      "learning_rate": 4.288869592244417e-05,
      "loss": 0.3192,
      "num_input_tokens_seen": 25058744,
      "step": 43180
    },
    {
      "epoch": 6.432082216264522,
      "grad_norm": 31.140417098999023,
      "learning_rate": 4.288642584335367e-05,
      "loss": 0.3681,
      "num_input_tokens_seen": 25061752,
      "step": 43185
    },
    {
      "epoch": 6.432826928805481,
      "grad_norm": 15.927898406982422,
      "learning_rate": 4.2884155462090194e-05,
      "loss": 0.1029,
      "num_input_tokens_seen": 25064504,
      "step": 43190
    },
    {
      "epoch": 6.4335716413464406,
      "grad_norm": 0.32640111446380615,
      "learning_rate": 4.2881884778692076e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 25067736,
      "step": 43195
    },
    {
      "epoch": 6.434316353887399,
      "grad_norm": 1.8803515434265137,
      "learning_rate": 4.287961379319769e-05,
      "loss": 0.086,
      "num_input_tokens_seen": 25070488,
      "step": 43200
    },
    {
      "epoch": 6.435061066428359,
      "grad_norm": 21.252710342407227,
      "learning_rate": 4.287734250564541e-05,
      "loss": 0.2053,
      "num_input_tokens_seen": 25073624,
      "step": 43205
    },
    {
      "epoch": 6.435805778969318,
      "grad_norm": 0.03360668569803238,
      "learning_rate": 4.28750709160736e-05,
      "loss": 0.1587,
      "num_input_tokens_seen": 25076504,
      "step": 43210
    },
    {
      "epoch": 6.436550491510277,
      "grad_norm": 2.994283676147461,
      "learning_rate": 4.2872799024520626e-05,
      "loss": 0.2274,
      "num_input_tokens_seen": 25079224,
      "step": 43215
    },
    {
      "epoch": 6.437295204051236,
      "grad_norm": 18.522796630859375,
      "learning_rate": 4.287052683102488e-05,
      "loss": 0.3671,
      "num_input_tokens_seen": 25082104,
      "step": 43220
    },
    {
      "epoch": 6.438039916592196,
      "grad_norm": 0.04692302644252777,
      "learning_rate": 4.286825433562474e-05,
      "loss": 0.0095,
      "num_input_tokens_seen": 25085080,
      "step": 43225
    },
    {
      "epoch": 6.4387846291331545,
      "grad_norm": 9.088006019592285,
      "learning_rate": 4.286598153835861e-05,
      "loss": 0.3477,
      "num_input_tokens_seen": 25087864,
      "step": 43230
    },
    {
      "epoch": 6.439529341674114,
      "grad_norm": 1.9530683755874634,
      "learning_rate": 4.2863708439264886e-05,
      "loss": 0.1403,
      "num_input_tokens_seen": 25090744,
      "step": 43235
    },
    {
      "epoch": 6.440274054215073,
      "grad_norm": 11.648622512817383,
      "learning_rate": 4.286143503838195e-05,
      "loss": 0.5722,
      "num_input_tokens_seen": 25093880,
      "step": 43240
    },
    {
      "epoch": 6.441018766756033,
      "grad_norm": 0.14654338359832764,
      "learning_rate": 4.285916133574823e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 25096728,
      "step": 43245
    },
    {
      "epoch": 6.441763479296991,
      "grad_norm": 0.3001306653022766,
      "learning_rate": 4.2856887331402126e-05,
      "loss": 0.2016,
      "num_input_tokens_seen": 25099384,
      "step": 43250
    },
    {
      "epoch": 6.44250819183795,
      "grad_norm": 3.847480297088623,
      "learning_rate": 4.285461302538207e-05,
      "loss": 0.2379,
      "num_input_tokens_seen": 25101976,
      "step": 43255
    },
    {
      "epoch": 6.44325290437891,
      "grad_norm": 0.2830299437046051,
      "learning_rate": 4.285233841772647e-05,
      "loss": 0.126,
      "num_input_tokens_seen": 25104888,
      "step": 43260
    },
    {
      "epoch": 6.443997616919869,
      "grad_norm": 52.48759841918945,
      "learning_rate": 4.2850063508473746e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 25107768,
      "step": 43265
    },
    {
      "epoch": 6.444742329460828,
      "grad_norm": 34.40073776245117,
      "learning_rate": 4.284778829766235e-05,
      "loss": 0.2893,
      "num_input_tokens_seen": 25111160,
      "step": 43270
    },
    {
      "epoch": 6.445487042001787,
      "grad_norm": 37.538204193115234,
      "learning_rate": 4.284551278533071e-05,
      "loss": 0.2269,
      "num_input_tokens_seen": 25114040,
      "step": 43275
    },
    {
      "epoch": 6.4462317545427466,
      "grad_norm": 40.371543884277344,
      "learning_rate": 4.284323697151726e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 25116824,
      "step": 43280
    },
    {
      "epoch": 6.446976467083705,
      "grad_norm": 23.738201141357422,
      "learning_rate": 4.284096085626047e-05,
      "loss": 0.1325,
      "num_input_tokens_seen": 25119672,
      "step": 43285
    },
    {
      "epoch": 6.447721179624665,
      "grad_norm": 0.09591835737228394,
      "learning_rate": 4.283868443959877e-05,
      "loss": 0.1531,
      "num_input_tokens_seen": 25122616,
      "step": 43290
    },
    {
      "epoch": 6.448465892165624,
      "grad_norm": 2.111931085586548,
      "learning_rate": 4.283640772157064e-05,
      "loss": 0.1253,
      "num_input_tokens_seen": 25125496,
      "step": 43295
    },
    {
      "epoch": 6.449210604706583,
      "grad_norm": 14.528948783874512,
      "learning_rate": 4.283413070221452e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 25128664,
      "step": 43300
    },
    {
      "epoch": 6.449955317247542,
      "grad_norm": 0.02043481171131134,
      "learning_rate": 4.283185338156888e-05,
      "loss": 0.1612,
      "num_input_tokens_seen": 25131544,
      "step": 43305
    },
    {
      "epoch": 6.450700029788502,
      "grad_norm": 17.17096519470215,
      "learning_rate": 4.282957575967221e-05,
      "loss": 0.2323,
      "num_input_tokens_seen": 25134264,
      "step": 43310
    },
    {
      "epoch": 6.4514447423294605,
      "grad_norm": 0.08265828341245651,
      "learning_rate": 4.282729783656298e-05,
      "loss": 0.2183,
      "num_input_tokens_seen": 25137368,
      "step": 43315
    },
    {
      "epoch": 6.45218945487042,
      "grad_norm": 0.3501724302768707,
      "learning_rate": 4.2825019612279666e-05,
      "loss": 0.3412,
      "num_input_tokens_seen": 25140536,
      "step": 43320
    },
    {
      "epoch": 6.452934167411379,
      "grad_norm": 0.17125193774700165,
      "learning_rate": 4.282274108686076e-05,
      "loss": 0.1588,
      "num_input_tokens_seen": 25143640,
      "step": 43325
    },
    {
      "epoch": 6.453678879952339,
      "grad_norm": 34.9299201965332,
      "learning_rate": 4.282046226034476e-05,
      "loss": 0.2575,
      "num_input_tokens_seen": 25146904,
      "step": 43330
    },
    {
      "epoch": 6.454423592493297,
      "grad_norm": 12.01583480834961,
      "learning_rate": 4.2818183132770175e-05,
      "loss": 0.1428,
      "num_input_tokens_seen": 25149400,
      "step": 43335
    },
    {
      "epoch": 6.455168305034257,
      "grad_norm": 42.481876373291016,
      "learning_rate": 4.281590370417548e-05,
      "loss": 0.4035,
      "num_input_tokens_seen": 25152696,
      "step": 43340
    },
    {
      "epoch": 6.455913017575216,
      "grad_norm": 9.117504119873047,
      "learning_rate": 4.28136239745992e-05,
      "loss": 0.0221,
      "num_input_tokens_seen": 25155768,
      "step": 43345
    },
    {
      "epoch": 6.456657730116175,
      "grad_norm": 3.4912397861480713,
      "learning_rate": 4.2811343944079855e-05,
      "loss": 0.4437,
      "num_input_tokens_seen": 25158488,
      "step": 43350
    },
    {
      "epoch": 6.457402442657134,
      "grad_norm": 0.07561447471380234,
      "learning_rate": 4.280906361265595e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 25161208,
      "step": 43355
    },
    {
      "epoch": 6.458147155198094,
      "grad_norm": 42.663307189941406,
      "learning_rate": 4.2806782980366025e-05,
      "loss": 0.0584,
      "num_input_tokens_seen": 25163864,
      "step": 43360
    },
    {
      "epoch": 6.4588918677390526,
      "grad_norm": 7.510151386260986,
      "learning_rate": 4.2804502047248594e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 25167064,
      "step": 43365
    },
    {
      "epoch": 6.459636580280012,
      "grad_norm": 0.9937135577201843,
      "learning_rate": 4.2802220813342194e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 25169784,
      "step": 43370
    },
    {
      "epoch": 6.460381292820971,
      "grad_norm": 4.100701808929443,
      "learning_rate": 4.2799939278685376e-05,
      "loss": 0.2889,
      "num_input_tokens_seen": 25172632,
      "step": 43375
    },
    {
      "epoch": 6.461126005361931,
      "grad_norm": 17.598676681518555,
      "learning_rate": 4.279765744331666e-05,
      "loss": 0.3129,
      "num_input_tokens_seen": 25175608,
      "step": 43380
    },
    {
      "epoch": 6.461870717902889,
      "grad_norm": 18.895509719848633,
      "learning_rate": 4.2795375307274624e-05,
      "loss": 0.3901,
      "num_input_tokens_seen": 25178424,
      "step": 43385
    },
    {
      "epoch": 6.462615430443849,
      "grad_norm": 20.77120018005371,
      "learning_rate": 4.2793092870597804e-05,
      "loss": 0.402,
      "num_input_tokens_seen": 25181976,
      "step": 43390
    },
    {
      "epoch": 6.463360142984808,
      "grad_norm": 43.24176788330078,
      "learning_rate": 4.279081013332476e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 25184760,
      "step": 43395
    },
    {
      "epoch": 6.464104855525767,
      "grad_norm": 6.4935479164123535,
      "learning_rate": 4.278852709549406e-05,
      "loss": 0.0451,
      "num_input_tokens_seen": 25187640,
      "step": 43400
    },
    {
      "epoch": 6.464849568066726,
      "grad_norm": 32.85386657714844,
      "learning_rate": 4.2786243757144284e-05,
      "loss": 0.313,
      "num_input_tokens_seen": 25190520,
      "step": 43405
    },
    {
      "epoch": 6.465594280607686,
      "grad_norm": 0.12048735469579697,
      "learning_rate": 4.278396011831399e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 25193368,
      "step": 43410
    },
    {
      "epoch": 6.466338993148645,
      "grad_norm": 5.233019828796387,
      "learning_rate": 4.2781676179041764e-05,
      "loss": 0.034,
      "num_input_tokens_seen": 25196280,
      "step": 43415
    },
    {
      "epoch": 6.467083705689604,
      "grad_norm": 6.501094341278076,
      "learning_rate": 4.2779391939366194e-05,
      "loss": 0.2585,
      "num_input_tokens_seen": 25199000,
      "step": 43420
    },
    {
      "epoch": 6.467828418230563,
      "grad_norm": 21.913320541381836,
      "learning_rate": 4.277710739932586e-05,
      "loss": 0.2388,
      "num_input_tokens_seen": 25201912,
      "step": 43425
    },
    {
      "epoch": 6.468573130771523,
      "grad_norm": 11.212699890136719,
      "learning_rate": 4.277482255895937e-05,
      "loss": 0.1294,
      "num_input_tokens_seen": 25204632,
      "step": 43430
    },
    {
      "epoch": 6.469317843312481,
      "grad_norm": 2.1047585010528564,
      "learning_rate": 4.277253741830532e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 25207480,
      "step": 43435
    },
    {
      "epoch": 6.47006255585344,
      "grad_norm": 0.1330137550830841,
      "learning_rate": 4.2770251977402314e-05,
      "loss": 0.018,
      "num_input_tokens_seen": 25210872,
      "step": 43440
    },
    {
      "epoch": 6.4708072683944,
      "grad_norm": 0.3607589900493622,
      "learning_rate": 4.2767966236288956e-05,
      "loss": 0.5309,
      "num_input_tokens_seen": 25213976,
      "step": 43445
    },
    {
      "epoch": 6.4715519809353586,
      "grad_norm": 18.129867553710938,
      "learning_rate": 4.276568019500388e-05,
      "loss": 0.4043,
      "num_input_tokens_seen": 25216760,
      "step": 43450
    },
    {
      "epoch": 6.472296693476318,
      "grad_norm": 1.6388376951217651,
      "learning_rate": 4.276339385358568e-05,
      "loss": 0.0501,
      "num_input_tokens_seen": 25219800,
      "step": 43455
    },
    {
      "epoch": 6.473041406017277,
      "grad_norm": 0.021808162331581116,
      "learning_rate": 4.2761107212073e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 25222840,
      "step": 43460
    },
    {
      "epoch": 6.473786118558237,
      "grad_norm": 14.85118579864502,
      "learning_rate": 4.275882027050446e-05,
      "loss": 0.2683,
      "num_input_tokens_seen": 25225752,
      "step": 43465
    },
    {
      "epoch": 6.474530831099195,
      "grad_norm": 0.5898492932319641,
      "learning_rate": 4.275653302891871e-05,
      "loss": 0.3115,
      "num_input_tokens_seen": 25228504,
      "step": 43470
    },
    {
      "epoch": 6.475275543640155,
      "grad_norm": 1.0532886981964111,
      "learning_rate": 4.275424548735437e-05,
      "loss": 0.1179,
      "num_input_tokens_seen": 25231384,
      "step": 43475
    },
    {
      "epoch": 6.476020256181114,
      "grad_norm": 32.698490142822266,
      "learning_rate": 4.27519576458501e-05,
      "loss": 0.2569,
      "num_input_tokens_seen": 25234392,
      "step": 43480
    },
    {
      "epoch": 6.476764968722073,
      "grad_norm": 11.37606143951416,
      "learning_rate": 4.274966950444456e-05,
      "loss": 0.0671,
      "num_input_tokens_seen": 25237304,
      "step": 43485
    },
    {
      "epoch": 6.477509681263032,
      "grad_norm": 7.650053024291992,
      "learning_rate": 4.2747381063176384e-05,
      "loss": 0.129,
      "num_input_tokens_seen": 25239800,
      "step": 43490
    },
    {
      "epoch": 6.478254393803992,
      "grad_norm": 23.04972267150879,
      "learning_rate": 4.274509232208425e-05,
      "loss": 0.4203,
      "num_input_tokens_seen": 25242584,
      "step": 43495
    },
    {
      "epoch": 6.478999106344951,
      "grad_norm": 0.9540224075317383,
      "learning_rate": 4.274280328120681e-05,
      "loss": 0.0952,
      "num_input_tokens_seen": 25245528,
      "step": 43500
    },
    {
      "epoch": 6.47974381888591,
      "grad_norm": 27.815025329589844,
      "learning_rate": 4.274051394058274e-05,
      "loss": 0.6257,
      "num_input_tokens_seen": 25248472,
      "step": 43505
    },
    {
      "epoch": 6.480488531426869,
      "grad_norm": 4.582132339477539,
      "learning_rate": 4.273822430025072e-05,
      "loss": 0.2108,
      "num_input_tokens_seen": 25251832,
      "step": 43510
    },
    {
      "epoch": 6.481233243967829,
      "grad_norm": 0.06035259738564491,
      "learning_rate": 4.2735934360249426e-05,
      "loss": 0.2388,
      "num_input_tokens_seen": 25254680,
      "step": 43515
    },
    {
      "epoch": 6.481977956508787,
      "grad_norm": 25.61868667602539,
      "learning_rate": 4.2733644120617547e-05,
      "loss": 0.1079,
      "num_input_tokens_seen": 25257432,
      "step": 43520
    },
    {
      "epoch": 6.482722669049747,
      "grad_norm": 10.802712440490723,
      "learning_rate": 4.273135358139377e-05,
      "loss": 0.2132,
      "num_input_tokens_seen": 25260152,
      "step": 43525
    },
    {
      "epoch": 6.483467381590706,
      "grad_norm": 28.679851531982422,
      "learning_rate": 4.272906274261681e-05,
      "loss": 0.2421,
      "num_input_tokens_seen": 25263064,
      "step": 43530
    },
    {
      "epoch": 6.484212094131665,
      "grad_norm": 1.3561789989471436,
      "learning_rate": 4.2726771604325346e-05,
      "loss": 0.1622,
      "num_input_tokens_seen": 25266008,
      "step": 43535
    },
    {
      "epoch": 6.484956806672624,
      "grad_norm": 0.4896341562271118,
      "learning_rate": 4.272448016655809e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 25269016,
      "step": 43540
    },
    {
      "epoch": 6.485701519213584,
      "grad_norm": 3.250244617462158,
      "learning_rate": 4.272218842935376e-05,
      "loss": 0.2113,
      "num_input_tokens_seen": 25271800,
      "step": 43545
    },
    {
      "epoch": 6.486446231754543,
      "grad_norm": 13.615060806274414,
      "learning_rate": 4.271989639275107e-05,
      "loss": 0.321,
      "num_input_tokens_seen": 25274840,
      "step": 43550
    },
    {
      "epoch": 6.487190944295502,
      "grad_norm": 2.9852118492126465,
      "learning_rate": 4.271760405678874e-05,
      "loss": 0.1084,
      "num_input_tokens_seen": 25277816,
      "step": 43555
    },
    {
      "epoch": 6.487935656836461,
      "grad_norm": 11.49173641204834,
      "learning_rate": 4.2715311421505486e-05,
      "loss": 0.6546,
      "num_input_tokens_seen": 25280792,
      "step": 43560
    },
    {
      "epoch": 6.488680369377421,
      "grad_norm": 14.353083610534668,
      "learning_rate": 4.271301848694006e-05,
      "loss": 0.0912,
      "num_input_tokens_seen": 25283544,
      "step": 43565
    },
    {
      "epoch": 6.489425081918379,
      "grad_norm": 27.379194259643555,
      "learning_rate": 4.271072525313119e-05,
      "loss": 0.4605,
      "num_input_tokens_seen": 25286264,
      "step": 43570
    },
    {
      "epoch": 6.490169794459339,
      "grad_norm": 2.0355746746063232,
      "learning_rate": 4.2708431720117614e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 25289592,
      "step": 43575
    },
    {
      "epoch": 6.490914507000298,
      "grad_norm": 10.87552547454834,
      "learning_rate": 4.270613788793808e-05,
      "loss": 0.2556,
      "num_input_tokens_seen": 25292280,
      "step": 43580
    },
    {
      "epoch": 6.4916592195412575,
      "grad_norm": 4.655918598175049,
      "learning_rate": 4.2703843756631344e-05,
      "loss": 0.5034,
      "num_input_tokens_seen": 25295224,
      "step": 43585
    },
    {
      "epoch": 6.492403932082216,
      "grad_norm": 0.2133466601371765,
      "learning_rate": 4.270154932623617e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 25298104,
      "step": 43590
    },
    {
      "epoch": 6.493148644623176,
      "grad_norm": 27.47377586364746,
      "learning_rate": 4.26992545967913e-05,
      "loss": 0.3486,
      "num_input_tokens_seen": 25300920,
      "step": 43595
    },
    {
      "epoch": 6.493893357164135,
      "grad_norm": 0.9666463732719421,
      "learning_rate": 4.2696959568335515e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 25303704,
      "step": 43600
    },
    {
      "epoch": 6.494638069705093,
      "grad_norm": 11.860735893249512,
      "learning_rate": 4.2694664240907586e-05,
      "loss": 0.1529,
      "num_input_tokens_seen": 25306520,
      "step": 43605
    },
    {
      "epoch": 6.495382782246053,
      "grad_norm": 4.0414886474609375,
      "learning_rate": 4.269236861454629e-05,
      "loss": 0.0248,
      "num_input_tokens_seen": 25309304,
      "step": 43610
    },
    {
      "epoch": 6.496127494787013,
      "grad_norm": 27.353822708129883,
      "learning_rate": 4.2690072689290405e-05,
      "loss": 0.2159,
      "num_input_tokens_seen": 25311992,
      "step": 43615
    },
    {
      "epoch": 6.496872207327971,
      "grad_norm": 13.090206146240234,
      "learning_rate": 4.268777646517872e-05,
      "loss": 0.0783,
      "num_input_tokens_seen": 25314968,
      "step": 43620
    },
    {
      "epoch": 6.49761691986893,
      "grad_norm": 122.1178970336914,
      "learning_rate": 4.268547994225003e-05,
      "loss": 0.3434,
      "num_input_tokens_seen": 25317816,
      "step": 43625
    },
    {
      "epoch": 6.49836163240989,
      "grad_norm": 0.05883359536528587,
      "learning_rate": 4.2683183120543134e-05,
      "loss": 0.0448,
      "num_input_tokens_seen": 25320696,
      "step": 43630
    },
    {
      "epoch": 6.499106344950849,
      "grad_norm": 0.005757258273661137,
      "learning_rate": 4.2680886000096834e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 25323352,
      "step": 43635
    },
    {
      "epoch": 6.499851057491808,
      "grad_norm": 1.577054738998413,
      "learning_rate": 4.267858858094993e-05,
      "loss": 0.1783,
      "num_input_tokens_seen": 25325944,
      "step": 43640
    },
    {
      "epoch": 6.500595770032767,
      "grad_norm": 53.55031967163086,
      "learning_rate": 4.267629086314123e-05,
      "loss": 0.2201,
      "num_input_tokens_seen": 25328824,
      "step": 43645
    },
    {
      "epoch": 6.501340482573727,
      "grad_norm": 38.81630325317383,
      "learning_rate": 4.2673992846709574e-05,
      "loss": 0.7748,
      "num_input_tokens_seen": 25331704,
      "step": 43650
    },
    {
      "epoch": 6.502085195114685,
      "grad_norm": 54.22453689575195,
      "learning_rate": 4.267169453169377e-05,
      "loss": 0.1574,
      "num_input_tokens_seen": 25334520,
      "step": 43655
    },
    {
      "epoch": 6.502829907655645,
      "grad_norm": 36.248939514160156,
      "learning_rate": 4.266939591813265e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 25337336,
      "step": 43660
    },
    {
      "epoch": 6.503574620196604,
      "grad_norm": 21.2608585357666,
      "learning_rate": 4.266709700606504e-05,
      "loss": 0.1588,
      "num_input_tokens_seen": 25340088,
      "step": 43665
    },
    {
      "epoch": 6.5043193327375635,
      "grad_norm": 19.521345138549805,
      "learning_rate": 4.266479779552979e-05,
      "loss": 0.3274,
      "num_input_tokens_seen": 25342936,
      "step": 43670
    },
    {
      "epoch": 6.505064045278522,
      "grad_norm": 37.20395278930664,
      "learning_rate": 4.266249828656572e-05,
      "loss": 0.2827,
      "num_input_tokens_seen": 25345784,
      "step": 43675
    },
    {
      "epoch": 6.505808757819482,
      "grad_norm": 0.011492272838950157,
      "learning_rate": 4.2660198479211705e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 25348984,
      "step": 43680
    },
    {
      "epoch": 6.506553470360441,
      "grad_norm": 49.664608001708984,
      "learning_rate": 4.265789837350658e-05,
      "loss": 0.1518,
      "num_input_tokens_seen": 25351640,
      "step": 43685
    },
    {
      "epoch": 6.5072981829014,
      "grad_norm": 0.07114146649837494,
      "learning_rate": 4.2655597969489216e-05,
      "loss": 0.1353,
      "num_input_tokens_seen": 25354712,
      "step": 43690
    },
    {
      "epoch": 6.508042895442359,
      "grad_norm": 36.241424560546875,
      "learning_rate": 4.265329726719845e-05,
      "loss": 0.1249,
      "num_input_tokens_seen": 25357784,
      "step": 43695
    },
    {
      "epoch": 6.508787607983319,
      "grad_norm": 0.08134978264570236,
      "learning_rate": 4.2650996266673197e-05,
      "loss": 0.1065,
      "num_input_tokens_seen": 25360536,
      "step": 43700
    },
    {
      "epoch": 6.509532320524277,
      "grad_norm": 0.02904285117983818,
      "learning_rate": 4.264869496795229e-05,
      "loss": 0.0173,
      "num_input_tokens_seen": 25363160,
      "step": 43705
    },
    {
      "epoch": 6.510277033065237,
      "grad_norm": 39.243465423583984,
      "learning_rate": 4.264639337107461e-05,
      "loss": 0.3478,
      "num_input_tokens_seen": 25365880,
      "step": 43710
    },
    {
      "epoch": 6.511021745606196,
      "grad_norm": 0.01943284645676613,
      "learning_rate": 4.264409147607905e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 25368984,
      "step": 43715
    },
    {
      "epoch": 6.5117664581471555,
      "grad_norm": 0.05798652395606041,
      "learning_rate": 4.264178928300451e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 25371928,
      "step": 43720
    },
    {
      "epoch": 6.512511170688114,
      "grad_norm": 2.051882028579712,
      "learning_rate": 4.263948679188986e-05,
      "loss": 0.2965,
      "num_input_tokens_seen": 25374872,
      "step": 43725
    },
    {
      "epoch": 6.513255883229074,
      "grad_norm": 8.001967430114746,
      "learning_rate": 4.263718400277401e-05,
      "loss": 0.2417,
      "num_input_tokens_seen": 25377688,
      "step": 43730
    },
    {
      "epoch": 6.514000595770033,
      "grad_norm": 0.01426967978477478,
      "learning_rate": 4.263488091569586e-05,
      "loss": 0.0505,
      "num_input_tokens_seen": 25380536,
      "step": 43735
    },
    {
      "epoch": 6.514745308310992,
      "grad_norm": 0.2390916645526886,
      "learning_rate": 4.263257753069432e-05,
      "loss": 0.1873,
      "num_input_tokens_seen": 25383352,
      "step": 43740
    },
    {
      "epoch": 6.515490020851951,
      "grad_norm": 22.8476619720459,
      "learning_rate": 4.263027384780831e-05,
      "loss": 0.2177,
      "num_input_tokens_seen": 25386104,
      "step": 43745
    },
    {
      "epoch": 6.516234733392911,
      "grad_norm": 4.403721809387207,
      "learning_rate": 4.2627969867076736e-05,
      "loss": 0.1452,
      "num_input_tokens_seen": 25388920,
      "step": 43750
    },
    {
      "epoch": 6.5169794459338695,
      "grad_norm": 26.585147857666016,
      "learning_rate": 4.2625665588538534e-05,
      "loss": 0.4096,
      "num_input_tokens_seen": 25391448,
      "step": 43755
    },
    {
      "epoch": 6.517724158474829,
      "grad_norm": 7.571238994598389,
      "learning_rate": 4.262336101223262e-05,
      "loss": 0.7359,
      "num_input_tokens_seen": 25394552,
      "step": 43760
    },
    {
      "epoch": 6.518468871015788,
      "grad_norm": 21.570642471313477,
      "learning_rate": 4.2621056138197936e-05,
      "loss": 0.2303,
      "num_input_tokens_seen": 25397304,
      "step": 43765
    },
    {
      "epoch": 6.519213583556747,
      "grad_norm": 4.849933624267578,
      "learning_rate": 4.261875096647341e-05,
      "loss": 0.0466,
      "num_input_tokens_seen": 25399992,
      "step": 43770
    },
    {
      "epoch": 6.519958296097706,
      "grad_norm": 10.652360916137695,
      "learning_rate": 4.2616445497098e-05,
      "loss": 0.2775,
      "num_input_tokens_seen": 25403128,
      "step": 43775
    },
    {
      "epoch": 6.520703008638666,
      "grad_norm": 20.19175910949707,
      "learning_rate": 4.261413973011065e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 25406136,
      "step": 43780
    },
    {
      "epoch": 6.521447721179625,
      "grad_norm": 13.766437530517578,
      "learning_rate": 4.261183366555032e-05,
      "loss": 0.2263,
      "num_input_tokens_seen": 25409304,
      "step": 43785
    },
    {
      "epoch": 6.522192433720583,
      "grad_norm": 16.282743453979492,
      "learning_rate": 4.260952730345594e-05,
      "loss": 0.2818,
      "num_input_tokens_seen": 25412248,
      "step": 43790
    },
    {
      "epoch": 6.522937146261543,
      "grad_norm": 48.933292388916016,
      "learning_rate": 4.260722064386651e-05,
      "loss": 0.256,
      "num_input_tokens_seen": 25415320,
      "step": 43795
    },
    {
      "epoch": 6.523681858802503,
      "grad_norm": 149.4418182373047,
      "learning_rate": 4.2604913686820966e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 25418424,
      "step": 43800
    },
    {
      "epoch": 6.5244265713434615,
      "grad_norm": 34.06275939941406,
      "learning_rate": 4.260260643235831e-05,
      "loss": 0.1333,
      "num_input_tokens_seen": 25421176,
      "step": 43805
    },
    {
      "epoch": 6.52517128388442,
      "grad_norm": 18.566911697387695,
      "learning_rate": 4.260029888051751e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 25424056,
      "step": 43810
    },
    {
      "epoch": 6.52591599642538,
      "grad_norm": 0.08131318539381027,
      "learning_rate": 4.259799103133754e-05,
      "loss": 0.2257,
      "num_input_tokens_seen": 25426872,
      "step": 43815
    },
    {
      "epoch": 6.526660708966339,
      "grad_norm": 44.69267654418945,
      "learning_rate": 4.25956828848574e-05,
      "loss": 0.8094,
      "num_input_tokens_seen": 25429720,
      "step": 43820
    },
    {
      "epoch": 6.527405421507298,
      "grad_norm": 0.9485653638839722,
      "learning_rate": 4.259337444111609e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 25432664,
      "step": 43825
    },
    {
      "epoch": 6.528150134048257,
      "grad_norm": 0.11023133248090744,
      "learning_rate": 4.259106570015259e-05,
      "loss": 0.4673,
      "num_input_tokens_seen": 25435640,
      "step": 43830
    },
    {
      "epoch": 6.528894846589217,
      "grad_norm": 27.387935638427734,
      "learning_rate": 4.2588756662005926e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 25438392,
      "step": 43835
    },
    {
      "epoch": 6.5296395591301755,
      "grad_norm": 0.1058359369635582,
      "learning_rate": 4.258644732671508e-05,
      "loss": 0.1026,
      "num_input_tokens_seen": 25441400,
      "step": 43840
    },
    {
      "epoch": 6.530384271671135,
      "grad_norm": 25.684545516967773,
      "learning_rate": 4.258413769431908e-05,
      "loss": 0.2634,
      "num_input_tokens_seen": 25444056,
      "step": 43845
    },
    {
      "epoch": 6.531128984212094,
      "grad_norm": 80.00331115722656,
      "learning_rate": 4.2581827764856955e-05,
      "loss": 0.2204,
      "num_input_tokens_seen": 25447416,
      "step": 43850
    },
    {
      "epoch": 6.5318736967530535,
      "grad_norm": 0.9719916582107544,
      "learning_rate": 4.257951753836772e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 25450136,
      "step": 43855
    },
    {
      "epoch": 6.532618409294012,
      "grad_norm": 25.072221755981445,
      "learning_rate": 4.2577207014890394e-05,
      "loss": 0.586,
      "num_input_tokens_seen": 25453016,
      "step": 43860
    },
    {
      "epoch": 6.533363121834972,
      "grad_norm": 0.08375699818134308,
      "learning_rate": 4.2574896194464033e-05,
      "loss": 0.2544,
      "num_input_tokens_seen": 25455896,
      "step": 43865
    },
    {
      "epoch": 6.534107834375931,
      "grad_norm": 0.04720644652843475,
      "learning_rate": 4.2572585077127654e-05,
      "loss": 0.1716,
      "num_input_tokens_seen": 25459032,
      "step": 43870
    },
    {
      "epoch": 6.53485254691689,
      "grad_norm": 41.775814056396484,
      "learning_rate": 4.2570273662920315e-05,
      "loss": 0.3104,
      "num_input_tokens_seen": 25462616,
      "step": 43875
    },
    {
      "epoch": 6.535597259457849,
      "grad_norm": 40.163455963134766,
      "learning_rate": 4.2567961951881053e-05,
      "loss": 0.1936,
      "num_input_tokens_seen": 25465624,
      "step": 43880
    },
    {
      "epoch": 6.536341971998809,
      "grad_norm": 35.11048126220703,
      "learning_rate": 4.256564994404893e-05,
      "loss": 0.0363,
      "num_input_tokens_seen": 25468344,
      "step": 43885
    },
    {
      "epoch": 6.5370866845397675,
      "grad_norm": 64.88801574707031,
      "learning_rate": 4.2563337639463005e-05,
      "loss": 0.397,
      "num_input_tokens_seen": 25471128,
      "step": 43890
    },
    {
      "epoch": 6.537831397080727,
      "grad_norm": 19.20926856994629,
      "learning_rate": 4.256102503816234e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 25474040,
      "step": 43895
    },
    {
      "epoch": 6.538576109621686,
      "grad_norm": 26.29387664794922,
      "learning_rate": 4.255871214018601e-05,
      "loss": 0.4416,
      "num_input_tokens_seen": 25477176,
      "step": 43900
    },
    {
      "epoch": 6.5393208221626455,
      "grad_norm": 14.700068473815918,
      "learning_rate": 4.255639894557309e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 25480152,
      "step": 43905
    },
    {
      "epoch": 6.540065534703604,
      "grad_norm": 5.696521759033203,
      "learning_rate": 4.255408545436264e-05,
      "loss": 0.1267,
      "num_input_tokens_seen": 25482712,
      "step": 43910
    },
    {
      "epoch": 6.540810247244564,
      "grad_norm": 25.978374481201172,
      "learning_rate": 4.255177166659376e-05,
      "loss": 0.2993,
      "num_input_tokens_seen": 25486168,
      "step": 43915
    },
    {
      "epoch": 6.541554959785523,
      "grad_norm": 57.76426315307617,
      "learning_rate": 4.254945758230554e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 25488920,
      "step": 43920
    },
    {
      "epoch": 6.542299672326482,
      "grad_norm": 0.06269272416830063,
      "learning_rate": 4.254714320153708e-05,
      "loss": 0.0057,
      "num_input_tokens_seen": 25491928,
      "step": 43925
    },
    {
      "epoch": 6.543044384867441,
      "grad_norm": 0.35097014904022217,
      "learning_rate": 4.254482852432745e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 25494872,
      "step": 43930
    },
    {
      "epoch": 6.5437890974084,
      "grad_norm": 0.4949685037136078,
      "learning_rate": 4.254251355071579e-05,
      "loss": 0.0807,
      "num_input_tokens_seen": 25497688,
      "step": 43935
    },
    {
      "epoch": 6.5445338099493595,
      "grad_norm": 11.073418617248535,
      "learning_rate": 4.254019828074118e-05,
      "loss": 0.1391,
      "num_input_tokens_seen": 25501048,
      "step": 43940
    },
    {
      "epoch": 6.545278522490319,
      "grad_norm": 8.67631721496582,
      "learning_rate": 4.2537882714442756e-05,
      "loss": 0.244,
      "num_input_tokens_seen": 25504024,
      "step": 43945
    },
    {
      "epoch": 6.546023235031278,
      "grad_norm": 109.12175750732422,
      "learning_rate": 4.253556685185963e-05,
      "loss": 0.4425,
      "num_input_tokens_seen": 25506840,
      "step": 43950
    },
    {
      "epoch": 6.546767947572237,
      "grad_norm": 23.984519958496094,
      "learning_rate": 4.2533250693030924e-05,
      "loss": 0.2878,
      "num_input_tokens_seen": 25509624,
      "step": 43955
    },
    {
      "epoch": 6.547512660113196,
      "grad_norm": 1.927839994430542,
      "learning_rate": 4.2530934237995756e-05,
      "loss": 0.1376,
      "num_input_tokens_seen": 25512184,
      "step": 43960
    },
    {
      "epoch": 6.548257372654156,
      "grad_norm": 49.323211669921875,
      "learning_rate": 4.252861748679329e-05,
      "loss": 0.3081,
      "num_input_tokens_seen": 25515160,
      "step": 43965
    },
    {
      "epoch": 6.549002085195115,
      "grad_norm": 0.6251583099365234,
      "learning_rate": 4.252630043946263e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 25517912,
      "step": 43970
    },
    {
      "epoch": 6.5497467977360735,
      "grad_norm": 7.536387920379639,
      "learning_rate": 4.252398309604294e-05,
      "loss": 0.0575,
      "num_input_tokens_seen": 25520760,
      "step": 43975
    },
    {
      "epoch": 6.550491510277033,
      "grad_norm": 0.01676926016807556,
      "learning_rate": 4.252166545657337e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 25523448,
      "step": 43980
    },
    {
      "epoch": 6.551236222817992,
      "grad_norm": 14.387802124023438,
      "learning_rate": 4.2519347521093077e-05,
      "loss": 0.2833,
      "num_input_tokens_seen": 25526424,
      "step": 43985
    },
    {
      "epoch": 6.5519809353589515,
      "grad_norm": 31.30478858947754,
      "learning_rate": 4.251702928964121e-05,
      "loss": 0.5257,
      "num_input_tokens_seen": 25529400,
      "step": 43990
    },
    {
      "epoch": 6.55272564789991,
      "grad_norm": 0.4125116169452667,
      "learning_rate": 4.2514710762256925e-05,
      "loss": 0.3532,
      "num_input_tokens_seen": 25532312,
      "step": 43995
    },
    {
      "epoch": 6.55347036044087,
      "grad_norm": 35.81590270996094,
      "learning_rate": 4.2512391938979416e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 25535384,
      "step": 44000
    },
    {
      "epoch": 6.554215072981829,
      "grad_norm": 0.3940287232398987,
      "learning_rate": 4.251007281984783e-05,
      "loss": 0.189,
      "num_input_tokens_seen": 25538360,
      "step": 44005
    },
    {
      "epoch": 6.554959785522788,
      "grad_norm": 0.08968698978424072,
      "learning_rate": 4.250775340490137e-05,
      "loss": 0.0654,
      "num_input_tokens_seen": 25540984,
      "step": 44010
    },
    {
      "epoch": 6.555704498063747,
      "grad_norm": 10.839926719665527,
      "learning_rate": 4.2505433694179216e-05,
      "loss": 0.2942,
      "num_input_tokens_seen": 25544024,
      "step": 44015
    },
    {
      "epoch": 6.556449210604707,
      "grad_norm": 5.904676914215088,
      "learning_rate": 4.250311368772054e-05,
      "loss": 0.2208,
      "num_input_tokens_seen": 25547064,
      "step": 44020
    },
    {
      "epoch": 6.5571939231456655,
      "grad_norm": 5.316331386566162,
      "learning_rate": 4.250079338556455e-05,
      "loss": 0.4501,
      "num_input_tokens_seen": 25550328,
      "step": 44025
    },
    {
      "epoch": 6.557938635686625,
      "grad_norm": 0.13202819228172302,
      "learning_rate": 4.2498472787750456e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 25552920,
      "step": 44030
    },
    {
      "epoch": 6.558683348227584,
      "grad_norm": 26.79421615600586,
      "learning_rate": 4.249615189431744e-05,
      "loss": 0.2466,
      "num_input_tokens_seen": 25556152,
      "step": 44035
    },
    {
      "epoch": 6.559428060768544,
      "grad_norm": 0.9173101782798767,
      "learning_rate": 4.2493830705304716e-05,
      "loss": 0.3178,
      "num_input_tokens_seen": 25558808,
      "step": 44040
    },
    {
      "epoch": 6.560172773309502,
      "grad_norm": 17.45393180847168,
      "learning_rate": 4.24915092207515e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 25561720,
      "step": 44045
    },
    {
      "epoch": 6.560917485850462,
      "grad_norm": 0.5287166237831116,
      "learning_rate": 4.248918744069702e-05,
      "loss": 0.0601,
      "num_input_tokens_seen": 25564856,
      "step": 44050
    },
    {
      "epoch": 6.561662198391421,
      "grad_norm": 0.6542518734931946,
      "learning_rate": 4.2486865365180494e-05,
      "loss": 0.4598,
      "num_input_tokens_seen": 25567832,
      "step": 44055
    },
    {
      "epoch": 6.56240691093238,
      "grad_norm": 0.08859287947416306,
      "learning_rate": 4.2484542994241145e-05,
      "loss": 0.0309,
      "num_input_tokens_seen": 25571224,
      "step": 44060
    },
    {
      "epoch": 6.563151623473339,
      "grad_norm": 0.11634423583745956,
      "learning_rate": 4.2482220327918214e-05,
      "loss": 0.3548,
      "num_input_tokens_seen": 25574456,
      "step": 44065
    },
    {
      "epoch": 6.563896336014299,
      "grad_norm": 22.150754928588867,
      "learning_rate": 4.2479897366250946e-05,
      "loss": 0.2229,
      "num_input_tokens_seen": 25577368,
      "step": 44070
    },
    {
      "epoch": 6.5646410485552575,
      "grad_norm": 96.6270980834961,
      "learning_rate": 4.247757410927857e-05,
      "loss": 0.1022,
      "num_input_tokens_seen": 25580152,
      "step": 44075
    },
    {
      "epoch": 6.565385761096217,
      "grad_norm": 19.364986419677734,
      "learning_rate": 4.247525055704034e-05,
      "loss": 0.1711,
      "num_input_tokens_seen": 25583192,
      "step": 44080
    },
    {
      "epoch": 6.566130473637176,
      "grad_norm": 1.5321393013000488,
      "learning_rate": 4.247292670957552e-05,
      "loss": 0.333,
      "num_input_tokens_seen": 25586168,
      "step": 44085
    },
    {
      "epoch": 6.566875186178136,
      "grad_norm": 0.014266939833760262,
      "learning_rate": 4.247060256692336e-05,
      "loss": 0.2091,
      "num_input_tokens_seen": 25588984,
      "step": 44090
    },
    {
      "epoch": 6.567619898719094,
      "grad_norm": 27.982051849365234,
      "learning_rate": 4.246827812912313e-05,
      "loss": 0.3405,
      "num_input_tokens_seen": 25591800,
      "step": 44095
    },
    {
      "epoch": 6.568364611260054,
      "grad_norm": 50.98233413696289,
      "learning_rate": 4.246595339621409e-05,
      "loss": 0.2518,
      "num_input_tokens_seen": 25594840,
      "step": 44100
    },
    {
      "epoch": 6.569109323801013,
      "grad_norm": 3.8017797470092773,
      "learning_rate": 4.246362836823551e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 25597464,
      "step": 44105
    },
    {
      "epoch": 6.569854036341972,
      "grad_norm": 0.04417558014392853,
      "learning_rate": 4.2461303045226695e-05,
      "loss": 0.0448,
      "num_input_tokens_seen": 25600376,
      "step": 44110
    },
    {
      "epoch": 6.570598748882931,
      "grad_norm": 0.04230083152651787,
      "learning_rate": 4.24589774272269e-05,
      "loss": 0.0494,
      "num_input_tokens_seen": 25603352,
      "step": 44115
    },
    {
      "epoch": 6.57134346142389,
      "grad_norm": 18.24054527282715,
      "learning_rate": 4.245665151427544e-05,
      "loss": 0.3539,
      "num_input_tokens_seen": 25606200,
      "step": 44120
    },
    {
      "epoch": 6.57208817396485,
      "grad_norm": 2.3960890769958496,
      "learning_rate": 4.245432530641158e-05,
      "loss": 0.2401,
      "num_input_tokens_seen": 25609144,
      "step": 44125
    },
    {
      "epoch": 6.572832886505809,
      "grad_norm": 2.188174247741699,
      "learning_rate": 4.245199880367464e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 25612088,
      "step": 44130
    },
    {
      "epoch": 6.573577599046768,
      "grad_norm": 0.17353561520576477,
      "learning_rate": 4.2449672006103914e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 25614744,
      "step": 44135
    },
    {
      "epoch": 6.574322311587727,
      "grad_norm": 4.783945560455322,
      "learning_rate": 4.244734491373872e-05,
      "loss": 0.0326,
      "num_input_tokens_seen": 25617912,
      "step": 44140
    },
    {
      "epoch": 6.575067024128686,
      "grad_norm": 0.018609968945384026,
      "learning_rate": 4.244501752661836e-05,
      "loss": 0.4723,
      "num_input_tokens_seen": 25620536,
      "step": 44145
    },
    {
      "epoch": 6.575811736669645,
      "grad_norm": 0.23185338079929352,
      "learning_rate": 4.244268984478216e-05,
      "loss": 0.2703,
      "num_input_tokens_seen": 25623256,
      "step": 44150
    },
    {
      "epoch": 6.576556449210605,
      "grad_norm": 0.03815719485282898,
      "learning_rate": 4.2440361868269453e-05,
      "loss": 0.1295,
      "num_input_tokens_seen": 25626264,
      "step": 44155
    },
    {
      "epoch": 6.5773011617515635,
      "grad_norm": 102.6509780883789,
      "learning_rate": 4.243803359711954e-05,
      "loss": 0.5244,
      "num_input_tokens_seen": 25628856,
      "step": 44160
    },
    {
      "epoch": 6.578045874292523,
      "grad_norm": 0.12145431339740753,
      "learning_rate": 4.243570503137179e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 25631608,
      "step": 44165
    },
    {
      "epoch": 6.578790586833482,
      "grad_norm": 0.023200536146759987,
      "learning_rate": 4.2433376171065514e-05,
      "loss": 0.2347,
      "num_input_tokens_seen": 25634616,
      "step": 44170
    },
    {
      "epoch": 6.579535299374442,
      "grad_norm": 11.202823638916016,
      "learning_rate": 4.2431047016240064e-05,
      "loss": 0.4278,
      "num_input_tokens_seen": 25637400,
      "step": 44175
    },
    {
      "epoch": 6.5802800119154,
      "grad_norm": 12.838226318359375,
      "learning_rate": 4.242871756693481e-05,
      "loss": 0.2489,
      "num_input_tokens_seen": 25640504,
      "step": 44180
    },
    {
      "epoch": 6.58102472445636,
      "grad_norm": 4.088132858276367,
      "learning_rate": 4.242638782318906e-05,
      "loss": 0.2569,
      "num_input_tokens_seen": 25643288,
      "step": 44185
    },
    {
      "epoch": 6.581769436997319,
      "grad_norm": 44.065738677978516,
      "learning_rate": 4.242405778504221e-05,
      "loss": 0.1694,
      "num_input_tokens_seen": 25646072,
      "step": 44190
    },
    {
      "epoch": 6.582514149538278,
      "grad_norm": 0.11287760734558105,
      "learning_rate": 4.242172745253362e-05,
      "loss": 0.0578,
      "num_input_tokens_seen": 25649048,
      "step": 44195
    },
    {
      "epoch": 6.583258862079237,
      "grad_norm": 10.69566535949707,
      "learning_rate": 4.241939682570265e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 25651864,
      "step": 44200
    },
    {
      "epoch": 6.584003574620197,
      "grad_norm": 9.887913703918457,
      "learning_rate": 4.241706590458867e-05,
      "loss": 0.0815,
      "num_input_tokens_seen": 25654872,
      "step": 44205
    },
    {
      "epoch": 6.584748287161156,
      "grad_norm": 38.727989196777344,
      "learning_rate": 4.241473468923106e-05,
      "loss": 0.6137,
      "num_input_tokens_seen": 25657816,
      "step": 44210
    },
    {
      "epoch": 6.585492999702115,
      "grad_norm": 14.430662155151367,
      "learning_rate": 4.2412403179669216e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 25660632,
      "step": 44215
    },
    {
      "epoch": 6.586237712243074,
      "grad_norm": 57.64567947387695,
      "learning_rate": 4.2410071375942505e-05,
      "loss": 0.4002,
      "num_input_tokens_seen": 25663480,
      "step": 44220
    },
    {
      "epoch": 6.586982424784034,
      "grad_norm": 8.35853099822998,
      "learning_rate": 4.240773927809034e-05,
      "loss": 0.3285,
      "num_input_tokens_seen": 25666328,
      "step": 44225
    },
    {
      "epoch": 6.587727137324992,
      "grad_norm": 29.777507781982422,
      "learning_rate": 4.240540688615212e-05,
      "loss": 0.4331,
      "num_input_tokens_seen": 25669112,
      "step": 44230
    },
    {
      "epoch": 6.588471849865952,
      "grad_norm": 5.717500686645508,
      "learning_rate": 4.240307420016724e-05,
      "loss": 0.0429,
      "num_input_tokens_seen": 25672152,
      "step": 44235
    },
    {
      "epoch": 6.589216562406911,
      "grad_norm": 0.24336785078048706,
      "learning_rate": 4.24007412201751e-05,
      "loss": 0.178,
      "num_input_tokens_seen": 25674936,
      "step": 44240
    },
    {
      "epoch": 6.58996127494787,
      "grad_norm": 0.23076049983501434,
      "learning_rate": 4.239840794621512e-05,
      "loss": 0.2968,
      "num_input_tokens_seen": 25678040,
      "step": 44245
    },
    {
      "epoch": 6.590705987488829,
      "grad_norm": 15.18970775604248,
      "learning_rate": 4.2396074378326725e-05,
      "loss": 0.1553,
      "num_input_tokens_seen": 25680824,
      "step": 44250
    },
    {
      "epoch": 6.591450700029789,
      "grad_norm": 57.15633773803711,
      "learning_rate": 4.239374051654934e-05,
      "loss": 0.3,
      "num_input_tokens_seen": 25683992,
      "step": 44255
    },
    {
      "epoch": 6.592195412570748,
      "grad_norm": 0.780366837978363,
      "learning_rate": 4.239140636092238e-05,
      "loss": 0.1135,
      "num_input_tokens_seen": 25686968,
      "step": 44260
    },
    {
      "epoch": 6.592940125111707,
      "grad_norm": 5.544763088226318,
      "learning_rate": 4.238907191148528e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 25690072,
      "step": 44265
    },
    {
      "epoch": 6.593684837652666,
      "grad_norm": 0.7473132610321045,
      "learning_rate": 4.23867371682775e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 25692824,
      "step": 44270
    },
    {
      "epoch": 6.594429550193626,
      "grad_norm": 32.51527404785156,
      "learning_rate": 4.2384402131338455e-05,
      "loss": 0.4516,
      "num_input_tokens_seen": 25695736,
      "step": 44275
    },
    {
      "epoch": 6.595174262734584,
      "grad_norm": 35.134952545166016,
      "learning_rate": 4.2382066800707606e-05,
      "loss": 0.3802,
      "num_input_tokens_seen": 25698744,
      "step": 44280
    },
    {
      "epoch": 6.595918975275543,
      "grad_norm": 8.878562927246094,
      "learning_rate": 4.237973117642441e-05,
      "loss": 0.2094,
      "num_input_tokens_seen": 25701432,
      "step": 44285
    },
    {
      "epoch": 6.596663687816503,
      "grad_norm": 0.13989891111850739,
      "learning_rate": 4.237739525852831e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 25704280,
      "step": 44290
    },
    {
      "epoch": 6.5974084003574625,
      "grad_norm": 0.1502317488193512,
      "learning_rate": 4.237505904705879e-05,
      "loss": 0.0146,
      "num_input_tokens_seen": 25707032,
      "step": 44295
    },
    {
      "epoch": 6.598153112898421,
      "grad_norm": 0.09062691032886505,
      "learning_rate": 4.23727225420553e-05,
      "loss": 0.3286,
      "num_input_tokens_seen": 25709816,
      "step": 44300
    },
    {
      "epoch": 6.59889782543938,
      "grad_norm": 0.4921051263809204,
      "learning_rate": 4.237038574355732e-05,
      "loss": 0.0297,
      "num_input_tokens_seen": 25712792,
      "step": 44305
    },
    {
      "epoch": 6.59964253798034,
      "grad_norm": 36.01318359375,
      "learning_rate": 4.236804865160433e-05,
      "loss": 0.0942,
      "num_input_tokens_seen": 25715704,
      "step": 44310
    },
    {
      "epoch": 6.600387250521299,
      "grad_norm": 0.07915907353162766,
      "learning_rate": 4.236571126623581e-05,
      "loss": 0.1996,
      "num_input_tokens_seen": 25718552,
      "step": 44315
    },
    {
      "epoch": 6.601131963062258,
      "grad_norm": 16.133499145507812,
      "learning_rate": 4.236337358749124e-05,
      "loss": 0.3703,
      "num_input_tokens_seen": 25721528,
      "step": 44320
    },
    {
      "epoch": 6.601876675603217,
      "grad_norm": 10.399291038513184,
      "learning_rate": 4.2361035615410127e-05,
      "loss": 0.2982,
      "num_input_tokens_seen": 25724280,
      "step": 44325
    },
    {
      "epoch": 6.602621388144176,
      "grad_norm": 24.928661346435547,
      "learning_rate": 4.2358697350031964e-05,
      "loss": 0.1812,
      "num_input_tokens_seen": 25727256,
      "step": 44330
    },
    {
      "epoch": 6.603366100685135,
      "grad_norm": 8.454167366027832,
      "learning_rate": 4.2356358791396244e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 25730008,
      "step": 44335
    },
    {
      "epoch": 6.604110813226095,
      "grad_norm": 0.057295095175504684,
      "learning_rate": 4.235401993954249e-05,
      "loss": 0.1462,
      "num_input_tokens_seen": 25733048,
      "step": 44340
    },
    {
      "epoch": 6.604855525767054,
      "grad_norm": 10.599953651428223,
      "learning_rate": 4.2351680794510205e-05,
      "loss": 0.1576,
      "num_input_tokens_seen": 25735768,
      "step": 44345
    },
    {
      "epoch": 6.605600238308013,
      "grad_norm": 22.966697692871094,
      "learning_rate": 4.234934135633891e-05,
      "loss": 0.4155,
      "num_input_tokens_seen": 25738776,
      "step": 44350
    },
    {
      "epoch": 6.606344950848972,
      "grad_norm": 5.752523422241211,
      "learning_rate": 4.234700162506813e-05,
      "loss": 0.1424,
      "num_input_tokens_seen": 25741592,
      "step": 44355
    },
    {
      "epoch": 6.607089663389932,
      "grad_norm": 2.0128421783447266,
      "learning_rate": 4.234466160073738e-05,
      "loss": 0.3507,
      "num_input_tokens_seen": 25744312,
      "step": 44360
    },
    {
      "epoch": 6.60783437593089,
      "grad_norm": 27.601795196533203,
      "learning_rate": 4.23423212833862e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 25747288,
      "step": 44365
    },
    {
      "epoch": 6.60857908847185,
      "grad_norm": 0.18678642809391022,
      "learning_rate": 4.233998067305413e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 25749944,
      "step": 44370
    },
    {
      "epoch": 6.609323801012809,
      "grad_norm": 8.67230224609375,
      "learning_rate": 4.233763976978071e-05,
      "loss": 0.0546,
      "num_input_tokens_seen": 25752728,
      "step": 44375
    },
    {
      "epoch": 6.6100685135537685,
      "grad_norm": 1.5277763605117798,
      "learning_rate": 4.233529857360549e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 25755704,
      "step": 44380
    },
    {
      "epoch": 6.610813226094727,
      "grad_norm": 94.28058624267578,
      "learning_rate": 4.233295708456801e-05,
      "loss": 0.4171,
      "num_input_tokens_seen": 25759000,
      "step": 44385
    },
    {
      "epoch": 6.611557938635687,
      "grad_norm": 0.04443977028131485,
      "learning_rate": 4.2330615302707856e-05,
      "loss": 0.0345,
      "num_input_tokens_seen": 25762200,
      "step": 44390
    },
    {
      "epoch": 6.612302651176646,
      "grad_norm": 0.07902207970619202,
      "learning_rate": 4.2328273228064555e-05,
      "loss": 0.328,
      "num_input_tokens_seen": 25765528,
      "step": 44395
    },
    {
      "epoch": 6.613047363717605,
      "grad_norm": 28.369251251220703,
      "learning_rate": 4.2325930860677695e-05,
      "loss": 0.7955,
      "num_input_tokens_seen": 25768472,
      "step": 44400
    },
    {
      "epoch": 6.613792076258564,
      "grad_norm": 0.7462325692176819,
      "learning_rate": 4.232358820058684e-05,
      "loss": 0.6772,
      "num_input_tokens_seen": 25771384,
      "step": 44405
    },
    {
      "epoch": 6.614536788799524,
      "grad_norm": 0.8190544843673706,
      "learning_rate": 4.232124524783157e-05,
      "loss": 0.0796,
      "num_input_tokens_seen": 25774136,
      "step": 44410
    },
    {
      "epoch": 6.615281501340482,
      "grad_norm": 0.05283230170607567,
      "learning_rate": 4.231890200245147e-05,
      "loss": 0.1526,
      "num_input_tokens_seen": 25776952,
      "step": 44415
    },
    {
      "epoch": 6.616026213881442,
      "grad_norm": 4.327188491821289,
      "learning_rate": 4.231655846448611e-05,
      "loss": 0.217,
      "num_input_tokens_seen": 25779736,
      "step": 44420
    },
    {
      "epoch": 6.616770926422401,
      "grad_norm": 6.414783477783203,
      "learning_rate": 4.2314214633975105e-05,
      "loss": 0.1972,
      "num_input_tokens_seen": 25782456,
      "step": 44425
    },
    {
      "epoch": 6.6175156389633605,
      "grad_norm": 42.568946838378906,
      "learning_rate": 4.231187051095804e-05,
      "loss": 0.2264,
      "num_input_tokens_seen": 25785656,
      "step": 44430
    },
    {
      "epoch": 6.618260351504319,
      "grad_norm": 0.4013536870479584,
      "learning_rate": 4.2309526095474514e-05,
      "loss": 0.0818,
      "num_input_tokens_seen": 25788600,
      "step": 44435
    },
    {
      "epoch": 6.619005064045279,
      "grad_norm": 17.23919105529785,
      "learning_rate": 4.230718138756414e-05,
      "loss": 0.2005,
      "num_input_tokens_seen": 25791480,
      "step": 44440
    },
    {
      "epoch": 6.619749776586238,
      "grad_norm": 57.34223937988281,
      "learning_rate": 4.2304836387266534e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 25794584,
      "step": 44445
    },
    {
      "epoch": 6.620494489127196,
      "grad_norm": 16.447616577148438,
      "learning_rate": 4.230249109462129e-05,
      "loss": 0.4722,
      "num_input_tokens_seen": 25797272,
      "step": 44450
    },
    {
      "epoch": 6.621239201668156,
      "grad_norm": 28.03075408935547,
      "learning_rate": 4.2300145509668054e-05,
      "loss": 0.2375,
      "num_input_tokens_seen": 25800376,
      "step": 44455
    },
    {
      "epoch": 6.621983914209116,
      "grad_norm": 5.738010406494141,
      "learning_rate": 4.2297799632446444e-05,
      "loss": 0.1603,
      "num_input_tokens_seen": 25803320,
      "step": 44460
    },
    {
      "epoch": 6.6227286267500745,
      "grad_norm": 7.635629653930664,
      "learning_rate": 4.229545346299609e-05,
      "loss": 0.2129,
      "num_input_tokens_seen": 25806072,
      "step": 44465
    },
    {
      "epoch": 6.623473339291033,
      "grad_norm": 3.4449379444122314,
      "learning_rate": 4.2293107001356624e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 25808920,
      "step": 44470
    },
    {
      "epoch": 6.624218051831993,
      "grad_norm": 10.19176959991455,
      "learning_rate": 4.2290760247567695e-05,
      "loss": 0.3167,
      "num_input_tokens_seen": 25811960,
      "step": 44475
    },
    {
      "epoch": 6.6249627643729525,
      "grad_norm": 0.10289892554283142,
      "learning_rate": 4.2288413201668945e-05,
      "loss": 0.0141,
      "num_input_tokens_seen": 25815064,
      "step": 44480
    },
    {
      "epoch": 6.625707476913911,
      "grad_norm": 0.16787932813167572,
      "learning_rate": 4.228606586370002e-05,
      "loss": 0.5995,
      "num_input_tokens_seen": 25817912,
      "step": 44485
    },
    {
      "epoch": 6.62645218945487,
      "grad_norm": 0.582276463508606,
      "learning_rate": 4.228371823370058e-05,
      "loss": 0.2461,
      "num_input_tokens_seen": 25820824,
      "step": 44490
    },
    {
      "epoch": 6.62719690199583,
      "grad_norm": 3.6172852516174316,
      "learning_rate": 4.228137031171029e-05,
      "loss": 0.4106,
      "num_input_tokens_seen": 25823576,
      "step": 44495
    },
    {
      "epoch": 6.627941614536788,
      "grad_norm": 18.014362335205078,
      "learning_rate": 4.227902209776881e-05,
      "loss": 0.0789,
      "num_input_tokens_seen": 25826680,
      "step": 44500
    },
    {
      "epoch": 6.628686327077748,
      "grad_norm": 34.21767807006836,
      "learning_rate": 4.227667359191582e-05,
      "loss": 0.0788,
      "num_input_tokens_seen": 25829688,
      "step": 44505
    },
    {
      "epoch": 6.629431039618707,
      "grad_norm": 32.7747688293457,
      "learning_rate": 4.227432479419099e-05,
      "loss": 0.0716,
      "num_input_tokens_seen": 25832632,
      "step": 44510
    },
    {
      "epoch": 6.6301757521596665,
      "grad_norm": 0.4560547471046448,
      "learning_rate": 4.227197570463399e-05,
      "loss": 0.2422,
      "num_input_tokens_seen": 25835448,
      "step": 44515
    },
    {
      "epoch": 6.630920464700625,
      "grad_norm": 0.18219393491744995,
      "learning_rate": 4.2269626323284514e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 25838360,
      "step": 44520
    },
    {
      "epoch": 6.631665177241585,
      "grad_norm": 0.06951700150966644,
      "learning_rate": 4.226727665018226e-05,
      "loss": 0.3822,
      "num_input_tokens_seen": 25841272,
      "step": 44525
    },
    {
      "epoch": 6.632409889782544,
      "grad_norm": 34.73323059082031,
      "learning_rate": 4.2264926685366925e-05,
      "loss": 0.2495,
      "num_input_tokens_seen": 25843992,
      "step": 44530
    },
    {
      "epoch": 6.633154602323503,
      "grad_norm": 5.406624794006348,
      "learning_rate": 4.2262576428878184e-05,
      "loss": 0.2384,
      "num_input_tokens_seen": 25846872,
      "step": 44535
    },
    {
      "epoch": 6.633899314864462,
      "grad_norm": 9.145859718322754,
      "learning_rate": 4.226022588075577e-05,
      "loss": 0.2712,
      "num_input_tokens_seen": 25849848,
      "step": 44540
    },
    {
      "epoch": 6.634644027405422,
      "grad_norm": 126.8696517944336,
      "learning_rate": 4.2257875041039375e-05,
      "loss": 0.2772,
      "num_input_tokens_seen": 25852568,
      "step": 44545
    },
    {
      "epoch": 6.6353887399463805,
      "grad_norm": 29.275333404541016,
      "learning_rate": 4.225552390976873e-05,
      "loss": 0.2629,
      "num_input_tokens_seen": 25855832,
      "step": 44550
    },
    {
      "epoch": 6.63613345248734,
      "grad_norm": 28.742713928222656,
      "learning_rate": 4.225317248698354e-05,
      "loss": 0.3386,
      "num_input_tokens_seen": 25859672,
      "step": 44555
    },
    {
      "epoch": 6.636878165028299,
      "grad_norm": 15.435644149780273,
      "learning_rate": 4.225082077272354e-05,
      "loss": 0.12,
      "num_input_tokens_seen": 25862776,
      "step": 44560
    },
    {
      "epoch": 6.6376228775692585,
      "grad_norm": 1.8500564098358154,
      "learning_rate": 4.224846876702845e-05,
      "loss": 0.0794,
      "num_input_tokens_seen": 25865624,
      "step": 44565
    },
    {
      "epoch": 6.638367590110217,
      "grad_norm": 64.67987823486328,
      "learning_rate": 4.224611646993801e-05,
      "loss": 0.2572,
      "num_input_tokens_seen": 25868472,
      "step": 44570
    },
    {
      "epoch": 6.639112302651177,
      "grad_norm": 0.013222032226622105,
      "learning_rate": 4.224376388149197e-05,
      "loss": 0.0425,
      "num_input_tokens_seen": 25871480,
      "step": 44575
    },
    {
      "epoch": 6.639857015192136,
      "grad_norm": 0.10453926026821136,
      "learning_rate": 4.2241411001730057e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 25874232,
      "step": 44580
    },
    {
      "epoch": 6.640601727733095,
      "grad_norm": 0.17588870227336884,
      "learning_rate": 4.223905783069203e-05,
      "loss": 0.0546,
      "num_input_tokens_seen": 25877112,
      "step": 44585
    },
    {
      "epoch": 6.641346440274054,
      "grad_norm": 30.551467895507812,
      "learning_rate": 4.2236704368417644e-05,
      "loss": 0.5765,
      "num_input_tokens_seen": 25879832,
      "step": 44590
    },
    {
      "epoch": 6.642091152815014,
      "grad_norm": 0.10184621065855026,
      "learning_rate": 4.223435061494666e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 25882648,
      "step": 44595
    },
    {
      "epoch": 6.6428358653559725,
      "grad_norm": 0.07620783150196075,
      "learning_rate": 4.223199657031883e-05,
      "loss": 0.2897,
      "num_input_tokens_seen": 25885592,
      "step": 44600
    },
    {
      "epoch": 6.643580577896932,
      "grad_norm": 21.199617385864258,
      "learning_rate": 4.222964223457394e-05,
      "loss": 0.2644,
      "num_input_tokens_seen": 25888376,
      "step": 44605
    },
    {
      "epoch": 6.644325290437891,
      "grad_norm": 0.3085220754146576,
      "learning_rate": 4.2227287607751756e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 25891512,
      "step": 44610
    },
    {
      "epoch": 6.6450700029788505,
      "grad_norm": 48.74942398071289,
      "learning_rate": 4.222493268989205e-05,
      "loss": 0.2862,
      "num_input_tokens_seen": 25894296,
      "step": 44615
    },
    {
      "epoch": 6.645814715519809,
      "grad_norm": 0.17931273579597473,
      "learning_rate": 4.222257748103461e-05,
      "loss": 0.0289,
      "num_input_tokens_seen": 25897400,
      "step": 44620
    },
    {
      "epoch": 6.646559428060769,
      "grad_norm": 1.4769996404647827,
      "learning_rate": 4.222022198121923e-05,
      "loss": 0.1546,
      "num_input_tokens_seen": 25900344,
      "step": 44625
    },
    {
      "epoch": 6.647304140601728,
      "grad_norm": 23.66567611694336,
      "learning_rate": 4.221786619048571e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 25903224,
      "step": 44630
    },
    {
      "epoch": 6.6480488531426865,
      "grad_norm": 0.13337861001491547,
      "learning_rate": 4.221551010887384e-05,
      "loss": 0.0347,
      "num_input_tokens_seen": 25906296,
      "step": 44635
    },
    {
      "epoch": 6.648793565683646,
      "grad_norm": 1.6196024417877197,
      "learning_rate": 4.2213153736423417e-05,
      "loss": 0.4211,
      "num_input_tokens_seen": 25908952,
      "step": 44640
    },
    {
      "epoch": 6.649538278224606,
      "grad_norm": 16.533918380737305,
      "learning_rate": 4.221079707317426e-05,
      "loss": 0.1201,
      "num_input_tokens_seen": 25911864,
      "step": 44645
    },
    {
      "epoch": 6.6502829907655645,
      "grad_norm": 103.71589660644531,
      "learning_rate": 4.220844011916617e-05,
      "loss": 0.2511,
      "num_input_tokens_seen": 25914744,
      "step": 44650
    },
    {
      "epoch": 6.651027703306523,
      "grad_norm": 0.03041830100119114,
      "learning_rate": 4.2206082874438976e-05,
      "loss": 0.1369,
      "num_input_tokens_seen": 25917816,
      "step": 44655
    },
    {
      "epoch": 6.651772415847483,
      "grad_norm": 0.03875305876135826,
      "learning_rate": 4.2203725339032505e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 25920728,
      "step": 44660
    },
    {
      "epoch": 6.652517128388443,
      "grad_norm": 2.8589980602264404,
      "learning_rate": 4.220136751298659e-05,
      "loss": 0.2561,
      "num_input_tokens_seen": 25923864,
      "step": 44665
    },
    {
      "epoch": 6.653261840929401,
      "grad_norm": 50.82847213745117,
      "learning_rate": 4.219900939634103e-05,
      "loss": 0.066,
      "num_input_tokens_seen": 25926616,
      "step": 44670
    },
    {
      "epoch": 6.65400655347036,
      "grad_norm": 0.04286317527294159,
      "learning_rate": 4.2196650989135706e-05,
      "loss": 0.1338,
      "num_input_tokens_seen": 25929304,
      "step": 44675
    },
    {
      "epoch": 6.65475126601132,
      "grad_norm": 18.669761657714844,
      "learning_rate": 4.219429229141043e-05,
      "loss": 0.0689,
      "num_input_tokens_seen": 25932024,
      "step": 44680
    },
    {
      "epoch": 6.6554959785522785,
      "grad_norm": 51.652000427246094,
      "learning_rate": 4.219193330320507e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 25934712,
      "step": 44685
    },
    {
      "epoch": 6.656240691093238,
      "grad_norm": 0.37467095255851746,
      "learning_rate": 4.2189574024559465e-05,
      "loss": 0.1493,
      "num_input_tokens_seen": 25937752,
      "step": 44690
    },
    {
      "epoch": 6.656985403634197,
      "grad_norm": 0.255268394947052,
      "learning_rate": 4.218721445551348e-05,
      "loss": 0.3776,
      "num_input_tokens_seen": 25940600,
      "step": 44695
    },
    {
      "epoch": 6.6577301161751565,
      "grad_norm": 0.8181828856468201,
      "learning_rate": 4.218485459610697e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 25943768,
      "step": 44700
    },
    {
      "epoch": 6.658474828716115,
      "grad_norm": 13.582606315612793,
      "learning_rate": 4.2182494446379805e-05,
      "loss": 0.2785,
      "num_input_tokens_seen": 25946840,
      "step": 44705
    },
    {
      "epoch": 6.659219541257075,
      "grad_norm": 70.83053588867188,
      "learning_rate": 4.218013400637187e-05,
      "loss": 0.2594,
      "num_input_tokens_seen": 25949496,
      "step": 44710
    },
    {
      "epoch": 6.659964253798034,
      "grad_norm": 5.011842250823975,
      "learning_rate": 4.217777327612303e-05,
      "loss": 0.2891,
      "num_input_tokens_seen": 25952216,
      "step": 44715
    },
    {
      "epoch": 6.660708966338993,
      "grad_norm": 0.0062374272383749485,
      "learning_rate": 4.2175412255673164e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 25955000,
      "step": 44720
    },
    {
      "epoch": 6.661453678879952,
      "grad_norm": 44.83449935913086,
      "learning_rate": 4.2173050945062165e-05,
      "loss": 0.316,
      "num_input_tokens_seen": 25957880,
      "step": 44725
    },
    {
      "epoch": 6.662198391420912,
      "grad_norm": 142.1149139404297,
      "learning_rate": 4.217068934432993e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 25960696,
      "step": 44730
    },
    {
      "epoch": 6.6629431039618705,
      "grad_norm": 0.1101510301232338,
      "learning_rate": 4.216832745351634e-05,
      "loss": 0.1708,
      "num_input_tokens_seen": 25963672,
      "step": 44735
    },
    {
      "epoch": 6.66368781650283,
      "grad_norm": 6.90632963180542,
      "learning_rate": 4.2165965272661315e-05,
      "loss": 0.2942,
      "num_input_tokens_seen": 25966424,
      "step": 44740
    },
    {
      "epoch": 6.664432529043789,
      "grad_norm": 0.028472308069467545,
      "learning_rate": 4.2163602801804745e-05,
      "loss": 0.1332,
      "num_input_tokens_seen": 25969656,
      "step": 44745
    },
    {
      "epoch": 6.665177241584749,
      "grad_norm": 7.130092620849609,
      "learning_rate": 4.216124004098656e-05,
      "loss": 0.2342,
      "num_input_tokens_seen": 25972632,
      "step": 44750
    },
    {
      "epoch": 6.665921954125707,
      "grad_norm": 20.646940231323242,
      "learning_rate": 4.2158876990246664e-05,
      "loss": 0.4314,
      "num_input_tokens_seen": 25975704,
      "step": 44755
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 35.079803466796875,
      "learning_rate": 4.215651364962498e-05,
      "loss": 0.6334,
      "num_input_tokens_seen": 25978648,
      "step": 44760
    },
    {
      "epoch": 6.667411379207626,
      "grad_norm": 50.585697174072266,
      "learning_rate": 4.215415001916144e-05,
      "loss": 0.1697,
      "num_input_tokens_seen": 25981560,
      "step": 44765
    },
    {
      "epoch": 6.668156091748585,
      "grad_norm": 18.920095443725586,
      "learning_rate": 4.215178609889596e-05,
      "loss": 0.4203,
      "num_input_tokens_seen": 25985176,
      "step": 44770
    },
    {
      "epoch": 6.668900804289544,
      "grad_norm": 1.3986314535140991,
      "learning_rate": 4.214942188886849e-05,
      "loss": 0.1189,
      "num_input_tokens_seen": 25988152,
      "step": 44775
    },
    {
      "epoch": 6.669645516830504,
      "grad_norm": 8.861532211303711,
      "learning_rate": 4.2147057389118964e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 25991032,
      "step": 44780
    },
    {
      "epoch": 6.6703902293714625,
      "grad_norm": 17.134544372558594,
      "learning_rate": 4.2144692599687334e-05,
      "loss": 0.3126,
      "num_input_tokens_seen": 25994008,
      "step": 44785
    },
    {
      "epoch": 6.671134941912422,
      "grad_norm": 0.136237233877182,
      "learning_rate": 4.214232752061355e-05,
      "loss": 0.2493,
      "num_input_tokens_seen": 25996920,
      "step": 44790
    },
    {
      "epoch": 6.671879654453381,
      "grad_norm": 0.7059711217880249,
      "learning_rate": 4.213996215193756e-05,
      "loss": 0.3598,
      "num_input_tokens_seen": 25999864,
      "step": 44795
    },
    {
      "epoch": 6.67262436699434,
      "grad_norm": 146.13278198242188,
      "learning_rate": 4.213759649369934e-05,
      "loss": 0.1714,
      "num_input_tokens_seen": 26002744,
      "step": 44800
    },
    {
      "epoch": 6.673369079535299,
      "grad_norm": 0.9102843999862671,
      "learning_rate": 4.2135230545938835e-05,
      "loss": 0.2244,
      "num_input_tokens_seen": 26005560,
      "step": 44805
    },
    {
      "epoch": 6.674113792076259,
      "grad_norm": 0.21150197088718414,
      "learning_rate": 4.213286430869603e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 26008408,
      "step": 44810
    },
    {
      "epoch": 6.674858504617218,
      "grad_norm": 0.13896718621253967,
      "learning_rate": 4.2130497782010894e-05,
      "loss": 0.1017,
      "num_input_tokens_seen": 26011352,
      "step": 44815
    },
    {
      "epoch": 6.6756032171581765,
      "grad_norm": 0.15873469412326813,
      "learning_rate": 4.212813096592341e-05,
      "loss": 0.1207,
      "num_input_tokens_seen": 26014232,
      "step": 44820
    },
    {
      "epoch": 6.676347929699136,
      "grad_norm": 3.6626410484313965,
      "learning_rate": 4.212576386047356e-05,
      "loss": 0.0814,
      "num_input_tokens_seen": 26016984,
      "step": 44825
    },
    {
      "epoch": 6.677092642240096,
      "grad_norm": 65.69419860839844,
      "learning_rate": 4.2123396465701336e-05,
      "loss": 0.4725,
      "num_input_tokens_seen": 26019736,
      "step": 44830
    },
    {
      "epoch": 6.677837354781055,
      "grad_norm": 0.016942620277404785,
      "learning_rate": 4.212102878164673e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 26023160,
      "step": 44835
    },
    {
      "epoch": 6.678582067322013,
      "grad_norm": 43.191837310791016,
      "learning_rate": 4.211866080834975e-05,
      "loss": 0.3963,
      "num_input_tokens_seen": 26025912,
      "step": 44840
    },
    {
      "epoch": 6.679326779862973,
      "grad_norm": 0.07387573271989822,
      "learning_rate": 4.2116292545850386e-05,
      "loss": 0.3635,
      "num_input_tokens_seen": 26028856,
      "step": 44845
    },
    {
      "epoch": 6.680071492403932,
      "grad_norm": 0.20962831377983093,
      "learning_rate": 4.2113923994188665e-05,
      "loss": 0.2134,
      "num_input_tokens_seen": 26031576,
      "step": 44850
    },
    {
      "epoch": 6.680816204944891,
      "grad_norm": 0.027863236144185066,
      "learning_rate": 4.211155515340458e-05,
      "loss": 0.1199,
      "num_input_tokens_seen": 26034488,
      "step": 44855
    },
    {
      "epoch": 6.68156091748585,
      "grad_norm": 0.10889144986867905,
      "learning_rate": 4.210918602353817e-05,
      "loss": 0.2129,
      "num_input_tokens_seen": 26037304,
      "step": 44860
    },
    {
      "epoch": 6.68230563002681,
      "grad_norm": 0.14339414238929749,
      "learning_rate": 4.210681660462945e-05,
      "loss": 0.3461,
      "num_input_tokens_seen": 26040216,
      "step": 44865
    },
    {
      "epoch": 6.6830503425677685,
      "grad_norm": 18.83621597290039,
      "learning_rate": 4.210444689671845e-05,
      "loss": 0.204,
      "num_input_tokens_seen": 26043480,
      "step": 44870
    },
    {
      "epoch": 6.683795055108728,
      "grad_norm": 12.197997093200684,
      "learning_rate": 4.2102076899845207e-05,
      "loss": 0.1806,
      "num_input_tokens_seen": 26046840,
      "step": 44875
    },
    {
      "epoch": 6.684539767649687,
      "grad_norm": 91.73605346679688,
      "learning_rate": 4.209970661404975e-05,
      "loss": 0.266,
      "num_input_tokens_seen": 26049816,
      "step": 44880
    },
    {
      "epoch": 6.685284480190647,
      "grad_norm": 41.04721450805664,
      "learning_rate": 4.209733603937214e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 26052696,
      "step": 44885
    },
    {
      "epoch": 6.686029192731605,
      "grad_norm": 1.7785929441452026,
      "learning_rate": 4.2094965175852395e-05,
      "loss": 0.0777,
      "num_input_tokens_seen": 26055352,
      "step": 44890
    },
    {
      "epoch": 6.686773905272565,
      "grad_norm": 12.086324691772461,
      "learning_rate": 4.209259402353061e-05,
      "loss": 0.3934,
      "num_input_tokens_seen": 26058136,
      "step": 44895
    },
    {
      "epoch": 6.687518617813524,
      "grad_norm": 0.8708397746086121,
      "learning_rate": 4.20902225824468e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 26061240,
      "step": 44900
    },
    {
      "epoch": 6.688263330354483,
      "grad_norm": 0.06110738590359688,
      "learning_rate": 4.208785085264106e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 26063928,
      "step": 44905
    },
    {
      "epoch": 6.689008042895442,
      "grad_norm": 0.08666879683732986,
      "learning_rate": 4.2085478834153454e-05,
      "loss": 0.2167,
      "num_input_tokens_seen": 26066392,
      "step": 44910
    },
    {
      "epoch": 6.689752755436402,
      "grad_norm": 46.24000549316406,
      "learning_rate": 4.208310652702404e-05,
      "loss": 0.2637,
      "num_input_tokens_seen": 26069016,
      "step": 44915
    },
    {
      "epoch": 6.690497467977361,
      "grad_norm": 0.29424387216567993,
      "learning_rate": 4.208073393129291e-05,
      "loss": 0.0979,
      "num_input_tokens_seen": 26072152,
      "step": 44920
    },
    {
      "epoch": 6.69124218051832,
      "grad_norm": 2.1948888301849365,
      "learning_rate": 4.207836104700013e-05,
      "loss": 0.2401,
      "num_input_tokens_seen": 26075000,
      "step": 44925
    },
    {
      "epoch": 6.691986893059279,
      "grad_norm": 80.87666320800781,
      "learning_rate": 4.207598787418581e-05,
      "loss": 0.2231,
      "num_input_tokens_seen": 26078136,
      "step": 44930
    },
    {
      "epoch": 6.692731605600239,
      "grad_norm": 1.1764390468597412,
      "learning_rate": 4.207361441289002e-05,
      "loss": 0.298,
      "num_input_tokens_seen": 26081080,
      "step": 44935
    },
    {
      "epoch": 6.693476318141197,
      "grad_norm": 19.266817092895508,
      "learning_rate": 4.207124066315287e-05,
      "loss": 0.2633,
      "num_input_tokens_seen": 26083832,
      "step": 44940
    },
    {
      "epoch": 6.694221030682157,
      "grad_norm": 2.095201253890991,
      "learning_rate": 4.206886662501446e-05,
      "loss": 0.296,
      "num_input_tokens_seen": 26086840,
      "step": 44945
    },
    {
      "epoch": 6.694965743223116,
      "grad_norm": 80.56346893310547,
      "learning_rate": 4.2066492298514895e-05,
      "loss": 0.0641,
      "num_input_tokens_seen": 26089912,
      "step": 44950
    },
    {
      "epoch": 6.695710455764075,
      "grad_norm": 92.1619873046875,
      "learning_rate": 4.2064117683694294e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 26092600,
      "step": 44955
    },
    {
      "epoch": 6.696455168305034,
      "grad_norm": 76.39657592773438,
      "learning_rate": 4.206174278059276e-05,
      "loss": 0.4027,
      "num_input_tokens_seen": 26095576,
      "step": 44960
    },
    {
      "epoch": 6.697199880845994,
      "grad_norm": 4.0178093910217285,
      "learning_rate": 4.205936758925043e-05,
      "loss": 0.0818,
      "num_input_tokens_seen": 26098520,
      "step": 44965
    },
    {
      "epoch": 6.697944593386953,
      "grad_norm": 0.0463922917842865,
      "learning_rate": 4.2056992109707415e-05,
      "loss": 0.0536,
      "num_input_tokens_seen": 26101592,
      "step": 44970
    },
    {
      "epoch": 6.698689305927912,
      "grad_norm": 64.84255981445312,
      "learning_rate": 4.205461634200386e-05,
      "loss": 0.4335,
      "num_input_tokens_seen": 26105816,
      "step": 44975
    },
    {
      "epoch": 6.699434018468871,
      "grad_norm": 20.5251407623291,
      "learning_rate": 4.2052240286179886e-05,
      "loss": 0.4473,
      "num_input_tokens_seen": 26108792,
      "step": 44980
    },
    {
      "epoch": 6.70017873100983,
      "grad_norm": 37.06302261352539,
      "learning_rate": 4.204986394227566e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 26111640,
      "step": 44985
    },
    {
      "epoch": 6.700923443550789,
      "grad_norm": 48.324867248535156,
      "learning_rate": 4.20474873103313e-05,
      "loss": 0.5534,
      "num_input_tokens_seen": 26114616,
      "step": 44990
    },
    {
      "epoch": 6.701668156091749,
      "grad_norm": 4.647061347961426,
      "learning_rate": 4.204511039038697e-05,
      "loss": 0.2003,
      "num_input_tokens_seen": 26117688,
      "step": 44995
    },
    {
      "epoch": 6.702412868632708,
      "grad_norm": 5.564125061035156,
      "learning_rate": 4.204273318248283e-05,
      "loss": 0.2897,
      "num_input_tokens_seen": 26120472,
      "step": 45000
    },
    {
      "epoch": 6.703157581173667,
      "grad_norm": 3.8913915157318115,
      "learning_rate": 4.204035568665903e-05,
      "loss": 0.0494,
      "num_input_tokens_seen": 26123384,
      "step": 45005
    },
    {
      "epoch": 6.703902293714626,
      "grad_norm": 0.4011601209640503,
      "learning_rate": 4.203797790295574e-05,
      "loss": 0.1736,
      "num_input_tokens_seen": 26126232,
      "step": 45010
    },
    {
      "epoch": 6.704647006255585,
      "grad_norm": 0.01650622859597206,
      "learning_rate": 4.203559983141312e-05,
      "loss": 0.283,
      "num_input_tokens_seen": 26129176,
      "step": 45015
    },
    {
      "epoch": 6.705391718796545,
      "grad_norm": 0.31669119000434875,
      "learning_rate": 4.2033221472071364e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 26132312,
      "step": 45020
    },
    {
      "epoch": 6.706136431337503,
      "grad_norm": 5.133070468902588,
      "learning_rate": 4.2030842824970645e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 26134840,
      "step": 45025
    },
    {
      "epoch": 6.706881143878463,
      "grad_norm": 0.09021329879760742,
      "learning_rate": 4.2028463890151144e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 26137720,
      "step": 45030
    },
    {
      "epoch": 6.707625856419422,
      "grad_norm": 0.011290384456515312,
      "learning_rate": 4.202608466765306e-05,
      "loss": 0.0784,
      "num_input_tokens_seen": 26140664,
      "step": 45035
    },
    {
      "epoch": 6.708370568960381,
      "grad_norm": 0.03445383161306381,
      "learning_rate": 4.202370515751657e-05,
      "loss": 0.2264,
      "num_input_tokens_seen": 26143640,
      "step": 45040
    },
    {
      "epoch": 6.70911528150134,
      "grad_norm": 20.127817153930664,
      "learning_rate": 4.2021325359781885e-05,
      "loss": 0.1555,
      "num_input_tokens_seen": 26146776,
      "step": 45045
    },
    {
      "epoch": 6.7098599940423,
      "grad_norm": 0.27474790811538696,
      "learning_rate": 4.201894527448921e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 26149720,
      "step": 45050
    },
    {
      "epoch": 6.710604706583259,
      "grad_norm": 0.17825286090373993,
      "learning_rate": 4.2016564901678744e-05,
      "loss": 0.7009,
      "num_input_tokens_seen": 26152568,
      "step": 45055
    },
    {
      "epoch": 6.711349419124218,
      "grad_norm": 0.818145215511322,
      "learning_rate": 4.201418424139072e-05,
      "loss": 0.2049,
      "num_input_tokens_seen": 26155224,
      "step": 45060
    },
    {
      "epoch": 6.712094131665177,
      "grad_norm": 6.178448677062988,
      "learning_rate": 4.201180329366534e-05,
      "loss": 0.0201,
      "num_input_tokens_seen": 26158200,
      "step": 45065
    },
    {
      "epoch": 6.712838844206137,
      "grad_norm": 30.34330177307129,
      "learning_rate": 4.200942205854282e-05,
      "loss": 0.2845,
      "num_input_tokens_seen": 26161048,
      "step": 45070
    },
    {
      "epoch": 6.713583556747095,
      "grad_norm": 0.2684803307056427,
      "learning_rate": 4.2007040536063424e-05,
      "loss": 0.4303,
      "num_input_tokens_seen": 26164152,
      "step": 45075
    },
    {
      "epoch": 6.714328269288055,
      "grad_norm": 68.20938873291016,
      "learning_rate": 4.200465872626736e-05,
      "loss": 0.4665,
      "num_input_tokens_seen": 26166776,
      "step": 45080
    },
    {
      "epoch": 6.715072981829014,
      "grad_norm": 41.236854553222656,
      "learning_rate": 4.200227662919487e-05,
      "loss": 0.3453,
      "num_input_tokens_seen": 26169528,
      "step": 45085
    },
    {
      "epoch": 6.7158176943699734,
      "grad_norm": 20.235210418701172,
      "learning_rate": 4.1999894244886184e-05,
      "loss": 0.0921,
      "num_input_tokens_seen": 26172376,
      "step": 45090
    },
    {
      "epoch": 6.716562406910932,
      "grad_norm": 0.19510531425476074,
      "learning_rate": 4.1997511573381575e-05,
      "loss": 0.0277,
      "num_input_tokens_seen": 26175224,
      "step": 45095
    },
    {
      "epoch": 6.717307119451892,
      "grad_norm": 9.014617919921875,
      "learning_rate": 4.199512861472128e-05,
      "loss": 0.2184,
      "num_input_tokens_seen": 26178008,
      "step": 45100
    },
    {
      "epoch": 6.718051831992851,
      "grad_norm": 31.596572875976562,
      "learning_rate": 4.1992745368945554e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 26180824,
      "step": 45105
    },
    {
      "epoch": 6.71879654453381,
      "grad_norm": 30.274484634399414,
      "learning_rate": 4.199036183609467e-05,
      "loss": 0.2438,
      "num_input_tokens_seen": 26183384,
      "step": 45110
    },
    {
      "epoch": 6.719541257074769,
      "grad_norm": 0.124504953622818,
      "learning_rate": 4.1987978016208895e-05,
      "loss": 0.1433,
      "num_input_tokens_seen": 26186040,
      "step": 45115
    },
    {
      "epoch": 6.720285969615729,
      "grad_norm": 59.823455810546875,
      "learning_rate": 4.1985593909328494e-05,
      "loss": 0.3377,
      "num_input_tokens_seen": 26188888,
      "step": 45120
    },
    {
      "epoch": 6.721030682156687,
      "grad_norm": 33.44083023071289,
      "learning_rate": 4.198320951549375e-05,
      "loss": 0.1456,
      "num_input_tokens_seen": 26191768,
      "step": 45125
    },
    {
      "epoch": 6.721775394697647,
      "grad_norm": 0.7931725382804871,
      "learning_rate": 4.1980824834744934e-05,
      "loss": 0.2295,
      "num_input_tokens_seen": 26194680,
      "step": 45130
    },
    {
      "epoch": 6.722520107238606,
      "grad_norm": 1.3931316137313843,
      "learning_rate": 4.1978439867122344e-05,
      "loss": 0.086,
      "num_input_tokens_seen": 26197624,
      "step": 45135
    },
    {
      "epoch": 6.7232648197795655,
      "grad_norm": 97.76537322998047,
      "learning_rate": 4.197605461266627e-05,
      "loss": 0.1962,
      "num_input_tokens_seen": 26200984,
      "step": 45140
    },
    {
      "epoch": 6.724009532320524,
      "grad_norm": 0.9901348948478699,
      "learning_rate": 4.197366907141701e-05,
      "loss": 0.3946,
      "num_input_tokens_seen": 26203832,
      "step": 45145
    },
    {
      "epoch": 6.724754244861483,
      "grad_norm": 0.07971134036779404,
      "learning_rate": 4.197128324341486e-05,
      "loss": 0.0286,
      "num_input_tokens_seen": 26206840,
      "step": 45150
    },
    {
      "epoch": 6.725498957402443,
      "grad_norm": 0.5027295351028442,
      "learning_rate": 4.196889712870013e-05,
      "loss": 0.1698,
      "num_input_tokens_seen": 26209560,
      "step": 45155
    },
    {
      "epoch": 6.726243669943402,
      "grad_norm": 0.459146112203598,
      "learning_rate": 4.196651072731313e-05,
      "loss": 0.2261,
      "num_input_tokens_seen": 26212664,
      "step": 45160
    },
    {
      "epoch": 6.726988382484361,
      "grad_norm": 11.201822280883789,
      "learning_rate": 4.196412403929417e-05,
      "loss": 0.0848,
      "num_input_tokens_seen": 26215448,
      "step": 45165
    },
    {
      "epoch": 6.72773309502532,
      "grad_norm": 0.01636626571416855,
      "learning_rate": 4.196173706468358e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 26218648,
      "step": 45170
    },
    {
      "epoch": 6.7284778075662794,
      "grad_norm": 0.3369770348072052,
      "learning_rate": 4.195934980352169e-05,
      "loss": 0.2206,
      "num_input_tokens_seen": 26221688,
      "step": 45175
    },
    {
      "epoch": 6.729222520107239,
      "grad_norm": 0.06294883042573929,
      "learning_rate": 4.195696225584881e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 26224696,
      "step": 45180
    },
    {
      "epoch": 6.729967232648198,
      "grad_norm": 0.35451093316078186,
      "learning_rate": 4.195457442170528e-05,
      "loss": 0.2813,
      "num_input_tokens_seen": 26227576,
      "step": 45185
    },
    {
      "epoch": 6.730711945189157,
      "grad_norm": 0.08815187215805054,
      "learning_rate": 4.195218630113146e-05,
      "loss": 0.3086,
      "num_input_tokens_seen": 26230136,
      "step": 45190
    },
    {
      "epoch": 6.731456657730116,
      "grad_norm": 36.034019470214844,
      "learning_rate": 4.1949797894167676e-05,
      "loss": 0.4342,
      "num_input_tokens_seen": 26233176,
      "step": 45195
    },
    {
      "epoch": 6.732201370271075,
      "grad_norm": 0.1424730122089386,
      "learning_rate": 4.1947409200854296e-05,
      "loss": 0.1194,
      "num_input_tokens_seen": 26236504,
      "step": 45200
    },
    {
      "epoch": 6.732946082812035,
      "grad_norm": 0.0561717189848423,
      "learning_rate": 4.1945020221231643e-05,
      "loss": 0.3396,
      "num_input_tokens_seen": 26239704,
      "step": 45205
    },
    {
      "epoch": 6.733690795352993,
      "grad_norm": 0.11903366446495056,
      "learning_rate": 4.194263095534011e-05,
      "loss": 0.1246,
      "num_input_tokens_seen": 26242648,
      "step": 45210
    },
    {
      "epoch": 6.734435507893953,
      "grad_norm": 0.058527622371912,
      "learning_rate": 4.194024140322004e-05,
      "loss": 0.2951,
      "num_input_tokens_seen": 26245560,
      "step": 45215
    },
    {
      "epoch": 6.735180220434912,
      "grad_norm": 0.03693922236561775,
      "learning_rate": 4.193785156491181e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 26248248,
      "step": 45220
    },
    {
      "epoch": 6.7359249329758715,
      "grad_norm": 0.347646564245224,
      "learning_rate": 4.193546144045579e-05,
      "loss": 0.091,
      "num_input_tokens_seen": 26251384,
      "step": 45225
    },
    {
      "epoch": 6.73666964551683,
      "grad_norm": 0.4103003144264221,
      "learning_rate": 4.193307102989237e-05,
      "loss": 0.105,
      "num_input_tokens_seen": 26254168,
      "step": 45230
    },
    {
      "epoch": 6.73741435805779,
      "grad_norm": 33.37963104248047,
      "learning_rate": 4.1930680333261915e-05,
      "loss": 0.3824,
      "num_input_tokens_seen": 26257368,
      "step": 45235
    },
    {
      "epoch": 6.738159070598749,
      "grad_norm": 69.50177764892578,
      "learning_rate": 4.1928289350604826e-05,
      "loss": 0.3668,
      "num_input_tokens_seen": 26260344,
      "step": 45240
    },
    {
      "epoch": 6.738903783139708,
      "grad_norm": 2.1053600311279297,
      "learning_rate": 4.19258980819615e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 26263192,
      "step": 45245
    },
    {
      "epoch": 6.739648495680667,
      "grad_norm": 0.0901818573474884,
      "learning_rate": 4.192350652737232e-05,
      "loss": 0.2539,
      "num_input_tokens_seen": 26266008,
      "step": 45250
    },
    {
      "epoch": 6.740393208221627,
      "grad_norm": 10.60344409942627,
      "learning_rate": 4.19211146868777e-05,
      "loss": 0.0325,
      "num_input_tokens_seen": 26269016,
      "step": 45255
    },
    {
      "epoch": 6.7411379207625854,
      "grad_norm": 0.03461555019021034,
      "learning_rate": 4.1918722560518045e-05,
      "loss": 0.2243,
      "num_input_tokens_seen": 26271864,
      "step": 45260
    },
    {
      "epoch": 6.741882633303545,
      "grad_norm": 0.10695718973875046,
      "learning_rate": 4.191633014833377e-05,
      "loss": 0.0174,
      "num_input_tokens_seen": 26274520,
      "step": 45265
    },
    {
      "epoch": 6.742627345844504,
      "grad_norm": 0.021780820563435555,
      "learning_rate": 4.191393745036529e-05,
      "loss": 0.1313,
      "num_input_tokens_seen": 26277272,
      "step": 45270
    },
    {
      "epoch": 6.7433720583854635,
      "grad_norm": 23.908031463623047,
      "learning_rate": 4.191154446665303e-05,
      "loss": 0.4014,
      "num_input_tokens_seen": 26280120,
      "step": 45275
    },
    {
      "epoch": 6.744116770926422,
      "grad_norm": 0.07960211485624313,
      "learning_rate": 4.19091511972374e-05,
      "loss": 0.196,
      "num_input_tokens_seen": 26283352,
      "step": 45280
    },
    {
      "epoch": 6.744861483467382,
      "grad_norm": 21.25095558166504,
      "learning_rate": 4.1906757642158865e-05,
      "loss": 0.0627,
      "num_input_tokens_seen": 26286552,
      "step": 45285
    },
    {
      "epoch": 6.745606196008341,
      "grad_norm": 7.653707027435303,
      "learning_rate": 4.1904363801457835e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 26289528,
      "step": 45290
    },
    {
      "epoch": 6.7463509085493,
      "grad_norm": 20.06832504272461,
      "learning_rate": 4.1901969675174755e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 26292376,
      "step": 45295
    },
    {
      "epoch": 6.747095621090259,
      "grad_norm": 44.3415641784668,
      "learning_rate": 4.189957526335009e-05,
      "loss": 0.215,
      "num_input_tokens_seen": 26295384,
      "step": 45300
    },
    {
      "epoch": 6.747840333631219,
      "grad_norm": 1.1386380195617676,
      "learning_rate": 4.1897180566024266e-05,
      "loss": 0.5904,
      "num_input_tokens_seen": 26298296,
      "step": 45305
    },
    {
      "epoch": 6.7485850461721775,
      "grad_norm": 0.11278751492500305,
      "learning_rate": 4.189478558323775e-05,
      "loss": 0.026,
      "num_input_tokens_seen": 26301048,
      "step": 45310
    },
    {
      "epoch": 6.749329758713137,
      "grad_norm": 95.1405029296875,
      "learning_rate": 4.1892390315031e-05,
      "loss": 0.092,
      "num_input_tokens_seen": 26303704,
      "step": 45315
    },
    {
      "epoch": 6.750074471254096,
      "grad_norm": 0.18014414608478546,
      "learning_rate": 4.188999476144449e-05,
      "loss": 0.1247,
      "num_input_tokens_seen": 26306648,
      "step": 45320
    },
    {
      "epoch": 6.7508191837950555,
      "grad_norm": 11.959348678588867,
      "learning_rate": 4.188759892251868e-05,
      "loss": 0.0319,
      "num_input_tokens_seen": 26309688,
      "step": 45325
    },
    {
      "epoch": 6.751563896336014,
      "grad_norm": 0.02217838726937771,
      "learning_rate": 4.188520279829406e-05,
      "loss": 0.2426,
      "num_input_tokens_seen": 26312536,
      "step": 45330
    },
    {
      "epoch": 6.752308608876973,
      "grad_norm": 0.8890147805213928,
      "learning_rate": 4.188280638881109e-05,
      "loss": 0.1101,
      "num_input_tokens_seen": 26315352,
      "step": 45335
    },
    {
      "epoch": 6.753053321417933,
      "grad_norm": 12.160296440124512,
      "learning_rate": 4.188040969411027e-05,
      "loss": 0.1794,
      "num_input_tokens_seen": 26318200,
      "step": 45340
    },
    {
      "epoch": 6.753798033958892,
      "grad_norm": 0.03346488997340202,
      "learning_rate": 4.187801271423207e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 26320920,
      "step": 45345
    },
    {
      "epoch": 6.754542746499851,
      "grad_norm": 12.874152183532715,
      "learning_rate": 4.187561544921702e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 26323384,
      "step": 45350
    },
    {
      "epoch": 6.75528745904081,
      "grad_norm": 61.61015319824219,
      "learning_rate": 4.187321789910559e-05,
      "loss": 0.3215,
      "num_input_tokens_seen": 26326488,
      "step": 45355
    },
    {
      "epoch": 6.7560321715817695,
      "grad_norm": 31.089624404907227,
      "learning_rate": 4.1870820063938296e-05,
      "loss": 0.1944,
      "num_input_tokens_seen": 26329464,
      "step": 45360
    },
    {
      "epoch": 6.756776884122728,
      "grad_norm": 2.5598015785217285,
      "learning_rate": 4.186842194375564e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 26332376,
      "step": 45365
    },
    {
      "epoch": 6.757521596663688,
      "grad_norm": 8.264270782470703,
      "learning_rate": 4.1866023538598136e-05,
      "loss": 0.0707,
      "num_input_tokens_seen": 26335224,
      "step": 45370
    },
    {
      "epoch": 6.758266309204647,
      "grad_norm": 58.8162727355957,
      "learning_rate": 4.186362484850631e-05,
      "loss": 0.1973,
      "num_input_tokens_seen": 26338168,
      "step": 45375
    },
    {
      "epoch": 6.759011021745606,
      "grad_norm": 53.03853988647461,
      "learning_rate": 4.1861225873520684e-05,
      "loss": 0.4117,
      "num_input_tokens_seen": 26341208,
      "step": 45380
    },
    {
      "epoch": 6.759755734286565,
      "grad_norm": 0.08435432612895966,
      "learning_rate": 4.185882661368178e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 26344408,
      "step": 45385
    },
    {
      "epoch": 6.760500446827525,
      "grad_norm": 22.289501190185547,
      "learning_rate": 4.185642706903014e-05,
      "loss": 0.1767,
      "num_input_tokens_seen": 26347384,
      "step": 45390
    },
    {
      "epoch": 6.7612451593684835,
      "grad_norm": 0.04654296487569809,
      "learning_rate": 4.185402723960629e-05,
      "loss": 0.1985,
      "num_input_tokens_seen": 26350200,
      "step": 45395
    },
    {
      "epoch": 6.761989871909443,
      "grad_norm": 17.932479858398438,
      "learning_rate": 4.185162712545079e-05,
      "loss": 0.1656,
      "num_input_tokens_seen": 26353272,
      "step": 45400
    },
    {
      "epoch": 6.762734584450402,
      "grad_norm": 1.1794747114181519,
      "learning_rate": 4.1849226726604165e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 26356056,
      "step": 45405
    },
    {
      "epoch": 6.7634792969913615,
      "grad_norm": 44.10441970825195,
      "learning_rate": 4.184682604310698e-05,
      "loss": 0.5338,
      "num_input_tokens_seen": 26359000,
      "step": 45410
    },
    {
      "epoch": 6.76422400953232,
      "grad_norm": 20.49026107788086,
      "learning_rate": 4.18444250749998e-05,
      "loss": 0.3011,
      "num_input_tokens_seen": 26362200,
      "step": 45415
    },
    {
      "epoch": 6.76496872207328,
      "grad_norm": 0.0673341155052185,
      "learning_rate": 4.184202382232317e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 26364856,
      "step": 45420
    },
    {
      "epoch": 6.765713434614239,
      "grad_norm": 41.94047927856445,
      "learning_rate": 4.183962228511767e-05,
      "loss": 0.3375,
      "num_input_tokens_seen": 26367864,
      "step": 45425
    },
    {
      "epoch": 6.766458147155198,
      "grad_norm": 33.65166473388672,
      "learning_rate": 4.183722046342386e-05,
      "loss": 0.2781,
      "num_input_tokens_seen": 26370872,
      "step": 45430
    },
    {
      "epoch": 6.767202859696157,
      "grad_norm": 56.672340393066406,
      "learning_rate": 4.1834818357282336e-05,
      "loss": 0.4681,
      "num_input_tokens_seen": 26373464,
      "step": 45435
    },
    {
      "epoch": 6.767947572237117,
      "grad_norm": 0.11036646366119385,
      "learning_rate": 4.183241596673366e-05,
      "loss": 0.122,
      "num_input_tokens_seen": 26376120,
      "step": 45440
    },
    {
      "epoch": 6.7686922847780755,
      "grad_norm": 0.05556613951921463,
      "learning_rate": 4.183001329181843e-05,
      "loss": 0.0265,
      "num_input_tokens_seen": 26378744,
      "step": 45445
    },
    {
      "epoch": 6.769436997319035,
      "grad_norm": 0.3871867060661316,
      "learning_rate": 4.1827610332577214e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 26381784,
      "step": 45450
    },
    {
      "epoch": 6.770181709859994,
      "grad_norm": 11.142254829406738,
      "learning_rate": 4.1825207089050634e-05,
      "loss": 0.0141,
      "num_input_tokens_seen": 26384696,
      "step": 45455
    },
    {
      "epoch": 6.7709264224009535,
      "grad_norm": 0.017448799684643745,
      "learning_rate": 4.182280356127928e-05,
      "loss": 0.2602,
      "num_input_tokens_seen": 26387576,
      "step": 45460
    },
    {
      "epoch": 6.771671134941912,
      "grad_norm": 35.1280517578125,
      "learning_rate": 4.182039974930376e-05,
      "loss": 0.212,
      "num_input_tokens_seen": 26390360,
      "step": 45465
    },
    {
      "epoch": 6.772415847482872,
      "grad_norm": 3.0435855388641357,
      "learning_rate": 4.1817995653164675e-05,
      "loss": 0.0919,
      "num_input_tokens_seen": 26393528,
      "step": 45470
    },
    {
      "epoch": 6.773160560023831,
      "grad_norm": 45.140625,
      "learning_rate": 4.1815591272902654e-05,
      "loss": 0.2834,
      "num_input_tokens_seen": 26396248,
      "step": 45475
    },
    {
      "epoch": 6.77390527256479,
      "grad_norm": 0.2930893301963806,
      "learning_rate": 4.1813186608558305e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 26399032,
      "step": 45480
    },
    {
      "epoch": 6.774649985105749,
      "grad_norm": 41.727569580078125,
      "learning_rate": 4.181078166017226e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 26402296,
      "step": 45485
    },
    {
      "epoch": 6.775394697646709,
      "grad_norm": 0.022032225504517555,
      "learning_rate": 4.180837642778513e-05,
      "loss": 0.2759,
      "num_input_tokens_seen": 26405720,
      "step": 45490
    },
    {
      "epoch": 6.7761394101876675,
      "grad_norm": 22.015647888183594,
      "learning_rate": 4.180597091143759e-05,
      "loss": 0.339,
      "num_input_tokens_seen": 26408408,
      "step": 45495
    },
    {
      "epoch": 6.776884122728626,
      "grad_norm": 0.03136793151497841,
      "learning_rate": 4.1803565111170227e-05,
      "loss": 0.3609,
      "num_input_tokens_seen": 26411224,
      "step": 45500
    },
    {
      "epoch": 6.777628835269586,
      "grad_norm": 0.09210855513811111,
      "learning_rate": 4.180115902702372e-05,
      "loss": 0.0456,
      "num_input_tokens_seen": 26414200,
      "step": 45505
    },
    {
      "epoch": 6.778373547810546,
      "grad_norm": 0.7659096717834473,
      "learning_rate": 4.179875265903871e-05,
      "loss": 0.1431,
      "num_input_tokens_seen": 26417144,
      "step": 45510
    },
    {
      "epoch": 6.779118260351504,
      "grad_norm": 46.615901947021484,
      "learning_rate": 4.1796346007255844e-05,
      "loss": 0.2226,
      "num_input_tokens_seen": 26419928,
      "step": 45515
    },
    {
      "epoch": 6.779862972892463,
      "grad_norm": 24.52053451538086,
      "learning_rate": 4.1793939071715786e-05,
      "loss": 0.016,
      "num_input_tokens_seen": 26422968,
      "step": 45520
    },
    {
      "epoch": 6.780607685433423,
      "grad_norm": 28.13670539855957,
      "learning_rate": 4.1791531852459196e-05,
      "loss": 0.1195,
      "num_input_tokens_seen": 26425784,
      "step": 45525
    },
    {
      "epoch": 6.781352397974382,
      "grad_norm": 1.2563859224319458,
      "learning_rate": 4.1789124349526745e-05,
      "loss": 0.133,
      "num_input_tokens_seen": 26428472,
      "step": 45530
    },
    {
      "epoch": 6.782097110515341,
      "grad_norm": 49.426536560058594,
      "learning_rate": 4.178671656295909e-05,
      "loss": 0.2394,
      "num_input_tokens_seen": 26431576,
      "step": 45535
    },
    {
      "epoch": 6.7828418230563,
      "grad_norm": 6.9582414627075195,
      "learning_rate": 4.1784308492796926e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 26434488,
      "step": 45540
    },
    {
      "epoch": 6.7835865355972595,
      "grad_norm": 36.9940299987793,
      "learning_rate": 4.1781900139080933e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 26437112,
      "step": 45545
    },
    {
      "epoch": 6.784331248138218,
      "grad_norm": 23.35930633544922,
      "learning_rate": 4.1779491501851786e-05,
      "loss": 0.3388,
      "num_input_tokens_seen": 26439992,
      "step": 45550
    },
    {
      "epoch": 6.785075960679178,
      "grad_norm": 2.911790132522583,
      "learning_rate": 4.177708258115019e-05,
      "loss": 0.115,
      "num_input_tokens_seen": 26443000,
      "step": 45555
    },
    {
      "epoch": 6.785820673220137,
      "grad_norm": 0.5859716534614563,
      "learning_rate": 4.177467337701683e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 26445784,
      "step": 45560
    },
    {
      "epoch": 6.786565385761096,
      "grad_norm": 19.888235092163086,
      "learning_rate": 4.177226388949241e-05,
      "loss": 0.1805,
      "num_input_tokens_seen": 26448600,
      "step": 45565
    },
    {
      "epoch": 6.787310098302055,
      "grad_norm": 1.5362930297851562,
      "learning_rate": 4.176985411861765e-05,
      "loss": 0.0901,
      "num_input_tokens_seen": 26451384,
      "step": 45570
    },
    {
      "epoch": 6.788054810843015,
      "grad_norm": 19.454357147216797,
      "learning_rate": 4.1767444064433244e-05,
      "loss": 0.2403,
      "num_input_tokens_seen": 26454648,
      "step": 45575
    },
    {
      "epoch": 6.7887995233839735,
      "grad_norm": 0.028365807607769966,
      "learning_rate": 4.1765033726979906e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 26457368,
      "step": 45580
    },
    {
      "epoch": 6.789544235924933,
      "grad_norm": 60.80424118041992,
      "learning_rate": 4.176262310629837e-05,
      "loss": 0.3289,
      "num_input_tokens_seen": 26459992,
      "step": 45585
    },
    {
      "epoch": 6.790288948465892,
      "grad_norm": 18.311180114746094,
      "learning_rate": 4.176021220242935e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 26462744,
      "step": 45590
    },
    {
      "epoch": 6.791033661006852,
      "grad_norm": 21.331111907958984,
      "learning_rate": 4.175780101541358e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 26465432,
      "step": 45595
    },
    {
      "epoch": 6.79177837354781,
      "grad_norm": 14.887852668762207,
      "learning_rate": 4.175538954529179e-05,
      "loss": 0.2053,
      "num_input_tokens_seen": 26468280,
      "step": 45600
    },
    {
      "epoch": 6.79252308608877,
      "grad_norm": 0.11743485182523727,
      "learning_rate": 4.175297779210473e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 26470968,
      "step": 45605
    },
    {
      "epoch": 6.793267798629729,
      "grad_norm": 0.24177108705043793,
      "learning_rate": 4.1750565755893134e-05,
      "loss": 0.3584,
      "num_input_tokens_seen": 26473688,
      "step": 45610
    },
    {
      "epoch": 6.794012511170688,
      "grad_norm": 0.03995151072740555,
      "learning_rate": 4.174815343669775e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 26476696,
      "step": 45615
    },
    {
      "epoch": 6.794757223711647,
      "grad_norm": 0.06519948691129684,
      "learning_rate": 4.1745740834559335e-05,
      "loss": 0.3817,
      "num_input_tokens_seen": 26479832,
      "step": 45620
    },
    {
      "epoch": 6.795501936252607,
      "grad_norm": 0.03344712033867836,
      "learning_rate": 4.174332794951866e-05,
      "loss": 0.4201,
      "num_input_tokens_seen": 26482680,
      "step": 45625
    },
    {
      "epoch": 6.7962466487935655,
      "grad_norm": 11.501232147216797,
      "learning_rate": 4.174091478161646e-05,
      "loss": 0.3662,
      "num_input_tokens_seen": 26485336,
      "step": 45630
    },
    {
      "epoch": 6.796991361334525,
      "grad_norm": 39.04669952392578,
      "learning_rate": 4.173850133089353e-05,
      "loss": 0.5533,
      "num_input_tokens_seen": 26488344,
      "step": 45635
    },
    {
      "epoch": 6.797736073875484,
      "grad_norm": 0.0854961946606636,
      "learning_rate": 4.173608759739063e-05,
      "loss": 0.2573,
      "num_input_tokens_seen": 26491160,
      "step": 45640
    },
    {
      "epoch": 6.798480786416444,
      "grad_norm": 37.846771240234375,
      "learning_rate": 4.173367358114855e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 26493976,
      "step": 45645
    },
    {
      "epoch": 6.799225498957402,
      "grad_norm": 14.78852653503418,
      "learning_rate": 4.1731259282208047e-05,
      "loss": 0.2396,
      "num_input_tokens_seen": 26496920,
      "step": 45650
    },
    {
      "epoch": 6.799970211498362,
      "grad_norm": 0.03882208094000816,
      "learning_rate": 4.1728844700609926e-05,
      "loss": 0.1463,
      "num_input_tokens_seen": 26499992,
      "step": 45655
    },
    {
      "epoch": 6.800714924039321,
      "grad_norm": 0.36851152777671814,
      "learning_rate": 4.172642983639498e-05,
      "loss": 0.1976,
      "num_input_tokens_seen": 26503352,
      "step": 45660
    },
    {
      "epoch": 6.8014596365802795,
      "grad_norm": 46.87616729736328,
      "learning_rate": 4.1724014689604e-05,
      "loss": 0.1868,
      "num_input_tokens_seen": 26506168,
      "step": 45665
    },
    {
      "epoch": 6.802204349121239,
      "grad_norm": 50.51778793334961,
      "learning_rate": 4.1721599260277796e-05,
      "loss": 0.5439,
      "num_input_tokens_seen": 26508984,
      "step": 45670
    },
    {
      "epoch": 6.802949061662199,
      "grad_norm": 17.31806755065918,
      "learning_rate": 4.171918354845716e-05,
      "loss": 0.1635,
      "num_input_tokens_seen": 26511960,
      "step": 45675
    },
    {
      "epoch": 6.803693774203158,
      "grad_norm": 0.0654074177145958,
      "learning_rate": 4.171676755418291e-05,
      "loss": 0.4537,
      "num_input_tokens_seen": 26514680,
      "step": 45680
    },
    {
      "epoch": 6.804438486744116,
      "grad_norm": 0.032485879957675934,
      "learning_rate": 4.171435127749587e-05,
      "loss": 0.005,
      "num_input_tokens_seen": 26517464,
      "step": 45685
    },
    {
      "epoch": 6.805183199285076,
      "grad_norm": 0.04863075539469719,
      "learning_rate": 4.171193471843685e-05,
      "loss": 0.1432,
      "num_input_tokens_seen": 26520472,
      "step": 45690
    },
    {
      "epoch": 6.805927911826036,
      "grad_norm": 0.5197751522064209,
      "learning_rate": 4.170951787704667e-05,
      "loss": 0.3145,
      "num_input_tokens_seen": 26523160,
      "step": 45695
    },
    {
      "epoch": 6.806672624366994,
      "grad_norm": 71.2867660522461,
      "learning_rate": 4.170710075336617e-05,
      "loss": 0.349,
      "num_input_tokens_seen": 26526232,
      "step": 45700
    },
    {
      "epoch": 6.807417336907953,
      "grad_norm": 0.015896568074822426,
      "learning_rate": 4.170468334743619e-05,
      "loss": 0.1283,
      "num_input_tokens_seen": 26528760,
      "step": 45705
    },
    {
      "epoch": 6.808162049448913,
      "grad_norm": 24.505956649780273,
      "learning_rate": 4.1702265659297554e-05,
      "loss": 0.053,
      "num_input_tokens_seen": 26531608,
      "step": 45710
    },
    {
      "epoch": 6.8089067619898715,
      "grad_norm": 90.06226348876953,
      "learning_rate": 4.169984768899112e-05,
      "loss": 0.4819,
      "num_input_tokens_seen": 26534360,
      "step": 45715
    },
    {
      "epoch": 6.809651474530831,
      "grad_norm": 0.2033582478761673,
      "learning_rate": 4.169742943655774e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 26536952,
      "step": 45720
    },
    {
      "epoch": 6.81039618707179,
      "grad_norm": 70.37135314941406,
      "learning_rate": 4.169501090203826e-05,
      "loss": 0.3425,
      "num_input_tokens_seen": 26539576,
      "step": 45725
    },
    {
      "epoch": 6.81114089961275,
      "grad_norm": 23.888925552368164,
      "learning_rate": 4.1692592085473525e-05,
      "loss": 0.6349,
      "num_input_tokens_seen": 26542456,
      "step": 45730
    },
    {
      "epoch": 6.811885612153708,
      "grad_norm": 0.034248944371938705,
      "learning_rate": 4.169017298690442e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 26545656,
      "step": 45735
    },
    {
      "epoch": 6.812630324694668,
      "grad_norm": 0.564379870891571,
      "learning_rate": 4.168775360637181e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 26548728,
      "step": 45740
    },
    {
      "epoch": 6.813375037235627,
      "grad_norm": 0.3663097321987152,
      "learning_rate": 4.168533394391656e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 26551416,
      "step": 45745
    },
    {
      "epoch": 6.814119749776586,
      "grad_norm": 0.11321559548377991,
      "learning_rate": 4.1682913999579545e-05,
      "loss": 0.1778,
      "num_input_tokens_seen": 26554168,
      "step": 45750
    },
    {
      "epoch": 6.814864462317545,
      "grad_norm": 32.62112808227539,
      "learning_rate": 4.1680493773401657e-05,
      "loss": 0.2663,
      "num_input_tokens_seen": 26557336,
      "step": 45755
    },
    {
      "epoch": 6.815609174858505,
      "grad_norm": 24.518817901611328,
      "learning_rate": 4.167807326542379e-05,
      "loss": 0.1356,
      "num_input_tokens_seen": 26560504,
      "step": 45760
    },
    {
      "epoch": 6.816353887399464,
      "grad_norm": 70.44965362548828,
      "learning_rate": 4.167565247568681e-05,
      "loss": 0.2349,
      "num_input_tokens_seen": 26563320,
      "step": 45765
    },
    {
      "epoch": 6.817098599940423,
      "grad_norm": 17.09162712097168,
      "learning_rate": 4.167323140423164e-05,
      "loss": 0.3874,
      "num_input_tokens_seen": 26566008,
      "step": 45770
    },
    {
      "epoch": 6.817843312481382,
      "grad_norm": 10.627921104431152,
      "learning_rate": 4.167081005109917e-05,
      "loss": 0.0955,
      "num_input_tokens_seen": 26568792,
      "step": 45775
    },
    {
      "epoch": 6.818588025022342,
      "grad_norm": 0.15374276041984558,
      "learning_rate": 4.16683884163303e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 26571480,
      "step": 45780
    },
    {
      "epoch": 6.8193327375633,
      "grad_norm": 0.1148233711719513,
      "learning_rate": 4.166596649996596e-05,
      "loss": 0.0515,
      "num_input_tokens_seen": 26574456,
      "step": 45785
    },
    {
      "epoch": 6.82007745010426,
      "grad_norm": 0.07355734705924988,
      "learning_rate": 4.166354430204705e-05,
      "loss": 0.3464,
      "num_input_tokens_seen": 26577240,
      "step": 45790
    },
    {
      "epoch": 6.820822162645219,
      "grad_norm": 35.29368591308594,
      "learning_rate": 4.166112182261449e-05,
      "loss": 0.5593,
      "num_input_tokens_seen": 26580088,
      "step": 45795
    },
    {
      "epoch": 6.821566875186178,
      "grad_norm": 7.1503520011901855,
      "learning_rate": 4.1658699061709215e-05,
      "loss": 0.2311,
      "num_input_tokens_seen": 26582776,
      "step": 45800
    },
    {
      "epoch": 6.822311587727137,
      "grad_norm": 16.398818969726562,
      "learning_rate": 4.1656276019372156e-05,
      "loss": 0.3548,
      "num_input_tokens_seen": 26585656,
      "step": 45805
    },
    {
      "epoch": 6.823056300268097,
      "grad_norm": 43.32926940917969,
      "learning_rate": 4.165385269564423e-05,
      "loss": 0.4655,
      "num_input_tokens_seen": 26588600,
      "step": 45810
    },
    {
      "epoch": 6.823801012809056,
      "grad_norm": 38.525108337402344,
      "learning_rate": 4.16514290905664e-05,
      "loss": 0.3926,
      "num_input_tokens_seen": 26591672,
      "step": 45815
    },
    {
      "epoch": 6.824545725350015,
      "grad_norm": 0.056200068444013596,
      "learning_rate": 4.164900520417959e-05,
      "loss": 0.0982,
      "num_input_tokens_seen": 26594648,
      "step": 45820
    },
    {
      "epoch": 6.825290437890974,
      "grad_norm": 70.65988159179688,
      "learning_rate": 4.164658103652477e-05,
      "loss": 0.4931,
      "num_input_tokens_seen": 26597656,
      "step": 45825
    },
    {
      "epoch": 6.826035150431934,
      "grad_norm": 0.09102671593427658,
      "learning_rate": 4.164415658764287e-05,
      "loss": 0.0186,
      "num_input_tokens_seen": 26600792,
      "step": 45830
    },
    {
      "epoch": 6.826779862972892,
      "grad_norm": 14.384952545166016,
      "learning_rate": 4.164173185757487e-05,
      "loss": 0.0982,
      "num_input_tokens_seen": 26603736,
      "step": 45835
    },
    {
      "epoch": 6.827524575513852,
      "grad_norm": 11.361165046691895,
      "learning_rate": 4.163930684636173e-05,
      "loss": 0.3472,
      "num_input_tokens_seen": 26606712,
      "step": 45840
    },
    {
      "epoch": 6.828269288054811,
      "grad_norm": 7.162378787994385,
      "learning_rate": 4.16368815540444e-05,
      "loss": 0.2134,
      "num_input_tokens_seen": 26609752,
      "step": 45845
    },
    {
      "epoch": 6.82901400059577,
      "grad_norm": 0.14056330919265747,
      "learning_rate": 4.1634455980663866e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 26612792,
      "step": 45850
    },
    {
      "epoch": 6.829758713136729,
      "grad_norm": 0.6954941749572754,
      "learning_rate": 4.163203012626111e-05,
      "loss": 0.1859,
      "num_input_tokens_seen": 26615704,
      "step": 45855
    },
    {
      "epoch": 6.830503425677689,
      "grad_norm": 21.94663429260254,
      "learning_rate": 4.16296039908771e-05,
      "loss": 0.2897,
      "num_input_tokens_seen": 26618488,
      "step": 45860
    },
    {
      "epoch": 6.831248138218648,
      "grad_norm": 36.28038024902344,
      "learning_rate": 4.162717757455284e-05,
      "loss": 0.189,
      "num_input_tokens_seen": 26621592,
      "step": 45865
    },
    {
      "epoch": 6.831992850759606,
      "grad_norm": 15.386184692382812,
      "learning_rate": 4.162475087732931e-05,
      "loss": 0.3056,
      "num_input_tokens_seen": 26624632,
      "step": 45870
    },
    {
      "epoch": 6.832737563300566,
      "grad_norm": 3.2902300357818604,
      "learning_rate": 4.162232389924751e-05,
      "loss": 0.0366,
      "num_input_tokens_seen": 26627448,
      "step": 45875
    },
    {
      "epoch": 6.833482275841525,
      "grad_norm": 0.3884583115577698,
      "learning_rate": 4.1619896640348445e-05,
      "loss": 0.2409,
      "num_input_tokens_seen": 26630680,
      "step": 45880
    },
    {
      "epoch": 6.834226988382484,
      "grad_norm": 97.52130126953125,
      "learning_rate": 4.1617469100673126e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 26633496,
      "step": 45885
    },
    {
      "epoch": 6.834971700923443,
      "grad_norm": 28.729326248168945,
      "learning_rate": 4.161504128026255e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 26636632,
      "step": 45890
    },
    {
      "epoch": 6.835716413464403,
      "grad_norm": 38.75371551513672,
      "learning_rate": 4.1612613179157725e-05,
      "loss": 0.1795,
      "num_input_tokens_seen": 26639416,
      "step": 45895
    },
    {
      "epoch": 6.836461126005362,
      "grad_norm": 0.30283573269844055,
      "learning_rate": 4.1610184797399696e-05,
      "loss": 0.3435,
      "num_input_tokens_seen": 26642200,
      "step": 45900
    },
    {
      "epoch": 6.837205838546321,
      "grad_norm": 35.67601013183594,
      "learning_rate": 4.160775613502948e-05,
      "loss": 0.3303,
      "num_input_tokens_seen": 26644952,
      "step": 45905
    },
    {
      "epoch": 6.83795055108728,
      "grad_norm": 0.15223422646522522,
      "learning_rate": 4.160532719208809e-05,
      "loss": 0.0146,
      "num_input_tokens_seen": 26648024,
      "step": 45910
    },
    {
      "epoch": 6.83869526362824,
      "grad_norm": 12.12647819519043,
      "learning_rate": 4.160289796861659e-05,
      "loss": 0.1368,
      "num_input_tokens_seen": 26651320,
      "step": 45915
    },
    {
      "epoch": 6.839439976169198,
      "grad_norm": 11.018657684326172,
      "learning_rate": 4.1600468464656e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 26654296,
      "step": 45920
    },
    {
      "epoch": 6.840184688710158,
      "grad_norm": 39.35049057006836,
      "learning_rate": 4.1598038680247363e-05,
      "loss": 0.1187,
      "num_input_tokens_seen": 26657048,
      "step": 45925
    },
    {
      "epoch": 6.840929401251117,
      "grad_norm": 0.7837227582931519,
      "learning_rate": 4.159560861543174e-05,
      "loss": 0.6163,
      "num_input_tokens_seen": 26659864,
      "step": 45930
    },
    {
      "epoch": 6.8416741137920765,
      "grad_norm": 11.293517112731934,
      "learning_rate": 4.159317827025016e-05,
      "loss": 0.257,
      "num_input_tokens_seen": 26662648,
      "step": 45935
    },
    {
      "epoch": 6.842418826333035,
      "grad_norm": 0.021251071244478226,
      "learning_rate": 4.159074764474371e-05,
      "loss": 0.3027,
      "num_input_tokens_seen": 26665272,
      "step": 45940
    },
    {
      "epoch": 6.843163538873995,
      "grad_norm": 10.418815612792969,
      "learning_rate": 4.1588316738953434e-05,
      "loss": 0.1126,
      "num_input_tokens_seen": 26668152,
      "step": 45945
    },
    {
      "epoch": 6.843908251414954,
      "grad_norm": 18.55927848815918,
      "learning_rate": 4.158588555292041e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 26671032,
      "step": 45950
    },
    {
      "epoch": 6.844652963955913,
      "grad_norm": 1.8513673543930054,
      "learning_rate": 4.158345408668571e-05,
      "loss": 0.1096,
      "num_input_tokens_seen": 26673976,
      "step": 45955
    },
    {
      "epoch": 6.845397676496872,
      "grad_norm": 108.6843032836914,
      "learning_rate": 4.15810223402904e-05,
      "loss": 0.5136,
      "num_input_tokens_seen": 26676792,
      "step": 45960
    },
    {
      "epoch": 6.846142389037832,
      "grad_norm": 22.42742919921875,
      "learning_rate": 4.157859031377558e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 26679928,
      "step": 45965
    },
    {
      "epoch": 6.84688710157879,
      "grad_norm": 53.52404022216797,
      "learning_rate": 4.157615800718232e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 26682680,
      "step": 45970
    },
    {
      "epoch": 6.84763181411975,
      "grad_norm": 0.07825677841901779,
      "learning_rate": 4.1573725420551716e-05,
      "loss": 0.2533,
      "num_input_tokens_seen": 26685624,
      "step": 45975
    },
    {
      "epoch": 6.848376526660709,
      "grad_norm": 1.4684923887252808,
      "learning_rate": 4.157129255392487e-05,
      "loss": 0.0708,
      "num_input_tokens_seen": 26688504,
      "step": 45980
    },
    {
      "epoch": 6.8491212392016685,
      "grad_norm": 8.287871360778809,
      "learning_rate": 4.1568859407342876e-05,
      "loss": 0.1306,
      "num_input_tokens_seen": 26691192,
      "step": 45985
    },
    {
      "epoch": 6.849865951742627,
      "grad_norm": 73.58878326416016,
      "learning_rate": 4.1566425980846844e-05,
      "loss": 0.2889,
      "num_input_tokens_seen": 26694360,
      "step": 45990
    },
    {
      "epoch": 6.850610664283587,
      "grad_norm": 0.46509212255477905,
      "learning_rate": 4.156399227447788e-05,
      "loss": 0.2346,
      "num_input_tokens_seen": 26697528,
      "step": 45995
    },
    {
      "epoch": 6.851355376824546,
      "grad_norm": 0.06242559477686882,
      "learning_rate": 4.15615582882771e-05,
      "loss": 0.45,
      "num_input_tokens_seen": 26700120,
      "step": 46000
    },
    {
      "epoch": 6.852100089365505,
      "grad_norm": 15.469402313232422,
      "learning_rate": 4.155912402228563e-05,
      "loss": 0.1496,
      "num_input_tokens_seen": 26703192,
      "step": 46005
    },
    {
      "epoch": 6.852844801906464,
      "grad_norm": 6.095119476318359,
      "learning_rate": 4.155668947654458e-05,
      "loss": 0.1607,
      "num_input_tokens_seen": 26706008,
      "step": 46010
    },
    {
      "epoch": 6.853589514447423,
      "grad_norm": 0.27066877484321594,
      "learning_rate": 4.15542546510951e-05,
      "loss": 0.1055,
      "num_input_tokens_seen": 26709016,
      "step": 46015
    },
    {
      "epoch": 6.8543342269883825,
      "grad_norm": 2.0608959197998047,
      "learning_rate": 4.155181954597832e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 26711704,
      "step": 46020
    },
    {
      "epoch": 6.855078939529342,
      "grad_norm": 1.8233518600463867,
      "learning_rate": 4.154938416123535e-05,
      "loss": 0.0972,
      "num_input_tokens_seen": 26714520,
      "step": 46025
    },
    {
      "epoch": 6.855823652070301,
      "grad_norm": 0.3127029240131378,
      "learning_rate": 4.154694849690737e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 26717752,
      "step": 46030
    },
    {
      "epoch": 6.85656836461126,
      "grad_norm": 35.91325378417969,
      "learning_rate": 4.154451255303551e-05,
      "loss": 0.4124,
      "num_input_tokens_seen": 26720312,
      "step": 46035
    },
    {
      "epoch": 6.857313077152219,
      "grad_norm": 26.64426612854004,
      "learning_rate": 4.154207632966092e-05,
      "loss": 0.4465,
      "num_input_tokens_seen": 26723256,
      "step": 46040
    },
    {
      "epoch": 6.858057789693179,
      "grad_norm": 18.734590530395508,
      "learning_rate": 4.1539639826824765e-05,
      "loss": 0.4297,
      "num_input_tokens_seen": 26726168,
      "step": 46045
    },
    {
      "epoch": 6.858802502234138,
      "grad_norm": 8.502163887023926,
      "learning_rate": 4.1537203044568205e-05,
      "loss": 0.4983,
      "num_input_tokens_seen": 26728984,
      "step": 46050
    },
    {
      "epoch": 6.859547214775096,
      "grad_norm": 0.071464903652668,
      "learning_rate": 4.153476598293241e-05,
      "loss": 0.0468,
      "num_input_tokens_seen": 26731736,
      "step": 46055
    },
    {
      "epoch": 6.860291927316056,
      "grad_norm": 18.801361083984375,
      "learning_rate": 4.153232864195855e-05,
      "loss": 0.4986,
      "num_input_tokens_seen": 26734296,
      "step": 46060
    },
    {
      "epoch": 6.861036639857015,
      "grad_norm": 19.60306739807129,
      "learning_rate": 4.1529891021687796e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 26736952,
      "step": 46065
    },
    {
      "epoch": 6.8617813523979745,
      "grad_norm": 1.025431513786316,
      "learning_rate": 4.152745312216134e-05,
      "loss": 0.1694,
      "num_input_tokens_seen": 26739896,
      "step": 46070
    },
    {
      "epoch": 6.862526064938933,
      "grad_norm": 8.732588768005371,
      "learning_rate": 4.152501494342035e-05,
      "loss": 0.2317,
      "num_input_tokens_seen": 26742776,
      "step": 46075
    },
    {
      "epoch": 6.863270777479893,
      "grad_norm": 3.4188425540924072,
      "learning_rate": 4.152257648550604e-05,
      "loss": 0.0999,
      "num_input_tokens_seen": 26745784,
      "step": 46080
    },
    {
      "epoch": 6.864015490020852,
      "grad_norm": 7.028365612030029,
      "learning_rate": 4.1520137748459587e-05,
      "loss": 0.3957,
      "num_input_tokens_seen": 26748696,
      "step": 46085
    },
    {
      "epoch": 6.864760202561811,
      "grad_norm": 19.748315811157227,
      "learning_rate": 4.1517698732322194e-05,
      "loss": 0.3683,
      "num_input_tokens_seen": 26751512,
      "step": 46090
    },
    {
      "epoch": 6.86550491510277,
      "grad_norm": 20.364734649658203,
      "learning_rate": 4.1515259437135076e-05,
      "loss": 0.1709,
      "num_input_tokens_seen": 26754584,
      "step": 46095
    },
    {
      "epoch": 6.86624962764373,
      "grad_norm": 33.53096008300781,
      "learning_rate": 4.1512819862939425e-05,
      "loss": 0.0584,
      "num_input_tokens_seen": 26757560,
      "step": 46100
    },
    {
      "epoch": 6.8669943401846885,
      "grad_norm": 21.11237335205078,
      "learning_rate": 4.1510380009776475e-05,
      "loss": 0.3045,
      "num_input_tokens_seen": 26760664,
      "step": 46105
    },
    {
      "epoch": 6.867739052725648,
      "grad_norm": 23.944896697998047,
      "learning_rate": 4.150793987768743e-05,
      "loss": 0.3397,
      "num_input_tokens_seen": 26763416,
      "step": 46110
    },
    {
      "epoch": 6.868483765266607,
      "grad_norm": 9.857738494873047,
      "learning_rate": 4.1505499466713516e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 26766424,
      "step": 46115
    },
    {
      "epoch": 6.8692284778075665,
      "grad_norm": 13.029232025146484,
      "learning_rate": 4.1503058776895974e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 26769176,
      "step": 46120
    },
    {
      "epoch": 6.869973190348525,
      "grad_norm": 0.1150587871670723,
      "learning_rate": 4.150061780827602e-05,
      "loss": 0.0603,
      "num_input_tokens_seen": 26772216,
      "step": 46125
    },
    {
      "epoch": 6.870717902889485,
      "grad_norm": 64.21550750732422,
      "learning_rate": 4.14981765608949e-05,
      "loss": 0.3192,
      "num_input_tokens_seen": 26775192,
      "step": 46130
    },
    {
      "epoch": 6.871462615430444,
      "grad_norm": 54.582279205322266,
      "learning_rate": 4.1495735034793856e-05,
      "loss": 0.137,
      "num_input_tokens_seen": 26777880,
      "step": 46135
    },
    {
      "epoch": 6.872207327971403,
      "grad_norm": 0.015417816117405891,
      "learning_rate": 4.149329323001413e-05,
      "loss": 0.5642,
      "num_input_tokens_seen": 26780696,
      "step": 46140
    },
    {
      "epoch": 6.872952040512362,
      "grad_norm": 98.61139678955078,
      "learning_rate": 4.149085114659699e-05,
      "loss": 0.3799,
      "num_input_tokens_seen": 26783640,
      "step": 46145
    },
    {
      "epoch": 6.873696753053322,
      "grad_norm": 0.7433355450630188,
      "learning_rate": 4.1488408784583664e-05,
      "loss": 0.2562,
      "num_input_tokens_seen": 26786360,
      "step": 46150
    },
    {
      "epoch": 6.8744414655942805,
      "grad_norm": 26.80187225341797,
      "learning_rate": 4.148596614401544e-05,
      "loss": 0.2629,
      "num_input_tokens_seen": 26788952,
      "step": 46155
    },
    {
      "epoch": 6.87518617813524,
      "grad_norm": 10.34627914428711,
      "learning_rate": 4.148352322493357e-05,
      "loss": 0.2275,
      "num_input_tokens_seen": 26791864,
      "step": 46160
    },
    {
      "epoch": 6.875930890676199,
      "grad_norm": 2.5044684410095215,
      "learning_rate": 4.148108002737933e-05,
      "loss": 0.5874,
      "num_input_tokens_seen": 26794840,
      "step": 46165
    },
    {
      "epoch": 6.8766756032171585,
      "grad_norm": 1.811521291732788,
      "learning_rate": 4.147863655139399e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 26797656,
      "step": 46170
    },
    {
      "epoch": 6.877420315758117,
      "grad_norm": 10.63454532623291,
      "learning_rate": 4.1476192797018836e-05,
      "loss": 0.1341,
      "num_input_tokens_seen": 26800632,
      "step": 46175
    },
    {
      "epoch": 6.878165028299077,
      "grad_norm": 0.030466506257653236,
      "learning_rate": 4.147374876429515e-05,
      "loss": 0.272,
      "num_input_tokens_seen": 26803704,
      "step": 46180
    },
    {
      "epoch": 6.878909740840036,
      "grad_norm": 19.36193084716797,
      "learning_rate": 4.1471304453264225e-05,
      "loss": 0.3271,
      "num_input_tokens_seen": 26806872,
      "step": 46185
    },
    {
      "epoch": 6.879654453380995,
      "grad_norm": 0.07136457413434982,
      "learning_rate": 4.1468859863967345e-05,
      "loss": 0.3972,
      "num_input_tokens_seen": 26809592,
      "step": 46190
    },
    {
      "epoch": 6.880399165921954,
      "grad_norm": 3.3564441204071045,
      "learning_rate": 4.1466414996445824e-05,
      "loss": 0.1217,
      "num_input_tokens_seen": 26812632,
      "step": 46195
    },
    {
      "epoch": 6.881143878462913,
      "grad_norm": 44.88473892211914,
      "learning_rate": 4.146396985074095e-05,
      "loss": 0.3533,
      "num_input_tokens_seen": 26815608,
      "step": 46200
    },
    {
      "epoch": 6.8818885910038725,
      "grad_norm": 3.6227192878723145,
      "learning_rate": 4.146152442689405e-05,
      "loss": 0.0585,
      "num_input_tokens_seen": 26818424,
      "step": 46205
    },
    {
      "epoch": 6.882633303544832,
      "grad_norm": 0.1908578872680664,
      "learning_rate": 4.1459078724946406e-05,
      "loss": 0.1388,
      "num_input_tokens_seen": 26821272,
      "step": 46210
    },
    {
      "epoch": 6.883378016085791,
      "grad_norm": 0.04970543086528778,
      "learning_rate": 4.1456632744939375e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 26824120,
      "step": 46215
    },
    {
      "epoch": 6.88412272862675,
      "grad_norm": 0.15448498725891113,
      "learning_rate": 4.145418648691425e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 26827192,
      "step": 46220
    },
    {
      "epoch": 6.884867441167709,
      "grad_norm": 95.86669921875,
      "learning_rate": 4.1451739950912365e-05,
      "loss": 0.9337,
      "num_input_tokens_seen": 26829944,
      "step": 46225
    },
    {
      "epoch": 6.885612153708668,
      "grad_norm": 0.038647525012493134,
      "learning_rate": 4.144929313697506e-05,
      "loss": 0.2122,
      "num_input_tokens_seen": 26832824,
      "step": 46230
    },
    {
      "epoch": 6.886356866249628,
      "grad_norm": 6.254108905792236,
      "learning_rate": 4.144684604514366e-05,
      "loss": 0.0423,
      "num_input_tokens_seen": 26835736,
      "step": 46235
    },
    {
      "epoch": 6.8871015787905865,
      "grad_norm": 0.03381487727165222,
      "learning_rate": 4.144439867545952e-05,
      "loss": 0.0715,
      "num_input_tokens_seen": 26838520,
      "step": 46240
    },
    {
      "epoch": 6.887846291331546,
      "grad_norm": 53.635318756103516,
      "learning_rate": 4.144195102796398e-05,
      "loss": 0.2117,
      "num_input_tokens_seen": 26841272,
      "step": 46245
    },
    {
      "epoch": 6.888591003872505,
      "grad_norm": 17.68897819519043,
      "learning_rate": 4.143950310269837e-05,
      "loss": 0.24,
      "num_input_tokens_seen": 26844344,
      "step": 46250
    },
    {
      "epoch": 6.8893357164134645,
      "grad_norm": 8.463528633117676,
      "learning_rate": 4.143705489970408e-05,
      "loss": 0.1899,
      "num_input_tokens_seen": 26847096,
      "step": 46255
    },
    {
      "epoch": 6.890080428954423,
      "grad_norm": 0.9586623311042786,
      "learning_rate": 4.143460641902245e-05,
      "loss": 0.3293,
      "num_input_tokens_seen": 26850168,
      "step": 46260
    },
    {
      "epoch": 6.890825141495383,
      "grad_norm": 6.742663860321045,
      "learning_rate": 4.143215766069484e-05,
      "loss": 0.1625,
      "num_input_tokens_seen": 26853272,
      "step": 46265
    },
    {
      "epoch": 6.891569854036342,
      "grad_norm": 0.07761695235967636,
      "learning_rate": 4.142970862476264e-05,
      "loss": 0.1985,
      "num_input_tokens_seen": 26856216,
      "step": 46270
    },
    {
      "epoch": 6.892314566577301,
      "grad_norm": 0.12193981558084488,
      "learning_rate": 4.14272593112672e-05,
      "loss": 0.1742,
      "num_input_tokens_seen": 26859192,
      "step": 46275
    },
    {
      "epoch": 6.89305927911826,
      "grad_norm": 28.836212158203125,
      "learning_rate": 4.142480972024991e-05,
      "loss": 0.2144,
      "num_input_tokens_seen": 26862488,
      "step": 46280
    },
    {
      "epoch": 6.89380399165922,
      "grad_norm": 4.541513919830322,
      "learning_rate": 4.142235985175217e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 26865560,
      "step": 46285
    },
    {
      "epoch": 6.8945487042001785,
      "grad_norm": 47.46238327026367,
      "learning_rate": 4.141990970581534e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 26868600,
      "step": 46290
    },
    {
      "epoch": 6.895293416741138,
      "grad_norm": 15.347735404968262,
      "learning_rate": 4.141745928248082e-05,
      "loss": 0.5179,
      "num_input_tokens_seen": 26871384,
      "step": 46295
    },
    {
      "epoch": 6.896038129282097,
      "grad_norm": 18.250469207763672,
      "learning_rate": 4.141500858179002e-05,
      "loss": 0.2355,
      "num_input_tokens_seen": 26874200,
      "step": 46300
    },
    {
      "epoch": 6.896782841823057,
      "grad_norm": 43.640167236328125,
      "learning_rate": 4.141255760378432e-05,
      "loss": 0.3398,
      "num_input_tokens_seen": 26876888,
      "step": 46305
    },
    {
      "epoch": 6.897527554364015,
      "grad_norm": 13.361595153808594,
      "learning_rate": 4.141010634850515e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 26879544,
      "step": 46310
    },
    {
      "epoch": 6.898272266904975,
      "grad_norm": 17.403217315673828,
      "learning_rate": 4.140765481599391e-05,
      "loss": 0.2367,
      "num_input_tokens_seen": 26882360,
      "step": 46315
    },
    {
      "epoch": 6.899016979445934,
      "grad_norm": 1.9387520551681519,
      "learning_rate": 4.1405203006292014e-05,
      "loss": 0.0934,
      "num_input_tokens_seen": 26885208,
      "step": 46320
    },
    {
      "epoch": 6.899761691986893,
      "grad_norm": 0.1517055481672287,
      "learning_rate": 4.1402750919440894e-05,
      "loss": 0.0983,
      "num_input_tokens_seen": 26888248,
      "step": 46325
    },
    {
      "epoch": 6.900506404527852,
      "grad_norm": 20.225269317626953,
      "learning_rate": 4.140029855548196e-05,
      "loss": 0.0608,
      "num_input_tokens_seen": 26891192,
      "step": 46330
    },
    {
      "epoch": 6.901251117068812,
      "grad_norm": 0.14993499219417572,
      "learning_rate": 4.1397845914456656e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 26894264,
      "step": 46335
    },
    {
      "epoch": 6.9019958296097705,
      "grad_norm": 25.732582092285156,
      "learning_rate": 4.139539299640641e-05,
      "loss": 0.1662,
      "num_input_tokens_seen": 26896984,
      "step": 46340
    },
    {
      "epoch": 6.90274054215073,
      "grad_norm": 1.2825026512145996,
      "learning_rate": 4.139293980137267e-05,
      "loss": 0.2495,
      "num_input_tokens_seen": 26899992,
      "step": 46345
    },
    {
      "epoch": 6.903485254691689,
      "grad_norm": 0.14633770287036896,
      "learning_rate": 4.139048632939686e-05,
      "loss": 0.0885,
      "num_input_tokens_seen": 26902552,
      "step": 46350
    },
    {
      "epoch": 6.904229967232649,
      "grad_norm": 21.911102294921875,
      "learning_rate": 4.138803258052045e-05,
      "loss": 0.1494,
      "num_input_tokens_seen": 26905400,
      "step": 46355
    },
    {
      "epoch": 6.904974679773607,
      "grad_norm": 0.8255418539047241,
      "learning_rate": 4.138557855478489e-05,
      "loss": 0.0459,
      "num_input_tokens_seen": 26908216,
      "step": 46360
    },
    {
      "epoch": 6.905719392314566,
      "grad_norm": 0.7404533624649048,
      "learning_rate": 4.1383124252231625e-05,
      "loss": 0.2029,
      "num_input_tokens_seen": 26911224,
      "step": 46365
    },
    {
      "epoch": 6.906464104855526,
      "grad_norm": 0.6754515767097473,
      "learning_rate": 4.138066967290213e-05,
      "loss": 0.1329,
      "num_input_tokens_seen": 26914200,
      "step": 46370
    },
    {
      "epoch": 6.907208817396485,
      "grad_norm": 19.38983726501465,
      "learning_rate": 4.137821481683787e-05,
      "loss": 0.3619,
      "num_input_tokens_seen": 26917368,
      "step": 46375
    },
    {
      "epoch": 6.907953529937444,
      "grad_norm": 0.5402074456214905,
      "learning_rate": 4.1375759684080314e-05,
      "loss": 0.191,
      "num_input_tokens_seen": 26920408,
      "step": 46380
    },
    {
      "epoch": 6.908698242478403,
      "grad_norm": 60.520172119140625,
      "learning_rate": 4.137330427467094e-05,
      "loss": 0.2455,
      "num_input_tokens_seen": 26923128,
      "step": 46385
    },
    {
      "epoch": 6.909442955019363,
      "grad_norm": 29.080469131469727,
      "learning_rate": 4.137084858865124e-05,
      "loss": 0.1533,
      "num_input_tokens_seen": 26925848,
      "step": 46390
    },
    {
      "epoch": 6.910187667560322,
      "grad_norm": 0.2467271387577057,
      "learning_rate": 4.1368392626062685e-05,
      "loss": 0.0651,
      "num_input_tokens_seen": 26928760,
      "step": 46395
    },
    {
      "epoch": 6.910932380101281,
      "grad_norm": 1.7918108701705933,
      "learning_rate": 4.1365936386946776e-05,
      "loss": 0.1053,
      "num_input_tokens_seen": 26931768,
      "step": 46400
    },
    {
      "epoch": 6.91167709264224,
      "grad_norm": 35.594749450683594,
      "learning_rate": 4.1363479871345e-05,
      "loss": 0.1909,
      "num_input_tokens_seen": 26934872,
      "step": 46405
    },
    {
      "epoch": 6.912421805183199,
      "grad_norm": 2.3776371479034424,
      "learning_rate": 4.1361023079298874e-05,
      "loss": 0.3381,
      "num_input_tokens_seen": 26937688,
      "step": 46410
    },
    {
      "epoch": 6.913166517724158,
      "grad_norm": 0.005325835198163986,
      "learning_rate": 4.135856601084988e-05,
      "loss": 0.13,
      "num_input_tokens_seen": 26940344,
      "step": 46415
    },
    {
      "epoch": 6.913911230265118,
      "grad_norm": 0.042381539940834045,
      "learning_rate": 4.135610866603955e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 26943256,
      "step": 46420
    },
    {
      "epoch": 6.9146559428060765,
      "grad_norm": 0.05611146241426468,
      "learning_rate": 4.135365104490938e-05,
      "loss": 0.6311,
      "num_input_tokens_seen": 26946168,
      "step": 46425
    },
    {
      "epoch": 6.915400655347036,
      "grad_norm": 0.34300675988197327,
      "learning_rate": 4.1351193147500887e-05,
      "loss": 0.3212,
      "num_input_tokens_seen": 26948984,
      "step": 46430
    },
    {
      "epoch": 6.916145367887995,
      "grad_norm": 0.08158674091100693,
      "learning_rate": 4.134873497385562e-05,
      "loss": 0.0936,
      "num_input_tokens_seen": 26951832,
      "step": 46435
    },
    {
      "epoch": 6.916890080428955,
      "grad_norm": 0.13172048330307007,
      "learning_rate": 4.1346276524015085e-05,
      "loss": 0.0747,
      "num_input_tokens_seen": 26954712,
      "step": 46440
    },
    {
      "epoch": 6.917634792969913,
      "grad_norm": 12.527166366577148,
      "learning_rate": 4.1343817798020824e-05,
      "loss": 0.523,
      "num_input_tokens_seen": 26957592,
      "step": 46445
    },
    {
      "epoch": 6.918379505510873,
      "grad_norm": 5.089383602142334,
      "learning_rate": 4.1341358795914375e-05,
      "loss": 0.2396,
      "num_input_tokens_seen": 26960792,
      "step": 46450
    },
    {
      "epoch": 6.919124218051832,
      "grad_norm": 23.359210968017578,
      "learning_rate": 4.133889951773727e-05,
      "loss": 0.118,
      "num_input_tokens_seen": 26963544,
      "step": 46455
    },
    {
      "epoch": 6.919868930592791,
      "grad_norm": 9.70213508605957,
      "learning_rate": 4.133643996353107e-05,
      "loss": 0.1238,
      "num_input_tokens_seen": 26966424,
      "step": 46460
    },
    {
      "epoch": 6.92061364313375,
      "grad_norm": 0.01158053893595934,
      "learning_rate": 4.1333980133337324e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 26969368,
      "step": 46465
    },
    {
      "epoch": 6.92135835567471,
      "grad_norm": 3.9287490844726562,
      "learning_rate": 4.133152002719758e-05,
      "loss": 0.0986,
      "num_input_tokens_seen": 26972312,
      "step": 46470
    },
    {
      "epoch": 6.922103068215669,
      "grad_norm": 6.220879554748535,
      "learning_rate": 4.13290596451534e-05,
      "loss": 0.0946,
      "num_input_tokens_seen": 26975224,
      "step": 46475
    },
    {
      "epoch": 6.922847780756628,
      "grad_norm": 23.732332229614258,
      "learning_rate": 4.1326598987246356e-05,
      "loss": 0.2656,
      "num_input_tokens_seen": 26978200,
      "step": 46480
    },
    {
      "epoch": 6.923592493297587,
      "grad_norm": 0.034149568527936935,
      "learning_rate": 4.132413805351802e-05,
      "loss": 0.0776,
      "num_input_tokens_seen": 26981016,
      "step": 46485
    },
    {
      "epoch": 6.924337205838547,
      "grad_norm": 73.06864166259766,
      "learning_rate": 4.1321676844009957e-05,
      "loss": 0.3124,
      "num_input_tokens_seen": 26984056,
      "step": 46490
    },
    {
      "epoch": 6.925081918379505,
      "grad_norm": 0.14718323945999146,
      "learning_rate": 4.1319215358763756e-05,
      "loss": 0.4395,
      "num_input_tokens_seen": 26987224,
      "step": 46495
    },
    {
      "epoch": 6.925826630920465,
      "grad_norm": 0.5924729704856873,
      "learning_rate": 4.1316753597821e-05,
      "loss": 0.1242,
      "num_input_tokens_seen": 26990136,
      "step": 46500
    },
    {
      "epoch": 6.926571343461424,
      "grad_norm": 0.437986820936203,
      "learning_rate": 4.1314291561223276e-05,
      "loss": 0.3213,
      "num_input_tokens_seen": 26992856,
      "step": 46505
    },
    {
      "epoch": 6.927316056002383,
      "grad_norm": 46.416053771972656,
      "learning_rate": 4.131182924901217e-05,
      "loss": 0.1485,
      "num_input_tokens_seen": 26995512,
      "step": 46510
    },
    {
      "epoch": 6.928060768543342,
      "grad_norm": 36.58375930786133,
      "learning_rate": 4.1309366661229286e-05,
      "loss": 0.3004,
      "num_input_tokens_seen": 26998392,
      "step": 46515
    },
    {
      "epoch": 6.928805481084302,
      "grad_norm": 0.049224648624658585,
      "learning_rate": 4.130690379791623e-05,
      "loss": 0.0416,
      "num_input_tokens_seen": 27001016,
      "step": 46520
    },
    {
      "epoch": 6.929550193625261,
      "grad_norm": 0.21637171506881714,
      "learning_rate": 4.1304440659114615e-05,
      "loss": 0.0236,
      "num_input_tokens_seen": 27003832,
      "step": 46525
    },
    {
      "epoch": 6.930294906166219,
      "grad_norm": 0.6108822822570801,
      "learning_rate": 4.130197724486604e-05,
      "loss": 0.2043,
      "num_input_tokens_seen": 27006904,
      "step": 46530
    },
    {
      "epoch": 6.931039618707179,
      "grad_norm": 0.09604205936193466,
      "learning_rate": 4.1299513555212135e-05,
      "loss": 0.3193,
      "num_input_tokens_seen": 27009880,
      "step": 46535
    },
    {
      "epoch": 6.931784331248139,
      "grad_norm": 0.26935863494873047,
      "learning_rate": 4.129704959019451e-05,
      "loss": 0.2524,
      "num_input_tokens_seen": 27012760,
      "step": 46540
    },
    {
      "epoch": 6.932529043789097,
      "grad_norm": 16.076026916503906,
      "learning_rate": 4.129458534985479e-05,
      "loss": 0.2276,
      "num_input_tokens_seen": 27015608,
      "step": 46545
    },
    {
      "epoch": 6.933273756330056,
      "grad_norm": 0.12195292860269547,
      "learning_rate": 4.1292120834234624e-05,
      "loss": 0.2367,
      "num_input_tokens_seen": 27018520,
      "step": 46550
    },
    {
      "epoch": 6.934018468871016,
      "grad_norm": 0.4413411021232605,
      "learning_rate": 4.128965604337563e-05,
      "loss": 0.0442,
      "num_input_tokens_seen": 27021592,
      "step": 46555
    },
    {
      "epoch": 6.9347631814119755,
      "grad_norm": 0.8007143139839172,
      "learning_rate": 4.128719097731945e-05,
      "loss": 0.358,
      "num_input_tokens_seen": 27024568,
      "step": 46560
    },
    {
      "epoch": 6.935507893952934,
      "grad_norm": 0.0359126441180706,
      "learning_rate": 4.1284725636107726e-05,
      "loss": 0.3255,
      "num_input_tokens_seen": 27027288,
      "step": 46565
    },
    {
      "epoch": 6.936252606493893,
      "grad_norm": 19.000818252563477,
      "learning_rate": 4.128226001978213e-05,
      "loss": 0.6103,
      "num_input_tokens_seen": 27029816,
      "step": 46570
    },
    {
      "epoch": 6.936997319034853,
      "grad_norm": 0.45997902750968933,
      "learning_rate": 4.127979412838428e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 27032536,
      "step": 46575
    },
    {
      "epoch": 6.937742031575811,
      "grad_norm": 4.862873554229736,
      "learning_rate": 4.127732796195587e-05,
      "loss": 0.1846,
      "num_input_tokens_seen": 27035160,
      "step": 46580
    },
    {
      "epoch": 6.938486744116771,
      "grad_norm": 0.03730221465229988,
      "learning_rate": 4.127486152053854e-05,
      "loss": 0.2016,
      "num_input_tokens_seen": 27038104,
      "step": 46585
    },
    {
      "epoch": 6.93923145665773,
      "grad_norm": 0.1190551295876503,
      "learning_rate": 4.1272394804173966e-05,
      "loss": 0.1894,
      "num_input_tokens_seen": 27041112,
      "step": 46590
    },
    {
      "epoch": 6.939976169198689,
      "grad_norm": 9.062904357910156,
      "learning_rate": 4.126992781290382e-05,
      "loss": 0.2715,
      "num_input_tokens_seen": 27043960,
      "step": 46595
    },
    {
      "epoch": 6.940720881739648,
      "grad_norm": 0.08102600276470184,
      "learning_rate": 4.1267460546769784e-05,
      "loss": 0.1623,
      "num_input_tokens_seen": 27047032,
      "step": 46600
    },
    {
      "epoch": 6.941465594280608,
      "grad_norm": 35.97503662109375,
      "learning_rate": 4.126499300581353e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 27049784,
      "step": 46605
    },
    {
      "epoch": 6.942210306821567,
      "grad_norm": 37.131248474121094,
      "learning_rate": 4.1262525190076763e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 27052472,
      "step": 46610
    },
    {
      "epoch": 6.942955019362526,
      "grad_norm": 1.6735777854919434,
      "learning_rate": 4.1260057099601145e-05,
      "loss": 0.2008,
      "num_input_tokens_seen": 27055224,
      "step": 46615
    },
    {
      "epoch": 6.943699731903485,
      "grad_norm": 65.6021499633789,
      "learning_rate": 4.12575887344284e-05,
      "loss": 0.6653,
      "num_input_tokens_seen": 27057880,
      "step": 46620
    },
    {
      "epoch": 6.944444444444445,
      "grad_norm": 0.15590044856071472,
      "learning_rate": 4.125512009460021e-05,
      "loss": 0.1223,
      "num_input_tokens_seen": 27060952,
      "step": 46625
    },
    {
      "epoch": 6.945189156985403,
      "grad_norm": 52.60481643676758,
      "learning_rate": 4.125265118015829e-05,
      "loss": 0.3846,
      "num_input_tokens_seen": 27063928,
      "step": 46630
    },
    {
      "epoch": 6.945933869526363,
      "grad_norm": 12.254950523376465,
      "learning_rate": 4.125018199114434e-05,
      "loss": 0.0998,
      "num_input_tokens_seen": 27066872,
      "step": 46635
    },
    {
      "epoch": 6.946678582067322,
      "grad_norm": 22.359130859375,
      "learning_rate": 4.124771252760009e-05,
      "loss": 0.2109,
      "num_input_tokens_seen": 27069656,
      "step": 46640
    },
    {
      "epoch": 6.9474232946082815,
      "grad_norm": 18.633621215820312,
      "learning_rate": 4.124524278956725e-05,
      "loss": 0.3722,
      "num_input_tokens_seen": 27072664,
      "step": 46645
    },
    {
      "epoch": 6.94816800714924,
      "grad_norm": 0.8315007090568542,
      "learning_rate": 4.1242772777087536e-05,
      "loss": 0.2838,
      "num_input_tokens_seen": 27075896,
      "step": 46650
    },
    {
      "epoch": 6.9489127196902,
      "grad_norm": 47.891807556152344,
      "learning_rate": 4.124030249020269e-05,
      "loss": 0.152,
      "num_input_tokens_seen": 27078584,
      "step": 46655
    },
    {
      "epoch": 6.949657432231159,
      "grad_norm": 0.04778813198208809,
      "learning_rate": 4.123783192895444e-05,
      "loss": 0.0792,
      "num_input_tokens_seen": 27081304,
      "step": 46660
    },
    {
      "epoch": 6.950402144772118,
      "grad_norm": 20.639862060546875,
      "learning_rate": 4.1235361093384523e-05,
      "loss": 0.304,
      "num_input_tokens_seen": 27084632,
      "step": 46665
    },
    {
      "epoch": 6.951146857313077,
      "grad_norm": 23.901962280273438,
      "learning_rate": 4.123288998353468e-05,
      "loss": 0.3808,
      "num_input_tokens_seen": 27087480,
      "step": 46670
    },
    {
      "epoch": 6.951891569854037,
      "grad_norm": 48.41810607910156,
      "learning_rate": 4.123041859944666e-05,
      "loss": 0.3439,
      "num_input_tokens_seen": 27090264,
      "step": 46675
    },
    {
      "epoch": 6.952636282394995,
      "grad_norm": 33.15647506713867,
      "learning_rate": 4.122794694116221e-05,
      "loss": 0.2462,
      "num_input_tokens_seen": 27093016,
      "step": 46680
    },
    {
      "epoch": 6.953380994935955,
      "grad_norm": 30.98403549194336,
      "learning_rate": 4.122547500872309e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 27096088,
      "step": 46685
    },
    {
      "epoch": 6.954125707476914,
      "grad_norm": 1.8022425174713135,
      "learning_rate": 4.122300280217107e-05,
      "loss": 0.1108,
      "num_input_tokens_seen": 27098840,
      "step": 46690
    },
    {
      "epoch": 6.9548704200178735,
      "grad_norm": 4.89622163772583,
      "learning_rate": 4.1220530321547894e-05,
      "loss": 0.0252,
      "num_input_tokens_seen": 27101496,
      "step": 46695
    },
    {
      "epoch": 6.955615132558832,
      "grad_norm": 14.763866424560547,
      "learning_rate": 4.121805756689535e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 27104152,
      "step": 46700
    },
    {
      "epoch": 6.956359845099792,
      "grad_norm": 66.62445068359375,
      "learning_rate": 4.1215584538255206e-05,
      "loss": 0.3643,
      "num_input_tokens_seen": 27107416,
      "step": 46705
    },
    {
      "epoch": 6.957104557640751,
      "grad_norm": 73.12850952148438,
      "learning_rate": 4.121311123566924e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 27110040,
      "step": 46710
    },
    {
      "epoch": 6.957849270181709,
      "grad_norm": 1.2908509969711304,
      "learning_rate": 4.121063765917924e-05,
      "loss": 0.1315,
      "num_input_tokens_seen": 27113144,
      "step": 46715
    },
    {
      "epoch": 6.958593982722669,
      "grad_norm": 29.760093688964844,
      "learning_rate": 4.120816380882699e-05,
      "loss": 0.3614,
      "num_input_tokens_seen": 27116280,
      "step": 46720
    },
    {
      "epoch": 6.959338695263629,
      "grad_norm": 0.16134969890117645,
      "learning_rate": 4.120568968465429e-05,
      "loss": 0.2198,
      "num_input_tokens_seen": 27119128,
      "step": 46725
    },
    {
      "epoch": 6.9600834078045875,
      "grad_norm": 13.937626838684082,
      "learning_rate": 4.120321528670293e-05,
      "loss": 0.2426,
      "num_input_tokens_seen": 27121848,
      "step": 46730
    },
    {
      "epoch": 6.960828120345546,
      "grad_norm": 30.76789665222168,
      "learning_rate": 4.120074061501472e-05,
      "loss": 0.3355,
      "num_input_tokens_seen": 27124664,
      "step": 46735
    },
    {
      "epoch": 6.961572832886506,
      "grad_norm": 0.2325294017791748,
      "learning_rate": 4.1198265669631464e-05,
      "loss": 0.2759,
      "num_input_tokens_seen": 27127288,
      "step": 46740
    },
    {
      "epoch": 6.962317545427465,
      "grad_norm": 0.03338994085788727,
      "learning_rate": 4.119579045059496e-05,
      "loss": 0.2387,
      "num_input_tokens_seen": 27130136,
      "step": 46745
    },
    {
      "epoch": 6.963062257968424,
      "grad_norm": 9.075881004333496,
      "learning_rate": 4.119331495794705e-05,
      "loss": 0.3856,
      "num_input_tokens_seen": 27132856,
      "step": 46750
    },
    {
      "epoch": 6.963806970509383,
      "grad_norm": 0.06965585798025131,
      "learning_rate": 4.119083919172954e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 27135640,
      "step": 46755
    },
    {
      "epoch": 6.964551683050343,
      "grad_norm": 0.9418219923973083,
      "learning_rate": 4.118836315198425e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 27138712,
      "step": 46760
    },
    {
      "epoch": 6.965296395591301,
      "grad_norm": 4.023517608642578,
      "learning_rate": 4.118588683875303e-05,
      "loss": 0.1317,
      "num_input_tokens_seen": 27141912,
      "step": 46765
    },
    {
      "epoch": 6.966041108132261,
      "grad_norm": 3.0675768852233887,
      "learning_rate": 4.11834102520777e-05,
      "loss": 0.1468,
      "num_input_tokens_seen": 27144760,
      "step": 46770
    },
    {
      "epoch": 6.96678582067322,
      "grad_norm": 29.92470932006836,
      "learning_rate": 4.118093339200009e-05,
      "loss": 0.4735,
      "num_input_tokens_seen": 27147704,
      "step": 46775
    },
    {
      "epoch": 6.9675305332141795,
      "grad_norm": 102.49253845214844,
      "learning_rate": 4.1178456258562064e-05,
      "loss": 0.7295,
      "num_input_tokens_seen": 27150424,
      "step": 46780
    },
    {
      "epoch": 6.968275245755138,
      "grad_norm": 0.3224879205226898,
      "learning_rate": 4.117597885180546e-05,
      "loss": 0.0542,
      "num_input_tokens_seen": 27153272,
      "step": 46785
    },
    {
      "epoch": 6.969019958296098,
      "grad_norm": 74.63057708740234,
      "learning_rate": 4.117350117177214e-05,
      "loss": 0.1351,
      "num_input_tokens_seen": 27156248,
      "step": 46790
    },
    {
      "epoch": 6.969764670837057,
      "grad_norm": 0.13032232224941254,
      "learning_rate": 4.1171023218503945e-05,
      "loss": 0.0987,
      "num_input_tokens_seen": 27159128,
      "step": 46795
    },
    {
      "epoch": 6.970509383378016,
      "grad_norm": 0.2712849974632263,
      "learning_rate": 4.1168544992042756e-05,
      "loss": 0.223,
      "num_input_tokens_seen": 27161848,
      "step": 46800
    },
    {
      "epoch": 6.971254095918975,
      "grad_norm": 6.506349086761475,
      "learning_rate": 4.116606649243043e-05,
      "loss": 0.1709,
      "num_input_tokens_seen": 27164920,
      "step": 46805
    },
    {
      "epoch": 6.971998808459935,
      "grad_norm": 0.6534421443939209,
      "learning_rate": 4.116358771970885e-05,
      "loss": 0.2782,
      "num_input_tokens_seen": 27167736,
      "step": 46810
    },
    {
      "epoch": 6.9727435210008935,
      "grad_norm": 64.13414001464844,
      "learning_rate": 4.1161108673919874e-05,
      "loss": 0.3122,
      "num_input_tokens_seen": 27170456,
      "step": 46815
    },
    {
      "epoch": 6.973488233541853,
      "grad_norm": 39.36283493041992,
      "learning_rate": 4.115862935510539e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 27173400,
      "step": 46820
    },
    {
      "epoch": 6.974232946082812,
      "grad_norm": 0.02467448078095913,
      "learning_rate": 4.1156149763307296e-05,
      "loss": 0.115,
      "num_input_tokens_seen": 27176376,
      "step": 46825
    },
    {
      "epoch": 6.9749776586237715,
      "grad_norm": 0.2077404260635376,
      "learning_rate": 4.115366989856746e-05,
      "loss": 0.4456,
      "num_input_tokens_seen": 27179064,
      "step": 46830
    },
    {
      "epoch": 6.97572237116473,
      "grad_norm": 0.045904554426670074,
      "learning_rate": 4.11511897609278e-05,
      "loss": 0.2486,
      "num_input_tokens_seen": 27181656,
      "step": 46835
    },
    {
      "epoch": 6.97646708370569,
      "grad_norm": 0.13631023466587067,
      "learning_rate": 4.1148709350430194e-05,
      "loss": 0.2591,
      "num_input_tokens_seen": 27184664,
      "step": 46840
    },
    {
      "epoch": 6.977211796246649,
      "grad_norm": 20.249921798706055,
      "learning_rate": 4.114622866711657e-05,
      "loss": 0.341,
      "num_input_tokens_seen": 27187800,
      "step": 46845
    },
    {
      "epoch": 6.977956508787608,
      "grad_norm": 10.54007339477539,
      "learning_rate": 4.114374771102881e-05,
      "loss": 0.1313,
      "num_input_tokens_seen": 27190584,
      "step": 46850
    },
    {
      "epoch": 6.978701221328567,
      "grad_norm": 1.6384739875793457,
      "learning_rate": 4.114126648220884e-05,
      "loss": 0.3586,
      "num_input_tokens_seen": 27193336,
      "step": 46855
    },
    {
      "epoch": 6.979445933869527,
      "grad_norm": 56.3976936340332,
      "learning_rate": 4.1138784980698585e-05,
      "loss": 0.1479,
      "num_input_tokens_seen": 27196568,
      "step": 46860
    },
    {
      "epoch": 6.9801906464104855,
      "grad_norm": 0.2218521237373352,
      "learning_rate": 4.113630320653996e-05,
      "loss": 0.1648,
      "num_input_tokens_seen": 27199608,
      "step": 46865
    },
    {
      "epoch": 6.980935358951445,
      "grad_norm": 25.473814010620117,
      "learning_rate": 4.113382115977489e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 27202648,
      "step": 46870
    },
    {
      "epoch": 6.981680071492404,
      "grad_norm": 75.21397399902344,
      "learning_rate": 4.113133884044531e-05,
      "loss": 0.218,
      "num_input_tokens_seen": 27205240,
      "step": 46875
    },
    {
      "epoch": 6.982424784033363,
      "grad_norm": 12.909127235412598,
      "learning_rate": 4.112885624859316e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 27208280,
      "step": 46880
    },
    {
      "epoch": 6.983169496574322,
      "grad_norm": 1.0304256677627563,
      "learning_rate": 4.1126373384260365e-05,
      "loss": 0.0935,
      "num_input_tokens_seen": 27211192,
      "step": 46885
    },
    {
      "epoch": 6.983914209115282,
      "grad_norm": 0.7786325216293335,
      "learning_rate": 4.112389024748889e-05,
      "loss": 0.0526,
      "num_input_tokens_seen": 27213816,
      "step": 46890
    },
    {
      "epoch": 6.984658921656241,
      "grad_norm": 45.19745635986328,
      "learning_rate": 4.112140683832068e-05,
      "loss": 0.5615,
      "num_input_tokens_seen": 27216568,
      "step": 46895
    },
    {
      "epoch": 6.9854036341971995,
      "grad_norm": 15.647628784179688,
      "learning_rate": 4.1118923156797684e-05,
      "loss": 0.3619,
      "num_input_tokens_seen": 27219352,
      "step": 46900
    },
    {
      "epoch": 6.986148346738159,
      "grad_norm": 17.016145706176758,
      "learning_rate": 4.111643920296185e-05,
      "loss": 0.3175,
      "num_input_tokens_seen": 27222296,
      "step": 46905
    },
    {
      "epoch": 6.986893059279119,
      "grad_norm": 0.012941147200763226,
      "learning_rate": 4.1113954976855174e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 27225400,
      "step": 46910
    },
    {
      "epoch": 6.9876377718200775,
      "grad_norm": 11.907788276672363,
      "learning_rate": 4.11114704785196e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 27228280,
      "step": 46915
    },
    {
      "epoch": 6.988382484361036,
      "grad_norm": 8.391057014465332,
      "learning_rate": 4.1108985707997105e-05,
      "loss": 0.1333,
      "num_input_tokens_seen": 27230968,
      "step": 46920
    },
    {
      "epoch": 6.989127196901996,
      "grad_norm": 99.42718505859375,
      "learning_rate": 4.110650066532967e-05,
      "loss": 0.4223,
      "num_input_tokens_seen": 27233784,
      "step": 46925
    },
    {
      "epoch": 6.989871909442955,
      "grad_norm": 0.38534244894981384,
      "learning_rate": 4.1104015350559275e-05,
      "loss": 0.029,
      "num_input_tokens_seen": 27236408,
      "step": 46930
    },
    {
      "epoch": 6.990616621983914,
      "grad_norm": 10.822904586791992,
      "learning_rate": 4.110152976372791e-05,
      "loss": 0.0806,
      "num_input_tokens_seen": 27239192,
      "step": 46935
    },
    {
      "epoch": 6.991361334524873,
      "grad_norm": 0.08211284875869751,
      "learning_rate": 4.1099043904877564e-05,
      "loss": 0.2247,
      "num_input_tokens_seen": 27242040,
      "step": 46940
    },
    {
      "epoch": 6.992106047065833,
      "grad_norm": 20.85684585571289,
      "learning_rate": 4.1096557774050235e-05,
      "loss": 0.1214,
      "num_input_tokens_seen": 27245112,
      "step": 46945
    },
    {
      "epoch": 6.9928507596067915,
      "grad_norm": 2.1354033946990967,
      "learning_rate": 4.1094071371287925e-05,
      "loss": 0.1948,
      "num_input_tokens_seen": 27248088,
      "step": 46950
    },
    {
      "epoch": 6.993595472147751,
      "grad_norm": 114.63014221191406,
      "learning_rate": 4.109158469663263e-05,
      "loss": 0.4205,
      "num_input_tokens_seen": 27251128,
      "step": 46955
    },
    {
      "epoch": 6.99434018468871,
      "grad_norm": 0.15369272232055664,
      "learning_rate": 4.108909775012637e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 27254040,
      "step": 46960
    },
    {
      "epoch": 6.9950848972296695,
      "grad_norm": 83.6854248046875,
      "learning_rate": 4.1086610531811155e-05,
      "loss": 0.385,
      "num_input_tokens_seen": 27256888,
      "step": 46965
    },
    {
      "epoch": 6.995829609770628,
      "grad_norm": 1.009375810623169,
      "learning_rate": 4.108412304172901e-05,
      "loss": 0.1336,
      "num_input_tokens_seen": 27259768,
      "step": 46970
    },
    {
      "epoch": 6.996574322311588,
      "grad_norm": 3.4302403926849365,
      "learning_rate": 4.1081635279921945e-05,
      "loss": 0.368,
      "num_input_tokens_seen": 27262616,
      "step": 46975
    },
    {
      "epoch": 6.997319034852547,
      "grad_norm": 32.23964309692383,
      "learning_rate": 4.107914724643199e-05,
      "loss": 0.5358,
      "num_input_tokens_seen": 27265688,
      "step": 46980
    },
    {
      "epoch": 6.998063747393506,
      "grad_norm": 5.872859954833984,
      "learning_rate": 4.107665894130121e-05,
      "loss": 0.0113,
      "num_input_tokens_seen": 27268440,
      "step": 46985
    },
    {
      "epoch": 6.998808459934465,
      "grad_norm": 0.3902754485607147,
      "learning_rate": 4.107417036457159e-05,
      "loss": 0.0438,
      "num_input_tokens_seen": 27271224,
      "step": 46990
    },
    {
      "epoch": 6.999553172475425,
      "grad_norm": 11.873794555664062,
      "learning_rate": 4.107168151628521e-05,
      "loss": 0.7205,
      "num_input_tokens_seen": 27273816,
      "step": 46995
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.1228946447372437,
      "eval_runtime": 49.2145,
      "eval_samples_per_second": 60.633,
      "eval_steps_per_second": 15.158,
      "num_input_tokens_seen": 27274992,
      "step": 46998
    },
    {
      "epoch": 7.0002978850163835,
      "grad_norm": 0.2306196242570877,
      "learning_rate": 4.10691923964841e-05,
      "loss": 0.1791,
      "num_input_tokens_seen": 27276080,
      "step": 47000
    },
    {
      "epoch": 7.001042597557343,
      "grad_norm": 0.051357168704271317,
      "learning_rate": 4.106670300521033e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 27278896,
      "step": 47005
    },
    {
      "epoch": 7.001787310098302,
      "grad_norm": 99.5126724243164,
      "learning_rate": 4.106421334250593e-05,
      "loss": 0.231,
      "num_input_tokens_seen": 27281680,
      "step": 47010
    },
    {
      "epoch": 7.0025320226392616,
      "grad_norm": 0.08386117964982986,
      "learning_rate": 4.106172340841298e-05,
      "loss": 0.0229,
      "num_input_tokens_seen": 27284432,
      "step": 47015
    },
    {
      "epoch": 7.00327673518022,
      "grad_norm": 0.13856229186058044,
      "learning_rate": 4.105923320297353e-05,
      "loss": 0.1148,
      "num_input_tokens_seen": 27287184,
      "step": 47020
    },
    {
      "epoch": 7.00402144772118,
      "grad_norm": 17.299060821533203,
      "learning_rate": 4.1056742726229655e-05,
      "loss": 0.0382,
      "num_input_tokens_seen": 27290096,
      "step": 47025
    },
    {
      "epoch": 7.004766160262139,
      "grad_norm": 97.00847625732422,
      "learning_rate": 4.105425197822344e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 27292880,
      "step": 47030
    },
    {
      "epoch": 7.005510872803098,
      "grad_norm": 26.299684524536133,
      "learning_rate": 4.105176095899696e-05,
      "loss": 0.0154,
      "num_input_tokens_seen": 27295536,
      "step": 47035
    },
    {
      "epoch": 7.006255585344057,
      "grad_norm": 17.474790573120117,
      "learning_rate": 4.104926966859227e-05,
      "loss": 0.09,
      "num_input_tokens_seen": 27298416,
      "step": 47040
    },
    {
      "epoch": 7.007000297885017,
      "grad_norm": 0.009845663793385029,
      "learning_rate": 4.1046778107051495e-05,
      "loss": 0.0793,
      "num_input_tokens_seen": 27301072,
      "step": 47045
    },
    {
      "epoch": 7.0077450104259755,
      "grad_norm": 61.34324645996094,
      "learning_rate": 4.104428627441672e-05,
      "loss": 0.0434,
      "num_input_tokens_seen": 27304144,
      "step": 47050
    },
    {
      "epoch": 7.008489722966935,
      "grad_norm": 0.0780925527215004,
      "learning_rate": 4.104179417073002e-05,
      "loss": 0.0347,
      "num_input_tokens_seen": 27306928,
      "step": 47055
    },
    {
      "epoch": 7.009234435507894,
      "grad_norm": 0.7143253684043884,
      "learning_rate": 4.103930179603352e-05,
      "loss": 0.1038,
      "num_input_tokens_seen": 27310064,
      "step": 47060
    },
    {
      "epoch": 7.009979148048854,
      "grad_norm": 49.866615295410156,
      "learning_rate": 4.103680915036932e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 27313328,
      "step": 47065
    },
    {
      "epoch": 7.010723860589812,
      "grad_norm": 0.017313238233327866,
      "learning_rate": 4.1034316233779526e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 27317328,
      "step": 47070
    },
    {
      "epoch": 7.011468573130771,
      "grad_norm": 0.00649906974285841,
      "learning_rate": 4.103182304630625e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 27320368,
      "step": 47075
    },
    {
      "epoch": 7.012213285671731,
      "grad_norm": 0.008936584927141666,
      "learning_rate": 4.102932958799163e-05,
      "loss": 0.1425,
      "num_input_tokens_seen": 27323152,
      "step": 47080
    },
    {
      "epoch": 7.0129579982126895,
      "grad_norm": 0.021701596677303314,
      "learning_rate": 4.102683585887777e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 27326128,
      "step": 47085
    },
    {
      "epoch": 7.013702710753649,
      "grad_norm": 0.005358067341148853,
      "learning_rate": 4.102434185900681e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 27329072,
      "step": 47090
    },
    {
      "epoch": 7.014447423294608,
      "grad_norm": 0.001974449958652258,
      "learning_rate": 4.1021847588420876e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 27332304,
      "step": 47095
    },
    {
      "epoch": 7.0151921358355676,
      "grad_norm": 0.01566961407661438,
      "learning_rate": 4.101935304716211e-05,
      "loss": 0.3382,
      "num_input_tokens_seen": 27334832,
      "step": 47100
    },
    {
      "epoch": 7.015936848376526,
      "grad_norm": 33.90372848510742,
      "learning_rate": 4.101685823527266e-05,
      "loss": 0.1126,
      "num_input_tokens_seen": 27337616,
      "step": 47105
    },
    {
      "epoch": 7.016681560917486,
      "grad_norm": 0.0108324671164155,
      "learning_rate": 4.1014363152794664e-05,
      "loss": 0.4315,
      "num_input_tokens_seen": 27340176,
      "step": 47110
    },
    {
      "epoch": 7.017426273458445,
      "grad_norm": 0.22073504328727722,
      "learning_rate": 4.101186779977029e-05,
      "loss": 0.0717,
      "num_input_tokens_seen": 27343024,
      "step": 47115
    },
    {
      "epoch": 7.018170985999404,
      "grad_norm": 0.035239823162555695,
      "learning_rate": 4.1009372176241675e-05,
      "loss": 0.1416,
      "num_input_tokens_seen": 27346160,
      "step": 47120
    },
    {
      "epoch": 7.018915698540363,
      "grad_norm": 26.874401092529297,
      "learning_rate": 4.100687628225099e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 27349136,
      "step": 47125
    },
    {
      "epoch": 7.019660411081323,
      "grad_norm": 30.720504760742188,
      "learning_rate": 4.10043801178404e-05,
      "loss": 0.3281,
      "num_input_tokens_seen": 27352112,
      "step": 47130
    },
    {
      "epoch": 7.0204051236222815,
      "grad_norm": 0.0056337215937674046,
      "learning_rate": 4.100188368305207e-05,
      "loss": 0.2397,
      "num_input_tokens_seen": 27355152,
      "step": 47135
    },
    {
      "epoch": 7.021149836163241,
      "grad_norm": 0.04509981721639633,
      "learning_rate": 4.099938697792818e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 27358160,
      "step": 47140
    },
    {
      "epoch": 7.0218945487042,
      "grad_norm": 6.445032119750977,
      "learning_rate": 4.099689000251091e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 27361136,
      "step": 47145
    },
    {
      "epoch": 7.02263926124516,
      "grad_norm": 0.40096551179885864,
      "learning_rate": 4.0994392756842444e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 27363824,
      "step": 47150
    },
    {
      "epoch": 7.023383973786118,
      "grad_norm": 1.152942419052124,
      "learning_rate": 4.099189524096496e-05,
      "loss": 0.0972,
      "num_input_tokens_seen": 27366800,
      "step": 47155
    },
    {
      "epoch": 7.024128686327078,
      "grad_norm": 0.9015639424324036,
      "learning_rate": 4.098939745492066e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 27369712,
      "step": 47160
    },
    {
      "epoch": 7.024873398868037,
      "grad_norm": 0.13383908569812775,
      "learning_rate": 4.0986899398751754e-05,
      "loss": 0.1694,
      "num_input_tokens_seen": 27372528,
      "step": 47165
    },
    {
      "epoch": 7.025618111408996,
      "grad_norm": 27.620012283325195,
      "learning_rate": 4.098440107250042e-05,
      "loss": 0.3725,
      "num_input_tokens_seen": 27375568,
      "step": 47170
    },
    {
      "epoch": 7.026362823949955,
      "grad_norm": 0.030110366642475128,
      "learning_rate": 4.098190247620888e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 27378576,
      "step": 47175
    },
    {
      "epoch": 7.027107536490915,
      "grad_norm": 4.315098285675049,
      "learning_rate": 4.097940360991934e-05,
      "loss": 0.2212,
      "num_input_tokens_seen": 27381680,
      "step": 47180
    },
    {
      "epoch": 7.0278522490318736,
      "grad_norm": 28.4713077545166,
      "learning_rate": 4.097690447367402e-05,
      "loss": 0.1366,
      "num_input_tokens_seen": 27384400,
      "step": 47185
    },
    {
      "epoch": 7.028596961572833,
      "grad_norm": 0.038387518376111984,
      "learning_rate": 4.097440506751513e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 27387120,
      "step": 47190
    },
    {
      "epoch": 7.029341674113792,
      "grad_norm": 0.02502630278468132,
      "learning_rate": 4.097190539148491e-05,
      "loss": 0.2893,
      "num_input_tokens_seen": 27390544,
      "step": 47195
    },
    {
      "epoch": 7.030086386654752,
      "grad_norm": 0.12678366899490356,
      "learning_rate": 4.096940544562557e-05,
      "loss": 0.1504,
      "num_input_tokens_seen": 27393616,
      "step": 47200
    },
    {
      "epoch": 7.03083109919571,
      "grad_norm": 5.1882829666137695,
      "learning_rate": 4.096690522997936e-05,
      "loss": 0.207,
      "num_input_tokens_seen": 27396272,
      "step": 47205
    },
    {
      "epoch": 7.03157581173667,
      "grad_norm": 133.6036834716797,
      "learning_rate": 4.096440474458852e-05,
      "loss": 0.1465,
      "num_input_tokens_seen": 27399184,
      "step": 47210
    },
    {
      "epoch": 7.032320524277629,
      "grad_norm": 18.637130737304688,
      "learning_rate": 4.096190398949529e-05,
      "loss": 0.1827,
      "num_input_tokens_seen": 27402640,
      "step": 47215
    },
    {
      "epoch": 7.033065236818588,
      "grad_norm": 1.8621960878372192,
      "learning_rate": 4.09594029647419e-05,
      "loss": 0.1008,
      "num_input_tokens_seen": 27405456,
      "step": 47220
    },
    {
      "epoch": 7.033809949359547,
      "grad_norm": 35.424320220947266,
      "learning_rate": 4.095690167037063e-05,
      "loss": 0.2944,
      "num_input_tokens_seen": 27408336,
      "step": 47225
    },
    {
      "epoch": 7.034554661900507,
      "grad_norm": 5.187391757965088,
      "learning_rate": 4.095440010642372e-05,
      "loss": 0.1682,
      "num_input_tokens_seen": 27410896,
      "step": 47230
    },
    {
      "epoch": 7.035299374441466,
      "grad_norm": 34.421234130859375,
      "learning_rate": 4.0951898272943436e-05,
      "loss": 0.2158,
      "num_input_tokens_seen": 27414032,
      "step": 47235
    },
    {
      "epoch": 7.036044086982425,
      "grad_norm": 3.9076128005981445,
      "learning_rate": 4.094939616997204e-05,
      "loss": 0.1916,
      "num_input_tokens_seen": 27416880,
      "step": 47240
    },
    {
      "epoch": 7.036788799523384,
      "grad_norm": 49.9835319519043,
      "learning_rate": 4.094689379755181e-05,
      "loss": 0.1044,
      "num_input_tokens_seen": 27419760,
      "step": 47245
    },
    {
      "epoch": 7.037533512064343,
      "grad_norm": 0.011145876720547676,
      "learning_rate": 4.094439115572502e-05,
      "loss": 0.0492,
      "num_input_tokens_seen": 27422608,
      "step": 47250
    },
    {
      "epoch": 7.038278224605302,
      "grad_norm": 45.36368942260742,
      "learning_rate": 4.094188824453394e-05,
      "loss": 0.3145,
      "num_input_tokens_seen": 27426096,
      "step": 47255
    },
    {
      "epoch": 7.039022937146261,
      "grad_norm": 0.006664536893367767,
      "learning_rate": 4.0939385064020866e-05,
      "loss": 0.0579,
      "num_input_tokens_seen": 27429136,
      "step": 47260
    },
    {
      "epoch": 7.039767649687221,
      "grad_norm": 22.25165557861328,
      "learning_rate": 4.093688161422808e-05,
      "loss": 0.38,
      "num_input_tokens_seen": 27432144,
      "step": 47265
    },
    {
      "epoch": 7.0405123622281796,
      "grad_norm": 1.170997142791748,
      "learning_rate": 4.093437789519787e-05,
      "loss": 0.028,
      "num_input_tokens_seen": 27434864,
      "step": 47270
    },
    {
      "epoch": 7.041257074769139,
      "grad_norm": 0.07595809549093246,
      "learning_rate": 4.093187390697255e-05,
      "loss": 0.3732,
      "num_input_tokens_seen": 27437584,
      "step": 47275
    },
    {
      "epoch": 7.042001787310098,
      "grad_norm": 0.16606609523296356,
      "learning_rate": 4.0929369649594416e-05,
      "loss": 0.1599,
      "num_input_tokens_seen": 27440432,
      "step": 47280
    },
    {
      "epoch": 7.042746499851058,
      "grad_norm": 0.033588867634534836,
      "learning_rate": 4.092686512310576e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 27443248,
      "step": 47285
    },
    {
      "epoch": 7.043491212392016,
      "grad_norm": 0.10524151474237442,
      "learning_rate": 4.09243603275489e-05,
      "loss": 0.0285,
      "num_input_tokens_seen": 27446128,
      "step": 47290
    },
    {
      "epoch": 7.044235924932976,
      "grad_norm": 0.26552924513816833,
      "learning_rate": 4.092185526296618e-05,
      "loss": 0.0404,
      "num_input_tokens_seen": 27449296,
      "step": 47295
    },
    {
      "epoch": 7.044980637473935,
      "grad_norm": 110.84090423583984,
      "learning_rate": 4.091934992939989e-05,
      "loss": 0.17,
      "num_input_tokens_seen": 27452688,
      "step": 47300
    },
    {
      "epoch": 7.045725350014894,
      "grad_norm": 0.006294942460954189,
      "learning_rate": 4.0916844326892344e-05,
      "loss": 0.0556,
      "num_input_tokens_seen": 27455728,
      "step": 47305
    },
    {
      "epoch": 7.046470062555853,
      "grad_norm": 0.6542360186576843,
      "learning_rate": 4.091433845548591e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 27458672,
      "step": 47310
    },
    {
      "epoch": 7.047214775096813,
      "grad_norm": 21.866954803466797,
      "learning_rate": 4.0911832315222896e-05,
      "loss": 0.0421,
      "num_input_tokens_seen": 27461776,
      "step": 47315
    },
    {
      "epoch": 7.047959487637772,
      "grad_norm": 30.392518997192383,
      "learning_rate": 4.090932590614565e-05,
      "loss": 0.4487,
      "num_input_tokens_seen": 27465008,
      "step": 47320
    },
    {
      "epoch": 7.048704200178731,
      "grad_norm": 0.051371097564697266,
      "learning_rate": 4.09068192282965e-05,
      "loss": 0.0181,
      "num_input_tokens_seen": 27467984,
      "step": 47325
    },
    {
      "epoch": 7.04944891271969,
      "grad_norm": 0.38171055912971497,
      "learning_rate": 4.090431228171782e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 27470928,
      "step": 47330
    },
    {
      "epoch": 7.05019362526065,
      "grad_norm": 22.298927307128906,
      "learning_rate": 4.0901805066451946e-05,
      "loss": 0.2247,
      "num_input_tokens_seen": 27473808,
      "step": 47335
    },
    {
      "epoch": 7.050938337801608,
      "grad_norm": 0.0237121544778347,
      "learning_rate": 4.089929758254123e-05,
      "loss": 0.2798,
      "num_input_tokens_seen": 27476336,
      "step": 47340
    },
    {
      "epoch": 7.051683050342568,
      "grad_norm": 71.2723617553711,
      "learning_rate": 4.089678983002805e-05,
      "loss": 0.1254,
      "num_input_tokens_seen": 27478992,
      "step": 47345
    },
    {
      "epoch": 7.052427762883527,
      "grad_norm": 0.3861883580684662,
      "learning_rate": 4.089428180895476e-05,
      "loss": 0.0768,
      "num_input_tokens_seen": 27482064,
      "step": 47350
    },
    {
      "epoch": 7.053172475424486,
      "grad_norm": 0.011350427754223347,
      "learning_rate": 4.089177351936373e-05,
      "loss": 0.0146,
      "num_input_tokens_seen": 27485104,
      "step": 47355
    },
    {
      "epoch": 7.053917187965445,
      "grad_norm": 65.52523040771484,
      "learning_rate": 4.0889264961297336e-05,
      "loss": 0.3386,
      "num_input_tokens_seen": 27488208,
      "step": 47360
    },
    {
      "epoch": 7.054661900506405,
      "grad_norm": 5.0885114669799805,
      "learning_rate": 4.0886756134797964e-05,
      "loss": 0.2069,
      "num_input_tokens_seen": 27491248,
      "step": 47365
    },
    {
      "epoch": 7.055406613047364,
      "grad_norm": 0.035613711923360825,
      "learning_rate": 4.0884247039907984e-05,
      "loss": 0.1812,
      "num_input_tokens_seen": 27493904,
      "step": 47370
    },
    {
      "epoch": 7.056151325588323,
      "grad_norm": 0.0117073068395257,
      "learning_rate": 4.0881737676669813e-05,
      "loss": 0.1862,
      "num_input_tokens_seen": 27496912,
      "step": 47375
    },
    {
      "epoch": 7.056896038129282,
      "grad_norm": 0.7289562821388245,
      "learning_rate": 4.087922804512582e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 27500016,
      "step": 47380
    },
    {
      "epoch": 7.057640750670242,
      "grad_norm": 94.63664245605469,
      "learning_rate": 4.087671814531839e-05,
      "loss": 0.247,
      "num_input_tokens_seen": 27502640,
      "step": 47385
    },
    {
      "epoch": 7.0583854632112,
      "grad_norm": 57.1761360168457,
      "learning_rate": 4.087420797728996e-05,
      "loss": 0.0405,
      "num_input_tokens_seen": 27505424,
      "step": 47390
    },
    {
      "epoch": 7.05913017575216,
      "grad_norm": 0.6045724153518677,
      "learning_rate": 4.087169754108292e-05,
      "loss": 0.063,
      "num_input_tokens_seen": 27508752,
      "step": 47395
    },
    {
      "epoch": 7.059874888293119,
      "grad_norm": 0.006449203938245773,
      "learning_rate": 4.0869186836739674e-05,
      "loss": 0.227,
      "num_input_tokens_seen": 27511376,
      "step": 47400
    },
    {
      "epoch": 7.0606196008340785,
      "grad_norm": 31.763513565063477,
      "learning_rate": 4.086667586430265e-05,
      "loss": 0.268,
      "num_input_tokens_seen": 27514448,
      "step": 47405
    },
    {
      "epoch": 7.061364313375037,
      "grad_norm": 106.7850341796875,
      "learning_rate": 4.086416462381426e-05,
      "loss": 0.2463,
      "num_input_tokens_seen": 27517296,
      "step": 47410
    },
    {
      "epoch": 7.062109025915996,
      "grad_norm": 0.004036194644868374,
      "learning_rate": 4.086165311531694e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 27520176,
      "step": 47415
    },
    {
      "epoch": 7.062853738456956,
      "grad_norm": 0.017153626307845116,
      "learning_rate": 4.085914133885311e-05,
      "loss": 0.1853,
      "num_input_tokens_seen": 27523152,
      "step": 47420
    },
    {
      "epoch": 7.063598450997914,
      "grad_norm": 0.17553716897964478,
      "learning_rate": 4.08566292944652e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 27525968,
      "step": 47425
    },
    {
      "epoch": 7.064343163538874,
      "grad_norm": 0.001736571779474616,
      "learning_rate": 4.085411698219566e-05,
      "loss": 0.0428,
      "num_input_tokens_seen": 27529232,
      "step": 47430
    },
    {
      "epoch": 7.065087876079833,
      "grad_norm": 32.38288879394531,
      "learning_rate": 4.085160440208692e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 27532112,
      "step": 47435
    },
    {
      "epoch": 7.065832588620792,
      "grad_norm": 0.029473204165697098,
      "learning_rate": 4.084909155418143e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 27535152,
      "step": 47440
    },
    {
      "epoch": 7.066577301161751,
      "grad_norm": 0.00484317634254694,
      "learning_rate": 4.084657843852166e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 27537968,
      "step": 47445
    },
    {
      "epoch": 7.067322013702711,
      "grad_norm": 56.90008544921875,
      "learning_rate": 4.0844065055150046e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 27541584,
      "step": 47450
    },
    {
      "epoch": 7.06806672624367,
      "grad_norm": 57.80507278442383,
      "learning_rate": 4.0841551404109056e-05,
      "loss": 0.1625,
      "num_input_tokens_seen": 27544432,
      "step": 47455
    },
    {
      "epoch": 7.068811438784629,
      "grad_norm": 0.01023569330573082,
      "learning_rate": 4.083903748544116e-05,
      "loss": 0.19,
      "num_input_tokens_seen": 27547632,
      "step": 47460
    },
    {
      "epoch": 7.069556151325588,
      "grad_norm": 0.2571725845336914,
      "learning_rate": 4.0836523299188826e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 27550608,
      "step": 47465
    },
    {
      "epoch": 7.070300863866548,
      "grad_norm": 0.055921901017427444,
      "learning_rate": 4.083400884539452e-05,
      "loss": 0.047,
      "num_input_tokens_seen": 27553488,
      "step": 47470
    },
    {
      "epoch": 7.071045576407506,
      "grad_norm": 10.097848892211914,
      "learning_rate": 4.083149412410072e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 27556272,
      "step": 47475
    },
    {
      "epoch": 7.071790288948466,
      "grad_norm": 25.61884880065918,
      "learning_rate": 4.082897913534993e-05,
      "loss": 0.0857,
      "num_input_tokens_seen": 27559088,
      "step": 47480
    },
    {
      "epoch": 7.072535001489425,
      "grad_norm": 0.26210060715675354,
      "learning_rate": 4.0826463879184615e-05,
      "loss": 0.1901,
      "num_input_tokens_seen": 27562256,
      "step": 47485
    },
    {
      "epoch": 7.0732797140303845,
      "grad_norm": 0.11503294855356216,
      "learning_rate": 4.082394835564729e-05,
      "loss": 0.0818,
      "num_input_tokens_seen": 27564880,
      "step": 47490
    },
    {
      "epoch": 7.074024426571343,
      "grad_norm": 38.19806671142578,
      "learning_rate": 4.082143256478044e-05,
      "loss": 0.2826,
      "num_input_tokens_seen": 27567344,
      "step": 47495
    },
    {
      "epoch": 7.074769139112303,
      "grad_norm": 0.07040238380432129,
      "learning_rate": 4.081891650662656e-05,
      "loss": 0.3083,
      "num_input_tokens_seen": 27570288,
      "step": 47500
    },
    {
      "epoch": 7.075513851653262,
      "grad_norm": 6.170928001403809,
      "learning_rate": 4.0816400181228165e-05,
      "loss": 0.2058,
      "num_input_tokens_seen": 27573072,
      "step": 47505
    },
    {
      "epoch": 7.076258564194221,
      "grad_norm": 0.008508527651429176,
      "learning_rate": 4.081388358862776e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 27575856,
      "step": 47510
    },
    {
      "epoch": 7.07700327673518,
      "grad_norm": 18.810304641723633,
      "learning_rate": 4.0811366728867874e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 27579088,
      "step": 47515
    },
    {
      "epoch": 7.07774798927614,
      "grad_norm": 68.08829498291016,
      "learning_rate": 4.080884960199101e-05,
      "loss": 0.1607,
      "num_input_tokens_seen": 27582000,
      "step": 47520
    },
    {
      "epoch": 7.078492701817098,
      "grad_norm": 0.03593863919377327,
      "learning_rate": 4.08063322080397e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 27584592,
      "step": 47525
    },
    {
      "epoch": 7.079237414358058,
      "grad_norm": 17.086780548095703,
      "learning_rate": 4.080381454705647e-05,
      "loss": 0.5222,
      "num_input_tokens_seen": 27587600,
      "step": 47530
    },
    {
      "epoch": 7.079982126899017,
      "grad_norm": 0.1387803852558136,
      "learning_rate": 4.080129661908386e-05,
      "loss": 0.2315,
      "num_input_tokens_seen": 27590480,
      "step": 47535
    },
    {
      "epoch": 7.0807268394399765,
      "grad_norm": 5.094465732574463,
      "learning_rate": 4.07987784241644e-05,
      "loss": 0.137,
      "num_input_tokens_seen": 27593456,
      "step": 47540
    },
    {
      "epoch": 7.081471551980935,
      "grad_norm": 1.7494754791259766,
      "learning_rate": 4.0796259962340636e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 27596176,
      "step": 47545
    },
    {
      "epoch": 7.082216264521895,
      "grad_norm": 4.2506327629089355,
      "learning_rate": 4.079374123365512e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 27598896,
      "step": 47550
    },
    {
      "epoch": 7.082960977062854,
      "grad_norm": 0.023225514218211174,
      "learning_rate": 4.079122223815039e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 27601744,
      "step": 47555
    },
    {
      "epoch": 7.083705689603813,
      "grad_norm": 0.13820749521255493,
      "learning_rate": 4.0788702975869013e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 27604656,
      "step": 47560
    },
    {
      "epoch": 7.084450402144772,
      "grad_norm": 59.29416275024414,
      "learning_rate": 4.0786183446853545e-05,
      "loss": 0.0641,
      "num_input_tokens_seen": 27607344,
      "step": 47565
    },
    {
      "epoch": 7.085195114685732,
      "grad_norm": 67.83649444580078,
      "learning_rate": 4.0783663651146555e-05,
      "loss": 0.1852,
      "num_input_tokens_seen": 27610384,
      "step": 47570
    },
    {
      "epoch": 7.0859398272266905,
      "grad_norm": 10.594131469726562,
      "learning_rate": 4.078114358879061e-05,
      "loss": 0.1524,
      "num_input_tokens_seen": 27613264,
      "step": 47575
    },
    {
      "epoch": 7.08668453976765,
      "grad_norm": 0.029970047995448112,
      "learning_rate": 4.077862325982828e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 27616048,
      "step": 47580
    },
    {
      "epoch": 7.087429252308609,
      "grad_norm": 22.13382339477539,
      "learning_rate": 4.077610266430215e-05,
      "loss": 0.2644,
      "num_input_tokens_seen": 27618864,
      "step": 47585
    },
    {
      "epoch": 7.088173964849568,
      "grad_norm": 0.09890861809253693,
      "learning_rate": 4.0773581802254795e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 27621904,
      "step": 47590
    },
    {
      "epoch": 7.088918677390527,
      "grad_norm": 66.73139953613281,
      "learning_rate": 4.077106067372881e-05,
      "loss": 0.4577,
      "num_input_tokens_seen": 27624816,
      "step": 47595
    },
    {
      "epoch": 7.089663389931486,
      "grad_norm": 0.6782311797142029,
      "learning_rate": 4.0768539278766784e-05,
      "loss": 0.2342,
      "num_input_tokens_seen": 27627504,
      "step": 47600
    },
    {
      "epoch": 7.090408102472446,
      "grad_norm": 0.053770311176776886,
      "learning_rate": 4.076601761741131e-05,
      "loss": 0.0168,
      "num_input_tokens_seen": 27630448,
      "step": 47605
    },
    {
      "epoch": 7.091152815013404,
      "grad_norm": 14.982780456542969,
      "learning_rate": 4.0763495689705004e-05,
      "loss": 0.5037,
      "num_input_tokens_seen": 27633232,
      "step": 47610
    },
    {
      "epoch": 7.091897527554364,
      "grad_norm": 0.3931567668914795,
      "learning_rate": 4.076097349569044e-05,
      "loss": 0.2983,
      "num_input_tokens_seen": 27636112,
      "step": 47615
    },
    {
      "epoch": 7.092642240095323,
      "grad_norm": 0.02658531814813614,
      "learning_rate": 4.075845103541026e-05,
      "loss": 0.0532,
      "num_input_tokens_seen": 27638992,
      "step": 47620
    },
    {
      "epoch": 7.0933869526362825,
      "grad_norm": 2.9211392402648926,
      "learning_rate": 4.0755928308907065e-05,
      "loss": 0.2603,
      "num_input_tokens_seen": 27641936,
      "step": 47625
    },
    {
      "epoch": 7.094131665177241,
      "grad_norm": 70.2730941772461,
      "learning_rate": 4.0753405316223476e-05,
      "loss": 0.1304,
      "num_input_tokens_seen": 27644688,
      "step": 47630
    },
    {
      "epoch": 7.094876377718201,
      "grad_norm": 3.2608802318573,
      "learning_rate": 4.0750882057402116e-05,
      "loss": 0.0868,
      "num_input_tokens_seen": 27647440,
      "step": 47635
    },
    {
      "epoch": 7.09562109025916,
      "grad_norm": 0.055839404463768005,
      "learning_rate": 4.074835853248561e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 27650416,
      "step": 47640
    },
    {
      "epoch": 7.096365802800119,
      "grad_norm": 0.020610949024558067,
      "learning_rate": 4.074583474151659e-05,
      "loss": 0.1467,
      "num_input_tokens_seen": 27653296,
      "step": 47645
    },
    {
      "epoch": 7.097110515341078,
      "grad_norm": 2.845266819000244,
      "learning_rate": 4.074331068453769e-05,
      "loss": 0.0894,
      "num_input_tokens_seen": 27656016,
      "step": 47650
    },
    {
      "epoch": 7.097855227882038,
      "grad_norm": 0.17862501740455627,
      "learning_rate": 4.0740786361591565e-05,
      "loss": 0.1537,
      "num_input_tokens_seen": 27659120,
      "step": 47655
    },
    {
      "epoch": 7.0985999404229965,
      "grad_norm": 1.9353739023208618,
      "learning_rate": 4.073826177272085e-05,
      "loss": 0.0331,
      "num_input_tokens_seen": 27662192,
      "step": 47660
    },
    {
      "epoch": 7.099344652963956,
      "grad_norm": 3.8801157474517822,
      "learning_rate": 4.0735736917968205e-05,
      "loss": 0.0298,
      "num_input_tokens_seen": 27665104,
      "step": 47665
    },
    {
      "epoch": 7.100089365504915,
      "grad_norm": 0.1632743775844574,
      "learning_rate": 4.073321179737627e-05,
      "loss": 0.1385,
      "num_input_tokens_seen": 27668272,
      "step": 47670
    },
    {
      "epoch": 7.1008340780458745,
      "grad_norm": 5.919986248016357,
      "learning_rate": 4.073068641098772e-05,
      "loss": 0.2869,
      "num_input_tokens_seen": 27671312,
      "step": 47675
    },
    {
      "epoch": 7.101578790586833,
      "grad_norm": 0.1026381179690361,
      "learning_rate": 4.07281607588452e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 27674128,
      "step": 47680
    },
    {
      "epoch": 7.102323503127793,
      "grad_norm": 0.00836266204714775,
      "learning_rate": 4.07256348409914e-05,
      "loss": 0.1026,
      "num_input_tokens_seen": 27676752,
      "step": 47685
    },
    {
      "epoch": 7.103068215668752,
      "grad_norm": 0.00585894426330924,
      "learning_rate": 4.072310865746898e-05,
      "loss": 0.159,
      "num_input_tokens_seen": 27679664,
      "step": 47690
    },
    {
      "epoch": 7.103812928209711,
      "grad_norm": 86.37071228027344,
      "learning_rate": 4.072058220832061e-05,
      "loss": 0.1641,
      "num_input_tokens_seen": 27683056,
      "step": 47695
    },
    {
      "epoch": 7.10455764075067,
      "grad_norm": 21.907758712768555,
      "learning_rate": 4.071805549358899e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 27685936,
      "step": 47700
    },
    {
      "epoch": 7.10530235329163,
      "grad_norm": 0.07510539144277573,
      "learning_rate": 4.0715528513316796e-05,
      "loss": 0.0294,
      "num_input_tokens_seen": 27688912,
      "step": 47705
    },
    {
      "epoch": 7.1060470658325885,
      "grad_norm": 0.21713513135910034,
      "learning_rate": 4.0713001267546724e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 27692080,
      "step": 47710
    },
    {
      "epoch": 7.106791778373548,
      "grad_norm": 0.040368322283029556,
      "learning_rate": 4.0710473756321453e-05,
      "loss": 0.0843,
      "num_input_tokens_seen": 27694896,
      "step": 47715
    },
    {
      "epoch": 7.107536490914507,
      "grad_norm": 90.85966491699219,
      "learning_rate": 4.07079459796837e-05,
      "loss": 0.2206,
      "num_input_tokens_seen": 27697904,
      "step": 47720
    },
    {
      "epoch": 7.1082812034554665,
      "grad_norm": 28.846162796020508,
      "learning_rate": 4.070541793767618e-05,
      "loss": 0.2553,
      "num_input_tokens_seen": 27700784,
      "step": 47725
    },
    {
      "epoch": 7.109025915996425,
      "grad_norm": 4.242637634277344,
      "learning_rate": 4.0702889630341566e-05,
      "loss": 0.1809,
      "num_input_tokens_seen": 27703568,
      "step": 47730
    },
    {
      "epoch": 7.109770628537385,
      "grad_norm": 0.011887991800904274,
      "learning_rate": 4.07003610577226e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 27706256,
      "step": 47735
    },
    {
      "epoch": 7.110515341078344,
      "grad_norm": 0.10424850881099701,
      "learning_rate": 4.0697832219862e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 27709232,
      "step": 47740
    },
    {
      "epoch": 7.111260053619303,
      "grad_norm": 2.9278564453125,
      "learning_rate": 4.069530311680247e-05,
      "loss": 0.2367,
      "num_input_tokens_seen": 27712048,
      "step": 47745
    },
    {
      "epoch": 7.112004766160262,
      "grad_norm": 19.568082809448242,
      "learning_rate": 4.0692773748586743e-05,
      "loss": 0.1954,
      "num_input_tokens_seen": 27714768,
      "step": 47750
    },
    {
      "epoch": 7.112749478701222,
      "grad_norm": 1.2779412269592285,
      "learning_rate": 4.069024411525756e-05,
      "loss": 0.0904,
      "num_input_tokens_seen": 27717552,
      "step": 47755
    },
    {
      "epoch": 7.1134941912421805,
      "grad_norm": 0.015575678087770939,
      "learning_rate": 4.0687714216857645e-05,
      "loss": 0.181,
      "num_input_tokens_seen": 27720592,
      "step": 47760
    },
    {
      "epoch": 7.114238903783139,
      "grad_norm": 0.014186573214828968,
      "learning_rate": 4.068518405342974e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 27723248,
      "step": 47765
    },
    {
      "epoch": 7.114983616324099,
      "grad_norm": 19.611753463745117,
      "learning_rate": 4.068265362501659e-05,
      "loss": 0.398,
      "num_input_tokens_seen": 27726000,
      "step": 47770
    },
    {
      "epoch": 7.115728328865058,
      "grad_norm": 0.8779019117355347,
      "learning_rate": 4.0680122931660955e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 27728944,
      "step": 47775
    },
    {
      "epoch": 7.116473041406017,
      "grad_norm": 20.99604606628418,
      "learning_rate": 4.067759197340558e-05,
      "loss": 0.4037,
      "num_input_tokens_seen": 27732016,
      "step": 47780
    },
    {
      "epoch": 7.117217753946976,
      "grad_norm": 0.011038578115403652,
      "learning_rate": 4.0675060750293216e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 27734928,
      "step": 47785
    },
    {
      "epoch": 7.117962466487936,
      "grad_norm": 0.006032232660800219,
      "learning_rate": 4.067252926236663e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 27738000,
      "step": 47790
    },
    {
      "epoch": 7.1187071790288945,
      "grad_norm": 0.01249407883733511,
      "learning_rate": 4.06699975096686e-05,
      "loss": 0.0522,
      "num_input_tokens_seen": 27740848,
      "step": 47795
    },
    {
      "epoch": 7.119451891569854,
      "grad_norm": 0.010346620343625546,
      "learning_rate": 4.066746549224189e-05,
      "loss": 0.0216,
      "num_input_tokens_seen": 27744016,
      "step": 47800
    },
    {
      "epoch": 7.120196604110813,
      "grad_norm": 3.8611230850219727,
      "learning_rate": 4.0664933210129265e-05,
      "loss": 0.0225,
      "num_input_tokens_seen": 27746832,
      "step": 47805
    },
    {
      "epoch": 7.1209413166517725,
      "grad_norm": 0.06459502875804901,
      "learning_rate": 4.066240066337351e-05,
      "loss": 0.3042,
      "num_input_tokens_seen": 27749488,
      "step": 47810
    },
    {
      "epoch": 7.121686029192731,
      "grad_norm": 59.637794494628906,
      "learning_rate": 4.065986785201743e-05,
      "loss": 0.4885,
      "num_input_tokens_seen": 27752272,
      "step": 47815
    },
    {
      "epoch": 7.122430741733691,
      "grad_norm": 19.08324432373047,
      "learning_rate": 4.065733477610379e-05,
      "loss": 0.2212,
      "num_input_tokens_seen": 27754928,
      "step": 47820
    },
    {
      "epoch": 7.12317545427465,
      "grad_norm": 0.01331361010670662,
      "learning_rate": 4.065480143567539e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 27757744,
      "step": 47825
    },
    {
      "epoch": 7.123920166815609,
      "grad_norm": 0.8695508241653442,
      "learning_rate": 4.065226783077504e-05,
      "loss": 0.1202,
      "num_input_tokens_seen": 27760784,
      "step": 47830
    },
    {
      "epoch": 7.124664879356568,
      "grad_norm": 149.04246520996094,
      "learning_rate": 4.0649733961445525e-05,
      "loss": 0.0864,
      "num_input_tokens_seen": 27763888,
      "step": 47835
    },
    {
      "epoch": 7.125409591897528,
      "grad_norm": 23.690914154052734,
      "learning_rate": 4.064719982772965e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 27766576,
      "step": 47840
    },
    {
      "epoch": 7.1261543044384865,
      "grad_norm": 0.08248888701200485,
      "learning_rate": 4.064466542967026e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 27769296,
      "step": 47845
    },
    {
      "epoch": 7.126899016979446,
      "grad_norm": 0.008246207609772682,
      "learning_rate": 4.0642130767310136e-05,
      "loss": 0.3659,
      "num_input_tokens_seen": 27772240,
      "step": 47850
    },
    {
      "epoch": 7.127643729520405,
      "grad_norm": 115.52508544921875,
      "learning_rate": 4.0639595840692116e-05,
      "loss": 0.1733,
      "num_input_tokens_seen": 27775280,
      "step": 47855
    },
    {
      "epoch": 7.128388442061365,
      "grad_norm": 0.3057310879230499,
      "learning_rate": 4.063706064985901e-05,
      "loss": 0.1527,
      "num_input_tokens_seen": 27778384,
      "step": 47860
    },
    {
      "epoch": 7.129133154602323,
      "grad_norm": 4.826727867126465,
      "learning_rate": 4.063452519485367e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 27781104,
      "step": 47865
    },
    {
      "epoch": 7.129877867143283,
      "grad_norm": 0.06643921881914139,
      "learning_rate": 4.06319894757189e-05,
      "loss": 0.114,
      "num_input_tokens_seen": 27784048,
      "step": 47870
    },
    {
      "epoch": 7.130622579684242,
      "grad_norm": 0.024251313880085945,
      "learning_rate": 4.062945349249757e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 27786832,
      "step": 47875
    },
    {
      "epoch": 7.131367292225201,
      "grad_norm": 53.930519104003906,
      "learning_rate": 4.06269172452325e-05,
      "loss": 0.3095,
      "num_input_tokens_seen": 27789808,
      "step": 47880
    },
    {
      "epoch": 7.13211200476616,
      "grad_norm": 2.1301004886627197,
      "learning_rate": 4.0624380733966546e-05,
      "loss": 0.0123,
      "num_input_tokens_seen": 27792816,
      "step": 47885
    },
    {
      "epoch": 7.13285671730712,
      "grad_norm": 0.6701822876930237,
      "learning_rate": 4.062184395874257e-05,
      "loss": 0.3741,
      "num_input_tokens_seen": 27795984,
      "step": 47890
    },
    {
      "epoch": 7.1336014298480785,
      "grad_norm": 0.6054244041442871,
      "learning_rate": 4.0619306919603405e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 27798864,
      "step": 47895
    },
    {
      "epoch": 7.134346142389038,
      "grad_norm": 0.18345610797405243,
      "learning_rate": 4.061676961659193e-05,
      "loss": 0.0948,
      "num_input_tokens_seen": 27801808,
      "step": 47900
    },
    {
      "epoch": 7.135090854929997,
      "grad_norm": 1.0498257875442505,
      "learning_rate": 4.061423204975101e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 27804848,
      "step": 47905
    },
    {
      "epoch": 7.135835567470957,
      "grad_norm": 0.6149416565895081,
      "learning_rate": 4.06116942191235e-05,
      "loss": 0.1732,
      "num_input_tokens_seen": 27807824,
      "step": 47910
    },
    {
      "epoch": 7.136580280011915,
      "grad_norm": 0.014730345457792282,
      "learning_rate": 4.060915612475229e-05,
      "loss": 0.1495,
      "num_input_tokens_seen": 27811056,
      "step": 47915
    },
    {
      "epoch": 7.137324992552875,
      "grad_norm": 0.00434019323438406,
      "learning_rate": 4.060661776668024e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 27813808,
      "step": 47920
    },
    {
      "epoch": 7.138069705093834,
      "grad_norm": 0.0019647846929728985,
      "learning_rate": 4.060407914495026e-05,
      "loss": 0.3035,
      "num_input_tokens_seen": 27816880,
      "step": 47925
    },
    {
      "epoch": 7.1388144176347925,
      "grad_norm": 0.7125731110572815,
      "learning_rate": 4.060154025960521e-05,
      "loss": 0.0815,
      "num_input_tokens_seen": 27819760,
      "step": 47930
    },
    {
      "epoch": 7.139559130175752,
      "grad_norm": 23.21760368347168,
      "learning_rate": 4.0599001110688e-05,
      "loss": 0.1068,
      "num_input_tokens_seen": 27822544,
      "step": 47935
    },
    {
      "epoch": 7.140303842716711,
      "grad_norm": 0.019481739029288292,
      "learning_rate": 4.0596461698241524e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 27825424,
      "step": 47940
    },
    {
      "epoch": 7.141048555257671,
      "grad_norm": 36.066490173339844,
      "learning_rate": 4.059392202230867e-05,
      "loss": 0.4634,
      "num_input_tokens_seen": 27827952,
      "step": 47945
    },
    {
      "epoch": 7.141793267798629,
      "grad_norm": 26.917943954467773,
      "learning_rate": 4.059138208293236e-05,
      "loss": 0.475,
      "num_input_tokens_seen": 27830672,
      "step": 47950
    },
    {
      "epoch": 7.142537980339589,
      "grad_norm": 0.0328870490193367,
      "learning_rate": 4.058884188015549e-05,
      "loss": 0.0245,
      "num_input_tokens_seen": 27833424,
      "step": 47955
    },
    {
      "epoch": 7.143282692880548,
      "grad_norm": 0.011483544483780861,
      "learning_rate": 4.058630141402099e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 27836176,
      "step": 47960
    },
    {
      "epoch": 7.144027405421507,
      "grad_norm": 18.550296783447266,
      "learning_rate": 4.058376068457176e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 27839120,
      "step": 47965
    },
    {
      "epoch": 7.144772117962466,
      "grad_norm": 0.025791961699724197,
      "learning_rate": 4.058121969185073e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 27841744,
      "step": 47970
    },
    {
      "epoch": 7.145516830503426,
      "grad_norm": 0.008921568281948566,
      "learning_rate": 4.057867843590083e-05,
      "loss": 0.2121,
      "num_input_tokens_seen": 27844720,
      "step": 47975
    },
    {
      "epoch": 7.1462615430443845,
      "grad_norm": 0.03890826180577278,
      "learning_rate": 4.0576136916765e-05,
      "loss": 0.0165,
      "num_input_tokens_seen": 27847248,
      "step": 47980
    },
    {
      "epoch": 7.147006255585344,
      "grad_norm": 49.41620635986328,
      "learning_rate": 4.0573595134486166e-05,
      "loss": 0.265,
      "num_input_tokens_seen": 27849840,
      "step": 47985
    },
    {
      "epoch": 7.147750968126303,
      "grad_norm": 37.26978302001953,
      "learning_rate": 4.0571053089107256e-05,
      "loss": 0.2833,
      "num_input_tokens_seen": 27852720,
      "step": 47990
    },
    {
      "epoch": 7.148495680667263,
      "grad_norm": 87.6444320678711,
      "learning_rate": 4.056851078067124e-05,
      "loss": 0.0633,
      "num_input_tokens_seen": 27855568,
      "step": 47995
    },
    {
      "epoch": 7.149240393208221,
      "grad_norm": 14.287647247314453,
      "learning_rate": 4.056596820922106e-05,
      "loss": 0.1634,
      "num_input_tokens_seen": 27859024,
      "step": 48000
    },
    {
      "epoch": 7.149985105749181,
      "grad_norm": 30.704618453979492,
      "learning_rate": 4.0563425374799665e-05,
      "loss": 0.2993,
      "num_input_tokens_seen": 27861648,
      "step": 48005
    },
    {
      "epoch": 7.15072981829014,
      "grad_norm": 1.3226211071014404,
      "learning_rate": 4.0560882277450017e-05,
      "loss": 0.3702,
      "num_input_tokens_seen": 27864720,
      "step": 48010
    },
    {
      "epoch": 7.151474530831099,
      "grad_norm": 13.592020034790039,
      "learning_rate": 4.055833891721508e-05,
      "loss": 0.2347,
      "num_input_tokens_seen": 27867600,
      "step": 48015
    },
    {
      "epoch": 7.152219243372058,
      "grad_norm": 19.51014518737793,
      "learning_rate": 4.0555795294137824e-05,
      "loss": 0.092,
      "num_input_tokens_seen": 27870512,
      "step": 48020
    },
    {
      "epoch": 7.152963955913018,
      "grad_norm": 0.0762501135468483,
      "learning_rate": 4.05532514082612e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 27873520,
      "step": 48025
    },
    {
      "epoch": 7.153708668453977,
      "grad_norm": 10.779776573181152,
      "learning_rate": 4.055070725962822e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 27876272,
      "step": 48030
    },
    {
      "epoch": 7.154453380994936,
      "grad_norm": 0.3372838795185089,
      "learning_rate": 4.0548162848281835e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 27878928,
      "step": 48035
    },
    {
      "epoch": 7.155198093535895,
      "grad_norm": 9.6455717086792,
      "learning_rate": 4.0545618174265045e-05,
      "loss": 0.2381,
      "num_input_tokens_seen": 27881616,
      "step": 48040
    },
    {
      "epoch": 7.155942806076855,
      "grad_norm": 0.10158094763755798,
      "learning_rate": 4.054307323762083e-05,
      "loss": 0.3584,
      "num_input_tokens_seen": 27884304,
      "step": 48045
    },
    {
      "epoch": 7.156687518617813,
      "grad_norm": 2.310098171234131,
      "learning_rate": 4.05405280383922e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 27887408,
      "step": 48050
    },
    {
      "epoch": 7.157432231158773,
      "grad_norm": 27.546653747558594,
      "learning_rate": 4.053798257662213e-05,
      "loss": 0.125,
      "num_input_tokens_seen": 27890576,
      "step": 48055
    },
    {
      "epoch": 7.158176943699732,
      "grad_norm": 32.099510192871094,
      "learning_rate": 4.053543685235365e-05,
      "loss": 0.3728,
      "num_input_tokens_seen": 27893712,
      "step": 48060
    },
    {
      "epoch": 7.158921656240691,
      "grad_norm": 0.07181084901094437,
      "learning_rate": 4.0532890865629744e-05,
      "loss": 0.1246,
      "num_input_tokens_seen": 27896528,
      "step": 48065
    },
    {
      "epoch": 7.15966636878165,
      "grad_norm": 0.11028037965297699,
      "learning_rate": 4.053034461649344e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 27899504,
      "step": 48070
    },
    {
      "epoch": 7.16041108132261,
      "grad_norm": 48.464908599853516,
      "learning_rate": 4.0527798104987745e-05,
      "loss": 0.0156,
      "num_input_tokens_seen": 27902512,
      "step": 48075
    },
    {
      "epoch": 7.161155793863569,
      "grad_norm": 64.81453704833984,
      "learning_rate": 4.052525133115569e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 27905136,
      "step": 48080
    },
    {
      "epoch": 7.161900506404528,
      "grad_norm": 0.13006643950939178,
      "learning_rate": 4.052270429504028e-05,
      "loss": 0.039,
      "num_input_tokens_seen": 27907888,
      "step": 48085
    },
    {
      "epoch": 7.162645218945487,
      "grad_norm": 36.081878662109375,
      "learning_rate": 4.0520156996684565e-05,
      "loss": 0.2873,
      "num_input_tokens_seen": 27910960,
      "step": 48090
    },
    {
      "epoch": 7.163389931486447,
      "grad_norm": 43.60879135131836,
      "learning_rate": 4.051760943613158e-05,
      "loss": 0.4496,
      "num_input_tokens_seen": 27913904,
      "step": 48095
    },
    {
      "epoch": 7.164134644027405,
      "grad_norm": 5.497642993927002,
      "learning_rate": 4.0515061613424345e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 27916816,
      "step": 48100
    },
    {
      "epoch": 7.164879356568365,
      "grad_norm": 0.7094953656196594,
      "learning_rate": 4.051251352860591e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 27919568,
      "step": 48105
    },
    {
      "epoch": 7.165624069109324,
      "grad_norm": 51.55427169799805,
      "learning_rate": 4.0509965181719326e-05,
      "loss": 0.1095,
      "num_input_tokens_seen": 27922384,
      "step": 48110
    },
    {
      "epoch": 7.166368781650283,
      "grad_norm": 27.260698318481445,
      "learning_rate": 4.050741657280765e-05,
      "loss": 0.4623,
      "num_input_tokens_seen": 27925392,
      "step": 48115
    },
    {
      "epoch": 7.167113494191242,
      "grad_norm": 0.03138013929128647,
      "learning_rate": 4.050486770191393e-05,
      "loss": 0.2643,
      "num_input_tokens_seen": 27928368,
      "step": 48120
    },
    {
      "epoch": 7.167858206732201,
      "grad_norm": 49.85945129394531,
      "learning_rate": 4.050231856908122e-05,
      "loss": 0.3379,
      "num_input_tokens_seen": 27931408,
      "step": 48125
    },
    {
      "epoch": 7.168602919273161,
      "grad_norm": 0.14278540015220642,
      "learning_rate": 4.04997691743526e-05,
      "loss": 0.1457,
      "num_input_tokens_seen": 27934576,
      "step": 48130
    },
    {
      "epoch": 7.169347631814119,
      "grad_norm": 2.8992674350738525,
      "learning_rate": 4.0497219517771137e-05,
      "loss": 0.0834,
      "num_input_tokens_seen": 27937584,
      "step": 48135
    },
    {
      "epoch": 7.170092344355079,
      "grad_norm": 23.838016510009766,
      "learning_rate": 4.04946695993799e-05,
      "loss": 0.0402,
      "num_input_tokens_seen": 27940496,
      "step": 48140
    },
    {
      "epoch": 7.170837056896038,
      "grad_norm": 39.929725646972656,
      "learning_rate": 4.0492119419221966e-05,
      "loss": 0.4281,
      "num_input_tokens_seen": 27942992,
      "step": 48145
    },
    {
      "epoch": 7.171581769436997,
      "grad_norm": 0.2285122126340866,
      "learning_rate": 4.048956897734042e-05,
      "loss": 0.0906,
      "num_input_tokens_seen": 27946192,
      "step": 48150
    },
    {
      "epoch": 7.172326481977956,
      "grad_norm": 0.07710232585668564,
      "learning_rate": 4.048701827377835e-05,
      "loss": 0.1236,
      "num_input_tokens_seen": 27949168,
      "step": 48155
    },
    {
      "epoch": 7.173071194518916,
      "grad_norm": 20.11132049560547,
      "learning_rate": 4.0484467308578844e-05,
      "loss": 0.2325,
      "num_input_tokens_seen": 27951984,
      "step": 48160
    },
    {
      "epoch": 7.173815907059875,
      "grad_norm": 2.8159704208374023,
      "learning_rate": 4.0481916081785e-05,
      "loss": 0.287,
      "num_input_tokens_seen": 27954864,
      "step": 48165
    },
    {
      "epoch": 7.174560619600834,
      "grad_norm": 0.5144125819206238,
      "learning_rate": 4.047936459343992e-05,
      "loss": 0.0724,
      "num_input_tokens_seen": 27957744,
      "step": 48170
    },
    {
      "epoch": 7.175305332141793,
      "grad_norm": 0.5639318823814392,
      "learning_rate": 4.047681284358671e-05,
      "loss": 0.0248,
      "num_input_tokens_seen": 27960784,
      "step": 48175
    },
    {
      "epoch": 7.176050044682753,
      "grad_norm": 0.0321875736117363,
      "learning_rate": 4.0474260832268476e-05,
      "loss": 0.1049,
      "num_input_tokens_seen": 27963408,
      "step": 48180
    },
    {
      "epoch": 7.176794757223711,
      "grad_norm": 0.06893634796142578,
      "learning_rate": 4.047170855952833e-05,
      "loss": 0.5465,
      "num_input_tokens_seen": 27966320,
      "step": 48185
    },
    {
      "epoch": 7.177539469764671,
      "grad_norm": 0.04877950996160507,
      "learning_rate": 4.04691560254094e-05,
      "loss": 0.215,
      "num_input_tokens_seen": 27969232,
      "step": 48190
    },
    {
      "epoch": 7.17828418230563,
      "grad_norm": 0.4026012420654297,
      "learning_rate": 4.046660322995479e-05,
      "loss": 0.1145,
      "num_input_tokens_seen": 27972048,
      "step": 48195
    },
    {
      "epoch": 7.1790288948465895,
      "grad_norm": 40.385711669921875,
      "learning_rate": 4.046405017320765e-05,
      "loss": 0.1188,
      "num_input_tokens_seen": 27974896,
      "step": 48200
    },
    {
      "epoch": 7.179773607387548,
      "grad_norm": 0.7987461090087891,
      "learning_rate": 4.046149685521109e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 27977648,
      "step": 48205
    },
    {
      "epoch": 7.180518319928508,
      "grad_norm": 1.9585089683532715,
      "learning_rate": 4.045894327600826e-05,
      "loss": 0.3471,
      "num_input_tokens_seen": 27980400,
      "step": 48210
    },
    {
      "epoch": 7.181263032469467,
      "grad_norm": 20.681320190429688,
      "learning_rate": 4.04563894356423e-05,
      "loss": 0.047,
      "num_input_tokens_seen": 27983184,
      "step": 48215
    },
    {
      "epoch": 7.182007745010426,
      "grad_norm": 62.22214126586914,
      "learning_rate": 4.045383533415634e-05,
      "loss": 0.4941,
      "num_input_tokens_seen": 27986064,
      "step": 48220
    },
    {
      "epoch": 7.182752457551385,
      "grad_norm": 0.07089690864086151,
      "learning_rate": 4.045128097159354e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 27989008,
      "step": 48225
    },
    {
      "epoch": 7.183497170092345,
      "grad_norm": 22.62156105041504,
      "learning_rate": 4.044872634799706e-05,
      "loss": 0.2456,
      "num_input_tokens_seen": 27991920,
      "step": 48230
    },
    {
      "epoch": 7.184241882633303,
      "grad_norm": 0.2433503121137619,
      "learning_rate": 4.044617146341003e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 27994640,
      "step": 48235
    },
    {
      "epoch": 7.184986595174263,
      "grad_norm": 0.21759642660617828,
      "learning_rate": 4.044361631787565e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 27997328,
      "step": 48240
    },
    {
      "epoch": 7.185731307715222,
      "grad_norm": 54.2662239074707,
      "learning_rate": 4.044106091143707e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 28000176,
      "step": 48245
    },
    {
      "epoch": 7.1864760202561815,
      "grad_norm": 0.027609242126345634,
      "learning_rate": 4.043850524413745e-05,
      "loss": 0.0125,
      "num_input_tokens_seen": 28003056,
      "step": 48250
    },
    {
      "epoch": 7.18722073279714,
      "grad_norm": 0.03259144723415375,
      "learning_rate": 4.0435949316019974e-05,
      "loss": 0.1589,
      "num_input_tokens_seen": 28006000,
      "step": 48255
    },
    {
      "epoch": 7.1879654453381,
      "grad_norm": 28.370433807373047,
      "learning_rate": 4.0433393127127827e-05,
      "loss": 0.2416,
      "num_input_tokens_seen": 28008976,
      "step": 48260
    },
    {
      "epoch": 7.188710157879059,
      "grad_norm": 27.239042282104492,
      "learning_rate": 4.043083667750419e-05,
      "loss": 0.4025,
      "num_input_tokens_seen": 28012144,
      "step": 48265
    },
    {
      "epoch": 7.189454870420018,
      "grad_norm": 61.7135009765625,
      "learning_rate": 4.042827996719225e-05,
      "loss": 0.1165,
      "num_input_tokens_seen": 28015184,
      "step": 48270
    },
    {
      "epoch": 7.190199582960977,
      "grad_norm": 1.7487858533859253,
      "learning_rate": 4.04257229962352e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 28018000,
      "step": 48275
    },
    {
      "epoch": 7.190944295501936,
      "grad_norm": 1.360823154449463,
      "learning_rate": 4.042316576467624e-05,
      "loss": 0.1221,
      "num_input_tokens_seen": 28020784,
      "step": 48280
    },
    {
      "epoch": 7.1916890080428955,
      "grad_norm": 1.4600045680999756,
      "learning_rate": 4.0420608272558566e-05,
      "loss": 0.0338,
      "num_input_tokens_seen": 28023728,
      "step": 48285
    },
    {
      "epoch": 7.192433720583854,
      "grad_norm": 0.022954288870096207,
      "learning_rate": 4.0418050519925386e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 28026768,
      "step": 48290
    },
    {
      "epoch": 7.193178433124814,
      "grad_norm": 0.001474207267165184,
      "learning_rate": 4.041549250681992e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 28029712,
      "step": 48295
    },
    {
      "epoch": 7.193923145665773,
      "grad_norm": 31.1180419921875,
      "learning_rate": 4.041293423328537e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 28032688,
      "step": 48300
    },
    {
      "epoch": 7.194667858206732,
      "grad_norm": 0.43216246366500854,
      "learning_rate": 4.0410375699364964e-05,
      "loss": 0.0742,
      "num_input_tokens_seen": 28035536,
      "step": 48305
    },
    {
      "epoch": 7.195412570747691,
      "grad_norm": 22.55340576171875,
      "learning_rate": 4.040781690510193e-05,
      "loss": 0.1437,
      "num_input_tokens_seen": 28038384,
      "step": 48310
    },
    {
      "epoch": 7.196157283288651,
      "grad_norm": 0.02594733238220215,
      "learning_rate": 4.0405257850539474e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 28041264,
      "step": 48315
    },
    {
      "epoch": 7.196901995829609,
      "grad_norm": 19.690673828125,
      "learning_rate": 4.040269853572085e-05,
      "loss": 0.4431,
      "num_input_tokens_seen": 28044336,
      "step": 48320
    },
    {
      "epoch": 7.197646708370569,
      "grad_norm": 55.86691665649414,
      "learning_rate": 4.0400138960689295e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 28047152,
      "step": 48325
    },
    {
      "epoch": 7.198391420911528,
      "grad_norm": 0.011595359072089195,
      "learning_rate": 4.0397579125488036e-05,
      "loss": 0.3078,
      "num_input_tokens_seen": 28049968,
      "step": 48330
    },
    {
      "epoch": 7.1991361334524875,
      "grad_norm": 22.130374908447266,
      "learning_rate": 4.039501903016033e-05,
      "loss": 0.1978,
      "num_input_tokens_seen": 28052944,
      "step": 48335
    },
    {
      "epoch": 7.199880845993446,
      "grad_norm": 78.71939849853516,
      "learning_rate": 4.039245867474942e-05,
      "loss": 0.3136,
      "num_input_tokens_seen": 28055856,
      "step": 48340
    },
    {
      "epoch": 7.200625558534406,
      "grad_norm": 0.9065918326377869,
      "learning_rate": 4.038989805929857e-05,
      "loss": 0.1645,
      "num_input_tokens_seen": 28058704,
      "step": 48345
    },
    {
      "epoch": 7.201370271075365,
      "grad_norm": 0.057605236768722534,
      "learning_rate": 4.0387337183851035e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 28061456,
      "step": 48350
    },
    {
      "epoch": 7.202114983616324,
      "grad_norm": 0.26492372155189514,
      "learning_rate": 4.038477604845008e-05,
      "loss": 0.014,
      "num_input_tokens_seen": 28064272,
      "step": 48355
    },
    {
      "epoch": 7.202859696157283,
      "grad_norm": 0.48992934823036194,
      "learning_rate": 4.038221465313896e-05,
      "loss": 0.0382,
      "num_input_tokens_seen": 28067216,
      "step": 48360
    },
    {
      "epoch": 7.203604408698243,
      "grad_norm": 34.09446716308594,
      "learning_rate": 4.037965299796096e-05,
      "loss": 0.105,
      "num_input_tokens_seen": 28070352,
      "step": 48365
    },
    {
      "epoch": 7.2043491212392015,
      "grad_norm": 15.011184692382812,
      "learning_rate": 4.037709108295936e-05,
      "loss": 0.1174,
      "num_input_tokens_seen": 28073360,
      "step": 48370
    },
    {
      "epoch": 7.205093833780161,
      "grad_norm": 0.10480228066444397,
      "learning_rate": 4.037452890817743e-05,
      "loss": 0.1051,
      "num_input_tokens_seen": 28076048,
      "step": 48375
    },
    {
      "epoch": 7.20583854632112,
      "grad_norm": 0.020893873646855354,
      "learning_rate": 4.0371966473658465e-05,
      "loss": 0.0264,
      "num_input_tokens_seen": 28078768,
      "step": 48380
    },
    {
      "epoch": 7.2065832588620795,
      "grad_norm": 0.0865246057510376,
      "learning_rate": 4.0369403779445744e-05,
      "loss": 0.0328,
      "num_input_tokens_seen": 28081840,
      "step": 48385
    },
    {
      "epoch": 7.207327971403038,
      "grad_norm": 25.75475311279297,
      "learning_rate": 4.0366840825582574e-05,
      "loss": 0.0495,
      "num_input_tokens_seen": 28084816,
      "step": 48390
    },
    {
      "epoch": 7.208072683943998,
      "grad_norm": 0.002474341308698058,
      "learning_rate": 4.036427761211224e-05,
      "loss": 0.2594,
      "num_input_tokens_seen": 28087664,
      "step": 48395
    },
    {
      "epoch": 7.208817396484957,
      "grad_norm": 163.46705627441406,
      "learning_rate": 4.0361714139078055e-05,
      "loss": 0.1944,
      "num_input_tokens_seen": 28090384,
      "step": 48400
    },
    {
      "epoch": 7.209562109025916,
      "grad_norm": 50.120033264160156,
      "learning_rate": 4.0359150406523314e-05,
      "loss": 0.2192,
      "num_input_tokens_seen": 28093360,
      "step": 48405
    },
    {
      "epoch": 7.210306821566875,
      "grad_norm": 46.951717376708984,
      "learning_rate": 4.0356586414491345e-05,
      "loss": 0.1313,
      "num_input_tokens_seen": 28096400,
      "step": 48410
    },
    {
      "epoch": 7.211051534107835,
      "grad_norm": 4.26428747177124,
      "learning_rate": 4.035402216302546e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 28099120,
      "step": 48415
    },
    {
      "epoch": 7.2117962466487935,
      "grad_norm": 0.017755156382918358,
      "learning_rate": 4.035145765216897e-05,
      "loss": 0.0336,
      "num_input_tokens_seen": 28101840,
      "step": 48420
    },
    {
      "epoch": 7.212540959189753,
      "grad_norm": 9.65487003326416,
      "learning_rate": 4.03488928819652e-05,
      "loss": 0.6053,
      "num_input_tokens_seen": 28105008,
      "step": 48425
    },
    {
      "epoch": 7.213285671730712,
      "grad_norm": 0.3782218098640442,
      "learning_rate": 4.03463278524575e-05,
      "loss": 0.1605,
      "num_input_tokens_seen": 28107984,
      "step": 48430
    },
    {
      "epoch": 7.2140303842716715,
      "grad_norm": 0.5429765582084656,
      "learning_rate": 4.034376256368917e-05,
      "loss": 0.1188,
      "num_input_tokens_seen": 28110960,
      "step": 48435
    },
    {
      "epoch": 7.21477509681263,
      "grad_norm": 16.270092010498047,
      "learning_rate": 4.034119701570358e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 28113616,
      "step": 48440
    },
    {
      "epoch": 7.21551980935359,
      "grad_norm": 0.011081255041062832,
      "learning_rate": 4.033863120854405e-05,
      "loss": 0.4534,
      "num_input_tokens_seen": 28116400,
      "step": 48445
    },
    {
      "epoch": 7.216264521894549,
      "grad_norm": 19.092205047607422,
      "learning_rate": 4.0336065142253945e-05,
      "loss": 0.4504,
      "num_input_tokens_seen": 28119152,
      "step": 48450
    },
    {
      "epoch": 7.217009234435508,
      "grad_norm": 36.00292205810547,
      "learning_rate": 4.03334988168766e-05,
      "loss": 0.1722,
      "num_input_tokens_seen": 28122064,
      "step": 48455
    },
    {
      "epoch": 7.217753946976467,
      "grad_norm": 0.1148810088634491,
      "learning_rate": 4.0330932232455376e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 28124752,
      "step": 48460
    },
    {
      "epoch": 7.218498659517426,
      "grad_norm": 0.026579447090625763,
      "learning_rate": 4.0328365389033636e-05,
      "loss": 0.217,
      "num_input_tokens_seen": 28127824,
      "step": 48465
    },
    {
      "epoch": 7.2192433720583855,
      "grad_norm": 0.3663783669471741,
      "learning_rate": 4.0325798286654734e-05,
      "loss": 0.1932,
      "num_input_tokens_seen": 28130864,
      "step": 48470
    },
    {
      "epoch": 7.219988084599344,
      "grad_norm": 0.074464812874794,
      "learning_rate": 4.032323092536206e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 28133936,
      "step": 48475
    },
    {
      "epoch": 7.220732797140304,
      "grad_norm": 0.011929359287023544,
      "learning_rate": 4.032066330519896e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 28137040,
      "step": 48480
    },
    {
      "epoch": 7.221477509681263,
      "grad_norm": 82.66890716552734,
      "learning_rate": 4.0318095426208835e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 28139952,
      "step": 48485
    },
    {
      "epoch": 7.222222222222222,
      "grad_norm": 0.1570497453212738,
      "learning_rate": 4.031552728843505e-05,
      "loss": 0.0152,
      "num_input_tokens_seen": 28143120,
      "step": 48490
    },
    {
      "epoch": 7.222966934763181,
      "grad_norm": 0.5946425795555115,
      "learning_rate": 4.0312958891921e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 28146000,
      "step": 48495
    },
    {
      "epoch": 7.223711647304141,
      "grad_norm": 0.027333782985806465,
      "learning_rate": 4.031039023671007e-05,
      "loss": 0.0561,
      "num_input_tokens_seen": 28149072,
      "step": 48500
    },
    {
      "epoch": 7.2244563598450995,
      "grad_norm": 0.02635822258889675,
      "learning_rate": 4.0307821322845664e-05,
      "loss": 0.0323,
      "num_input_tokens_seen": 28151696,
      "step": 48505
    },
    {
      "epoch": 7.225201072386059,
      "grad_norm": 0.007977471686899662,
      "learning_rate": 4.0305252150371175e-05,
      "loss": 0.034,
      "num_input_tokens_seen": 28154512,
      "step": 48510
    },
    {
      "epoch": 7.225945784927018,
      "grad_norm": 0.03652258217334747,
      "learning_rate": 4.030268271933e-05,
      "loss": 0.0125,
      "num_input_tokens_seen": 28157488,
      "step": 48515
    },
    {
      "epoch": 7.2266904974679775,
      "grad_norm": 1.2653034925460815,
      "learning_rate": 4.030011302976555e-05,
      "loss": 0.1212,
      "num_input_tokens_seen": 28160144,
      "step": 48520
    },
    {
      "epoch": 7.227435210008936,
      "grad_norm": 22.826553344726562,
      "learning_rate": 4.0297543081721254e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 28162960,
      "step": 48525
    },
    {
      "epoch": 7.228179922549896,
      "grad_norm": 0.8981750011444092,
      "learning_rate": 4.02949728752405e-05,
      "loss": 0.1673,
      "num_input_tokens_seen": 28166064,
      "step": 48530
    },
    {
      "epoch": 7.228924635090855,
      "grad_norm": 0.005820892751216888,
      "learning_rate": 4.0292402410366734e-05,
      "loss": 0.0215,
      "num_input_tokens_seen": 28168816,
      "step": 48535
    },
    {
      "epoch": 7.229669347631814,
      "grad_norm": 10.641833305358887,
      "learning_rate": 4.0289831687143376e-05,
      "loss": 0.0727,
      "num_input_tokens_seen": 28171664,
      "step": 48540
    },
    {
      "epoch": 7.230414060172773,
      "grad_norm": 46.527793884277344,
      "learning_rate": 4.028726070561385e-05,
      "loss": 0.2359,
      "num_input_tokens_seen": 28174512,
      "step": 48545
    },
    {
      "epoch": 7.231158772713733,
      "grad_norm": 0.16812042891979218,
      "learning_rate": 4.028468946582158e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 28177424,
      "step": 48550
    },
    {
      "epoch": 7.2319034852546915,
      "grad_norm": 0.0049131098203361034,
      "learning_rate": 4.028211796781003e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 28180464,
      "step": 48555
    },
    {
      "epoch": 7.232648197795651,
      "grad_norm": 0.006085638422518969,
      "learning_rate": 4.027954621162262e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 28182960,
      "step": 48560
    },
    {
      "epoch": 7.23339291033661,
      "grad_norm": 22.953275680541992,
      "learning_rate": 4.027697419730281e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 28185776,
      "step": 48565
    },
    {
      "epoch": 7.23413762287757,
      "grad_norm": 0.008969474583864212,
      "learning_rate": 4.027440192489404e-05,
      "loss": 0.3183,
      "num_input_tokens_seen": 28188496,
      "step": 48570
    },
    {
      "epoch": 7.234882335418528,
      "grad_norm": 15.194361686706543,
      "learning_rate": 4.0271829394439786e-05,
      "loss": 0.305,
      "num_input_tokens_seen": 28191120,
      "step": 48575
    },
    {
      "epoch": 7.235627047959488,
      "grad_norm": 2.3700454235076904,
      "learning_rate": 4.026925660598349e-05,
      "loss": 0.1249,
      "num_input_tokens_seen": 28194032,
      "step": 48580
    },
    {
      "epoch": 7.236371760500447,
      "grad_norm": 0.010990493930876255,
      "learning_rate": 4.0266683559568625e-05,
      "loss": 0.023,
      "num_input_tokens_seen": 28196496,
      "step": 48585
    },
    {
      "epoch": 7.237116473041406,
      "grad_norm": 0.03248753771185875,
      "learning_rate": 4.0264110255238654e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 28199312,
      "step": 48590
    },
    {
      "epoch": 7.237861185582365,
      "grad_norm": 0.008225350640714169,
      "learning_rate": 4.026153669303706e-05,
      "loss": 0.0804,
      "num_input_tokens_seen": 28202000,
      "step": 48595
    },
    {
      "epoch": 7.238605898123325,
      "grad_norm": 1.3272082805633545,
      "learning_rate": 4.0258962873007305e-05,
      "loss": 0.3732,
      "num_input_tokens_seen": 28204624,
      "step": 48600
    },
    {
      "epoch": 7.2393506106642835,
      "grad_norm": 54.053829193115234,
      "learning_rate": 4.025638879519289e-05,
      "loss": 0.0609,
      "num_input_tokens_seen": 28207568,
      "step": 48605
    },
    {
      "epoch": 7.240095323205243,
      "grad_norm": 1.7940982580184937,
      "learning_rate": 4.025381445963728e-05,
      "loss": 0.4096,
      "num_input_tokens_seen": 28210224,
      "step": 48610
    },
    {
      "epoch": 7.240840035746202,
      "grad_norm": 41.75565719604492,
      "learning_rate": 4.025123986638399e-05,
      "loss": 0.393,
      "num_input_tokens_seen": 28213168,
      "step": 48615
    },
    {
      "epoch": 7.241584748287162,
      "grad_norm": 9.913799285888672,
      "learning_rate": 4.02486650154765e-05,
      "loss": 0.2948,
      "num_input_tokens_seen": 28215984,
      "step": 48620
    },
    {
      "epoch": 7.24232946082812,
      "grad_norm": 44.996124267578125,
      "learning_rate": 4.0246089906958317e-05,
      "loss": 0.1282,
      "num_input_tokens_seen": 28218704,
      "step": 48625
    },
    {
      "epoch": 7.243074173369079,
      "grad_norm": 3.6116955280303955,
      "learning_rate": 4.024351454087293e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 28221552,
      "step": 48630
    },
    {
      "epoch": 7.243818885910039,
      "grad_norm": 37.26252365112305,
      "learning_rate": 4.0240938917263864e-05,
      "loss": 0.2246,
      "num_input_tokens_seen": 28224880,
      "step": 48635
    },
    {
      "epoch": 7.2445635984509975,
      "grad_norm": 0.08985649049282074,
      "learning_rate": 4.0238363036174625e-05,
      "loss": 0.1157,
      "num_input_tokens_seen": 28227664,
      "step": 48640
    },
    {
      "epoch": 7.245308310991957,
      "grad_norm": 6.901571273803711,
      "learning_rate": 4.023578689764873e-05,
      "loss": 0.1995,
      "num_input_tokens_seen": 28230448,
      "step": 48645
    },
    {
      "epoch": 7.246053023532916,
      "grad_norm": 8.157690048217773,
      "learning_rate": 4.02332105017297e-05,
      "loss": 0.043,
      "num_input_tokens_seen": 28233264,
      "step": 48650
    },
    {
      "epoch": 7.246797736073876,
      "grad_norm": 26.247650146484375,
      "learning_rate": 4.0230633848461056e-05,
      "loss": 0.0607,
      "num_input_tokens_seen": 28235952,
      "step": 48655
    },
    {
      "epoch": 7.247542448614834,
      "grad_norm": 13.979395866394043,
      "learning_rate": 4.022805693788634e-05,
      "loss": 0.0622,
      "num_input_tokens_seen": 28238704,
      "step": 48660
    },
    {
      "epoch": 7.248287161155794,
      "grad_norm": 107.46786499023438,
      "learning_rate": 4.0225479770049076e-05,
      "loss": 0.2395,
      "num_input_tokens_seen": 28241872,
      "step": 48665
    },
    {
      "epoch": 7.249031873696753,
      "grad_norm": 40.404014587402344,
      "learning_rate": 4.022290234499281e-05,
      "loss": 0.107,
      "num_input_tokens_seen": 28245072,
      "step": 48670
    },
    {
      "epoch": 7.249776586237712,
      "grad_norm": 1.8538786172866821,
      "learning_rate": 4.0220324662761076e-05,
      "loss": 0.1846,
      "num_input_tokens_seen": 28247888,
      "step": 48675
    },
    {
      "epoch": 7.250521298778671,
      "grad_norm": 85.89342498779297,
      "learning_rate": 4.021774672339743e-05,
      "loss": 0.125,
      "num_input_tokens_seen": 28250736,
      "step": 48680
    },
    {
      "epoch": 7.251266011319631,
      "grad_norm": 39.06557846069336,
      "learning_rate": 4.021516852694541e-05,
      "loss": 0.0559,
      "num_input_tokens_seen": 28253680,
      "step": 48685
    },
    {
      "epoch": 7.2520107238605895,
      "grad_norm": 0.13038145005702972,
      "learning_rate": 4.021259007344859e-05,
      "loss": 0.1663,
      "num_input_tokens_seen": 28256368,
      "step": 48690
    },
    {
      "epoch": 7.252755436401549,
      "grad_norm": 10.271377563476562,
      "learning_rate": 4.021001136295052e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 28259312,
      "step": 48695
    },
    {
      "epoch": 7.253500148942508,
      "grad_norm": 40.395511627197266,
      "learning_rate": 4.020743239549477e-05,
      "loss": 0.252,
      "num_input_tokens_seen": 28262192,
      "step": 48700
    },
    {
      "epoch": 7.254244861483468,
      "grad_norm": 2.9121687412261963,
      "learning_rate": 4.0204853171124904e-05,
      "loss": 0.1707,
      "num_input_tokens_seen": 28264816,
      "step": 48705
    },
    {
      "epoch": 7.254989574024426,
      "grad_norm": 0.17017722129821777,
      "learning_rate": 4.0202273689884496e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 28267952,
      "step": 48710
    },
    {
      "epoch": 7.255734286565386,
      "grad_norm": 0.3024103045463562,
      "learning_rate": 4.019969395181713e-05,
      "loss": 0.086,
      "num_input_tokens_seen": 28270704,
      "step": 48715
    },
    {
      "epoch": 7.256478999106345,
      "grad_norm": 0.03307003900408745,
      "learning_rate": 4.0197113956966376e-05,
      "loss": 0.082,
      "num_input_tokens_seen": 28273584,
      "step": 48720
    },
    {
      "epoch": 7.257223711647304,
      "grad_norm": 2.5017600059509277,
      "learning_rate": 4.019453370537583e-05,
      "loss": 0.2109,
      "num_input_tokens_seen": 28276592,
      "step": 48725
    },
    {
      "epoch": 7.257968424188263,
      "grad_norm": 0.06685232371091843,
      "learning_rate": 4.019195319708908e-05,
      "loss": 0.1994,
      "num_input_tokens_seen": 28279888,
      "step": 48730
    },
    {
      "epoch": 7.258713136729223,
      "grad_norm": 0.10716471821069717,
      "learning_rate": 4.018937243214972e-05,
      "loss": 0.2927,
      "num_input_tokens_seen": 28282992,
      "step": 48735
    },
    {
      "epoch": 7.259457849270182,
      "grad_norm": 0.0226120688021183,
      "learning_rate": 4.018679141060136e-05,
      "loss": 0.1133,
      "num_input_tokens_seen": 28285968,
      "step": 48740
    },
    {
      "epoch": 7.260202561811141,
      "grad_norm": 0.854512095451355,
      "learning_rate": 4.0184210132487576e-05,
      "loss": 0.1859,
      "num_input_tokens_seen": 28288912,
      "step": 48745
    },
    {
      "epoch": 7.2609472743521,
      "grad_norm": 0.14812645316123962,
      "learning_rate": 4.018162859785201e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 28291760,
      "step": 48750
    },
    {
      "epoch": 7.26169198689306,
      "grad_norm": 31.38220977783203,
      "learning_rate": 4.017904680673825e-05,
      "loss": 0.153,
      "num_input_tokens_seen": 28294512,
      "step": 48755
    },
    {
      "epoch": 7.262436699434018,
      "grad_norm": 85.27521514892578,
      "learning_rate": 4.0176464759189924e-05,
      "loss": 0.1427,
      "num_input_tokens_seen": 28297456,
      "step": 48760
    },
    {
      "epoch": 7.263181411974978,
      "grad_norm": 104.60468292236328,
      "learning_rate": 4.017388245525065e-05,
      "loss": 0.0963,
      "num_input_tokens_seen": 28300304,
      "step": 48765
    },
    {
      "epoch": 7.263926124515937,
      "grad_norm": 6.678033351898193,
      "learning_rate": 4.017129989496405e-05,
      "loss": 0.2312,
      "num_input_tokens_seen": 28302992,
      "step": 48770
    },
    {
      "epoch": 7.264670837056896,
      "grad_norm": 30.465129852294922,
      "learning_rate": 4.0168717078373763e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 28305712,
      "step": 48775
    },
    {
      "epoch": 7.265415549597855,
      "grad_norm": 2.3700709342956543,
      "learning_rate": 4.016613400552342e-05,
      "loss": 0.024,
      "num_input_tokens_seen": 28308624,
      "step": 48780
    },
    {
      "epoch": 7.266160262138815,
      "grad_norm": 43.10459899902344,
      "learning_rate": 4.016355067645666e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 28311376,
      "step": 48785
    },
    {
      "epoch": 7.266904974679774,
      "grad_norm": 79.89049530029297,
      "learning_rate": 4.0160967091217114e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 28314448,
      "step": 48790
    },
    {
      "epoch": 7.267649687220732,
      "grad_norm": 0.04322127252817154,
      "learning_rate": 4.015838324984844e-05,
      "loss": 0.082,
      "num_input_tokens_seen": 28317520,
      "step": 48795
    },
    {
      "epoch": 7.268394399761692,
      "grad_norm": 0.07994870096445084,
      "learning_rate": 4.015579915239429e-05,
      "loss": 0.2607,
      "num_input_tokens_seen": 28320432,
      "step": 48800
    },
    {
      "epoch": 7.269139112302652,
      "grad_norm": 68.2857437133789,
      "learning_rate": 4.015321479889832e-05,
      "loss": 0.5993,
      "num_input_tokens_seen": 28323376,
      "step": 48805
    },
    {
      "epoch": 7.26988382484361,
      "grad_norm": 38.01457977294922,
      "learning_rate": 4.015063018940418e-05,
      "loss": 0.2347,
      "num_input_tokens_seen": 28326672,
      "step": 48810
    },
    {
      "epoch": 7.270628537384569,
      "grad_norm": 0.01659499481320381,
      "learning_rate": 4.014804532395554e-05,
      "loss": 0.1572,
      "num_input_tokens_seen": 28329744,
      "step": 48815
    },
    {
      "epoch": 7.271373249925529,
      "grad_norm": 1.4438072443008423,
      "learning_rate": 4.014546020259607e-05,
      "loss": 0.0988,
      "num_input_tokens_seen": 28332752,
      "step": 48820
    },
    {
      "epoch": 7.272117962466488,
      "grad_norm": 4.170962810516357,
      "learning_rate": 4.014287482536945e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 28335568,
      "step": 48825
    },
    {
      "epoch": 7.272862675007447,
      "grad_norm": 0.014092499390244484,
      "learning_rate": 4.0140289192319355e-05,
      "loss": 0.0141,
      "num_input_tokens_seen": 28338544,
      "step": 48830
    },
    {
      "epoch": 7.273607387548406,
      "grad_norm": 0.6261957883834839,
      "learning_rate": 4.013770330348945e-05,
      "loss": 0.2551,
      "num_input_tokens_seen": 28341328,
      "step": 48835
    },
    {
      "epoch": 7.274352100089366,
      "grad_norm": 0.06063394993543625,
      "learning_rate": 4.013511715892344e-05,
      "loss": 0.1016,
      "num_input_tokens_seen": 28344240,
      "step": 48840
    },
    {
      "epoch": 7.275096812630324,
      "grad_norm": 24.83401107788086,
      "learning_rate": 4.0132530758665006e-05,
      "loss": 0.3752,
      "num_input_tokens_seen": 28346832,
      "step": 48845
    },
    {
      "epoch": 7.275841525171284,
      "grad_norm": 38.0455436706543,
      "learning_rate": 4.0129944102757847e-05,
      "loss": 0.3119,
      "num_input_tokens_seen": 28349584,
      "step": 48850
    },
    {
      "epoch": 7.276586237712243,
      "grad_norm": 63.875938415527344,
      "learning_rate": 4.0127357191245654e-05,
      "loss": 0.3156,
      "num_input_tokens_seen": 28352656,
      "step": 48855
    },
    {
      "epoch": 7.277330950253202,
      "grad_norm": 32.25441360473633,
      "learning_rate": 4.0124770024172135e-05,
      "loss": 0.1127,
      "num_input_tokens_seen": 28355184,
      "step": 48860
    },
    {
      "epoch": 7.278075662794161,
      "grad_norm": 0.10215112566947937,
      "learning_rate": 4.0122182601581005e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 28357936,
      "step": 48865
    },
    {
      "epoch": 7.278820375335121,
      "grad_norm": 22.072750091552734,
      "learning_rate": 4.011959492351597e-05,
      "loss": 0.1474,
      "num_input_tokens_seen": 28360720,
      "step": 48870
    },
    {
      "epoch": 7.27956508787608,
      "grad_norm": 0.2505389153957367,
      "learning_rate": 4.011700699002075e-05,
      "loss": 0.3569,
      "num_input_tokens_seen": 28363504,
      "step": 48875
    },
    {
      "epoch": 7.280309800417039,
      "grad_norm": 0.1092623844742775,
      "learning_rate": 4.011441880113905e-05,
      "loss": 0.1372,
      "num_input_tokens_seen": 28366352,
      "step": 48880
    },
    {
      "epoch": 7.281054512957998,
      "grad_norm": 34.45780944824219,
      "learning_rate": 4.0111830356914605e-05,
      "loss": 0.1409,
      "num_input_tokens_seen": 28369456,
      "step": 48885
    },
    {
      "epoch": 7.281799225498958,
      "grad_norm": 0.5084131956100464,
      "learning_rate": 4.010924165739115e-05,
      "loss": 0.4038,
      "num_input_tokens_seen": 28372336,
      "step": 48890
    },
    {
      "epoch": 7.282543938039916,
      "grad_norm": 0.04909316450357437,
      "learning_rate": 4.0106652702612416e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 28375184,
      "step": 48895
    },
    {
      "epoch": 7.283288650580876,
      "grad_norm": 0.06776499003171921,
      "learning_rate": 4.010406349262214e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 28378096,
      "step": 48900
    },
    {
      "epoch": 7.284033363121835,
      "grad_norm": 30.564594268798828,
      "learning_rate": 4.010147402746405e-05,
      "loss": 0.5726,
      "num_input_tokens_seen": 28381392,
      "step": 48905
    },
    {
      "epoch": 7.2847780756627944,
      "grad_norm": 0.052058905363082886,
      "learning_rate": 4.009888430718192e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 28384464,
      "step": 48910
    },
    {
      "epoch": 7.285522788203753,
      "grad_norm": 14.34553050994873,
      "learning_rate": 4.009629433181947e-05,
      "loss": 0.758,
      "num_input_tokens_seen": 28386960,
      "step": 48915
    },
    {
      "epoch": 7.286267500744713,
      "grad_norm": 0.16824552416801453,
      "learning_rate": 4.009370410142049e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 28390032,
      "step": 48920
    },
    {
      "epoch": 7.287012213285672,
      "grad_norm": 0.12234333902597427,
      "learning_rate": 4.00911136160287e-05,
      "loss": 0.3014,
      "num_input_tokens_seen": 28393040,
      "step": 48925
    },
    {
      "epoch": 7.287756925826631,
      "grad_norm": 37.42275619506836,
      "learning_rate": 4.00885228756879e-05,
      "loss": 0.1737,
      "num_input_tokens_seen": 28395696,
      "step": 48930
    },
    {
      "epoch": 7.28850163836759,
      "grad_norm": 0.07050660997629166,
      "learning_rate": 4.008593188044183e-05,
      "loss": 0.101,
      "num_input_tokens_seen": 28398768,
      "step": 48935
    },
    {
      "epoch": 7.28924635090855,
      "grad_norm": 16.65284538269043,
      "learning_rate": 4.008334063033428e-05,
      "loss": 0.4111,
      "num_input_tokens_seen": 28401744,
      "step": 48940
    },
    {
      "epoch": 7.289991063449508,
      "grad_norm": 0.04405208304524422,
      "learning_rate": 4.008074912540901e-05,
      "loss": 0.3075,
      "num_input_tokens_seen": 28404496,
      "step": 48945
    },
    {
      "epoch": 7.290735775990468,
      "grad_norm": 10.025016784667969,
      "learning_rate": 4.0078157365709823e-05,
      "loss": 0.3176,
      "num_input_tokens_seen": 28407440,
      "step": 48950
    },
    {
      "epoch": 7.291480488531427,
      "grad_norm": 0.06288895756006241,
      "learning_rate": 4.0075565351280485e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 28410000,
      "step": 48955
    },
    {
      "epoch": 7.292225201072386,
      "grad_norm": 34.53185272216797,
      "learning_rate": 4.00729730821648e-05,
      "loss": 0.2389,
      "num_input_tokens_seen": 28412656,
      "step": 48960
    },
    {
      "epoch": 7.292969913613345,
      "grad_norm": 21.672822952270508,
      "learning_rate": 4.007038055840654e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 28415856,
      "step": 48965
    },
    {
      "epoch": 7.293714626154305,
      "grad_norm": 0.05759493634104729,
      "learning_rate": 4.0067787780049535e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 28418544,
      "step": 48970
    },
    {
      "epoch": 7.294459338695264,
      "grad_norm": 11.234996795654297,
      "learning_rate": 4.0065194747137555e-05,
      "loss": 0.2355,
      "num_input_tokens_seen": 28421424,
      "step": 48975
    },
    {
      "epoch": 7.295204051236222,
      "grad_norm": 0.14858947694301605,
      "learning_rate": 4.006260145971443e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 28423952,
      "step": 48980
    },
    {
      "epoch": 7.295948763777182,
      "grad_norm": 0.014706435613334179,
      "learning_rate": 4.006000791782396e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 28427056,
      "step": 48985
    },
    {
      "epoch": 7.296693476318141,
      "grad_norm": 0.8192930221557617,
      "learning_rate": 4.0057414121509965e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 28429840,
      "step": 48990
    },
    {
      "epoch": 7.2974381888591004,
      "grad_norm": 0.010016356594860554,
      "learning_rate": 4.005482007081626e-05,
      "loss": 0.1572,
      "num_input_tokens_seen": 28432816,
      "step": 48995
    },
    {
      "epoch": 7.298182901400059,
      "grad_norm": 0.1622827649116516,
      "learning_rate": 4.005222576578667e-05,
      "loss": 0.111,
      "num_input_tokens_seen": 28435920,
      "step": 49000
    },
    {
      "epoch": 7.298927613941019,
      "grad_norm": 6.799177169799805,
      "learning_rate": 4.004963120646502e-05,
      "loss": 0.3332,
      "num_input_tokens_seen": 28438896,
      "step": 49005
    },
    {
      "epoch": 7.299672326481978,
      "grad_norm": 1.6732728481292725,
      "learning_rate": 4.004703639289515e-05,
      "loss": 0.148,
      "num_input_tokens_seen": 28441552,
      "step": 49010
    },
    {
      "epoch": 7.300417039022937,
      "grad_norm": 0.04318837448954582,
      "learning_rate": 4.004444132512089e-05,
      "loss": 0.2798,
      "num_input_tokens_seen": 28444400,
      "step": 49015
    },
    {
      "epoch": 7.301161751563896,
      "grad_norm": 0.011421773582696915,
      "learning_rate": 4.004184600318609e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 28447184,
      "step": 49020
    },
    {
      "epoch": 7.301906464104856,
      "grad_norm": 0.011189362034201622,
      "learning_rate": 4.003925042713459e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 28450032,
      "step": 49025
    },
    {
      "epoch": 7.302651176645814,
      "grad_norm": 1.6597578525543213,
      "learning_rate": 4.003665459701024e-05,
      "loss": 0.0693,
      "num_input_tokens_seen": 28453008,
      "step": 49030
    },
    {
      "epoch": 7.303395889186774,
      "grad_norm": 28.881868362426758,
      "learning_rate": 4.003405851285689e-05,
      "loss": 0.1795,
      "num_input_tokens_seen": 28455760,
      "step": 49035
    },
    {
      "epoch": 7.304140601727733,
      "grad_norm": 16.92146110534668,
      "learning_rate": 4.00314621747184e-05,
      "loss": 0.1946,
      "num_input_tokens_seen": 28458576,
      "step": 49040
    },
    {
      "epoch": 7.3048853142686925,
      "grad_norm": 24.319002151489258,
      "learning_rate": 4.002886558263863e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 28461456,
      "step": 49045
    },
    {
      "epoch": 7.305630026809651,
      "grad_norm": 16.437095642089844,
      "learning_rate": 4.0026268736661457e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 28464432,
      "step": 49050
    },
    {
      "epoch": 7.306374739350611,
      "grad_norm": 0.05770193785429001,
      "learning_rate": 4.002367163683075e-05,
      "loss": 0.6105,
      "num_input_tokens_seen": 28467120,
      "step": 49055
    },
    {
      "epoch": 7.30711945189157,
      "grad_norm": 59.65831756591797,
      "learning_rate": 4.002107428319037e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 28470352,
      "step": 49060
    },
    {
      "epoch": 7.307864164432529,
      "grad_norm": 0.15020452439785004,
      "learning_rate": 4.0018476675784214e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 28473168,
      "step": 49065
    },
    {
      "epoch": 7.308608876973488,
      "grad_norm": 9.883757591247559,
      "learning_rate": 4.001587881465616e-05,
      "loss": 0.1956,
      "num_input_tokens_seen": 28475888,
      "step": 49070
    },
    {
      "epoch": 7.309353589514448,
      "grad_norm": 37.438232421875,
      "learning_rate": 4.001328069985009e-05,
      "loss": 0.3785,
      "num_input_tokens_seen": 28478800,
      "step": 49075
    },
    {
      "epoch": 7.3100983020554064,
      "grad_norm": 5.982657432556152,
      "learning_rate": 4.00106823314099e-05,
      "loss": 0.1081,
      "num_input_tokens_seen": 28482160,
      "step": 49080
    },
    {
      "epoch": 7.310843014596366,
      "grad_norm": 30.469039916992188,
      "learning_rate": 4.0008083709379496e-05,
      "loss": 0.1458,
      "num_input_tokens_seen": 28485200,
      "step": 49085
    },
    {
      "epoch": 7.311587727137325,
      "grad_norm": 0.1919880360364914,
      "learning_rate": 4.0005484833802765e-05,
      "loss": 0.1199,
      "num_input_tokens_seen": 28487792,
      "step": 49090
    },
    {
      "epoch": 7.3123324396782845,
      "grad_norm": 14.037792205810547,
      "learning_rate": 4.0002885704723614e-05,
      "loss": 0.1337,
      "num_input_tokens_seen": 28490480,
      "step": 49095
    },
    {
      "epoch": 7.313077152219243,
      "grad_norm": 0.042493510991334915,
      "learning_rate": 4.000028632218596e-05,
      "loss": 0.1145,
      "num_input_tokens_seen": 28493616,
      "step": 49100
    },
    {
      "epoch": 7.313821864760203,
      "grad_norm": 1.4120328426361084,
      "learning_rate": 3.9997686686233724e-05,
      "loss": 0.1521,
      "num_input_tokens_seen": 28496784,
      "step": 49105
    },
    {
      "epoch": 7.314566577301162,
      "grad_norm": 34.600807189941406,
      "learning_rate": 3.999508679691081e-05,
      "loss": 0.5316,
      "num_input_tokens_seen": 28499760,
      "step": 49110
    },
    {
      "epoch": 7.315311289842121,
      "grad_norm": 0.08300498872995377,
      "learning_rate": 3.999248665426114e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 28502672,
      "step": 49115
    },
    {
      "epoch": 7.31605600238308,
      "grad_norm": 88.52672576904297,
      "learning_rate": 3.998988625832865e-05,
      "loss": 0.158,
      "num_input_tokens_seen": 28505552,
      "step": 49120
    },
    {
      "epoch": 7.31680071492404,
      "grad_norm": 0.05075042322278023,
      "learning_rate": 3.998728560915726e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 28508400,
      "step": 49125
    },
    {
      "epoch": 7.3175454274649985,
      "grad_norm": 0.12360306084156036,
      "learning_rate": 3.9984684706790915e-05,
      "loss": 0.1315,
      "num_input_tokens_seen": 28511152,
      "step": 49130
    },
    {
      "epoch": 7.318290140005958,
      "grad_norm": 0.13446947932243347,
      "learning_rate": 3.998208355127355e-05,
      "loss": 0.4404,
      "num_input_tokens_seen": 28514032,
      "step": 49135
    },
    {
      "epoch": 7.319034852546917,
      "grad_norm": 0.11834298074245453,
      "learning_rate": 3.997948214264911e-05,
      "loss": 0.1631,
      "num_input_tokens_seen": 28516912,
      "step": 49140
    },
    {
      "epoch": 7.319779565087876,
      "grad_norm": 0.048924416303634644,
      "learning_rate": 3.9976880480961556e-05,
      "loss": 0.0479,
      "num_input_tokens_seen": 28519984,
      "step": 49145
    },
    {
      "epoch": 7.320524277628835,
      "grad_norm": 34.9237060546875,
      "learning_rate": 3.997427856625482e-05,
      "loss": 0.2113,
      "num_input_tokens_seen": 28523152,
      "step": 49150
    },
    {
      "epoch": 7.321268990169794,
      "grad_norm": 61.9136848449707,
      "learning_rate": 3.997167639857287e-05,
      "loss": 0.424,
      "num_input_tokens_seen": 28525776,
      "step": 49155
    },
    {
      "epoch": 7.322013702710754,
      "grad_norm": 4.3016462326049805,
      "learning_rate": 3.996907397795966e-05,
      "loss": 0.1113,
      "num_input_tokens_seen": 28528720,
      "step": 49160
    },
    {
      "epoch": 7.3227584152517124,
      "grad_norm": 79.8656234741211,
      "learning_rate": 3.9966471304459154e-05,
      "loss": 0.0322,
      "num_input_tokens_seen": 28531600,
      "step": 49165
    },
    {
      "epoch": 7.323503127792672,
      "grad_norm": 0.04972308874130249,
      "learning_rate": 3.996386837811533e-05,
      "loss": 0.0847,
      "num_input_tokens_seen": 28534256,
      "step": 49170
    },
    {
      "epoch": 7.324247840333631,
      "grad_norm": 67.85956573486328,
      "learning_rate": 3.996126519897216e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 28537360,
      "step": 49175
    },
    {
      "epoch": 7.3249925528745905,
      "grad_norm": 0.15969400107860565,
      "learning_rate": 3.995866176707363e-05,
      "loss": 0.2387,
      "num_input_tokens_seen": 28540208,
      "step": 49180
    },
    {
      "epoch": 7.325737265415549,
      "grad_norm": 0.0207521952688694,
      "learning_rate": 3.99560580824637e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 28543280,
      "step": 49185
    },
    {
      "epoch": 7.326481977956509,
      "grad_norm": 0.023673949763178825,
      "learning_rate": 3.995345414518638e-05,
      "loss": 0.1188,
      "num_input_tokens_seen": 28546032,
      "step": 49190
    },
    {
      "epoch": 7.327226690497468,
      "grad_norm": 0.018184319138526917,
      "learning_rate": 3.995084995528563e-05,
      "loss": 0.3894,
      "num_input_tokens_seen": 28548944,
      "step": 49195
    },
    {
      "epoch": 7.327971403038427,
      "grad_norm": 0.08936066180467606,
      "learning_rate": 3.9948245512805484e-05,
      "loss": 0.3257,
      "num_input_tokens_seen": 28551920,
      "step": 49200
    },
    {
      "epoch": 7.328716115579386,
      "grad_norm": 36.794376373291016,
      "learning_rate": 3.994564081778992e-05,
      "loss": 0.0705,
      "num_input_tokens_seen": 28554608,
      "step": 49205
    },
    {
      "epoch": 7.329460828120346,
      "grad_norm": 66.07061004638672,
      "learning_rate": 3.994303587028294e-05,
      "loss": 0.3336,
      "num_input_tokens_seen": 28557328,
      "step": 49210
    },
    {
      "epoch": 7.3302055406613045,
      "grad_norm": 4.171691417694092,
      "learning_rate": 3.9940430670328556e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 28560176,
      "step": 49215
    },
    {
      "epoch": 7.330950253202264,
      "grad_norm": 19.36040687561035,
      "learning_rate": 3.993782521797078e-05,
      "loss": 0.1353,
      "num_input_tokens_seen": 28563248,
      "step": 49220
    },
    {
      "epoch": 7.331694965743223,
      "grad_norm": 13.931175231933594,
      "learning_rate": 3.993521951325363e-05,
      "loss": 0.3503,
      "num_input_tokens_seen": 28566608,
      "step": 49225
    },
    {
      "epoch": 7.3324396782841825,
      "grad_norm": 13.661467552185059,
      "learning_rate": 3.993261355622113e-05,
      "loss": 0.3172,
      "num_input_tokens_seen": 28569232,
      "step": 49230
    },
    {
      "epoch": 7.333184390825141,
      "grad_norm": 0.8126506805419922,
      "learning_rate": 3.99300073469173e-05,
      "loss": 0.0158,
      "num_input_tokens_seen": 28572080,
      "step": 49235
    },
    {
      "epoch": 7.333929103366101,
      "grad_norm": 0.0573430061340332,
      "learning_rate": 3.9927400885386165e-05,
      "loss": 0.1725,
      "num_input_tokens_seen": 28575280,
      "step": 49240
    },
    {
      "epoch": 7.33467381590706,
      "grad_norm": 24.299175262451172,
      "learning_rate": 3.992479417167177e-05,
      "loss": 0.4473,
      "num_input_tokens_seen": 28578128,
      "step": 49245
    },
    {
      "epoch": 7.335418528448019,
      "grad_norm": 45.15162658691406,
      "learning_rate": 3.992218720581814e-05,
      "loss": 0.456,
      "num_input_tokens_seen": 28580624,
      "step": 49250
    },
    {
      "epoch": 7.336163240988978,
      "grad_norm": 17.841215133666992,
      "learning_rate": 3.9919579987869324e-05,
      "loss": 0.3736,
      "num_input_tokens_seen": 28583312,
      "step": 49255
    },
    {
      "epoch": 7.336907953529938,
      "grad_norm": 0.65470290184021,
      "learning_rate": 3.991697251786938e-05,
      "loss": 0.1791,
      "num_input_tokens_seen": 28586384,
      "step": 49260
    },
    {
      "epoch": 7.3376526660708965,
      "grad_norm": 0.032757341861724854,
      "learning_rate": 3.991436479586233e-05,
      "loss": 0.1339,
      "num_input_tokens_seen": 28589584,
      "step": 49265
    },
    {
      "epoch": 7.338397378611856,
      "grad_norm": 0.6586132645606995,
      "learning_rate": 3.9911756821892256e-05,
      "loss": 0.3993,
      "num_input_tokens_seen": 28592624,
      "step": 49270
    },
    {
      "epoch": 7.339142091152815,
      "grad_norm": 1.2523235082626343,
      "learning_rate": 3.99091485960032e-05,
      "loss": 0.0579,
      "num_input_tokens_seen": 28595504,
      "step": 49275
    },
    {
      "epoch": 7.3398868036937746,
      "grad_norm": 0.11785846203565598,
      "learning_rate": 3.990654011823923e-05,
      "loss": 0.0164,
      "num_input_tokens_seen": 28598352,
      "step": 49280
    },
    {
      "epoch": 7.340631516234733,
      "grad_norm": 41.094764709472656,
      "learning_rate": 3.990393138864442e-05,
      "loss": 0.3856,
      "num_input_tokens_seen": 28601424,
      "step": 49285
    },
    {
      "epoch": 7.341376228775693,
      "grad_norm": 0.040122851729393005,
      "learning_rate": 3.990132240726284e-05,
      "loss": 0.0512,
      "num_input_tokens_seen": 28604496,
      "step": 49290
    },
    {
      "epoch": 7.342120941316652,
      "grad_norm": 4.812018871307373,
      "learning_rate": 3.989871317413855e-05,
      "loss": 0.0308,
      "num_input_tokens_seen": 28607216,
      "step": 49295
    },
    {
      "epoch": 7.342865653857611,
      "grad_norm": 15.031002044677734,
      "learning_rate": 3.989610368931566e-05,
      "loss": 0.1342,
      "num_input_tokens_seen": 28610096,
      "step": 49300
    },
    {
      "epoch": 7.34361036639857,
      "grad_norm": 0.10355053842067719,
      "learning_rate": 3.9893493952838226e-05,
      "loss": 0.013,
      "num_input_tokens_seen": 28612656,
      "step": 49305
    },
    {
      "epoch": 7.344355078939529,
      "grad_norm": 29.934648513793945,
      "learning_rate": 3.9890883964750355e-05,
      "loss": 0.1024,
      "num_input_tokens_seen": 28615632,
      "step": 49310
    },
    {
      "epoch": 7.3450997914804885,
      "grad_norm": 14.33420467376709,
      "learning_rate": 3.9888273725096126e-05,
      "loss": 0.0338,
      "num_input_tokens_seen": 28618480,
      "step": 49315
    },
    {
      "epoch": 7.345844504021448,
      "grad_norm": 4.056632041931152,
      "learning_rate": 3.988566323391965e-05,
      "loss": 0.0679,
      "num_input_tokens_seen": 28621296,
      "step": 49320
    },
    {
      "epoch": 7.346589216562407,
      "grad_norm": 70.33711242675781,
      "learning_rate": 3.988305249126502e-05,
      "loss": 0.0784,
      "num_input_tokens_seen": 28624080,
      "step": 49325
    },
    {
      "epoch": 7.347333929103366,
      "grad_norm": 88.16500854492188,
      "learning_rate": 3.988044149717635e-05,
      "loss": 0.0459,
      "num_input_tokens_seen": 28626768,
      "step": 49330
    },
    {
      "epoch": 7.348078641644325,
      "grad_norm": 0.1010112315416336,
      "learning_rate": 3.987783025169773e-05,
      "loss": 0.1019,
      "num_input_tokens_seen": 28629552,
      "step": 49335
    },
    {
      "epoch": 7.348823354185284,
      "grad_norm": 31.877351760864258,
      "learning_rate": 3.987521875487331e-05,
      "loss": 0.1024,
      "num_input_tokens_seen": 28632528,
      "step": 49340
    },
    {
      "epoch": 7.349568066726244,
      "grad_norm": 26.592002868652344,
      "learning_rate": 3.9872607006747174e-05,
      "loss": 0.6722,
      "num_input_tokens_seen": 28636240,
      "step": 49345
    },
    {
      "epoch": 7.3503127792672025,
      "grad_norm": 5.458938121795654,
      "learning_rate": 3.986999500736346e-05,
      "loss": 0.19,
      "num_input_tokens_seen": 28639184,
      "step": 49350
    },
    {
      "epoch": 7.351057491808162,
      "grad_norm": 4.263881206512451,
      "learning_rate": 3.98673827567663e-05,
      "loss": 0.4208,
      "num_input_tokens_seen": 28642160,
      "step": 49355
    },
    {
      "epoch": 7.351802204349121,
      "grad_norm": 0.01796744205057621,
      "learning_rate": 3.9864770254999814e-05,
      "loss": 0.0359,
      "num_input_tokens_seen": 28644944,
      "step": 49360
    },
    {
      "epoch": 7.3525469168900806,
      "grad_norm": 19.032886505126953,
      "learning_rate": 3.986215750210814e-05,
      "loss": 0.1697,
      "num_input_tokens_seen": 28647856,
      "step": 49365
    },
    {
      "epoch": 7.353291629431039,
      "grad_norm": 0.6820016503334045,
      "learning_rate": 3.985954449813543e-05,
      "loss": 0.036,
      "num_input_tokens_seen": 28650736,
      "step": 49370
    },
    {
      "epoch": 7.354036341971999,
      "grad_norm": 21.253257751464844,
      "learning_rate": 3.9856931243125804e-05,
      "loss": 0.2814,
      "num_input_tokens_seen": 28653648,
      "step": 49375
    },
    {
      "epoch": 7.354781054512958,
      "grad_norm": 119.58565521240234,
      "learning_rate": 3.985431773712344e-05,
      "loss": 0.2143,
      "num_input_tokens_seen": 28656464,
      "step": 49380
    },
    {
      "epoch": 7.355525767053917,
      "grad_norm": 0.26838627457618713,
      "learning_rate": 3.9851703980172464e-05,
      "loss": 0.3702,
      "num_input_tokens_seen": 28659696,
      "step": 49385
    },
    {
      "epoch": 7.356270479594876,
      "grad_norm": 43.2496452331543,
      "learning_rate": 3.984908997231704e-05,
      "loss": 0.1233,
      "num_input_tokens_seen": 28662640,
      "step": 49390
    },
    {
      "epoch": 7.357015192135836,
      "grad_norm": 27.361652374267578,
      "learning_rate": 3.984647571360135e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 28665360,
      "step": 49395
    },
    {
      "epoch": 7.3577599046767945,
      "grad_norm": 0.06328564137220383,
      "learning_rate": 3.9843861204069536e-05,
      "loss": 0.0904,
      "num_input_tokens_seen": 28668400,
      "step": 49400
    },
    {
      "epoch": 7.358504617217754,
      "grad_norm": 30.03899574279785,
      "learning_rate": 3.9841246443765765e-05,
      "loss": 0.1488,
      "num_input_tokens_seen": 28671088,
      "step": 49405
    },
    {
      "epoch": 7.359249329758713,
      "grad_norm": 27.13644790649414,
      "learning_rate": 3.983863143273422e-05,
      "loss": 0.5131,
      "num_input_tokens_seen": 28674128,
      "step": 49410
    },
    {
      "epoch": 7.359994042299673,
      "grad_norm": 45.003395080566406,
      "learning_rate": 3.983601617101909e-05,
      "loss": 0.3734,
      "num_input_tokens_seen": 28676976,
      "step": 49415
    },
    {
      "epoch": 7.360738754840631,
      "grad_norm": 0.8757534623146057,
      "learning_rate": 3.983340065866453e-05,
      "loss": 0.0327,
      "num_input_tokens_seen": 28679760,
      "step": 49420
    },
    {
      "epoch": 7.361483467381591,
      "grad_norm": 0.05300932005047798,
      "learning_rate": 3.9830784895714744e-05,
      "loss": 0.4401,
      "num_input_tokens_seen": 28682640,
      "step": 49425
    },
    {
      "epoch": 7.36222817992255,
      "grad_norm": 27.619205474853516,
      "learning_rate": 3.982816888221394e-05,
      "loss": 0.103,
      "num_input_tokens_seen": 28685872,
      "step": 49430
    },
    {
      "epoch": 7.362972892463509,
      "grad_norm": 62.22871017456055,
      "learning_rate": 3.9825552618206274e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 28688784,
      "step": 49435
    },
    {
      "epoch": 7.363717605004468,
      "grad_norm": 12.476186752319336,
      "learning_rate": 3.982293610373597e-05,
      "loss": 0.3654,
      "num_input_tokens_seen": 28691760,
      "step": 49440
    },
    {
      "epoch": 7.364462317545428,
      "grad_norm": 15.633604049682617,
      "learning_rate": 3.9820319338847224e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 28694608,
      "step": 49445
    },
    {
      "epoch": 7.3652070300863866,
      "grad_norm": 21.698331832885742,
      "learning_rate": 3.981770232358425e-05,
      "loss": 0.1767,
      "num_input_tokens_seen": 28697392,
      "step": 49450
    },
    {
      "epoch": 7.365951742627346,
      "grad_norm": 0.087446428835392,
      "learning_rate": 3.9815085057991254e-05,
      "loss": 0.0555,
      "num_input_tokens_seen": 28700368,
      "step": 49455
    },
    {
      "epoch": 7.366696455168305,
      "grad_norm": 0.6933498382568359,
      "learning_rate": 3.981246754211244e-05,
      "loss": 0.1243,
      "num_input_tokens_seen": 28703280,
      "step": 49460
    },
    {
      "epoch": 7.367441167709265,
      "grad_norm": 52.72637176513672,
      "learning_rate": 3.980984977599206e-05,
      "loss": 0.2174,
      "num_input_tokens_seen": 28706256,
      "step": 49465
    },
    {
      "epoch": 7.368185880250223,
      "grad_norm": 1.7188326120376587,
      "learning_rate": 3.980723175967431e-05,
      "loss": 0.0412,
      "num_input_tokens_seen": 28709104,
      "step": 49470
    },
    {
      "epoch": 7.368930592791183,
      "grad_norm": 0.16115103662014008,
      "learning_rate": 3.980461349320344e-05,
      "loss": 0.0234,
      "num_input_tokens_seen": 28712048,
      "step": 49475
    },
    {
      "epoch": 7.369675305332142,
      "grad_norm": 0.02987954020500183,
      "learning_rate": 3.9801994976623655e-05,
      "loss": 0.0928,
      "num_input_tokens_seen": 28714640,
      "step": 49480
    },
    {
      "epoch": 7.370420017873101,
      "grad_norm": 2.476663112640381,
      "learning_rate": 3.979937620997922e-05,
      "loss": 0.047,
      "num_input_tokens_seen": 28717456,
      "step": 49485
    },
    {
      "epoch": 7.37116473041406,
      "grad_norm": 35.2419319152832,
      "learning_rate": 3.979675719331437e-05,
      "loss": 0.2344,
      "num_input_tokens_seen": 28720304,
      "step": 49490
    },
    {
      "epoch": 7.371909442955019,
      "grad_norm": 40.498538970947266,
      "learning_rate": 3.9794137926673337e-05,
      "loss": 0.2143,
      "num_input_tokens_seen": 28723280,
      "step": 49495
    },
    {
      "epoch": 7.372654155495979,
      "grad_norm": 0.06468983739614487,
      "learning_rate": 3.979151841010038e-05,
      "loss": 0.0447,
      "num_input_tokens_seen": 28726256,
      "step": 49500
    },
    {
      "epoch": 7.373398868036937,
      "grad_norm": 1.8837146759033203,
      "learning_rate": 3.978889864363975e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 28729232,
      "step": 49505
    },
    {
      "epoch": 7.374143580577897,
      "grad_norm": 51.40705108642578,
      "learning_rate": 3.978627862733572e-05,
      "loss": 0.2435,
      "num_input_tokens_seen": 28732368,
      "step": 49510
    },
    {
      "epoch": 7.374888293118856,
      "grad_norm": 2.0272560119628906,
      "learning_rate": 3.978365836123254e-05,
      "loss": 0.0891,
      "num_input_tokens_seen": 28735152,
      "step": 49515
    },
    {
      "epoch": 7.375633005659815,
      "grad_norm": 0.01959129050374031,
      "learning_rate": 3.978103784537447e-05,
      "loss": 0.2163,
      "num_input_tokens_seen": 28738256,
      "step": 49520
    },
    {
      "epoch": 7.376377718200774,
      "grad_norm": 0.03464778885245323,
      "learning_rate": 3.977841707980578e-05,
      "loss": 0.2668,
      "num_input_tokens_seen": 28741008,
      "step": 49525
    },
    {
      "epoch": 7.377122430741734,
      "grad_norm": 9.298720359802246,
      "learning_rate": 3.977579606457077e-05,
      "loss": 0.253,
      "num_input_tokens_seen": 28743856,
      "step": 49530
    },
    {
      "epoch": 7.3778671432826926,
      "grad_norm": 73.04413604736328,
      "learning_rate": 3.97731747997137e-05,
      "loss": 0.1974,
      "num_input_tokens_seen": 28746864,
      "step": 49535
    },
    {
      "epoch": 7.378611855823652,
      "grad_norm": 0.09318489581346512,
      "learning_rate": 3.9770553285278846e-05,
      "loss": 0.5435,
      "num_input_tokens_seen": 28749872,
      "step": 49540
    },
    {
      "epoch": 7.379356568364611,
      "grad_norm": 0.006064676679670811,
      "learning_rate": 3.9767931521310514e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 28752752,
      "step": 49545
    },
    {
      "epoch": 7.380101280905571,
      "grad_norm": 83.64579772949219,
      "learning_rate": 3.976530950785299e-05,
      "loss": 0.278,
      "num_input_tokens_seen": 28755696,
      "step": 49550
    },
    {
      "epoch": 7.380845993446529,
      "grad_norm": 4.116924285888672,
      "learning_rate": 3.976268724495057e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 28758384,
      "step": 49555
    },
    {
      "epoch": 7.381590705987489,
      "grad_norm": 0.024889489635825157,
      "learning_rate": 3.9760064732647545e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 28761200,
      "step": 49560
    },
    {
      "epoch": 7.382335418528448,
      "grad_norm": 0.049854304641485214,
      "learning_rate": 3.975744197098823e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 28764240,
      "step": 49565
    },
    {
      "epoch": 7.383080131069407,
      "grad_norm": 0.914771318435669,
      "learning_rate": 3.9754818960016934e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 28767216,
      "step": 49570
    },
    {
      "epoch": 7.383824843610366,
      "grad_norm": 0.012822303920984268,
      "learning_rate": 3.975219569977797e-05,
      "loss": 0.2248,
      "num_input_tokens_seen": 28770000,
      "step": 49575
    },
    {
      "epoch": 7.384569556151326,
      "grad_norm": 0.008159280754625797,
      "learning_rate": 3.974957219031565e-05,
      "loss": 0.6357,
      "num_input_tokens_seen": 28772848,
      "step": 49580
    },
    {
      "epoch": 7.385314268692285,
      "grad_norm": 0.03348429501056671,
      "learning_rate": 3.9746948431674304e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 28775952,
      "step": 49585
    },
    {
      "epoch": 7.386058981233244,
      "grad_norm": 1.9919703006744385,
      "learning_rate": 3.974432442389824e-05,
      "loss": 0.3328,
      "num_input_tokens_seen": 28778640,
      "step": 49590
    },
    {
      "epoch": 7.386803693774203,
      "grad_norm": 0.5448656678199768,
      "learning_rate": 3.974170016703181e-05,
      "loss": 0.0436,
      "num_input_tokens_seen": 28781936,
      "step": 49595
    },
    {
      "epoch": 7.387548406315163,
      "grad_norm": 112.22453308105469,
      "learning_rate": 3.973907566111934e-05,
      "loss": 0.1598,
      "num_input_tokens_seen": 28784688,
      "step": 49600
    },
    {
      "epoch": 7.388293118856121,
      "grad_norm": 35.40537643432617,
      "learning_rate": 3.9736450906205156e-05,
      "loss": 0.1677,
      "num_input_tokens_seen": 28787440,
      "step": 49605
    },
    {
      "epoch": 7.389037831397081,
      "grad_norm": 0.18086662888526917,
      "learning_rate": 3.973382590233362e-05,
      "loss": 0.1609,
      "num_input_tokens_seen": 28790000,
      "step": 49610
    },
    {
      "epoch": 7.38978254393804,
      "grad_norm": 0.09991086274385452,
      "learning_rate": 3.973120064954907e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 28792784,
      "step": 49615
    },
    {
      "epoch": 7.390527256478999,
      "grad_norm": 0.016349947080016136,
      "learning_rate": 3.972857514789586e-05,
      "loss": 0.313,
      "num_input_tokens_seen": 28795728,
      "step": 49620
    },
    {
      "epoch": 7.391271969019958,
      "grad_norm": 29.953826904296875,
      "learning_rate": 3.972594939741834e-05,
      "loss": 0.5117,
      "num_input_tokens_seen": 28798448,
      "step": 49625
    },
    {
      "epoch": 7.392016681560918,
      "grad_norm": 0.04967502877116203,
      "learning_rate": 3.9723323398160863e-05,
      "loss": 0.1537,
      "num_input_tokens_seen": 28801360,
      "step": 49630
    },
    {
      "epoch": 7.392761394101877,
      "grad_norm": 83.27977752685547,
      "learning_rate": 3.972069715016782e-05,
      "loss": 0.1225,
      "num_input_tokens_seen": 28804464,
      "step": 49635
    },
    {
      "epoch": 7.393506106642836,
      "grad_norm": 0.993992030620575,
      "learning_rate": 3.971807065348354e-05,
      "loss": 0.209,
      "num_input_tokens_seen": 28807728,
      "step": 49640
    },
    {
      "epoch": 7.394250819183795,
      "grad_norm": 1.1413692235946655,
      "learning_rate": 3.9715443908152426e-05,
      "loss": 0.1375,
      "num_input_tokens_seen": 28810608,
      "step": 49645
    },
    {
      "epoch": 7.394995531724755,
      "grad_norm": 0.14004668593406677,
      "learning_rate": 3.971281691421884e-05,
      "loss": 0.014,
      "num_input_tokens_seen": 28813456,
      "step": 49650
    },
    {
      "epoch": 7.395740244265713,
      "grad_norm": 0.013318902812898159,
      "learning_rate": 3.971018967172717e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 28816208,
      "step": 49655
    },
    {
      "epoch": 7.396484956806672,
      "grad_norm": 0.20195205509662628,
      "learning_rate": 3.970756218072179e-05,
      "loss": 0.2738,
      "num_input_tokens_seen": 28819120,
      "step": 49660
    },
    {
      "epoch": 7.397229669347632,
      "grad_norm": 0.028748689219355583,
      "learning_rate": 3.97049344412471e-05,
      "loss": 0.0939,
      "num_input_tokens_seen": 28821808,
      "step": 49665
    },
    {
      "epoch": 7.3979743818885915,
      "grad_norm": 0.034153155982494354,
      "learning_rate": 3.970230645334748e-05,
      "loss": 0.2999,
      "num_input_tokens_seen": 28824688,
      "step": 49670
    },
    {
      "epoch": 7.39871909442955,
      "grad_norm": 10.04467487335205,
      "learning_rate": 3.9699678217067346e-05,
      "loss": 0.2624,
      "num_input_tokens_seen": 28827664,
      "step": 49675
    },
    {
      "epoch": 7.399463806970509,
      "grad_norm": 3.7036640644073486,
      "learning_rate": 3.9697049732451084e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 28830736,
      "step": 49680
    },
    {
      "epoch": 7.400208519511469,
      "grad_norm": 27.66225242614746,
      "learning_rate": 3.9694420999543105e-05,
      "loss": 0.1383,
      "num_input_tokens_seen": 28833584,
      "step": 49685
    },
    {
      "epoch": 7.400953232052427,
      "grad_norm": 0.806427001953125,
      "learning_rate": 3.969179201838782e-05,
      "loss": 0.0648,
      "num_input_tokens_seen": 28836528,
      "step": 49690
    },
    {
      "epoch": 7.401697944593387,
      "grad_norm": 0.030276494100689888,
      "learning_rate": 3.968916278902963e-05,
      "loss": 0.0747,
      "num_input_tokens_seen": 28839280,
      "step": 49695
    },
    {
      "epoch": 7.402442657134346,
      "grad_norm": 53.6049919128418,
      "learning_rate": 3.968653331151297e-05,
      "loss": 0.4328,
      "num_input_tokens_seen": 28842416,
      "step": 49700
    },
    {
      "epoch": 7.403187369675305,
      "grad_norm": 127.88276672363281,
      "learning_rate": 3.9683903585882264e-05,
      "loss": 0.1598,
      "num_input_tokens_seen": 28845168,
      "step": 49705
    },
    {
      "epoch": 7.403932082216264,
      "grad_norm": 113.52389526367188,
      "learning_rate": 3.9681273612181924e-05,
      "loss": 0.3306,
      "num_input_tokens_seen": 28847888,
      "step": 49710
    },
    {
      "epoch": 7.404676794757224,
      "grad_norm": 0.09836792200803757,
      "learning_rate": 3.967864339045639e-05,
      "loss": 0.0654,
      "num_input_tokens_seen": 28850608,
      "step": 49715
    },
    {
      "epoch": 7.405421507298183,
      "grad_norm": 0.060278166085481644,
      "learning_rate": 3.967601292075009e-05,
      "loss": 0.1367,
      "num_input_tokens_seen": 28853872,
      "step": 49720
    },
    {
      "epoch": 7.406166219839142,
      "grad_norm": 0.04738360643386841,
      "learning_rate": 3.967338220310748e-05,
      "loss": 0.1175,
      "num_input_tokens_seen": 28856784,
      "step": 49725
    },
    {
      "epoch": 7.406910932380101,
      "grad_norm": 0.026161832734942436,
      "learning_rate": 3.967075123757298e-05,
      "loss": 0.1721,
      "num_input_tokens_seen": 28859568,
      "step": 49730
    },
    {
      "epoch": 7.407655644921061,
      "grad_norm": 12.78496265411377,
      "learning_rate": 3.9668120024191046e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 28862256,
      "step": 49735
    },
    {
      "epoch": 7.408400357462019,
      "grad_norm": 0.13709968328475952,
      "learning_rate": 3.966548856300614e-05,
      "loss": 0.0283,
      "num_input_tokens_seen": 28864944,
      "step": 49740
    },
    {
      "epoch": 7.409145070002979,
      "grad_norm": 60.836463928222656,
      "learning_rate": 3.9662856854062706e-05,
      "loss": 0.1447,
      "num_input_tokens_seen": 28867824,
      "step": 49745
    },
    {
      "epoch": 7.409889782543938,
      "grad_norm": 2.2510762214660645,
      "learning_rate": 3.9660224897405206e-05,
      "loss": 0.2518,
      "num_input_tokens_seen": 28870608,
      "step": 49750
    },
    {
      "epoch": 7.4106344950848975,
      "grad_norm": 0.9913002848625183,
      "learning_rate": 3.965759269307812e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 28873552,
      "step": 49755
    },
    {
      "epoch": 7.411379207625856,
      "grad_norm": 0.14207985997200012,
      "learning_rate": 3.965496024112589e-05,
      "loss": 0.4379,
      "num_input_tokens_seen": 28876560,
      "step": 49760
    },
    {
      "epoch": 7.412123920166816,
      "grad_norm": 0.05230288580060005,
      "learning_rate": 3.9652327541593e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 28879696,
      "step": 49765
    },
    {
      "epoch": 7.412868632707775,
      "grad_norm": 0.5502097606658936,
      "learning_rate": 3.964969459452393e-05,
      "loss": 0.1138,
      "num_input_tokens_seen": 28882448,
      "step": 49770
    },
    {
      "epoch": 7.413613345248734,
      "grad_norm": 0.011153485625982285,
      "learning_rate": 3.964706139996316e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 28885264,
      "step": 49775
    },
    {
      "epoch": 7.414358057789693,
      "grad_norm": 0.03480132669210434,
      "learning_rate": 3.9644427957955174e-05,
      "loss": 0.1851,
      "num_input_tokens_seen": 28888016,
      "step": 49780
    },
    {
      "epoch": 7.415102770330653,
      "grad_norm": 0.0716569721698761,
      "learning_rate": 3.9641794268544465e-05,
      "loss": 0.3955,
      "num_input_tokens_seen": 28890864,
      "step": 49785
    },
    {
      "epoch": 7.415847482871611,
      "grad_norm": 24.773405075073242,
      "learning_rate": 3.963916033177552e-05,
      "loss": 0.2806,
      "num_input_tokens_seen": 28893552,
      "step": 49790
    },
    {
      "epoch": 7.416592195412571,
      "grad_norm": 29.93734359741211,
      "learning_rate": 3.963652614769284e-05,
      "loss": 0.1187,
      "num_input_tokens_seen": 28896272,
      "step": 49795
    },
    {
      "epoch": 7.41733690795353,
      "grad_norm": 26.394214630126953,
      "learning_rate": 3.963389171634093e-05,
      "loss": 0.3329,
      "num_input_tokens_seen": 28899024,
      "step": 49800
    },
    {
      "epoch": 7.4180816204944895,
      "grad_norm": 47.887454986572266,
      "learning_rate": 3.963125703776429e-05,
      "loss": 0.3289,
      "num_input_tokens_seen": 28902064,
      "step": 49805
    },
    {
      "epoch": 7.418826333035448,
      "grad_norm": 0.03534432128071785,
      "learning_rate": 3.962862211200744e-05,
      "loss": 0.3377,
      "num_input_tokens_seen": 28904784,
      "step": 49810
    },
    {
      "epoch": 7.419571045576408,
      "grad_norm": 17.29472541809082,
      "learning_rate": 3.962598693911488e-05,
      "loss": 0.4549,
      "num_input_tokens_seen": 28907920,
      "step": 49815
    },
    {
      "epoch": 7.420315758117367,
      "grad_norm": 0.3442244529724121,
      "learning_rate": 3.962335151913113e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 28910864,
      "step": 49820
    },
    {
      "epoch": 7.421060470658326,
      "grad_norm": 0.2520748972892761,
      "learning_rate": 3.962071585210072e-05,
      "loss": 0.2399,
      "num_input_tokens_seen": 28913968,
      "step": 49825
    },
    {
      "epoch": 7.421805183199285,
      "grad_norm": 0.3408445119857788,
      "learning_rate": 3.961807993806819e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 28916976,
      "step": 49830
    },
    {
      "epoch": 7.422549895740245,
      "grad_norm": 0.08437705039978027,
      "learning_rate": 3.9615443777078046e-05,
      "loss": 0.0552,
      "num_input_tokens_seen": 28919760,
      "step": 49835
    },
    {
      "epoch": 7.4232946082812035,
      "grad_norm": 9.338258743286133,
      "learning_rate": 3.961280736917483e-05,
      "loss": 0.4239,
      "num_input_tokens_seen": 28923120,
      "step": 49840
    },
    {
      "epoch": 7.424039320822162,
      "grad_norm": 209.87794494628906,
      "learning_rate": 3.961017071440309e-05,
      "loss": 0.0519,
      "num_input_tokens_seen": 28926096,
      "step": 49845
    },
    {
      "epoch": 7.424784033363122,
      "grad_norm": 0.13647273182868958,
      "learning_rate": 3.960753381280737e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 28929232,
      "step": 49850
    },
    {
      "epoch": 7.425528745904081,
      "grad_norm": 0.04048946127295494,
      "learning_rate": 3.96048966644322e-05,
      "loss": 0.2432,
      "num_input_tokens_seen": 28932176,
      "step": 49855
    },
    {
      "epoch": 7.42627345844504,
      "grad_norm": 0.12470472604036331,
      "learning_rate": 3.9602259269322155e-05,
      "loss": 0.0308,
      "num_input_tokens_seen": 28935216,
      "step": 49860
    },
    {
      "epoch": 7.427018170985999,
      "grad_norm": 0.26393768191337585,
      "learning_rate": 3.9599621627521774e-05,
      "loss": 0.0873,
      "num_input_tokens_seen": 28938352,
      "step": 49865
    },
    {
      "epoch": 7.427762883526959,
      "grad_norm": 0.18642587959766388,
      "learning_rate": 3.959698373907563e-05,
      "loss": 0.0596,
      "num_input_tokens_seen": 28941296,
      "step": 49870
    },
    {
      "epoch": 7.428507596067917,
      "grad_norm": 0.2274881899356842,
      "learning_rate": 3.959434560402828e-05,
      "loss": 0.1396,
      "num_input_tokens_seen": 28944112,
      "step": 49875
    },
    {
      "epoch": 7.429252308608877,
      "grad_norm": 6.159719467163086,
      "learning_rate": 3.9591707222424294e-05,
      "loss": 0.26,
      "num_input_tokens_seen": 28947120,
      "step": 49880
    },
    {
      "epoch": 7.429997021149836,
      "grad_norm": 2.0579891204833984,
      "learning_rate": 3.958906859430825e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 28950096,
      "step": 49885
    },
    {
      "epoch": 7.4307417336907955,
      "grad_norm": 6.637445449829102,
      "learning_rate": 3.958642971972471e-05,
      "loss": 0.2261,
      "num_input_tokens_seen": 28952944,
      "step": 49890
    },
    {
      "epoch": 7.431486446231754,
      "grad_norm": 0.14229853451251984,
      "learning_rate": 3.958379059871827e-05,
      "loss": 0.0423,
      "num_input_tokens_seen": 28955824,
      "step": 49895
    },
    {
      "epoch": 7.432231158772714,
      "grad_norm": 18.158769607543945,
      "learning_rate": 3.9581151231333506e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 28958576,
      "step": 49900
    },
    {
      "epoch": 7.432975871313673,
      "grad_norm": 0.014787874184548855,
      "learning_rate": 3.957851161761502e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 28961360,
      "step": 49905
    },
    {
      "epoch": 7.433720583854632,
      "grad_norm": 398.5732421875,
      "learning_rate": 3.9575871757607385e-05,
      "loss": 0.0565,
      "num_input_tokens_seen": 28964400,
      "step": 49910
    },
    {
      "epoch": 7.434465296395591,
      "grad_norm": 0.20211662352085114,
      "learning_rate": 3.9573231651355225e-05,
      "loss": 0.248,
      "num_input_tokens_seen": 28967344,
      "step": 49915
    },
    {
      "epoch": 7.435210008936551,
      "grad_norm": 11.833298683166504,
      "learning_rate": 3.957059129890311e-05,
      "loss": 0.1545,
      "num_input_tokens_seen": 28970128,
      "step": 49920
    },
    {
      "epoch": 7.4359547214775095,
      "grad_norm": 5.575437545776367,
      "learning_rate": 3.956795070029568e-05,
      "loss": 0.0085,
      "num_input_tokens_seen": 28973104,
      "step": 49925
    },
    {
      "epoch": 7.436699434018469,
      "grad_norm": 0.19975513219833374,
      "learning_rate": 3.956530985557753e-05,
      "loss": 0.1484,
      "num_input_tokens_seen": 28976368,
      "step": 49930
    },
    {
      "epoch": 7.437444146559428,
      "grad_norm": 0.06900499016046524,
      "learning_rate": 3.9562668764793264e-05,
      "loss": 0.2283,
      "num_input_tokens_seen": 28979344,
      "step": 49935
    },
    {
      "epoch": 7.4381888591003875,
      "grad_norm": 31.224449157714844,
      "learning_rate": 3.9560027427987515e-05,
      "loss": 0.4357,
      "num_input_tokens_seen": 28981904,
      "step": 49940
    },
    {
      "epoch": 7.438933571641346,
      "grad_norm": 2.0074779987335205,
      "learning_rate": 3.9557385845204895e-05,
      "loss": 0.1994,
      "num_input_tokens_seen": 28984688,
      "step": 49945
    },
    {
      "epoch": 7.439678284182306,
      "grad_norm": 0.00713318819180131,
      "learning_rate": 3.955474401649004e-05,
      "loss": 0.1247,
      "num_input_tokens_seen": 28987760,
      "step": 49950
    },
    {
      "epoch": 7.440422996723265,
      "grad_norm": 1.360236644744873,
      "learning_rate": 3.955210194188758e-05,
      "loss": 0.4833,
      "num_input_tokens_seen": 28990480,
      "step": 49955
    },
    {
      "epoch": 7.441167709264224,
      "grad_norm": 40.95288848876953,
      "learning_rate": 3.954945962144214e-05,
      "loss": 0.6007,
      "num_input_tokens_seen": 28993424,
      "step": 49960
    },
    {
      "epoch": 7.441912421805183,
      "grad_norm": 2.9001779556274414,
      "learning_rate": 3.9546817055198385e-05,
      "loss": 0.3836,
      "num_input_tokens_seen": 28996144,
      "step": 49965
    },
    {
      "epoch": 7.442657134346143,
      "grad_norm": 0.07545771449804306,
      "learning_rate": 3.954417424320092e-05,
      "loss": 0.2024,
      "num_input_tokens_seen": 28999280,
      "step": 49970
    },
    {
      "epoch": 7.4434018468871015,
      "grad_norm": 23.411291122436523,
      "learning_rate": 3.954153118549442e-05,
      "loss": 0.0786,
      "num_input_tokens_seen": 29002544,
      "step": 49975
    },
    {
      "epoch": 7.444146559428061,
      "grad_norm": 0.16931253671646118,
      "learning_rate": 3.953888788212353e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 29005200,
      "step": 49980
    },
    {
      "epoch": 7.44489127196902,
      "grad_norm": 16.935256958007812,
      "learning_rate": 3.953624433313291e-05,
      "loss": 0.1096,
      "num_input_tokens_seen": 29008336,
      "step": 49985
    },
    {
      "epoch": 7.4456359845099795,
      "grad_norm": 0.0985453724861145,
      "learning_rate": 3.9533600538567214e-05,
      "loss": 0.045,
      "num_input_tokens_seen": 29010992,
      "step": 49990
    },
    {
      "epoch": 7.446380697050938,
      "grad_norm": 11.998923301696777,
      "learning_rate": 3.953095649847111e-05,
      "loss": 0.0435,
      "num_input_tokens_seen": 29013840,
      "step": 49995
    },
    {
      "epoch": 7.447125409591898,
      "grad_norm": 0.00580558180809021,
      "learning_rate": 3.952831221288926e-05,
      "loss": 0.0407,
      "num_input_tokens_seen": 29016688,
      "step": 50000
    },
    {
      "epoch": 7.447870122132857,
      "grad_norm": 5.758743762969971,
      "learning_rate": 3.9525667681866344e-05,
      "loss": 0.1274,
      "num_input_tokens_seen": 29019376,
      "step": 50005
    },
    {
      "epoch": 7.4486148346738155,
      "grad_norm": 208.35704040527344,
      "learning_rate": 3.952302290544704e-05,
      "loss": 0.2687,
      "num_input_tokens_seen": 29022160,
      "step": 50010
    },
    {
      "epoch": 7.449359547214775,
      "grad_norm": 36.433631896972656,
      "learning_rate": 3.952037788367602e-05,
      "loss": 0.1528,
      "num_input_tokens_seen": 29025264,
      "step": 50015
    },
    {
      "epoch": 7.450104259755734,
      "grad_norm": 28.585769653320312,
      "learning_rate": 3.951773261659797e-05,
      "loss": 0.0384,
      "num_input_tokens_seen": 29028240,
      "step": 50020
    },
    {
      "epoch": 7.4508489722966935,
      "grad_norm": 0.032887425273656845,
      "learning_rate": 3.951508710425758e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 29031280,
      "step": 50025
    },
    {
      "epoch": 7.451593684837652,
      "grad_norm": 0.007550944108515978,
      "learning_rate": 3.9512441346699554e-05,
      "loss": 0.2581,
      "num_input_tokens_seen": 29034448,
      "step": 50030
    },
    {
      "epoch": 7.452338397378612,
      "grad_norm": 44.853797912597656,
      "learning_rate": 3.950979534396858e-05,
      "loss": 0.1991,
      "num_input_tokens_seen": 29037392,
      "step": 50035
    },
    {
      "epoch": 7.453083109919571,
      "grad_norm": 0.07904109358787537,
      "learning_rate": 3.9507149096109366e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 29039984,
      "step": 50040
    },
    {
      "epoch": 7.45382782246053,
      "grad_norm": 0.24769221246242523,
      "learning_rate": 3.95045026031666e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 29042768,
      "step": 50045
    },
    {
      "epoch": 7.454572535001489,
      "grad_norm": 0.043497730046510696,
      "learning_rate": 3.950185586518501e-05,
      "loss": 0.0418,
      "num_input_tokens_seen": 29045552,
      "step": 50050
    },
    {
      "epoch": 7.455317247542449,
      "grad_norm": 0.03966081887483597,
      "learning_rate": 3.94992088822093e-05,
      "loss": 0.5105,
      "num_input_tokens_seen": 29048336,
      "step": 50055
    },
    {
      "epoch": 7.4560619600834075,
      "grad_norm": 92.2043685913086,
      "learning_rate": 3.94965616542842e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 29051088,
      "step": 50060
    },
    {
      "epoch": 7.456806672624367,
      "grad_norm": 18.811511993408203,
      "learning_rate": 3.949391418145442e-05,
      "loss": 0.1746,
      "num_input_tokens_seen": 29053712,
      "step": 50065
    },
    {
      "epoch": 7.457551385165326,
      "grad_norm": 35.996253967285156,
      "learning_rate": 3.9491266463764694e-05,
      "loss": 0.1475,
      "num_input_tokens_seen": 29056752,
      "step": 50070
    },
    {
      "epoch": 7.4582960977062855,
      "grad_norm": 40.46555709838867,
      "learning_rate": 3.948861850125974e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 29059728,
      "step": 50075
    },
    {
      "epoch": 7.459040810247244,
      "grad_norm": 29.7000675201416,
      "learning_rate": 3.948597029398432e-05,
      "loss": 0.3414,
      "num_input_tokens_seen": 29062672,
      "step": 50080
    },
    {
      "epoch": 7.459785522788204,
      "grad_norm": 14.12031078338623,
      "learning_rate": 3.9483321841983146e-05,
      "loss": 0.1832,
      "num_input_tokens_seen": 29066000,
      "step": 50085
    },
    {
      "epoch": 7.460530235329163,
      "grad_norm": 25.8150634765625,
      "learning_rate": 3.948067314530096e-05,
      "loss": 0.0256,
      "num_input_tokens_seen": 29068848,
      "step": 50090
    },
    {
      "epoch": 7.461274947870122,
      "grad_norm": 30.7242374420166,
      "learning_rate": 3.947802420398253e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 29071664,
      "step": 50095
    },
    {
      "epoch": 7.462019660411081,
      "grad_norm": 0.15350079536437988,
      "learning_rate": 3.947537501807259e-05,
      "loss": 0.239,
      "num_input_tokens_seen": 29074416,
      "step": 50100
    },
    {
      "epoch": 7.462764372952041,
      "grad_norm": 0.027860436588525772,
      "learning_rate": 3.947272558761591e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 29077104,
      "step": 50105
    },
    {
      "epoch": 7.4635090854929995,
      "grad_norm": 0.10076338797807693,
      "learning_rate": 3.947007591265723e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 29079920,
      "step": 50110
    },
    {
      "epoch": 7.464253798033959,
      "grad_norm": 0.00514657748863101,
      "learning_rate": 3.9467425993241326e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 29082320,
      "step": 50115
    },
    {
      "epoch": 7.464998510574918,
      "grad_norm": 11.842700004577637,
      "learning_rate": 3.946477582941297e-05,
      "loss": 0.3074,
      "num_input_tokens_seen": 29085168,
      "step": 50120
    },
    {
      "epoch": 7.465743223115878,
      "grad_norm": 3.2843120098114014,
      "learning_rate": 3.946212542121692e-05,
      "loss": 0.5047,
      "num_input_tokens_seen": 29088080,
      "step": 50125
    },
    {
      "epoch": 7.466487935656836,
      "grad_norm": 0.01692645251750946,
      "learning_rate": 3.945947476869797e-05,
      "loss": 0.0657,
      "num_input_tokens_seen": 29091120,
      "step": 50130
    },
    {
      "epoch": 7.467232648197796,
      "grad_norm": 0.01634976826608181,
      "learning_rate": 3.945682387190088e-05,
      "loss": 0.1142,
      "num_input_tokens_seen": 29094064,
      "step": 50135
    },
    {
      "epoch": 7.467977360738755,
      "grad_norm": 0.0195903480052948,
      "learning_rate": 3.9454172730870445e-05,
      "loss": 0.2955,
      "num_input_tokens_seen": 29097040,
      "step": 50140
    },
    {
      "epoch": 7.468722073279714,
      "grad_norm": 0.03316481038928032,
      "learning_rate": 3.9451521345651456e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 29100048,
      "step": 50145
    },
    {
      "epoch": 7.469466785820673,
      "grad_norm": 0.03221559897065163,
      "learning_rate": 3.94488697162887e-05,
      "loss": 0.1114,
      "num_input_tokens_seen": 29102832,
      "step": 50150
    },
    {
      "epoch": 7.470211498361633,
      "grad_norm": 25.18041229248047,
      "learning_rate": 3.944621784282697e-05,
      "loss": 0.2237,
      "num_input_tokens_seen": 29105936,
      "step": 50155
    },
    {
      "epoch": 7.4709562109025915,
      "grad_norm": 32.45092010498047,
      "learning_rate": 3.944356572531108e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 29109136,
      "step": 50160
    },
    {
      "epoch": 7.471700923443551,
      "grad_norm": 19.152650833129883,
      "learning_rate": 3.944091336378583e-05,
      "loss": 0.0966,
      "num_input_tokens_seen": 29112016,
      "step": 50165
    },
    {
      "epoch": 7.47244563598451,
      "grad_norm": 2.0682084560394287,
      "learning_rate": 3.943826075829602e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 29114864,
      "step": 50170
    },
    {
      "epoch": 7.473190348525469,
      "grad_norm": 45.44675827026367,
      "learning_rate": 3.943560790888647e-05,
      "loss": 0.3052,
      "num_input_tokens_seen": 29117840,
      "step": 50175
    },
    {
      "epoch": 7.473935061066428,
      "grad_norm": 0.008224429562687874,
      "learning_rate": 3.9432954815601995e-05,
      "loss": 0.0077,
      "num_input_tokens_seen": 29120656,
      "step": 50180
    },
    {
      "epoch": 7.474679773607388,
      "grad_norm": 19.554237365722656,
      "learning_rate": 3.943030147848742e-05,
      "loss": 0.1611,
      "num_input_tokens_seen": 29123568,
      "step": 50185
    },
    {
      "epoch": 7.475424486148347,
      "grad_norm": 62.264488220214844,
      "learning_rate": 3.9427647897587564e-05,
      "loss": 0.0821,
      "num_input_tokens_seen": 29126288,
      "step": 50190
    },
    {
      "epoch": 7.4761691986893055,
      "grad_norm": 0.8842939734458923,
      "learning_rate": 3.9424994072947256e-05,
      "loss": 0.0722,
      "num_input_tokens_seen": 29129264,
      "step": 50195
    },
    {
      "epoch": 7.476913911230265,
      "grad_norm": 17.83329200744629,
      "learning_rate": 3.942234000461135e-05,
      "loss": 0.0895,
      "num_input_tokens_seen": 29132208,
      "step": 50200
    },
    {
      "epoch": 7.477658623771224,
      "grad_norm": 59.35369873046875,
      "learning_rate": 3.941968569262465e-05,
      "loss": 0.2104,
      "num_input_tokens_seen": 29135472,
      "step": 50205
    },
    {
      "epoch": 7.478403336312184,
      "grad_norm": 54.77155303955078,
      "learning_rate": 3.9417031137032025e-05,
      "loss": 0.5705,
      "num_input_tokens_seen": 29138096,
      "step": 50210
    },
    {
      "epoch": 7.479148048853142,
      "grad_norm": 39.892677307128906,
      "learning_rate": 3.941437633787831e-05,
      "loss": 0.1275,
      "num_input_tokens_seen": 29140784,
      "step": 50215
    },
    {
      "epoch": 7.479892761394102,
      "grad_norm": 40.23832702636719,
      "learning_rate": 3.941172129520836e-05,
      "loss": 0.2398,
      "num_input_tokens_seen": 29143888,
      "step": 50220
    },
    {
      "epoch": 7.480637473935061,
      "grad_norm": 0.2117549479007721,
      "learning_rate": 3.940906600906702e-05,
      "loss": 0.0544,
      "num_input_tokens_seen": 29146832,
      "step": 50225
    },
    {
      "epoch": 7.48138218647602,
      "grad_norm": 1.1641606092453003,
      "learning_rate": 3.9406410479499155e-05,
      "loss": 0.133,
      "num_input_tokens_seen": 29150032,
      "step": 50230
    },
    {
      "epoch": 7.482126899016979,
      "grad_norm": 0.18784116208553314,
      "learning_rate": 3.940375470654963e-05,
      "loss": 0.0837,
      "num_input_tokens_seen": 29152944,
      "step": 50235
    },
    {
      "epoch": 7.482871611557939,
      "grad_norm": 0.330527663230896,
      "learning_rate": 3.9401098690263316e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 29155600,
      "step": 50240
    },
    {
      "epoch": 7.4836163240988975,
      "grad_norm": 0.8578169345855713,
      "learning_rate": 3.939844243068507e-05,
      "loss": 0.0229,
      "num_input_tokens_seen": 29158448,
      "step": 50245
    },
    {
      "epoch": 7.484361036639857,
      "grad_norm": 64.99850463867188,
      "learning_rate": 3.939578592785977e-05,
      "loss": 0.1897,
      "num_input_tokens_seen": 29161712,
      "step": 50250
    },
    {
      "epoch": 7.485105749180816,
      "grad_norm": 8.679471015930176,
      "learning_rate": 3.93931291818323e-05,
      "loss": 0.0146,
      "num_input_tokens_seen": 29164464,
      "step": 50255
    },
    {
      "epoch": 7.485850461721776,
      "grad_norm": 49.40361022949219,
      "learning_rate": 3.939047219264754e-05,
      "loss": 0.2719,
      "num_input_tokens_seen": 29167408,
      "step": 50260
    },
    {
      "epoch": 7.486595174262734,
      "grad_norm": 1.7549201250076294,
      "learning_rate": 3.938781496035038e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 29170128,
      "step": 50265
    },
    {
      "epoch": 7.487339886803694,
      "grad_norm": 3.030839204788208,
      "learning_rate": 3.93851574849857e-05,
      "loss": 0.0658,
      "num_input_tokens_seen": 29173200,
      "step": 50270
    },
    {
      "epoch": 7.488084599344653,
      "grad_norm": 0.10346566885709763,
      "learning_rate": 3.9382499766598416e-05,
      "loss": 0.0275,
      "num_input_tokens_seen": 29176048,
      "step": 50275
    },
    {
      "epoch": 7.488829311885612,
      "grad_norm": 0.08121994137763977,
      "learning_rate": 3.937984180523342e-05,
      "loss": 0.2778,
      "num_input_tokens_seen": 29178992,
      "step": 50280
    },
    {
      "epoch": 7.489574024426571,
      "grad_norm": 2.380385160446167,
      "learning_rate": 3.9377183600935595e-05,
      "loss": 0.0964,
      "num_input_tokens_seen": 29182096,
      "step": 50285
    },
    {
      "epoch": 7.490318736967531,
      "grad_norm": 10.229536056518555,
      "learning_rate": 3.937452515374987e-05,
      "loss": 0.3496,
      "num_input_tokens_seen": 29184944,
      "step": 50290
    },
    {
      "epoch": 7.49106344950849,
      "grad_norm": 24.867443084716797,
      "learning_rate": 3.9371866463721165e-05,
      "loss": 0.1389,
      "num_input_tokens_seen": 29187728,
      "step": 50295
    },
    {
      "epoch": 7.491808162049449,
      "grad_norm": 1.584160327911377,
      "learning_rate": 3.9369207530894374e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 29190672,
      "step": 50300
    },
    {
      "epoch": 7.492552874590408,
      "grad_norm": 29.95429039001465,
      "learning_rate": 3.9366548355314426e-05,
      "loss": 0.2369,
      "num_input_tokens_seen": 29193520,
      "step": 50305
    },
    {
      "epoch": 7.493297587131368,
      "grad_norm": 87.2794418334961,
      "learning_rate": 3.936388893702625e-05,
      "loss": 0.1791,
      "num_input_tokens_seen": 29196240,
      "step": 50310
    },
    {
      "epoch": 7.494042299672326,
      "grad_norm": 0.7468587160110474,
      "learning_rate": 3.936122927607476e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 29199632,
      "step": 50315
    },
    {
      "epoch": 7.494787012213286,
      "grad_norm": 0.03831372410058975,
      "learning_rate": 3.935856937250491e-05,
      "loss": 0.4665,
      "num_input_tokens_seen": 29202576,
      "step": 50320
    },
    {
      "epoch": 7.495531724754245,
      "grad_norm": 4.848414421081543,
      "learning_rate": 3.935590922636161e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 29205456,
      "step": 50325
    },
    {
      "epoch": 7.496276437295204,
      "grad_norm": 16.61423683166504,
      "learning_rate": 3.935324883768983e-05,
      "loss": 0.0135,
      "num_input_tokens_seen": 29208176,
      "step": 50330
    },
    {
      "epoch": 7.497021149836163,
      "grad_norm": 19.358699798583984,
      "learning_rate": 3.9350588206534486e-05,
      "loss": 0.5859,
      "num_input_tokens_seen": 29210992,
      "step": 50335
    },
    {
      "epoch": 7.497765862377123,
      "grad_norm": 22.26408576965332,
      "learning_rate": 3.934792733294054e-05,
      "loss": 0.1361,
      "num_input_tokens_seen": 29213936,
      "step": 50340
    },
    {
      "epoch": 7.498510574918082,
      "grad_norm": 0.4396938681602478,
      "learning_rate": 3.9345266216952945e-05,
      "loss": 0.3993,
      "num_input_tokens_seen": 29216624,
      "step": 50345
    },
    {
      "epoch": 7.499255287459041,
      "grad_norm": 0.016950905323028564,
      "learning_rate": 3.934260485861667e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 29219472,
      "step": 50350
    },
    {
      "epoch": 7.5,
      "grad_norm": 3.1066324710845947,
      "learning_rate": 3.933994325797665e-05,
      "loss": 0.2113,
      "num_input_tokens_seen": 29222384,
      "step": 50355
    },
    {
      "epoch": 7.500744712540959,
      "grad_norm": 0.04653399437665939,
      "learning_rate": 3.9337281415077866e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 29225200,
      "step": 50360
    },
    {
      "epoch": 7.501489425081918,
      "grad_norm": 0.9539743661880493,
      "learning_rate": 3.933461932996528e-05,
      "loss": 0.5169,
      "num_input_tokens_seen": 29227920,
      "step": 50365
    },
    {
      "epoch": 7.502234137622878,
      "grad_norm": 0.025149008259177208,
      "learning_rate": 3.933195700268388e-05,
      "loss": 0.3388,
      "num_input_tokens_seen": 29230480,
      "step": 50370
    },
    {
      "epoch": 7.502978850163837,
      "grad_norm": 33.928977966308594,
      "learning_rate": 3.932929443327862e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 29233200,
      "step": 50375
    },
    {
      "epoch": 7.503723562704796,
      "grad_norm": 0.012285185977816582,
      "learning_rate": 3.932663162179451e-05,
      "loss": 0.0409,
      "num_input_tokens_seen": 29236016,
      "step": 50380
    },
    {
      "epoch": 7.504468275245755,
      "grad_norm": 2.7802345752716064,
      "learning_rate": 3.93239685682765e-05,
      "loss": 0.199,
      "num_input_tokens_seen": 29239184,
      "step": 50385
    },
    {
      "epoch": 7.505212987786714,
      "grad_norm": 13.105061531066895,
      "learning_rate": 3.932130527276961e-05,
      "loss": 0.0814,
      "num_input_tokens_seen": 29242288,
      "step": 50390
    },
    {
      "epoch": 7.505957700327674,
      "grad_norm": 5.701444625854492,
      "learning_rate": 3.931864173531883e-05,
      "loss": 0.0745,
      "num_input_tokens_seen": 29245072,
      "step": 50395
    },
    {
      "epoch": 7.506702412868632,
      "grad_norm": 12.321050643920898,
      "learning_rate": 3.931597795596914e-05,
      "loss": 0.3611,
      "num_input_tokens_seen": 29247920,
      "step": 50400
    },
    {
      "epoch": 7.507447125409592,
      "grad_norm": 0.25581783056259155,
      "learning_rate": 3.931331393476556e-05,
      "loss": 0.0222,
      "num_input_tokens_seen": 29250864,
      "step": 50405
    },
    {
      "epoch": 7.508191837950551,
      "grad_norm": 20.13719940185547,
      "learning_rate": 3.931064967175309e-05,
      "loss": 0.1349,
      "num_input_tokens_seen": 29253520,
      "step": 50410
    },
    {
      "epoch": 7.50893655049151,
      "grad_norm": 0.8712430000305176,
      "learning_rate": 3.9307985166976726e-05,
      "loss": 0.1969,
      "num_input_tokens_seen": 29256336,
      "step": 50415
    },
    {
      "epoch": 7.509681263032469,
      "grad_norm": 35.17997360229492,
      "learning_rate": 3.93053204204815e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 29259344,
      "step": 50420
    },
    {
      "epoch": 7.510425975573429,
      "grad_norm": 12.87114143371582,
      "learning_rate": 3.930265543231243e-05,
      "loss": 0.031,
      "num_input_tokens_seen": 29262160,
      "step": 50425
    },
    {
      "epoch": 7.511170688114388,
      "grad_norm": 20.0533447265625,
      "learning_rate": 3.9299990202514525e-05,
      "loss": 0.3106,
      "num_input_tokens_seen": 29265008,
      "step": 50430
    },
    {
      "epoch": 7.511915400655347,
      "grad_norm": 13.618802070617676,
      "learning_rate": 3.9297324731132826e-05,
      "loss": 0.2127,
      "num_input_tokens_seen": 29268336,
      "step": 50435
    },
    {
      "epoch": 7.512660113196306,
      "grad_norm": 0.03405852988362312,
      "learning_rate": 3.9294659018212356e-05,
      "loss": 0.0535,
      "num_input_tokens_seen": 29271152,
      "step": 50440
    },
    {
      "epoch": 7.513404825737266,
      "grad_norm": 0.016456618905067444,
      "learning_rate": 3.929199306379815e-05,
      "loss": 0.1444,
      "num_input_tokens_seen": 29274224,
      "step": 50445
    },
    {
      "epoch": 7.514149538278224,
      "grad_norm": 4.142333507537842,
      "learning_rate": 3.928932686793524e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 29277168,
      "step": 50450
    },
    {
      "epoch": 7.514894250819184,
      "grad_norm": 14.271358489990234,
      "learning_rate": 3.9286660430668686e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 29279664,
      "step": 50455
    },
    {
      "epoch": 7.515638963360143,
      "grad_norm": 103.76671600341797,
      "learning_rate": 3.928399375204352e-05,
      "loss": 0.0716,
      "num_input_tokens_seen": 29282544,
      "step": 50460
    },
    {
      "epoch": 7.5163836759011025,
      "grad_norm": 1.2114065885543823,
      "learning_rate": 3.9281326832104795e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 29285392,
      "step": 50465
    },
    {
      "epoch": 7.517128388442061,
      "grad_norm": 4.526126861572266,
      "learning_rate": 3.9278659670897564e-05,
      "loss": 0.0122,
      "num_input_tokens_seen": 29288208,
      "step": 50470
    },
    {
      "epoch": 7.517873100983021,
      "grad_norm": 0.025891771540045738,
      "learning_rate": 3.92759922684669e-05,
      "loss": 0.0773,
      "num_input_tokens_seen": 29291312,
      "step": 50475
    },
    {
      "epoch": 7.51861781352398,
      "grad_norm": 0.009619849734008312,
      "learning_rate": 3.927332462485785e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 29294192,
      "step": 50480
    },
    {
      "epoch": 7.519362526064939,
      "grad_norm": 63.62857437133789,
      "learning_rate": 3.92706567401155e-05,
      "loss": 0.2189,
      "num_input_tokens_seen": 29297200,
      "step": 50485
    },
    {
      "epoch": 7.520107238605898,
      "grad_norm": 22.38186264038086,
      "learning_rate": 3.9267988614284886e-05,
      "loss": 0.0565,
      "num_input_tokens_seen": 29299856,
      "step": 50490
    },
    {
      "epoch": 7.520851951146858,
      "grad_norm": 0.11208342760801315,
      "learning_rate": 3.926532024741113e-05,
      "loss": 0.3869,
      "num_input_tokens_seen": 29302896,
      "step": 50495
    },
    {
      "epoch": 7.521596663687816,
      "grad_norm": 4.247938632965088,
      "learning_rate": 3.926265163953927e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 29306032,
      "step": 50500
    },
    {
      "epoch": 7.522341376228776,
      "grad_norm": 2.5219576358795166,
      "learning_rate": 3.925998279071441e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 29309392,
      "step": 50505
    },
    {
      "epoch": 7.523086088769735,
      "grad_norm": 4.448805332183838,
      "learning_rate": 3.9257313700981634e-05,
      "loss": 0.0474,
      "num_input_tokens_seen": 29312272,
      "step": 50510
    },
    {
      "epoch": 7.5238308013106945,
      "grad_norm": 1.6375845670700073,
      "learning_rate": 3.9254644370386036e-05,
      "loss": 0.1788,
      "num_input_tokens_seen": 29315344,
      "step": 50515
    },
    {
      "epoch": 7.524575513851653,
      "grad_norm": 0.2825787663459778,
      "learning_rate": 3.925197479897271e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 29318032,
      "step": 50520
    },
    {
      "epoch": 7.525320226392612,
      "grad_norm": 9.80058479309082,
      "learning_rate": 3.924930498678675e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 29321520,
      "step": 50525
    },
    {
      "epoch": 7.526064938933572,
      "grad_norm": 0.08906019479036331,
      "learning_rate": 3.924663493387326e-05,
      "loss": 0.0414,
      "num_input_tokens_seen": 29324464,
      "step": 50530
    },
    {
      "epoch": 7.526809651474531,
      "grad_norm": 0.09603594988584518,
      "learning_rate": 3.924396464027736e-05,
      "loss": 0.3517,
      "num_input_tokens_seen": 29327216,
      "step": 50535
    },
    {
      "epoch": 7.52755436401549,
      "grad_norm": 100.4808349609375,
      "learning_rate": 3.924129410604416e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 29330160,
      "step": 50540
    },
    {
      "epoch": 7.528299076556449,
      "grad_norm": 6.2217326164245605,
      "learning_rate": 3.923862333121876e-05,
      "loss": 0.0314,
      "num_input_tokens_seen": 29333136,
      "step": 50545
    },
    {
      "epoch": 7.5290437890974085,
      "grad_norm": 1.4389479160308838,
      "learning_rate": 3.92359523158463e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 29336048,
      "step": 50550
    },
    {
      "epoch": 7.529788501638367,
      "grad_norm": 0.4116227924823761,
      "learning_rate": 3.923328105997188e-05,
      "loss": 0.2711,
      "num_input_tokens_seen": 29338672,
      "step": 50555
    },
    {
      "epoch": 7.530533214179327,
      "grad_norm": 35.35844421386719,
      "learning_rate": 3.923060956364066e-05,
      "loss": 0.215,
      "num_input_tokens_seen": 29341328,
      "step": 50560
    },
    {
      "epoch": 7.531277926720286,
      "grad_norm": 53.68083572387695,
      "learning_rate": 3.922793782689774e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 29344304,
      "step": 50565
    },
    {
      "epoch": 7.532022639261245,
      "grad_norm": 5.860854625701904,
      "learning_rate": 3.922526584978829e-05,
      "loss": 0.5774,
      "num_input_tokens_seen": 29347312,
      "step": 50570
    },
    {
      "epoch": 7.532767351802204,
      "grad_norm": 0.004144877661019564,
      "learning_rate": 3.922259363235741e-05,
      "loss": 0.2417,
      "num_input_tokens_seen": 29350256,
      "step": 50575
    },
    {
      "epoch": 7.533512064343164,
      "grad_norm": 114.85043334960938,
      "learning_rate": 3.921992117465028e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 29353328,
      "step": 50580
    },
    {
      "epoch": 7.534256776884122,
      "grad_norm": 0.04771285876631737,
      "learning_rate": 3.921724847671202e-05,
      "loss": 0.2992,
      "num_input_tokens_seen": 29356464,
      "step": 50585
    },
    {
      "epoch": 7.535001489425082,
      "grad_norm": 24.989151000976562,
      "learning_rate": 3.9214575538587804e-05,
      "loss": 0.3797,
      "num_input_tokens_seen": 29359312,
      "step": 50590
    },
    {
      "epoch": 7.535746201966041,
      "grad_norm": 5.978163719177246,
      "learning_rate": 3.921190236032278e-05,
      "loss": 0.0831,
      "num_input_tokens_seen": 29362128,
      "step": 50595
    },
    {
      "epoch": 7.5364909145070005,
      "grad_norm": 11.5370512008667,
      "learning_rate": 3.920922894196212e-05,
      "loss": 0.1489,
      "num_input_tokens_seen": 29364976,
      "step": 50600
    },
    {
      "epoch": 7.537235627047959,
      "grad_norm": 0.26845309138298035,
      "learning_rate": 3.920655528355097e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 29367888,
      "step": 50605
    },
    {
      "epoch": 7.537980339588919,
      "grad_norm": 33.94796371459961,
      "learning_rate": 3.920388138513451e-05,
      "loss": 0.1059,
      "num_input_tokens_seen": 29370960,
      "step": 50610
    },
    {
      "epoch": 7.538725052129878,
      "grad_norm": 4.830838203430176,
      "learning_rate": 3.920120724675791e-05,
      "loss": 0.0981,
      "num_input_tokens_seen": 29373680,
      "step": 50615
    },
    {
      "epoch": 7.539469764670837,
      "grad_norm": 6.584690093994141,
      "learning_rate": 3.9198532868466345e-05,
      "loss": 0.0646,
      "num_input_tokens_seen": 29376528,
      "step": 50620
    },
    {
      "epoch": 7.540214477211796,
      "grad_norm": 33.073036193847656,
      "learning_rate": 3.919585825030499e-05,
      "loss": 0.0837,
      "num_input_tokens_seen": 29379344,
      "step": 50625
    },
    {
      "epoch": 7.540959189752756,
      "grad_norm": 1.8202241659164429,
      "learning_rate": 3.9193183392319054e-05,
      "loss": 0.1332,
      "num_input_tokens_seen": 29382384,
      "step": 50630
    },
    {
      "epoch": 7.5417039022937145,
      "grad_norm": 1.3667861223220825,
      "learning_rate": 3.9190508294553694e-05,
      "loss": 0.0377,
      "num_input_tokens_seen": 29385360,
      "step": 50635
    },
    {
      "epoch": 7.542448614834674,
      "grad_norm": 0.11740922927856445,
      "learning_rate": 3.918783295705414e-05,
      "loss": 0.108,
      "num_input_tokens_seen": 29388240,
      "step": 50640
    },
    {
      "epoch": 7.543193327375633,
      "grad_norm": 20.001461029052734,
      "learning_rate": 3.9185157379865553e-05,
      "loss": 0.2165,
      "num_input_tokens_seen": 29390832,
      "step": 50645
    },
    {
      "epoch": 7.5439380399165925,
      "grad_norm": 41.07127380371094,
      "learning_rate": 3.9182481563033155e-05,
      "loss": 0.2473,
      "num_input_tokens_seen": 29393648,
      "step": 50650
    },
    {
      "epoch": 7.544682752457551,
      "grad_norm": 23.86343765258789,
      "learning_rate": 3.917980550660214e-05,
      "loss": 0.011,
      "num_input_tokens_seen": 29397008,
      "step": 50655
    },
    {
      "epoch": 7.545427464998511,
      "grad_norm": 0.047199949622154236,
      "learning_rate": 3.9177129210617725e-05,
      "loss": 0.109,
      "num_input_tokens_seen": 29399856,
      "step": 50660
    },
    {
      "epoch": 7.54617217753947,
      "grad_norm": 0.005302126985043287,
      "learning_rate": 3.9174452675125115e-05,
      "loss": 0.2522,
      "num_input_tokens_seen": 29402640,
      "step": 50665
    },
    {
      "epoch": 7.546916890080429,
      "grad_norm": 0.7491108179092407,
      "learning_rate": 3.917177590016954e-05,
      "loss": 0.1747,
      "num_input_tokens_seen": 29405392,
      "step": 50670
    },
    {
      "epoch": 7.547661602621388,
      "grad_norm": 0.07226745784282684,
      "learning_rate": 3.9169098885796216e-05,
      "loss": 0.5513,
      "num_input_tokens_seen": 29408560,
      "step": 50675
    },
    {
      "epoch": 7.548406315162348,
      "grad_norm": 57.39249801635742,
      "learning_rate": 3.916642163205036e-05,
      "loss": 0.3135,
      "num_input_tokens_seen": 29411472,
      "step": 50680
    },
    {
      "epoch": 7.5491510277033065,
      "grad_norm": 0.6650549173355103,
      "learning_rate": 3.916374413897722e-05,
      "loss": 0.0581,
      "num_input_tokens_seen": 29414352,
      "step": 50685
    },
    {
      "epoch": 7.549895740244265,
      "grad_norm": 30.795236587524414,
      "learning_rate": 3.916106640662201e-05,
      "loss": 0.0786,
      "num_input_tokens_seen": 29417264,
      "step": 50690
    },
    {
      "epoch": 7.550640452785225,
      "grad_norm": 0.05388984829187393,
      "learning_rate": 3.915838843502998e-05,
      "loss": 0.2269,
      "num_input_tokens_seen": 29420432,
      "step": 50695
    },
    {
      "epoch": 7.5513851653261845,
      "grad_norm": 0.034909218549728394,
      "learning_rate": 3.9155710224246365e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 29423344,
      "step": 50700
    },
    {
      "epoch": 7.552129877867143,
      "grad_norm": 18.088899612426758,
      "learning_rate": 3.915303177431641e-05,
      "loss": 0.0866,
      "num_input_tokens_seen": 29426128,
      "step": 50705
    },
    {
      "epoch": 7.552874590408102,
      "grad_norm": 0.00835801288485527,
      "learning_rate": 3.915035308528537e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 29429296,
      "step": 50710
    },
    {
      "epoch": 7.553619302949062,
      "grad_norm": 0.011616635136306286,
      "learning_rate": 3.91476741571985e-05,
      "loss": 0.1088,
      "num_input_tokens_seen": 29432176,
      "step": 50715
    },
    {
      "epoch": 7.554364015490021,
      "grad_norm": 0.3508789539337158,
      "learning_rate": 3.914499499010105e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 29435024,
      "step": 50720
    },
    {
      "epoch": 7.55510872803098,
      "grad_norm": 0.7494950294494629,
      "learning_rate": 3.9142315584038284e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 29437872,
      "step": 50725
    },
    {
      "epoch": 7.555853440571939,
      "grad_norm": 8.24968147277832,
      "learning_rate": 3.913963593905548e-05,
      "loss": 0.2349,
      "num_input_tokens_seen": 29440752,
      "step": 50730
    },
    {
      "epoch": 7.5565981531128985,
      "grad_norm": 31.18329620361328,
      "learning_rate": 3.913695605519788e-05,
      "loss": 0.2767,
      "num_input_tokens_seen": 29443472,
      "step": 50735
    },
    {
      "epoch": 7.557342865653857,
      "grad_norm": 21.896320343017578,
      "learning_rate": 3.913427593251079e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 29446192,
      "step": 50740
    },
    {
      "epoch": 7.558087578194817,
      "grad_norm": 0.0325472429394722,
      "learning_rate": 3.913159557103947e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 29448816,
      "step": 50745
    },
    {
      "epoch": 7.558832290735776,
      "grad_norm": 1.732781171798706,
      "learning_rate": 3.912891497082921e-05,
      "loss": 0.0534,
      "num_input_tokens_seen": 29451856,
      "step": 50750
    },
    {
      "epoch": 7.559577003276735,
      "grad_norm": 0.01815587282180786,
      "learning_rate": 3.9126234131925285e-05,
      "loss": 0.1214,
      "num_input_tokens_seen": 29454512,
      "step": 50755
    },
    {
      "epoch": 7.560321715817694,
      "grad_norm": 0.14088968932628632,
      "learning_rate": 3.9123553054372994e-05,
      "loss": 0.3315,
      "num_input_tokens_seen": 29457264,
      "step": 50760
    },
    {
      "epoch": 7.561066428358654,
      "grad_norm": 1.517935872077942,
      "learning_rate": 3.912087173821762e-05,
      "loss": 0.1458,
      "num_input_tokens_seen": 29460016,
      "step": 50765
    },
    {
      "epoch": 7.5618111408996125,
      "grad_norm": 34.39342498779297,
      "learning_rate": 3.911819018350449e-05,
      "loss": 0.6825,
      "num_input_tokens_seen": 29462992,
      "step": 50770
    },
    {
      "epoch": 7.562555853440572,
      "grad_norm": 20.277751922607422,
      "learning_rate": 3.9115508390278864e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 29465840,
      "step": 50775
    },
    {
      "epoch": 7.563300565981531,
      "grad_norm": 22.424009323120117,
      "learning_rate": 3.9112826358586086e-05,
      "loss": 0.1966,
      "num_input_tokens_seen": 29469136,
      "step": 50780
    },
    {
      "epoch": 7.5640452785224905,
      "grad_norm": 18.59332275390625,
      "learning_rate": 3.9110144088471437e-05,
      "loss": 0.0376,
      "num_input_tokens_seen": 29472048,
      "step": 50785
    },
    {
      "epoch": 7.564789991063449,
      "grad_norm": 0.04977170750498772,
      "learning_rate": 3.9107461579980255e-05,
      "loss": 0.0832,
      "num_input_tokens_seen": 29474640,
      "step": 50790
    },
    {
      "epoch": 7.565534703604409,
      "grad_norm": 0.0060796914622187614,
      "learning_rate": 3.910477883315785e-05,
      "loss": 0.1704,
      "num_input_tokens_seen": 29477584,
      "step": 50795
    },
    {
      "epoch": 7.566279416145368,
      "grad_norm": 0.0451367013156414,
      "learning_rate": 3.910209584804953e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 29480688,
      "step": 50800
    },
    {
      "epoch": 7.567024128686327,
      "grad_norm": 15.27260971069336,
      "learning_rate": 3.909941262470064e-05,
      "loss": 0.0913,
      "num_input_tokens_seen": 29483280,
      "step": 50805
    },
    {
      "epoch": 7.567768841227286,
      "grad_norm": 0.00888789352029562,
      "learning_rate": 3.909672916315651e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 29485936,
      "step": 50810
    },
    {
      "epoch": 7.568513553768246,
      "grad_norm": 3.6600403785705566,
      "learning_rate": 3.909404546346246e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 29488816,
      "step": 50815
    },
    {
      "epoch": 7.5692582663092045,
      "grad_norm": 21.80812644958496,
      "learning_rate": 3.909136152566384e-05,
      "loss": 0.3545,
      "num_input_tokens_seen": 29491760,
      "step": 50820
    },
    {
      "epoch": 7.570002978850164,
      "grad_norm": 0.03061296045780182,
      "learning_rate": 3.908867734980599e-05,
      "loss": 0.2106,
      "num_input_tokens_seen": 29494672,
      "step": 50825
    },
    {
      "epoch": 7.570747691391123,
      "grad_norm": 0.022922752425074577,
      "learning_rate": 3.908599293593425e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 29497904,
      "step": 50830
    },
    {
      "epoch": 7.571492403932083,
      "grad_norm": 52.35313415527344,
      "learning_rate": 3.908330828409397e-05,
      "loss": 0.0618,
      "num_input_tokens_seen": 29500720,
      "step": 50835
    },
    {
      "epoch": 7.572237116473041,
      "grad_norm": 55.1231689453125,
      "learning_rate": 3.908062339433052e-05,
      "loss": 0.0906,
      "num_input_tokens_seen": 29503664,
      "step": 50840
    },
    {
      "epoch": 7.572981829014001,
      "grad_norm": 29.606292724609375,
      "learning_rate": 3.907793826668925e-05,
      "loss": 0.1318,
      "num_input_tokens_seen": 29506800,
      "step": 50845
    },
    {
      "epoch": 7.57372654155496,
      "grad_norm": 60.18722915649414,
      "learning_rate": 3.907525290121552e-05,
      "loss": 0.1354,
      "num_input_tokens_seen": 29509680,
      "step": 50850
    },
    {
      "epoch": 7.5744712540959185,
      "grad_norm": 0.013927072286605835,
      "learning_rate": 3.9072567297954694e-05,
      "loss": 0.2802,
      "num_input_tokens_seen": 29512656,
      "step": 50855
    },
    {
      "epoch": 7.575215966636878,
      "grad_norm": 0.11410871148109436,
      "learning_rate": 3.906988145695215e-05,
      "loss": 0.2985,
      "num_input_tokens_seen": 29515696,
      "step": 50860
    },
    {
      "epoch": 7.575960679177838,
      "grad_norm": 0.13939663767814636,
      "learning_rate": 3.906719537825325e-05,
      "loss": 0.0957,
      "num_input_tokens_seen": 29518512,
      "step": 50865
    },
    {
      "epoch": 7.5767053917187965,
      "grad_norm": 0.11009347438812256,
      "learning_rate": 3.906450906190339e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 29521616,
      "step": 50870
    },
    {
      "epoch": 7.577450104259755,
      "grad_norm": 32.65087127685547,
      "learning_rate": 3.9061822507947945e-05,
      "loss": 0.031,
      "num_input_tokens_seen": 29524592,
      "step": 50875
    },
    {
      "epoch": 7.578194816800715,
      "grad_norm": 0.09775978326797485,
      "learning_rate": 3.9059135716432294e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 29527472,
      "step": 50880
    },
    {
      "epoch": 7.578939529341675,
      "grad_norm": 0.010197685100138187,
      "learning_rate": 3.905644868740184e-05,
      "loss": 0.23,
      "num_input_tokens_seen": 29530512,
      "step": 50885
    },
    {
      "epoch": 7.579684241882633,
      "grad_norm": 0.13048648834228516,
      "learning_rate": 3.905376142090197e-05,
      "loss": 0.2199,
      "num_input_tokens_seen": 29533488,
      "step": 50890
    },
    {
      "epoch": 7.580428954423592,
      "grad_norm": 0.020492367446422577,
      "learning_rate": 3.9051073916978084e-05,
      "loss": 0.1295,
      "num_input_tokens_seen": 29536272,
      "step": 50895
    },
    {
      "epoch": 7.581173666964552,
      "grad_norm": 0.9527580738067627,
      "learning_rate": 3.904838617567558e-05,
      "loss": 0.1757,
      "num_input_tokens_seen": 29539056,
      "step": 50900
    },
    {
      "epoch": 7.5819183795055105,
      "grad_norm": 0.09924373775720596,
      "learning_rate": 3.904569819703988e-05,
      "loss": 0.1837,
      "num_input_tokens_seen": 29541776,
      "step": 50905
    },
    {
      "epoch": 7.58266309204647,
      "grad_norm": 0.08743322640657425,
      "learning_rate": 3.9043009981116376e-05,
      "loss": 0.5996,
      "num_input_tokens_seen": 29544784,
      "step": 50910
    },
    {
      "epoch": 7.583407804587429,
      "grad_norm": 17.11634635925293,
      "learning_rate": 3.9040321527950497e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 29547664,
      "step": 50915
    },
    {
      "epoch": 7.584152517128389,
      "grad_norm": 26.051836013793945,
      "learning_rate": 3.903763283758765e-05,
      "loss": 0.1971,
      "num_input_tokens_seen": 29550480,
      "step": 50920
    },
    {
      "epoch": 7.584897229669347,
      "grad_norm": 0.006648671813309193,
      "learning_rate": 3.903494391007327e-05,
      "loss": 0.1012,
      "num_input_tokens_seen": 29553200,
      "step": 50925
    },
    {
      "epoch": 7.585641942210307,
      "grad_norm": 0.20524725317955017,
      "learning_rate": 3.9032254745452775e-05,
      "loss": 0.2793,
      "num_input_tokens_seen": 29556400,
      "step": 50930
    },
    {
      "epoch": 7.586386654751266,
      "grad_norm": 16.16931915283203,
      "learning_rate": 3.902956534377159e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 29559344,
      "step": 50935
    },
    {
      "epoch": 7.587131367292225,
      "grad_norm": 0.024707959964871407,
      "learning_rate": 3.902687570507517e-05,
      "loss": 0.3168,
      "num_input_tokens_seen": 29562000,
      "step": 50940
    },
    {
      "epoch": 7.587876079833184,
      "grad_norm": 0.059436146169900894,
      "learning_rate": 3.902418582940893e-05,
      "loss": 0.1327,
      "num_input_tokens_seen": 29565008,
      "step": 50945
    },
    {
      "epoch": 7.588620792374144,
      "grad_norm": 31.012798309326172,
      "learning_rate": 3.902149571681833e-05,
      "loss": 0.0172,
      "num_input_tokens_seen": 29567792,
      "step": 50950
    },
    {
      "epoch": 7.5893655049151025,
      "grad_norm": 110.86296844482422,
      "learning_rate": 3.901880536734881e-05,
      "loss": 0.0227,
      "num_input_tokens_seen": 29570960,
      "step": 50955
    },
    {
      "epoch": 7.590110217456062,
      "grad_norm": 20.15406608581543,
      "learning_rate": 3.901611478104582e-05,
      "loss": 0.0923,
      "num_input_tokens_seen": 29574160,
      "step": 50960
    },
    {
      "epoch": 7.590854929997021,
      "grad_norm": 0.22862862050533295,
      "learning_rate": 3.901342395795482e-05,
      "loss": 0.1164,
      "num_input_tokens_seen": 29577456,
      "step": 50965
    },
    {
      "epoch": 7.591599642537981,
      "grad_norm": 36.038448333740234,
      "learning_rate": 3.901073289812126e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 29580368,
      "step": 50970
    },
    {
      "epoch": 7.592344355078939,
      "grad_norm": 23.284133911132812,
      "learning_rate": 3.900804160159061e-05,
      "loss": 0.1932,
      "num_input_tokens_seen": 29583344,
      "step": 50975
    },
    {
      "epoch": 7.593089067619899,
      "grad_norm": 49.531776428222656,
      "learning_rate": 3.900535006840833e-05,
      "loss": 0.2626,
      "num_input_tokens_seen": 29586256,
      "step": 50980
    },
    {
      "epoch": 7.593833780160858,
      "grad_norm": 0.054959509521722794,
      "learning_rate": 3.90026582986199e-05,
      "loss": 0.0866,
      "num_input_tokens_seen": 29589584,
      "step": 50985
    },
    {
      "epoch": 7.594578492701817,
      "grad_norm": 22.70568084716797,
      "learning_rate": 3.899996629227079e-05,
      "loss": 0.1789,
      "num_input_tokens_seen": 29592752,
      "step": 50990
    },
    {
      "epoch": 7.595323205242776,
      "grad_norm": 0.06892824172973633,
      "learning_rate": 3.899727404940647e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 29595760,
      "step": 50995
    },
    {
      "epoch": 7.596067917783736,
      "grad_norm": 0.14561310410499573,
      "learning_rate": 3.899458157007244e-05,
      "loss": 0.3158,
      "num_input_tokens_seen": 29598480,
      "step": 51000
    },
    {
      "epoch": 7.596812630324695,
      "grad_norm": 6.401591777801514,
      "learning_rate": 3.899188885431419e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 29601424,
      "step": 51005
    },
    {
      "epoch": 7.597557342865654,
      "grad_norm": 54.60130310058594,
      "learning_rate": 3.898919590217718e-05,
      "loss": 0.0153,
      "num_input_tokens_seen": 29604432,
      "step": 51010
    },
    {
      "epoch": 7.598302055406613,
      "grad_norm": 0.42586177587509155,
      "learning_rate": 3.898650271370692e-05,
      "loss": 0.0293,
      "num_input_tokens_seen": 29607216,
      "step": 51015
    },
    {
      "epoch": 7.599046767947573,
      "grad_norm": 88.23828125,
      "learning_rate": 3.898380928894892e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 29610480,
      "step": 51020
    },
    {
      "epoch": 7.599791480488531,
      "grad_norm": 0.0927882269024849,
      "learning_rate": 3.8981115627948675e-05,
      "loss": 0.248,
      "num_input_tokens_seen": 29613744,
      "step": 51025
    },
    {
      "epoch": 7.600536193029491,
      "grad_norm": 0.5764244198799133,
      "learning_rate": 3.897842173075169e-05,
      "loss": 0.1154,
      "num_input_tokens_seen": 29616880,
      "step": 51030
    },
    {
      "epoch": 7.60128090557045,
      "grad_norm": 0.2261393964290619,
      "learning_rate": 3.8975727597403475e-05,
      "loss": 0.2211,
      "num_input_tokens_seen": 29620016,
      "step": 51035
    },
    {
      "epoch": 7.6020256181114085,
      "grad_norm": 0.04080921784043312,
      "learning_rate": 3.8973033227949554e-05,
      "loss": 0.1138,
      "num_input_tokens_seen": 29622928,
      "step": 51040
    },
    {
      "epoch": 7.602770330652368,
      "grad_norm": 14.641067504882812,
      "learning_rate": 3.897033862243543e-05,
      "loss": 0.1822,
      "num_input_tokens_seen": 29625680,
      "step": 51045
    },
    {
      "epoch": 7.603515043193328,
      "grad_norm": 0.580019474029541,
      "learning_rate": 3.896764378090664e-05,
      "loss": 0.046,
      "num_input_tokens_seen": 29628656,
      "step": 51050
    },
    {
      "epoch": 7.604259755734287,
      "grad_norm": 0.6403724551200867,
      "learning_rate": 3.89649487034087e-05,
      "loss": 0.2054,
      "num_input_tokens_seen": 29631408,
      "step": 51055
    },
    {
      "epoch": 7.605004468275245,
      "grad_norm": 0.017358822748064995,
      "learning_rate": 3.8962253389987145e-05,
      "loss": 0.2559,
      "num_input_tokens_seen": 29634096,
      "step": 51060
    },
    {
      "epoch": 7.605749180816205,
      "grad_norm": 0.030234679579734802,
      "learning_rate": 3.895955784068751e-05,
      "loss": 0.1623,
      "num_input_tokens_seen": 29636848,
      "step": 51065
    },
    {
      "epoch": 7.606493893357164,
      "grad_norm": 45.04128646850586,
      "learning_rate": 3.8956862055555335e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 29639952,
      "step": 51070
    },
    {
      "epoch": 7.607238605898123,
      "grad_norm": 0.03451826050877571,
      "learning_rate": 3.895416603463616e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 29642768,
      "step": 51075
    },
    {
      "epoch": 7.607983318439082,
      "grad_norm": 0.038219161331653595,
      "learning_rate": 3.895146977797553e-05,
      "loss": 0.087,
      "num_input_tokens_seen": 29645488,
      "step": 51080
    },
    {
      "epoch": 7.608728030980042,
      "grad_norm": 0.02698681131005287,
      "learning_rate": 3.8948773285619e-05,
      "loss": 0.0805,
      "num_input_tokens_seen": 29648208,
      "step": 51085
    },
    {
      "epoch": 7.609472743521001,
      "grad_norm": 0.02833249792456627,
      "learning_rate": 3.894607655761212e-05,
      "loss": 0.1052,
      "num_input_tokens_seen": 29651472,
      "step": 51090
    },
    {
      "epoch": 7.61021745606196,
      "grad_norm": 0.02217981591820717,
      "learning_rate": 3.894337959400045e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 29654736,
      "step": 51095
    },
    {
      "epoch": 7.610962168602919,
      "grad_norm": 0.0033940530847758055,
      "learning_rate": 3.894068239482956e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 29657776,
      "step": 51100
    },
    {
      "epoch": 7.611706881143879,
      "grad_norm": 14.88992977142334,
      "learning_rate": 3.8937984960145004e-05,
      "loss": 0.1011,
      "num_input_tokens_seen": 29660272,
      "step": 51105
    },
    {
      "epoch": 7.612451593684837,
      "grad_norm": 0.01900852471590042,
      "learning_rate": 3.893528728999236e-05,
      "loss": 0.2315,
      "num_input_tokens_seen": 29663344,
      "step": 51110
    },
    {
      "epoch": 7.613196306225797,
      "grad_norm": 0.1358998417854309,
      "learning_rate": 3.893258938441719e-05,
      "loss": 0.1197,
      "num_input_tokens_seen": 29666480,
      "step": 51115
    },
    {
      "epoch": 7.613941018766756,
      "grad_norm": 1.7498699426651,
      "learning_rate": 3.89298912434651e-05,
      "loss": 0.2549,
      "num_input_tokens_seen": 29669104,
      "step": 51120
    },
    {
      "epoch": 7.614685731307715,
      "grad_norm": 0.08133703470230103,
      "learning_rate": 3.892719286718165e-05,
      "loss": 0.0753,
      "num_input_tokens_seen": 29672048,
      "step": 51125
    },
    {
      "epoch": 7.615430443848674,
      "grad_norm": 5.103387832641602,
      "learning_rate": 3.892449425561243e-05,
      "loss": 0.0184,
      "num_input_tokens_seen": 29675120,
      "step": 51130
    },
    {
      "epoch": 7.616175156389634,
      "grad_norm": 0.17229622602462769,
      "learning_rate": 3.892179540880303e-05,
      "loss": 0.2889,
      "num_input_tokens_seen": 29677712,
      "step": 51135
    },
    {
      "epoch": 7.616919868930593,
      "grad_norm": 0.034636471420526505,
      "learning_rate": 3.891909632679904e-05,
      "loss": 0.1521,
      "num_input_tokens_seen": 29680464,
      "step": 51140
    },
    {
      "epoch": 7.617664581471552,
      "grad_norm": 10.212747573852539,
      "learning_rate": 3.8916397009646076e-05,
      "loss": 0.2482,
      "num_input_tokens_seen": 29683216,
      "step": 51145
    },
    {
      "epoch": 7.618409294012511,
      "grad_norm": 0.33313965797424316,
      "learning_rate": 3.891369745738972e-05,
      "loss": 0.0111,
      "num_input_tokens_seen": 29685936,
      "step": 51150
    },
    {
      "epoch": 7.619154006553471,
      "grad_norm": 0.09118734300136566,
      "learning_rate": 3.8910997670075593e-05,
      "loss": 0.1227,
      "num_input_tokens_seen": 29688624,
      "step": 51155
    },
    {
      "epoch": 7.619898719094429,
      "grad_norm": 0.2724660336971283,
      "learning_rate": 3.890829764774929e-05,
      "loss": 0.0227,
      "num_input_tokens_seen": 29691472,
      "step": 51160
    },
    {
      "epoch": 7.620643431635389,
      "grad_norm": 12.474639892578125,
      "learning_rate": 3.8905597390456446e-05,
      "loss": 0.3783,
      "num_input_tokens_seen": 29694384,
      "step": 51165
    },
    {
      "epoch": 7.621388144176348,
      "grad_norm": 15.025553703308105,
      "learning_rate": 3.890289689824266e-05,
      "loss": 0.2278,
      "num_input_tokens_seen": 29697328,
      "step": 51170
    },
    {
      "epoch": 7.6221328567173074,
      "grad_norm": 41.89923095703125,
      "learning_rate": 3.890019617115357e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 29700336,
      "step": 51175
    },
    {
      "epoch": 7.622877569258266,
      "grad_norm": 0.0662815049290657,
      "learning_rate": 3.889749520923478e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 29703184,
      "step": 51180
    },
    {
      "epoch": 7.623622281799226,
      "grad_norm": 0.4523743987083435,
      "learning_rate": 3.889479401253194e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 29705872,
      "step": 51185
    },
    {
      "epoch": 7.624366994340185,
      "grad_norm": 0.0067275334149599075,
      "learning_rate": 3.8892092581090675e-05,
      "loss": 0.1981,
      "num_input_tokens_seen": 29708592,
      "step": 51190
    },
    {
      "epoch": 7.625111706881144,
      "grad_norm": 12.934100151062012,
      "learning_rate": 3.888939091495663e-05,
      "loss": 0.3161,
      "num_input_tokens_seen": 29711408,
      "step": 51195
    },
    {
      "epoch": 7.625856419422103,
      "grad_norm": 0.3831154406070709,
      "learning_rate": 3.888668901417544e-05,
      "loss": 0.3683,
      "num_input_tokens_seen": 29714032,
      "step": 51200
    },
    {
      "epoch": 7.626601131963062,
      "grad_norm": 16.649444580078125,
      "learning_rate": 3.888398687879274e-05,
      "loss": 0.5331,
      "num_input_tokens_seen": 29716816,
      "step": 51205
    },
    {
      "epoch": 7.627345844504021,
      "grad_norm": 0.32522204518318176,
      "learning_rate": 3.888128450885421e-05,
      "loss": 0.3666,
      "num_input_tokens_seen": 29719664,
      "step": 51210
    },
    {
      "epoch": 7.628090557044981,
      "grad_norm": 0.03603125736117363,
      "learning_rate": 3.887858190440549e-05,
      "loss": 0.3385,
      "num_input_tokens_seen": 29722320,
      "step": 51215
    },
    {
      "epoch": 7.62883526958594,
      "grad_norm": 0.08245710283517838,
      "learning_rate": 3.8875879065492216e-05,
      "loss": 0.1333,
      "num_input_tokens_seen": 29724944,
      "step": 51220
    },
    {
      "epoch": 7.629579982126899,
      "grad_norm": 2.003490686416626,
      "learning_rate": 3.887317599216008e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 29727792,
      "step": 51225
    },
    {
      "epoch": 7.630324694667858,
      "grad_norm": 0.09162788838148117,
      "learning_rate": 3.887047268445473e-05,
      "loss": 0.033,
      "num_input_tokens_seen": 29730992,
      "step": 51230
    },
    {
      "epoch": 7.631069407208818,
      "grad_norm": 0.02794656530022621,
      "learning_rate": 3.8867769142421844e-05,
      "loss": 0.0987,
      "num_input_tokens_seen": 29733968,
      "step": 51235
    },
    {
      "epoch": 7.631814119749777,
      "grad_norm": 0.03416149318218231,
      "learning_rate": 3.886506536610709e-05,
      "loss": 0.1905,
      "num_input_tokens_seen": 29736688,
      "step": 51240
    },
    {
      "epoch": 7.632558832290735,
      "grad_norm": 0.010269666090607643,
      "learning_rate": 3.8862361355556156e-05,
      "loss": 0.1027,
      "num_input_tokens_seen": 29739280,
      "step": 51245
    },
    {
      "epoch": 7.633303544831695,
      "grad_norm": 24.049341201782227,
      "learning_rate": 3.8859657110814704e-05,
      "loss": 0.3742,
      "num_input_tokens_seen": 29742160,
      "step": 51250
    },
    {
      "epoch": 7.634048257372654,
      "grad_norm": 14.20670223236084,
      "learning_rate": 3.885695263192844e-05,
      "loss": 0.2591,
      "num_input_tokens_seen": 29745168,
      "step": 51255
    },
    {
      "epoch": 7.6347929699136134,
      "grad_norm": 27.86812400817871,
      "learning_rate": 3.885424791894305e-05,
      "loss": 0.0861,
      "num_input_tokens_seen": 29748176,
      "step": 51260
    },
    {
      "epoch": 7.635537682454572,
      "grad_norm": 0.26605862379074097,
      "learning_rate": 3.885154297190421e-05,
      "loss": 0.1936,
      "num_input_tokens_seen": 29751216,
      "step": 51265
    },
    {
      "epoch": 7.636282394995532,
      "grad_norm": 0.06898495554924011,
      "learning_rate": 3.884883779085764e-05,
      "loss": 0.0378,
      "num_input_tokens_seen": 29754384,
      "step": 51270
    },
    {
      "epoch": 7.637027107536491,
      "grad_norm": 137.6717071533203,
      "learning_rate": 3.884613237584902e-05,
      "loss": 0.3825,
      "num_input_tokens_seen": 29757200,
      "step": 51275
    },
    {
      "epoch": 7.63777182007745,
      "grad_norm": 0.007797268219292164,
      "learning_rate": 3.884342672692407e-05,
      "loss": 0.0324,
      "num_input_tokens_seen": 29760304,
      "step": 51280
    },
    {
      "epoch": 7.638516532618409,
      "grad_norm": 0.13155175745487213,
      "learning_rate": 3.88407208441285e-05,
      "loss": 0.2177,
      "num_input_tokens_seen": 29763248,
      "step": 51285
    },
    {
      "epoch": 7.639261245159369,
      "grad_norm": 5.613964557647705,
      "learning_rate": 3.883801472750802e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 29765872,
      "step": 51290
    },
    {
      "epoch": 7.640005957700327,
      "grad_norm": 46.055442810058594,
      "learning_rate": 3.8835308377108344e-05,
      "loss": 0.2333,
      "num_input_tokens_seen": 29768688,
      "step": 51295
    },
    {
      "epoch": 7.640750670241287,
      "grad_norm": 0.12274197489023209,
      "learning_rate": 3.883260179297519e-05,
      "loss": 0.3249,
      "num_input_tokens_seen": 29771664,
      "step": 51300
    },
    {
      "epoch": 7.641495382782246,
      "grad_norm": 0.09758135676383972,
      "learning_rate": 3.882989497515429e-05,
      "loss": 0.2561,
      "num_input_tokens_seen": 29774512,
      "step": 51305
    },
    {
      "epoch": 7.6422400953232055,
      "grad_norm": 81.73311614990234,
      "learning_rate": 3.8827187923691365e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 29777616,
      "step": 51310
    },
    {
      "epoch": 7.642984807864164,
      "grad_norm": 0.14039653539657593,
      "learning_rate": 3.882448063863216e-05,
      "loss": 0.0385,
      "num_input_tokens_seen": 29780688,
      "step": 51315
    },
    {
      "epoch": 7.643729520405124,
      "grad_norm": 1.0679856538772583,
      "learning_rate": 3.882177312002241e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 29783568,
      "step": 51320
    },
    {
      "epoch": 7.644474232946083,
      "grad_norm": 0.09378333389759064,
      "learning_rate": 3.881906536790784e-05,
      "loss": 0.0657,
      "num_input_tokens_seen": 29786320,
      "step": 51325
    },
    {
      "epoch": 7.645218945487042,
      "grad_norm": 54.92086410522461,
      "learning_rate": 3.881635738233421e-05,
      "loss": 0.1205,
      "num_input_tokens_seen": 29788944,
      "step": 51330
    },
    {
      "epoch": 7.645963658028001,
      "grad_norm": 25.285640716552734,
      "learning_rate": 3.8813649163347266e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 29791824,
      "step": 51335
    },
    {
      "epoch": 7.646708370568961,
      "grad_norm": 71.74624633789062,
      "learning_rate": 3.881094071099276e-05,
      "loss": 0.1568,
      "num_input_tokens_seen": 29794480,
      "step": 51340
    },
    {
      "epoch": 7.6474530831099194,
      "grad_norm": 0.04655967652797699,
      "learning_rate": 3.880823202531644e-05,
      "loss": 0.1593,
      "num_input_tokens_seen": 29797392,
      "step": 51345
    },
    {
      "epoch": 7.648197795650879,
      "grad_norm": 15.944254875183105,
      "learning_rate": 3.880552310636408e-05,
      "loss": 0.2351,
      "num_input_tokens_seen": 29800208,
      "step": 51350
    },
    {
      "epoch": 7.648942508191838,
      "grad_norm": 0.29736974835395813,
      "learning_rate": 3.880281395418144e-05,
      "loss": 0.2604,
      "num_input_tokens_seen": 29803184,
      "step": 51355
    },
    {
      "epoch": 7.6496872207327975,
      "grad_norm": 0.008304341696202755,
      "learning_rate": 3.8800104568814275e-05,
      "loss": 0.1265,
      "num_input_tokens_seen": 29806000,
      "step": 51360
    },
    {
      "epoch": 7.650431933273756,
      "grad_norm": 42.953330993652344,
      "learning_rate": 3.879739495030839e-05,
      "loss": 0.1765,
      "num_input_tokens_seen": 29808848,
      "step": 51365
    },
    {
      "epoch": 7.651176645814716,
      "grad_norm": 0.0072459992952644825,
      "learning_rate": 3.879468509870953e-05,
      "loss": 0.0293,
      "num_input_tokens_seen": 29812016,
      "step": 51370
    },
    {
      "epoch": 7.651921358355675,
      "grad_norm": 83.38825988769531,
      "learning_rate": 3.879197501406347e-05,
      "loss": 0.3439,
      "num_input_tokens_seen": 29814960,
      "step": 51375
    },
    {
      "epoch": 7.652666070896634,
      "grad_norm": 53.82528305053711,
      "learning_rate": 3.878926469641603e-05,
      "loss": 0.1494,
      "num_input_tokens_seen": 29817488,
      "step": 51380
    },
    {
      "epoch": 7.653410783437593,
      "grad_norm": 18.3968448638916,
      "learning_rate": 3.878655414581297e-05,
      "loss": 0.6252,
      "num_input_tokens_seen": 29820400,
      "step": 51385
    },
    {
      "epoch": 7.654155495978552,
      "grad_norm": 13.989988327026367,
      "learning_rate": 3.878384336230009e-05,
      "loss": 0.437,
      "num_input_tokens_seen": 29823216,
      "step": 51390
    },
    {
      "epoch": 7.6549002085195115,
      "grad_norm": 23.286794662475586,
      "learning_rate": 3.878113234592319e-05,
      "loss": 0.2821,
      "num_input_tokens_seen": 29826064,
      "step": 51395
    },
    {
      "epoch": 7.655644921060471,
      "grad_norm": 0.10406145453453064,
      "learning_rate": 3.8778421096728065e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 29829040,
      "step": 51400
    },
    {
      "epoch": 7.65638963360143,
      "grad_norm": 0.10760526359081268,
      "learning_rate": 3.8775709614760514e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 29832048,
      "step": 51405
    },
    {
      "epoch": 7.657134346142389,
      "grad_norm": 0.3293786644935608,
      "learning_rate": 3.877299790006635e-05,
      "loss": 0.3761,
      "num_input_tokens_seen": 29834736,
      "step": 51410
    },
    {
      "epoch": 7.657879058683348,
      "grad_norm": 15.380082130432129,
      "learning_rate": 3.877028595269139e-05,
      "loss": 0.1321,
      "num_input_tokens_seen": 29837392,
      "step": 51415
    },
    {
      "epoch": 7.658623771224307,
      "grad_norm": 2.308231830596924,
      "learning_rate": 3.876757377268144e-05,
      "loss": 0.2322,
      "num_input_tokens_seen": 29840432,
      "step": 51420
    },
    {
      "epoch": 7.659368483765267,
      "grad_norm": 0.13470731675624847,
      "learning_rate": 3.8764861360082324e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 29843344,
      "step": 51425
    },
    {
      "epoch": 7.6601131963062254,
      "grad_norm": 15.250022888183594,
      "learning_rate": 3.876214871493987e-05,
      "loss": 0.2684,
      "num_input_tokens_seen": 29846672,
      "step": 51430
    },
    {
      "epoch": 7.660857908847185,
      "grad_norm": 33.511539459228516,
      "learning_rate": 3.8759435837299904e-05,
      "loss": 0.3928,
      "num_input_tokens_seen": 29849776,
      "step": 51435
    },
    {
      "epoch": 7.661602621388144,
      "grad_norm": 30.834884643554688,
      "learning_rate": 3.8756722727208246e-05,
      "loss": 0.3518,
      "num_input_tokens_seen": 29852816,
      "step": 51440
    },
    {
      "epoch": 7.6623473339291035,
      "grad_norm": 0.14472486078739166,
      "learning_rate": 3.8754009384710736e-05,
      "loss": 0.0113,
      "num_input_tokens_seen": 29855504,
      "step": 51445
    },
    {
      "epoch": 7.663092046470062,
      "grad_norm": 37.63346481323242,
      "learning_rate": 3.8751295809853225e-05,
      "loss": 0.1181,
      "num_input_tokens_seen": 29858320,
      "step": 51450
    },
    {
      "epoch": 7.663836759011022,
      "grad_norm": 0.023333648219704628,
      "learning_rate": 3.8748582002681545e-05,
      "loss": 0.1673,
      "num_input_tokens_seen": 29861136,
      "step": 51455
    },
    {
      "epoch": 7.664581471551981,
      "grad_norm": 24.729969024658203,
      "learning_rate": 3.8745867963241545e-05,
      "loss": 0.3313,
      "num_input_tokens_seen": 29864048,
      "step": 51460
    },
    {
      "epoch": 7.66532618409294,
      "grad_norm": 63.87044143676758,
      "learning_rate": 3.874315369157907e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 29866832,
      "step": 51465
    },
    {
      "epoch": 7.666070896633899,
      "grad_norm": 1.3520078659057617,
      "learning_rate": 3.8740439187739993e-05,
      "loss": 0.0677,
      "num_input_tokens_seen": 29869744,
      "step": 51470
    },
    {
      "epoch": 7.666815609174859,
      "grad_norm": 0.07343308627605438,
      "learning_rate": 3.873772445177015e-05,
      "loss": 0.0925,
      "num_input_tokens_seen": 29872528,
      "step": 51475
    },
    {
      "epoch": 7.6675603217158175,
      "grad_norm": 0.015332389622926712,
      "learning_rate": 3.873500948371542e-05,
      "loss": 0.2248,
      "num_input_tokens_seen": 29875344,
      "step": 51480
    },
    {
      "epoch": 7.668305034256777,
      "grad_norm": 11.875672340393066,
      "learning_rate": 3.873229428362167e-05,
      "loss": 0.3445,
      "num_input_tokens_seen": 29878384,
      "step": 51485
    },
    {
      "epoch": 7.669049746797736,
      "grad_norm": 0.26602694392204285,
      "learning_rate": 3.872957885153476e-05,
      "loss": 0.0801,
      "num_input_tokens_seen": 29881232,
      "step": 51490
    },
    {
      "epoch": 7.6697944593386955,
      "grad_norm": 1.1029132604599,
      "learning_rate": 3.8726863187500564e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 29884144,
      "step": 51495
    },
    {
      "epoch": 7.670539171879654,
      "grad_norm": 7.724455833435059,
      "learning_rate": 3.872414729156497e-05,
      "loss": 0.1387,
      "num_input_tokens_seen": 29887024,
      "step": 51500
    },
    {
      "epoch": 7.671283884420614,
      "grad_norm": 11.127923011779785,
      "learning_rate": 3.872143116377386e-05,
      "loss": 0.3775,
      "num_input_tokens_seen": 29890000,
      "step": 51505
    },
    {
      "epoch": 7.672028596961573,
      "grad_norm": 21.981056213378906,
      "learning_rate": 3.871871480417311e-05,
      "loss": 0.155,
      "num_input_tokens_seen": 29893008,
      "step": 51510
    },
    {
      "epoch": 7.672773309502532,
      "grad_norm": 65.39736938476562,
      "learning_rate": 3.871599821280863e-05,
      "loss": 0.0879,
      "num_input_tokens_seen": 29895920,
      "step": 51515
    },
    {
      "epoch": 7.673518022043491,
      "grad_norm": 0.05656374990940094,
      "learning_rate": 3.8713281389726285e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 29899248,
      "step": 51520
    },
    {
      "epoch": 7.674262734584451,
      "grad_norm": 0.017108865082263947,
      "learning_rate": 3.871056433497199e-05,
      "loss": 0.0575,
      "num_input_tokens_seen": 29902480,
      "step": 51525
    },
    {
      "epoch": 7.6750074471254095,
      "grad_norm": 12.390486717224121,
      "learning_rate": 3.870784704859165e-05,
      "loss": 0.0836,
      "num_input_tokens_seen": 29905552,
      "step": 51530
    },
    {
      "epoch": 7.675752159666369,
      "grad_norm": 4.127279758453369,
      "learning_rate": 3.8705129530631165e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 29908144,
      "step": 51535
    },
    {
      "epoch": 7.676496872207328,
      "grad_norm": 0.04328746721148491,
      "learning_rate": 3.870241178113645e-05,
      "loss": 0.2193,
      "num_input_tokens_seen": 29911408,
      "step": 51540
    },
    {
      "epoch": 7.6772415847482876,
      "grad_norm": 39.42910385131836,
      "learning_rate": 3.86996938001534e-05,
      "loss": 0.1401,
      "num_input_tokens_seen": 29914224,
      "step": 51545
    },
    {
      "epoch": 7.677986297289246,
      "grad_norm": 0.017213808372616768,
      "learning_rate": 3.869697558772796e-05,
      "loss": 0.4921,
      "num_input_tokens_seen": 29916880,
      "step": 51550
    },
    {
      "epoch": 7.678731009830205,
      "grad_norm": 23.49728012084961,
      "learning_rate": 3.8694257143906035e-05,
      "loss": 0.2266,
      "num_input_tokens_seen": 29919760,
      "step": 51555
    },
    {
      "epoch": 7.679475722371165,
      "grad_norm": 0.005149672739207745,
      "learning_rate": 3.869153846873356e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 29922576,
      "step": 51560
    },
    {
      "epoch": 7.680220434912124,
      "grad_norm": 0.1530911922454834,
      "learning_rate": 3.868881956225645e-05,
      "loss": 0.207,
      "num_input_tokens_seen": 29925328,
      "step": 51565
    },
    {
      "epoch": 7.680965147453083,
      "grad_norm": 0.3556874990463257,
      "learning_rate": 3.868610042452065e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 29928784,
      "step": 51570
    },
    {
      "epoch": 7.681709859994042,
      "grad_norm": 0.1810188740491867,
      "learning_rate": 3.8683381055572095e-05,
      "loss": 0.1151,
      "num_input_tokens_seen": 29931856,
      "step": 51575
    },
    {
      "epoch": 7.6824545725350015,
      "grad_norm": 16.88419532775879,
      "learning_rate": 3.868066145545672e-05,
      "loss": 0.4666,
      "num_input_tokens_seen": 29934672,
      "step": 51580
    },
    {
      "epoch": 7.683199285075961,
      "grad_norm": 37.55161666870117,
      "learning_rate": 3.867794162422047e-05,
      "loss": 0.4119,
      "num_input_tokens_seen": 29937808,
      "step": 51585
    },
    {
      "epoch": 7.68394399761692,
      "grad_norm": 48.81157684326172,
      "learning_rate": 3.86752215619093e-05,
      "loss": 0.2675,
      "num_input_tokens_seen": 29940592,
      "step": 51590
    },
    {
      "epoch": 7.684688710157879,
      "grad_norm": 5.069632530212402,
      "learning_rate": 3.867250126856917e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 29943376,
      "step": 51595
    },
    {
      "epoch": 7.685433422698838,
      "grad_norm": 1.0718588829040527,
      "learning_rate": 3.866978074424602e-05,
      "loss": 0.0584,
      "num_input_tokens_seen": 29946224,
      "step": 51600
    },
    {
      "epoch": 7.686178135239797,
      "grad_norm": 0.019834963604807854,
      "learning_rate": 3.866705998898582e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 29949008,
      "step": 51605
    },
    {
      "epoch": 7.686922847780757,
      "grad_norm": 21.89425277709961,
      "learning_rate": 3.866433900283453e-05,
      "loss": 0.2224,
      "num_input_tokens_seen": 29952176,
      "step": 51610
    },
    {
      "epoch": 7.6876675603217155,
      "grad_norm": 0.8065213561058044,
      "learning_rate": 3.866161778583812e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 29954992,
      "step": 51615
    },
    {
      "epoch": 7.688412272862675,
      "grad_norm": 12.182497024536133,
      "learning_rate": 3.865889633804257e-05,
      "loss": 0.2099,
      "num_input_tokens_seen": 29957712,
      "step": 51620
    },
    {
      "epoch": 7.689156985403634,
      "grad_norm": 32.03502655029297,
      "learning_rate": 3.8656174659493835e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 29960688,
      "step": 51625
    },
    {
      "epoch": 7.6899016979445936,
      "grad_norm": 8.383848190307617,
      "learning_rate": 3.865345275023792e-05,
      "loss": 0.3451,
      "num_input_tokens_seen": 29963216,
      "step": 51630
    },
    {
      "epoch": 7.690646410485552,
      "grad_norm": 10.333813667297363,
      "learning_rate": 3.8650730610320796e-05,
      "loss": 0.3305,
      "num_input_tokens_seen": 29966160,
      "step": 51635
    },
    {
      "epoch": 7.691391123026512,
      "grad_norm": 0.042590416967868805,
      "learning_rate": 3.864800823978845e-05,
      "loss": 0.228,
      "num_input_tokens_seen": 29968880,
      "step": 51640
    },
    {
      "epoch": 7.692135835567471,
      "grad_norm": 18.174476623535156,
      "learning_rate": 3.864528563868687e-05,
      "loss": 0.5311,
      "num_input_tokens_seen": 29971632,
      "step": 51645
    },
    {
      "epoch": 7.69288054810843,
      "grad_norm": 0.028514759615063667,
      "learning_rate": 3.864256280706206e-05,
      "loss": 0.0773,
      "num_input_tokens_seen": 29974448,
      "step": 51650
    },
    {
      "epoch": 7.693625260649389,
      "grad_norm": 31.32453155517578,
      "learning_rate": 3.8639839744960025e-05,
      "loss": 0.3408,
      "num_input_tokens_seen": 29977136,
      "step": 51655
    },
    {
      "epoch": 7.694369973190349,
      "grad_norm": 0.7932498455047607,
      "learning_rate": 3.863711645242676e-05,
      "loss": 0.1421,
      "num_input_tokens_seen": 29980016,
      "step": 51660
    },
    {
      "epoch": 7.6951146857313075,
      "grad_norm": 0.3652914762496948,
      "learning_rate": 3.863439292950827e-05,
      "loss": 0.0967,
      "num_input_tokens_seen": 29983152,
      "step": 51665
    },
    {
      "epoch": 7.695859398272267,
      "grad_norm": 0.38232913613319397,
      "learning_rate": 3.863166917625056e-05,
      "loss": 0.2126,
      "num_input_tokens_seen": 29986544,
      "step": 51670
    },
    {
      "epoch": 7.696604110813226,
      "grad_norm": 24.767902374267578,
      "learning_rate": 3.862894519269966e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 29989360,
      "step": 51675
    },
    {
      "epoch": 7.697348823354186,
      "grad_norm": 0.24474474787712097,
      "learning_rate": 3.8626220978901585e-05,
      "loss": 0.145,
      "num_input_tokens_seen": 29992048,
      "step": 51680
    },
    {
      "epoch": 7.698093535895144,
      "grad_norm": 0.11959347128868103,
      "learning_rate": 3.862349653490236e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 29994864,
      "step": 51685
    },
    {
      "epoch": 7.698838248436104,
      "grad_norm": 167.4773406982422,
      "learning_rate": 3.8620771860748005e-05,
      "loss": 0.5623,
      "num_input_tokens_seen": 29997808,
      "step": 51690
    },
    {
      "epoch": 7.699582960977063,
      "grad_norm": 19.820934295654297,
      "learning_rate": 3.861804695648455e-05,
      "loss": 0.0207,
      "num_input_tokens_seen": 30000464,
      "step": 51695
    },
    {
      "epoch": 7.700327673518022,
      "grad_norm": 27.792930603027344,
      "learning_rate": 3.861532182215802e-05,
      "loss": 0.2048,
      "num_input_tokens_seen": 30003152,
      "step": 51700
    },
    {
      "epoch": 7.701072386058981,
      "grad_norm": 12.610140800476074,
      "learning_rate": 3.861259645781449e-05,
      "loss": 0.1738,
      "num_input_tokens_seen": 30005776,
      "step": 51705
    },
    {
      "epoch": 7.701817098599941,
      "grad_norm": 0.03539005294442177,
      "learning_rate": 3.860987086349996e-05,
      "loss": 0.0482,
      "num_input_tokens_seen": 30008688,
      "step": 51710
    },
    {
      "epoch": 7.7025618111408996,
      "grad_norm": 0.09198612719774246,
      "learning_rate": 3.86071450392605e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 30011504,
      "step": 51715
    },
    {
      "epoch": 7.703306523681858,
      "grad_norm": 12.645110130310059,
      "learning_rate": 3.860441898514215e-05,
      "loss": 0.0505,
      "num_input_tokens_seen": 30014256,
      "step": 51720
    },
    {
      "epoch": 7.704051236222818,
      "grad_norm": 0.2287060171365738,
      "learning_rate": 3.8601692701190975e-05,
      "loss": 0.164,
      "num_input_tokens_seen": 30016880,
      "step": 51725
    },
    {
      "epoch": 7.704795948763778,
      "grad_norm": 17.353084564208984,
      "learning_rate": 3.8598966187453034e-05,
      "loss": 0.2389,
      "num_input_tokens_seen": 30019856,
      "step": 51730
    },
    {
      "epoch": 7.705540661304736,
      "grad_norm": 0.7171236276626587,
      "learning_rate": 3.859623944397437e-05,
      "loss": 0.0927,
      "num_input_tokens_seen": 30022768,
      "step": 51735
    },
    {
      "epoch": 7.706285373845695,
      "grad_norm": 19.430418014526367,
      "learning_rate": 3.859351247080106e-05,
      "loss": 0.0662,
      "num_input_tokens_seen": 30025648,
      "step": 51740
    },
    {
      "epoch": 7.707030086386655,
      "grad_norm": 4.0497727394104,
      "learning_rate": 3.859078526797917e-05,
      "loss": 0.177,
      "num_input_tokens_seen": 30028272,
      "step": 51745
    },
    {
      "epoch": 7.707774798927614,
      "grad_norm": 23.023828506469727,
      "learning_rate": 3.8588057835554776e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 30031280,
      "step": 51750
    },
    {
      "epoch": 7.708519511468573,
      "grad_norm": 11.660907745361328,
      "learning_rate": 3.858533017357396e-05,
      "loss": 0.1613,
      "num_input_tokens_seen": 30034224,
      "step": 51755
    },
    {
      "epoch": 7.709264224009532,
      "grad_norm": 0.5735333561897278,
      "learning_rate": 3.858260228208279e-05,
      "loss": 0.1824,
      "num_input_tokens_seen": 30036944,
      "step": 51760
    },
    {
      "epoch": 7.710008936550492,
      "grad_norm": 12.436491012573242,
      "learning_rate": 3.857987416112737e-05,
      "loss": 0.7971,
      "num_input_tokens_seen": 30039888,
      "step": 51765
    },
    {
      "epoch": 7.71075364909145,
      "grad_norm": 0.20199932157993317,
      "learning_rate": 3.857714581075377e-05,
      "loss": 0.1069,
      "num_input_tokens_seen": 30042576,
      "step": 51770
    },
    {
      "epoch": 7.71149836163241,
      "grad_norm": 0.08842790126800537,
      "learning_rate": 3.85744172310081e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 30045392,
      "step": 51775
    },
    {
      "epoch": 7.712243074173369,
      "grad_norm": 0.06253302842378616,
      "learning_rate": 3.8571688421936434e-05,
      "loss": 0.2064,
      "num_input_tokens_seen": 30048176,
      "step": 51780
    },
    {
      "epoch": 7.712987786714328,
      "grad_norm": 0.02192002534866333,
      "learning_rate": 3.85689593835849e-05,
      "loss": 0.3489,
      "num_input_tokens_seen": 30051024,
      "step": 51785
    },
    {
      "epoch": 7.713732499255287,
      "grad_norm": 11.886833190917969,
      "learning_rate": 3.8566230115999575e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 30053808,
      "step": 51790
    },
    {
      "epoch": 7.714477211796247,
      "grad_norm": 0.17132113873958588,
      "learning_rate": 3.856350061922659e-05,
      "loss": 0.0571,
      "num_input_tokens_seen": 30056880,
      "step": 51795
    },
    {
      "epoch": 7.7152219243372056,
      "grad_norm": 0.22362126410007477,
      "learning_rate": 3.856077089331204e-05,
      "loss": 0.1666,
      "num_input_tokens_seen": 30059952,
      "step": 51800
    },
    {
      "epoch": 7.715966636878165,
      "grad_norm": 58.46833801269531,
      "learning_rate": 3.855804093830205e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 30062704,
      "step": 51805
    },
    {
      "epoch": 7.716711349419124,
      "grad_norm": 21.375102996826172,
      "learning_rate": 3.855531075424274e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 30065584,
      "step": 51810
    },
    {
      "epoch": 7.717456061960084,
      "grad_norm": 0.16324469447135925,
      "learning_rate": 3.8552580341180236e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 30068240,
      "step": 51815
    },
    {
      "epoch": 7.718200774501042,
      "grad_norm": 59.313453674316406,
      "learning_rate": 3.8549849699160655e-05,
      "loss": 0.25,
      "num_input_tokens_seen": 30070800,
      "step": 51820
    },
    {
      "epoch": 7.718945487042002,
      "grad_norm": 44.34621810913086,
      "learning_rate": 3.8547118828230135e-05,
      "loss": 0.2079,
      "num_input_tokens_seen": 30073744,
      "step": 51825
    },
    {
      "epoch": 7.719690199582961,
      "grad_norm": 0.03732287138700485,
      "learning_rate": 3.854438772843482e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 30076528,
      "step": 51830
    },
    {
      "epoch": 7.72043491212392,
      "grad_norm": 0.029087867587804794,
      "learning_rate": 3.8541656399820825e-05,
      "loss": 0.0991,
      "num_input_tokens_seen": 30079120,
      "step": 51835
    },
    {
      "epoch": 7.721179624664879,
      "grad_norm": 3.7394659519195557,
      "learning_rate": 3.853892484243432e-05,
      "loss": 0.308,
      "num_input_tokens_seen": 30081776,
      "step": 51840
    },
    {
      "epoch": 7.721924337205839,
      "grad_norm": 0.020270047709345818,
      "learning_rate": 3.8536193056321436e-05,
      "loss": 0.1298,
      "num_input_tokens_seen": 30084752,
      "step": 51845
    },
    {
      "epoch": 7.722669049746798,
      "grad_norm": 0.023893797770142555,
      "learning_rate": 3.853346104152833e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 30087600,
      "step": 51850
    },
    {
      "epoch": 7.723413762287757,
      "grad_norm": 13.341672897338867,
      "learning_rate": 3.853072879810115e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 30090544,
      "step": 51855
    },
    {
      "epoch": 7.724158474828716,
      "grad_norm": 0.018922066316008568,
      "learning_rate": 3.8527996326086065e-05,
      "loss": 0.191,
      "num_input_tokens_seen": 30093264,
      "step": 51860
    },
    {
      "epoch": 7.724903187369676,
      "grad_norm": 0.22452150285243988,
      "learning_rate": 3.852526362552923e-05,
      "loss": 0.0808,
      "num_input_tokens_seen": 30096592,
      "step": 51865
    },
    {
      "epoch": 7.725647899910634,
      "grad_norm": 0.01403258927166462,
      "learning_rate": 3.852253069647681e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 30099440,
      "step": 51870
    },
    {
      "epoch": 7.726392612451594,
      "grad_norm": 0.08006507903337479,
      "learning_rate": 3.851979753897498e-05,
      "loss": 0.1549,
      "num_input_tokens_seen": 30102224,
      "step": 51875
    },
    {
      "epoch": 7.727137324992553,
      "grad_norm": 40.42797088623047,
      "learning_rate": 3.8517064153069905e-05,
      "loss": 0.2501,
      "num_input_tokens_seen": 30105328,
      "step": 51880
    },
    {
      "epoch": 7.727882037533512,
      "grad_norm": 0.015430301427841187,
      "learning_rate": 3.8514330538807775e-05,
      "loss": 0.1949,
      "num_input_tokens_seen": 30108336,
      "step": 51885
    },
    {
      "epoch": 7.728626750074471,
      "grad_norm": 0.21344013512134552,
      "learning_rate": 3.8511596696234765e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 30111056,
      "step": 51890
    },
    {
      "epoch": 7.729371462615431,
      "grad_norm": 0.14156745374202728,
      "learning_rate": 3.8508862625397055e-05,
      "loss": 0.281,
      "num_input_tokens_seen": 30113968,
      "step": 51895
    },
    {
      "epoch": 7.73011617515639,
      "grad_norm": 0.3514045178890228,
      "learning_rate": 3.850612832634085e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 30117104,
      "step": 51900
    },
    {
      "epoch": 7.730860887697348,
      "grad_norm": 0.515047013759613,
      "learning_rate": 3.850339379911233e-05,
      "loss": 0.05,
      "num_input_tokens_seen": 30120048,
      "step": 51905
    },
    {
      "epoch": 7.731605600238308,
      "grad_norm": 154.00692749023438,
      "learning_rate": 3.8500659043757705e-05,
      "loss": 0.1203,
      "num_input_tokens_seen": 30122896,
      "step": 51910
    },
    {
      "epoch": 7.732350312779268,
      "grad_norm": 0.013327187858521938,
      "learning_rate": 3.8497924060323154e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 30126128,
      "step": 51915
    },
    {
      "epoch": 7.733095025320226,
      "grad_norm": 0.027625035494565964,
      "learning_rate": 3.84951888488549e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 30128976,
      "step": 51920
    },
    {
      "epoch": 7.733839737861185,
      "grad_norm": 0.3808976113796234,
      "learning_rate": 3.849245340939914e-05,
      "loss": 0.233,
      "num_input_tokens_seen": 30131984,
      "step": 51925
    },
    {
      "epoch": 7.734584450402145,
      "grad_norm": 11.837059020996094,
      "learning_rate": 3.84897177420021e-05,
      "loss": 0.0126,
      "num_input_tokens_seen": 30134800,
      "step": 51930
    },
    {
      "epoch": 7.735329162943104,
      "grad_norm": 16.861202239990234,
      "learning_rate": 3.848698184670999e-05,
      "loss": 0.248,
      "num_input_tokens_seen": 30138224,
      "step": 51935
    },
    {
      "epoch": 7.736073875484063,
      "grad_norm": 1.3959503173828125,
      "learning_rate": 3.848424572356902e-05,
      "loss": 0.3524,
      "num_input_tokens_seen": 30141488,
      "step": 51940
    },
    {
      "epoch": 7.736818588025022,
      "grad_norm": 16.244857788085938,
      "learning_rate": 3.848150937262544e-05,
      "loss": 0.2645,
      "num_input_tokens_seen": 30144240,
      "step": 51945
    },
    {
      "epoch": 7.737563300565982,
      "grad_norm": 0.015080906450748444,
      "learning_rate": 3.847877279392546e-05,
      "loss": 0.1798,
      "num_input_tokens_seen": 30147216,
      "step": 51950
    },
    {
      "epoch": 7.73830801310694,
      "grad_norm": 35.66469192504883,
      "learning_rate": 3.847603598751529e-05,
      "loss": 0.431,
      "num_input_tokens_seen": 30150192,
      "step": 51955
    },
    {
      "epoch": 7.7390527256479,
      "grad_norm": 0.22980697453022003,
      "learning_rate": 3.847329895344121e-05,
      "loss": 0.1926,
      "num_input_tokens_seen": 30153104,
      "step": 51960
    },
    {
      "epoch": 7.739797438188859,
      "grad_norm": 0.1346767693758011,
      "learning_rate": 3.847056169174942e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 30156080,
      "step": 51965
    },
    {
      "epoch": 7.740542150729818,
      "grad_norm": 17.150754928588867,
      "learning_rate": 3.846782420248619e-05,
      "loss": 0.2795,
      "num_input_tokens_seen": 30158800,
      "step": 51970
    },
    {
      "epoch": 7.741286863270777,
      "grad_norm": 0.0465104840695858,
      "learning_rate": 3.8465086485697766e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 30161776,
      "step": 51975
    },
    {
      "epoch": 7.742031575811737,
      "grad_norm": 8.577629089355469,
      "learning_rate": 3.8462348541430396e-05,
      "loss": 0.1406,
      "num_input_tokens_seen": 30164656,
      "step": 51980
    },
    {
      "epoch": 7.742776288352696,
      "grad_norm": 0.015330832451581955,
      "learning_rate": 3.8459610369730316e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 30167792,
      "step": 51985
    },
    {
      "epoch": 7.743521000893655,
      "grad_norm": 1.8133264780044556,
      "learning_rate": 3.8456871970643794e-05,
      "loss": 0.0735,
      "num_input_tokens_seen": 30170800,
      "step": 51990
    },
    {
      "epoch": 7.744265713434614,
      "grad_norm": 52.54982376098633,
      "learning_rate": 3.8454133344217105e-05,
      "loss": 0.3072,
      "num_input_tokens_seen": 30173648,
      "step": 51995
    },
    {
      "epoch": 7.745010425975574,
      "grad_norm": 0.6120391488075256,
      "learning_rate": 3.8451394490496505e-05,
      "loss": 0.2422,
      "num_input_tokens_seen": 30176528,
      "step": 52000
    },
    {
      "epoch": 7.745755138516532,
      "grad_norm": 0.24972321093082428,
      "learning_rate": 3.8448655409528274e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 30179568,
      "step": 52005
    },
    {
      "epoch": 7.746499851057492,
      "grad_norm": 0.013593874871730804,
      "learning_rate": 3.844591610135867e-05,
      "loss": 0.1244,
      "num_input_tokens_seen": 30182288,
      "step": 52010
    },
    {
      "epoch": 7.747244563598451,
      "grad_norm": 19.753376007080078,
      "learning_rate": 3.844317656603398e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 30184912,
      "step": 52015
    },
    {
      "epoch": 7.7479892761394105,
      "grad_norm": 0.0182750653475523,
      "learning_rate": 3.844043680360049e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 30187824,
      "step": 52020
    },
    {
      "epoch": 7.748733988680369,
      "grad_norm": 40.078826904296875,
      "learning_rate": 3.8437696814104476e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 30190544,
      "step": 52025
    },
    {
      "epoch": 7.749478701221329,
      "grad_norm": 0.3809351623058319,
      "learning_rate": 3.8434956597592234e-05,
      "loss": 0.2768,
      "num_input_tokens_seen": 30193456,
      "step": 52030
    },
    {
      "epoch": 7.750223413762288,
      "grad_norm": 32.02212905883789,
      "learning_rate": 3.8432216154110053e-05,
      "loss": 0.1044,
      "num_input_tokens_seen": 30196368,
      "step": 52035
    },
    {
      "epoch": 7.750968126303247,
      "grad_norm": 0.008152799680829048,
      "learning_rate": 3.8429475483704236e-05,
      "loss": 0.0283,
      "num_input_tokens_seen": 30199184,
      "step": 52040
    },
    {
      "epoch": 7.751712838844206,
      "grad_norm": 0.0698874443769455,
      "learning_rate": 3.842673458642108e-05,
      "loss": 0.0784,
      "num_input_tokens_seen": 30202000,
      "step": 52045
    },
    {
      "epoch": 7.752457551385166,
      "grad_norm": 0.07688143104314804,
      "learning_rate": 3.842399346230688e-05,
      "loss": 0.471,
      "num_input_tokens_seen": 30204816,
      "step": 52050
    },
    {
      "epoch": 7.753202263926124,
      "grad_norm": 0.5663890838623047,
      "learning_rate": 3.842125211140796e-05,
      "loss": 0.0102,
      "num_input_tokens_seen": 30207888,
      "step": 52055
    },
    {
      "epoch": 7.753946976467084,
      "grad_norm": 118.77328491210938,
      "learning_rate": 3.8418510533770624e-05,
      "loss": 0.3525,
      "num_input_tokens_seen": 30210928,
      "step": 52060
    },
    {
      "epoch": 7.754691689008043,
      "grad_norm": 90.9500732421875,
      "learning_rate": 3.841576872944119e-05,
      "loss": 0.0544,
      "num_input_tokens_seen": 30214160,
      "step": 52065
    },
    {
      "epoch": 7.755436401549002,
      "grad_norm": 42.81317138671875,
      "learning_rate": 3.841302669846599e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 30216976,
      "step": 52070
    },
    {
      "epoch": 7.756181114089961,
      "grad_norm": 25.829349517822266,
      "learning_rate": 3.841028444089133e-05,
      "loss": 0.2276,
      "num_input_tokens_seen": 30219920,
      "step": 52075
    },
    {
      "epoch": 7.756925826630921,
      "grad_norm": 0.0433548279106617,
      "learning_rate": 3.840754195676354e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 30222896,
      "step": 52080
    },
    {
      "epoch": 7.75767053917188,
      "grad_norm": 3.922063112258911,
      "learning_rate": 3.8404799246128956e-05,
      "loss": 0.0851,
      "num_input_tokens_seen": 30225808,
      "step": 52085
    },
    {
      "epoch": 7.758415251712838,
      "grad_norm": 52.08491134643555,
      "learning_rate": 3.8402056309033915e-05,
      "loss": 0.453,
      "num_input_tokens_seen": 30228720,
      "step": 52090
    },
    {
      "epoch": 7.759159964253798,
      "grad_norm": 0.03656117245554924,
      "learning_rate": 3.839931314552475e-05,
      "loss": 0.0231,
      "num_input_tokens_seen": 30231696,
      "step": 52095
    },
    {
      "epoch": 7.759904676794758,
      "grad_norm": 0.02285723015666008,
      "learning_rate": 3.8396569755647816e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 30234448,
      "step": 52100
    },
    {
      "epoch": 7.7606493893357165,
      "grad_norm": 0.007615838199853897,
      "learning_rate": 3.839382613944944e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 30237616,
      "step": 52105
    },
    {
      "epoch": 7.761394101876675,
      "grad_norm": 37.41762924194336,
      "learning_rate": 3.8391082296976e-05,
      "loss": 0.1888,
      "num_input_tokens_seen": 30240560,
      "step": 52110
    },
    {
      "epoch": 7.762138814417635,
      "grad_norm": 11.170755386352539,
      "learning_rate": 3.8388338228273824e-05,
      "loss": 0.5824,
      "num_input_tokens_seen": 30243600,
      "step": 52115
    },
    {
      "epoch": 7.762883526958594,
      "grad_norm": 0.0059346784837543964,
      "learning_rate": 3.838559393338927e-05,
      "loss": 0.2961,
      "num_input_tokens_seen": 30246512,
      "step": 52120
    },
    {
      "epoch": 7.763628239499553,
      "grad_norm": 17.036752700805664,
      "learning_rate": 3.838284941236873e-05,
      "loss": 0.2784,
      "num_input_tokens_seen": 30249648,
      "step": 52125
    },
    {
      "epoch": 7.764372952040512,
      "grad_norm": 0.007407093420624733,
      "learning_rate": 3.8380104665258545e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 30252816,
      "step": 52130
    },
    {
      "epoch": 7.765117664581472,
      "grad_norm": 0.48669740557670593,
      "learning_rate": 3.837735969210509e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 30255984,
      "step": 52135
    },
    {
      "epoch": 7.76586237712243,
      "grad_norm": 0.522860586643219,
      "learning_rate": 3.837461449295474e-05,
      "loss": 0.346,
      "num_input_tokens_seen": 30259408,
      "step": 52140
    },
    {
      "epoch": 7.76660708966339,
      "grad_norm": 49.11783981323242,
      "learning_rate": 3.837186906785387e-05,
      "loss": 0.5618,
      "num_input_tokens_seen": 30262320,
      "step": 52145
    },
    {
      "epoch": 7.767351802204349,
      "grad_norm": 18.568233489990234,
      "learning_rate": 3.836912341684886e-05,
      "loss": 0.2053,
      "num_input_tokens_seen": 30265296,
      "step": 52150
    },
    {
      "epoch": 7.7680965147453085,
      "grad_norm": 1.267932653427124,
      "learning_rate": 3.83663775399861e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 30268304,
      "step": 52155
    },
    {
      "epoch": 7.768841227286267,
      "grad_norm": 67.942138671875,
      "learning_rate": 3.836363143731198e-05,
      "loss": 0.3395,
      "num_input_tokens_seen": 30271184,
      "step": 52160
    },
    {
      "epoch": 7.769585939827227,
      "grad_norm": 47.007667541503906,
      "learning_rate": 3.8360885108872885e-05,
      "loss": 0.6332,
      "num_input_tokens_seen": 30274128,
      "step": 52165
    },
    {
      "epoch": 7.770330652368186,
      "grad_norm": 1.380299687385559,
      "learning_rate": 3.8358138554715215e-05,
      "loss": 0.1811,
      "num_input_tokens_seen": 30276976,
      "step": 52170
    },
    {
      "epoch": 7.771075364909145,
      "grad_norm": 7.946234703063965,
      "learning_rate": 3.8355391774885375e-05,
      "loss": 0.317,
      "num_input_tokens_seen": 30279888,
      "step": 52175
    },
    {
      "epoch": 7.771820077450104,
      "grad_norm": 125.82520294189453,
      "learning_rate": 3.835264476942977e-05,
      "loss": 0.2442,
      "num_input_tokens_seen": 30282864,
      "step": 52180
    },
    {
      "epoch": 7.772564789991064,
      "grad_norm": 26.881040573120117,
      "learning_rate": 3.834989753839479e-05,
      "loss": 0.2255,
      "num_input_tokens_seen": 30285680,
      "step": 52185
    },
    {
      "epoch": 7.7733095025320225,
      "grad_norm": 41.26748275756836,
      "learning_rate": 3.834715008182687e-05,
      "loss": 0.367,
      "num_input_tokens_seen": 30288624,
      "step": 52190
    },
    {
      "epoch": 7.774054215072982,
      "grad_norm": 9.45129680633545,
      "learning_rate": 3.83444023997724e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 30291664,
      "step": 52195
    },
    {
      "epoch": 7.774798927613941,
      "grad_norm": 29.984548568725586,
      "learning_rate": 3.834165449227782e-05,
      "loss": 0.1426,
      "num_input_tokens_seen": 30294544,
      "step": 52200
    },
    {
      "epoch": 7.7755436401549005,
      "grad_norm": 11.366259574890137,
      "learning_rate": 3.833890635938956e-05,
      "loss": 0.0964,
      "num_input_tokens_seen": 30297008,
      "step": 52205
    },
    {
      "epoch": 7.776288352695859,
      "grad_norm": 6.2222795486450195,
      "learning_rate": 3.8336158001154024e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 30299792,
      "step": 52210
    },
    {
      "epoch": 7.777033065236819,
      "grad_norm": 0.07026159018278122,
      "learning_rate": 3.8333409417617654e-05,
      "loss": 0.3633,
      "num_input_tokens_seen": 30302864,
      "step": 52215
    },
    {
      "epoch": 7.777777777777778,
      "grad_norm": 27.2269287109375,
      "learning_rate": 3.8330660608826885e-05,
      "loss": 0.422,
      "num_input_tokens_seen": 30305712,
      "step": 52220
    },
    {
      "epoch": 7.778522490318737,
      "grad_norm": 16.45294952392578,
      "learning_rate": 3.832791157482815e-05,
      "loss": 0.5313,
      "num_input_tokens_seen": 30308560,
      "step": 52225
    },
    {
      "epoch": 7.779267202859696,
      "grad_norm": 0.3822687864303589,
      "learning_rate": 3.8325162315667895e-05,
      "loss": 0.1245,
      "num_input_tokens_seen": 30311664,
      "step": 52230
    },
    {
      "epoch": 7.780011915400656,
      "grad_norm": 0.08024068921804428,
      "learning_rate": 3.832241283139256e-05,
      "loss": 0.1138,
      "num_input_tokens_seen": 30314640,
      "step": 52235
    },
    {
      "epoch": 7.7807566279416145,
      "grad_norm": 0.5334920287132263,
      "learning_rate": 3.831966312204861e-05,
      "loss": 0.1345,
      "num_input_tokens_seen": 30317392,
      "step": 52240
    },
    {
      "epoch": 7.781501340482574,
      "grad_norm": 0.06995007395744324,
      "learning_rate": 3.831691318768249e-05,
      "loss": 0.0358,
      "num_input_tokens_seen": 30320080,
      "step": 52245
    },
    {
      "epoch": 7.782246053023533,
      "grad_norm": 0.02340635284781456,
      "learning_rate": 3.831416302834065e-05,
      "loss": 0.1773,
      "num_input_tokens_seen": 30322832,
      "step": 52250
    },
    {
      "epoch": 7.782990765564492,
      "grad_norm": 11.630722999572754,
      "learning_rate": 3.831141264406957e-05,
      "loss": 0.0615,
      "num_input_tokens_seen": 30325712,
      "step": 52255
    },
    {
      "epoch": 7.783735478105451,
      "grad_norm": 0.018236136063933372,
      "learning_rate": 3.8308662034915685e-05,
      "loss": 0.3838,
      "num_input_tokens_seen": 30328464,
      "step": 52260
    },
    {
      "epoch": 7.784480190646411,
      "grad_norm": 3.253300905227661,
      "learning_rate": 3.830591120092549e-05,
      "loss": 0.0914,
      "num_input_tokens_seen": 30331280,
      "step": 52265
    },
    {
      "epoch": 7.78522490318737,
      "grad_norm": 2.4012153148651123,
      "learning_rate": 3.8303160142145444e-05,
      "loss": 0.1348,
      "num_input_tokens_seen": 30334064,
      "step": 52270
    },
    {
      "epoch": 7.7859696157283285,
      "grad_norm": 133.70834350585938,
      "learning_rate": 3.830040885862204e-05,
      "loss": 0.259,
      "num_input_tokens_seen": 30337200,
      "step": 52275
    },
    {
      "epoch": 7.786714328269288,
      "grad_norm": 1.3255552053451538,
      "learning_rate": 3.8297657350401735e-05,
      "loss": 0.1464,
      "num_input_tokens_seen": 30339952,
      "step": 52280
    },
    {
      "epoch": 7.787459040810247,
      "grad_norm": 0.09771368652582169,
      "learning_rate": 3.829490561753103e-05,
      "loss": 0.1767,
      "num_input_tokens_seen": 30342864,
      "step": 52285
    },
    {
      "epoch": 7.7882037533512065,
      "grad_norm": 36.48479080200195,
      "learning_rate": 3.82921536600564e-05,
      "loss": 0.0799,
      "num_input_tokens_seen": 30345424,
      "step": 52290
    },
    {
      "epoch": 7.788948465892165,
      "grad_norm": 4.927907466888428,
      "learning_rate": 3.828940147802435e-05,
      "loss": 0.3467,
      "num_input_tokens_seen": 30348368,
      "step": 52295
    },
    {
      "epoch": 7.789693178433125,
      "grad_norm": 10.459633827209473,
      "learning_rate": 3.828664907148137e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 30351184,
      "step": 52300
    },
    {
      "epoch": 7.790437890974084,
      "grad_norm": 28.708189010620117,
      "learning_rate": 3.828389644047395e-05,
      "loss": 0.1612,
      "num_input_tokens_seen": 30353936,
      "step": 52305
    },
    {
      "epoch": 7.791182603515043,
      "grad_norm": 0.2305741310119629,
      "learning_rate": 3.8281143585048604e-05,
      "loss": 0.0792,
      "num_input_tokens_seen": 30357200,
      "step": 52310
    },
    {
      "epoch": 7.791927316056002,
      "grad_norm": 14.423826217651367,
      "learning_rate": 3.8278390505251835e-05,
      "loss": 0.1228,
      "num_input_tokens_seen": 30360400,
      "step": 52315
    },
    {
      "epoch": 7.792672028596962,
      "grad_norm": 4.976598739624023,
      "learning_rate": 3.827563720113016e-05,
      "loss": 0.0436,
      "num_input_tokens_seen": 30363152,
      "step": 52320
    },
    {
      "epoch": 7.7934167411379205,
      "grad_norm": 4.753417491912842,
      "learning_rate": 3.827288367273008e-05,
      "loss": 0.1763,
      "num_input_tokens_seen": 30365872,
      "step": 52325
    },
    {
      "epoch": 7.79416145367888,
      "grad_norm": 0.047037601470947266,
      "learning_rate": 3.827012992009812e-05,
      "loss": 0.1848,
      "num_input_tokens_seen": 30368752,
      "step": 52330
    },
    {
      "epoch": 7.794906166219839,
      "grad_norm": 0.5099999308586121,
      "learning_rate": 3.826737594328082e-05,
      "loss": 0.0712,
      "num_input_tokens_seen": 30371632,
      "step": 52335
    },
    {
      "epoch": 7.7956508787607985,
      "grad_norm": 2.050948143005371,
      "learning_rate": 3.826462174232467e-05,
      "loss": 0.0759,
      "num_input_tokens_seen": 30374544,
      "step": 52340
    },
    {
      "epoch": 7.796395591301757,
      "grad_norm": 19.845781326293945,
      "learning_rate": 3.8261867317276225e-05,
      "loss": 0.3851,
      "num_input_tokens_seen": 30377456,
      "step": 52345
    },
    {
      "epoch": 7.797140303842717,
      "grad_norm": 57.04563522338867,
      "learning_rate": 3.8259112668181995e-05,
      "loss": 0.6904,
      "num_input_tokens_seen": 30380240,
      "step": 52350
    },
    {
      "epoch": 7.797885016383676,
      "grad_norm": 0.2909144461154938,
      "learning_rate": 3.825635779508855e-05,
      "loss": 0.1639,
      "num_input_tokens_seen": 30382800,
      "step": 52355
    },
    {
      "epoch": 7.798629728924635,
      "grad_norm": 8.01948070526123,
      "learning_rate": 3.82536026980424e-05,
      "loss": 0.076,
      "num_input_tokens_seen": 30385680,
      "step": 52360
    },
    {
      "epoch": 7.799374441465594,
      "grad_norm": 1.2170581817626953,
      "learning_rate": 3.825084737709011e-05,
      "loss": 0.0091,
      "num_input_tokens_seen": 30388624,
      "step": 52365
    },
    {
      "epoch": 7.800119154006554,
      "grad_norm": 23.59808349609375,
      "learning_rate": 3.824809183227822e-05,
      "loss": 0.3374,
      "num_input_tokens_seen": 30391376,
      "step": 52370
    },
    {
      "epoch": 7.8008638665475125,
      "grad_norm": 44.05921936035156,
      "learning_rate": 3.824533606365329e-05,
      "loss": 0.3018,
      "num_input_tokens_seen": 30393968,
      "step": 52375
    },
    {
      "epoch": 7.801608579088472,
      "grad_norm": 0.5466957092285156,
      "learning_rate": 3.824258007126186e-05,
      "loss": 0.2321,
      "num_input_tokens_seen": 30396688,
      "step": 52380
    },
    {
      "epoch": 7.802353291629431,
      "grad_norm": 0.030768705531954765,
      "learning_rate": 3.82398238551505e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 30399664,
      "step": 52385
    },
    {
      "epoch": 7.803098004170391,
      "grad_norm": 19.62310028076172,
      "learning_rate": 3.823706741536578e-05,
      "loss": 0.2257,
      "num_input_tokens_seen": 30402512,
      "step": 52390
    },
    {
      "epoch": 7.803842716711349,
      "grad_norm": 26.46317481994629,
      "learning_rate": 3.823431075195425e-05,
      "loss": 0.0499,
      "num_input_tokens_seen": 30405232,
      "step": 52395
    },
    {
      "epoch": 7.804587429252309,
      "grad_norm": 11.934264183044434,
      "learning_rate": 3.8231553864962486e-05,
      "loss": 0.1984,
      "num_input_tokens_seen": 30408432,
      "step": 52400
    },
    {
      "epoch": 7.805332141793268,
      "grad_norm": 0.059828512370586395,
      "learning_rate": 3.8228796754437086e-05,
      "loss": 0.2593,
      "num_input_tokens_seen": 30411632,
      "step": 52405
    },
    {
      "epoch": 7.806076854334227,
      "grad_norm": 0.5869150757789612,
      "learning_rate": 3.8226039420424596e-05,
      "loss": 0.2132,
      "num_input_tokens_seen": 30414448,
      "step": 52410
    },
    {
      "epoch": 7.806821566875186,
      "grad_norm": 0.5837857723236084,
      "learning_rate": 3.822328186297162e-05,
      "loss": 0.3774,
      "num_input_tokens_seen": 30417584,
      "step": 52415
    },
    {
      "epoch": 7.807566279416145,
      "grad_norm": 0.17073874175548553,
      "learning_rate": 3.822052408212473e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 30420272,
      "step": 52420
    },
    {
      "epoch": 7.8083109919571045,
      "grad_norm": 83.55430603027344,
      "learning_rate": 3.8217766077930527e-05,
      "loss": 0.1802,
      "num_input_tokens_seen": 30422992,
      "step": 52425
    },
    {
      "epoch": 7.809055704498064,
      "grad_norm": 27.812332153320312,
      "learning_rate": 3.82150078504356e-05,
      "loss": 0.2603,
      "num_input_tokens_seen": 30426000,
      "step": 52430
    },
    {
      "epoch": 7.809800417039023,
      "grad_norm": 0.06316046416759491,
      "learning_rate": 3.821224939968654e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 30429168,
      "step": 52435
    },
    {
      "epoch": 7.810545129579982,
      "grad_norm": 4.166910171508789,
      "learning_rate": 3.820949072572996e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 30431920,
      "step": 52440
    },
    {
      "epoch": 7.811289842120941,
      "grad_norm": 4.867101669311523,
      "learning_rate": 3.820673182861246e-05,
      "loss": 0.1294,
      "num_input_tokens_seen": 30434864,
      "step": 52445
    },
    {
      "epoch": 7.812034554661901,
      "grad_norm": 77.35350799560547,
      "learning_rate": 3.820397270838064e-05,
      "loss": 0.556,
      "num_input_tokens_seen": 30437808,
      "step": 52450
    },
    {
      "epoch": 7.81277926720286,
      "grad_norm": 0.021562833338975906,
      "learning_rate": 3.820121336508113e-05,
      "loss": 0.1745,
      "num_input_tokens_seen": 30440752,
      "step": 52455
    },
    {
      "epoch": 7.8135239797438185,
      "grad_norm": 1.5195891857147217,
      "learning_rate": 3.819845379876054e-05,
      "loss": 0.2834,
      "num_input_tokens_seen": 30443984,
      "step": 52460
    },
    {
      "epoch": 7.814268692284778,
      "grad_norm": 0.007738384883850813,
      "learning_rate": 3.8195694009465486e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 30446736,
      "step": 52465
    },
    {
      "epoch": 7.815013404825737,
      "grad_norm": 97.83260345458984,
      "learning_rate": 3.819293399724259e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 30449488,
      "step": 52470
    },
    {
      "epoch": 7.815758117366697,
      "grad_norm": 0.11644378304481506,
      "learning_rate": 3.819017376213848e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 30452528,
      "step": 52475
    },
    {
      "epoch": 7.816502829907655,
      "grad_norm": 0.03347349539399147,
      "learning_rate": 3.8187413304199796e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 30455184,
      "step": 52480
    },
    {
      "epoch": 7.817247542448615,
      "grad_norm": 137.1365203857422,
      "learning_rate": 3.818465262347316e-05,
      "loss": 0.0312,
      "num_input_tokens_seen": 30457840,
      "step": 52485
    },
    {
      "epoch": 7.817992254989574,
      "grad_norm": 85.08708190917969,
      "learning_rate": 3.818189172000522e-05,
      "loss": 0.4099,
      "num_input_tokens_seen": 30460592,
      "step": 52490
    },
    {
      "epoch": 7.818736967530533,
      "grad_norm": 15.088455200195312,
      "learning_rate": 3.8179130593842626e-05,
      "loss": 0.2004,
      "num_input_tokens_seen": 30463504,
      "step": 52495
    },
    {
      "epoch": 7.819481680071492,
      "grad_norm": 0.30578210949897766,
      "learning_rate": 3.8176369245032006e-05,
      "loss": 0.2407,
      "num_input_tokens_seen": 30466576,
      "step": 52500
    },
    {
      "epoch": 7.820226392612452,
      "grad_norm": 49.30288314819336,
      "learning_rate": 3.817360767362003e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 30469584,
      "step": 52505
    },
    {
      "epoch": 7.8209711051534105,
      "grad_norm": 0.25500020384788513,
      "learning_rate": 3.817084587965333e-05,
      "loss": 0.2081,
      "num_input_tokens_seen": 30472496,
      "step": 52510
    },
    {
      "epoch": 7.82171581769437,
      "grad_norm": 0.013706219382584095,
      "learning_rate": 3.8168083863178586e-05,
      "loss": 0.132,
      "num_input_tokens_seen": 30475280,
      "step": 52515
    },
    {
      "epoch": 7.822460530235329,
      "grad_norm": 0.1243332102894783,
      "learning_rate": 3.8165321624242434e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 30478480,
      "step": 52520
    },
    {
      "epoch": 7.823205242776289,
      "grad_norm": 0.10855022072792053,
      "learning_rate": 3.816255916289156e-05,
      "loss": 0.0987,
      "num_input_tokens_seen": 30481072,
      "step": 52525
    },
    {
      "epoch": 7.823949955317247,
      "grad_norm": 47.53890609741211,
      "learning_rate": 3.8159796479172626e-05,
      "loss": 0.6866,
      "num_input_tokens_seen": 30484016,
      "step": 52530
    },
    {
      "epoch": 7.824694667858207,
      "grad_norm": 14.032461166381836,
      "learning_rate": 3.815703357313231e-05,
      "loss": 0.2393,
      "num_input_tokens_seen": 30487056,
      "step": 52535
    },
    {
      "epoch": 7.825439380399166,
      "grad_norm": 15.543792724609375,
      "learning_rate": 3.8154270444817285e-05,
      "loss": 0.1529,
      "num_input_tokens_seen": 30490096,
      "step": 52540
    },
    {
      "epoch": 7.826184092940125,
      "grad_norm": 7.978639602661133,
      "learning_rate": 3.815150709427423e-05,
      "loss": 0.0465,
      "num_input_tokens_seen": 30493200,
      "step": 52545
    },
    {
      "epoch": 7.826928805481084,
      "grad_norm": 0.022661982104182243,
      "learning_rate": 3.8148743521549824e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 30496304,
      "step": 52550
    },
    {
      "epoch": 7.827673518022044,
      "grad_norm": 0.04910934343934059,
      "learning_rate": 3.814597972669076e-05,
      "loss": 0.2135,
      "num_input_tokens_seen": 30499312,
      "step": 52555
    },
    {
      "epoch": 7.828418230563003,
      "grad_norm": 0.1388968974351883,
      "learning_rate": 3.814321570974373e-05,
      "loss": 0.0235,
      "num_input_tokens_seen": 30502256,
      "step": 52560
    },
    {
      "epoch": 7.829162943103962,
      "grad_norm": 86.50180053710938,
      "learning_rate": 3.814045147075543e-05,
      "loss": 0.2854,
      "num_input_tokens_seen": 30505104,
      "step": 52565
    },
    {
      "epoch": 7.829907655644921,
      "grad_norm": 18.381649017333984,
      "learning_rate": 3.813768700977256e-05,
      "loss": 0.0886,
      "num_input_tokens_seen": 30509136,
      "step": 52570
    },
    {
      "epoch": 7.830652368185881,
      "grad_norm": 18.71040153503418,
      "learning_rate": 3.813492232684182e-05,
      "loss": 0.3105,
      "num_input_tokens_seen": 30512528,
      "step": 52575
    },
    {
      "epoch": 7.831397080726839,
      "grad_norm": 0.050706833600997925,
      "learning_rate": 3.813215742200992e-05,
      "loss": 0.2187,
      "num_input_tokens_seen": 30515472,
      "step": 52580
    },
    {
      "epoch": 7.832141793267798,
      "grad_norm": 17.138378143310547,
      "learning_rate": 3.8129392295323566e-05,
      "loss": 0.1345,
      "num_input_tokens_seen": 30518224,
      "step": 52585
    },
    {
      "epoch": 7.832886505808758,
      "grad_norm": 0.3797377943992615,
      "learning_rate": 3.812662694682946e-05,
      "loss": 0.0789,
      "num_input_tokens_seen": 30521136,
      "step": 52590
    },
    {
      "epoch": 7.833631218349717,
      "grad_norm": 7.133986473083496,
      "learning_rate": 3.8123861376574344e-05,
      "loss": 0.1763,
      "num_input_tokens_seen": 30524016,
      "step": 52595
    },
    {
      "epoch": 7.834375930890676,
      "grad_norm": 0.07206447422504425,
      "learning_rate": 3.8121095584604925e-05,
      "loss": 0.1405,
      "num_input_tokens_seen": 30526704,
      "step": 52600
    },
    {
      "epoch": 7.835120643431635,
      "grad_norm": 0.022721992805600166,
      "learning_rate": 3.811832957096794e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 30529648,
      "step": 52605
    },
    {
      "epoch": 7.835865355972595,
      "grad_norm": 0.10564494132995605,
      "learning_rate": 3.81155633357101e-05,
      "loss": 0.0386,
      "num_input_tokens_seen": 30532656,
      "step": 52610
    },
    {
      "epoch": 7.836610068513554,
      "grad_norm": 76.80599212646484,
      "learning_rate": 3.8112796878878155e-05,
      "loss": 0.6082,
      "num_input_tokens_seen": 30535216,
      "step": 52615
    },
    {
      "epoch": 7.837354781054513,
      "grad_norm": 44.8814582824707,
      "learning_rate": 3.811003020051883e-05,
      "loss": 0.0311,
      "num_input_tokens_seen": 30537872,
      "step": 52620
    },
    {
      "epoch": 7.838099493595472,
      "grad_norm": 3.533630132675171,
      "learning_rate": 3.8107263300678874e-05,
      "loss": 0.6029,
      "num_input_tokens_seen": 30540656,
      "step": 52625
    },
    {
      "epoch": 7.838844206136431,
      "grad_norm": 0.06548156589269638,
      "learning_rate": 3.810449617940502e-05,
      "loss": 0.3496,
      "num_input_tokens_seen": 30543536,
      "step": 52630
    },
    {
      "epoch": 7.83958891867739,
      "grad_norm": 2.378146171569824,
      "learning_rate": 3.810172883674402e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 30546416,
      "step": 52635
    },
    {
      "epoch": 7.84033363121835,
      "grad_norm": 0.03048979490995407,
      "learning_rate": 3.809896127274264e-05,
      "loss": 0.2008,
      "num_input_tokens_seen": 30549296,
      "step": 52640
    },
    {
      "epoch": 7.841078343759309,
      "grad_norm": 22.014013290405273,
      "learning_rate": 3.8096193487447604e-05,
      "loss": 0.1656,
      "num_input_tokens_seen": 30552080,
      "step": 52645
    },
    {
      "epoch": 7.841823056300268,
      "grad_norm": 21.083545684814453,
      "learning_rate": 3.8093425480905706e-05,
      "loss": 0.1684,
      "num_input_tokens_seen": 30555312,
      "step": 52650
    },
    {
      "epoch": 7.842567768841227,
      "grad_norm": 0.03505542501807213,
      "learning_rate": 3.809065725316368e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 30558288,
      "step": 52655
    },
    {
      "epoch": 7.843312481382187,
      "grad_norm": 55.747467041015625,
      "learning_rate": 3.808788880426831e-05,
      "loss": 0.4786,
      "num_input_tokens_seen": 30561168,
      "step": 52660
    },
    {
      "epoch": 7.844057193923145,
      "grad_norm": 0.024909229949116707,
      "learning_rate": 3.8085120134266364e-05,
      "loss": 0.0283,
      "num_input_tokens_seen": 30564176,
      "step": 52665
    },
    {
      "epoch": 7.844801906464105,
      "grad_norm": 56.723793029785156,
      "learning_rate": 3.8082351243204605e-05,
      "loss": 0.185,
      "num_input_tokens_seen": 30566960,
      "step": 52670
    },
    {
      "epoch": 7.845546619005064,
      "grad_norm": 38.58413314819336,
      "learning_rate": 3.8079582131129826e-05,
      "loss": 0.3807,
      "num_input_tokens_seen": 30569872,
      "step": 52675
    },
    {
      "epoch": 7.846291331546023,
      "grad_norm": 0.16717638075351715,
      "learning_rate": 3.8076812798088796e-05,
      "loss": 0.0237,
      "num_input_tokens_seen": 30573136,
      "step": 52680
    },
    {
      "epoch": 7.847036044086982,
      "grad_norm": 1.6786750555038452,
      "learning_rate": 3.80740432441283e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 30575888,
      "step": 52685
    },
    {
      "epoch": 7.847780756627942,
      "grad_norm": 67.85467529296875,
      "learning_rate": 3.807127346929514e-05,
      "loss": 0.2514,
      "num_input_tokens_seen": 30578576,
      "step": 52690
    },
    {
      "epoch": 7.848525469168901,
      "grad_norm": 0.011531547643244267,
      "learning_rate": 3.806850347363609e-05,
      "loss": 0.156,
      "num_input_tokens_seen": 30581360,
      "step": 52695
    },
    {
      "epoch": 7.84927018170986,
      "grad_norm": 0.412676602602005,
      "learning_rate": 3.8065733257197964e-05,
      "loss": 0.4278,
      "num_input_tokens_seen": 30584208,
      "step": 52700
    },
    {
      "epoch": 7.850014894250819,
      "grad_norm": 111.89092254638672,
      "learning_rate": 3.806296282002756e-05,
      "loss": 0.1379,
      "num_input_tokens_seen": 30587088,
      "step": 52705
    },
    {
      "epoch": 7.850759606791779,
      "grad_norm": 113.85226440429688,
      "learning_rate": 3.8060192162171664e-05,
      "loss": 0.2601,
      "num_input_tokens_seen": 30589968,
      "step": 52710
    },
    {
      "epoch": 7.851504319332737,
      "grad_norm": 152.59799194335938,
      "learning_rate": 3.80574212836771e-05,
      "loss": 0.0559,
      "num_input_tokens_seen": 30592848,
      "step": 52715
    },
    {
      "epoch": 7.852249031873697,
      "grad_norm": 0.10715419799089432,
      "learning_rate": 3.805465018459067e-05,
      "loss": 0.2135,
      "num_input_tokens_seen": 30595824,
      "step": 52720
    },
    {
      "epoch": 7.852993744414656,
      "grad_norm": 6.836451530456543,
      "learning_rate": 3.8051878864959194e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 30598832,
      "step": 52725
    },
    {
      "epoch": 7.8537384569556155,
      "grad_norm": 0.031978145241737366,
      "learning_rate": 3.804910732482949e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 30601584,
      "step": 52730
    },
    {
      "epoch": 7.854483169496574,
      "grad_norm": 0.056750643998384476,
      "learning_rate": 3.804633556424839e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 30604592,
      "step": 52735
    },
    {
      "epoch": 7.855227882037534,
      "grad_norm": 41.944908142089844,
      "learning_rate": 3.804356358326271e-05,
      "loss": 0.246,
      "num_input_tokens_seen": 30607632,
      "step": 52740
    },
    {
      "epoch": 7.855972594578493,
      "grad_norm": 0.04624250903725624,
      "learning_rate": 3.804079138191927e-05,
      "loss": 0.1262,
      "num_input_tokens_seen": 30610192,
      "step": 52745
    },
    {
      "epoch": 7.856717307119452,
      "grad_norm": 6.958520889282227,
      "learning_rate": 3.803801896026491e-05,
      "loss": 0.1463,
      "num_input_tokens_seen": 30612848,
      "step": 52750
    },
    {
      "epoch": 7.857462019660411,
      "grad_norm": 46.0215950012207,
      "learning_rate": 3.803524631834648e-05,
      "loss": 0.3213,
      "num_input_tokens_seen": 30615888,
      "step": 52755
    },
    {
      "epoch": 7.858206732201371,
      "grad_norm": 33.54367446899414,
      "learning_rate": 3.8032473456210805e-05,
      "loss": 0.2264,
      "num_input_tokens_seen": 30618928,
      "step": 52760
    },
    {
      "epoch": 7.858951444742329,
      "grad_norm": 26.523134231567383,
      "learning_rate": 3.8029700373904744e-05,
      "loss": 0.0452,
      "num_input_tokens_seen": 30622256,
      "step": 52765
    },
    {
      "epoch": 7.859696157283288,
      "grad_norm": 1.3754276037216187,
      "learning_rate": 3.802692707147514e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 30625040,
      "step": 52770
    },
    {
      "epoch": 7.860440869824248,
      "grad_norm": 19.98351287841797,
      "learning_rate": 3.8024153548968835e-05,
      "loss": 0.0117,
      "num_input_tokens_seen": 30627728,
      "step": 52775
    },
    {
      "epoch": 7.8611855823652075,
      "grad_norm": 3.448061227798462,
      "learning_rate": 3.80213798064327e-05,
      "loss": 0.369,
      "num_input_tokens_seen": 30630704,
      "step": 52780
    },
    {
      "epoch": 7.861930294906166,
      "grad_norm": 57.046077728271484,
      "learning_rate": 3.801860584391358e-05,
      "loss": 0.6564,
      "num_input_tokens_seen": 30633712,
      "step": 52785
    },
    {
      "epoch": 7.862675007447125,
      "grad_norm": 0.01504552736878395,
      "learning_rate": 3.801583166145835e-05,
      "loss": 0.163,
      "num_input_tokens_seen": 30636272,
      "step": 52790
    },
    {
      "epoch": 7.863419719988085,
      "grad_norm": 0.07569523900747299,
      "learning_rate": 3.801305725911387e-05,
      "loss": 0.0549,
      "num_input_tokens_seen": 30639504,
      "step": 52795
    },
    {
      "epoch": 7.864164432529043,
      "grad_norm": 29.666885375976562,
      "learning_rate": 3.8010282636927016e-05,
      "loss": 0.3276,
      "num_input_tokens_seen": 30642256,
      "step": 52800
    },
    {
      "epoch": 7.864909145070003,
      "grad_norm": 17.434049606323242,
      "learning_rate": 3.800750779494466e-05,
      "loss": 0.3504,
      "num_input_tokens_seen": 30645264,
      "step": 52805
    },
    {
      "epoch": 7.865653857610962,
      "grad_norm": 0.1459295004606247,
      "learning_rate": 3.8004732733213674e-05,
      "loss": 0.1253,
      "num_input_tokens_seen": 30648272,
      "step": 52810
    },
    {
      "epoch": 7.8663985701519215,
      "grad_norm": 2.1376912593841553,
      "learning_rate": 3.8001957451780956e-05,
      "loss": 0.1109,
      "num_input_tokens_seen": 30651408,
      "step": 52815
    },
    {
      "epoch": 7.86714328269288,
      "grad_norm": 12.302586555480957,
      "learning_rate": 3.799918195069338e-05,
      "loss": 0.0178,
      "num_input_tokens_seen": 30654384,
      "step": 52820
    },
    {
      "epoch": 7.86788799523384,
      "grad_norm": 8.752766609191895,
      "learning_rate": 3.799640622999784e-05,
      "loss": 0.2456,
      "num_input_tokens_seen": 30657136,
      "step": 52825
    },
    {
      "epoch": 7.868632707774799,
      "grad_norm": 38.96780014038086,
      "learning_rate": 3.799363028974121e-05,
      "loss": 0.2599,
      "num_input_tokens_seen": 30659760,
      "step": 52830
    },
    {
      "epoch": 7.869377420315758,
      "grad_norm": 0.015334689058363438,
      "learning_rate": 3.799085412997041e-05,
      "loss": 0.353,
      "num_input_tokens_seen": 30662704,
      "step": 52835
    },
    {
      "epoch": 7.870122132856717,
      "grad_norm": 1.1619198322296143,
      "learning_rate": 3.798807775073234e-05,
      "loss": 0.2996,
      "num_input_tokens_seen": 30665680,
      "step": 52840
    },
    {
      "epoch": 7.870866845397677,
      "grad_norm": 0.33344340324401855,
      "learning_rate": 3.7985301152073896e-05,
      "loss": 0.0171,
      "num_input_tokens_seen": 30668400,
      "step": 52845
    },
    {
      "epoch": 7.871611557938635,
      "grad_norm": 0.0455380454659462,
      "learning_rate": 3.798252433404198e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 30671344,
      "step": 52850
    },
    {
      "epoch": 7.872356270479595,
      "grad_norm": 21.43890380859375,
      "learning_rate": 3.797974729668351e-05,
      "loss": 0.3106,
      "num_input_tokens_seen": 30674128,
      "step": 52855
    },
    {
      "epoch": 7.873100983020554,
      "grad_norm": 0.01833905652165413,
      "learning_rate": 3.7976970040045404e-05,
      "loss": 0.2641,
      "num_input_tokens_seen": 30677200,
      "step": 52860
    },
    {
      "epoch": 7.8738456955615135,
      "grad_norm": 23.397510528564453,
      "learning_rate": 3.797419256417458e-05,
      "loss": 0.3929,
      "num_input_tokens_seen": 30680240,
      "step": 52865
    },
    {
      "epoch": 7.874590408102472,
      "grad_norm": 15.085554122924805,
      "learning_rate": 3.797141486911796e-05,
      "loss": 0.1259,
      "num_input_tokens_seen": 30682864,
      "step": 52870
    },
    {
      "epoch": 7.875335120643432,
      "grad_norm": 6.944859981536865,
      "learning_rate": 3.796863695492247e-05,
      "loss": 0.0368,
      "num_input_tokens_seen": 30685968,
      "step": 52875
    },
    {
      "epoch": 7.876079833184391,
      "grad_norm": 0.02191365696489811,
      "learning_rate": 3.796585882163503e-05,
      "loss": 0.3533,
      "num_input_tokens_seen": 30688688,
      "step": 52880
    },
    {
      "epoch": 7.87682454572535,
      "grad_norm": 0.103965163230896,
      "learning_rate": 3.796308046930258e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 30692112,
      "step": 52885
    },
    {
      "epoch": 7.877569258266309,
      "grad_norm": 0.9151871204376221,
      "learning_rate": 3.796030189797207e-05,
      "loss": 0.0702,
      "num_input_tokens_seen": 30695024,
      "step": 52890
    },
    {
      "epoch": 7.878313970807269,
      "grad_norm": 0.18260321021080017,
      "learning_rate": 3.795752310769044e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 30697808,
      "step": 52895
    },
    {
      "epoch": 7.8790586833482275,
      "grad_norm": 51.078800201416016,
      "learning_rate": 3.795474409850462e-05,
      "loss": 0.1649,
      "num_input_tokens_seen": 30700880,
      "step": 52900
    },
    {
      "epoch": 7.879803395889187,
      "grad_norm": 17.232479095458984,
      "learning_rate": 3.795196487046157e-05,
      "loss": 0.1861,
      "num_input_tokens_seen": 30703792,
      "step": 52905
    },
    {
      "epoch": 7.880548108430146,
      "grad_norm": 0.07386620342731476,
      "learning_rate": 3.794918542360822e-05,
      "loss": 0.131,
      "num_input_tokens_seen": 30706608,
      "step": 52910
    },
    {
      "epoch": 7.8812928209711055,
      "grad_norm": 15.51562213897705,
      "learning_rate": 3.7946405757991556e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 30709392,
      "step": 52915
    },
    {
      "epoch": 7.882037533512064,
      "grad_norm": 0.04599696770310402,
      "learning_rate": 3.7943625873658515e-05,
      "loss": 0.0706,
      "num_input_tokens_seen": 30712016,
      "step": 52920
    },
    {
      "epoch": 7.882782246053024,
      "grad_norm": 3.075800657272339,
      "learning_rate": 3.7940845770656085e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 30715056,
      "step": 52925
    },
    {
      "epoch": 7.883526958593983,
      "grad_norm": 48.73860168457031,
      "learning_rate": 3.7938065449031206e-05,
      "loss": 0.0968,
      "num_input_tokens_seen": 30717744,
      "step": 52930
    },
    {
      "epoch": 7.884271671134941,
      "grad_norm": 0.018921276554465294,
      "learning_rate": 3.793528490883087e-05,
      "loss": 0.1506,
      "num_input_tokens_seen": 30720688,
      "step": 52935
    },
    {
      "epoch": 7.885016383675901,
      "grad_norm": 3.8078134059906006,
      "learning_rate": 3.7932504150102045e-05,
      "loss": 0.2052,
      "num_input_tokens_seen": 30723376,
      "step": 52940
    },
    {
      "epoch": 7.885761096216861,
      "grad_norm": 4.459933757781982,
      "learning_rate": 3.7929723172891696e-05,
      "loss": 0.0377,
      "num_input_tokens_seen": 30726256,
      "step": 52945
    },
    {
      "epoch": 7.8865058087578195,
      "grad_norm": 2.196784019470215,
      "learning_rate": 3.792694197724682e-05,
      "loss": 0.1907,
      "num_input_tokens_seen": 30728976,
      "step": 52950
    },
    {
      "epoch": 7.887250521298778,
      "grad_norm": 6.649289131164551,
      "learning_rate": 3.7924160563214395e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 30731856,
      "step": 52955
    },
    {
      "epoch": 7.887995233839738,
      "grad_norm": 1.9020079374313354,
      "learning_rate": 3.792137893084141e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 30734736,
      "step": 52960
    },
    {
      "epoch": 7.8887399463806975,
      "grad_norm": 20.915048599243164,
      "learning_rate": 3.791859708017486e-05,
      "loss": 0.1287,
      "num_input_tokens_seen": 30737712,
      "step": 52965
    },
    {
      "epoch": 7.889484658921656,
      "grad_norm": 0.23541569709777832,
      "learning_rate": 3.791581501126175e-05,
      "loss": 0.1088,
      "num_input_tokens_seen": 30740432,
      "step": 52970
    },
    {
      "epoch": 7.890229371462615,
      "grad_norm": 0.046326883137226105,
      "learning_rate": 3.791303272414907e-05,
      "loss": 0.3486,
      "num_input_tokens_seen": 30743280,
      "step": 52975
    },
    {
      "epoch": 7.890974084003575,
      "grad_norm": 0.05439857020974159,
      "learning_rate": 3.791025021888382e-05,
      "loss": 0.0713,
      "num_input_tokens_seen": 30746864,
      "step": 52980
    },
    {
      "epoch": 7.8917187965445335,
      "grad_norm": 38.52159881591797,
      "learning_rate": 3.7907467495513026e-05,
      "loss": 0.0769,
      "num_input_tokens_seen": 30749520,
      "step": 52985
    },
    {
      "epoch": 7.892463509085493,
      "grad_norm": 0.013558969832956791,
      "learning_rate": 3.790468455408368e-05,
      "loss": 0.0409,
      "num_input_tokens_seen": 30752656,
      "step": 52990
    },
    {
      "epoch": 7.893208221626452,
      "grad_norm": 4.353541374206543,
      "learning_rate": 3.79019013946428e-05,
      "loss": 0.2199,
      "num_input_tokens_seen": 30755536,
      "step": 52995
    },
    {
      "epoch": 7.8939529341674115,
      "grad_norm": 33.79231643676758,
      "learning_rate": 3.789911801723742e-05,
      "loss": 0.1814,
      "num_input_tokens_seen": 30758320,
      "step": 53000
    },
    {
      "epoch": 7.89469764670837,
      "grad_norm": 1.8035436868667603,
      "learning_rate": 3.789633442191455e-05,
      "loss": 0.5392,
      "num_input_tokens_seen": 30761328,
      "step": 53005
    },
    {
      "epoch": 7.89544235924933,
      "grad_norm": 0.015550968237221241,
      "learning_rate": 3.7893550608721206e-05,
      "loss": 0.0312,
      "num_input_tokens_seen": 30764400,
      "step": 53010
    },
    {
      "epoch": 7.896187071790289,
      "grad_norm": 0.026548346504569054,
      "learning_rate": 3.789076657770444e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 30767280,
      "step": 53015
    },
    {
      "epoch": 7.896931784331248,
      "grad_norm": 0.21815671026706696,
      "learning_rate": 3.788798232891127e-05,
      "loss": 0.1112,
      "num_input_tokens_seen": 30770160,
      "step": 53020
    },
    {
      "epoch": 7.897676496872207,
      "grad_norm": 2.118335008621216,
      "learning_rate": 3.788519786238873e-05,
      "loss": 0.1144,
      "num_input_tokens_seen": 30772944,
      "step": 53025
    },
    {
      "epoch": 7.898421209413167,
      "grad_norm": 39.51840591430664,
      "learning_rate": 3.788241317818388e-05,
      "loss": 0.3117,
      "num_input_tokens_seen": 30775824,
      "step": 53030
    },
    {
      "epoch": 7.8991659219541255,
      "grad_norm": 31.978111267089844,
      "learning_rate": 3.7879628276343746e-05,
      "loss": 0.3903,
      "num_input_tokens_seen": 30778768,
      "step": 53035
    },
    {
      "epoch": 7.899910634495085,
      "grad_norm": 52.0217399597168,
      "learning_rate": 3.787684315691539e-05,
      "loss": 0.1935,
      "num_input_tokens_seen": 30781840,
      "step": 53040
    },
    {
      "epoch": 7.900655347036044,
      "grad_norm": 16.675621032714844,
      "learning_rate": 3.787405781994584e-05,
      "loss": 0.2598,
      "num_input_tokens_seen": 30784592,
      "step": 53045
    },
    {
      "epoch": 7.9014000595770035,
      "grad_norm": 0.04237956181168556,
      "learning_rate": 3.7871272265482184e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 30787440,
      "step": 53050
    },
    {
      "epoch": 7.902144772117962,
      "grad_norm": 18.73307228088379,
      "learning_rate": 3.786848649357145e-05,
      "loss": 0.0433,
      "num_input_tokens_seen": 30790096,
      "step": 53055
    },
    {
      "epoch": 7.902889484658922,
      "grad_norm": 0.023303577676415443,
      "learning_rate": 3.786570050426073e-05,
      "loss": 0.1749,
      "num_input_tokens_seen": 30793136,
      "step": 53060
    },
    {
      "epoch": 7.903634197199881,
      "grad_norm": 29.619949340820312,
      "learning_rate": 3.7862914297597075e-05,
      "loss": 0.1351,
      "num_input_tokens_seen": 30796336,
      "step": 53065
    },
    {
      "epoch": 7.90437890974084,
      "grad_norm": 59.63184356689453,
      "learning_rate": 3.7860127873627546e-05,
      "loss": 0.1529,
      "num_input_tokens_seen": 30799056,
      "step": 53070
    },
    {
      "epoch": 7.905123622281799,
      "grad_norm": 0.1558607667684555,
      "learning_rate": 3.785734123239924e-05,
      "loss": 0.0682,
      "num_input_tokens_seen": 30801968,
      "step": 53075
    },
    {
      "epoch": 7.905868334822759,
      "grad_norm": 0.08098656684160233,
      "learning_rate": 3.785455437395921e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 30804848,
      "step": 53080
    },
    {
      "epoch": 7.9066130473637175,
      "grad_norm": 0.08942246437072754,
      "learning_rate": 3.7851767298354554e-05,
      "loss": 0.2862,
      "num_input_tokens_seen": 30807568,
      "step": 53085
    },
    {
      "epoch": 7.907357759904677,
      "grad_norm": 0.34197503328323364,
      "learning_rate": 3.7848980005632344e-05,
      "loss": 0.2224,
      "num_input_tokens_seen": 30810384,
      "step": 53090
    },
    {
      "epoch": 7.908102472445636,
      "grad_norm": 0.05362347513437271,
      "learning_rate": 3.7846192495839686e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 30813360,
      "step": 53095
    },
    {
      "epoch": 7.908847184986596,
      "grad_norm": 0.1563960760831833,
      "learning_rate": 3.784340476902366e-05,
      "loss": 0.1272,
      "num_input_tokens_seen": 30816272,
      "step": 53100
    },
    {
      "epoch": 7.909591897527554,
      "grad_norm": 1.9635014533996582,
      "learning_rate": 3.7840616825231365e-05,
      "loss": 0.181,
      "num_input_tokens_seen": 30819376,
      "step": 53105
    },
    {
      "epoch": 7.910336610068514,
      "grad_norm": 104.81269836425781,
      "learning_rate": 3.783782866450989e-05,
      "loss": 0.3215,
      "num_input_tokens_seen": 30822256,
      "step": 53110
    },
    {
      "epoch": 7.911081322609473,
      "grad_norm": 44.56547546386719,
      "learning_rate": 3.783504028690635e-05,
      "loss": 0.1395,
      "num_input_tokens_seen": 30825712,
      "step": 53115
    },
    {
      "epoch": 7.9118260351504315,
      "grad_norm": 0.15905752778053284,
      "learning_rate": 3.783225169246786e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 30828496,
      "step": 53120
    },
    {
      "epoch": 7.912570747691391,
      "grad_norm": 31.457983016967773,
      "learning_rate": 3.782946288124151e-05,
      "loss": 0.5908,
      "num_input_tokens_seen": 30831536,
      "step": 53125
    },
    {
      "epoch": 7.913315460232351,
      "grad_norm": 65.91250610351562,
      "learning_rate": 3.782667385327442e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 30834512,
      "step": 53130
    },
    {
      "epoch": 7.9140601727733095,
      "grad_norm": 82.74118041992188,
      "learning_rate": 3.782388460861372e-05,
      "loss": 0.1822,
      "num_input_tokens_seen": 30837488,
      "step": 53135
    },
    {
      "epoch": 7.914804885314268,
      "grad_norm": 25.81281280517578,
      "learning_rate": 3.7821095147306527e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 30840240,
      "step": 53140
    },
    {
      "epoch": 7.915549597855228,
      "grad_norm": 17.506929397583008,
      "learning_rate": 3.781830546939996e-05,
      "loss": 0.2046,
      "num_input_tokens_seen": 30842928,
      "step": 53145
    },
    {
      "epoch": 7.916294310396187,
      "grad_norm": 52.68329620361328,
      "learning_rate": 3.781551557494115e-05,
      "loss": 0.182,
      "num_input_tokens_seen": 30846000,
      "step": 53150
    },
    {
      "epoch": 7.917039022937146,
      "grad_norm": 7.199722766876221,
      "learning_rate": 3.7812725463977225e-05,
      "loss": 0.1742,
      "num_input_tokens_seen": 30848624,
      "step": 53155
    },
    {
      "epoch": 7.917783735478105,
      "grad_norm": 39.77614974975586,
      "learning_rate": 3.7809935136555326e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 30851408,
      "step": 53160
    },
    {
      "epoch": 7.918528448019065,
      "grad_norm": 0.17330053448677063,
      "learning_rate": 3.780714459272259e-05,
      "loss": 0.0163,
      "num_input_tokens_seen": 30854288,
      "step": 53165
    },
    {
      "epoch": 7.9192731605600235,
      "grad_norm": 0.9752852916717529,
      "learning_rate": 3.780435383252617e-05,
      "loss": 0.4368,
      "num_input_tokens_seen": 30857296,
      "step": 53170
    },
    {
      "epoch": 7.920017873100983,
      "grad_norm": 0.4260392487049103,
      "learning_rate": 3.78015628560132e-05,
      "loss": 0.0933,
      "num_input_tokens_seen": 30859984,
      "step": 53175
    },
    {
      "epoch": 7.920762585641942,
      "grad_norm": 18.86469841003418,
      "learning_rate": 3.779877166323084e-05,
      "loss": 0.361,
      "num_input_tokens_seen": 30862992,
      "step": 53180
    },
    {
      "epoch": 7.921507298182902,
      "grad_norm": 0.006679137237370014,
      "learning_rate": 3.779598025422624e-05,
      "loss": 0.0534,
      "num_input_tokens_seen": 30866224,
      "step": 53185
    },
    {
      "epoch": 7.92225201072386,
      "grad_norm": 10.099030494689941,
      "learning_rate": 3.779318862904656e-05,
      "loss": 0.0158,
      "num_input_tokens_seen": 30868912,
      "step": 53190
    },
    {
      "epoch": 7.92299672326482,
      "grad_norm": 28.732606887817383,
      "learning_rate": 3.779039678773896e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 30871632,
      "step": 53195
    },
    {
      "epoch": 7.923741435805779,
      "grad_norm": 10.836870193481445,
      "learning_rate": 3.77876047303506e-05,
      "loss": 0.3147,
      "num_input_tokens_seen": 30874416,
      "step": 53200
    },
    {
      "epoch": 7.924486148346738,
      "grad_norm": 2.8504116535186768,
      "learning_rate": 3.778481245692866e-05,
      "loss": 0.2121,
      "num_input_tokens_seen": 30877200,
      "step": 53205
    },
    {
      "epoch": 7.925230860887697,
      "grad_norm": 0.1777527779340744,
      "learning_rate": 3.7782019967520305e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 30880112,
      "step": 53210
    },
    {
      "epoch": 7.925975573428657,
      "grad_norm": 0.41567090153694153,
      "learning_rate": 3.777922726217271e-05,
      "loss": 0.0686,
      "num_input_tokens_seen": 30882864,
      "step": 53215
    },
    {
      "epoch": 7.9267202859696155,
      "grad_norm": 29.50619125366211,
      "learning_rate": 3.7776434340933065e-05,
      "loss": 0.0761,
      "num_input_tokens_seen": 30885552,
      "step": 53220
    },
    {
      "epoch": 7.927464998510575,
      "grad_norm": 4.024830341339111,
      "learning_rate": 3.7773641203848554e-05,
      "loss": 0.2397,
      "num_input_tokens_seen": 30888496,
      "step": 53225
    },
    {
      "epoch": 7.928209711051534,
      "grad_norm": 0.2957756221294403,
      "learning_rate": 3.7770847850966354e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 30891632,
      "step": 53230
    },
    {
      "epoch": 7.928954423592494,
      "grad_norm": 51.011375427246094,
      "learning_rate": 3.7768054282333655e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 30894384,
      "step": 53235
    },
    {
      "epoch": 7.929699136133452,
      "grad_norm": 0.02664066292345524,
      "learning_rate": 3.776526049799765e-05,
      "loss": 0.3005,
      "num_input_tokens_seen": 30897328,
      "step": 53240
    },
    {
      "epoch": 7.930443848674412,
      "grad_norm": 19.470552444458008,
      "learning_rate": 3.7762466498005544e-05,
      "loss": 0.0856,
      "num_input_tokens_seen": 30900464,
      "step": 53245
    },
    {
      "epoch": 7.931188561215371,
      "grad_norm": 0.028434928506612778,
      "learning_rate": 3.7759672282404546e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 30903216,
      "step": 53250
    },
    {
      "epoch": 7.93193327375633,
      "grad_norm": 0.17809784412384033,
      "learning_rate": 3.775687785124185e-05,
      "loss": 0.0215,
      "num_input_tokens_seen": 30906256,
      "step": 53255
    },
    {
      "epoch": 7.932677986297289,
      "grad_norm": 39.50442886352539,
      "learning_rate": 3.775408320456466e-05,
      "loss": 0.0834,
      "num_input_tokens_seen": 30909264,
      "step": 53260
    },
    {
      "epoch": 7.933422698838249,
      "grad_norm": 38.67826461791992,
      "learning_rate": 3.775128834242021e-05,
      "loss": 0.3546,
      "num_input_tokens_seen": 30911920,
      "step": 53265
    },
    {
      "epoch": 7.934167411379208,
      "grad_norm": 27.224098205566406,
      "learning_rate": 3.77484932648557e-05,
      "loss": 0.1927,
      "num_input_tokens_seen": 30914544,
      "step": 53270
    },
    {
      "epoch": 7.934912123920167,
      "grad_norm": 0.24474097788333893,
      "learning_rate": 3.774569797191835e-05,
      "loss": 0.2062,
      "num_input_tokens_seen": 30917328,
      "step": 53275
    },
    {
      "epoch": 7.935656836461126,
      "grad_norm": 0.07195945829153061,
      "learning_rate": 3.774290246365539e-05,
      "loss": 0.2933,
      "num_input_tokens_seen": 30920400,
      "step": 53280
    },
    {
      "epoch": 7.936401549002085,
      "grad_norm": 2.9959282875061035,
      "learning_rate": 3.774010674011404e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 30923312,
      "step": 53285
    },
    {
      "epoch": 7.937146261543044,
      "grad_norm": 5.39731502532959,
      "learning_rate": 3.773731080134154e-05,
      "loss": 0.1526,
      "num_input_tokens_seen": 30926256,
      "step": 53290
    },
    {
      "epoch": 7.937890974084004,
      "grad_norm": 5.314699172973633,
      "learning_rate": 3.7734514647385114e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 30929008,
      "step": 53295
    },
    {
      "epoch": 7.938635686624963,
      "grad_norm": 7.656348705291748,
      "learning_rate": 3.773171827829201e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 30931760,
      "step": 53300
    },
    {
      "epoch": 7.9393803991659215,
      "grad_norm": 2.1107077598571777,
      "learning_rate": 3.772892169410947e-05,
      "loss": 0.162,
      "num_input_tokens_seen": 30934448,
      "step": 53305
    },
    {
      "epoch": 7.940125111706881,
      "grad_norm": 7.589142799377441,
      "learning_rate": 3.772612489488473e-05,
      "loss": 0.1008,
      "num_input_tokens_seen": 30937680,
      "step": 53310
    },
    {
      "epoch": 7.940869824247841,
      "grad_norm": 0.03660451993346214,
      "learning_rate": 3.772332788066504e-05,
      "loss": 0.0585,
      "num_input_tokens_seen": 30940368,
      "step": 53315
    },
    {
      "epoch": 7.9416145367888,
      "grad_norm": 0.045157890766859055,
      "learning_rate": 3.772053065149766e-05,
      "loss": 0.1636,
      "num_input_tokens_seen": 30943216,
      "step": 53320
    },
    {
      "epoch": 7.942359249329758,
      "grad_norm": 25.801956176757812,
      "learning_rate": 3.771773320742984e-05,
      "loss": 0.0376,
      "num_input_tokens_seen": 30946256,
      "step": 53325
    },
    {
      "epoch": 7.943103961870718,
      "grad_norm": 4.6581830978393555,
      "learning_rate": 3.7714935548508846e-05,
      "loss": 0.0816,
      "num_input_tokens_seen": 30949136,
      "step": 53330
    },
    {
      "epoch": 7.943848674411677,
      "grad_norm": 41.687164306640625,
      "learning_rate": 3.771213767478194e-05,
      "loss": 0.6804,
      "num_input_tokens_seen": 30951952,
      "step": 53335
    },
    {
      "epoch": 7.944593386952636,
      "grad_norm": 8.451859474182129,
      "learning_rate": 3.770933958629639e-05,
      "loss": 0.1404,
      "num_input_tokens_seen": 30954800,
      "step": 53340
    },
    {
      "epoch": 7.945338099493595,
      "grad_norm": 0.17927537858486176,
      "learning_rate": 3.7706541283099466e-05,
      "loss": 0.0163,
      "num_input_tokens_seen": 30957712,
      "step": 53345
    },
    {
      "epoch": 7.946082812034555,
      "grad_norm": 69.98204040527344,
      "learning_rate": 3.7703742765238436e-05,
      "loss": 0.4273,
      "num_input_tokens_seen": 30960784,
      "step": 53350
    },
    {
      "epoch": 7.946827524575514,
      "grad_norm": 0.43516266345977783,
      "learning_rate": 3.770094403276059e-05,
      "loss": 0.1329,
      "num_input_tokens_seen": 30964016,
      "step": 53355
    },
    {
      "epoch": 7.947572237116473,
      "grad_norm": 52.2036247253418,
      "learning_rate": 3.7698145085713196e-05,
      "loss": 0.3748,
      "num_input_tokens_seen": 30966864,
      "step": 53360
    },
    {
      "epoch": 7.948316949657432,
      "grad_norm": 1.7689074277877808,
      "learning_rate": 3.7695345924143555e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 30969776,
      "step": 53365
    },
    {
      "epoch": 7.949061662198392,
      "grad_norm": 0.011810606345534325,
      "learning_rate": 3.769254654809894e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 30972720,
      "step": 53370
    },
    {
      "epoch": 7.94980637473935,
      "grad_norm": 2.5261833667755127,
      "learning_rate": 3.768974695762665e-05,
      "loss": 0.0846,
      "num_input_tokens_seen": 30975376,
      "step": 53375
    },
    {
      "epoch": 7.95055108728031,
      "grad_norm": 0.13681544363498688,
      "learning_rate": 3.768694715277398e-05,
      "loss": 0.053,
      "num_input_tokens_seen": 30978384,
      "step": 53380
    },
    {
      "epoch": 7.951295799821269,
      "grad_norm": 0.02572147361934185,
      "learning_rate": 3.7684147133588245e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 30980976,
      "step": 53385
    },
    {
      "epoch": 7.952040512362228,
      "grad_norm": 0.2878980338573456,
      "learning_rate": 3.7681346900116726e-05,
      "loss": 0.3369,
      "num_input_tokens_seen": 30983824,
      "step": 53390
    },
    {
      "epoch": 7.952785224903187,
      "grad_norm": 3.7444989681243896,
      "learning_rate": 3.7678546452406736e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 30986768,
      "step": 53395
    },
    {
      "epoch": 7.953529937444147,
      "grad_norm": 0.013584723696112633,
      "learning_rate": 3.76757457905056e-05,
      "loss": 0.1683,
      "num_input_tokens_seen": 30989424,
      "step": 53400
    },
    {
      "epoch": 7.954274649985106,
      "grad_norm": 64.55286407470703,
      "learning_rate": 3.767294491446062e-05,
      "loss": 0.5172,
      "num_input_tokens_seen": 30992304,
      "step": 53405
    },
    {
      "epoch": 7.955019362526065,
      "grad_norm": 8.820162773132324,
      "learning_rate": 3.7670143824319116e-05,
      "loss": 0.1046,
      "num_input_tokens_seen": 30995280,
      "step": 53410
    },
    {
      "epoch": 7.955764075067024,
      "grad_norm": 0.17035003006458282,
      "learning_rate": 3.76673425201284e-05,
      "loss": 0.4022,
      "num_input_tokens_seen": 30998800,
      "step": 53415
    },
    {
      "epoch": 7.956508787607984,
      "grad_norm": 0.16723038256168365,
      "learning_rate": 3.766454100193581e-05,
      "loss": 0.4589,
      "num_input_tokens_seen": 31001808,
      "step": 53420
    },
    {
      "epoch": 7.957253500148942,
      "grad_norm": 20.591135025024414,
      "learning_rate": 3.7661739269788687e-05,
      "loss": 0.2908,
      "num_input_tokens_seen": 31004528,
      "step": 53425
    },
    {
      "epoch": 7.957998212689902,
      "grad_norm": 0.08910419791936874,
      "learning_rate": 3.765893732373433e-05,
      "loss": 0.3959,
      "num_input_tokens_seen": 31007280,
      "step": 53430
    },
    {
      "epoch": 7.958742925230861,
      "grad_norm": 0.34645622968673706,
      "learning_rate": 3.7656135163820105e-05,
      "loss": 0.1513,
      "num_input_tokens_seen": 31010352,
      "step": 53435
    },
    {
      "epoch": 7.9594876377718204,
      "grad_norm": 0.12350408732891083,
      "learning_rate": 3.7653332790093334e-05,
      "loss": 0.139,
      "num_input_tokens_seen": 31013008,
      "step": 53440
    },
    {
      "epoch": 7.960232350312779,
      "grad_norm": 10.412985801696777,
      "learning_rate": 3.765053020260137e-05,
      "loss": 0.2389,
      "num_input_tokens_seen": 31016016,
      "step": 53445
    },
    {
      "epoch": 7.960977062853738,
      "grad_norm": 0.02159712091088295,
      "learning_rate": 3.764772740139154e-05,
      "loss": 0.1109,
      "num_input_tokens_seen": 31018800,
      "step": 53450
    },
    {
      "epoch": 7.961721775394698,
      "grad_norm": 56.51329803466797,
      "learning_rate": 3.7644924386511225e-05,
      "loss": 0.2697,
      "num_input_tokens_seen": 31021712,
      "step": 53455
    },
    {
      "epoch": 7.962466487935657,
      "grad_norm": 0.24826906621456146,
      "learning_rate": 3.7642121158007756e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 31024784,
      "step": 53460
    },
    {
      "epoch": 7.963211200476616,
      "grad_norm": 0.30171746015548706,
      "learning_rate": 3.7639317715928514e-05,
      "loss": 0.1541,
      "num_input_tokens_seen": 31027696,
      "step": 53465
    },
    {
      "epoch": 7.963955913017575,
      "grad_norm": 39.45936584472656,
      "learning_rate": 3.763651406032083e-05,
      "loss": 0.0837,
      "num_input_tokens_seen": 31030448,
      "step": 53470
    },
    {
      "epoch": 7.964700625558534,
      "grad_norm": 118.85888671875,
      "learning_rate": 3.763371019123209e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 31033040,
      "step": 53475
    },
    {
      "epoch": 7.965445338099494,
      "grad_norm": 0.17302186787128448,
      "learning_rate": 3.7630906108709654e-05,
      "loss": 0.0474,
      "num_input_tokens_seen": 31035920,
      "step": 53480
    },
    {
      "epoch": 7.966190050640453,
      "grad_norm": 0.06803346425294876,
      "learning_rate": 3.76281018128009e-05,
      "loss": 0.0105,
      "num_input_tokens_seen": 31039216,
      "step": 53485
    },
    {
      "epoch": 7.966934763181412,
      "grad_norm": 21.93444061279297,
      "learning_rate": 3.7625297303553195e-05,
      "loss": 0.3904,
      "num_input_tokens_seen": 31042224,
      "step": 53490
    },
    {
      "epoch": 7.967679475722371,
      "grad_norm": 0.0727253407239914,
      "learning_rate": 3.762249258101392e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 31045104,
      "step": 53495
    },
    {
      "epoch": 7.96842418826333,
      "grad_norm": 25.57014274597168,
      "learning_rate": 3.761968764523048e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 31047664,
      "step": 53500
    },
    {
      "epoch": 7.96916890080429,
      "grad_norm": 0.022141171619296074,
      "learning_rate": 3.761688249625024e-05,
      "loss": 0.1622,
      "num_input_tokens_seen": 31050576,
      "step": 53505
    },
    {
      "epoch": 7.969913613345248,
      "grad_norm": 0.012331311590969563,
      "learning_rate": 3.761407713412058e-05,
      "loss": 0.1268,
      "num_input_tokens_seen": 31053328,
      "step": 53510
    },
    {
      "epoch": 7.970658325886208,
      "grad_norm": 3.6338155269622803,
      "learning_rate": 3.761127155888891e-05,
      "loss": 0.132,
      "num_input_tokens_seen": 31056496,
      "step": 53515
    },
    {
      "epoch": 7.971403038427167,
      "grad_norm": 6.652486324310303,
      "learning_rate": 3.760846577060263e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 31059600,
      "step": 53520
    },
    {
      "epoch": 7.9721477509681264,
      "grad_norm": 0.01413341611623764,
      "learning_rate": 3.760565976930913e-05,
      "loss": 0.0333,
      "num_input_tokens_seen": 31062480,
      "step": 53525
    },
    {
      "epoch": 7.972892463509085,
      "grad_norm": 0.009441779926419258,
      "learning_rate": 3.760285355505583e-05,
      "loss": 0.3008,
      "num_input_tokens_seen": 31065296,
      "step": 53530
    },
    {
      "epoch": 7.973637176050045,
      "grad_norm": 0.9013404250144958,
      "learning_rate": 3.760004712789012e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 31068208,
      "step": 53535
    },
    {
      "epoch": 7.974381888591004,
      "grad_norm": 52.88534927368164,
      "learning_rate": 3.759724048785942e-05,
      "loss": 0.3821,
      "num_input_tokens_seen": 31071504,
      "step": 53540
    },
    {
      "epoch": 7.975126601131963,
      "grad_norm": 0.23765496909618378,
      "learning_rate": 3.759443363501115e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 31074352,
      "step": 53545
    },
    {
      "epoch": 7.975871313672922,
      "grad_norm": 0.0582195520401001,
      "learning_rate": 3.759162656939271e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 31077360,
      "step": 53550
    },
    {
      "epoch": 7.976616026213882,
      "grad_norm": 0.021014638245105743,
      "learning_rate": 3.758881929105155e-05,
      "loss": 0.137,
      "num_input_tokens_seen": 31080144,
      "step": 53555
    },
    {
      "epoch": 7.97736073875484,
      "grad_norm": 0.017738036811351776,
      "learning_rate": 3.758601180003508e-05,
      "loss": 0.6637,
      "num_input_tokens_seen": 31082992,
      "step": 53560
    },
    {
      "epoch": 7.9781054512958,
      "grad_norm": 17.02972412109375,
      "learning_rate": 3.758320409639074e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 31085808,
      "step": 53565
    },
    {
      "epoch": 7.978850163836759,
      "grad_norm": 52.734249114990234,
      "learning_rate": 3.758039618016595e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 31088624,
      "step": 53570
    },
    {
      "epoch": 7.9795948763777185,
      "grad_norm": 0.0877673476934433,
      "learning_rate": 3.757758805140814e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 31091344,
      "step": 53575
    },
    {
      "epoch": 7.980339588918677,
      "grad_norm": 11.649510383605957,
      "learning_rate": 3.757477971016478e-05,
      "loss": 0.1824,
      "num_input_tokens_seen": 31094288,
      "step": 53580
    },
    {
      "epoch": 7.981084301459637,
      "grad_norm": 13.006402015686035,
      "learning_rate": 3.7571971156483285e-05,
      "loss": 0.5501,
      "num_input_tokens_seen": 31097072,
      "step": 53585
    },
    {
      "epoch": 7.981829014000596,
      "grad_norm": 0.020751941949129105,
      "learning_rate": 3.756916239041113e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 31099984,
      "step": 53590
    },
    {
      "epoch": 7.982573726541555,
      "grad_norm": 0.0576728954911232,
      "learning_rate": 3.756635341199574e-05,
      "loss": 0.0739,
      "num_input_tokens_seen": 31103024,
      "step": 53595
    },
    {
      "epoch": 7.983318439082514,
      "grad_norm": 0.09148643165826797,
      "learning_rate": 3.756354422128459e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 31106064,
      "step": 53600
    },
    {
      "epoch": 7.984063151623474,
      "grad_norm": 0.2729124128818512,
      "learning_rate": 3.756073481832512e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 31109008,
      "step": 53605
    },
    {
      "epoch": 7.9848078641644324,
      "grad_norm": 132.4683837890625,
      "learning_rate": 3.75579252031648e-05,
      "loss": 0.1829,
      "num_input_tokens_seen": 31111920,
      "step": 53610
    },
    {
      "epoch": 7.985552576705392,
      "grad_norm": 0.0045953611843287945,
      "learning_rate": 3.75551153758511e-05,
      "loss": 0.299,
      "num_input_tokens_seen": 31114992,
      "step": 53615
    },
    {
      "epoch": 7.986297289246351,
      "grad_norm": 0.023870792239904404,
      "learning_rate": 3.755230533643148e-05,
      "loss": 0.2815,
      "num_input_tokens_seen": 31117712,
      "step": 53620
    },
    {
      "epoch": 7.9870420017873105,
      "grad_norm": 0.622381329536438,
      "learning_rate": 3.754949508495344e-05,
      "loss": 0.0487,
      "num_input_tokens_seen": 31120400,
      "step": 53625
    },
    {
      "epoch": 7.987786714328269,
      "grad_norm": 68.40084075927734,
      "learning_rate": 3.7546684621464415e-05,
      "loss": 0.201,
      "num_input_tokens_seen": 31123280,
      "step": 53630
    },
    {
      "epoch": 7.988531426869228,
      "grad_norm": 6.9487810134887695,
      "learning_rate": 3.7543873946011916e-05,
      "loss": 0.1134,
      "num_input_tokens_seen": 31126288,
      "step": 53635
    },
    {
      "epoch": 7.989276139410188,
      "grad_norm": 0.0018512170063331723,
      "learning_rate": 3.754106305864341e-05,
      "loss": 0.2725,
      "num_input_tokens_seen": 31128976,
      "step": 53640
    },
    {
      "epoch": 7.990020851951147,
      "grad_norm": 3.6350860595703125,
      "learning_rate": 3.753825195940639e-05,
      "loss": 0.1354,
      "num_input_tokens_seen": 31131664,
      "step": 53645
    },
    {
      "epoch": 7.990765564492106,
      "grad_norm": 0.1193268895149231,
      "learning_rate": 3.753544064834835e-05,
      "loss": 0.0624,
      "num_input_tokens_seen": 31134576,
      "step": 53650
    },
    {
      "epoch": 7.991510277033065,
      "grad_norm": 0.03455832600593567,
      "learning_rate": 3.753262912551677e-05,
      "loss": 0.0176,
      "num_input_tokens_seen": 31137040,
      "step": 53655
    },
    {
      "epoch": 7.9922549895740245,
      "grad_norm": 0.004365460015833378,
      "learning_rate": 3.7529817390959164e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 31139952,
      "step": 53660
    },
    {
      "epoch": 7.992999702114983,
      "grad_norm": 0.06486954540014267,
      "learning_rate": 3.752700544472304e-05,
      "loss": 0.0137,
      "num_input_tokens_seen": 31142704,
      "step": 53665
    },
    {
      "epoch": 7.993744414655943,
      "grad_norm": 1.3119821548461914,
      "learning_rate": 3.752419328685588e-05,
      "loss": 0.0728,
      "num_input_tokens_seen": 31145552,
      "step": 53670
    },
    {
      "epoch": 7.994489127196902,
      "grad_norm": 24.219371795654297,
      "learning_rate": 3.752138091740521e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 31148848,
      "step": 53675
    },
    {
      "epoch": 7.995233839737861,
      "grad_norm": 0.8720617890357971,
      "learning_rate": 3.7518568336418525e-05,
      "loss": 0.1839,
      "num_input_tokens_seen": 31151632,
      "step": 53680
    },
    {
      "epoch": 7.99597855227882,
      "grad_norm": 24.44435691833496,
      "learning_rate": 3.751575554394336e-05,
      "loss": 0.4746,
      "num_input_tokens_seen": 31154416,
      "step": 53685
    },
    {
      "epoch": 7.99672326481978,
      "grad_norm": 22.542253494262695,
      "learning_rate": 3.751294254002722e-05,
      "loss": 0.1969,
      "num_input_tokens_seen": 31157264,
      "step": 53690
    },
    {
      "epoch": 7.9974679773607384,
      "grad_norm": 16.555879592895508,
      "learning_rate": 3.751012932471764e-05,
      "loss": 0.0242,
      "num_input_tokens_seen": 31160336,
      "step": 53695
    },
    {
      "epoch": 7.998212689901698,
      "grad_norm": 0.3156713843345642,
      "learning_rate": 3.7507315898062136e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 31162992,
      "step": 53700
    },
    {
      "epoch": 7.998957402442657,
      "grad_norm": 0.40421271324157715,
      "learning_rate": 3.7504502260108245e-05,
      "loss": 0.0463,
      "num_input_tokens_seen": 31166032,
      "step": 53705
    },
    {
      "epoch": 7.9997021149836165,
      "grad_norm": 0.07015378773212433,
      "learning_rate": 3.750168841090349e-05,
      "loss": 0.3048,
      "num_input_tokens_seen": 31168816,
      "step": 53710
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.4382959604263306,
      "eval_runtime": 49.1821,
      "eval_samples_per_second": 60.672,
      "eval_steps_per_second": 15.168,
      "num_input_tokens_seen": 31169464,
      "step": 53712
    },
    {
      "epoch": 8.000446827524575,
      "grad_norm": 0.01711685210466385,
      "learning_rate": 3.749887435049541e-05,
      "loss": 0.0596,
      "num_input_tokens_seen": 31171096,
      "step": 53715
    },
    {
      "epoch": 8.001191540065534,
      "grad_norm": 0.07057587057352066,
      "learning_rate": 3.749606007893157e-05,
      "loss": 0.1622,
      "num_input_tokens_seen": 31173880,
      "step": 53720
    },
    {
      "epoch": 8.001936252606495,
      "grad_norm": 0.04324406385421753,
      "learning_rate": 3.7493245596259484e-05,
      "loss": 0.1811,
      "num_input_tokens_seen": 31176600,
      "step": 53725
    },
    {
      "epoch": 8.002680965147453,
      "grad_norm": 0.008497522212564945,
      "learning_rate": 3.7490430902526715e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 31179928,
      "step": 53730
    },
    {
      "epoch": 8.003425677688412,
      "grad_norm": 0.7217974662780762,
      "learning_rate": 3.7487615997780815e-05,
      "loss": 0.1338,
      "num_input_tokens_seen": 31182840,
      "step": 53735
    },
    {
      "epoch": 8.00417039022937,
      "grad_norm": 0.06800416857004166,
      "learning_rate": 3.7484800882069324e-05,
      "loss": 0.0947,
      "num_input_tokens_seen": 31185688,
      "step": 53740
    },
    {
      "epoch": 8.004915102770331,
      "grad_norm": 21.95209312438965,
      "learning_rate": 3.748198555543981e-05,
      "loss": 0.3543,
      "num_input_tokens_seen": 31188920,
      "step": 53745
    },
    {
      "epoch": 8.00565981531129,
      "grad_norm": 0.0004156927461735904,
      "learning_rate": 3.747917001793985e-05,
      "loss": 0.0239,
      "num_input_tokens_seen": 31191768,
      "step": 53750
    },
    {
      "epoch": 8.006404527852249,
      "grad_norm": 35.148475646972656,
      "learning_rate": 3.7476354269616984e-05,
      "loss": 0.2403,
      "num_input_tokens_seen": 31194968,
      "step": 53755
    },
    {
      "epoch": 8.007149240393208,
      "grad_norm": 0.07123992592096329,
      "learning_rate": 3.747353831051879e-05,
      "loss": 0.0774,
      "num_input_tokens_seen": 31198072,
      "step": 53760
    },
    {
      "epoch": 8.007893952934168,
      "grad_norm": 64.19557189941406,
      "learning_rate": 3.747072214069286e-05,
      "loss": 0.209,
      "num_input_tokens_seen": 31201176,
      "step": 53765
    },
    {
      "epoch": 8.008638665475127,
      "grad_norm": 0.10666611045598984,
      "learning_rate": 3.746790576018674e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 31203800,
      "step": 53770
    },
    {
      "epoch": 8.009383378016086,
      "grad_norm": 0.014823248609900475,
      "learning_rate": 3.746508916904803e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 31206648,
      "step": 53775
    },
    {
      "epoch": 8.010128090557044,
      "grad_norm": 0.03001033514738083,
      "learning_rate": 3.74622723673243e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 31209240,
      "step": 53780
    },
    {
      "epoch": 8.010872803098005,
      "grad_norm": 6.154150485992432,
      "learning_rate": 3.745945535506315e-05,
      "loss": 0.0746,
      "num_input_tokens_seen": 31212056,
      "step": 53785
    },
    {
      "epoch": 8.011617515638964,
      "grad_norm": 0.0029318358283489943,
      "learning_rate": 3.7456638132312164e-05,
      "loss": 0.5131,
      "num_input_tokens_seen": 31214872,
      "step": 53790
    },
    {
      "epoch": 8.012362228179922,
      "grad_norm": 0.007984342984855175,
      "learning_rate": 3.745382069911894e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 31217624,
      "step": 53795
    },
    {
      "epoch": 8.013106940720881,
      "grad_norm": 0.20223592221736908,
      "learning_rate": 3.745100305553107e-05,
      "loss": 0.1241,
      "num_input_tokens_seen": 31220696,
      "step": 53800
    },
    {
      "epoch": 8.013851653261842,
      "grad_norm": 45.756954193115234,
      "learning_rate": 3.744818520159616e-05,
      "loss": 0.4273,
      "num_input_tokens_seen": 31223480,
      "step": 53805
    },
    {
      "epoch": 8.0145963658028,
      "grad_norm": 0.04664790630340576,
      "learning_rate": 3.744536713736182e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 31226616,
      "step": 53810
    },
    {
      "epoch": 8.01534107834376,
      "grad_norm": 0.05080637335777283,
      "learning_rate": 3.744254886287564e-05,
      "loss": 0.6542,
      "num_input_tokens_seen": 31229688,
      "step": 53815
    },
    {
      "epoch": 8.016085790884718,
      "grad_norm": 0.0032467662822455168,
      "learning_rate": 3.743973037818524e-05,
      "loss": 0.0165,
      "num_input_tokens_seen": 31233336,
      "step": 53820
    },
    {
      "epoch": 8.016830503425677,
      "grad_norm": 45.75981521606445,
      "learning_rate": 3.7436911683338244e-05,
      "loss": 0.5817,
      "num_input_tokens_seen": 31235896,
      "step": 53825
    },
    {
      "epoch": 8.017575215966637,
      "grad_norm": 3.546663999557495,
      "learning_rate": 3.743409277838227e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 31238648,
      "step": 53830
    },
    {
      "epoch": 8.018319928507596,
      "grad_norm": 43.52036666870117,
      "learning_rate": 3.7431273663364926e-05,
      "loss": 0.1481,
      "num_input_tokens_seen": 31241336,
      "step": 53835
    },
    {
      "epoch": 8.019064641048555,
      "grad_norm": 0.3283711373806,
      "learning_rate": 3.742845433833386e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 31244280,
      "step": 53840
    },
    {
      "epoch": 8.019809353589514,
      "grad_norm": 0.02696921117603779,
      "learning_rate": 3.742563480333668e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 31246840,
      "step": 53845
    },
    {
      "epoch": 8.020554066130474,
      "grad_norm": 0.09103258699178696,
      "learning_rate": 3.742281505842103e-05,
      "loss": 0.1212,
      "num_input_tokens_seen": 31249592,
      "step": 53850
    },
    {
      "epoch": 8.021298778671433,
      "grad_norm": 0.04209129884839058,
      "learning_rate": 3.7419995103634546e-05,
      "loss": 0.2415,
      "num_input_tokens_seen": 31252408,
      "step": 53855
    },
    {
      "epoch": 8.022043491212392,
      "grad_norm": 0.011050400324165821,
      "learning_rate": 3.741717493902488e-05,
      "loss": 0.1847,
      "num_input_tokens_seen": 31255352,
      "step": 53860
    },
    {
      "epoch": 8.02278820375335,
      "grad_norm": 0.005681080278009176,
      "learning_rate": 3.741435456463965e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 31258392,
      "step": 53865
    },
    {
      "epoch": 8.023532916294311,
      "grad_norm": 0.013462794944643974,
      "learning_rate": 3.741153398052653e-05,
      "loss": 0.097,
      "num_input_tokens_seen": 31261048,
      "step": 53870
    },
    {
      "epoch": 8.02427762883527,
      "grad_norm": 11.59814739227295,
      "learning_rate": 3.740871318673314e-05,
      "loss": 0.1871,
      "num_input_tokens_seen": 31264056,
      "step": 53875
    },
    {
      "epoch": 8.025022341376228,
      "grad_norm": 18.36048698425293,
      "learning_rate": 3.740589218330716e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 31267032,
      "step": 53880
    },
    {
      "epoch": 8.025767053917187,
      "grad_norm": 0.8959903120994568,
      "learning_rate": 3.740307097029624e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 31269656,
      "step": 53885
    },
    {
      "epoch": 8.026511766458148,
      "grad_norm": 0.10311736911535263,
      "learning_rate": 3.740024954774804e-05,
      "loss": 0.0184,
      "num_input_tokens_seen": 31272696,
      "step": 53890
    },
    {
      "epoch": 8.027256478999107,
      "grad_norm": 0.9814401268959045,
      "learning_rate": 3.739742791571023e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 31275320,
      "step": 53895
    },
    {
      "epoch": 8.028001191540065,
      "grad_norm": 0.03699461743235588,
      "learning_rate": 3.739460607423048e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 31278360,
      "step": 53900
    },
    {
      "epoch": 8.028745904081024,
      "grad_norm": 3.5298426151275635,
      "learning_rate": 3.7391784023356445e-05,
      "loss": 0.0768,
      "num_input_tokens_seen": 31281656,
      "step": 53905
    },
    {
      "epoch": 8.029490616621985,
      "grad_norm": 0.026826683431863785,
      "learning_rate": 3.7388961763135835e-05,
      "loss": 0.2329,
      "num_input_tokens_seen": 31284632,
      "step": 53910
    },
    {
      "epoch": 8.030235329162943,
      "grad_norm": 0.014742297120392323,
      "learning_rate": 3.7386139293616285e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31287768,
      "step": 53915
    },
    {
      "epoch": 8.030980041703902,
      "grad_norm": 0.11064167320728302,
      "learning_rate": 3.738331661484551e-05,
      "loss": 0.0787,
      "num_input_tokens_seen": 31290776,
      "step": 53920
    },
    {
      "epoch": 8.03172475424486,
      "grad_norm": 0.02463335543870926,
      "learning_rate": 3.7380493726871186e-05,
      "loss": 0.0516,
      "num_input_tokens_seen": 31293496,
      "step": 53925
    },
    {
      "epoch": 8.032469466785821,
      "grad_norm": 0.040319543331861496,
      "learning_rate": 3.737767062974101e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 31296728,
      "step": 53930
    },
    {
      "epoch": 8.03321417932678,
      "grad_norm": 0.2950379550457001,
      "learning_rate": 3.737484732350266e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 31299864,
      "step": 53935
    },
    {
      "epoch": 8.033958891867739,
      "grad_norm": 0.15324519574642181,
      "learning_rate": 3.7372023808203836e-05,
      "loss": 0.0251,
      "num_input_tokens_seen": 31303000,
      "step": 53940
    },
    {
      "epoch": 8.034703604408698,
      "grad_norm": 73.66583251953125,
      "learning_rate": 3.736920008389225e-05,
      "loss": 0.0621,
      "num_input_tokens_seen": 31305784,
      "step": 53945
    },
    {
      "epoch": 8.035448316949658,
      "grad_norm": 34.61459732055664,
      "learning_rate": 3.7366376150615614e-05,
      "loss": 0.1052,
      "num_input_tokens_seen": 31308600,
      "step": 53950
    },
    {
      "epoch": 8.036193029490617,
      "grad_norm": 0.5072234869003296,
      "learning_rate": 3.7363552008421606e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 31311704,
      "step": 53955
    },
    {
      "epoch": 8.036937742031576,
      "grad_norm": 19.620555877685547,
      "learning_rate": 3.7360727657357954e-05,
      "loss": 0.102,
      "num_input_tokens_seen": 31314744,
      "step": 53960
    },
    {
      "epoch": 8.037682454572534,
      "grad_norm": 41.87364196777344,
      "learning_rate": 3.7357903097472376e-05,
      "loss": 0.3127,
      "num_input_tokens_seen": 31317784,
      "step": 53965
    },
    {
      "epoch": 8.038427167113495,
      "grad_norm": 0.005884995684027672,
      "learning_rate": 3.7355078328812583e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 31320728,
      "step": 53970
    },
    {
      "epoch": 8.039171879654454,
      "grad_norm": 15.261709213256836,
      "learning_rate": 3.7352253351426295e-05,
      "loss": 0.4088,
      "num_input_tokens_seen": 31323512,
      "step": 53975
    },
    {
      "epoch": 8.039916592195413,
      "grad_norm": 0.017585303634405136,
      "learning_rate": 3.734942816536124e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 31326712,
      "step": 53980
    },
    {
      "epoch": 8.040661304736371,
      "grad_norm": 19.10065269470215,
      "learning_rate": 3.734660277066515e-05,
      "loss": 0.2186,
      "num_input_tokens_seen": 31329720,
      "step": 53985
    },
    {
      "epoch": 8.041406017277332,
      "grad_norm": 0.05398343503475189,
      "learning_rate": 3.734377716738576e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 31332216,
      "step": 53990
    },
    {
      "epoch": 8.04215072981829,
      "grad_norm": 12.973062515258789,
      "learning_rate": 3.73409513555708e-05,
      "loss": 0.0084,
      "num_input_tokens_seen": 31335160,
      "step": 53995
    },
    {
      "epoch": 8.04289544235925,
      "grad_norm": 0.05236760154366493,
      "learning_rate": 3.733812533526801e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 31337944,
      "step": 54000
    },
    {
      "epoch": 8.043640154900208,
      "grad_norm": 89.52903747558594,
      "learning_rate": 3.733529910652513e-05,
      "loss": 0.1793,
      "num_input_tokens_seen": 31340504,
      "step": 54005
    },
    {
      "epoch": 8.044384867441167,
      "grad_norm": 0.02242046780884266,
      "learning_rate": 3.73324726693899e-05,
      "loss": 0.0513,
      "num_input_tokens_seen": 31343448,
      "step": 54010
    },
    {
      "epoch": 8.045129579982127,
      "grad_norm": 136.31491088867188,
      "learning_rate": 3.732964602391009e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 31346104,
      "step": 54015
    },
    {
      "epoch": 8.045874292523086,
      "grad_norm": 148.96058654785156,
      "learning_rate": 3.7326819170133434e-05,
      "loss": 0.141,
      "num_input_tokens_seen": 31349048,
      "step": 54020
    },
    {
      "epoch": 8.046619005064045,
      "grad_norm": 0.4052581489086151,
      "learning_rate": 3.7323992108107705e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 31351960,
      "step": 54025
    },
    {
      "epoch": 8.047363717605004,
      "grad_norm": 1.3415063619613647,
      "learning_rate": 3.7321164837880654e-05,
      "loss": 0.1172,
      "num_input_tokens_seen": 31354616,
      "step": 54030
    },
    {
      "epoch": 8.048108430145964,
      "grad_norm": 6.240963459014893,
      "learning_rate": 3.731833735950004e-05,
      "loss": 0.1149,
      "num_input_tokens_seen": 31357528,
      "step": 54035
    },
    {
      "epoch": 8.048853142686923,
      "grad_norm": 0.09431105107069016,
      "learning_rate": 3.731550967301364e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 31360280,
      "step": 54040
    },
    {
      "epoch": 8.049597855227882,
      "grad_norm": 0.4844975769519806,
      "learning_rate": 3.7312681778469216e-05,
      "loss": 0.0829,
      "num_input_tokens_seen": 31363064,
      "step": 54045
    },
    {
      "epoch": 8.05034256776884,
      "grad_norm": 0.010906681418418884,
      "learning_rate": 3.730985367591455e-05,
      "loss": 0.0668,
      "num_input_tokens_seen": 31366904,
      "step": 54050
    },
    {
      "epoch": 8.051087280309801,
      "grad_norm": 0.03135784715414047,
      "learning_rate": 3.730702536539741e-05,
      "loss": 0.0322,
      "num_input_tokens_seen": 31369976,
      "step": 54055
    },
    {
      "epoch": 8.05183199285076,
      "grad_norm": 0.03671327605843544,
      "learning_rate": 3.73041968469656e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 31372984,
      "step": 54060
    },
    {
      "epoch": 8.052576705391719,
      "grad_norm": 46.84560775756836,
      "learning_rate": 3.730136812066688e-05,
      "loss": 0.3508,
      "num_input_tokens_seen": 31375832,
      "step": 54065
    },
    {
      "epoch": 8.053321417932677,
      "grad_norm": 0.2174740880727768,
      "learning_rate": 3.7298539186549054e-05,
      "loss": 0.2277,
      "num_input_tokens_seen": 31378712,
      "step": 54070
    },
    {
      "epoch": 8.054066130473638,
      "grad_norm": 0.04746905714273453,
      "learning_rate": 3.7295710044659904e-05,
      "loss": 0.7136,
      "num_input_tokens_seen": 31381752,
      "step": 54075
    },
    {
      "epoch": 8.054810843014597,
      "grad_norm": 0.07515151053667068,
      "learning_rate": 3.7292880695047225e-05,
      "loss": 0.2492,
      "num_input_tokens_seen": 31384792,
      "step": 54080
    },
    {
      "epoch": 8.055555555555555,
      "grad_norm": 0.02154260315001011,
      "learning_rate": 3.729005113775883e-05,
      "loss": 0.0508,
      "num_input_tokens_seen": 31387512,
      "step": 54085
    },
    {
      "epoch": 8.056300268096514,
      "grad_norm": 0.007046853192150593,
      "learning_rate": 3.7287221372842506e-05,
      "loss": 0.2119,
      "num_input_tokens_seen": 31390552,
      "step": 54090
    },
    {
      "epoch": 8.057044980637475,
      "grad_norm": 0.04008534178137779,
      "learning_rate": 3.728439140034607e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 31393304,
      "step": 54095
    },
    {
      "epoch": 8.057789693178433,
      "grad_norm": 0.005668221041560173,
      "learning_rate": 3.728156122031732e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 31396344,
      "step": 54100
    },
    {
      "epoch": 8.058534405719392,
      "grad_norm": 0.021910525858402252,
      "learning_rate": 3.7278730832804076e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 31399192,
      "step": 54105
    },
    {
      "epoch": 8.059279118260351,
      "grad_norm": 0.05166034400463104,
      "learning_rate": 3.727590023785416e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31401624,
      "step": 54110
    },
    {
      "epoch": 8.060023830801311,
      "grad_norm": 0.032408833503723145,
      "learning_rate": 3.727306943551538e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 31404600,
      "step": 54115
    },
    {
      "epoch": 8.06076854334227,
      "grad_norm": 0.31784167885780334,
      "learning_rate": 3.727023842583557e-05,
      "loss": 0.1985,
      "num_input_tokens_seen": 31407736,
      "step": 54120
    },
    {
      "epoch": 8.061513255883229,
      "grad_norm": 0.016829997301101685,
      "learning_rate": 3.726740720886255e-05,
      "loss": 0.0682,
      "num_input_tokens_seen": 31410552,
      "step": 54125
    },
    {
      "epoch": 8.062257968424188,
      "grad_norm": 0.026850398629903793,
      "learning_rate": 3.726457578464416e-05,
      "loss": 0.3165,
      "num_input_tokens_seen": 31413208,
      "step": 54130
    },
    {
      "epoch": 8.063002680965148,
      "grad_norm": 4.9517974853515625,
      "learning_rate": 3.726174415322822e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 31416056,
      "step": 54135
    },
    {
      "epoch": 8.063747393506107,
      "grad_norm": 0.022977977991104126,
      "learning_rate": 3.725891231466258e-05,
      "loss": 0.0622,
      "num_input_tokens_seen": 31418808,
      "step": 54140
    },
    {
      "epoch": 8.064492106047066,
      "grad_norm": 0.03811667487025261,
      "learning_rate": 3.725608026899507e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 31421752,
      "step": 54145
    },
    {
      "epoch": 8.065236818588025,
      "grad_norm": 0.02624678798019886,
      "learning_rate": 3.7253248016273545e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 31424888,
      "step": 54150
    },
    {
      "epoch": 8.065981531128985,
      "grad_norm": 79.16487884521484,
      "learning_rate": 3.725041555654585e-05,
      "loss": 0.1265,
      "num_input_tokens_seen": 31427800,
      "step": 54155
    },
    {
      "epoch": 8.066726243669944,
      "grad_norm": 0.007584352511912584,
      "learning_rate": 3.7247582889859824e-05,
      "loss": 0.0235,
      "num_input_tokens_seen": 31430776,
      "step": 54160
    },
    {
      "epoch": 8.067470956210903,
      "grad_norm": 22.6148738861084,
      "learning_rate": 3.724475001626335e-05,
      "loss": 0.168,
      "num_input_tokens_seen": 31433752,
      "step": 54165
    },
    {
      "epoch": 8.068215668751861,
      "grad_norm": 12.041531562805176,
      "learning_rate": 3.7241916935804254e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 31436408,
      "step": 54170
    },
    {
      "epoch": 8.06896038129282,
      "grad_norm": 0.0035981216933578253,
      "learning_rate": 3.723908364853042e-05,
      "loss": 0.0829,
      "num_input_tokens_seen": 31439160,
      "step": 54175
    },
    {
      "epoch": 8.06970509383378,
      "grad_norm": 8.295884132385254,
      "learning_rate": 3.723625015448971e-05,
      "loss": 0.169,
      "num_input_tokens_seen": 31441848,
      "step": 54180
    },
    {
      "epoch": 8.07044980637474,
      "grad_norm": 0.1607251614332199,
      "learning_rate": 3.723341645372998e-05,
      "loss": 0.0397,
      "num_input_tokens_seen": 31444728,
      "step": 54185
    },
    {
      "epoch": 8.071194518915698,
      "grad_norm": 0.013843933120369911,
      "learning_rate": 3.723058254629912e-05,
      "loss": 0.0881,
      "num_input_tokens_seen": 31447832,
      "step": 54190
    },
    {
      "epoch": 8.071939231456657,
      "grad_norm": 0.008403030224144459,
      "learning_rate": 3.7227748432245e-05,
      "loss": 0.2678,
      "num_input_tokens_seen": 31450808,
      "step": 54195
    },
    {
      "epoch": 8.072683943997617,
      "grad_norm": 0.22127459943294525,
      "learning_rate": 3.722491411161549e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31453816,
      "step": 54200
    },
    {
      "epoch": 8.073428656538576,
      "grad_norm": 23.6931095123291,
      "learning_rate": 3.722207958445849e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 31456664,
      "step": 54205
    },
    {
      "epoch": 8.074173369079535,
      "grad_norm": 0.0038882300723344088,
      "learning_rate": 3.721924485082187e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31459448,
      "step": 54210
    },
    {
      "epoch": 8.074918081620494,
      "grad_norm": 1.8712290525436401,
      "learning_rate": 3.721640991075354e-05,
      "loss": 0.0491,
      "num_input_tokens_seen": 31462232,
      "step": 54215
    },
    {
      "epoch": 8.075662794161454,
      "grad_norm": 0.0037449290975928307,
      "learning_rate": 3.7213574764301363e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 31465112,
      "step": 54220
    },
    {
      "epoch": 8.076407506702413,
      "grad_norm": 0.4128534197807312,
      "learning_rate": 3.721073941151327e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 31467960,
      "step": 54225
    },
    {
      "epoch": 8.077152219243372,
      "grad_norm": 0.010989285074174404,
      "learning_rate": 3.7207903852437134e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 31470840,
      "step": 54230
    },
    {
      "epoch": 8.07789693178433,
      "grad_norm": 0.19288936257362366,
      "learning_rate": 3.7205068087120876e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 31473528,
      "step": 54235
    },
    {
      "epoch": 8.078641644325291,
      "grad_norm": 0.11248987168073654,
      "learning_rate": 3.7202232115612396e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 31476824,
      "step": 54240
    },
    {
      "epoch": 8.07938635686625,
      "grad_norm": 0.008729841560125351,
      "learning_rate": 3.7199395937959604e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 31479704,
      "step": 54245
    },
    {
      "epoch": 8.080131069407209,
      "grad_norm": 0.5736724734306335,
      "learning_rate": 3.7196559554210415e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 31482488,
      "step": 54250
    },
    {
      "epoch": 8.080875781948167,
      "grad_norm": 1.6718072891235352,
      "learning_rate": 3.719372296441275e-05,
      "loss": 0.1237,
      "num_input_tokens_seen": 31485368,
      "step": 54255
    },
    {
      "epoch": 8.081620494489128,
      "grad_norm": 0.015213425271213055,
      "learning_rate": 3.719088616861453e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 31488216,
      "step": 54260
    },
    {
      "epoch": 8.082365207030087,
      "grad_norm": 0.0003797861572820693,
      "learning_rate": 3.718804916686368e-05,
      "loss": 0.1839,
      "num_input_tokens_seen": 31491192,
      "step": 54265
    },
    {
      "epoch": 8.083109919571045,
      "grad_norm": 0.004732763394713402,
      "learning_rate": 3.7185211959208124e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 31494040,
      "step": 54270
    },
    {
      "epoch": 8.083854632112004,
      "grad_norm": 0.0012181609636172652,
      "learning_rate": 3.71823745456958e-05,
      "loss": 0.1865,
      "num_input_tokens_seen": 31497112,
      "step": 54275
    },
    {
      "epoch": 8.084599344652965,
      "grad_norm": 0.00257427291944623,
      "learning_rate": 3.7179536926374636e-05,
      "loss": 0.1786,
      "num_input_tokens_seen": 31500024,
      "step": 54280
    },
    {
      "epoch": 8.085344057193923,
      "grad_norm": 14.512115478515625,
      "learning_rate": 3.7176699101292574e-05,
      "loss": 0.347,
      "num_input_tokens_seen": 31502936,
      "step": 54285
    },
    {
      "epoch": 8.086088769734882,
      "grad_norm": 20.1348934173584,
      "learning_rate": 3.7173861070497556e-05,
      "loss": 0.3378,
      "num_input_tokens_seen": 31506008,
      "step": 54290
    },
    {
      "epoch": 8.086833482275841,
      "grad_norm": 0.013541828840970993,
      "learning_rate": 3.717102283403753e-05,
      "loss": 0.1175,
      "num_input_tokens_seen": 31508920,
      "step": 54295
    },
    {
      "epoch": 8.087578194816802,
      "grad_norm": 0.0011454039486125112,
      "learning_rate": 3.716818439196045e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 31511640,
      "step": 54300
    },
    {
      "epoch": 8.08832290735776,
      "grad_norm": 0.030486293137073517,
      "learning_rate": 3.716534574431425e-05,
      "loss": 0.3053,
      "num_input_tokens_seen": 31514392,
      "step": 54305
    },
    {
      "epoch": 8.089067619898719,
      "grad_norm": 0.014359506778419018,
      "learning_rate": 3.7162506891146896e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 31517496,
      "step": 54310
    },
    {
      "epoch": 8.089812332439678,
      "grad_norm": 0.3078998327255249,
      "learning_rate": 3.7159667832506365e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 31520568,
      "step": 54315
    },
    {
      "epoch": 8.090557044980638,
      "grad_norm": 0.01606299728155136,
      "learning_rate": 3.715682856844059e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 31523800,
      "step": 54320
    },
    {
      "epoch": 8.091301757521597,
      "grad_norm": 0.0678011029958725,
      "learning_rate": 3.715398909899756e-05,
      "loss": 0.0391,
      "num_input_tokens_seen": 31526744,
      "step": 54325
    },
    {
      "epoch": 8.092046470062556,
      "grad_norm": 0.25190556049346924,
      "learning_rate": 3.715114942422524e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 31529688,
      "step": 54330
    },
    {
      "epoch": 8.092791182603515,
      "grad_norm": 170.70587158203125,
      "learning_rate": 3.71483095441716e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 31532792,
      "step": 54335
    },
    {
      "epoch": 8.093535895144473,
      "grad_norm": 0.3670751452445984,
      "learning_rate": 3.7145469458884606e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31535544,
      "step": 54340
    },
    {
      "epoch": 8.094280607685434,
      "grad_norm": 40.160247802734375,
      "learning_rate": 3.714262916841226e-05,
      "loss": 0.3858,
      "num_input_tokens_seen": 31538168,
      "step": 54345
    },
    {
      "epoch": 8.095025320226393,
      "grad_norm": 0.1827862560749054,
      "learning_rate": 3.7139788672802526e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 31541080,
      "step": 54350
    },
    {
      "epoch": 8.095770032767351,
      "grad_norm": 0.010219930671155453,
      "learning_rate": 3.713694797210341e-05,
      "loss": 0.1922,
      "num_input_tokens_seen": 31543960,
      "step": 54355
    },
    {
      "epoch": 8.09651474530831,
      "grad_norm": 130.67681884765625,
      "learning_rate": 3.713410706636289e-05,
      "loss": 0.2451,
      "num_input_tokens_seen": 31546904,
      "step": 54360
    },
    {
      "epoch": 8.09725945784927,
      "grad_norm": 0.054853666573762894,
      "learning_rate": 3.713126595562896e-05,
      "loss": 0.1828,
      "num_input_tokens_seen": 31549880,
      "step": 54365
    },
    {
      "epoch": 8.09800417039023,
      "grad_norm": 29.17047691345215,
      "learning_rate": 3.712842463994963e-05,
      "loss": 0.0481,
      "num_input_tokens_seen": 31552600,
      "step": 54370
    },
    {
      "epoch": 8.098748882931188,
      "grad_norm": 0.1614501029253006,
      "learning_rate": 3.7125583119372884e-05,
      "loss": 0.082,
      "num_input_tokens_seen": 31555640,
      "step": 54375
    },
    {
      "epoch": 8.099493595472147,
      "grad_norm": 0.49539539217948914,
      "learning_rate": 3.712274139394674e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 31558616,
      "step": 54380
    },
    {
      "epoch": 8.100238308013108,
      "grad_norm": 0.009814884513616562,
      "learning_rate": 3.71198994637192e-05,
      "loss": 0.0741,
      "num_input_tokens_seen": 31561720,
      "step": 54385
    },
    {
      "epoch": 8.100983020554066,
      "grad_norm": 0.036502543836832047,
      "learning_rate": 3.711705732873828e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 31564408,
      "step": 54390
    },
    {
      "epoch": 8.101727733095025,
      "grad_norm": 76.51949310302734,
      "learning_rate": 3.711421498905198e-05,
      "loss": 0.4103,
      "num_input_tokens_seen": 31567256,
      "step": 54395
    },
    {
      "epoch": 8.102472445635984,
      "grad_norm": 0.013823048211634159,
      "learning_rate": 3.7111372444708345e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 31570104,
      "step": 54400
    },
    {
      "epoch": 8.103217158176944,
      "grad_norm": 95.64535522460938,
      "learning_rate": 3.7108529695755375e-05,
      "loss": 0.3344,
      "num_input_tokens_seen": 31572568,
      "step": 54405
    },
    {
      "epoch": 8.103961870717903,
      "grad_norm": 0.05918542668223381,
      "learning_rate": 3.7105686742241095e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 31575320,
      "step": 54410
    },
    {
      "epoch": 8.104706583258862,
      "grad_norm": 0.02899014577269554,
      "learning_rate": 3.7102843584213556e-05,
      "loss": 0.1101,
      "num_input_tokens_seen": 31578360,
      "step": 54415
    },
    {
      "epoch": 8.10545129579982,
      "grad_norm": 0.0473899208009243,
      "learning_rate": 3.710000022172076e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 31581400,
      "step": 54420
    },
    {
      "epoch": 8.106196008340781,
      "grad_norm": 0.0042096772231161594,
      "learning_rate": 3.7097156654810774e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 31584312,
      "step": 54425
    },
    {
      "epoch": 8.10694072088174,
      "grad_norm": 0.006973837502300739,
      "learning_rate": 3.709431288353161e-05,
      "loss": 0.0094,
      "num_input_tokens_seen": 31587128,
      "step": 54430
    },
    {
      "epoch": 8.107685433422699,
      "grad_norm": 0.10693151503801346,
      "learning_rate": 3.7091468907931324e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 31589848,
      "step": 54435
    },
    {
      "epoch": 8.108430145963657,
      "grad_norm": 46.57497024536133,
      "learning_rate": 3.708862472805796e-05,
      "loss": 0.2678,
      "num_input_tokens_seen": 31592632,
      "step": 54440
    },
    {
      "epoch": 8.109174858504618,
      "grad_norm": 0.03163863345980644,
      "learning_rate": 3.708578034395957e-05,
      "loss": 0.0361,
      "num_input_tokens_seen": 31595608,
      "step": 54445
    },
    {
      "epoch": 8.109919571045577,
      "grad_norm": 32.08460235595703,
      "learning_rate": 3.70829357556842e-05,
      "loss": 0.36,
      "num_input_tokens_seen": 31598456,
      "step": 54450
    },
    {
      "epoch": 8.110664283586535,
      "grad_norm": 2.450932025909424,
      "learning_rate": 3.7080090963279915e-05,
      "loss": 0.0169,
      "num_input_tokens_seen": 31601240,
      "step": 54455
    },
    {
      "epoch": 8.111408996127494,
      "grad_norm": 13.235099792480469,
      "learning_rate": 3.7077245966794774e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 31603992,
      "step": 54460
    },
    {
      "epoch": 8.112153708668455,
      "grad_norm": 0.012257875874638557,
      "learning_rate": 3.707440076627683e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 31606968,
      "step": 54465
    },
    {
      "epoch": 8.112898421209414,
      "grad_norm": 33.7588005065918,
      "learning_rate": 3.7071555361774165e-05,
      "loss": 0.1456,
      "num_input_tokens_seen": 31609784,
      "step": 54470
    },
    {
      "epoch": 8.113643133750372,
      "grad_norm": 0.016907040029764175,
      "learning_rate": 3.706870975333484e-05,
      "loss": 0.2937,
      "num_input_tokens_seen": 31612824,
      "step": 54475
    },
    {
      "epoch": 8.114387846291331,
      "grad_norm": 0.014426429755985737,
      "learning_rate": 3.706586394100692e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31615640,
      "step": 54480
    },
    {
      "epoch": 8.115132558832292,
      "grad_norm": 0.0389898382127285,
      "learning_rate": 3.70630179248385e-05,
      "loss": 0.0445,
      "num_input_tokens_seen": 31618232,
      "step": 54485
    },
    {
      "epoch": 8.11587727137325,
      "grad_norm": 0.009878910146653652,
      "learning_rate": 3.706017170487765e-05,
      "loss": 0.3241,
      "num_input_tokens_seen": 31621176,
      "step": 54490
    },
    {
      "epoch": 8.116621983914209,
      "grad_norm": 0.017171449959278107,
      "learning_rate": 3.705732528117246e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 31624120,
      "step": 54495
    },
    {
      "epoch": 8.117366696455168,
      "grad_norm": 0.19463208317756653,
      "learning_rate": 3.7054478653771005e-05,
      "loss": 0.2268,
      "num_input_tokens_seen": 31627032,
      "step": 54500
    },
    {
      "epoch": 8.118111408996128,
      "grad_norm": 0.16397392749786377,
      "learning_rate": 3.7051631822721395e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 31629976,
      "step": 54505
    },
    {
      "epoch": 8.118856121537087,
      "grad_norm": 0.012942010536789894,
      "learning_rate": 3.704878478807171e-05,
      "loss": 0.0397,
      "num_input_tokens_seen": 31632728,
      "step": 54510
    },
    {
      "epoch": 8.119600834078046,
      "grad_norm": 0.19685731828212738,
      "learning_rate": 3.704593754987005e-05,
      "loss": 0.0439,
      "num_input_tokens_seen": 31635320,
      "step": 54515
    },
    {
      "epoch": 8.120345546619005,
      "grad_norm": 0.006479831878095865,
      "learning_rate": 3.704309010816452e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 31638392,
      "step": 54520
    },
    {
      "epoch": 8.121090259159963,
      "grad_norm": 16.074737548828125,
      "learning_rate": 3.7040242463003225e-05,
      "loss": 0.0091,
      "num_input_tokens_seen": 31641400,
      "step": 54525
    },
    {
      "epoch": 8.121834971700924,
      "grad_norm": 0.05159318447113037,
      "learning_rate": 3.703739461443427e-05,
      "loss": 0.0257,
      "num_input_tokens_seen": 31644280,
      "step": 54530
    },
    {
      "epoch": 8.122579684241883,
      "grad_norm": 10.239550590515137,
      "learning_rate": 3.703454656250576e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 31647288,
      "step": 54535
    },
    {
      "epoch": 8.123324396782841,
      "grad_norm": 1.7144602537155151,
      "learning_rate": 3.7031698307265824e-05,
      "loss": 0.0895,
      "num_input_tokens_seen": 31650104,
      "step": 54540
    },
    {
      "epoch": 8.1240691093238,
      "grad_norm": 13.27259349822998,
      "learning_rate": 3.702884984876257e-05,
      "loss": 0.2794,
      "num_input_tokens_seen": 31652984,
      "step": 54545
    },
    {
      "epoch": 8.12481382186476,
      "grad_norm": 0.00718748290091753,
      "learning_rate": 3.702600118704412e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 31655672,
      "step": 54550
    },
    {
      "epoch": 8.12555853440572,
      "grad_norm": 37.568016052246094,
      "learning_rate": 3.702315232215862e-05,
      "loss": 0.3299,
      "num_input_tokens_seen": 31658584,
      "step": 54555
    },
    {
      "epoch": 8.126303246946678,
      "grad_norm": 0.3420857787132263,
      "learning_rate": 3.7020303254154164e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 31661848,
      "step": 54560
    },
    {
      "epoch": 8.127047959487637,
      "grad_norm": 0.01294582337141037,
      "learning_rate": 3.701745398307891e-05,
      "loss": 0.3951,
      "num_input_tokens_seen": 31664696,
      "step": 54565
    },
    {
      "epoch": 8.127792672028598,
      "grad_norm": 0.6039144396781921,
      "learning_rate": 3.701460450898098e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 31667416,
      "step": 54570
    },
    {
      "epoch": 8.128537384569556,
      "grad_norm": 68.90763092041016,
      "learning_rate": 3.701175483190852e-05,
      "loss": 0.121,
      "num_input_tokens_seen": 31670520,
      "step": 54575
    },
    {
      "epoch": 8.129282097110515,
      "grad_norm": 0.06250753253698349,
      "learning_rate": 3.700890495190967e-05,
      "loss": 0.0334,
      "num_input_tokens_seen": 31673272,
      "step": 54580
    },
    {
      "epoch": 8.130026809651474,
      "grad_norm": 19.049158096313477,
      "learning_rate": 3.7006054869032574e-05,
      "loss": 0.2392,
      "num_input_tokens_seen": 31676152,
      "step": 54585
    },
    {
      "epoch": 8.130771522192434,
      "grad_norm": 0.24001260101795197,
      "learning_rate": 3.700320458332539e-05,
      "loss": 0.0668,
      "num_input_tokens_seen": 31679064,
      "step": 54590
    },
    {
      "epoch": 8.131516234733393,
      "grad_norm": 0.03433595970273018,
      "learning_rate": 3.700035409483626e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 31681848,
      "step": 54595
    },
    {
      "epoch": 8.132260947274352,
      "grad_norm": 0.004614596255123615,
      "learning_rate": 3.699750340361334e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 31684760,
      "step": 54600
    },
    {
      "epoch": 8.13300565981531,
      "grad_norm": 28.494298934936523,
      "learning_rate": 3.69946525097048e-05,
      "loss": 0.287,
      "num_input_tokens_seen": 31687640,
      "step": 54605
    },
    {
      "epoch": 8.133750372356271,
      "grad_norm": 0.04278583079576492,
      "learning_rate": 3.6991801413158795e-05,
      "loss": 0.217,
      "num_input_tokens_seen": 31690264,
      "step": 54610
    },
    {
      "epoch": 8.13449508489723,
      "grad_norm": 0.14595244824886322,
      "learning_rate": 3.6988950114023494e-05,
      "loss": 0.1793,
      "num_input_tokens_seen": 31693048,
      "step": 54615
    },
    {
      "epoch": 8.135239797438189,
      "grad_norm": 0.01783590577542782,
      "learning_rate": 3.6986098612347056e-05,
      "loss": 0.0211,
      "num_input_tokens_seen": 31695832,
      "step": 54620
    },
    {
      "epoch": 8.135984509979147,
      "grad_norm": 0.006310571450740099,
      "learning_rate": 3.6983246908177675e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 31698520,
      "step": 54625
    },
    {
      "epoch": 8.136729222520108,
      "grad_norm": 0.019686751067638397,
      "learning_rate": 3.698039500156352e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 31701304,
      "step": 54630
    },
    {
      "epoch": 8.137473935061067,
      "grad_norm": 0.03144461661577225,
      "learning_rate": 3.697754289255277e-05,
      "loss": 0.4247,
      "num_input_tokens_seen": 31704632,
      "step": 54635
    },
    {
      "epoch": 8.138218647602026,
      "grad_norm": 45.158939361572266,
      "learning_rate": 3.697469058119359e-05,
      "loss": 0.0084,
      "num_input_tokens_seen": 31707448,
      "step": 54640
    },
    {
      "epoch": 8.138963360142984,
      "grad_norm": 236.34889221191406,
      "learning_rate": 3.697183806753419e-05,
      "loss": 0.052,
      "num_input_tokens_seen": 31710264,
      "step": 54645
    },
    {
      "epoch": 8.139708072683945,
      "grad_norm": 0.03124384395778179,
      "learning_rate": 3.696898535162275e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 31713080,
      "step": 54650
    },
    {
      "epoch": 8.140452785224904,
      "grad_norm": 0.025965290144085884,
      "learning_rate": 3.696613243350747e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 31716120,
      "step": 54655
    },
    {
      "epoch": 8.141197497765862,
      "grad_norm": 0.018183182924985886,
      "learning_rate": 3.696327931323655e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 31719192,
      "step": 54660
    },
    {
      "epoch": 8.141942210306821,
      "grad_norm": 0.010656838305294514,
      "learning_rate": 3.696042599085818e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 31721816,
      "step": 54665
    },
    {
      "epoch": 8.142686922847782,
      "grad_norm": 0.01554946880787611,
      "learning_rate": 3.695757246642057e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 31724568,
      "step": 54670
    },
    {
      "epoch": 8.14343163538874,
      "grad_norm": 0.09549344331026077,
      "learning_rate": 3.695471873997193e-05,
      "loss": 0.013,
      "num_input_tokens_seen": 31727672,
      "step": 54675
    },
    {
      "epoch": 8.1441763479297,
      "grad_norm": 0.004747211467474699,
      "learning_rate": 3.6951864811560464e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 31730680,
      "step": 54680
    },
    {
      "epoch": 8.144921060470658,
      "grad_norm": 4.520148754119873,
      "learning_rate": 3.694901068123439e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 31733688,
      "step": 54685
    },
    {
      "epoch": 8.145665773011617,
      "grad_norm": 61.305458068847656,
      "learning_rate": 3.694615634904192e-05,
      "loss": 0.2099,
      "num_input_tokens_seen": 31736536,
      "step": 54690
    },
    {
      "epoch": 8.146410485552577,
      "grad_norm": 1.3716148138046265,
      "learning_rate": 3.694330181503128e-05,
      "loss": 0.0999,
      "num_input_tokens_seen": 31739544,
      "step": 54695
    },
    {
      "epoch": 8.147155198093536,
      "grad_norm": 0.060387786477804184,
      "learning_rate": 3.69404470792507e-05,
      "loss": 0.0671,
      "num_input_tokens_seen": 31742328,
      "step": 54700
    },
    {
      "epoch": 8.147899910634495,
      "grad_norm": 0.01751021482050419,
      "learning_rate": 3.69375921417484e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 31744920,
      "step": 54705
    },
    {
      "epoch": 8.148644623175453,
      "grad_norm": 0.004991873167455196,
      "learning_rate": 3.6934737002572614e-05,
      "loss": 0.0291,
      "num_input_tokens_seen": 31748024,
      "step": 54710
    },
    {
      "epoch": 8.149389335716414,
      "grad_norm": 0.0032085557468235493,
      "learning_rate": 3.693188166177158e-05,
      "loss": 0.214,
      "num_input_tokens_seen": 31751032,
      "step": 54715
    },
    {
      "epoch": 8.150134048257373,
      "grad_norm": 0.003710303921252489,
      "learning_rate": 3.6929026119393525e-05,
      "loss": 0.2517,
      "num_input_tokens_seen": 31753912,
      "step": 54720
    },
    {
      "epoch": 8.150878760798332,
      "grad_norm": 0.17493292689323425,
      "learning_rate": 3.69261703754867e-05,
      "loss": 0.286,
      "num_input_tokens_seen": 31756984,
      "step": 54725
    },
    {
      "epoch": 8.15162347333929,
      "grad_norm": 14.320786476135254,
      "learning_rate": 3.6923314430099354e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 31759544,
      "step": 54730
    },
    {
      "epoch": 8.15236818588025,
      "grad_norm": 0.0038364308420568705,
      "learning_rate": 3.6920458283279725e-05,
      "loss": 0.2008,
      "num_input_tokens_seen": 31762456,
      "step": 54735
    },
    {
      "epoch": 8.15311289842121,
      "grad_norm": 27.26003646850586,
      "learning_rate": 3.691760193507607e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 31765176,
      "step": 54740
    },
    {
      "epoch": 8.153857610962168,
      "grad_norm": 0.032109349966049194,
      "learning_rate": 3.691474538553664e-05,
      "loss": 0.2765,
      "num_input_tokens_seen": 31768088,
      "step": 54745
    },
    {
      "epoch": 8.154602323503127,
      "grad_norm": 0.08215022832155228,
      "learning_rate": 3.691188863470969e-05,
      "loss": 0.2438,
      "num_input_tokens_seen": 31770936,
      "step": 54750
    },
    {
      "epoch": 8.155347036044088,
      "grad_norm": 31.562158584594727,
      "learning_rate": 3.69090316826435e-05,
      "loss": 0.3003,
      "num_input_tokens_seen": 31773688,
      "step": 54755
    },
    {
      "epoch": 8.156091748585046,
      "grad_norm": 0.19154174625873566,
      "learning_rate": 3.690617452938632e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 31776760,
      "step": 54760
    },
    {
      "epoch": 8.156836461126005,
      "grad_norm": 38.07618713378906,
      "learning_rate": 3.6903317174986425e-05,
      "loss": 0.0848,
      "num_input_tokens_seen": 31779640,
      "step": 54765
    },
    {
      "epoch": 8.157581173666964,
      "grad_norm": 29.77519989013672,
      "learning_rate": 3.690045961949208e-05,
      "loss": 0.578,
      "num_input_tokens_seen": 31782520,
      "step": 54770
    },
    {
      "epoch": 8.158325886207924,
      "grad_norm": 1.6495927572250366,
      "learning_rate": 3.689760186295156e-05,
      "loss": 0.3037,
      "num_input_tokens_seen": 31785400,
      "step": 54775
    },
    {
      "epoch": 8.159070598748883,
      "grad_norm": 15.80633544921875,
      "learning_rate": 3.689474390541316e-05,
      "loss": 0.0274,
      "num_input_tokens_seen": 31788728,
      "step": 54780
    },
    {
      "epoch": 8.159815311289842,
      "grad_norm": 0.04848451167345047,
      "learning_rate": 3.6891885746925136e-05,
      "loss": 0.0212,
      "num_input_tokens_seen": 31791544,
      "step": 54785
    },
    {
      "epoch": 8.1605600238308,
      "grad_norm": 0.07339726388454437,
      "learning_rate": 3.68890273875358e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 31794424,
      "step": 54790
    },
    {
      "epoch": 8.161304736371761,
      "grad_norm": 0.049923449754714966,
      "learning_rate": 3.688616882729343e-05,
      "loss": 0.1009,
      "num_input_tokens_seen": 31797336,
      "step": 54795
    },
    {
      "epoch": 8.16204944891272,
      "grad_norm": 0.05354154482483864,
      "learning_rate": 3.688331006624632e-05,
      "loss": 0.0877,
      "num_input_tokens_seen": 31800504,
      "step": 54800
    },
    {
      "epoch": 8.162794161453679,
      "grad_norm": 1.3408015966415405,
      "learning_rate": 3.688045110444276e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 31803160,
      "step": 54805
    },
    {
      "epoch": 8.163538873994638,
      "grad_norm": 0.814682126045227,
      "learning_rate": 3.687759194193105e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 31806104,
      "step": 54810
    },
    {
      "epoch": 8.164283586535598,
      "grad_norm": 1.6765497922897339,
      "learning_rate": 3.6874732578759495e-05,
      "loss": 0.0176,
      "num_input_tokens_seen": 31808952,
      "step": 54815
    },
    {
      "epoch": 8.165028299076557,
      "grad_norm": 0.01821879856288433,
      "learning_rate": 3.687187301497641e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 31812152,
      "step": 54820
    },
    {
      "epoch": 8.165773011617516,
      "grad_norm": 4.27916145324707,
      "learning_rate": 3.6869013250630094e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 31814712,
      "step": 54825
    },
    {
      "epoch": 8.166517724158474,
      "grad_norm": 0.0767127200961113,
      "learning_rate": 3.686615328576886e-05,
      "loss": 0.1319,
      "num_input_tokens_seen": 31817624,
      "step": 54830
    },
    {
      "epoch": 8.167262436699435,
      "grad_norm": 2.8340909481048584,
      "learning_rate": 3.686329312044102e-05,
      "loss": 0.1241,
      "num_input_tokens_seen": 31820280,
      "step": 54835
    },
    {
      "epoch": 8.168007149240394,
      "grad_norm": 0.08037132024765015,
      "learning_rate": 3.6860432754694915e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 31823192,
      "step": 54840
    },
    {
      "epoch": 8.168751861781352,
      "grad_norm": 11.59026050567627,
      "learning_rate": 3.685757218857885e-05,
      "loss": 0.0497,
      "num_input_tokens_seen": 31826008,
      "step": 54845
    },
    {
      "epoch": 8.169496574322311,
      "grad_norm": 33.88149642944336,
      "learning_rate": 3.6854711422141144e-05,
      "loss": 0.0107,
      "num_input_tokens_seen": 31828728,
      "step": 54850
    },
    {
      "epoch": 8.17024128686327,
      "grad_norm": 0.021054837852716446,
      "learning_rate": 3.685185045543014e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 31831512,
      "step": 54855
    },
    {
      "epoch": 8.17098599940423,
      "grad_norm": 57.87773513793945,
      "learning_rate": 3.684898928849417e-05,
      "loss": 0.3381,
      "num_input_tokens_seen": 31834712,
      "step": 54860
    },
    {
      "epoch": 8.17173071194519,
      "grad_norm": 0.034090738743543625,
      "learning_rate": 3.6846127921381576e-05,
      "loss": 0.071,
      "num_input_tokens_seen": 31837464,
      "step": 54865
    },
    {
      "epoch": 8.172475424486148,
      "grad_norm": 0.016836345195770264,
      "learning_rate": 3.684326635414068e-05,
      "loss": 0.0999,
      "num_input_tokens_seen": 31840216,
      "step": 54870
    },
    {
      "epoch": 8.173220137027107,
      "grad_norm": 0.1987628936767578,
      "learning_rate": 3.684040458681984e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 31843224,
      "step": 54875
    },
    {
      "epoch": 8.173964849568067,
      "grad_norm": 3.9940667152404785,
      "learning_rate": 3.6837542619467404e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 31846296,
      "step": 54880
    },
    {
      "epoch": 8.174709562109026,
      "grad_norm": 0.11334957182407379,
      "learning_rate": 3.6834680452131707e-05,
      "loss": 0.2103,
      "num_input_tokens_seen": 31849112,
      "step": 54885
    },
    {
      "epoch": 8.175454274649985,
      "grad_norm": 17.909038543701172,
      "learning_rate": 3.683181808486112e-05,
      "loss": 0.56,
      "num_input_tokens_seen": 31851736,
      "step": 54890
    },
    {
      "epoch": 8.176198987190944,
      "grad_norm": 11.641905784606934,
      "learning_rate": 3.682895551770399e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 31854840,
      "step": 54895
    },
    {
      "epoch": 8.176943699731904,
      "grad_norm": 0.18386664986610413,
      "learning_rate": 3.682609275070867e-05,
      "loss": 0.1543,
      "num_input_tokens_seen": 31857912,
      "step": 54900
    },
    {
      "epoch": 8.177688412272863,
      "grad_norm": 23.876922607421875,
      "learning_rate": 3.682322978392354e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 31861144,
      "step": 54905
    },
    {
      "epoch": 8.178433124813822,
      "grad_norm": 0.04019048810005188,
      "learning_rate": 3.682036661739696e-05,
      "loss": 0.2821,
      "num_input_tokens_seen": 31863992,
      "step": 54910
    },
    {
      "epoch": 8.17917783735478,
      "grad_norm": 0.025924984365701675,
      "learning_rate": 3.68175032511773e-05,
      "loss": 0.0596,
      "num_input_tokens_seen": 31866968,
      "step": 54915
    },
    {
      "epoch": 8.17992254989574,
      "grad_norm": 64.48942565917969,
      "learning_rate": 3.6814639685312936e-05,
      "loss": 0.0755,
      "num_input_tokens_seen": 31869816,
      "step": 54920
    },
    {
      "epoch": 8.1806672624367,
      "grad_norm": 0.037057459354400635,
      "learning_rate": 3.6811775919852245e-05,
      "loss": 0.2121,
      "num_input_tokens_seen": 31872664,
      "step": 54925
    },
    {
      "epoch": 8.181411974977658,
      "grad_norm": 0.06136942282319069,
      "learning_rate": 3.6808911954843595e-05,
      "loss": 0.0443,
      "num_input_tokens_seen": 31875352,
      "step": 54930
    },
    {
      "epoch": 8.182156687518617,
      "grad_norm": 0.01925417222082615,
      "learning_rate": 3.680604779033538e-05,
      "loss": 0.1936,
      "num_input_tokens_seen": 31878232,
      "step": 54935
    },
    {
      "epoch": 8.182901400059578,
      "grad_norm": 5.4274468421936035,
      "learning_rate": 3.680318342637599e-05,
      "loss": 0.0813,
      "num_input_tokens_seen": 31881080,
      "step": 54940
    },
    {
      "epoch": 8.183646112600536,
      "grad_norm": 0.11999364197254181,
      "learning_rate": 3.6800318863013806e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 31883736,
      "step": 54945
    },
    {
      "epoch": 8.184390825141495,
      "grad_norm": 0.6870285868644714,
      "learning_rate": 3.6797454100297234e-05,
      "loss": 0.1274,
      "num_input_tokens_seen": 31886776,
      "step": 54950
    },
    {
      "epoch": 8.185135537682454,
      "grad_norm": 1.4130504131317139,
      "learning_rate": 3.679458913827467e-05,
      "loss": 0.0458,
      "num_input_tokens_seen": 31889912,
      "step": 54955
    },
    {
      "epoch": 8.185880250223414,
      "grad_norm": 0.019834302365779877,
      "learning_rate": 3.6791723976994505e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 31892952,
      "step": 54960
    },
    {
      "epoch": 8.186624962764373,
      "grad_norm": 22.1055908203125,
      "learning_rate": 3.678885861650515e-05,
      "loss": 0.2699,
      "num_input_tokens_seen": 31895960,
      "step": 54965
    },
    {
      "epoch": 8.187369675305332,
      "grad_norm": 0.025123488157987595,
      "learning_rate": 3.6785993056855004e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 31898648,
      "step": 54970
    },
    {
      "epoch": 8.18811438784629,
      "grad_norm": 0.11250969022512436,
      "learning_rate": 3.678312729809249e-05,
      "loss": 0.3209,
      "num_input_tokens_seen": 31901368,
      "step": 54975
    },
    {
      "epoch": 8.188859100387251,
      "grad_norm": 0.09337899088859558,
      "learning_rate": 3.6780261340266014e-05,
      "loss": 0.1488,
      "num_input_tokens_seen": 31904056,
      "step": 54980
    },
    {
      "epoch": 8.18960381292821,
      "grad_norm": 0.16961154341697693,
      "learning_rate": 3.677739518342399e-05,
      "loss": 0.4459,
      "num_input_tokens_seen": 31906936,
      "step": 54985
    },
    {
      "epoch": 8.190348525469169,
      "grad_norm": 77.87059020996094,
      "learning_rate": 3.677452882761486e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 31910104,
      "step": 54990
    },
    {
      "epoch": 8.191093238010128,
      "grad_norm": 0.07206983864307404,
      "learning_rate": 3.677166227288702e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 31913272,
      "step": 54995
    },
    {
      "epoch": 8.191837950551088,
      "grad_norm": 103.704345703125,
      "learning_rate": 3.6768795519288916e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 31916024,
      "step": 55000
    },
    {
      "epoch": 8.192582663092047,
      "grad_norm": 0.040133170783519745,
      "learning_rate": 3.6765928566868976e-05,
      "loss": 0.2386,
      "num_input_tokens_seen": 31918808,
      "step": 55005
    },
    {
      "epoch": 8.193327375633006,
      "grad_norm": 0.8219021558761597,
      "learning_rate": 3.676306141567562e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 31921848,
      "step": 55010
    },
    {
      "epoch": 8.194072088173964,
      "grad_norm": 0.030854035168886185,
      "learning_rate": 3.67601940657573e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 31924440,
      "step": 55015
    },
    {
      "epoch": 8.194816800714925,
      "grad_norm": 5.733339786529541,
      "learning_rate": 3.675732651716246e-05,
      "loss": 0.0848,
      "num_input_tokens_seen": 31927288,
      "step": 55020
    },
    {
      "epoch": 8.195561513255884,
      "grad_norm": 5.369690418243408,
      "learning_rate": 3.675445876993953e-05,
      "loss": 0.0762,
      "num_input_tokens_seen": 31930136,
      "step": 55025
    },
    {
      "epoch": 8.196306225796842,
      "grad_norm": 0.010777986608445644,
      "learning_rate": 3.675159082413697e-05,
      "loss": 0.1668,
      "num_input_tokens_seen": 31932952,
      "step": 55030
    },
    {
      "epoch": 8.197050938337801,
      "grad_norm": 0.11075037717819214,
      "learning_rate": 3.674872267980323e-05,
      "loss": 0.2316,
      "num_input_tokens_seen": 31935960,
      "step": 55035
    },
    {
      "epoch": 8.19779565087876,
      "grad_norm": 0.05127730593085289,
      "learning_rate": 3.674585433698676e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 31938840,
      "step": 55040
    },
    {
      "epoch": 8.19854036341972,
      "grad_norm": 0.0036283957306295633,
      "learning_rate": 3.674298579573602e-05,
      "loss": 0.1504,
      "num_input_tokens_seen": 31941688,
      "step": 55045
    },
    {
      "epoch": 8.19928507596068,
      "grad_norm": 61.20750045776367,
      "learning_rate": 3.674011705609946e-05,
      "loss": 0.3312,
      "num_input_tokens_seen": 31944344,
      "step": 55050
    },
    {
      "epoch": 8.200029788501638,
      "grad_norm": 29.563148498535156,
      "learning_rate": 3.6737248118125564e-05,
      "loss": 0.3007,
      "num_input_tokens_seen": 31947480,
      "step": 55055
    },
    {
      "epoch": 8.200774501042597,
      "grad_norm": 0.39505720138549805,
      "learning_rate": 3.673437898186279e-05,
      "loss": 0.0199,
      "num_input_tokens_seen": 31950200,
      "step": 55060
    },
    {
      "epoch": 8.201519213583557,
      "grad_norm": 0.006060580722987652,
      "learning_rate": 3.6731509647359604e-05,
      "loss": 0.1702,
      "num_input_tokens_seen": 31952760,
      "step": 55065
    },
    {
      "epoch": 8.202263926124516,
      "grad_norm": 0.05519455298781395,
      "learning_rate": 3.6728640114664485e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 31955320,
      "step": 55070
    },
    {
      "epoch": 8.203008638665475,
      "grad_norm": 10.505972862243652,
      "learning_rate": 3.672577038382592e-05,
      "loss": 0.1603,
      "num_input_tokens_seen": 31958456,
      "step": 55075
    },
    {
      "epoch": 8.203753351206434,
      "grad_norm": 19.313228607177734,
      "learning_rate": 3.672290045489238e-05,
      "loss": 0.073,
      "num_input_tokens_seen": 31961400,
      "step": 55080
    },
    {
      "epoch": 8.204498063747394,
      "grad_norm": 0.011551710776984692,
      "learning_rate": 3.672003032791235e-05,
      "loss": 0.0345,
      "num_input_tokens_seen": 31964504,
      "step": 55085
    },
    {
      "epoch": 8.205242776288353,
      "grad_norm": 0.3735569715499878,
      "learning_rate": 3.671716000293432e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 31967352,
      "step": 55090
    },
    {
      "epoch": 8.205987488829312,
      "grad_norm": 0.04546281695365906,
      "learning_rate": 3.671428948000677e-05,
      "loss": 0.0338,
      "num_input_tokens_seen": 31970456,
      "step": 55095
    },
    {
      "epoch": 8.20673220137027,
      "grad_norm": 3.580427408218384,
      "learning_rate": 3.671141875917822e-05,
      "loss": 0.0462,
      "num_input_tokens_seen": 31973784,
      "step": 55100
    },
    {
      "epoch": 8.207476913911231,
      "grad_norm": 50.591941833496094,
      "learning_rate": 3.6708547840497144e-05,
      "loss": 0.5476,
      "num_input_tokens_seen": 31976568,
      "step": 55105
    },
    {
      "epoch": 8.20822162645219,
      "grad_norm": 0.024662476032972336,
      "learning_rate": 3.6705676724012055e-05,
      "loss": 0.1089,
      "num_input_tokens_seen": 31979512,
      "step": 55110
    },
    {
      "epoch": 8.208966338993148,
      "grad_norm": 0.4380955696105957,
      "learning_rate": 3.670280540977145e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 31982456,
      "step": 55115
    },
    {
      "epoch": 8.209711051534107,
      "grad_norm": 16.729164123535156,
      "learning_rate": 3.669993389782385e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 31985336,
      "step": 55120
    },
    {
      "epoch": 8.210455764075068,
      "grad_norm": 0.01839594356715679,
      "learning_rate": 3.669706218821776e-05,
      "loss": 0.0932,
      "num_input_tokens_seen": 31988056,
      "step": 55125
    },
    {
      "epoch": 8.211200476616026,
      "grad_norm": 5.115946292877197,
      "learning_rate": 3.669419028100169e-05,
      "loss": 0.0937,
      "num_input_tokens_seen": 31991128,
      "step": 55130
    },
    {
      "epoch": 8.211945189156985,
      "grad_norm": 4.234203815460205,
      "learning_rate": 3.6691318176224156e-05,
      "loss": 0.111,
      "num_input_tokens_seen": 31993912,
      "step": 55135
    },
    {
      "epoch": 8.212689901697944,
      "grad_norm": 0.015518578700721264,
      "learning_rate": 3.6688445873933686e-05,
      "loss": 0.3686,
      "num_input_tokens_seen": 31997048,
      "step": 55140
    },
    {
      "epoch": 8.213434614238905,
      "grad_norm": 7.448659896850586,
      "learning_rate": 3.66855733741788e-05,
      "loss": 0.005,
      "num_input_tokens_seen": 31999864,
      "step": 55145
    },
    {
      "epoch": 8.214179326779863,
      "grad_norm": 27.537574768066406,
      "learning_rate": 3.668270067700803e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 32003128,
      "step": 55150
    },
    {
      "epoch": 8.214924039320822,
      "grad_norm": 0.021589459851384163,
      "learning_rate": 3.667982778246991e-05,
      "loss": 0.2245,
      "num_input_tokens_seen": 32006104,
      "step": 55155
    },
    {
      "epoch": 8.21566875186178,
      "grad_norm": 0.04498521611094475,
      "learning_rate": 3.6676954690612974e-05,
      "loss": 0.0122,
      "num_input_tokens_seen": 32009016,
      "step": 55160
    },
    {
      "epoch": 8.216413464402741,
      "grad_norm": 1.105925440788269,
      "learning_rate": 3.6674081401485746e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 32011832,
      "step": 55165
    },
    {
      "epoch": 8.2171581769437,
      "grad_norm": 1.6280072927474976,
      "learning_rate": 3.667120791513678e-05,
      "loss": 0.2071,
      "num_input_tokens_seen": 32014648,
      "step": 55170
    },
    {
      "epoch": 8.217902889484659,
      "grad_norm": 15.501303672790527,
      "learning_rate": 3.666833423161462e-05,
      "loss": 0.0907,
      "num_input_tokens_seen": 32017400,
      "step": 55175
    },
    {
      "epoch": 8.218647602025618,
      "grad_norm": 5.485150337219238,
      "learning_rate": 3.666546035096781e-05,
      "loss": 0.1476,
      "num_input_tokens_seen": 32020408,
      "step": 55180
    },
    {
      "epoch": 8.219392314566578,
      "grad_norm": 97.44944763183594,
      "learning_rate": 3.6662586273244906e-05,
      "loss": 0.1208,
      "num_input_tokens_seen": 32023288,
      "step": 55185
    },
    {
      "epoch": 8.220137027107537,
      "grad_norm": 0.008351514115929604,
      "learning_rate": 3.665971199849447e-05,
      "loss": 0.2502,
      "num_input_tokens_seen": 32026424,
      "step": 55190
    },
    {
      "epoch": 8.220881739648496,
      "grad_norm": 0.2415507584810257,
      "learning_rate": 3.665683752676503e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 32029528,
      "step": 55195
    },
    {
      "epoch": 8.221626452189454,
      "grad_norm": 0.09921563416719437,
      "learning_rate": 3.665396285810519e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 32032344,
      "step": 55200
    },
    {
      "epoch": 8.222371164730415,
      "grad_norm": 0.07877553999423981,
      "learning_rate": 3.665108799256348e-05,
      "loss": 0.28,
      "num_input_tokens_seen": 32035256,
      "step": 55205
    },
    {
      "epoch": 8.223115877271374,
      "grad_norm": 0.026698051020503044,
      "learning_rate": 3.6648212930188474e-05,
      "loss": 0.025,
      "num_input_tokens_seen": 32037720,
      "step": 55210
    },
    {
      "epoch": 8.223860589812332,
      "grad_norm": 0.049688637256622314,
      "learning_rate": 3.664533767102876e-05,
      "loss": 0.1414,
      "num_input_tokens_seen": 32040696,
      "step": 55215
    },
    {
      "epoch": 8.224605302353291,
      "grad_norm": 0.056884489953517914,
      "learning_rate": 3.664246221513289e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 32043352,
      "step": 55220
    },
    {
      "epoch": 8.22535001489425,
      "grad_norm": 1.5170968770980835,
      "learning_rate": 3.663958656254947e-05,
      "loss": 0.0312,
      "num_input_tokens_seen": 32046264,
      "step": 55225
    },
    {
      "epoch": 8.22609472743521,
      "grad_norm": 106.02932739257812,
      "learning_rate": 3.663671071332705e-05,
      "loss": 0.5247,
      "num_input_tokens_seen": 32048984,
      "step": 55230
    },
    {
      "epoch": 8.22683943997617,
      "grad_norm": 0.013594415970146656,
      "learning_rate": 3.6633834667514236e-05,
      "loss": 0.5177,
      "num_input_tokens_seen": 32051800,
      "step": 55235
    },
    {
      "epoch": 8.227584152517128,
      "grad_norm": 16.710145950317383,
      "learning_rate": 3.663095842515961e-05,
      "loss": 0.0766,
      "num_input_tokens_seen": 32054712,
      "step": 55240
    },
    {
      "epoch": 8.228328865058087,
      "grad_norm": 10.527235984802246,
      "learning_rate": 3.662808198631176e-05,
      "loss": 0.2341,
      "num_input_tokens_seen": 32057464,
      "step": 55245
    },
    {
      "epoch": 8.229073577599047,
      "grad_norm": 38.28810501098633,
      "learning_rate": 3.662520535101928e-05,
      "loss": 0.0272,
      "num_input_tokens_seen": 32060472,
      "step": 55250
    },
    {
      "epoch": 8.229818290140006,
      "grad_norm": 1.3208116292953491,
      "learning_rate": 3.662232851933079e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 32063160,
      "step": 55255
    },
    {
      "epoch": 8.230563002680965,
      "grad_norm": 0.024836495518684387,
      "learning_rate": 3.661945149129485e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 32065848,
      "step": 55260
    },
    {
      "epoch": 8.231307715221924,
      "grad_norm": 48.8917236328125,
      "learning_rate": 3.661657426696009e-05,
      "loss": 0.2989,
      "num_input_tokens_seen": 32068696,
      "step": 55265
    },
    {
      "epoch": 8.232052427762884,
      "grad_norm": 0.013708800077438354,
      "learning_rate": 3.6613696846375115e-05,
      "loss": 0.1582,
      "num_input_tokens_seen": 32071480,
      "step": 55270
    },
    {
      "epoch": 8.232797140303843,
      "grad_norm": 0.022459790110588074,
      "learning_rate": 3.661081922958854e-05,
      "loss": 0.484,
      "num_input_tokens_seen": 32074424,
      "step": 55275
    },
    {
      "epoch": 8.233541852844802,
      "grad_norm": 18.41401481628418,
      "learning_rate": 3.660794141664898e-05,
      "loss": 0.0416,
      "num_input_tokens_seen": 32077464,
      "step": 55280
    },
    {
      "epoch": 8.23428656538576,
      "grad_norm": 14.953950881958008,
      "learning_rate": 3.660506340760504e-05,
      "loss": 0.1166,
      "num_input_tokens_seen": 32080120,
      "step": 55285
    },
    {
      "epoch": 8.235031277926721,
      "grad_norm": 0.15927311778068542,
      "learning_rate": 3.660218520250535e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 32082840,
      "step": 55290
    },
    {
      "epoch": 8.23577599046768,
      "grad_norm": 25.5264892578125,
      "learning_rate": 3.659930680139853e-05,
      "loss": 0.0223,
      "num_input_tokens_seen": 32085720,
      "step": 55295
    },
    {
      "epoch": 8.236520703008638,
      "grad_norm": 23.039997100830078,
      "learning_rate": 3.659642820433322e-05,
      "loss": 0.0995,
      "num_input_tokens_seen": 32088760,
      "step": 55300
    },
    {
      "epoch": 8.237265415549597,
      "grad_norm": 1.8139935731887817,
      "learning_rate": 3.659354941135803e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 32091704,
      "step": 55305
    },
    {
      "epoch": 8.238010128090558,
      "grad_norm": 0.06861312687397003,
      "learning_rate": 3.65906704225216e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 32094264,
      "step": 55310
    },
    {
      "epoch": 8.238754840631517,
      "grad_norm": 0.5354089140892029,
      "learning_rate": 3.658779123787259e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 32097112,
      "step": 55315
    },
    {
      "epoch": 8.239499553172475,
      "grad_norm": 0.06684199720621109,
      "learning_rate": 3.6584911857459624e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 32100056,
      "step": 55320
    },
    {
      "epoch": 8.240244265713434,
      "grad_norm": 0.003449345240369439,
      "learning_rate": 3.6582032281331345e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 32102680,
      "step": 55325
    },
    {
      "epoch": 8.240988978254395,
      "grad_norm": 0.06537133455276489,
      "learning_rate": 3.6579152509536395e-05,
      "loss": 0.2253,
      "num_input_tokens_seen": 32105752,
      "step": 55330
    },
    {
      "epoch": 8.241733690795353,
      "grad_norm": 0.00344257615506649,
      "learning_rate": 3.6576272542123435e-05,
      "loss": 0.2119,
      "num_input_tokens_seen": 32108888,
      "step": 55335
    },
    {
      "epoch": 8.242478403336312,
      "grad_norm": 28.902441024780273,
      "learning_rate": 3.657339237914111e-05,
      "loss": 0.3984,
      "num_input_tokens_seen": 32111736,
      "step": 55340
    },
    {
      "epoch": 8.24322311587727,
      "grad_norm": 41.95954513549805,
      "learning_rate": 3.657051202063809e-05,
      "loss": 0.1916,
      "num_input_tokens_seen": 32114808,
      "step": 55345
    },
    {
      "epoch": 8.243967828418231,
      "grad_norm": 44.50628662109375,
      "learning_rate": 3.656763146666303e-05,
      "loss": 0.4056,
      "num_input_tokens_seen": 32117656,
      "step": 55350
    },
    {
      "epoch": 8.24471254095919,
      "grad_norm": 5.156766891479492,
      "learning_rate": 3.6564750717264595e-05,
      "loss": 0.0705,
      "num_input_tokens_seen": 32120440,
      "step": 55355
    },
    {
      "epoch": 8.245457253500149,
      "grad_norm": 0.022370977327227592,
      "learning_rate": 3.656186977249145e-05,
      "loss": 0.1103,
      "num_input_tokens_seen": 32123288,
      "step": 55360
    },
    {
      "epoch": 8.246201966041108,
      "grad_norm": 0.19814398884773254,
      "learning_rate": 3.655898863239226e-05,
      "loss": 0.1184,
      "num_input_tokens_seen": 32126392,
      "step": 55365
    },
    {
      "epoch": 8.246946678582066,
      "grad_norm": 0.15253782272338867,
      "learning_rate": 3.655610729701571e-05,
      "loss": 0.2005,
      "num_input_tokens_seen": 32129176,
      "step": 55370
    },
    {
      "epoch": 8.247691391123027,
      "grad_norm": 16.860570907592773,
      "learning_rate": 3.655322576641047e-05,
      "loss": 0.1137,
      "num_input_tokens_seen": 32132056,
      "step": 55375
    },
    {
      "epoch": 8.248436103663986,
      "grad_norm": 9.860831260681152,
      "learning_rate": 3.655034404062522e-05,
      "loss": 0.0173,
      "num_input_tokens_seen": 32134840,
      "step": 55380
    },
    {
      "epoch": 8.249180816204944,
      "grad_norm": 1.483085036277771,
      "learning_rate": 3.654746211970865e-05,
      "loss": 0.0233,
      "num_input_tokens_seen": 32137848,
      "step": 55385
    },
    {
      "epoch": 8.249925528745903,
      "grad_norm": 0.00980077963322401,
      "learning_rate": 3.654458000370945e-05,
      "loss": 0.1905,
      "num_input_tokens_seen": 32140984,
      "step": 55390
    },
    {
      "epoch": 8.250670241286864,
      "grad_norm": 0.025726398453116417,
      "learning_rate": 3.65416976926763e-05,
      "loss": 0.3222,
      "num_input_tokens_seen": 32144088,
      "step": 55395
    },
    {
      "epoch": 8.251414953827823,
      "grad_norm": 19.283727645874023,
      "learning_rate": 3.653881518665789e-05,
      "loss": 0.1023,
      "num_input_tokens_seen": 32147256,
      "step": 55400
    },
    {
      "epoch": 8.252159666368781,
      "grad_norm": 0.014181752689182758,
      "learning_rate": 3.6535932485702933e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 32150072,
      "step": 55405
    },
    {
      "epoch": 8.25290437890974,
      "grad_norm": 101.25729370117188,
      "learning_rate": 3.6533049589860115e-05,
      "loss": 0.0686,
      "num_input_tokens_seen": 32153144,
      "step": 55410
    },
    {
      "epoch": 8.2536490914507,
      "grad_norm": 10.395247459411621,
      "learning_rate": 3.653016649917815e-05,
      "loss": 0.1758,
      "num_input_tokens_seen": 32156280,
      "step": 55415
    },
    {
      "epoch": 8.25439380399166,
      "grad_norm": 0.004419767763465643,
      "learning_rate": 3.652728321370575e-05,
      "loss": 0.0913,
      "num_input_tokens_seen": 32159032,
      "step": 55420
    },
    {
      "epoch": 8.255138516532618,
      "grad_norm": 0.005287134554237127,
      "learning_rate": 3.6524399733491605e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 32161656,
      "step": 55425
    },
    {
      "epoch": 8.255883229073577,
      "grad_norm": 1.165409803390503,
      "learning_rate": 3.652151605858444e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 32164632,
      "step": 55430
    },
    {
      "epoch": 8.256627941614537,
      "grad_norm": 0.010960235260426998,
      "learning_rate": 3.651863218903297e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 32167416,
      "step": 55435
    },
    {
      "epoch": 8.257372654155496,
      "grad_norm": 0.47980374097824097,
      "learning_rate": 3.651574812488592e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 32170232,
      "step": 55440
    },
    {
      "epoch": 8.258117366696455,
      "grad_norm": 0.02074645273387432,
      "learning_rate": 3.651286386619201e-05,
      "loss": 0.1057,
      "num_input_tokens_seen": 32173400,
      "step": 55445
    },
    {
      "epoch": 8.258862079237414,
      "grad_norm": 0.010470178909599781,
      "learning_rate": 3.650997941299996e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 32176248,
      "step": 55450
    },
    {
      "epoch": 8.259606791778374,
      "grad_norm": 32.89765930175781,
      "learning_rate": 3.650709476535852e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 32179160,
      "step": 55455
    },
    {
      "epoch": 8.260351504319333,
      "grad_norm": 0.009842779487371445,
      "learning_rate": 3.6504209923316396e-05,
      "loss": 0.2218,
      "num_input_tokens_seen": 32182104,
      "step": 55460
    },
    {
      "epoch": 8.261096216860292,
      "grad_norm": 0.47439074516296387,
      "learning_rate": 3.650132488692234e-05,
      "loss": 0.2865,
      "num_input_tokens_seen": 32185112,
      "step": 55465
    },
    {
      "epoch": 8.26184092940125,
      "grad_norm": 0.06167357787489891,
      "learning_rate": 3.649843965622509e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 32187928,
      "step": 55470
    },
    {
      "epoch": 8.262585641942211,
      "grad_norm": 0.0031314680818468332,
      "learning_rate": 3.6495554231273386e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 32190840,
      "step": 55475
    },
    {
      "epoch": 8.26333035448317,
      "grad_norm": 0.0064728353172540665,
      "learning_rate": 3.6492668612115986e-05,
      "loss": 0.188,
      "num_input_tokens_seen": 32193816,
      "step": 55480
    },
    {
      "epoch": 8.264075067024129,
      "grad_norm": 0.020492155104875565,
      "learning_rate": 3.648978279880162e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 32196664,
      "step": 55485
    },
    {
      "epoch": 8.264819779565087,
      "grad_norm": 0.6923162937164307,
      "learning_rate": 3.648689679137906e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 32199416,
      "step": 55490
    },
    {
      "epoch": 8.265564492106048,
      "grad_norm": 0.02219356968998909,
      "learning_rate": 3.648401058989705e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 32202232,
      "step": 55495
    },
    {
      "epoch": 8.266309204647007,
      "grad_norm": 0.030159441754221916,
      "learning_rate": 3.6481124194404345e-05,
      "loss": 0.0553,
      "num_input_tokens_seen": 32205112,
      "step": 55500
    },
    {
      "epoch": 8.267053917187965,
      "grad_norm": 0.0338892862200737,
      "learning_rate": 3.6478237604949725e-05,
      "loss": 0.3734,
      "num_input_tokens_seen": 32207992,
      "step": 55505
    },
    {
      "epoch": 8.267798629728924,
      "grad_norm": 25.05716323852539,
      "learning_rate": 3.647535082158194e-05,
      "loss": 0.4055,
      "num_input_tokens_seen": 32211064,
      "step": 55510
    },
    {
      "epoch": 8.268543342269885,
      "grad_norm": 42.22888946533203,
      "learning_rate": 3.6472463844349776e-05,
      "loss": 0.1995,
      "num_input_tokens_seen": 32214072,
      "step": 55515
    },
    {
      "epoch": 8.269288054810843,
      "grad_norm": 0.041946716606616974,
      "learning_rate": 3.646957667330199e-05,
      "loss": 0.01,
      "num_input_tokens_seen": 32216632,
      "step": 55520
    },
    {
      "epoch": 8.270032767351802,
      "grad_norm": 75.65179443359375,
      "learning_rate": 3.6466689308487364e-05,
      "loss": 0.2251,
      "num_input_tokens_seen": 32219448,
      "step": 55525
    },
    {
      "epoch": 8.270777479892761,
      "grad_norm": 0.022014854475855827,
      "learning_rate": 3.646380174995468e-05,
      "loss": 0.0855,
      "num_input_tokens_seen": 32222776,
      "step": 55530
    },
    {
      "epoch": 8.271522192433721,
      "grad_norm": 0.052712902426719666,
      "learning_rate": 3.646091399775271e-05,
      "loss": 0.1149,
      "num_input_tokens_seen": 32225560,
      "step": 55535
    },
    {
      "epoch": 8.27226690497468,
      "grad_norm": 12.036117553710938,
      "learning_rate": 3.645802605193025e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 32228216,
      "step": 55540
    },
    {
      "epoch": 8.273011617515639,
      "grad_norm": 0.06475812196731567,
      "learning_rate": 3.645513791253608e-05,
      "loss": 0.245,
      "num_input_tokens_seen": 32231064,
      "step": 55545
    },
    {
      "epoch": 8.273756330056598,
      "grad_norm": 0.0392598919570446,
      "learning_rate": 3.6452249579619005e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 32233944,
      "step": 55550
    },
    {
      "epoch": 8.274501042597556,
      "grad_norm": 2.2825567722320557,
      "learning_rate": 3.644936105322781e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 32236952,
      "step": 55555
    },
    {
      "epoch": 8.275245755138517,
      "grad_norm": 0.05734764039516449,
      "learning_rate": 3.644647233341129e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 32239736,
      "step": 55560
    },
    {
      "epoch": 8.275990467679476,
      "grad_norm": 3.24074125289917,
      "learning_rate": 3.644358342021826e-05,
      "loss": 0.2838,
      "num_input_tokens_seen": 32242424,
      "step": 55565
    },
    {
      "epoch": 8.276735180220435,
      "grad_norm": 44.60935592651367,
      "learning_rate": 3.644069431369752e-05,
      "loss": 0.1483,
      "num_input_tokens_seen": 32245272,
      "step": 55570
    },
    {
      "epoch": 8.277479892761393,
      "grad_norm": 0.17891839146614075,
      "learning_rate": 3.643780501389787e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 32248088,
      "step": 55575
    },
    {
      "epoch": 8.278224605302354,
      "grad_norm": 12.293312072753906,
      "learning_rate": 3.643491552086814e-05,
      "loss": 0.1263,
      "num_input_tokens_seen": 32250840,
      "step": 55580
    },
    {
      "epoch": 8.278969317843313,
      "grad_norm": 0.02303670160472393,
      "learning_rate": 3.643202583465713e-05,
      "loss": 0.0624,
      "num_input_tokens_seen": 32253400,
      "step": 55585
    },
    {
      "epoch": 8.279714030384271,
      "grad_norm": 0.04632359370589256,
      "learning_rate": 3.6429135955313664e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 32256248,
      "step": 55590
    },
    {
      "epoch": 8.28045874292523,
      "grad_norm": 0.4122603237628937,
      "learning_rate": 3.6426245882886554e-05,
      "loss": 0.0155,
      "num_input_tokens_seen": 32258904,
      "step": 55595
    },
    {
      "epoch": 8.28120345546619,
      "grad_norm": 0.033715423196554184,
      "learning_rate": 3.6423355617424634e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 32261624,
      "step": 55600
    },
    {
      "epoch": 8.28194816800715,
      "grad_norm": 0.03515996038913727,
      "learning_rate": 3.6420465158976746e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 32264376,
      "step": 55605
    },
    {
      "epoch": 8.282692880548108,
      "grad_norm": 115.35223388671875,
      "learning_rate": 3.6417574507591694e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 32267128,
      "step": 55610
    },
    {
      "epoch": 8.283437593089067,
      "grad_norm": 2.005293607711792,
      "learning_rate": 3.641468366331833e-05,
      "loss": 0.188,
      "num_input_tokens_seen": 32269944,
      "step": 55615
    },
    {
      "epoch": 8.284182305630027,
      "grad_norm": 0.039217330515384674,
      "learning_rate": 3.641179262620548e-05,
      "loss": 0.1792,
      "num_input_tokens_seen": 32272600,
      "step": 55620
    },
    {
      "epoch": 8.284927018170986,
      "grad_norm": 15.747015953063965,
      "learning_rate": 3.6408901396301995e-05,
      "loss": 0.2826,
      "num_input_tokens_seen": 32275320,
      "step": 55625
    },
    {
      "epoch": 8.285671730711945,
      "grad_norm": 23.643545150756836,
      "learning_rate": 3.640600997365672e-05,
      "loss": 0.2929,
      "num_input_tokens_seen": 32278296,
      "step": 55630
    },
    {
      "epoch": 8.286416443252904,
      "grad_norm": 0.2594895362854004,
      "learning_rate": 3.64031183583185e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 32281336,
      "step": 55635
    },
    {
      "epoch": 8.287161155793864,
      "grad_norm": 106.59341430664062,
      "learning_rate": 3.6400226550336166e-05,
      "loss": 0.0809,
      "num_input_tokens_seen": 32284088,
      "step": 55640
    },
    {
      "epoch": 8.287905868334823,
      "grad_norm": 0.6438915729522705,
      "learning_rate": 3.6397334549758614e-05,
      "loss": 0.1452,
      "num_input_tokens_seen": 32287224,
      "step": 55645
    },
    {
      "epoch": 8.288650580875782,
      "grad_norm": 21.17592430114746,
      "learning_rate": 3.639444235663467e-05,
      "loss": 0.3876,
      "num_input_tokens_seen": 32290168,
      "step": 55650
    },
    {
      "epoch": 8.28939529341674,
      "grad_norm": 0.10845723748207092,
      "learning_rate": 3.6391549971013213e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 32293528,
      "step": 55655
    },
    {
      "epoch": 8.290140005957701,
      "grad_norm": 0.01802445948123932,
      "learning_rate": 3.638865739294308e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 32296152,
      "step": 55660
    },
    {
      "epoch": 8.29088471849866,
      "grad_norm": 102.18858337402344,
      "learning_rate": 3.6385764622473164e-05,
      "loss": 0.1921,
      "num_input_tokens_seen": 32298904,
      "step": 55665
    },
    {
      "epoch": 8.291629431039619,
      "grad_norm": 0.033183056861162186,
      "learning_rate": 3.6382871659652326e-05,
      "loss": 0.138,
      "num_input_tokens_seen": 32301688,
      "step": 55670
    },
    {
      "epoch": 8.292374143580577,
      "grad_norm": 57.49247741699219,
      "learning_rate": 3.6379978504529436e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 32304504,
      "step": 55675
    },
    {
      "epoch": 8.293118856121538,
      "grad_norm": 0.010697703808546066,
      "learning_rate": 3.637708515715338e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 32307384,
      "step": 55680
    },
    {
      "epoch": 8.293863568662497,
      "grad_norm": 0.1085272878408432,
      "learning_rate": 3.637419161757304e-05,
      "loss": 0.1593,
      "num_input_tokens_seen": 32310264,
      "step": 55685
    },
    {
      "epoch": 8.294608281203455,
      "grad_norm": 0.011930861510336399,
      "learning_rate": 3.637129788583729e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 32313176,
      "step": 55690
    },
    {
      "epoch": 8.295352993744414,
      "grad_norm": 0.022825544700026512,
      "learning_rate": 3.6368403961995014e-05,
      "loss": 0.0317,
      "num_input_tokens_seen": 32316152,
      "step": 55695
    },
    {
      "epoch": 8.296097706285375,
      "grad_norm": 2.229637622833252,
      "learning_rate": 3.63655098460951e-05,
      "loss": 0.4795,
      "num_input_tokens_seen": 32319512,
      "step": 55700
    },
    {
      "epoch": 8.296842418826333,
      "grad_norm": 8.504776000976562,
      "learning_rate": 3.636261553818646e-05,
      "loss": 0.0318,
      "num_input_tokens_seen": 32322424,
      "step": 55705
    },
    {
      "epoch": 8.297587131367292,
      "grad_norm": 0.019400352612137794,
      "learning_rate": 3.6359721038317976e-05,
      "loss": 0.2302,
      "num_input_tokens_seen": 32325272,
      "step": 55710
    },
    {
      "epoch": 8.298331843908251,
      "grad_norm": 12.435062408447266,
      "learning_rate": 3.6356826346538555e-05,
      "loss": 0.188,
      "num_input_tokens_seen": 32328280,
      "step": 55715
    },
    {
      "epoch": 8.299076556449211,
      "grad_norm": 3.8168511390686035,
      "learning_rate": 3.635393146289709e-05,
      "loss": 0.1122,
      "num_input_tokens_seen": 32331256,
      "step": 55720
    },
    {
      "epoch": 8.29982126899017,
      "grad_norm": 0.010180987417697906,
      "learning_rate": 3.6351036387442496e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 32334296,
      "step": 55725
    },
    {
      "epoch": 8.300565981531129,
      "grad_norm": 0.015153307467699051,
      "learning_rate": 3.634814112022368e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 32337464,
      "step": 55730
    },
    {
      "epoch": 8.301310694072088,
      "grad_norm": 0.029354378581047058,
      "learning_rate": 3.634524566128955e-05,
      "loss": 0.0957,
      "num_input_tokens_seen": 32340184,
      "step": 55735
    },
    {
      "epoch": 8.302055406613047,
      "grad_norm": 0.037611979991197586,
      "learning_rate": 3.6342350010689017e-05,
      "loss": 0.0671,
      "num_input_tokens_seen": 32342904,
      "step": 55740
    },
    {
      "epoch": 8.302800119154007,
      "grad_norm": 14.402704238891602,
      "learning_rate": 3.633945416847102e-05,
      "loss": 0.3379,
      "num_input_tokens_seen": 32345592,
      "step": 55745
    },
    {
      "epoch": 8.303544831694966,
      "grad_norm": 55.152503967285156,
      "learning_rate": 3.6336558134684465e-05,
      "loss": 0.1534,
      "num_input_tokens_seen": 32348632,
      "step": 55750
    },
    {
      "epoch": 8.304289544235925,
      "grad_norm": 19.265790939331055,
      "learning_rate": 3.6333661909378286e-05,
      "loss": 0.1339,
      "num_input_tokens_seen": 32351384,
      "step": 55755
    },
    {
      "epoch": 8.305034256776883,
      "grad_norm": 0.006952494848519564,
      "learning_rate": 3.63307654926014e-05,
      "loss": 0.2785,
      "num_input_tokens_seen": 32354552,
      "step": 55760
    },
    {
      "epoch": 8.305778969317844,
      "grad_norm": 0.07431209832429886,
      "learning_rate": 3.632786888440276e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 32357208,
      "step": 55765
    },
    {
      "epoch": 8.306523681858803,
      "grad_norm": 193.98533630371094,
      "learning_rate": 3.6324972084831284e-05,
      "loss": 0.1124,
      "num_input_tokens_seen": 32360184,
      "step": 55770
    },
    {
      "epoch": 8.307268394399761,
      "grad_norm": 0.0997847318649292,
      "learning_rate": 3.632207509393591e-05,
      "loss": 0.2097,
      "num_input_tokens_seen": 32362712,
      "step": 55775
    },
    {
      "epoch": 8.30801310694072,
      "grad_norm": 0.7392984628677368,
      "learning_rate": 3.6319177911765583e-05,
      "loss": 0.0759,
      "num_input_tokens_seen": 32365752,
      "step": 55780
    },
    {
      "epoch": 8.30875781948168,
      "grad_norm": 0.08783227950334549,
      "learning_rate": 3.631628053836926e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 32368376,
      "step": 55785
    },
    {
      "epoch": 8.30950253202264,
      "grad_norm": 1.1322866678237915,
      "learning_rate": 3.631338297379587e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 32371256,
      "step": 55790
    },
    {
      "epoch": 8.310247244563598,
      "grad_norm": 0.013446254655718803,
      "learning_rate": 3.631048521809437e-05,
      "loss": 0.2098,
      "num_input_tokens_seen": 32374232,
      "step": 55795
    },
    {
      "epoch": 8.310991957104557,
      "grad_norm": 0.05268280953168869,
      "learning_rate": 3.630758727131373e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 32377080,
      "step": 55800
    },
    {
      "epoch": 8.311736669645517,
      "grad_norm": 0.022396273910999298,
      "learning_rate": 3.6304689133502884e-05,
      "loss": 0.0267,
      "num_input_tokens_seen": 32380024,
      "step": 55805
    },
    {
      "epoch": 8.312481382186476,
      "grad_norm": 32.557037353515625,
      "learning_rate": 3.630179080471081e-05,
      "loss": 0.3776,
      "num_input_tokens_seen": 32383160,
      "step": 55810
    },
    {
      "epoch": 8.313226094727435,
      "grad_norm": 0.05446241796016693,
      "learning_rate": 3.629889228498646e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 32386136,
      "step": 55815
    },
    {
      "epoch": 8.313970807268394,
      "grad_norm": 0.059936944395303726,
      "learning_rate": 3.629599357437882e-05,
      "loss": 0.5167,
      "num_input_tokens_seen": 32388888,
      "step": 55820
    },
    {
      "epoch": 8.314715519809354,
      "grad_norm": 0.0009133307612501085,
      "learning_rate": 3.629309467293685e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 32391544,
      "step": 55825
    },
    {
      "epoch": 8.315460232350313,
      "grad_norm": 0.005765020381659269,
      "learning_rate": 3.6290195580709505e-05,
      "loss": 0.1103,
      "num_input_tokens_seen": 32394552,
      "step": 55830
    },
    {
      "epoch": 8.316204944891272,
      "grad_norm": 0.161391943693161,
      "learning_rate": 3.62872962977458e-05,
      "loss": 0.0872,
      "num_input_tokens_seen": 32397208,
      "step": 55835
    },
    {
      "epoch": 8.31694965743223,
      "grad_norm": 0.21105198562145233,
      "learning_rate": 3.628439682409468e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 32400120,
      "step": 55840
    },
    {
      "epoch": 8.317694369973191,
      "grad_norm": 10.472092628479004,
      "learning_rate": 3.628149715980516e-05,
      "loss": 0.3253,
      "num_input_tokens_seen": 32403160,
      "step": 55845
    },
    {
      "epoch": 8.31843908251415,
      "grad_norm": 0.38770392537117004,
      "learning_rate": 3.62785973049262e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 32406232,
      "step": 55850
    },
    {
      "epoch": 8.319183795055109,
      "grad_norm": 20.436138153076172,
      "learning_rate": 3.627569725950681e-05,
      "loss": 0.259,
      "num_input_tokens_seen": 32408824,
      "step": 55855
    },
    {
      "epoch": 8.319928507596067,
      "grad_norm": 0.04671424627304077,
      "learning_rate": 3.6272797023595974e-05,
      "loss": 0.039,
      "num_input_tokens_seen": 32412024,
      "step": 55860
    },
    {
      "epoch": 8.320673220137028,
      "grad_norm": 5.125398635864258,
      "learning_rate": 3.626989659724268e-05,
      "loss": 0.1105,
      "num_input_tokens_seen": 32414808,
      "step": 55865
    },
    {
      "epoch": 8.321417932677987,
      "grad_norm": 3.2328813076019287,
      "learning_rate": 3.626699598049594e-05,
      "loss": 0.0118,
      "num_input_tokens_seen": 32417560,
      "step": 55870
    },
    {
      "epoch": 8.322162645218945,
      "grad_norm": 16.38197898864746,
      "learning_rate": 3.626409517340476e-05,
      "loss": 0.3253,
      "num_input_tokens_seen": 32420152,
      "step": 55875
    },
    {
      "epoch": 8.322907357759904,
      "grad_norm": 6.708518028259277,
      "learning_rate": 3.626119417601814e-05,
      "loss": 0.081,
      "num_input_tokens_seen": 32423064,
      "step": 55880
    },
    {
      "epoch": 8.323652070300863,
      "grad_norm": 0.2747066915035248,
      "learning_rate": 3.625829298838509e-05,
      "loss": 0.0679,
      "num_input_tokens_seen": 32426008,
      "step": 55885
    },
    {
      "epoch": 8.324396782841823,
      "grad_norm": 21.46953582763672,
      "learning_rate": 3.6255391610554624e-05,
      "loss": 0.1022,
      "num_input_tokens_seen": 32429016,
      "step": 55890
    },
    {
      "epoch": 8.325141495382782,
      "grad_norm": 0.0020185071043670177,
      "learning_rate": 3.625249004257575e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 32431992,
      "step": 55895
    },
    {
      "epoch": 8.325886207923741,
      "grad_norm": 2.10129451751709,
      "learning_rate": 3.6249588284497496e-05,
      "loss": 0.5672,
      "num_input_tokens_seen": 32434936,
      "step": 55900
    },
    {
      "epoch": 8.3266309204647,
      "grad_norm": 0.12995319068431854,
      "learning_rate": 3.624668633636888e-05,
      "loss": 0.0164,
      "num_input_tokens_seen": 32437944,
      "step": 55905
    },
    {
      "epoch": 8.32737563300566,
      "grad_norm": 0.07755114138126373,
      "learning_rate": 3.624378419823893e-05,
      "loss": 0.0641,
      "num_input_tokens_seen": 32441016,
      "step": 55910
    },
    {
      "epoch": 8.328120345546619,
      "grad_norm": 0.0006340976106002927,
      "learning_rate": 3.624088187015668e-05,
      "loss": 0.2163,
      "num_input_tokens_seen": 32443832,
      "step": 55915
    },
    {
      "epoch": 8.328865058087578,
      "grad_norm": 0.009982092306017876,
      "learning_rate": 3.623797935217115e-05,
      "loss": 0.0176,
      "num_input_tokens_seen": 32446808,
      "step": 55920
    },
    {
      "epoch": 8.329609770628537,
      "grad_norm": 0.03439776971936226,
      "learning_rate": 3.623507664433138e-05,
      "loss": 0.2287,
      "num_input_tokens_seen": 32449720,
      "step": 55925
    },
    {
      "epoch": 8.330354483169497,
      "grad_norm": 14.519919395446777,
      "learning_rate": 3.6232173746686405e-05,
      "loss": 0.1135,
      "num_input_tokens_seen": 32452824,
      "step": 55930
    },
    {
      "epoch": 8.331099195710456,
      "grad_norm": 0.02864215336740017,
      "learning_rate": 3.6229270659285276e-05,
      "loss": 0.3709,
      "num_input_tokens_seen": 32455480,
      "step": 55935
    },
    {
      "epoch": 8.331843908251415,
      "grad_norm": 0.09301711618900299,
      "learning_rate": 3.622636738217703e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 32458168,
      "step": 55940
    },
    {
      "epoch": 8.332588620792373,
      "grad_norm": 0.029649963602423668,
      "learning_rate": 3.6223463915410714e-05,
      "loss": 0.0102,
      "num_input_tokens_seen": 32460952,
      "step": 55945
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.6493553519248962,
      "learning_rate": 3.622056025903539e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 32463896,
      "step": 55950
    },
    {
      "epoch": 8.334078045874293,
      "grad_norm": 15.406427383422852,
      "learning_rate": 3.62176564131001e-05,
      "loss": 0.3083,
      "num_input_tokens_seen": 32467096,
      "step": 55955
    },
    {
      "epoch": 8.334822758415251,
      "grad_norm": 1.964477777481079,
      "learning_rate": 3.62147523776539e-05,
      "loss": 0.4621,
      "num_input_tokens_seen": 32470008,
      "step": 55960
    },
    {
      "epoch": 8.33556747095621,
      "grad_norm": 0.5250037312507629,
      "learning_rate": 3.621184815274587e-05,
      "loss": 0.4609,
      "num_input_tokens_seen": 32473080,
      "step": 55965
    },
    {
      "epoch": 8.33631218349717,
      "grad_norm": 43.8560676574707,
      "learning_rate": 3.620894373842505e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 32475800,
      "step": 55970
    },
    {
      "epoch": 8.33705689603813,
      "grad_norm": 0.03227934241294861,
      "learning_rate": 3.6206039134740525e-05,
      "loss": 0.1739,
      "num_input_tokens_seen": 32478712,
      "step": 55975
    },
    {
      "epoch": 8.337801608579088,
      "grad_norm": 0.03703218325972557,
      "learning_rate": 3.620313434174135e-05,
      "loss": 0.0471,
      "num_input_tokens_seen": 32483032,
      "step": 55980
    },
    {
      "epoch": 8.338546321120047,
      "grad_norm": 0.5267590284347534,
      "learning_rate": 3.6200229359476614e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 32485944,
      "step": 55985
    },
    {
      "epoch": 8.339291033661008,
      "grad_norm": 0.04650704562664032,
      "learning_rate": 3.6197324187995384e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 32488824,
      "step": 55990
    },
    {
      "epoch": 8.340035746201966,
      "grad_norm": 0.01675131358206272,
      "learning_rate": 3.6194418827346746e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 32491608,
      "step": 55995
    },
    {
      "epoch": 8.340780458742925,
      "grad_norm": 0.016831673681735992,
      "learning_rate": 3.619151327757977e-05,
      "loss": 0.1155,
      "num_input_tokens_seen": 32494488,
      "step": 56000
    },
    {
      "epoch": 8.341525171283884,
      "grad_norm": 22.126541137695312,
      "learning_rate": 3.6188607538743556e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 32497368,
      "step": 56005
    },
    {
      "epoch": 8.342269883824844,
      "grad_norm": 26.26339340209961,
      "learning_rate": 3.618570161088719e-05,
      "loss": 0.5303,
      "num_input_tokens_seen": 32500280,
      "step": 56010
    },
    {
      "epoch": 8.343014596365803,
      "grad_norm": 0.04354022815823555,
      "learning_rate": 3.6182795494059764e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 32503128,
      "step": 56015
    },
    {
      "epoch": 8.343759308906762,
      "grad_norm": 0.06885907053947449,
      "learning_rate": 3.617988918831038e-05,
      "loss": 0.0243,
      "num_input_tokens_seen": 32505720,
      "step": 56020
    },
    {
      "epoch": 8.34450402144772,
      "grad_norm": 0.0010242011630907655,
      "learning_rate": 3.617698269368812e-05,
      "loss": 0.1123,
      "num_input_tokens_seen": 32508376,
      "step": 56025
    },
    {
      "epoch": 8.345248733988681,
      "grad_norm": 0.06278415024280548,
      "learning_rate": 3.61740760102421e-05,
      "loss": 0.2044,
      "num_input_tokens_seen": 32511128,
      "step": 56030
    },
    {
      "epoch": 8.34599344652964,
      "grad_norm": 0.02580382116138935,
      "learning_rate": 3.617116913802143e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 32514360,
      "step": 56035
    },
    {
      "epoch": 8.346738159070599,
      "grad_norm": 0.0299043171107769,
      "learning_rate": 3.61682620770752e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 32517240,
      "step": 56040
    },
    {
      "epoch": 8.347482871611557,
      "grad_norm": 0.5520989894866943,
      "learning_rate": 3.616535482745254e-05,
      "loss": 0.0907,
      "num_input_tokens_seen": 32520344,
      "step": 56045
    },
    {
      "epoch": 8.348227584152518,
      "grad_norm": 40.79473114013672,
      "learning_rate": 3.616244738920256e-05,
      "loss": 0.1606,
      "num_input_tokens_seen": 32523640,
      "step": 56050
    },
    {
      "epoch": 8.348972296693477,
      "grad_norm": 12.890776634216309,
      "learning_rate": 3.615953976237438e-05,
      "loss": 0.3506,
      "num_input_tokens_seen": 32526968,
      "step": 56055
    },
    {
      "epoch": 8.349717009234435,
      "grad_norm": 0.03909047693014145,
      "learning_rate": 3.6156631947017106e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 32529656,
      "step": 56060
    },
    {
      "epoch": 8.350461721775394,
      "grad_norm": 14.976049423217773,
      "learning_rate": 3.6153723943179876e-05,
      "loss": 0.0421,
      "num_input_tokens_seen": 32532344,
      "step": 56065
    },
    {
      "epoch": 8.351206434316353,
      "grad_norm": 0.46239718794822693,
      "learning_rate": 3.6150815750911825e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 32535512,
      "step": 56070
    },
    {
      "epoch": 8.351951146857314,
      "grad_norm": 0.09350446611642838,
      "learning_rate": 3.614790737026207e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 32538520,
      "step": 56075
    },
    {
      "epoch": 8.352695859398272,
      "grad_norm": 0.010425607673823833,
      "learning_rate": 3.614499880127975e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 32541240,
      "step": 56080
    },
    {
      "epoch": 8.353440571939231,
      "grad_norm": 0.014668768271803856,
      "learning_rate": 3.6142090044014e-05,
      "loss": 0.1485,
      "num_input_tokens_seen": 32544440,
      "step": 56085
    },
    {
      "epoch": 8.35418528448019,
      "grad_norm": 0.03322864696383476,
      "learning_rate": 3.613918109851397e-05,
      "loss": 0.2587,
      "num_input_tokens_seen": 32547224,
      "step": 56090
    },
    {
      "epoch": 8.35492999702115,
      "grad_norm": 2.183833599090576,
      "learning_rate": 3.613627196482879e-05,
      "loss": 0.0899,
      "num_input_tokens_seen": 32549912,
      "step": 56095
    },
    {
      "epoch": 8.35567470956211,
      "grad_norm": 0.08091514557600021,
      "learning_rate": 3.613336264300762e-05,
      "loss": 0.2303,
      "num_input_tokens_seen": 32552984,
      "step": 56100
    },
    {
      "epoch": 8.356419422103068,
      "grad_norm": 0.030953936278820038,
      "learning_rate": 3.613045313309959e-05,
      "loss": 0.1543,
      "num_input_tokens_seen": 32555928,
      "step": 56105
    },
    {
      "epoch": 8.357164134644027,
      "grad_norm": 0.3035876750946045,
      "learning_rate": 3.612754343515388e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 32558840,
      "step": 56110
    },
    {
      "epoch": 8.357908847184987,
      "grad_norm": 90.0193862915039,
      "learning_rate": 3.612463354921963e-05,
      "loss": 0.0937,
      "num_input_tokens_seen": 32561752,
      "step": 56115
    },
    {
      "epoch": 8.358653559725946,
      "grad_norm": 0.05805490165948868,
      "learning_rate": 3.6121723475346006e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 32564664,
      "step": 56120
    },
    {
      "epoch": 8.359398272266905,
      "grad_norm": 16.26394271850586,
      "learning_rate": 3.6118813213582156e-05,
      "loss": 0.3622,
      "num_input_tokens_seen": 32567480,
      "step": 56125
    },
    {
      "epoch": 8.360142984807863,
      "grad_norm": 0.6915602087974548,
      "learning_rate": 3.611590276397727e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 32570008,
      "step": 56130
    },
    {
      "epoch": 8.360887697348824,
      "grad_norm": 0.015028330497443676,
      "learning_rate": 3.6112992126580505e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 32572728,
      "step": 56135
    },
    {
      "epoch": 8.361632409889783,
      "grad_norm": 0.02871827781200409,
      "learning_rate": 3.611008130144102e-05,
      "loss": 0.1163,
      "num_input_tokens_seen": 32575704,
      "step": 56140
    },
    {
      "epoch": 8.362377122430741,
      "grad_norm": 21.838748931884766,
      "learning_rate": 3.610717028860801e-05,
      "loss": 0.4463,
      "num_input_tokens_seen": 32578680,
      "step": 56145
    },
    {
      "epoch": 8.3631218349717,
      "grad_norm": 0.027580130845308304,
      "learning_rate": 3.6104259088130655e-05,
      "loss": 0.1515,
      "num_input_tokens_seen": 32581784,
      "step": 56150
    },
    {
      "epoch": 8.36386654751266,
      "grad_norm": 0.03648151829838753,
      "learning_rate": 3.6101347700058116e-05,
      "loss": 0.1833,
      "num_input_tokens_seen": 32584728,
      "step": 56155
    },
    {
      "epoch": 8.36461126005362,
      "grad_norm": 0.4598241448402405,
      "learning_rate": 3.6098436124439594e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 32587800,
      "step": 56160
    },
    {
      "epoch": 8.365355972594578,
      "grad_norm": 6.1684722900390625,
      "learning_rate": 3.609552436132427e-05,
      "loss": 0.2246,
      "num_input_tokens_seen": 32590904,
      "step": 56165
    },
    {
      "epoch": 8.366100685135537,
      "grad_norm": 0.019174640998244286,
      "learning_rate": 3.609261241076136e-05,
      "loss": 0.1947,
      "num_input_tokens_seen": 32594104,
      "step": 56170
    },
    {
      "epoch": 8.366845397676498,
      "grad_norm": 0.025406522676348686,
      "learning_rate": 3.608970027280001e-05,
      "loss": 0.1929,
      "num_input_tokens_seen": 32597048,
      "step": 56175
    },
    {
      "epoch": 8.367590110217456,
      "grad_norm": 0.016317743808031082,
      "learning_rate": 3.608678794748946e-05,
      "loss": 0.0104,
      "num_input_tokens_seen": 32599960,
      "step": 56180
    },
    {
      "epoch": 8.368334822758415,
      "grad_norm": 0.023624934256076813,
      "learning_rate": 3.608387543487889e-05,
      "loss": 0.2093,
      "num_input_tokens_seen": 32602648,
      "step": 56185
    },
    {
      "epoch": 8.369079535299374,
      "grad_norm": 218.63865661621094,
      "learning_rate": 3.6080962735017514e-05,
      "loss": 0.6559,
      "num_input_tokens_seen": 32605496,
      "step": 56190
    },
    {
      "epoch": 8.369824247840334,
      "grad_norm": 0.0754302516579628,
      "learning_rate": 3.607804984795453e-05,
      "loss": 0.023,
      "num_input_tokens_seen": 32608408,
      "step": 56195
    },
    {
      "epoch": 8.370568960381293,
      "grad_norm": 0.008055077865719795,
      "learning_rate": 3.607513677373916e-05,
      "loss": 0.1857,
      "num_input_tokens_seen": 32611224,
      "step": 56200
    },
    {
      "epoch": 8.371313672922252,
      "grad_norm": 0.03326008468866348,
      "learning_rate": 3.60722235124206e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 32614040,
      "step": 56205
    },
    {
      "epoch": 8.37205838546321,
      "grad_norm": 2.633793830871582,
      "learning_rate": 3.606931006404809e-05,
      "loss": 0.1644,
      "num_input_tokens_seen": 32616760,
      "step": 56210
    },
    {
      "epoch": 8.372803098004171,
      "grad_norm": 0.034717660397291183,
      "learning_rate": 3.606639642867083e-05,
      "loss": 0.2855,
      "num_input_tokens_seen": 32619448,
      "step": 56215
    },
    {
      "epoch": 8.37354781054513,
      "grad_norm": 0.009502576664090157,
      "learning_rate": 3.606348260633805e-05,
      "loss": 0.2675,
      "num_input_tokens_seen": 32622360,
      "step": 56220
    },
    {
      "epoch": 8.374292523086089,
      "grad_norm": 8.81840705871582,
      "learning_rate": 3.6060568597098974e-05,
      "loss": 0.4557,
      "num_input_tokens_seen": 32625208,
      "step": 56225
    },
    {
      "epoch": 8.375037235627047,
      "grad_norm": 0.04899730533361435,
      "learning_rate": 3.605765440100283e-05,
      "loss": 0.1524,
      "num_input_tokens_seen": 32628056,
      "step": 56230
    },
    {
      "epoch": 8.375781948168008,
      "grad_norm": 0.02314702793955803,
      "learning_rate": 3.605474001809886e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 32631160,
      "step": 56235
    },
    {
      "epoch": 8.376526660708967,
      "grad_norm": 0.33983513712882996,
      "learning_rate": 3.6051825448436286e-05,
      "loss": 0.0224,
      "num_input_tokens_seen": 32634072,
      "step": 56240
    },
    {
      "epoch": 8.377271373249926,
      "grad_norm": 0.18966783583164215,
      "learning_rate": 3.604891069206437e-05,
      "loss": 0.2615,
      "num_input_tokens_seen": 32636792,
      "step": 56245
    },
    {
      "epoch": 8.378016085790884,
      "grad_norm": 67.6960678100586,
      "learning_rate": 3.6045995749032326e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 32639416,
      "step": 56250
    },
    {
      "epoch": 8.378760798331843,
      "grad_norm": 0.15970443189144135,
      "learning_rate": 3.6043080619389406e-05,
      "loss": 0.2724,
      "num_input_tokens_seen": 32642296,
      "step": 56255
    },
    {
      "epoch": 8.379505510872804,
      "grad_norm": 0.014170639216899872,
      "learning_rate": 3.604016530318487e-05,
      "loss": 0.0834,
      "num_input_tokens_seen": 32645304,
      "step": 56260
    },
    {
      "epoch": 8.380250223413762,
      "grad_norm": 0.17570476233959198,
      "learning_rate": 3.6037249800467957e-05,
      "loss": 0.1171,
      "num_input_tokens_seen": 32648376,
      "step": 56265
    },
    {
      "epoch": 8.380994935954721,
      "grad_norm": 0.05172068625688553,
      "learning_rate": 3.6034334111287926e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 32651480,
      "step": 56270
    },
    {
      "epoch": 8.38173964849568,
      "grad_norm": 0.08855348825454712,
      "learning_rate": 3.603141823569404e-05,
      "loss": 0.1924,
      "num_input_tokens_seen": 32654328,
      "step": 56275
    },
    {
      "epoch": 8.38248436103664,
      "grad_norm": 27.227054595947266,
      "learning_rate": 3.602850217373555e-05,
      "loss": 0.1991,
      "num_input_tokens_seen": 32657272,
      "step": 56280
    },
    {
      "epoch": 8.3832290735776,
      "grad_norm": 0.004162904340773821,
      "learning_rate": 3.602558592546172e-05,
      "loss": 0.0246,
      "num_input_tokens_seen": 32660120,
      "step": 56285
    },
    {
      "epoch": 8.383973786118558,
      "grad_norm": 0.6082509756088257,
      "learning_rate": 3.602266949092184e-05,
      "loss": 0.1204,
      "num_input_tokens_seen": 32663000,
      "step": 56290
    },
    {
      "epoch": 8.384718498659517,
      "grad_norm": 0.15120021998882294,
      "learning_rate": 3.6019752870165145e-05,
      "loss": 0.0113,
      "num_input_tokens_seen": 32665752,
      "step": 56295
    },
    {
      "epoch": 8.385463211200477,
      "grad_norm": 1.3606736660003662,
      "learning_rate": 3.601683606324093e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 32668920,
      "step": 56300
    },
    {
      "epoch": 8.386207923741436,
      "grad_norm": 23.333206176757812,
      "learning_rate": 3.601391907019847e-05,
      "loss": 0.288,
      "num_input_tokens_seen": 32671640,
      "step": 56305
    },
    {
      "epoch": 8.386952636282395,
      "grad_norm": 0.025759298354387283,
      "learning_rate": 3.601100189108704e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 32674616,
      "step": 56310
    },
    {
      "epoch": 8.387697348823353,
      "grad_norm": 0.032806798815727234,
      "learning_rate": 3.600808452595592e-05,
      "loss": 0.078,
      "num_input_tokens_seen": 32677304,
      "step": 56315
    },
    {
      "epoch": 8.388442061364314,
      "grad_norm": 0.035876233130693436,
      "learning_rate": 3.6005166974854406e-05,
      "loss": 0.2511,
      "num_input_tokens_seen": 32680408,
      "step": 56320
    },
    {
      "epoch": 8.389186773905273,
      "grad_norm": 0.011208141222596169,
      "learning_rate": 3.6002249237831774e-05,
      "loss": 0.1479,
      "num_input_tokens_seen": 32683032,
      "step": 56325
    },
    {
      "epoch": 8.389931486446232,
      "grad_norm": 0.864916205406189,
      "learning_rate": 3.599933131493733e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 32685880,
      "step": 56330
    },
    {
      "epoch": 8.39067619898719,
      "grad_norm": 0.06016001105308533,
      "learning_rate": 3.599641320622036e-05,
      "loss": 0.0111,
      "num_input_tokens_seen": 32688536,
      "step": 56335
    },
    {
      "epoch": 8.39142091152815,
      "grad_norm": 1.722704529762268,
      "learning_rate": 3.599349491173016e-05,
      "loss": 0.2873,
      "num_input_tokens_seen": 32691256,
      "step": 56340
    },
    {
      "epoch": 8.39216562406911,
      "grad_norm": 0.02719610184431076,
      "learning_rate": 3.5990576431516044e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 32694136,
      "step": 56345
    },
    {
      "epoch": 8.392910336610068,
      "grad_norm": 0.007987585850059986,
      "learning_rate": 3.598765776562731e-05,
      "loss": 0.0569,
      "num_input_tokens_seen": 32696792,
      "step": 56350
    },
    {
      "epoch": 8.393655049151027,
      "grad_norm": 9.442154884338379,
      "learning_rate": 3.598473891411326e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 32699768,
      "step": 56355
    },
    {
      "epoch": 8.394399761691988,
      "grad_norm": 0.014171062037348747,
      "learning_rate": 3.598181987702321e-05,
      "loss": 0.0506,
      "num_input_tokens_seen": 32702712,
      "step": 56360
    },
    {
      "epoch": 8.395144474232946,
      "grad_norm": 0.00862523727118969,
      "learning_rate": 3.5978900654406476e-05,
      "loss": 0.0418,
      "num_input_tokens_seen": 32705464,
      "step": 56365
    },
    {
      "epoch": 8.395889186773905,
      "grad_norm": 0.01989220455288887,
      "learning_rate": 3.597598124631239e-05,
      "loss": 0.1736,
      "num_input_tokens_seen": 32708440,
      "step": 56370
    },
    {
      "epoch": 8.396633899314864,
      "grad_norm": 0.0037327667232602835,
      "learning_rate": 3.5973061652790237e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 32711256,
      "step": 56375
    },
    {
      "epoch": 8.397378611855824,
      "grad_norm": 0.0045214006677269936,
      "learning_rate": 3.597014187388936e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 32714328,
      "step": 56380
    },
    {
      "epoch": 8.398123324396783,
      "grad_norm": 43.176475524902344,
      "learning_rate": 3.5967221909659095e-05,
      "loss": 0.2836,
      "num_input_tokens_seen": 32717080,
      "step": 56385
    },
    {
      "epoch": 8.398868036937742,
      "grad_norm": 0.013268607668578625,
      "learning_rate": 3.596430176014875e-05,
      "loss": 0.1798,
      "num_input_tokens_seen": 32720024,
      "step": 56390
    },
    {
      "epoch": 8.3996127494787,
      "grad_norm": 0.044041238725185394,
      "learning_rate": 3.596138142540768e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 32722808,
      "step": 56395
    },
    {
      "epoch": 8.400357462019661,
      "grad_norm": 41.36077880859375,
      "learning_rate": 3.5958460905485216e-05,
      "loss": 0.2338,
      "num_input_tokens_seen": 32725528,
      "step": 56400
    },
    {
      "epoch": 8.40110217456062,
      "grad_norm": 49.281394958496094,
      "learning_rate": 3.595554020043068e-05,
      "loss": 0.2025,
      "num_input_tokens_seen": 32728088,
      "step": 56405
    },
    {
      "epoch": 8.401846887101579,
      "grad_norm": 0.12943698465824127,
      "learning_rate": 3.5952619310293435e-05,
      "loss": 0.3024,
      "num_input_tokens_seen": 32730776,
      "step": 56410
    },
    {
      "epoch": 8.402591599642538,
      "grad_norm": 0.2767782211303711,
      "learning_rate": 3.594969823512282e-05,
      "loss": 0.0736,
      "num_input_tokens_seen": 32733976,
      "step": 56415
    },
    {
      "epoch": 8.403336312183498,
      "grad_norm": 0.02807197906076908,
      "learning_rate": 3.5946776974968174e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 32736888,
      "step": 56420
    },
    {
      "epoch": 8.404081024724457,
      "grad_norm": 0.02123558335006237,
      "learning_rate": 3.5943855529878865e-05,
      "loss": 0.1339,
      "num_input_tokens_seen": 32739800,
      "step": 56425
    },
    {
      "epoch": 8.404825737265416,
      "grad_norm": 120.58686065673828,
      "learning_rate": 3.594093389990424e-05,
      "loss": 0.0235,
      "num_input_tokens_seen": 32742616,
      "step": 56430
    },
    {
      "epoch": 8.405570449806374,
      "grad_norm": 1.8232682943344116,
      "learning_rate": 3.593801208509365e-05,
      "loss": 0.037,
      "num_input_tokens_seen": 32745592,
      "step": 56435
    },
    {
      "epoch": 8.406315162347333,
      "grad_norm": 95.20770263671875,
      "learning_rate": 3.593509008549646e-05,
      "loss": 0.1656,
      "num_input_tokens_seen": 32748504,
      "step": 56440
    },
    {
      "epoch": 8.407059874888294,
      "grad_norm": 0.02638738974928856,
      "learning_rate": 3.593216790116205e-05,
      "loss": 0.1199,
      "num_input_tokens_seen": 32751352,
      "step": 56445
    },
    {
      "epoch": 8.407804587429252,
      "grad_norm": 0.029373720288276672,
      "learning_rate": 3.5929245532139773e-05,
      "loss": 0.3522,
      "num_input_tokens_seen": 32754264,
      "step": 56450
    },
    {
      "epoch": 8.408549299970211,
      "grad_norm": 0.1291641741991043,
      "learning_rate": 3.5926322978478985e-05,
      "loss": 0.2103,
      "num_input_tokens_seen": 32757304,
      "step": 56455
    },
    {
      "epoch": 8.40929401251117,
      "grad_norm": 0.6592562794685364,
      "learning_rate": 3.592340024022909e-05,
      "loss": 0.4053,
      "num_input_tokens_seen": 32760152,
      "step": 56460
    },
    {
      "epoch": 8.41003872505213,
      "grad_norm": 0.1154995858669281,
      "learning_rate": 3.592047731743944e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 32762904,
      "step": 56465
    },
    {
      "epoch": 8.41078343759309,
      "grad_norm": 0.21648545563220978,
      "learning_rate": 3.591755421015943e-05,
      "loss": 0.0989,
      "num_input_tokens_seen": 32765752,
      "step": 56470
    },
    {
      "epoch": 8.411528150134048,
      "grad_norm": 0.01794596016407013,
      "learning_rate": 3.591463091843844e-05,
      "loss": 0.0786,
      "num_input_tokens_seen": 32768472,
      "step": 56475
    },
    {
      "epoch": 8.412272862675007,
      "grad_norm": 67.53216552734375,
      "learning_rate": 3.591170744232585e-05,
      "loss": 0.1268,
      "num_input_tokens_seen": 32771416,
      "step": 56480
    },
    {
      "epoch": 8.413017575215967,
      "grad_norm": 0.06237807869911194,
      "learning_rate": 3.590878378187106e-05,
      "loss": 0.0283,
      "num_input_tokens_seen": 32774008,
      "step": 56485
    },
    {
      "epoch": 8.413762287756926,
      "grad_norm": 0.004357839003205299,
      "learning_rate": 3.5905859937123445e-05,
      "loss": 0.0431,
      "num_input_tokens_seen": 32777144,
      "step": 56490
    },
    {
      "epoch": 8.414507000297885,
      "grad_norm": 0.0846048891544342,
      "learning_rate": 3.5902935908132416e-05,
      "loss": 0.0616,
      "num_input_tokens_seen": 32780120,
      "step": 56495
    },
    {
      "epoch": 8.415251712838844,
      "grad_norm": 1.0696877241134644,
      "learning_rate": 3.5900011694947364e-05,
      "loss": 0.1646,
      "num_input_tokens_seen": 32782872,
      "step": 56500
    },
    {
      "epoch": 8.415996425379804,
      "grad_norm": 0.12366539239883423,
      "learning_rate": 3.5897087297617694e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 32785752,
      "step": 56505
    },
    {
      "epoch": 8.416741137920763,
      "grad_norm": 14.570037841796875,
      "learning_rate": 3.589416271619281e-05,
      "loss": 0.3199,
      "num_input_tokens_seen": 32788888,
      "step": 56510
    },
    {
      "epoch": 8.417485850461722,
      "grad_norm": 0.03292258828878403,
      "learning_rate": 3.589123795072212e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 32791864,
      "step": 56515
    },
    {
      "epoch": 8.41823056300268,
      "grad_norm": 0.003109366400167346,
      "learning_rate": 3.5888313001255034e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 32794936,
      "step": 56520
    },
    {
      "epoch": 8.418975275543641,
      "grad_norm": 0.03526318818330765,
      "learning_rate": 3.588538786784096e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 32798008,
      "step": 56525
    },
    {
      "epoch": 8.4197199880846,
      "grad_norm": 0.02141162008047104,
      "learning_rate": 3.5882462550529325e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 32801208,
      "step": 56530
    },
    {
      "epoch": 8.420464700625558,
      "grad_norm": 1.7220373153686523,
      "learning_rate": 3.587953704936955e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 32803960,
      "step": 56535
    },
    {
      "epoch": 8.421209413166517,
      "grad_norm": 5.8769612312316895,
      "learning_rate": 3.587661136441105e-05,
      "loss": 0.061,
      "num_input_tokens_seen": 32806808,
      "step": 56540
    },
    {
      "epoch": 8.421954125707478,
      "grad_norm": 0.005864760372787714,
      "learning_rate": 3.587368549570326e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 32809272,
      "step": 56545
    },
    {
      "epoch": 8.422698838248436,
      "grad_norm": 61.26345443725586,
      "learning_rate": 3.58707594432956e-05,
      "loss": 0.2187,
      "num_input_tokens_seen": 32811928,
      "step": 56550
    },
    {
      "epoch": 8.423443550789395,
      "grad_norm": 0.023568348959088326,
      "learning_rate": 3.586783320723751e-05,
      "loss": 0.2415,
      "num_input_tokens_seen": 32814680,
      "step": 56555
    },
    {
      "epoch": 8.424188263330354,
      "grad_norm": 57.19491958618164,
      "learning_rate": 3.586490678757842e-05,
      "loss": 0.1971,
      "num_input_tokens_seen": 32817336,
      "step": 56560
    },
    {
      "epoch": 8.424932975871315,
      "grad_norm": 0.061304375529289246,
      "learning_rate": 3.5861980184367775e-05,
      "loss": 0.1473,
      "num_input_tokens_seen": 32820312,
      "step": 56565
    },
    {
      "epoch": 8.425677688412273,
      "grad_norm": 0.13197007775306702,
      "learning_rate": 3.5859053397655014e-05,
      "loss": 0.2518,
      "num_input_tokens_seen": 32823256,
      "step": 56570
    },
    {
      "epoch": 8.426422400953232,
      "grad_norm": 0.03752686828374863,
      "learning_rate": 3.585612642748958e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 32826296,
      "step": 56575
    },
    {
      "epoch": 8.42716711349419,
      "grad_norm": 0.18002238869667053,
      "learning_rate": 3.585319927392093e-05,
      "loss": 0.2023,
      "num_input_tokens_seen": 32828952,
      "step": 56580
    },
    {
      "epoch": 8.42791182603515,
      "grad_norm": 52.54338073730469,
      "learning_rate": 3.585027193699851e-05,
      "loss": 0.1477,
      "num_input_tokens_seen": 32831576,
      "step": 56585
    },
    {
      "epoch": 8.42865653857611,
      "grad_norm": 7.5030975341796875,
      "learning_rate": 3.5847344416771766e-05,
      "loss": 0.0919,
      "num_input_tokens_seen": 32834680,
      "step": 56590
    },
    {
      "epoch": 8.429401251117069,
      "grad_norm": 33.46339416503906,
      "learning_rate": 3.584441671329016e-05,
      "loss": 0.2395,
      "num_input_tokens_seen": 32837592,
      "step": 56595
    },
    {
      "epoch": 8.430145963658028,
      "grad_norm": 0.050118301063776016,
      "learning_rate": 3.584148882660316e-05,
      "loss": 0.1917,
      "num_input_tokens_seen": 32840600,
      "step": 56600
    },
    {
      "epoch": 8.430890676198986,
      "grad_norm": 54.08674621582031,
      "learning_rate": 3.583856075676023e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 32843384,
      "step": 56605
    },
    {
      "epoch": 8.431635388739947,
      "grad_norm": 3.099862813949585,
      "learning_rate": 3.5835632503810834e-05,
      "loss": 0.1341,
      "num_input_tokens_seen": 32846328,
      "step": 56610
    },
    {
      "epoch": 8.432380101280906,
      "grad_norm": 0.019966596737504005,
      "learning_rate": 3.5832704067804436e-05,
      "loss": 0.0896,
      "num_input_tokens_seen": 32848952,
      "step": 56615
    },
    {
      "epoch": 8.433124813821864,
      "grad_norm": 75.49592590332031,
      "learning_rate": 3.582977544879051e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 32851672,
      "step": 56620
    },
    {
      "epoch": 8.433869526362823,
      "grad_norm": 22.479211807250977,
      "learning_rate": 3.5826846646818536e-05,
      "loss": 0.1894,
      "num_input_tokens_seen": 32854488,
      "step": 56625
    },
    {
      "epoch": 8.434614238903784,
      "grad_norm": 4.817007064819336,
      "learning_rate": 3.582391766193799e-05,
      "loss": 0.0125,
      "num_input_tokens_seen": 32857144,
      "step": 56630
    },
    {
      "epoch": 8.435358951444742,
      "grad_norm": 20.55682373046875,
      "learning_rate": 3.582098849419835e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 32860152,
      "step": 56635
    },
    {
      "epoch": 8.436103663985701,
      "grad_norm": 0.009269972331821918,
      "learning_rate": 3.581805914364912e-05,
      "loss": 0.377,
      "num_input_tokens_seen": 32862808,
      "step": 56640
    },
    {
      "epoch": 8.43684837652666,
      "grad_norm": 4.436889171600342,
      "learning_rate": 3.581512961033977e-05,
      "loss": 0.4499,
      "num_input_tokens_seen": 32865784,
      "step": 56645
    },
    {
      "epoch": 8.43759308906762,
      "grad_norm": 0.08527195453643799,
      "learning_rate": 3.5812199894319795e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 32868760,
      "step": 56650
    },
    {
      "epoch": 8.43833780160858,
      "grad_norm": 0.020296473056077957,
      "learning_rate": 3.58092699956387e-05,
      "loss": 0.0783,
      "num_input_tokens_seen": 32871736,
      "step": 56655
    },
    {
      "epoch": 8.439082514149538,
      "grad_norm": 0.20244528353214264,
      "learning_rate": 3.580633991434597e-05,
      "loss": 0.0874,
      "num_input_tokens_seen": 32874776,
      "step": 56660
    },
    {
      "epoch": 8.439827226690497,
      "grad_norm": 0.6507447361946106,
      "learning_rate": 3.58034096504911e-05,
      "loss": 0.1527,
      "num_input_tokens_seen": 32877464,
      "step": 56665
    },
    {
      "epoch": 8.440571939231457,
      "grad_norm": 6.0515055656433105,
      "learning_rate": 3.580047920412362e-05,
      "loss": 0.1767,
      "num_input_tokens_seen": 32880312,
      "step": 56670
    },
    {
      "epoch": 8.441316651772416,
      "grad_norm": 15.181632041931152,
      "learning_rate": 3.579754857529301e-05,
      "loss": 0.121,
      "num_input_tokens_seen": 32883224,
      "step": 56675
    },
    {
      "epoch": 8.442061364313375,
      "grad_norm": 92.4050521850586,
      "learning_rate": 3.57946177640488e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 32886232,
      "step": 56680
    },
    {
      "epoch": 8.442806076854334,
      "grad_norm": 9.903005599975586,
      "learning_rate": 3.579168677044049e-05,
      "loss": 0.033,
      "num_input_tokens_seen": 32889176,
      "step": 56685
    },
    {
      "epoch": 8.443550789395294,
      "grad_norm": 12.147862434387207,
      "learning_rate": 3.5788755594517595e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 32892408,
      "step": 56690
    },
    {
      "epoch": 8.444295501936253,
      "grad_norm": 0.43495973944664,
      "learning_rate": 3.5785824236329644e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 32895384,
      "step": 56695
    },
    {
      "epoch": 8.445040214477212,
      "grad_norm": 0.024938715621829033,
      "learning_rate": 3.578289269592615e-05,
      "loss": 0.142,
      "num_input_tokens_seen": 32898520,
      "step": 56700
    },
    {
      "epoch": 8.44578492701817,
      "grad_norm": 20.1341609954834,
      "learning_rate": 3.577996097335665e-05,
      "loss": 0.1826,
      "num_input_tokens_seen": 32901464,
      "step": 56705
    },
    {
      "epoch": 8.446529639559131,
      "grad_norm": 0.01816706173121929,
      "learning_rate": 3.577702906867066e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 32904280,
      "step": 56710
    },
    {
      "epoch": 8.44727435210009,
      "grad_norm": 0.17715045809745789,
      "learning_rate": 3.577409698191773e-05,
      "loss": 0.3352,
      "num_input_tokens_seen": 32906936,
      "step": 56715
    },
    {
      "epoch": 8.448019064641048,
      "grad_norm": 0.10541629046201706,
      "learning_rate": 3.5771164713147364e-05,
      "loss": 0.228,
      "num_input_tokens_seen": 32909848,
      "step": 56720
    },
    {
      "epoch": 8.448763777182007,
      "grad_norm": 90.1964340209961,
      "learning_rate": 3.576823226240913e-05,
      "loss": 0.0347,
      "num_input_tokens_seen": 32913048,
      "step": 56725
    },
    {
      "epoch": 8.449508489722968,
      "grad_norm": 6.65792989730835,
      "learning_rate": 3.576529962975255e-05,
      "loss": 0.17,
      "num_input_tokens_seen": 32915800,
      "step": 56730
    },
    {
      "epoch": 8.450253202263927,
      "grad_norm": 74.30136108398438,
      "learning_rate": 3.576236681522718e-05,
      "loss": 0.2275,
      "num_input_tokens_seen": 32918648,
      "step": 56735
    },
    {
      "epoch": 8.450997914804885,
      "grad_norm": 65.51063537597656,
      "learning_rate": 3.575943381888255e-05,
      "loss": 0.2604,
      "num_input_tokens_seen": 32921368,
      "step": 56740
    },
    {
      "epoch": 8.451742627345844,
      "grad_norm": 0.0465993732213974,
      "learning_rate": 3.575650064076823e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 32924088,
      "step": 56745
    },
    {
      "epoch": 8.452487339886805,
      "grad_norm": 0.6974188685417175,
      "learning_rate": 3.575356728093376e-05,
      "loss": 0.3728,
      "num_input_tokens_seen": 32926936,
      "step": 56750
    },
    {
      "epoch": 8.453232052427763,
      "grad_norm": 0.04717731848359108,
      "learning_rate": 3.575063373942871e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 32929592,
      "step": 56755
    },
    {
      "epoch": 8.453976764968722,
      "grad_norm": 0.005787995643913746,
      "learning_rate": 3.5747700016302616e-05,
      "loss": 0.2362,
      "num_input_tokens_seen": 32932664,
      "step": 56760
    },
    {
      "epoch": 8.45472147750968,
      "grad_norm": 0.005953573156148195,
      "learning_rate": 3.574476611160506e-05,
      "loss": 0.1318,
      "num_input_tokens_seen": 32935384,
      "step": 56765
    },
    {
      "epoch": 8.45546619005064,
      "grad_norm": 0.9263907670974731,
      "learning_rate": 3.5741832025385596e-05,
      "loss": 0.0595,
      "num_input_tokens_seen": 32938200,
      "step": 56770
    },
    {
      "epoch": 8.4562109025916,
      "grad_norm": 0.0628754273056984,
      "learning_rate": 3.57388977576938e-05,
      "loss": 0.1933,
      "num_input_tokens_seen": 32941240,
      "step": 56775
    },
    {
      "epoch": 8.456955615132559,
      "grad_norm": 0.2356957048177719,
      "learning_rate": 3.5735963308579256e-05,
      "loss": 0.1107,
      "num_input_tokens_seen": 32944248,
      "step": 56780
    },
    {
      "epoch": 8.457700327673518,
      "grad_norm": 55.18362808227539,
      "learning_rate": 3.573302867809151e-05,
      "loss": 0.1798,
      "num_input_tokens_seen": 32947032,
      "step": 56785
    },
    {
      "epoch": 8.458445040214476,
      "grad_norm": 0.35897573828697205,
      "learning_rate": 3.573009386628015e-05,
      "loss": 0.156,
      "num_input_tokens_seen": 32950264,
      "step": 56790
    },
    {
      "epoch": 8.459189752755437,
      "grad_norm": 12.06639575958252,
      "learning_rate": 3.5727158873194763e-05,
      "loss": 0.1245,
      "num_input_tokens_seen": 32953208,
      "step": 56795
    },
    {
      "epoch": 8.459934465296396,
      "grad_norm": 20.908184051513672,
      "learning_rate": 3.572422369888493e-05,
      "loss": 0.18,
      "num_input_tokens_seen": 32956152,
      "step": 56800
    },
    {
      "epoch": 8.460679177837354,
      "grad_norm": 0.06273111701011658,
      "learning_rate": 3.5721288343400235e-05,
      "loss": 0.2273,
      "num_input_tokens_seen": 32958936,
      "step": 56805
    },
    {
      "epoch": 8.461423890378313,
      "grad_norm": 0.012467064894735813,
      "learning_rate": 3.571835280679027e-05,
      "loss": 0.2305,
      "num_input_tokens_seen": 32961720,
      "step": 56810
    },
    {
      "epoch": 8.462168602919274,
      "grad_norm": 0.2065230906009674,
      "learning_rate": 3.5715417089104634e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 32964440,
      "step": 56815
    },
    {
      "epoch": 8.462913315460233,
      "grad_norm": 0.0699358880519867,
      "learning_rate": 3.571248119039291e-05,
      "loss": 0.0351,
      "num_input_tokens_seen": 32967160,
      "step": 56820
    },
    {
      "epoch": 8.463658028001191,
      "grad_norm": 0.041153907775878906,
      "learning_rate": 3.570954511070471e-05,
      "loss": 0.3027,
      "num_input_tokens_seen": 32970136,
      "step": 56825
    },
    {
      "epoch": 8.46440274054215,
      "grad_norm": 0.044136807322502136,
      "learning_rate": 3.570660885008962e-05,
      "loss": 0.0988,
      "num_input_tokens_seen": 32973016,
      "step": 56830
    },
    {
      "epoch": 8.46514745308311,
      "grad_norm": 57.234310150146484,
      "learning_rate": 3.570367240859727e-05,
      "loss": 0.0365,
      "num_input_tokens_seen": 32975672,
      "step": 56835
    },
    {
      "epoch": 8.46589216562407,
      "grad_norm": 162.1190643310547,
      "learning_rate": 3.570073578627724e-05,
      "loss": 0.1424,
      "num_input_tokens_seen": 32978616,
      "step": 56840
    },
    {
      "epoch": 8.466636878165028,
      "grad_norm": 0.012465228326618671,
      "learning_rate": 3.5697798983179165e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 32981400,
      "step": 56845
    },
    {
      "epoch": 8.467381590705987,
      "grad_norm": 0.03872329369187355,
      "learning_rate": 3.569486199935264e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 32984280,
      "step": 56850
    },
    {
      "epoch": 8.468126303246947,
      "grad_norm": 0.02964160032570362,
      "learning_rate": 3.56919248348473e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 32987416,
      "step": 56855
    },
    {
      "epoch": 8.468871015787906,
      "grad_norm": 0.02418363280594349,
      "learning_rate": 3.568898748971275e-05,
      "loss": 0.042,
      "num_input_tokens_seen": 32990392,
      "step": 56860
    },
    {
      "epoch": 8.469615728328865,
      "grad_norm": 48.79205322265625,
      "learning_rate": 3.568604996399862e-05,
      "loss": 0.0728,
      "num_input_tokens_seen": 32993272,
      "step": 56865
    },
    {
      "epoch": 8.470360440869824,
      "grad_norm": 0.18091429769992828,
      "learning_rate": 3.5683112257754535e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 32996280,
      "step": 56870
    },
    {
      "epoch": 8.471105153410784,
      "grad_norm": 0.032657694071531296,
      "learning_rate": 3.568017437103013e-05,
      "loss": 0.1323,
      "num_input_tokens_seen": 32999128,
      "step": 56875
    },
    {
      "epoch": 8.471849865951743,
      "grad_norm": 50.07294845581055,
      "learning_rate": 3.567723630387504e-05,
      "loss": 0.2081,
      "num_input_tokens_seen": 33002424,
      "step": 56880
    },
    {
      "epoch": 8.472594578492702,
      "grad_norm": 88.9337158203125,
      "learning_rate": 3.5674298056338885e-05,
      "loss": 0.0303,
      "num_input_tokens_seen": 33005016,
      "step": 56885
    },
    {
      "epoch": 8.47333929103366,
      "grad_norm": 0.0034071344416588545,
      "learning_rate": 3.5671359628471315e-05,
      "loss": 0.1322,
      "num_input_tokens_seen": 33007768,
      "step": 56890
    },
    {
      "epoch": 8.474084003574621,
      "grad_norm": 0.20548397302627563,
      "learning_rate": 3.566842102032198e-05,
      "loss": 0.1136,
      "num_input_tokens_seen": 33010648,
      "step": 56895
    },
    {
      "epoch": 8.47482871611558,
      "grad_norm": 80.5144271850586,
      "learning_rate": 3.56654822319405e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 33013496,
      "step": 56900
    },
    {
      "epoch": 8.475573428656539,
      "grad_norm": 31.462421417236328,
      "learning_rate": 3.5662543263376544e-05,
      "loss": 0.2801,
      "num_input_tokens_seen": 33016376,
      "step": 56905
    },
    {
      "epoch": 8.476318141197497,
      "grad_norm": 75.42945861816406,
      "learning_rate": 3.5659604114679754e-05,
      "loss": 0.1247,
      "num_input_tokens_seen": 33019128,
      "step": 56910
    },
    {
      "epoch": 8.477062853738458,
      "grad_norm": 22.474815368652344,
      "learning_rate": 3.565666478589979e-05,
      "loss": 0.3005,
      "num_input_tokens_seen": 33021816,
      "step": 56915
    },
    {
      "epoch": 8.477807566279417,
      "grad_norm": 0.09055030345916748,
      "learning_rate": 3.5653725277086306e-05,
      "loss": 0.3746,
      "num_input_tokens_seen": 33024728,
      "step": 56920
    },
    {
      "epoch": 8.478552278820375,
      "grad_norm": 0.21837282180786133,
      "learning_rate": 3.565078558828896e-05,
      "loss": 0.1533,
      "num_input_tokens_seen": 33027416,
      "step": 56925
    },
    {
      "epoch": 8.479296991361334,
      "grad_norm": 6.365172863006592,
      "learning_rate": 3.564784571955741e-05,
      "loss": 0.0228,
      "num_input_tokens_seen": 33030200,
      "step": 56930
    },
    {
      "epoch": 8.480041703902295,
      "grad_norm": 133.94358825683594,
      "learning_rate": 3.5644905670941345e-05,
      "loss": 0.0305,
      "num_input_tokens_seen": 33033240,
      "step": 56935
    },
    {
      "epoch": 8.480786416443253,
      "grad_norm": 0.696226179599762,
      "learning_rate": 3.56419654424904e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 33036184,
      "step": 56940
    },
    {
      "epoch": 8.481531128984212,
      "grad_norm": 0.03932766243815422,
      "learning_rate": 3.5639025034254274e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 33038840,
      "step": 56945
    },
    {
      "epoch": 8.482275841525171,
      "grad_norm": 0.04441264644265175,
      "learning_rate": 3.563608444628264e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 33041720,
      "step": 56950
    },
    {
      "epoch": 8.48302055406613,
      "grad_norm": 0.006895634811371565,
      "learning_rate": 3.563314367862515e-05,
      "loss": 0.2488,
      "num_input_tokens_seen": 33044216,
      "step": 56955
    },
    {
      "epoch": 8.48376526660709,
      "grad_norm": 9.682490348815918,
      "learning_rate": 3.5630202731331515e-05,
      "loss": 0.3121,
      "num_input_tokens_seen": 33047064,
      "step": 56960
    },
    {
      "epoch": 8.484509979148049,
      "grad_norm": 0.12270528078079224,
      "learning_rate": 3.562726160445141e-05,
      "loss": 0.0144,
      "num_input_tokens_seen": 33050040,
      "step": 56965
    },
    {
      "epoch": 8.485254691689008,
      "grad_norm": 1.2457207441329956,
      "learning_rate": 3.562432029803452e-05,
      "loss": 0.2667,
      "num_input_tokens_seen": 33052920,
      "step": 56970
    },
    {
      "epoch": 8.485999404229966,
      "grad_norm": 18.37374496459961,
      "learning_rate": 3.562137881213053e-05,
      "loss": 0.1664,
      "num_input_tokens_seen": 33056152,
      "step": 56975
    },
    {
      "epoch": 8.486744116770927,
      "grad_norm": 0.10862524062395096,
      "learning_rate": 3.5618437146789155e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 33058680,
      "step": 56980
    },
    {
      "epoch": 8.487488829311886,
      "grad_norm": 73.17744445800781,
      "learning_rate": 3.561549530206007e-05,
      "loss": 0.3921,
      "num_input_tokens_seen": 33061752,
      "step": 56985
    },
    {
      "epoch": 8.488233541852845,
      "grad_norm": 84.76678466796875,
      "learning_rate": 3.561255327799298e-05,
      "loss": 0.3004,
      "num_input_tokens_seen": 33064696,
      "step": 56990
    },
    {
      "epoch": 8.488978254393803,
      "grad_norm": 0.21688470244407654,
      "learning_rate": 3.5609611074637584e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 33067928,
      "step": 56995
    },
    {
      "epoch": 8.489722966934764,
      "grad_norm": 108.63030242919922,
      "learning_rate": 3.5606668692043595e-05,
      "loss": 0.1989,
      "num_input_tokens_seen": 33071096,
      "step": 57000
    },
    {
      "epoch": 8.490467679475723,
      "grad_norm": 0.03588584065437317,
      "learning_rate": 3.5603726130260715e-05,
      "loss": 0.0346,
      "num_input_tokens_seen": 33073784,
      "step": 57005
    },
    {
      "epoch": 8.491212392016681,
      "grad_norm": 11.397122383117676,
      "learning_rate": 3.5600783389338674e-05,
      "loss": 0.1715,
      "num_input_tokens_seen": 33076600,
      "step": 57010
    },
    {
      "epoch": 8.49195710455764,
      "grad_norm": 0.12392830848693848,
      "learning_rate": 3.559784046932716e-05,
      "loss": 0.5016,
      "num_input_tokens_seen": 33079480,
      "step": 57015
    },
    {
      "epoch": 8.4927018170986,
      "grad_norm": 0.05619831383228302,
      "learning_rate": 3.5594897370275905e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 33082264,
      "step": 57020
    },
    {
      "epoch": 8.49344652963956,
      "grad_norm": 0.041526515036821365,
      "learning_rate": 3.5591954092234625e-05,
      "loss": 0.0506,
      "num_input_tokens_seen": 33085080,
      "step": 57025
    },
    {
      "epoch": 8.494191242180518,
      "grad_norm": 48.29979705810547,
      "learning_rate": 3.558901063525305e-05,
      "loss": 0.4711,
      "num_input_tokens_seen": 33087928,
      "step": 57030
    },
    {
      "epoch": 8.494935954721477,
      "grad_norm": 16.613948822021484,
      "learning_rate": 3.55860669993809e-05,
      "loss": 0.219,
      "num_input_tokens_seen": 33090776,
      "step": 57035
    },
    {
      "epoch": 8.495680667262437,
      "grad_norm": 70.2483139038086,
      "learning_rate": 3.55831231846679e-05,
      "loss": 0.1151,
      "num_input_tokens_seen": 33093624,
      "step": 57040
    },
    {
      "epoch": 8.496425379803396,
      "grad_norm": 18.153715133666992,
      "learning_rate": 3.55801791911638e-05,
      "loss": 0.0358,
      "num_input_tokens_seen": 33096568,
      "step": 57045
    },
    {
      "epoch": 8.497170092344355,
      "grad_norm": 0.09450791031122208,
      "learning_rate": 3.557723501891832e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 33099320,
      "step": 57050
    },
    {
      "epoch": 8.497914804885314,
      "grad_norm": 0.40760698914527893,
      "learning_rate": 3.557429066798121e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 33102232,
      "step": 57055
    },
    {
      "epoch": 8.498659517426274,
      "grad_norm": 0.030825747177004814,
      "learning_rate": 3.5571346138402204e-05,
      "loss": 0.0833,
      "num_input_tokens_seen": 33105304,
      "step": 57060
    },
    {
      "epoch": 8.499404229967233,
      "grad_norm": 0.1272590607404709,
      "learning_rate": 3.5568401430231045e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 33108408,
      "step": 57065
    },
    {
      "epoch": 8.500148942508192,
      "grad_norm": 0.021434905007481575,
      "learning_rate": 3.556545654351749e-05,
      "loss": 0.0817,
      "num_input_tokens_seen": 33111480,
      "step": 57070
    },
    {
      "epoch": 8.50089365504915,
      "grad_norm": 9.084432601928711,
      "learning_rate": 3.556251147831128e-05,
      "loss": 0.2449,
      "num_input_tokens_seen": 33114392,
      "step": 57075
    },
    {
      "epoch": 8.501638367590111,
      "grad_norm": 5.476502418518066,
      "learning_rate": 3.5559566234662175e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 33117368,
      "step": 57080
    },
    {
      "epoch": 8.50238308013107,
      "grad_norm": 2.0239763259887695,
      "learning_rate": 3.555662081261994e-05,
      "loss": 0.4288,
      "num_input_tokens_seen": 33120312,
      "step": 57085
    },
    {
      "epoch": 8.503127792672029,
      "grad_norm": 0.019420890137553215,
      "learning_rate": 3.555367521223431e-05,
      "loss": 0.1207,
      "num_input_tokens_seen": 33122968,
      "step": 57090
    },
    {
      "epoch": 8.503872505212987,
      "grad_norm": 0.09993468970060349,
      "learning_rate": 3.555072943355508e-05,
      "loss": 0.0406,
      "num_input_tokens_seen": 33125816,
      "step": 57095
    },
    {
      "epoch": 8.504617217753946,
      "grad_norm": 0.11043459922075272,
      "learning_rate": 3.554778347663199e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 33129112,
      "step": 57100
    },
    {
      "epoch": 8.505361930294907,
      "grad_norm": 0.053361035883426666,
      "learning_rate": 3.554483734151482e-05,
      "loss": 0.1198,
      "num_input_tokens_seen": 33132120,
      "step": 57105
    },
    {
      "epoch": 8.506106642835865,
      "grad_norm": 0.03847971186041832,
      "learning_rate": 3.554189102825334e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 33134648,
      "step": 57110
    },
    {
      "epoch": 8.506851355376824,
      "grad_norm": 1.073887825012207,
      "learning_rate": 3.553894453689733e-05,
      "loss": 0.1935,
      "num_input_tokens_seen": 33137496,
      "step": 57115
    },
    {
      "epoch": 8.507596067917785,
      "grad_norm": 30.5196590423584,
      "learning_rate": 3.553599786749656e-05,
      "loss": 0.2606,
      "num_input_tokens_seen": 33140440,
      "step": 57120
    },
    {
      "epoch": 8.508340780458743,
      "grad_norm": 53.342952728271484,
      "learning_rate": 3.553305102010081e-05,
      "loss": 0.1457,
      "num_input_tokens_seen": 33143256,
      "step": 57125
    },
    {
      "epoch": 8.509085492999702,
      "grad_norm": 0.20458228886127472,
      "learning_rate": 3.553010399475987e-05,
      "loss": 0.3169,
      "num_input_tokens_seen": 33146168,
      "step": 57130
    },
    {
      "epoch": 8.509830205540661,
      "grad_norm": 0.0938815176486969,
      "learning_rate": 3.552715679152353e-05,
      "loss": 0.1812,
      "num_input_tokens_seen": 33149048,
      "step": 57135
    },
    {
      "epoch": 8.51057491808162,
      "grad_norm": 0.045854244381189346,
      "learning_rate": 3.552420941044157e-05,
      "loss": 0.0167,
      "num_input_tokens_seen": 33151960,
      "step": 57140
    },
    {
      "epoch": 8.51131963062258,
      "grad_norm": 0.25932276248931885,
      "learning_rate": 3.5521261851563796e-05,
      "loss": 0.0982,
      "num_input_tokens_seen": 33154744,
      "step": 57145
    },
    {
      "epoch": 8.512064343163539,
      "grad_norm": 0.4009106755256653,
      "learning_rate": 3.551831411493999e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 33157368,
      "step": 57150
    },
    {
      "epoch": 8.512809055704498,
      "grad_norm": 59.63874435424805,
      "learning_rate": 3.551536620061996e-05,
      "loss": 0.2463,
      "num_input_tokens_seen": 33160120,
      "step": 57155
    },
    {
      "epoch": 8.513553768245457,
      "grad_norm": 0.048741549253463745,
      "learning_rate": 3.55124181086535e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 33163128,
      "step": 57160
    },
    {
      "epoch": 8.514298480786417,
      "grad_norm": 29.897314071655273,
      "learning_rate": 3.5509469839090426e-05,
      "loss": 0.2745,
      "num_input_tokens_seen": 33165720,
      "step": 57165
    },
    {
      "epoch": 8.515043193327376,
      "grad_norm": 13.555788040161133,
      "learning_rate": 3.550652139198054e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 33168472,
      "step": 57170
    },
    {
      "epoch": 8.515787905868335,
      "grad_norm": 25.02791976928711,
      "learning_rate": 3.550357276737365e-05,
      "loss": 0.0271,
      "num_input_tokens_seen": 33171160,
      "step": 57175
    },
    {
      "epoch": 8.516532618409293,
      "grad_norm": 0.09332218766212463,
      "learning_rate": 3.550062396531959e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 33174168,
      "step": 57180
    },
    {
      "epoch": 8.517277330950254,
      "grad_norm": 11.205032348632812,
      "learning_rate": 3.549767498586814e-05,
      "loss": 0.0814,
      "num_input_tokens_seen": 33176856,
      "step": 57185
    },
    {
      "epoch": 8.518022043491213,
      "grad_norm": 24.521230697631836,
      "learning_rate": 3.549472582906914e-05,
      "loss": 0.3044,
      "num_input_tokens_seen": 33180024,
      "step": 57190
    },
    {
      "epoch": 8.518766756032171,
      "grad_norm": 0.017790082842111588,
      "learning_rate": 3.549177649497242e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 33182648,
      "step": 57195
    },
    {
      "epoch": 8.51951146857313,
      "grad_norm": 0.054683323949575424,
      "learning_rate": 3.54888269836278e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 33185176,
      "step": 57200
    },
    {
      "epoch": 8.52025618111409,
      "grad_norm": 0.3887169063091278,
      "learning_rate": 3.5485877295085105e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 33188216,
      "step": 57205
    },
    {
      "epoch": 8.52100089365505,
      "grad_norm": 4.0777082443237305,
      "learning_rate": 3.5482927429394184e-05,
      "loss": 0.1407,
      "num_input_tokens_seen": 33191352,
      "step": 57210
    },
    {
      "epoch": 8.521745606196008,
      "grad_norm": 0.020218288525938988,
      "learning_rate": 3.547997738660485e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 33194072,
      "step": 57215
    },
    {
      "epoch": 8.522490318736967,
      "grad_norm": 101.50129699707031,
      "learning_rate": 3.547702716676694e-05,
      "loss": 0.4125,
      "num_input_tokens_seen": 33196824,
      "step": 57220
    },
    {
      "epoch": 8.523235031277927,
      "grad_norm": 0.024477964267134666,
      "learning_rate": 3.547407676993032e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 33199736,
      "step": 57225
    },
    {
      "epoch": 8.523979743818886,
      "grad_norm": 1.3494994640350342,
      "learning_rate": 3.54711261961448e-05,
      "loss": 0.4549,
      "num_input_tokens_seen": 33203032,
      "step": 57230
    },
    {
      "epoch": 8.524724456359845,
      "grad_norm": 0.12751361727714539,
      "learning_rate": 3.5468175445460263e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 33206136,
      "step": 57235
    },
    {
      "epoch": 8.525469168900804,
      "grad_norm": 0.016284285113215446,
      "learning_rate": 3.546522451792653e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 33208984,
      "step": 57240
    },
    {
      "epoch": 8.526213881441764,
      "grad_norm": 0.014764118008315563,
      "learning_rate": 3.546227341359347e-05,
      "loss": 0.1653,
      "num_input_tokens_seen": 33211896,
      "step": 57245
    },
    {
      "epoch": 8.526958593982723,
      "grad_norm": 0.04921978339552879,
      "learning_rate": 3.545932213251093e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 33214712,
      "step": 57250
    },
    {
      "epoch": 8.527703306523682,
      "grad_norm": 10.923492431640625,
      "learning_rate": 3.545637067472878e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 33217528,
      "step": 57255
    },
    {
      "epoch": 8.52844801906464,
      "grad_norm": 0.02130192145705223,
      "learning_rate": 3.545341904029687e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 33220216,
      "step": 57260
    },
    {
      "epoch": 8.529192731605601,
      "grad_norm": 0.058293551206588745,
      "learning_rate": 3.545046722926507e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 33223192,
      "step": 57265
    },
    {
      "epoch": 8.52993744414656,
      "grad_norm": 35.06452560424805,
      "learning_rate": 3.544751524168325e-05,
      "loss": 0.1089,
      "num_input_tokens_seen": 33226552,
      "step": 57270
    },
    {
      "epoch": 8.530682156687519,
      "grad_norm": 0.12438544631004333,
      "learning_rate": 3.544456307760128e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 33229304,
      "step": 57275
    },
    {
      "epoch": 8.531426869228477,
      "grad_norm": 25.093395233154297,
      "learning_rate": 3.5441610737069026e-05,
      "loss": 0.0488,
      "num_input_tokens_seen": 33232312,
      "step": 57280
    },
    {
      "epoch": 8.532171581769436,
      "grad_norm": 22.361398696899414,
      "learning_rate": 3.543865822013637e-05,
      "loss": 0.3092,
      "num_input_tokens_seen": 33234904,
      "step": 57285
    },
    {
      "epoch": 8.532916294310397,
      "grad_norm": 87.33900451660156,
      "learning_rate": 3.5435705526853196e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 33237880,
      "step": 57290
    },
    {
      "epoch": 8.533661006851355,
      "grad_norm": 0.13197244703769684,
      "learning_rate": 3.5432752657269384e-05,
      "loss": 0.203,
      "num_input_tokens_seen": 33240728,
      "step": 57295
    },
    {
      "epoch": 8.534405719392314,
      "grad_norm": 0.02645103447139263,
      "learning_rate": 3.542979961143482e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 33243608,
      "step": 57300
    },
    {
      "epoch": 8.535150431933273,
      "grad_norm": 51.31455612182617,
      "learning_rate": 3.542684638939939e-05,
      "loss": 0.3244,
      "num_input_tokens_seen": 33246744,
      "step": 57305
    },
    {
      "epoch": 8.535895144474233,
      "grad_norm": 0.15582039952278137,
      "learning_rate": 3.5423892991212994e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 33249592,
      "step": 57310
    },
    {
      "epoch": 8.536639857015192,
      "grad_norm": 0.34706977009773254,
      "learning_rate": 3.542093941692551e-05,
      "loss": 0.2068,
      "num_input_tokens_seen": 33252792,
      "step": 57315
    },
    {
      "epoch": 8.537384569556151,
      "grad_norm": 40.387332916259766,
      "learning_rate": 3.541798566658685e-05,
      "loss": 0.1209,
      "num_input_tokens_seen": 33255672,
      "step": 57320
    },
    {
      "epoch": 8.53812928209711,
      "grad_norm": 0.08517269045114517,
      "learning_rate": 3.541503174024691e-05,
      "loss": 0.0912,
      "num_input_tokens_seen": 33258392,
      "step": 57325
    },
    {
      "epoch": 8.53887399463807,
      "grad_norm": 9.917012214660645,
      "learning_rate": 3.54120776379556e-05,
      "loss": 0.2763,
      "num_input_tokens_seen": 33261400,
      "step": 57330
    },
    {
      "epoch": 8.539618707179029,
      "grad_norm": 0.3075909912586212,
      "learning_rate": 3.540912335976281e-05,
      "loss": 0.19,
      "num_input_tokens_seen": 33264376,
      "step": 57335
    },
    {
      "epoch": 8.540363419719988,
      "grad_norm": 24.16361427307129,
      "learning_rate": 3.540616890571847e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 33267192,
      "step": 57340
    },
    {
      "epoch": 8.541108132260947,
      "grad_norm": 0.025778310373425484,
      "learning_rate": 3.540321427587249e-05,
      "loss": 0.1316,
      "num_input_tokens_seen": 33270168,
      "step": 57345
    },
    {
      "epoch": 8.541852844801907,
      "grad_norm": 45.812705993652344,
      "learning_rate": 3.540025947027476e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 33273048,
      "step": 57350
    },
    {
      "epoch": 8.542597557342866,
      "grad_norm": 0.014063520357012749,
      "learning_rate": 3.5397304488975226e-05,
      "loss": 0.0277,
      "num_input_tokens_seen": 33276280,
      "step": 57355
    },
    {
      "epoch": 8.543342269883825,
      "grad_norm": 0.032192304730415344,
      "learning_rate": 3.53943493320238e-05,
      "loss": 0.1943,
      "num_input_tokens_seen": 33279288,
      "step": 57360
    },
    {
      "epoch": 8.544086982424783,
      "grad_norm": 34.74114227294922,
      "learning_rate": 3.539139399947039e-05,
      "loss": 0.2459,
      "num_input_tokens_seen": 33282008,
      "step": 57365
    },
    {
      "epoch": 8.544831694965744,
      "grad_norm": 5.128048896789551,
      "learning_rate": 3.5388438491364963e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 33284792,
      "step": 57370
    },
    {
      "epoch": 8.545576407506703,
      "grad_norm": 0.4056439995765686,
      "learning_rate": 3.538548280775742e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 33287576,
      "step": 57375
    },
    {
      "epoch": 8.546321120047661,
      "grad_norm": 51.71403503417969,
      "learning_rate": 3.53825269486977e-05,
      "loss": 0.2863,
      "num_input_tokens_seen": 33290712,
      "step": 57380
    },
    {
      "epoch": 8.54706583258862,
      "grad_norm": 18.102956771850586,
      "learning_rate": 3.5379570914235735e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 33293464,
      "step": 57385
    },
    {
      "epoch": 8.54781054512958,
      "grad_norm": 1.2539442777633667,
      "learning_rate": 3.537661470442147e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 33296472,
      "step": 57390
    },
    {
      "epoch": 8.54855525767054,
      "grad_norm": 1.3255250453948975,
      "learning_rate": 3.537365831930484e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 33299096,
      "step": 57395
    },
    {
      "epoch": 8.549299970211498,
      "grad_norm": 25.436901092529297,
      "learning_rate": 3.53707017589358e-05,
      "loss": 0.0988,
      "num_input_tokens_seen": 33301848,
      "step": 57400
    },
    {
      "epoch": 8.550044682752457,
      "grad_norm": 19.959768295288086,
      "learning_rate": 3.53677450233643e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 33304536,
      "step": 57405
    },
    {
      "epoch": 8.550789395293418,
      "grad_norm": 0.18523962795734406,
      "learning_rate": 3.536478811264028e-05,
      "loss": 0.0179,
      "num_input_tokens_seen": 33307928,
      "step": 57410
    },
    {
      "epoch": 8.551534107834376,
      "grad_norm": 22.518077850341797,
      "learning_rate": 3.5361831026813704e-05,
      "loss": 0.1542,
      "num_input_tokens_seen": 33311032,
      "step": 57415
    },
    {
      "epoch": 8.552278820375335,
      "grad_norm": 1.441382646560669,
      "learning_rate": 3.535887376593453e-05,
      "loss": 0.2217,
      "num_input_tokens_seen": 33314168,
      "step": 57420
    },
    {
      "epoch": 8.553023532916294,
      "grad_norm": 29.09653663635254,
      "learning_rate": 3.53559163300527e-05,
      "loss": 0.0644,
      "num_input_tokens_seen": 33316984,
      "step": 57425
    },
    {
      "epoch": 8.553768245457253,
      "grad_norm": 0.01991797611117363,
      "learning_rate": 3.5352958719218186e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 33320184,
      "step": 57430
    },
    {
      "epoch": 8.554512957998213,
      "grad_norm": 0.013329635374248028,
      "learning_rate": 3.5350000933480966e-05,
      "loss": 0.1245,
      "num_input_tokens_seen": 33323608,
      "step": 57435
    },
    {
      "epoch": 8.555257670539172,
      "grad_norm": 1.9756447076797485,
      "learning_rate": 3.5347042972891e-05,
      "loss": 0.0784,
      "num_input_tokens_seen": 33326648,
      "step": 57440
    },
    {
      "epoch": 8.55600238308013,
      "grad_norm": 6.509420394897461,
      "learning_rate": 3.5344084837498245e-05,
      "loss": 0.1608,
      "num_input_tokens_seen": 33329464,
      "step": 57445
    },
    {
      "epoch": 8.556747095621091,
      "grad_norm": 0.04580008238554001,
      "learning_rate": 3.53411265273527e-05,
      "loss": 0.0105,
      "num_input_tokens_seen": 33332408,
      "step": 57450
    },
    {
      "epoch": 8.55749180816205,
      "grad_norm": 0.07870618999004364,
      "learning_rate": 3.5338168042504336e-05,
      "loss": 0.2892,
      "num_input_tokens_seen": 33335544,
      "step": 57455
    },
    {
      "epoch": 8.558236520703009,
      "grad_norm": 16.134033203125,
      "learning_rate": 3.533520938300313e-05,
      "loss": 0.0499,
      "num_input_tokens_seen": 33338360,
      "step": 57460
    },
    {
      "epoch": 8.558981233243967,
      "grad_norm": 0.05115348473191261,
      "learning_rate": 3.533225054889906e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 33341112,
      "step": 57465
    },
    {
      "epoch": 8.559725945784926,
      "grad_norm": 0.0729728415608406,
      "learning_rate": 3.532929154024212e-05,
      "loss": 0.0853,
      "num_input_tokens_seen": 33344280,
      "step": 57470
    },
    {
      "epoch": 8.560470658325887,
      "grad_norm": 0.20607925951480865,
      "learning_rate": 3.5326332357082306e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 33347160,
      "step": 57475
    },
    {
      "epoch": 8.561215370866845,
      "grad_norm": 5.509716510772705,
      "learning_rate": 3.532337299946959e-05,
      "loss": 0.1223,
      "num_input_tokens_seen": 33350008,
      "step": 57480
    },
    {
      "epoch": 8.561960083407804,
      "grad_norm": 0.011705901473760605,
      "learning_rate": 3.532041346745398e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 33352952,
      "step": 57485
    },
    {
      "epoch": 8.562704795948763,
      "grad_norm": 6.078515529632568,
      "learning_rate": 3.5317453761085476e-05,
      "loss": 0.381,
      "num_input_tokens_seen": 33355992,
      "step": 57490
    },
    {
      "epoch": 8.563449508489724,
      "grad_norm": 0.1025332435965538,
      "learning_rate": 3.531449388041408e-05,
      "loss": 0.0156,
      "num_input_tokens_seen": 33358840,
      "step": 57495
    },
    {
      "epoch": 8.564194221030682,
      "grad_norm": 0.018015369772911072,
      "learning_rate": 3.5311533825489795e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 33361720,
      "step": 57500
    },
    {
      "epoch": 8.564938933571641,
      "grad_norm": 0.027095500379800797,
      "learning_rate": 3.530857359636262e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 33364824,
      "step": 57505
    },
    {
      "epoch": 8.5656836461126,
      "grad_norm": 0.008030552417039871,
      "learning_rate": 3.5305613193082575e-05,
      "loss": 0.3157,
      "num_input_tokens_seen": 33367832,
      "step": 57510
    },
    {
      "epoch": 8.56642835865356,
      "grad_norm": 0.0759037584066391,
      "learning_rate": 3.530265261569967e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 33370648,
      "step": 57515
    },
    {
      "epoch": 8.567173071194519,
      "grad_norm": 0.013392201624810696,
      "learning_rate": 3.529969186426392e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 33373336,
      "step": 57520
    },
    {
      "epoch": 8.567917783735478,
      "grad_norm": 0.014463807456195354,
      "learning_rate": 3.529673093882534e-05,
      "loss": 0.1449,
      "num_input_tokens_seen": 33375800,
      "step": 57525
    },
    {
      "epoch": 8.568662496276437,
      "grad_norm": 0.010430742055177689,
      "learning_rate": 3.5293769839433956e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 33378488,
      "step": 57530
    },
    {
      "epoch": 8.569407208817397,
      "grad_norm": 0.03219631314277649,
      "learning_rate": 3.529080856613979e-05,
      "loss": 0.0282,
      "num_input_tokens_seen": 33381176,
      "step": 57535
    },
    {
      "epoch": 8.570151921358356,
      "grad_norm": 78.68831634521484,
      "learning_rate": 3.528784711899288e-05,
      "loss": 0.0297,
      "num_input_tokens_seen": 33383960,
      "step": 57540
    },
    {
      "epoch": 8.570896633899315,
      "grad_norm": 0.8278612494468689,
      "learning_rate": 3.5284885498043254e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 33387000,
      "step": 57545
    },
    {
      "epoch": 8.571641346440273,
      "grad_norm": 57.19230651855469,
      "learning_rate": 3.528192370334094e-05,
      "loss": 0.2533,
      "num_input_tokens_seen": 33389688,
      "step": 57550
    },
    {
      "epoch": 8.572386058981234,
      "grad_norm": 0.12041854113340378,
      "learning_rate": 3.527896173493596e-05,
      "loss": 0.0169,
      "num_input_tokens_seen": 33392440,
      "step": 57555
    },
    {
      "epoch": 8.573130771522193,
      "grad_norm": 3.00445294380188,
      "learning_rate": 3.527599959287838e-05,
      "loss": 0.0874,
      "num_input_tokens_seen": 33395064,
      "step": 57560
    },
    {
      "epoch": 8.573875484063151,
      "grad_norm": 10.746051788330078,
      "learning_rate": 3.5273037277218224e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 33397944,
      "step": 57565
    },
    {
      "epoch": 8.57462019660411,
      "grad_norm": 201.8741455078125,
      "learning_rate": 3.527007478800555e-05,
      "loss": 0.0085,
      "num_input_tokens_seen": 33400664,
      "step": 57570
    },
    {
      "epoch": 8.57536490914507,
      "grad_norm": 3.5288281440734863,
      "learning_rate": 3.5267112125290396e-05,
      "loss": 0.2084,
      "num_input_tokens_seen": 33403320,
      "step": 57575
    },
    {
      "epoch": 8.57610962168603,
      "grad_norm": 0.013801436871290207,
      "learning_rate": 3.5264149289122825e-05,
      "loss": 0.1474,
      "num_input_tokens_seen": 33406584,
      "step": 57580
    },
    {
      "epoch": 8.576854334226988,
      "grad_norm": 0.25610223412513733,
      "learning_rate": 3.526118627955288e-05,
      "loss": 0.0133,
      "num_input_tokens_seen": 33409848,
      "step": 57585
    },
    {
      "epoch": 8.577599046767947,
      "grad_norm": 33.51664352416992,
      "learning_rate": 3.525822309663061e-05,
      "loss": 0.0257,
      "num_input_tokens_seen": 33412568,
      "step": 57590
    },
    {
      "epoch": 8.578343759308908,
      "grad_norm": 21.585588455200195,
      "learning_rate": 3.5255259740406104e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 33415512,
      "step": 57595
    },
    {
      "epoch": 8.579088471849866,
      "grad_norm": 1.9158750772476196,
      "learning_rate": 3.52522962109294e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 33418808,
      "step": 57600
    },
    {
      "epoch": 8.579833184390825,
      "grad_norm": 0.011500656604766846,
      "learning_rate": 3.5249332508250576e-05,
      "loss": 0.0105,
      "num_input_tokens_seen": 33421752,
      "step": 57605
    },
    {
      "epoch": 8.580577896931784,
      "grad_norm": 0.0043525961227715015,
      "learning_rate": 3.524636863241969e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 33424472,
      "step": 57610
    },
    {
      "epoch": 8.581322609472743,
      "grad_norm": 11.165903091430664,
      "learning_rate": 3.5243404583486824e-05,
      "loss": 0.4893,
      "num_input_tokens_seen": 33426968,
      "step": 57615
    },
    {
      "epoch": 8.582067322013703,
      "grad_norm": 0.015137684531509876,
      "learning_rate": 3.5240440361502046e-05,
      "loss": 0.1727,
      "num_input_tokens_seen": 33429752,
      "step": 57620
    },
    {
      "epoch": 8.582812034554662,
      "grad_norm": 142.34765625,
      "learning_rate": 3.523747596651544e-05,
      "loss": 0.1783,
      "num_input_tokens_seen": 33432568,
      "step": 57625
    },
    {
      "epoch": 8.58355674709562,
      "grad_norm": 1.186631441116333,
      "learning_rate": 3.523451139857708e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 33435352,
      "step": 57630
    },
    {
      "epoch": 8.584301459636581,
      "grad_norm": 0.01807558536529541,
      "learning_rate": 3.5231546657737044e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 33438360,
      "step": 57635
    },
    {
      "epoch": 8.58504617217754,
      "grad_norm": 29.759620666503906,
      "learning_rate": 3.522858174404544e-05,
      "loss": 0.1271,
      "num_input_tokens_seen": 33441208,
      "step": 57640
    },
    {
      "epoch": 8.585790884718499,
      "grad_norm": 0.007819842547178268,
      "learning_rate": 3.522561665755234e-05,
      "loss": 0.2484,
      "num_input_tokens_seen": 33444088,
      "step": 57645
    },
    {
      "epoch": 8.586535597259457,
      "grad_norm": 0.02301103249192238,
      "learning_rate": 3.5222651398307835e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 33446808,
      "step": 57650
    },
    {
      "epoch": 8.587280309800416,
      "grad_norm": 0.020979994907975197,
      "learning_rate": 3.5219685966362024e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 33449720,
      "step": 57655
    },
    {
      "epoch": 8.588025022341377,
      "grad_norm": 0.014298931695520878,
      "learning_rate": 3.521672036176501e-05,
      "loss": 0.3292,
      "num_input_tokens_seen": 33452920,
      "step": 57660
    },
    {
      "epoch": 8.588769734882336,
      "grad_norm": 1.1773523092269897,
      "learning_rate": 3.5213754584566886e-05,
      "loss": 0.0713,
      "num_input_tokens_seen": 33455416,
      "step": 57665
    },
    {
      "epoch": 8.589514447423294,
      "grad_norm": 0.07192069292068481,
      "learning_rate": 3.521078863481776e-05,
      "loss": 0.0641,
      "num_input_tokens_seen": 33458296,
      "step": 57670
    },
    {
      "epoch": 8.590259159964253,
      "grad_norm": 0.019755283370614052,
      "learning_rate": 3.5207822512567736e-05,
      "loss": 0.2056,
      "num_input_tokens_seen": 33461304,
      "step": 57675
    },
    {
      "epoch": 8.591003872505214,
      "grad_norm": 16.549436569213867,
      "learning_rate": 3.520485621786693e-05,
      "loss": 0.1364,
      "num_input_tokens_seen": 33463928,
      "step": 57680
    },
    {
      "epoch": 8.591748585046172,
      "grad_norm": 69.88360595703125,
      "learning_rate": 3.5201889750765446e-05,
      "loss": 0.4799,
      "num_input_tokens_seen": 33466648,
      "step": 57685
    },
    {
      "epoch": 8.592493297587131,
      "grad_norm": 0.012552226893603802,
      "learning_rate": 3.51989231113134e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 33469464,
      "step": 57690
    },
    {
      "epoch": 8.59323801012809,
      "grad_norm": 0.026317695155739784,
      "learning_rate": 3.519595629956092e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 33472280,
      "step": 57695
    },
    {
      "epoch": 8.59398272266905,
      "grad_norm": 0.03338652476668358,
      "learning_rate": 3.519298931555812e-05,
      "loss": 0.1073,
      "num_input_tokens_seen": 33475288,
      "step": 57700
    },
    {
      "epoch": 8.59472743521001,
      "grad_norm": 0.02982909418642521,
      "learning_rate": 3.519002215935512e-05,
      "loss": 0.1511,
      "num_input_tokens_seen": 33478168,
      "step": 57705
    },
    {
      "epoch": 8.595472147750968,
      "grad_norm": 44.09195327758789,
      "learning_rate": 3.5187054831002064e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 33480888,
      "step": 57710
    },
    {
      "epoch": 8.596216860291927,
      "grad_norm": 57.62277603149414,
      "learning_rate": 3.5184087330549056e-05,
      "loss": 0.0487,
      "num_input_tokens_seen": 33483512,
      "step": 57715
    },
    {
      "epoch": 8.596961572832887,
      "grad_norm": 20.7664737701416,
      "learning_rate": 3.518111965804625e-05,
      "loss": 0.2985,
      "num_input_tokens_seen": 33486936,
      "step": 57720
    },
    {
      "epoch": 8.597706285373846,
      "grad_norm": 89.82635498046875,
      "learning_rate": 3.517815181354378e-05,
      "loss": 0.0612,
      "num_input_tokens_seen": 33489720,
      "step": 57725
    },
    {
      "epoch": 8.598450997914805,
      "grad_norm": 0.0406518317759037,
      "learning_rate": 3.517518379709177e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 33492536,
      "step": 57730
    },
    {
      "epoch": 8.599195710455763,
      "grad_norm": 6.576498985290527,
      "learning_rate": 3.5172215608740376e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 33495320,
      "step": 57735
    },
    {
      "epoch": 8.599940422996724,
      "grad_norm": 10.015974998474121,
      "learning_rate": 3.516924724853974e-05,
      "loss": 0.0221,
      "num_input_tokens_seen": 33498072,
      "step": 57740
    },
    {
      "epoch": 8.600685135537683,
      "grad_norm": 0.7512307167053223,
      "learning_rate": 3.5166278716540016e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 33500760,
      "step": 57745
    },
    {
      "epoch": 8.601429848078642,
      "grad_norm": 31.7667236328125,
      "learning_rate": 3.5163310012791326e-05,
      "loss": 0.1172,
      "num_input_tokens_seen": 33503480,
      "step": 57750
    },
    {
      "epoch": 8.6021745606196,
      "grad_norm": 0.06640761345624924,
      "learning_rate": 3.516034113734385e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 33506136,
      "step": 57755
    },
    {
      "epoch": 8.60291927316056,
      "grad_norm": 16.700868606567383,
      "learning_rate": 3.515737209024774e-05,
      "loss": 0.1212,
      "num_input_tokens_seen": 33509240,
      "step": 57760
    },
    {
      "epoch": 8.60366398570152,
      "grad_norm": 0.007382393814623356,
      "learning_rate": 3.515440287155315e-05,
      "loss": 0.0581,
      "num_input_tokens_seen": 33512216,
      "step": 57765
    },
    {
      "epoch": 8.604408698242478,
      "grad_norm": 0.04416530579328537,
      "learning_rate": 3.515143348131025e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 33515448,
      "step": 57770
    },
    {
      "epoch": 8.605153410783437,
      "grad_norm": 2.028353452682495,
      "learning_rate": 3.514846391956919e-05,
      "loss": 0.1221,
      "num_input_tokens_seen": 33518360,
      "step": 57775
    },
    {
      "epoch": 8.605898123324398,
      "grad_norm": 0.07639051973819733,
      "learning_rate": 3.514549418638015e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 33521496,
      "step": 57780
    },
    {
      "epoch": 8.606642835865356,
      "grad_norm": 0.023603025823831558,
      "learning_rate": 3.5142524281793296e-05,
      "loss": 0.2468,
      "num_input_tokens_seen": 33524504,
      "step": 57785
    },
    {
      "epoch": 8.607387548406315,
      "grad_norm": 114.82234954833984,
      "learning_rate": 3.513955420585881e-05,
      "loss": 0.3818,
      "num_input_tokens_seen": 33527544,
      "step": 57790
    },
    {
      "epoch": 8.608132260947274,
      "grad_norm": 47.69364929199219,
      "learning_rate": 3.513658395862685e-05,
      "loss": 0.4271,
      "num_input_tokens_seen": 33530552,
      "step": 57795
    },
    {
      "epoch": 8.608876973488233,
      "grad_norm": 0.015022214502096176,
      "learning_rate": 3.5133613540147605e-05,
      "loss": 0.145,
      "num_input_tokens_seen": 33533720,
      "step": 57800
    },
    {
      "epoch": 8.609621686029193,
      "grad_norm": 0.3043723404407501,
      "learning_rate": 3.513064295047127e-05,
      "loss": 0.0926,
      "num_input_tokens_seen": 33536344,
      "step": 57805
    },
    {
      "epoch": 8.610366398570152,
      "grad_norm": 0.12786029279232025,
      "learning_rate": 3.5127672189648016e-05,
      "loss": 0.0874,
      "num_input_tokens_seen": 33539320,
      "step": 57810
    },
    {
      "epoch": 8.61111111111111,
      "grad_norm": 11.325472831726074,
      "learning_rate": 3.512470125772803e-05,
      "loss": 0.274,
      "num_input_tokens_seen": 33542296,
      "step": 57815
    },
    {
      "epoch": 8.61185582365207,
      "grad_norm": 0.04244634136557579,
      "learning_rate": 3.5121730154761507e-05,
      "loss": 0.0613,
      "num_input_tokens_seen": 33545240,
      "step": 57820
    },
    {
      "epoch": 8.61260053619303,
      "grad_norm": 12.41949462890625,
      "learning_rate": 3.511875888079864e-05,
      "loss": 0.3015,
      "num_input_tokens_seen": 33548152,
      "step": 57825
    },
    {
      "epoch": 8.613345248733989,
      "grad_norm": 0.052124738693237305,
      "learning_rate": 3.511578743588963e-05,
      "loss": 0.4043,
      "num_input_tokens_seen": 33551032,
      "step": 57830
    },
    {
      "epoch": 8.614089961274948,
      "grad_norm": 0.03056192398071289,
      "learning_rate": 3.511281582008466e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 33554008,
      "step": 57835
    },
    {
      "epoch": 8.614834673815906,
      "grad_norm": 0.05612114444375038,
      "learning_rate": 3.5109844033433963e-05,
      "loss": 0.0674,
      "num_input_tokens_seen": 33556728,
      "step": 57840
    },
    {
      "epoch": 8.615579386356867,
      "grad_norm": 0.029160026460886,
      "learning_rate": 3.5106872075987716e-05,
      "loss": 0.0546,
      "num_input_tokens_seen": 33559576,
      "step": 57845
    },
    {
      "epoch": 8.616324098897826,
      "grad_norm": 0.048104941844940186,
      "learning_rate": 3.5103899947796134e-05,
      "loss": 0.0627,
      "num_input_tokens_seen": 33562456,
      "step": 57850
    },
    {
      "epoch": 8.617068811438784,
      "grad_norm": 0.07202060520648956,
      "learning_rate": 3.510092764890944e-05,
      "loss": 0.0812,
      "num_input_tokens_seen": 33565016,
      "step": 57855
    },
    {
      "epoch": 8.617813523979743,
      "grad_norm": 0.042237699031829834,
      "learning_rate": 3.509795517937784e-05,
      "loss": 0.1636,
      "num_input_tokens_seen": 33567960,
      "step": 57860
    },
    {
      "epoch": 8.618558236520704,
      "grad_norm": 40.092552185058594,
      "learning_rate": 3.5094982539251545e-05,
      "loss": 0.0571,
      "num_input_tokens_seen": 33570616,
      "step": 57865
    },
    {
      "epoch": 8.619302949061662,
      "grad_norm": 71.64539337158203,
      "learning_rate": 3.5092009728580784e-05,
      "loss": 0.2021,
      "num_input_tokens_seen": 33573240,
      "step": 57870
    },
    {
      "epoch": 8.620047661602621,
      "grad_norm": 0.06457538902759552,
      "learning_rate": 3.5089036747415775e-05,
      "loss": 0.1813,
      "num_input_tokens_seen": 33576120,
      "step": 57875
    },
    {
      "epoch": 8.62079237414358,
      "grad_norm": 0.03783540055155754,
      "learning_rate": 3.508606359580674e-05,
      "loss": 0.2707,
      "num_input_tokens_seen": 33578680,
      "step": 57880
    },
    {
      "epoch": 8.62153708668454,
      "grad_norm": 0.581780195236206,
      "learning_rate": 3.508309027380392e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 33581528,
      "step": 57885
    },
    {
      "epoch": 8.6222817992255,
      "grad_norm": 11.931650161743164,
      "learning_rate": 3.508011678145752e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 33584504,
      "step": 57890
    },
    {
      "epoch": 8.623026511766458,
      "grad_norm": 0.03454408049583435,
      "learning_rate": 3.5077143118817805e-05,
      "loss": 0.0857,
      "num_input_tokens_seen": 33587512,
      "step": 57895
    },
    {
      "epoch": 8.623771224307417,
      "grad_norm": 0.018610844388604164,
      "learning_rate": 3.5074169285935e-05,
      "loss": 0.0641,
      "num_input_tokens_seen": 33590424,
      "step": 57900
    },
    {
      "epoch": 8.624515936848377,
      "grad_norm": 0.18136563897132874,
      "learning_rate": 3.5071195282859345e-05,
      "loss": 0.0084,
      "num_input_tokens_seen": 33593560,
      "step": 57905
    },
    {
      "epoch": 8.625260649389336,
      "grad_norm": 21.39421844482422,
      "learning_rate": 3.506822110964108e-05,
      "loss": 0.1136,
      "num_input_tokens_seen": 33596408,
      "step": 57910
    },
    {
      "epoch": 8.626005361930295,
      "grad_norm": 18.472423553466797,
      "learning_rate": 3.506524676633045e-05,
      "loss": 0.254,
      "num_input_tokens_seen": 33599352,
      "step": 57915
    },
    {
      "epoch": 8.626750074471254,
      "grad_norm": 0.04817933961749077,
      "learning_rate": 3.50622722529777e-05,
      "loss": 0.0313,
      "num_input_tokens_seen": 33602168,
      "step": 57920
    },
    {
      "epoch": 8.627494787012214,
      "grad_norm": 0.9132966995239258,
      "learning_rate": 3.5059297569633096e-05,
      "loss": 0.1544,
      "num_input_tokens_seen": 33605240,
      "step": 57925
    },
    {
      "epoch": 8.628239499553173,
      "grad_norm": 0.023454980924725533,
      "learning_rate": 3.505632271634688e-05,
      "loss": 0.2882,
      "num_input_tokens_seen": 33608440,
      "step": 57930
    },
    {
      "epoch": 8.628984212094132,
      "grad_norm": 0.029964188113808632,
      "learning_rate": 3.505334769316931e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 33611288,
      "step": 57935
    },
    {
      "epoch": 8.62972892463509,
      "grad_norm": 0.21903124451637268,
      "learning_rate": 3.505037250015066e-05,
      "loss": 0.0393,
      "num_input_tokens_seen": 33614040,
      "step": 57940
    },
    {
      "epoch": 8.63047363717605,
      "grad_norm": 0.04403754696249962,
      "learning_rate": 3.504739713734118e-05,
      "loss": 0.2881,
      "num_input_tokens_seen": 33617080,
      "step": 57945
    },
    {
      "epoch": 8.63121834971701,
      "grad_norm": 0.010897446423768997,
      "learning_rate": 3.504442160479112e-05,
      "loss": 0.0958,
      "num_input_tokens_seen": 33620344,
      "step": 57950
    },
    {
      "epoch": 8.631963062257968,
      "grad_norm": 34.8730583190918,
      "learning_rate": 3.5041445902550776e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 33623160,
      "step": 57955
    },
    {
      "epoch": 8.632707774798927,
      "grad_norm": 0.6642745733261108,
      "learning_rate": 3.503847003067041e-05,
      "loss": 0.4703,
      "num_input_tokens_seen": 33626072,
      "step": 57960
    },
    {
      "epoch": 8.633452487339888,
      "grad_norm": 0.710905134677887,
      "learning_rate": 3.503549398920029e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 33629112,
      "step": 57965
    },
    {
      "epoch": 8.634197199880846,
      "grad_norm": 0.005308122374117374,
      "learning_rate": 3.503251777819071e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 33632312,
      "step": 57970
    },
    {
      "epoch": 8.634941912421805,
      "grad_norm": 0.19408121705055237,
      "learning_rate": 3.502954139769193e-05,
      "loss": 0.0095,
      "num_input_tokens_seen": 33635416,
      "step": 57975
    },
    {
      "epoch": 8.635686624962764,
      "grad_norm": 0.10856381058692932,
      "learning_rate": 3.502656484775424e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 33638424,
      "step": 57980
    },
    {
      "epoch": 8.636431337503723,
      "grad_norm": 28.11174774169922,
      "learning_rate": 3.502358812842794e-05,
      "loss": 0.1107,
      "num_input_tokens_seen": 33641048,
      "step": 57985
    },
    {
      "epoch": 8.637176050044683,
      "grad_norm": 0.5543525218963623,
      "learning_rate": 3.502061123976329e-05,
      "loss": 0.32,
      "num_input_tokens_seen": 33643800,
      "step": 57990
    },
    {
      "epoch": 8.637920762585642,
      "grad_norm": 0.1336953192949295,
      "learning_rate": 3.50176341818106e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 33646712,
      "step": 57995
    },
    {
      "epoch": 8.6386654751266,
      "grad_norm": 65.61898040771484,
      "learning_rate": 3.5014656954620174e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 33649752,
      "step": 58000
    },
    {
      "epoch": 8.63941018766756,
      "grad_norm": 0.0072603486478328705,
      "learning_rate": 3.5011679558242286e-05,
      "loss": 0.201,
      "num_input_tokens_seen": 33652824,
      "step": 58005
    },
    {
      "epoch": 8.64015490020852,
      "grad_norm": 104.9538345336914,
      "learning_rate": 3.5008701992727254e-05,
      "loss": 0.3302,
      "num_input_tokens_seen": 33655832,
      "step": 58010
    },
    {
      "epoch": 8.640899612749479,
      "grad_norm": 0.04038156941533089,
      "learning_rate": 3.500572425812537e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 33658616,
      "step": 58015
    },
    {
      "epoch": 8.641644325290438,
      "grad_norm": 0.004585500340908766,
      "learning_rate": 3.500274635448694e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 33661496,
      "step": 58020
    },
    {
      "epoch": 8.642389037831396,
      "grad_norm": 4.960409164428711,
      "learning_rate": 3.499976828186229e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 33664216,
      "step": 58025
    },
    {
      "epoch": 8.643133750372357,
      "grad_norm": 31.373151779174805,
      "learning_rate": 3.499679004030171e-05,
      "loss": 0.3723,
      "num_input_tokens_seen": 33667096,
      "step": 58030
    },
    {
      "epoch": 8.643878462913316,
      "grad_norm": 0.09825288504362106,
      "learning_rate": 3.499381162985552e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 33670136,
      "step": 58035
    },
    {
      "epoch": 8.644623175454274,
      "grad_norm": 1.5671504735946655,
      "learning_rate": 3.499083305057405e-05,
      "loss": 0.1286,
      "num_input_tokens_seen": 33673176,
      "step": 58040
    },
    {
      "epoch": 8.645367887995233,
      "grad_norm": 0.06628409773111343,
      "learning_rate": 3.49878543025076e-05,
      "loss": 0.197,
      "num_input_tokens_seen": 33675960,
      "step": 58045
    },
    {
      "epoch": 8.646112600536194,
      "grad_norm": 0.3590796887874603,
      "learning_rate": 3.49848753857065e-05,
      "loss": 0.0431,
      "num_input_tokens_seen": 33678872,
      "step": 58050
    },
    {
      "epoch": 8.646857313077152,
      "grad_norm": 0.05038481205701828,
      "learning_rate": 3.4981896300221084e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 33681848,
      "step": 58055
    },
    {
      "epoch": 8.647602025618111,
      "grad_norm": 0.4790448844432831,
      "learning_rate": 3.497891704610167e-05,
      "loss": 0.0413,
      "num_input_tokens_seen": 33684888,
      "step": 58060
    },
    {
      "epoch": 8.64834673815907,
      "grad_norm": 0.014312217012047768,
      "learning_rate": 3.49759376233986e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 33687672,
      "step": 58065
    },
    {
      "epoch": 8.64909145070003,
      "grad_norm": 0.05153932049870491,
      "learning_rate": 3.4972958032162204e-05,
      "loss": 0.4926,
      "num_input_tokens_seen": 33690680,
      "step": 58070
    },
    {
      "epoch": 8.64983616324099,
      "grad_norm": 0.07242295145988464,
      "learning_rate": 3.496997827244282e-05,
      "loss": 0.1774,
      "num_input_tokens_seen": 33693592,
      "step": 58075
    },
    {
      "epoch": 8.650580875781948,
      "grad_norm": 30.34343147277832,
      "learning_rate": 3.496699834429078e-05,
      "loss": 0.167,
      "num_input_tokens_seen": 33696120,
      "step": 58080
    },
    {
      "epoch": 8.651325588322907,
      "grad_norm": 62.27432632446289,
      "learning_rate": 3.4964018247756434e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 33699096,
      "step": 58085
    },
    {
      "epoch": 8.652070300863867,
      "grad_norm": 2.684605360031128,
      "learning_rate": 3.4961037982890135e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 33701944,
      "step": 58090
    },
    {
      "epoch": 8.652815013404826,
      "grad_norm": 0.08935188502073288,
      "learning_rate": 3.495805754974221e-05,
      "loss": 0.1204,
      "num_input_tokens_seen": 33704696,
      "step": 58095
    },
    {
      "epoch": 8.653559725945785,
      "grad_norm": 38.104637145996094,
      "learning_rate": 3.495507694836304e-05,
      "loss": 0.1535,
      "num_input_tokens_seen": 33707352,
      "step": 58100
    },
    {
      "epoch": 8.654304438486744,
      "grad_norm": 12.775259971618652,
      "learning_rate": 3.4952096178802946e-05,
      "loss": 0.1514,
      "num_input_tokens_seen": 33710424,
      "step": 58105
    },
    {
      "epoch": 8.655049151027704,
      "grad_norm": 179.50021362304688,
      "learning_rate": 3.4949115241112314e-05,
      "loss": 0.52,
      "num_input_tokens_seen": 33713368,
      "step": 58110
    },
    {
      "epoch": 8.655793863568663,
      "grad_norm": 32.86317443847656,
      "learning_rate": 3.4946134135341486e-05,
      "loss": 0.2645,
      "num_input_tokens_seen": 33716536,
      "step": 58115
    },
    {
      "epoch": 8.656538576109622,
      "grad_norm": 74.8936538696289,
      "learning_rate": 3.494315286154083e-05,
      "loss": 0.4843,
      "num_input_tokens_seen": 33719384,
      "step": 58120
    },
    {
      "epoch": 8.65728328865058,
      "grad_norm": 0.023284325376152992,
      "learning_rate": 3.494017141976071e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 33722520,
      "step": 58125
    },
    {
      "epoch": 8.65802800119154,
      "grad_norm": 5.280355453491211,
      "learning_rate": 3.4937189810051494e-05,
      "loss": 0.0447,
      "num_input_tokens_seen": 33725496,
      "step": 58130
    },
    {
      "epoch": 8.6587727137325,
      "grad_norm": 0.03784580156207085,
      "learning_rate": 3.4934208032463565e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 33728312,
      "step": 58135
    },
    {
      "epoch": 8.659517426273458,
      "grad_norm": 0.012200375087559223,
      "learning_rate": 3.4931226087047285e-05,
      "loss": 0.0749,
      "num_input_tokens_seen": 33731288,
      "step": 58140
    },
    {
      "epoch": 8.660262138814417,
      "grad_norm": 0.0362144336104393,
      "learning_rate": 3.4928243973853044e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 33733976,
      "step": 58145
    },
    {
      "epoch": 8.661006851355378,
      "grad_norm": 0.023826975375413895,
      "learning_rate": 3.49252616929312e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 33736728,
      "step": 58150
    },
    {
      "epoch": 8.661751563896336,
      "grad_norm": 0.027332471683621407,
      "learning_rate": 3.492227924433215e-05,
      "loss": 0.2648,
      "num_input_tokens_seen": 33739736,
      "step": 58155
    },
    {
      "epoch": 8.662496276437295,
      "grad_norm": 0.10886654257774353,
      "learning_rate": 3.491929662810627e-05,
      "loss": 0.2327,
      "num_input_tokens_seen": 33742424,
      "step": 58160
    },
    {
      "epoch": 8.663240988978254,
      "grad_norm": 0.037955544888973236,
      "learning_rate": 3.491631384430396e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 33745432,
      "step": 58165
    },
    {
      "epoch": 8.663985701519213,
      "grad_norm": 2.6834747791290283,
      "learning_rate": 3.4913330892975606e-05,
      "loss": 0.0363,
      "num_input_tokens_seen": 33748216,
      "step": 58170
    },
    {
      "epoch": 8.664730414060173,
      "grad_norm": 0.0499480776488781,
      "learning_rate": 3.4910347774171606e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 33751256,
      "step": 58175
    },
    {
      "epoch": 8.665475126601132,
      "grad_norm": 1.0266848802566528,
      "learning_rate": 3.490736448794235e-05,
      "loss": 0.2251,
      "num_input_tokens_seen": 33754232,
      "step": 58180
    },
    {
      "epoch": 8.66621983914209,
      "grad_norm": 0.848166823387146,
      "learning_rate": 3.490438103433824e-05,
      "loss": 0.0497,
      "num_input_tokens_seen": 33757208,
      "step": 58185
    },
    {
      "epoch": 8.66696455168305,
      "grad_norm": 33.85890197753906,
      "learning_rate": 3.490139741340967e-05,
      "loss": 0.2734,
      "num_input_tokens_seen": 33760184,
      "step": 58190
    },
    {
      "epoch": 8.66770926422401,
      "grad_norm": 0.04290175810456276,
      "learning_rate": 3.4898413625207067e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 33762808,
      "step": 58195
    },
    {
      "epoch": 8.668453976764969,
      "grad_norm": 17.674617767333984,
      "learning_rate": 3.4895429669780824e-05,
      "loss": 0.1904,
      "num_input_tokens_seen": 33765592,
      "step": 58200
    },
    {
      "epoch": 8.669198689305928,
      "grad_norm": 0.0230629313737154,
      "learning_rate": 3.4892445547181354e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 33768280,
      "step": 58205
    },
    {
      "epoch": 8.669943401846886,
      "grad_norm": 158.14744567871094,
      "learning_rate": 3.4889461257459065e-05,
      "loss": 0.0526,
      "num_input_tokens_seen": 33771448,
      "step": 58210
    },
    {
      "epoch": 8.670688114387847,
      "grad_norm": 0.04400424286723137,
      "learning_rate": 3.488647680066438e-05,
      "loss": 0.346,
      "num_input_tokens_seen": 33774072,
      "step": 58215
    },
    {
      "epoch": 8.671432826928806,
      "grad_norm": 27.238697052001953,
      "learning_rate": 3.4883492176847724e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 33776856,
      "step": 58220
    },
    {
      "epoch": 8.672177539469764,
      "grad_norm": 0.028647206723690033,
      "learning_rate": 3.488050738605951e-05,
      "loss": 0.0486,
      "num_input_tokens_seen": 33779832,
      "step": 58225
    },
    {
      "epoch": 8.672922252010723,
      "grad_norm": 0.012297277338802814,
      "learning_rate": 3.4877522428350165e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 33782680,
      "step": 58230
    },
    {
      "epoch": 8.673666964551684,
      "grad_norm": 119.67898559570312,
      "learning_rate": 3.487453730377011e-05,
      "loss": 0.1912,
      "num_input_tokens_seen": 33785528,
      "step": 58235
    },
    {
      "epoch": 8.674411677092642,
      "grad_norm": 0.012279221788048744,
      "learning_rate": 3.4871552012369793e-05,
      "loss": 0.0794,
      "num_input_tokens_seen": 33788184,
      "step": 58240
    },
    {
      "epoch": 8.675156389633601,
      "grad_norm": 1.372405767440796,
      "learning_rate": 3.486856655419964e-05,
      "loss": 0.1479,
      "num_input_tokens_seen": 33791064,
      "step": 58245
    },
    {
      "epoch": 8.67590110217456,
      "grad_norm": 0.03253409266471863,
      "learning_rate": 3.4865580929310074e-05,
      "loss": 0.0236,
      "num_input_tokens_seen": 33794104,
      "step": 58250
    },
    {
      "epoch": 8.67664581471552,
      "grad_norm": 0.005568621214479208,
      "learning_rate": 3.486259513775155e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 33796792,
      "step": 58255
    },
    {
      "epoch": 8.67739052725648,
      "grad_norm": 3.438647508621216,
      "learning_rate": 3.485960917957451e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 33799448,
      "step": 58260
    },
    {
      "epoch": 8.678135239797438,
      "grad_norm": 0.09261997044086456,
      "learning_rate": 3.4856623054829395e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 33802200,
      "step": 58265
    },
    {
      "epoch": 8.678879952338397,
      "grad_norm": 24.57316017150879,
      "learning_rate": 3.4853636763566646e-05,
      "loss": 0.4149,
      "num_input_tokens_seen": 33805112,
      "step": 58270
    },
    {
      "epoch": 8.679624664879357,
      "grad_norm": 0.02899143472313881,
      "learning_rate": 3.485065030583672e-05,
      "loss": 0.1329,
      "num_input_tokens_seen": 33808056,
      "step": 58275
    },
    {
      "epoch": 8.680369377420316,
      "grad_norm": 217.5361785888672,
      "learning_rate": 3.484766368169007e-05,
      "loss": 0.3589,
      "num_input_tokens_seen": 33810712,
      "step": 58280
    },
    {
      "epoch": 8.681114089961275,
      "grad_norm": 0.053899966180324554,
      "learning_rate": 3.484467689117715e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 33813784,
      "step": 58285
    },
    {
      "epoch": 8.681858802502234,
      "grad_norm": 0.42337334156036377,
      "learning_rate": 3.4841689934348416e-05,
      "loss": 0.1312,
      "num_input_tokens_seen": 33816792,
      "step": 58290
    },
    {
      "epoch": 8.682603515043194,
      "grad_norm": 24.2646541595459,
      "learning_rate": 3.483870281125433e-05,
      "loss": 0.1274,
      "num_input_tokens_seen": 33819288,
      "step": 58295
    },
    {
      "epoch": 8.683348227584153,
      "grad_norm": 0.1007431149482727,
      "learning_rate": 3.483571552194537e-05,
      "loss": 0.0217,
      "num_input_tokens_seen": 33822584,
      "step": 58300
    },
    {
      "epoch": 8.684092940125112,
      "grad_norm": 31.29085922241211,
      "learning_rate": 3.4832728066471994e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 33825432,
      "step": 58305
    },
    {
      "epoch": 8.68483765266607,
      "grad_norm": 0.05044152960181236,
      "learning_rate": 3.482974044488466e-05,
      "loss": 0.257,
      "num_input_tokens_seen": 33828376,
      "step": 58310
    },
    {
      "epoch": 8.68558236520703,
      "grad_norm": 0.02351957932114601,
      "learning_rate": 3.4826752657233855e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 33831192,
      "step": 58315
    },
    {
      "epoch": 8.68632707774799,
      "grad_norm": 14.176307678222656,
      "learning_rate": 3.4823764703570054e-05,
      "loss": 0.2353,
      "num_input_tokens_seen": 33834104,
      "step": 58320
    },
    {
      "epoch": 8.687071790288948,
      "grad_norm": 0.8221241235733032,
      "learning_rate": 3.482077658394373e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 33836952,
      "step": 58325
    },
    {
      "epoch": 8.687816502829907,
      "grad_norm": 0.005193744320422411,
      "learning_rate": 3.481778829840537e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 33839800,
      "step": 58330
    },
    {
      "epoch": 8.688561215370868,
      "grad_norm": 3.7284352779388428,
      "learning_rate": 3.481479984700546e-05,
      "loss": 0.0343,
      "num_input_tokens_seen": 33842904,
      "step": 58335
    },
    {
      "epoch": 8.689305927911827,
      "grad_norm": 0.5774276256561279,
      "learning_rate": 3.481181122979447e-05,
      "loss": 0.0377,
      "num_input_tokens_seen": 33845688,
      "step": 58340
    },
    {
      "epoch": 8.690050640452785,
      "grad_norm": 8.328818321228027,
      "learning_rate": 3.480882244682291e-05,
      "loss": 0.0107,
      "num_input_tokens_seen": 33848824,
      "step": 58345
    },
    {
      "epoch": 8.690795352993744,
      "grad_norm": 75.498291015625,
      "learning_rate": 3.480583349814126e-05,
      "loss": 0.4535,
      "num_input_tokens_seen": 33852184,
      "step": 58350
    },
    {
      "epoch": 8.691540065534703,
      "grad_norm": 0.02118576131761074,
      "learning_rate": 3.480284438380002e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 33855096,
      "step": 58355
    },
    {
      "epoch": 8.692284778075663,
      "grad_norm": 0.018982240930199623,
      "learning_rate": 3.479985510384969e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 33857816,
      "step": 58360
    },
    {
      "epoch": 8.693029490616622,
      "grad_norm": 0.06828593462705612,
      "learning_rate": 3.479686565834077e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 33860792,
      "step": 58365
    },
    {
      "epoch": 8.69377420315758,
      "grad_norm": 0.01002809964120388,
      "learning_rate": 3.479387604732376e-05,
      "loss": 0.1885,
      "num_input_tokens_seen": 33863768,
      "step": 58370
    },
    {
      "epoch": 8.69451891569854,
      "grad_norm": 0.007747085299342871,
      "learning_rate": 3.479088627084916e-05,
      "loss": 0.1676,
      "num_input_tokens_seen": 33866840,
      "step": 58375
    },
    {
      "epoch": 8.6952636282395,
      "grad_norm": 0.1219736710190773,
      "learning_rate": 3.4787896328967493e-05,
      "loss": 0.0228,
      "num_input_tokens_seen": 33869880,
      "step": 58380
    },
    {
      "epoch": 8.696008340780459,
      "grad_norm": 29.459461212158203,
      "learning_rate": 3.478490622172926e-05,
      "loss": 0.6714,
      "num_input_tokens_seen": 33873112,
      "step": 58385
    },
    {
      "epoch": 8.696753053321418,
      "grad_norm": 12.361268997192383,
      "learning_rate": 3.478191594918499e-05,
      "loss": 0.3114,
      "num_input_tokens_seen": 33875928,
      "step": 58390
    },
    {
      "epoch": 8.697497765862376,
      "grad_norm": 0.16903424263000488,
      "learning_rate": 3.477892551138519e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 33878616,
      "step": 58395
    },
    {
      "epoch": 8.698242478403337,
      "grad_norm": 0.043157536536455154,
      "learning_rate": 3.4775934908380386e-05,
      "loss": 0.0156,
      "num_input_tokens_seen": 33881528,
      "step": 58400
    },
    {
      "epoch": 8.698987190944296,
      "grad_norm": 0.08222676813602448,
      "learning_rate": 3.4772944140221094e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 33884472,
      "step": 58405
    },
    {
      "epoch": 8.699731903485254,
      "grad_norm": 0.01953701488673687,
      "learning_rate": 3.476995320695784e-05,
      "loss": 0.1852,
      "num_input_tokens_seen": 33887768,
      "step": 58410
    },
    {
      "epoch": 8.700476616026213,
      "grad_norm": 0.09019207954406738,
      "learning_rate": 3.476696210864116e-05,
      "loss": 0.1436,
      "num_input_tokens_seen": 33891096,
      "step": 58415
    },
    {
      "epoch": 8.701221328567174,
      "grad_norm": 0.3567675054073334,
      "learning_rate": 3.476397084532158e-05,
      "loss": 0.3048,
      "num_input_tokens_seen": 33894040,
      "step": 58420
    },
    {
      "epoch": 8.701966041108133,
      "grad_norm": 0.05045253783464432,
      "learning_rate": 3.476097941704964e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 33896952,
      "step": 58425
    },
    {
      "epoch": 8.702710753649091,
      "grad_norm": 0.04018573835492134,
      "learning_rate": 3.475798782387587e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 33900088,
      "step": 58430
    },
    {
      "epoch": 8.70345546619005,
      "grad_norm": 0.2859463095664978,
      "learning_rate": 3.475499606585081e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 33903320,
      "step": 58435
    },
    {
      "epoch": 8.70420017873101,
      "grad_norm": 15.280926704406738,
      "learning_rate": 3.4752004143025016e-05,
      "loss": 0.3392,
      "num_input_tokens_seen": 33906488,
      "step": 58440
    },
    {
      "epoch": 8.70494489127197,
      "grad_norm": 0.3578079640865326,
      "learning_rate": 3.4749012055449015e-05,
      "loss": 0.1474,
      "num_input_tokens_seen": 33909784,
      "step": 58445
    },
    {
      "epoch": 8.705689603812928,
      "grad_norm": 3.2073943614959717,
      "learning_rate": 3.4746019803173365e-05,
      "loss": 0.3696,
      "num_input_tokens_seen": 33912728,
      "step": 58450
    },
    {
      "epoch": 8.706434316353887,
      "grad_norm": 0.030412673950195312,
      "learning_rate": 3.474302738624862e-05,
      "loss": 0.2003,
      "num_input_tokens_seen": 33915544,
      "step": 58455
    },
    {
      "epoch": 8.707179028894847,
      "grad_norm": 7.003663539886475,
      "learning_rate": 3.474003480472532e-05,
      "loss": 0.1608,
      "num_input_tokens_seen": 33918456,
      "step": 58460
    },
    {
      "epoch": 8.707923741435806,
      "grad_norm": 0.4888274371623993,
      "learning_rate": 3.473704205865405e-05,
      "loss": 0.0753,
      "num_input_tokens_seen": 33921272,
      "step": 58465
    },
    {
      "epoch": 8.708668453976765,
      "grad_norm": 32.990135192871094,
      "learning_rate": 3.473404914808534e-05,
      "loss": 0.3096,
      "num_input_tokens_seen": 33924280,
      "step": 58470
    },
    {
      "epoch": 8.709413166517724,
      "grad_norm": 0.00937759317457676,
      "learning_rate": 3.4731056073069754e-05,
      "loss": 0.338,
      "num_input_tokens_seen": 33926936,
      "step": 58475
    },
    {
      "epoch": 8.710157879058684,
      "grad_norm": 74.2332534790039,
      "learning_rate": 3.472806283365788e-05,
      "loss": 0.0103,
      "num_input_tokens_seen": 33929528,
      "step": 58480
    },
    {
      "epoch": 8.710902591599643,
      "grad_norm": 9.878496170043945,
      "learning_rate": 3.472506942990026e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 33932312,
      "step": 58485
    },
    {
      "epoch": 8.711647304140602,
      "grad_norm": 14.009748458862305,
      "learning_rate": 3.472207586184748e-05,
      "loss": 0.0553,
      "num_input_tokens_seen": 33935576,
      "step": 58490
    },
    {
      "epoch": 8.71239201668156,
      "grad_norm": 0.06402041763067245,
      "learning_rate": 3.4719082129550106e-05,
      "loss": 0.0749,
      "num_input_tokens_seen": 33938456,
      "step": 58495
    },
    {
      "epoch": 8.71313672922252,
      "grad_norm": 0.12458053231239319,
      "learning_rate": 3.471608823305873e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 33941368,
      "step": 58500
    },
    {
      "epoch": 8.71388144176348,
      "grad_norm": 31.091039657592773,
      "learning_rate": 3.471309417242391e-05,
      "loss": 0.0457,
      "num_input_tokens_seen": 33944376,
      "step": 58505
    },
    {
      "epoch": 8.714626154304439,
      "grad_norm": 0.01835431531071663,
      "learning_rate": 3.471009994769624e-05,
      "loss": 0.0636,
      "num_input_tokens_seen": 33947032,
      "step": 58510
    },
    {
      "epoch": 8.715370866845397,
      "grad_norm": 0.1701309084892273,
      "learning_rate": 3.470710555892629e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 33949912,
      "step": 58515
    },
    {
      "epoch": 8.716115579386356,
      "grad_norm": 61.99985885620117,
      "learning_rate": 3.470411100616466e-05,
      "loss": 0.0858,
      "num_input_tokens_seen": 33952824,
      "step": 58520
    },
    {
      "epoch": 8.716860291927317,
      "grad_norm": 0.006926466710865498,
      "learning_rate": 3.4701116289461945e-05,
      "loss": 0.1185,
      "num_input_tokens_seen": 33955704,
      "step": 58525
    },
    {
      "epoch": 8.717605004468275,
      "grad_norm": 0.028475379571318626,
      "learning_rate": 3.469812140886872e-05,
      "loss": 0.1956,
      "num_input_tokens_seen": 33958776,
      "step": 58530
    },
    {
      "epoch": 8.718349717009234,
      "grad_norm": 0.013549722731113434,
      "learning_rate": 3.4695126364435604e-05,
      "loss": 0.098,
      "num_input_tokens_seen": 33961912,
      "step": 58535
    },
    {
      "epoch": 8.719094429550193,
      "grad_norm": 0.005922256037592888,
      "learning_rate": 3.4692131156213175e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 33964792,
      "step": 58540
    },
    {
      "epoch": 8.719839142091153,
      "grad_norm": 0.027649441733956337,
      "learning_rate": 3.468913578425203e-05,
      "loss": 0.1659,
      "num_input_tokens_seen": 33967704,
      "step": 58545
    },
    {
      "epoch": 8.720583854632112,
      "grad_norm": 0.18740908801555634,
      "learning_rate": 3.4686140248602804e-05,
      "loss": 0.4899,
      "num_input_tokens_seen": 33970584,
      "step": 58550
    },
    {
      "epoch": 8.721328567173071,
      "grad_norm": 0.08309117704629898,
      "learning_rate": 3.468314454931607e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 33973368,
      "step": 58555
    },
    {
      "epoch": 8.72207327971403,
      "grad_norm": 0.058142468333244324,
      "learning_rate": 3.468014868644245e-05,
      "loss": 0.1434,
      "num_input_tokens_seen": 33976088,
      "step": 58560
    },
    {
      "epoch": 8.72281799225499,
      "grad_norm": 112.895263671875,
      "learning_rate": 3.4677152660032565e-05,
      "loss": 0.1396,
      "num_input_tokens_seen": 33978936,
      "step": 58565
    },
    {
      "epoch": 8.723562704795949,
      "grad_norm": 11.751011848449707,
      "learning_rate": 3.467415647013702e-05,
      "loss": 0.2949,
      "num_input_tokens_seen": 33981816,
      "step": 58570
    },
    {
      "epoch": 8.724307417336908,
      "grad_norm": 0.006169935688376427,
      "learning_rate": 3.467116011680643e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 33984376,
      "step": 58575
    },
    {
      "epoch": 8.725052129877866,
      "grad_norm": 10.558260917663574,
      "learning_rate": 3.4668163600091415e-05,
      "loss": 0.3888,
      "num_input_tokens_seen": 33987480,
      "step": 58580
    },
    {
      "epoch": 8.725796842418827,
      "grad_norm": 34.58389663696289,
      "learning_rate": 3.46651669200426e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 33990456,
      "step": 58585
    },
    {
      "epoch": 8.726541554959786,
      "grad_norm": 7.197987079620361,
      "learning_rate": 3.4662170076710624e-05,
      "loss": 0.107,
      "num_input_tokens_seen": 33993368,
      "step": 58590
    },
    {
      "epoch": 8.727286267500745,
      "grad_norm": 0.11433206498622894,
      "learning_rate": 3.46591730701461e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 33996344,
      "step": 58595
    },
    {
      "epoch": 8.728030980041703,
      "grad_norm": 4.960437297821045,
      "learning_rate": 3.465617590039967e-05,
      "loss": 0.084,
      "num_input_tokens_seen": 33999640,
      "step": 58600
    },
    {
      "epoch": 8.728775692582664,
      "grad_norm": 0.04806232824921608,
      "learning_rate": 3.4653178567521956e-05,
      "loss": 0.0771,
      "num_input_tokens_seen": 34002392,
      "step": 58605
    },
    {
      "epoch": 8.729520405123623,
      "grad_norm": 56.03887939453125,
      "learning_rate": 3.4650181071563595e-05,
      "loss": 0.3961,
      "num_input_tokens_seen": 34005496,
      "step": 58610
    },
    {
      "epoch": 8.730265117664581,
      "grad_norm": 0.03404361754655838,
      "learning_rate": 3.4647183412575243e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 34008408,
      "step": 58615
    },
    {
      "epoch": 8.73100983020554,
      "grad_norm": 0.06141025573015213,
      "learning_rate": 3.464418559060753e-05,
      "loss": 0.2743,
      "num_input_tokens_seen": 34011288,
      "step": 58620
    },
    {
      "epoch": 8.7317545427465,
      "grad_norm": 0.0608723983168602,
      "learning_rate": 3.464118760571109e-05,
      "loss": 0.0206,
      "num_input_tokens_seen": 34014232,
      "step": 58625
    },
    {
      "epoch": 8.73249925528746,
      "grad_norm": 0.04528239369392395,
      "learning_rate": 3.463818945793661e-05,
      "loss": 0.1489,
      "num_input_tokens_seen": 34017208,
      "step": 58630
    },
    {
      "epoch": 8.733243967828418,
      "grad_norm": 41.477813720703125,
      "learning_rate": 3.46351911473347e-05,
      "loss": 0.0413,
      "num_input_tokens_seen": 34020216,
      "step": 58635
    },
    {
      "epoch": 8.733988680369377,
      "grad_norm": 0.009996716864407063,
      "learning_rate": 3.463219267395603e-05,
      "loss": 0.1765,
      "num_input_tokens_seen": 34023288,
      "step": 58640
    },
    {
      "epoch": 8.734733392910336,
      "grad_norm": 56.05087661743164,
      "learning_rate": 3.4629194037851254e-05,
      "loss": 0.0092,
      "num_input_tokens_seen": 34026200,
      "step": 58645
    },
    {
      "epoch": 8.735478105451296,
      "grad_norm": 24.986221313476562,
      "learning_rate": 3.462619523907103e-05,
      "loss": 0.2095,
      "num_input_tokens_seen": 34029176,
      "step": 58650
    },
    {
      "epoch": 8.736222817992255,
      "grad_norm": 3.0357604026794434,
      "learning_rate": 3.462319627766602e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 34031864,
      "step": 58655
    },
    {
      "epoch": 8.736967530533214,
      "grad_norm": 0.029828382655978203,
      "learning_rate": 3.462019715368689e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 34034520,
      "step": 58660
    },
    {
      "epoch": 8.737712243074174,
      "grad_norm": 0.10660920292139053,
      "learning_rate": 3.461719786718431e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 34037688,
      "step": 58665
    },
    {
      "epoch": 8.738456955615133,
      "grad_norm": 11.161250114440918,
      "learning_rate": 3.461419841820895e-05,
      "loss": 0.0284,
      "num_input_tokens_seen": 34040664,
      "step": 58670
    },
    {
      "epoch": 8.739201668156092,
      "grad_norm": 90.12242126464844,
      "learning_rate": 3.461119880681147e-05,
      "loss": 0.2113,
      "num_input_tokens_seen": 34043640,
      "step": 58675
    },
    {
      "epoch": 8.73994638069705,
      "grad_norm": 29.136550903320312,
      "learning_rate": 3.460819903304256e-05,
      "loss": 0.341,
      "num_input_tokens_seen": 34046840,
      "step": 58680
    },
    {
      "epoch": 8.74069109323801,
      "grad_norm": 1.2024953365325928,
      "learning_rate": 3.460519909695289e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 34049784,
      "step": 58685
    },
    {
      "epoch": 8.74143580577897,
      "grad_norm": 0.017759868875145912,
      "learning_rate": 3.460219899859314e-05,
      "loss": 0.1448,
      "num_input_tokens_seen": 34052728,
      "step": 58690
    },
    {
      "epoch": 8.742180518319929,
      "grad_norm": 0.01311882771551609,
      "learning_rate": 3.459919873801401e-05,
      "loss": 0.2036,
      "num_input_tokens_seen": 34055608,
      "step": 58695
    },
    {
      "epoch": 8.742925230860887,
      "grad_norm": 185.9821319580078,
      "learning_rate": 3.4596198315266165e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 34058424,
      "step": 58700
    },
    {
      "epoch": 8.743669943401846,
      "grad_norm": 11.869365692138672,
      "learning_rate": 3.45931977304003e-05,
      "loss": 0.2437,
      "num_input_tokens_seen": 34061528,
      "step": 58705
    },
    {
      "epoch": 8.744414655942807,
      "grad_norm": 24.011938095092773,
      "learning_rate": 3.4590196983467114e-05,
      "loss": 0.3361,
      "num_input_tokens_seen": 34064248,
      "step": 58710
    },
    {
      "epoch": 8.745159368483765,
      "grad_norm": 3.9191062450408936,
      "learning_rate": 3.45871960745173e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 34066776,
      "step": 58715
    },
    {
      "epoch": 8.745904081024724,
      "grad_norm": 3.463022232055664,
      "learning_rate": 3.458419500360154e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 34069720,
      "step": 58720
    },
    {
      "epoch": 8.746648793565683,
      "grad_norm": 0.9572317600250244,
      "learning_rate": 3.458119377077056e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 34072440,
      "step": 58725
    },
    {
      "epoch": 8.747393506106643,
      "grad_norm": 0.009342937730252743,
      "learning_rate": 3.4578192376075044e-05,
      "loss": 0.26,
      "num_input_tokens_seen": 34075320,
      "step": 58730
    },
    {
      "epoch": 8.748138218647602,
      "grad_norm": 0.005970642436295748,
      "learning_rate": 3.45751908195657e-05,
      "loss": 0.1641,
      "num_input_tokens_seen": 34078648,
      "step": 58735
    },
    {
      "epoch": 8.748882931188561,
      "grad_norm": 4.841813564300537,
      "learning_rate": 3.457218910129324e-05,
      "loss": 0.0306,
      "num_input_tokens_seen": 34081688,
      "step": 58740
    },
    {
      "epoch": 8.74962764372952,
      "grad_norm": 0.02239273488521576,
      "learning_rate": 3.4569187221308376e-05,
      "loss": 0.0507,
      "num_input_tokens_seen": 34084568,
      "step": 58745
    },
    {
      "epoch": 8.75037235627048,
      "grad_norm": 17.354881286621094,
      "learning_rate": 3.456618517966183e-05,
      "loss": 0.1582,
      "num_input_tokens_seen": 34087704,
      "step": 58750
    },
    {
      "epoch": 8.751117068811439,
      "grad_norm": 1.2104580402374268,
      "learning_rate": 3.4563182976404286e-05,
      "loss": 0.2009,
      "num_input_tokens_seen": 34090456,
      "step": 58755
    },
    {
      "epoch": 8.751861781352398,
      "grad_norm": 16.70655632019043,
      "learning_rate": 3.456018061158649e-05,
      "loss": 0.3079,
      "num_input_tokens_seen": 34093208,
      "step": 58760
    },
    {
      "epoch": 8.752606493893357,
      "grad_norm": 0.04710426554083824,
      "learning_rate": 3.455717808525917e-05,
      "loss": 0.0095,
      "num_input_tokens_seen": 34096312,
      "step": 58765
    },
    {
      "epoch": 8.753351206434317,
      "grad_norm": 7.975678443908691,
      "learning_rate": 3.4554175397473036e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 34098904,
      "step": 58770
    },
    {
      "epoch": 8.754095918975276,
      "grad_norm": 0.14556783437728882,
      "learning_rate": 3.455117254827882e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 34101848,
      "step": 58775
    },
    {
      "epoch": 8.754840631516235,
      "grad_norm": 0.036359529942274094,
      "learning_rate": 3.454816953772724e-05,
      "loss": 0.1675,
      "num_input_tokens_seen": 34104536,
      "step": 58780
    },
    {
      "epoch": 8.755585344057193,
      "grad_norm": 0.012758498080074787,
      "learning_rate": 3.4545166365869054e-05,
      "loss": 0.4317,
      "num_input_tokens_seen": 34107512,
      "step": 58785
    },
    {
      "epoch": 8.756330056598154,
      "grad_norm": 0.14235380291938782,
      "learning_rate": 3.454216303275498e-05,
      "loss": 0.089,
      "num_input_tokens_seen": 34110168,
      "step": 58790
    },
    {
      "epoch": 8.757074769139113,
      "grad_norm": 69.78233337402344,
      "learning_rate": 3.4539159538435755e-05,
      "loss": 0.2499,
      "num_input_tokens_seen": 34112792,
      "step": 58795
    },
    {
      "epoch": 8.757819481680071,
      "grad_norm": 0.043939150869846344,
      "learning_rate": 3.453615588296213e-05,
      "loss": 0.207,
      "num_input_tokens_seen": 34115448,
      "step": 58800
    },
    {
      "epoch": 8.75856419422103,
      "grad_norm": 26.7095947265625,
      "learning_rate": 3.4533152066384844e-05,
      "loss": 0.3689,
      "num_input_tokens_seen": 34118840,
      "step": 58805
    },
    {
      "epoch": 8.75930890676199,
      "grad_norm": 0.01948212832212448,
      "learning_rate": 3.453014808875464e-05,
      "loss": 0.0302,
      "num_input_tokens_seen": 34121816,
      "step": 58810
    },
    {
      "epoch": 8.76005361930295,
      "grad_norm": 0.19008375704288483,
      "learning_rate": 3.4527143950122266e-05,
      "loss": 0.3058,
      "num_input_tokens_seen": 34124760,
      "step": 58815
    },
    {
      "epoch": 8.760798331843908,
      "grad_norm": 0.6210091710090637,
      "learning_rate": 3.4524139650538485e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 34128024,
      "step": 58820
    },
    {
      "epoch": 8.761543044384867,
      "grad_norm": 0.04796522855758667,
      "learning_rate": 3.452113519005404e-05,
      "loss": 0.0529,
      "num_input_tokens_seen": 34130808,
      "step": 58825
    },
    {
      "epoch": 8.762287756925826,
      "grad_norm": 0.11173814535140991,
      "learning_rate": 3.45181305687197e-05,
      "loss": 0.1308,
      "num_input_tokens_seen": 34133624,
      "step": 58830
    },
    {
      "epoch": 8.763032469466786,
      "grad_norm": 21.878211975097656,
      "learning_rate": 3.451512578658621e-05,
      "loss": 0.0894,
      "num_input_tokens_seen": 34136536,
      "step": 58835
    },
    {
      "epoch": 8.763777182007745,
      "grad_norm": 0.12916342914104462,
      "learning_rate": 3.4512120843704344e-05,
      "loss": 0.1003,
      "num_input_tokens_seen": 34139256,
      "step": 58840
    },
    {
      "epoch": 8.764521894548704,
      "grad_norm": 0.6944401264190674,
      "learning_rate": 3.4509115740124866e-05,
      "loss": 0.1037,
      "num_input_tokens_seen": 34142264,
      "step": 58845
    },
    {
      "epoch": 8.765266607089664,
      "grad_norm": 0.03275882080197334,
      "learning_rate": 3.4506110475898535e-05,
      "loss": 0.014,
      "num_input_tokens_seen": 34145112,
      "step": 58850
    },
    {
      "epoch": 8.766011319630623,
      "grad_norm": 87.08367156982422,
      "learning_rate": 3.4503105051076126e-05,
      "loss": 0.0611,
      "num_input_tokens_seen": 34147928,
      "step": 58855
    },
    {
      "epoch": 8.766756032171582,
      "grad_norm": 0.3212704360485077,
      "learning_rate": 3.450009946570843e-05,
      "loss": 0.2218,
      "num_input_tokens_seen": 34150840,
      "step": 58860
    },
    {
      "epoch": 8.76750074471254,
      "grad_norm": 0.008975760079920292,
      "learning_rate": 3.44970937198462e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 34153528,
      "step": 58865
    },
    {
      "epoch": 8.7682454572535,
      "grad_norm": 0.10212244838476181,
      "learning_rate": 3.449408781354023e-05,
      "loss": 0.1609,
      "num_input_tokens_seen": 34156600,
      "step": 58870
    },
    {
      "epoch": 8.76899016979446,
      "grad_norm": 0.011084835976362228,
      "learning_rate": 3.449108174684129e-05,
      "loss": 0.0484,
      "num_input_tokens_seen": 34159224,
      "step": 58875
    },
    {
      "epoch": 8.769734882335419,
      "grad_norm": 0.16457323729991913,
      "learning_rate": 3.448807551980017e-05,
      "loss": 0.1399,
      "num_input_tokens_seen": 34162328,
      "step": 58880
    },
    {
      "epoch": 8.770479594876377,
      "grad_norm": 0.37475720047950745,
      "learning_rate": 3.448506913246766e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 34165080,
      "step": 58885
    },
    {
      "epoch": 8.771224307417336,
      "grad_norm": 0.010244048200547695,
      "learning_rate": 3.448206258489455e-05,
      "loss": 0.1961,
      "num_input_tokens_seen": 34168056,
      "step": 58890
    },
    {
      "epoch": 8.771969019958297,
      "grad_norm": 7.031700611114502,
      "learning_rate": 3.4479055877131616e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 34171096,
      "step": 58895
    },
    {
      "epoch": 8.772713732499255,
      "grad_norm": 0.052252162247896194,
      "learning_rate": 3.4476049009229685e-05,
      "loss": 0.1258,
      "num_input_tokens_seen": 34173976,
      "step": 58900
    },
    {
      "epoch": 8.773458445040214,
      "grad_norm": 0.03683152049779892,
      "learning_rate": 3.447304198123953e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 34177016,
      "step": 58905
    },
    {
      "epoch": 8.774203157581173,
      "grad_norm": 0.08624435216188431,
      "learning_rate": 3.447003479321196e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 34179896,
      "step": 58910
    },
    {
      "epoch": 8.774947870122134,
      "grad_norm": 0.01921164058148861,
      "learning_rate": 3.4467027445197774e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 34182936,
      "step": 58915
    },
    {
      "epoch": 8.775692582663092,
      "grad_norm": 0.022976284846663475,
      "learning_rate": 3.446401993724778e-05,
      "loss": 0.3223,
      "num_input_tokens_seen": 34185720,
      "step": 58920
    },
    {
      "epoch": 8.776437295204051,
      "grad_norm": 42.16424560546875,
      "learning_rate": 3.446101226941279e-05,
      "loss": 0.1482,
      "num_input_tokens_seen": 34188568,
      "step": 58925
    },
    {
      "epoch": 8.77718200774501,
      "grad_norm": 8.743123054504395,
      "learning_rate": 3.4458004441743605e-05,
      "loss": 0.3609,
      "num_input_tokens_seen": 34191608,
      "step": 58930
    },
    {
      "epoch": 8.77792672028597,
      "grad_norm": 0.07020886242389679,
      "learning_rate": 3.445499645429107e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 34194456,
      "step": 58935
    },
    {
      "epoch": 8.778671432826929,
      "grad_norm": 2.0131614208221436,
      "learning_rate": 3.445198830710596e-05,
      "loss": 0.1601,
      "num_input_tokens_seen": 34197336,
      "step": 58940
    },
    {
      "epoch": 8.779416145367888,
      "grad_norm": 0.3412792980670929,
      "learning_rate": 3.4448980000239114e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 34199992,
      "step": 58945
    },
    {
      "epoch": 8.780160857908847,
      "grad_norm": 78.47956848144531,
      "learning_rate": 3.444597153374136e-05,
      "loss": 0.4036,
      "num_input_tokens_seen": 34203000,
      "step": 58950
    },
    {
      "epoch": 8.780905570449807,
      "grad_norm": 0.017312513664364815,
      "learning_rate": 3.444296290766352e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 34206136,
      "step": 58955
    },
    {
      "epoch": 8.781650282990766,
      "grad_norm": 7.8218512535095215,
      "learning_rate": 3.443995412205642e-05,
      "loss": 0.4348,
      "num_input_tokens_seen": 34208920,
      "step": 58960
    },
    {
      "epoch": 8.782394995531725,
      "grad_norm": 0.9836469888687134,
      "learning_rate": 3.443694517697089e-05,
      "loss": 0.265,
      "num_input_tokens_seen": 34211992,
      "step": 58965
    },
    {
      "epoch": 8.783139708072683,
      "grad_norm": 0.053317103534936905,
      "learning_rate": 3.4433936072457754e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 34214680,
      "step": 58970
    },
    {
      "epoch": 8.783884420613644,
      "grad_norm": 0.018391208723187447,
      "learning_rate": 3.443092680856787e-05,
      "loss": 0.1158,
      "num_input_tokens_seen": 34217432,
      "step": 58975
    },
    {
      "epoch": 8.784629133154603,
      "grad_norm": 82.8992919921875,
      "learning_rate": 3.442791738535205e-05,
      "loss": 0.2899,
      "num_input_tokens_seen": 34220472,
      "step": 58980
    },
    {
      "epoch": 8.785373845695561,
      "grad_norm": 0.0501815602183342,
      "learning_rate": 3.4424907802861143e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 34223384,
      "step": 58985
    },
    {
      "epoch": 8.78611855823652,
      "grad_norm": 32.61595153808594,
      "learning_rate": 3.4421898061146005e-05,
      "loss": 0.1448,
      "num_input_tokens_seen": 34226360,
      "step": 58990
    },
    {
      "epoch": 8.78686327077748,
      "grad_norm": 7.576443195343018,
      "learning_rate": 3.4418888160257486e-05,
      "loss": 0.0375,
      "num_input_tokens_seen": 34229336,
      "step": 58995
    },
    {
      "epoch": 8.78760798331844,
      "grad_norm": 0.23229555785655975,
      "learning_rate": 3.441587810024642e-05,
      "loss": 0.2131,
      "num_input_tokens_seen": 34232056,
      "step": 59000
    },
    {
      "epoch": 8.788352695859398,
      "grad_norm": 0.06319938600063324,
      "learning_rate": 3.441286788116365e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 34235224,
      "step": 59005
    },
    {
      "epoch": 8.789097408400357,
      "grad_norm": 111.20455932617188,
      "learning_rate": 3.440985750306006e-05,
      "loss": 0.4414,
      "num_input_tokens_seen": 34238232,
      "step": 59010
    },
    {
      "epoch": 8.789842120941316,
      "grad_norm": 78.87393188476562,
      "learning_rate": 3.4406846965986476e-05,
      "loss": 0.1151,
      "num_input_tokens_seen": 34240856,
      "step": 59015
    },
    {
      "epoch": 8.790586833482276,
      "grad_norm": 0.04502435773611069,
      "learning_rate": 3.440383626999378e-05,
      "loss": 0.1807,
      "num_input_tokens_seen": 34243896,
      "step": 59020
    },
    {
      "epoch": 8.791331546023235,
      "grad_norm": 15.460630416870117,
      "learning_rate": 3.440082541513283e-05,
      "loss": 0.3495,
      "num_input_tokens_seen": 34246872,
      "step": 59025
    },
    {
      "epoch": 8.792076258564194,
      "grad_norm": 0.029970038682222366,
      "learning_rate": 3.439781440145449e-05,
      "loss": 0.1708,
      "num_input_tokens_seen": 34249656,
      "step": 59030
    },
    {
      "epoch": 8.792820971105153,
      "grad_norm": 3.5752649307250977,
      "learning_rate": 3.4394803229009634e-05,
      "loss": 0.1976,
      "num_input_tokens_seen": 34252632,
      "step": 59035
    },
    {
      "epoch": 8.793565683646113,
      "grad_norm": 0.014638912864029408,
      "learning_rate": 3.439179189784911e-05,
      "loss": 0.0415,
      "num_input_tokens_seen": 34255608,
      "step": 59040
    },
    {
      "epoch": 8.794310396187072,
      "grad_norm": 27.10926628112793,
      "learning_rate": 3.438878040802381e-05,
      "loss": 0.2471,
      "num_input_tokens_seen": 34258488,
      "step": 59045
    },
    {
      "epoch": 8.79505510872803,
      "grad_norm": 0.011187768541276455,
      "learning_rate": 3.438576875958461e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 34261144,
      "step": 59050
    },
    {
      "epoch": 8.79579982126899,
      "grad_norm": 0.037761665880680084,
      "learning_rate": 3.438275695258239e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 34264248,
      "step": 59055
    },
    {
      "epoch": 8.79654453380995,
      "grad_norm": 0.0969158485531807,
      "learning_rate": 3.4379744987068025e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 34267128,
      "step": 59060
    },
    {
      "epoch": 8.797289246350909,
      "grad_norm": 0.09641974419355392,
      "learning_rate": 3.43767328630924e-05,
      "loss": 0.1642,
      "num_input_tokens_seen": 34270168,
      "step": 59065
    },
    {
      "epoch": 8.798033958891867,
      "grad_norm": 53.0706787109375,
      "learning_rate": 3.437372058070641e-05,
      "loss": 0.3751,
      "num_input_tokens_seen": 34273112,
      "step": 59070
    },
    {
      "epoch": 8.798778671432826,
      "grad_norm": 0.14351312816143036,
      "learning_rate": 3.4370708139960934e-05,
      "loss": 0.1105,
      "num_input_tokens_seen": 34276056,
      "step": 59075
    },
    {
      "epoch": 8.799523383973787,
      "grad_norm": 0.24432699382305145,
      "learning_rate": 3.4367695540906864e-05,
      "loss": 0.1019,
      "num_input_tokens_seen": 34278840,
      "step": 59080
    },
    {
      "epoch": 8.800268096514746,
      "grad_norm": 0.04017966613173485,
      "learning_rate": 3.43646827835951e-05,
      "loss": 0.2398,
      "num_input_tokens_seen": 34282104,
      "step": 59085
    },
    {
      "epoch": 8.801012809055704,
      "grad_norm": 0.07178597897291183,
      "learning_rate": 3.436166986807654e-05,
      "loss": 0.159,
      "num_input_tokens_seen": 34285176,
      "step": 59090
    },
    {
      "epoch": 8.801757521596663,
      "grad_norm": 0.04296000301837921,
      "learning_rate": 3.435865679440208e-05,
      "loss": 0.2327,
      "num_input_tokens_seen": 34288024,
      "step": 59095
    },
    {
      "epoch": 8.802502234137624,
      "grad_norm": 0.03645644709467888,
      "learning_rate": 3.435564356262263e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 34290904,
      "step": 59100
    },
    {
      "epoch": 8.803246946678582,
      "grad_norm": 3.6486637592315674,
      "learning_rate": 3.435263017278909e-05,
      "loss": 0.1386,
      "num_input_tokens_seen": 34293656,
      "step": 59105
    },
    {
      "epoch": 8.803991659219541,
      "grad_norm": 0.1331823766231537,
      "learning_rate": 3.4349616624952365e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 34296664,
      "step": 59110
    },
    {
      "epoch": 8.8047363717605,
      "grad_norm": 0.7891390323638916,
      "learning_rate": 3.434660291916337e-05,
      "loss": 0.1463,
      "num_input_tokens_seen": 34299512,
      "step": 59115
    },
    {
      "epoch": 8.80548108430146,
      "grad_norm": 82.96385955810547,
      "learning_rate": 3.4343589055473025e-05,
      "loss": 0.1525,
      "num_input_tokens_seen": 34302232,
      "step": 59120
    },
    {
      "epoch": 8.80622579684242,
      "grad_norm": 0.6055571436882019,
      "learning_rate": 3.4340575033932234e-05,
      "loss": 0.1328,
      "num_input_tokens_seen": 34305336,
      "step": 59125
    },
    {
      "epoch": 8.806970509383378,
      "grad_norm": 87.27094268798828,
      "learning_rate": 3.433756085459192e-05,
      "loss": 0.4424,
      "num_input_tokens_seen": 34308312,
      "step": 59130
    },
    {
      "epoch": 8.807715221924337,
      "grad_norm": 0.039542056620121,
      "learning_rate": 3.4334546517503006e-05,
      "loss": 0.0642,
      "num_input_tokens_seen": 34311192,
      "step": 59135
    },
    {
      "epoch": 8.808459934465297,
      "grad_norm": 0.03887162730097771,
      "learning_rate": 3.4331532022716416e-05,
      "loss": 0.0686,
      "num_input_tokens_seen": 34314040,
      "step": 59140
    },
    {
      "epoch": 8.809204647006256,
      "grad_norm": 0.011320581659674644,
      "learning_rate": 3.432851737028308e-05,
      "loss": 0.3041,
      "num_input_tokens_seen": 34317464,
      "step": 59145
    },
    {
      "epoch": 8.809949359547215,
      "grad_norm": 0.21382753551006317,
      "learning_rate": 3.432550256025391e-05,
      "loss": 0.1054,
      "num_input_tokens_seen": 34320312,
      "step": 59150
    },
    {
      "epoch": 8.810694072088173,
      "grad_norm": 4.431125640869141,
      "learning_rate": 3.4322487592679876e-05,
      "loss": 0.1769,
      "num_input_tokens_seen": 34323352,
      "step": 59155
    },
    {
      "epoch": 8.811438784629132,
      "grad_norm": 10.11931037902832,
      "learning_rate": 3.4319472467611876e-05,
      "loss": 0.2968,
      "num_input_tokens_seen": 34326552,
      "step": 59160
    },
    {
      "epoch": 8.812183497170093,
      "grad_norm": 0.038595281541347504,
      "learning_rate": 3.431645718510086e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 34329496,
      "step": 59165
    },
    {
      "epoch": 8.812928209711052,
      "grad_norm": 34.04881286621094,
      "learning_rate": 3.431344174519777e-05,
      "loss": 0.1644,
      "num_input_tokens_seen": 34332248,
      "step": 59170
    },
    {
      "epoch": 8.81367292225201,
      "grad_norm": 42.47151565551758,
      "learning_rate": 3.431042614795354e-05,
      "loss": 0.0495,
      "num_input_tokens_seen": 34335416,
      "step": 59175
    },
    {
      "epoch": 8.81441763479297,
      "grad_norm": 0.11157765984535217,
      "learning_rate": 3.430741039341914e-05,
      "loss": 0.2196,
      "num_input_tokens_seen": 34338328,
      "step": 59180
    },
    {
      "epoch": 8.81516234733393,
      "grad_norm": 0.06329873949289322,
      "learning_rate": 3.4304394481645485e-05,
      "loss": 0.0697,
      "num_input_tokens_seen": 34341048,
      "step": 59185
    },
    {
      "epoch": 8.815907059874888,
      "grad_norm": 22.709964752197266,
      "learning_rate": 3.430137841268355e-05,
      "loss": 0.2534,
      "num_input_tokens_seen": 34344344,
      "step": 59190
    },
    {
      "epoch": 8.816651772415847,
      "grad_norm": 0.16078537702560425,
      "learning_rate": 3.4298362186584275e-05,
      "loss": 0.2782,
      "num_input_tokens_seen": 34347000,
      "step": 59195
    },
    {
      "epoch": 8.817396484956806,
      "grad_norm": 0.08638635277748108,
      "learning_rate": 3.4295345803398634e-05,
      "loss": 0.1017,
      "num_input_tokens_seen": 34349752,
      "step": 59200
    },
    {
      "epoch": 8.818141197497766,
      "grad_norm": 0.25322550535202026,
      "learning_rate": 3.429232926317756e-05,
      "loss": 0.0985,
      "num_input_tokens_seen": 34352600,
      "step": 59205
    },
    {
      "epoch": 8.818885910038725,
      "grad_norm": 0.05250159651041031,
      "learning_rate": 3.428931256597203e-05,
      "loss": 0.2259,
      "num_input_tokens_seen": 34355480,
      "step": 59210
    },
    {
      "epoch": 8.819630622579684,
      "grad_norm": 54.600154876708984,
      "learning_rate": 3.428629571183301e-05,
      "loss": 0.4816,
      "num_input_tokens_seen": 34358328,
      "step": 59215
    },
    {
      "epoch": 8.820375335120643,
      "grad_norm": 0.07200327515602112,
      "learning_rate": 3.428327870081145e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 34360728,
      "step": 59220
    },
    {
      "epoch": 8.821120047661603,
      "grad_norm": 39.66194534301758,
      "learning_rate": 3.428026153295834e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 34363512,
      "step": 59225
    },
    {
      "epoch": 8.821864760202562,
      "grad_norm": 115.97354888916016,
      "learning_rate": 3.427724420832464e-05,
      "loss": 0.2174,
      "num_input_tokens_seen": 34366168,
      "step": 59230
    },
    {
      "epoch": 8.82260947274352,
      "grad_norm": 0.016734730452299118,
      "learning_rate": 3.427422672696135e-05,
      "loss": 0.19,
      "num_input_tokens_seen": 34368952,
      "step": 59235
    },
    {
      "epoch": 8.82335418528448,
      "grad_norm": 0.08106730878353119,
      "learning_rate": 3.42712090889194e-05,
      "loss": 0.1805,
      "num_input_tokens_seen": 34371864,
      "step": 59240
    },
    {
      "epoch": 8.82409889782544,
      "grad_norm": 0.139646515250206,
      "learning_rate": 3.426819129424979e-05,
      "loss": 0.0175,
      "num_input_tokens_seen": 34374520,
      "step": 59245
    },
    {
      "epoch": 8.824843610366399,
      "grad_norm": 152.27792358398438,
      "learning_rate": 3.426517334300352e-05,
      "loss": 0.108,
      "num_input_tokens_seen": 34377208,
      "step": 59250
    },
    {
      "epoch": 8.825588322907358,
      "grad_norm": 0.40206828713417053,
      "learning_rate": 3.426215523523157e-05,
      "loss": 0.0555,
      "num_input_tokens_seen": 34380024,
      "step": 59255
    },
    {
      "epoch": 8.826333035448316,
      "grad_norm": 0.13639235496520996,
      "learning_rate": 3.425913697098491e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 34382808,
      "step": 59260
    },
    {
      "epoch": 8.827077747989277,
      "grad_norm": 0.720099151134491,
      "learning_rate": 3.4256118550314556e-05,
      "loss": 0.2246,
      "num_input_tokens_seen": 34386232,
      "step": 59265
    },
    {
      "epoch": 8.827822460530236,
      "grad_norm": 221.33126831054688,
      "learning_rate": 3.425309997327147e-05,
      "loss": 0.0843,
      "num_input_tokens_seen": 34388824,
      "step": 59270
    },
    {
      "epoch": 8.828567173071194,
      "grad_norm": 17.765003204345703,
      "learning_rate": 3.4250081239906674e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 34391448,
      "step": 59275
    },
    {
      "epoch": 8.829311885612153,
      "grad_norm": 2.801722526550293,
      "learning_rate": 3.424706235027115e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 34394328,
      "step": 59280
    },
    {
      "epoch": 8.830056598153114,
      "grad_norm": 0.6159993410110474,
      "learning_rate": 3.4244043304415907e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 34397144,
      "step": 59285
    },
    {
      "epoch": 8.830801310694072,
      "grad_norm": 4.404415607452393,
      "learning_rate": 3.424102410239195e-05,
      "loss": 0.1129,
      "num_input_tokens_seen": 34400088,
      "step": 59290
    },
    {
      "epoch": 8.831546023235031,
      "grad_norm": 0.03486384451389313,
      "learning_rate": 3.423800474425029e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 34402776,
      "step": 59295
    },
    {
      "epoch": 8.83229073577599,
      "grad_norm": 0.010034694336354733,
      "learning_rate": 3.4234985230041916e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 34405560,
      "step": 59300
    },
    {
      "epoch": 8.83303544831695,
      "grad_norm": 1.1509979963302612,
      "learning_rate": 3.4231965559817856e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 34408792,
      "step": 59305
    },
    {
      "epoch": 8.83378016085791,
      "grad_norm": 1.7677603960037231,
      "learning_rate": 3.4228945733629124e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 34411736,
      "step": 59310
    },
    {
      "epoch": 8.834524873398868,
      "grad_norm": 0.013744709081947803,
      "learning_rate": 3.422592575152673e-05,
      "loss": 0.1353,
      "num_input_tokens_seen": 34414872,
      "step": 59315
    },
    {
      "epoch": 8.835269585939827,
      "grad_norm": 35.925018310546875,
      "learning_rate": 3.4222905613561706e-05,
      "loss": 0.0932,
      "num_input_tokens_seen": 34417592,
      "step": 59320
    },
    {
      "epoch": 8.836014298480787,
      "grad_norm": 0.0064924247562885284,
      "learning_rate": 3.421988531978506e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 34420504,
      "step": 59325
    },
    {
      "epoch": 8.836759011021746,
      "grad_norm": 0.07392248511314392,
      "learning_rate": 3.421686487024782e-05,
      "loss": 0.204,
      "num_input_tokens_seen": 34423192,
      "step": 59330
    },
    {
      "epoch": 8.837503723562705,
      "grad_norm": 0.009962843731045723,
      "learning_rate": 3.4213844265001015e-05,
      "loss": 0.2053,
      "num_input_tokens_seen": 34425976,
      "step": 59335
    },
    {
      "epoch": 8.838248436103664,
      "grad_norm": 0.022149894386529922,
      "learning_rate": 3.421082350409568e-05,
      "loss": 0.2573,
      "num_input_tokens_seen": 34428920,
      "step": 59340
    },
    {
      "epoch": 8.838993148644622,
      "grad_norm": 12.218304634094238,
      "learning_rate": 3.420780258758284e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 34431992,
      "step": 59345
    },
    {
      "epoch": 8.839737861185583,
      "grad_norm": 0.2810622751712799,
      "learning_rate": 3.420478151551353e-05,
      "loss": 0.209,
      "num_input_tokens_seen": 34434840,
      "step": 59350
    },
    {
      "epoch": 8.840482573726542,
      "grad_norm": 25.197669982910156,
      "learning_rate": 3.42017602879388e-05,
      "loss": 0.2222,
      "num_input_tokens_seen": 34437912,
      "step": 59355
    },
    {
      "epoch": 8.8412272862675,
      "grad_norm": 0.002830074867233634,
      "learning_rate": 3.419873890490968e-05,
      "loss": 0.1538,
      "num_input_tokens_seen": 34440920,
      "step": 59360
    },
    {
      "epoch": 8.84197199880846,
      "grad_norm": 0.6157742142677307,
      "learning_rate": 3.4195717366477216e-05,
      "loss": 0.2706,
      "num_input_tokens_seen": 34443576,
      "step": 59365
    },
    {
      "epoch": 8.84271671134942,
      "grad_norm": 16.101926803588867,
      "learning_rate": 3.419269567269245e-05,
      "loss": 0.1807,
      "num_input_tokens_seen": 34446584,
      "step": 59370
    },
    {
      "epoch": 8.843461423890378,
      "grad_norm": 0.5533958673477173,
      "learning_rate": 3.418967382360643e-05,
      "loss": 0.0942,
      "num_input_tokens_seen": 34449400,
      "step": 59375
    },
    {
      "epoch": 8.844206136431337,
      "grad_norm": 17.525861740112305,
      "learning_rate": 3.4186651819270224e-05,
      "loss": 0.2226,
      "num_input_tokens_seen": 34452024,
      "step": 59380
    },
    {
      "epoch": 8.844950848972296,
      "grad_norm": 0.015102296136319637,
      "learning_rate": 3.4183629659734855e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 34454744,
      "step": 59385
    },
    {
      "epoch": 8.845695561513256,
      "grad_norm": 115.98839569091797,
      "learning_rate": 3.418060734505141e-05,
      "loss": 0.1362,
      "num_input_tokens_seen": 34457752,
      "step": 59390
    },
    {
      "epoch": 8.846440274054215,
      "grad_norm": 0.06356462836265564,
      "learning_rate": 3.417758487527093e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 34460920,
      "step": 59395
    },
    {
      "epoch": 8.847184986595174,
      "grad_norm": 0.28121232986450195,
      "learning_rate": 3.417456225044449e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 34464088,
      "step": 59400
    },
    {
      "epoch": 8.847929699136133,
      "grad_norm": 0.19647572934627533,
      "learning_rate": 3.417153947062313e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 34467224,
      "step": 59405
    },
    {
      "epoch": 8.848674411677093,
      "grad_norm": 0.04010281339287758,
      "learning_rate": 3.416851653585794e-05,
      "loss": 0.06,
      "num_input_tokens_seen": 34470040,
      "step": 59410
    },
    {
      "epoch": 8.849419124218052,
      "grad_norm": 0.16817869246006012,
      "learning_rate": 3.416549344619998e-05,
      "loss": 0.2059,
      "num_input_tokens_seen": 34472920,
      "step": 59415
    },
    {
      "epoch": 8.85016383675901,
      "grad_norm": 29.03812026977539,
      "learning_rate": 3.416247020170032e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 34475672,
      "step": 59420
    },
    {
      "epoch": 8.85090854929997,
      "grad_norm": 228.18458557128906,
      "learning_rate": 3.415944680241004e-05,
      "loss": 0.1184,
      "num_input_tokens_seen": 34478520,
      "step": 59425
    },
    {
      "epoch": 8.85165326184093,
      "grad_norm": 17.85008430480957,
      "learning_rate": 3.415642324838023e-05,
      "loss": 0.0265,
      "num_input_tokens_seen": 34481272,
      "step": 59430
    },
    {
      "epoch": 8.852397974381889,
      "grad_norm": 0.022790901362895966,
      "learning_rate": 3.415339953966194e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 34484184,
      "step": 59435
    },
    {
      "epoch": 8.853142686922848,
      "grad_norm": 0.011752872727811337,
      "learning_rate": 3.4150375676306276e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 34486840,
      "step": 59440
    },
    {
      "epoch": 8.853887399463806,
      "grad_norm": 0.04906609281897545,
      "learning_rate": 3.4147351658364304e-05,
      "loss": 0.3815,
      "num_input_tokens_seen": 34489656,
      "step": 59445
    },
    {
      "epoch": 8.854632112004767,
      "grad_norm": 0.013114841654896736,
      "learning_rate": 3.4144327485887126e-05,
      "loss": 0.2859,
      "num_input_tokens_seen": 34492504,
      "step": 59450
    },
    {
      "epoch": 8.855376824545726,
      "grad_norm": 0.013715406879782677,
      "learning_rate": 3.414130315892583e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 34495288,
      "step": 59455
    },
    {
      "epoch": 8.856121537086684,
      "grad_norm": 0.0068173278123140335,
      "learning_rate": 3.4138278677531515e-05,
      "loss": 0.273,
      "num_input_tokens_seen": 34498072,
      "step": 59460
    },
    {
      "epoch": 8.856866249627643,
      "grad_norm": 0.031570322811603546,
      "learning_rate": 3.413525404175527e-05,
      "loss": 0.0062,
      "num_input_tokens_seen": 34500952,
      "step": 59465
    },
    {
      "epoch": 8.857610962168604,
      "grad_norm": 54.08204650878906,
      "learning_rate": 3.413222925164818e-05,
      "loss": 0.2147,
      "num_input_tokens_seen": 34503864,
      "step": 59470
    },
    {
      "epoch": 8.858355674709562,
      "grad_norm": 0.047622814774513245,
      "learning_rate": 3.412920430726137e-05,
      "loss": 0.2133,
      "num_input_tokens_seen": 34506712,
      "step": 59475
    },
    {
      "epoch": 8.859100387250521,
      "grad_norm": 70.55177307128906,
      "learning_rate": 3.412617920864593e-05,
      "loss": 0.1567,
      "num_input_tokens_seen": 34509848,
      "step": 59480
    },
    {
      "epoch": 8.85984509979148,
      "grad_norm": 0.03216877579689026,
      "learning_rate": 3.412315395585296e-05,
      "loss": 0.0225,
      "num_input_tokens_seen": 34512920,
      "step": 59485
    },
    {
      "epoch": 8.86058981233244,
      "grad_norm": 0.011884947307407856,
      "learning_rate": 3.4120128548933575e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 34515704,
      "step": 59490
    },
    {
      "epoch": 8.8613345248734,
      "grad_norm": 11.862011909484863,
      "learning_rate": 3.4117102987938895e-05,
      "loss": 0.3414,
      "num_input_tokens_seen": 34518616,
      "step": 59495
    },
    {
      "epoch": 8.862079237414358,
      "grad_norm": 0.06324047595262527,
      "learning_rate": 3.411407727292003e-05,
      "loss": 0.0858,
      "num_input_tokens_seen": 34521720,
      "step": 59500
    },
    {
      "epoch": 8.862823949955317,
      "grad_norm": 0.5814533233642578,
      "learning_rate": 3.411105140392808e-05,
      "loss": 0.1612,
      "num_input_tokens_seen": 34524728,
      "step": 59505
    },
    {
      "epoch": 8.863568662496277,
      "grad_norm": 0.024763314053416252,
      "learning_rate": 3.4108025381014184e-05,
      "loss": 0.0185,
      "num_input_tokens_seen": 34527672,
      "step": 59510
    },
    {
      "epoch": 8.864313375037236,
      "grad_norm": 1.025210976600647,
      "learning_rate": 3.4104999204229466e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 34530232,
      "step": 59515
    },
    {
      "epoch": 8.865058087578195,
      "grad_norm": 0.011175761930644512,
      "learning_rate": 3.410197287362503e-05,
      "loss": 0.1263,
      "num_input_tokens_seen": 34533240,
      "step": 59520
    },
    {
      "epoch": 8.865802800119154,
      "grad_norm": 0.00849195383489132,
      "learning_rate": 3.409894638925201e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 34535864,
      "step": 59525
    },
    {
      "epoch": 8.866547512660112,
      "grad_norm": 0.043110888451337814,
      "learning_rate": 3.409591975116155e-05,
      "loss": 0.1088,
      "num_input_tokens_seen": 34538744,
      "step": 59530
    },
    {
      "epoch": 8.867292225201073,
      "grad_norm": 0.13758966326713562,
      "learning_rate": 3.409289295940476e-05,
      "loss": 0.0633,
      "num_input_tokens_seen": 34541912,
      "step": 59535
    },
    {
      "epoch": 8.868036937742032,
      "grad_norm": 0.027735622599720955,
      "learning_rate": 3.408986601403278e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 34545016,
      "step": 59540
    },
    {
      "epoch": 8.86878165028299,
      "grad_norm": 0.013921327888965607,
      "learning_rate": 3.4086838915096765e-05,
      "loss": 0.1553,
      "num_input_tokens_seen": 34547896,
      "step": 59545
    },
    {
      "epoch": 8.86952636282395,
      "grad_norm": 31.500324249267578,
      "learning_rate": 3.408381166264784e-05,
      "loss": 0.1047,
      "num_input_tokens_seen": 34550872,
      "step": 59550
    },
    {
      "epoch": 8.87027107536491,
      "grad_norm": 0.003934723325073719,
      "learning_rate": 3.408078425673714e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 34553656,
      "step": 59555
    },
    {
      "epoch": 8.871015787905868,
      "grad_norm": 0.058592211455106735,
      "learning_rate": 3.407775669741583e-05,
      "loss": 0.0638,
      "num_input_tokens_seen": 34556600,
      "step": 59560
    },
    {
      "epoch": 8.871760500446827,
      "grad_norm": 1.911956548690796,
      "learning_rate": 3.4074728984735043e-05,
      "loss": 0.0077,
      "num_input_tokens_seen": 34559544,
      "step": 59565
    },
    {
      "epoch": 8.872505212987786,
      "grad_norm": 0.003693699138239026,
      "learning_rate": 3.407170111874593e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 34562648,
      "step": 59570
    },
    {
      "epoch": 8.873249925528746,
      "grad_norm": 0.010309601202607155,
      "learning_rate": 3.4068673099499646e-05,
      "loss": 0.1266,
      "num_input_tokens_seen": 34565560,
      "step": 59575
    },
    {
      "epoch": 8.873994638069705,
      "grad_norm": 2.066732406616211,
      "learning_rate": 3.4065644927047354e-05,
      "loss": 0.1571,
      "num_input_tokens_seen": 34568536,
      "step": 59580
    },
    {
      "epoch": 8.874739350610664,
      "grad_norm": 1.6109981536865234,
      "learning_rate": 3.40626166014402e-05,
      "loss": 0.0547,
      "num_input_tokens_seen": 34571576,
      "step": 59585
    },
    {
      "epoch": 8.875484063151623,
      "grad_norm": 0.004282896872609854,
      "learning_rate": 3.4059588122729344e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 34574200,
      "step": 59590
    },
    {
      "epoch": 8.876228775692583,
      "grad_norm": 0.008387415669858456,
      "learning_rate": 3.405655949096597e-05,
      "loss": 0.1519,
      "num_input_tokens_seen": 34577016,
      "step": 59595
    },
    {
      "epoch": 8.876973488233542,
      "grad_norm": 0.02749430201947689,
      "learning_rate": 3.405353070620122e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 34580792,
      "step": 59600
    },
    {
      "epoch": 8.8777182007745,
      "grad_norm": 0.0059251440688967705,
      "learning_rate": 3.4050501768486266e-05,
      "loss": 0.1902,
      "num_input_tokens_seen": 34583640,
      "step": 59605
    },
    {
      "epoch": 8.87846291331546,
      "grad_norm": 2.1967220306396484,
      "learning_rate": 3.404747267787228e-05,
      "loss": 0.1164,
      "num_input_tokens_seen": 34586616,
      "step": 59610
    },
    {
      "epoch": 8.87920762585642,
      "grad_norm": 0.7021262645721436,
      "learning_rate": 3.404444343441045e-05,
      "loss": 0.3551,
      "num_input_tokens_seen": 34589432,
      "step": 59615
    },
    {
      "epoch": 8.879952338397379,
      "grad_norm": 12.800687789916992,
      "learning_rate": 3.404141403815193e-05,
      "loss": 0.2788,
      "num_input_tokens_seen": 34592568,
      "step": 59620
    },
    {
      "epoch": 8.880697050938338,
      "grad_norm": 0.016136689111590385,
      "learning_rate": 3.4038384489147926e-05,
      "loss": 0.3572,
      "num_input_tokens_seen": 34595416,
      "step": 59625
    },
    {
      "epoch": 8.881441763479296,
      "grad_norm": 62.9937744140625,
      "learning_rate": 3.4035354787449584e-05,
      "loss": 0.2976,
      "num_input_tokens_seen": 34598040,
      "step": 59630
    },
    {
      "epoch": 8.882186476020257,
      "grad_norm": 0.02450818009674549,
      "learning_rate": 3.403232493310811e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 34600856,
      "step": 59635
    },
    {
      "epoch": 8.882931188561216,
      "grad_norm": 28.24488067626953,
      "learning_rate": 3.402929492617469e-05,
      "loss": 0.0864,
      "num_input_tokens_seen": 34603928,
      "step": 59640
    },
    {
      "epoch": 8.883675901102174,
      "grad_norm": 4.1085004806518555,
      "learning_rate": 3.402626476670051e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 34606712,
      "step": 59645
    },
    {
      "epoch": 8.884420613643133,
      "grad_norm": 0.07916708290576935,
      "learning_rate": 3.4023234454736756e-05,
      "loss": 0.2293,
      "num_input_tokens_seen": 34609528,
      "step": 59650
    },
    {
      "epoch": 8.885165326184094,
      "grad_norm": 0.013088611885905266,
      "learning_rate": 3.402020399033463e-05,
      "loss": 0.0444,
      "num_input_tokens_seen": 34612408,
      "step": 59655
    },
    {
      "epoch": 8.885910038725052,
      "grad_norm": 15.882055282592773,
      "learning_rate": 3.401717337354533e-05,
      "loss": 0.1139,
      "num_input_tokens_seen": 34615064,
      "step": 59660
    },
    {
      "epoch": 8.886654751266011,
      "grad_norm": 2.4108378887176514,
      "learning_rate": 3.401414260442004e-05,
      "loss": 0.153,
      "num_input_tokens_seen": 34618040,
      "step": 59665
    },
    {
      "epoch": 8.88739946380697,
      "grad_norm": 0.01876605488359928,
      "learning_rate": 3.401111168300998e-05,
      "loss": 0.2414,
      "num_input_tokens_seen": 34620920,
      "step": 59670
    },
    {
      "epoch": 8.88814417634793,
      "grad_norm": 0.7562884092330933,
      "learning_rate": 3.400808060936635e-05,
      "loss": 0.3481,
      "num_input_tokens_seen": 34623640,
      "step": 59675
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 0.05535312369465828,
      "learning_rate": 3.4005049383540345e-05,
      "loss": 0.1273,
      "num_input_tokens_seen": 34626520,
      "step": 59680
    },
    {
      "epoch": 8.889633601429848,
      "grad_norm": 0.02449621632695198,
      "learning_rate": 3.400201800558318e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 34629688,
      "step": 59685
    },
    {
      "epoch": 8.890378313970807,
      "grad_norm": 0.05774741992354393,
      "learning_rate": 3.399898647554608e-05,
      "loss": 0.0716,
      "num_input_tokens_seen": 34632152,
      "step": 59690
    },
    {
      "epoch": 8.891123026511767,
      "grad_norm": 0.07224653661251068,
      "learning_rate": 3.399595479348024e-05,
      "loss": 0.3516,
      "num_input_tokens_seen": 34635256,
      "step": 59695
    },
    {
      "epoch": 8.891867739052726,
      "grad_norm": 0.25228941440582275,
      "learning_rate": 3.3992922959436894e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 34638072,
      "step": 59700
    },
    {
      "epoch": 8.892612451593685,
      "grad_norm": 0.01649937592446804,
      "learning_rate": 3.3989890973467255e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 34641016,
      "step": 59705
    },
    {
      "epoch": 8.893357164134644,
      "grad_norm": 3.669220209121704,
      "learning_rate": 3.3986858835622536e-05,
      "loss": 0.1377,
      "num_input_tokens_seen": 34644088,
      "step": 59710
    },
    {
      "epoch": 8.894101876675602,
      "grad_norm": 72.8428955078125,
      "learning_rate": 3.398382654595398e-05,
      "loss": 0.0643,
      "num_input_tokens_seen": 34646904,
      "step": 59715
    },
    {
      "epoch": 8.894846589216563,
      "grad_norm": 0.02175353653728962,
      "learning_rate": 3.39807941045128e-05,
      "loss": 0.1571,
      "num_input_tokens_seen": 34649720,
      "step": 59720
    },
    {
      "epoch": 8.895591301757522,
      "grad_norm": 0.01229142490774393,
      "learning_rate": 3.397776151135024e-05,
      "loss": 0.0231,
      "num_input_tokens_seen": 34652536,
      "step": 59725
    },
    {
      "epoch": 8.89633601429848,
      "grad_norm": 0.005822520703077316,
      "learning_rate": 3.397472876651752e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 34655640,
      "step": 59730
    },
    {
      "epoch": 8.89708072683944,
      "grad_norm": 0.8549871444702148,
      "learning_rate": 3.397169587006588e-05,
      "loss": 0.1015,
      "num_input_tokens_seen": 34658328,
      "step": 59735
    },
    {
      "epoch": 8.8978254393804,
      "grad_norm": 58.88252258300781,
      "learning_rate": 3.396866282204655e-05,
      "loss": 0.1509,
      "num_input_tokens_seen": 34660984,
      "step": 59740
    },
    {
      "epoch": 8.898570151921358,
      "grad_norm": 27.716005325317383,
      "learning_rate": 3.3965629622510776e-05,
      "loss": 0.2086,
      "num_input_tokens_seen": 34663832,
      "step": 59745
    },
    {
      "epoch": 8.899314864462317,
      "grad_norm": 0.028387922793626785,
      "learning_rate": 3.3962596271509806e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 34666744,
      "step": 59750
    },
    {
      "epoch": 8.900059577003276,
      "grad_norm": 0.012154286727309227,
      "learning_rate": 3.395956276909488e-05,
      "loss": 0.1713,
      "num_input_tokens_seen": 34669848,
      "step": 59755
    },
    {
      "epoch": 8.900804289544237,
      "grad_norm": 0.006056514568626881,
      "learning_rate": 3.395652911531725e-05,
      "loss": 0.1841,
      "num_input_tokens_seen": 34672696,
      "step": 59760
    },
    {
      "epoch": 8.901549002085195,
      "grad_norm": 0.014347773976624012,
      "learning_rate": 3.395349531022817e-05,
      "loss": 0.0976,
      "num_input_tokens_seen": 34676856,
      "step": 59765
    },
    {
      "epoch": 8.902293714626154,
      "grad_norm": 82.02076721191406,
      "learning_rate": 3.395046135387888e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 34679800,
      "step": 59770
    },
    {
      "epoch": 8.903038427167113,
      "grad_norm": 0.2614765763282776,
      "learning_rate": 3.394742724632064e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 34682776,
      "step": 59775
    },
    {
      "epoch": 8.903783139708073,
      "grad_norm": 0.06968490034341812,
      "learning_rate": 3.3944392987604703e-05,
      "loss": 0.0254,
      "num_input_tokens_seen": 34685784,
      "step": 59780
    },
    {
      "epoch": 8.904527852249032,
      "grad_norm": 0.03481859341263771,
      "learning_rate": 3.394135857778235e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 34688760,
      "step": 59785
    },
    {
      "epoch": 8.90527256478999,
      "grad_norm": 0.009412465617060661,
      "learning_rate": 3.3938324016904825e-05,
      "loss": 0.428,
      "num_input_tokens_seen": 34691800,
      "step": 59790
    },
    {
      "epoch": 8.90601727733095,
      "grad_norm": 0.032342035323381424,
      "learning_rate": 3.3935289305023405e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 34694584,
      "step": 59795
    },
    {
      "epoch": 8.90676198987191,
      "grad_norm": 4.369234085083008,
      "learning_rate": 3.393225444218936e-05,
      "loss": 0.282,
      "num_input_tokens_seen": 34697496,
      "step": 59800
    },
    {
      "epoch": 8.907506702412869,
      "grad_norm": 3.0126287937164307,
      "learning_rate": 3.392921942845394e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 34700376,
      "step": 59805
    },
    {
      "epoch": 8.908251414953828,
      "grad_norm": 3.6158499717712402,
      "learning_rate": 3.392618426386843e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 34703224,
      "step": 59810
    },
    {
      "epoch": 8.908996127494786,
      "grad_norm": 0.006298343185335398,
      "learning_rate": 3.3923148948484115e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 34706456,
      "step": 59815
    },
    {
      "epoch": 8.909740840035747,
      "grad_norm": 0.022719837725162506,
      "learning_rate": 3.392011348235228e-05,
      "loss": 0.2572,
      "num_input_tokens_seen": 34709176,
      "step": 59820
    },
    {
      "epoch": 8.910485552576706,
      "grad_norm": 63.29704666137695,
      "learning_rate": 3.391707786552418e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 34711800,
      "step": 59825
    },
    {
      "epoch": 8.911230265117664,
      "grad_norm": 25.798948287963867,
      "learning_rate": 3.391404209805112e-05,
      "loss": 0.3364,
      "num_input_tokens_seen": 34715128,
      "step": 59830
    },
    {
      "epoch": 8.911974977658623,
      "grad_norm": 47.543190002441406,
      "learning_rate": 3.3911006179984375e-05,
      "loss": 0.2082,
      "num_input_tokens_seen": 34717976,
      "step": 59835
    },
    {
      "epoch": 8.912719690199584,
      "grad_norm": 39.41392135620117,
      "learning_rate": 3.3907970111375237e-05,
      "loss": 0.3585,
      "num_input_tokens_seen": 34720760,
      "step": 59840
    },
    {
      "epoch": 8.913464402740543,
      "grad_norm": 16.663803100585938,
      "learning_rate": 3.3904933892275e-05,
      "loss": 0.3924,
      "num_input_tokens_seen": 34723608,
      "step": 59845
    },
    {
      "epoch": 8.914209115281501,
      "grad_norm": 38.5792236328125,
      "learning_rate": 3.390189752273495e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 34726648,
      "step": 59850
    },
    {
      "epoch": 8.91495382782246,
      "grad_norm": 0.008966716006398201,
      "learning_rate": 3.389886100280639e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 34729880,
      "step": 59855
    },
    {
      "epoch": 8.915698540363419,
      "grad_norm": 96.5741958618164,
      "learning_rate": 3.389582433254062e-05,
      "loss": 0.1806,
      "num_input_tokens_seen": 34732856,
      "step": 59860
    },
    {
      "epoch": 8.91644325290438,
      "grad_norm": 0.197014719247818,
      "learning_rate": 3.3892787511988936e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 34735608,
      "step": 59865
    },
    {
      "epoch": 8.917187965445338,
      "grad_norm": 0.071720652282238,
      "learning_rate": 3.3889750541202654e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 34738616,
      "step": 59870
    },
    {
      "epoch": 8.917932677986297,
      "grad_norm": 0.02930176630616188,
      "learning_rate": 3.388671342023306e-05,
      "loss": 0.027,
      "num_input_tokens_seen": 34741464,
      "step": 59875
    },
    {
      "epoch": 8.918677390527257,
      "grad_norm": 0.026243887841701508,
      "learning_rate": 3.388367614913149e-05,
      "loss": 0.1334,
      "num_input_tokens_seen": 34744248,
      "step": 59880
    },
    {
      "epoch": 8.919422103068216,
      "grad_norm": 0.011162010952830315,
      "learning_rate": 3.388063872794923e-05,
      "loss": 0.3201,
      "num_input_tokens_seen": 34746936,
      "step": 59885
    },
    {
      "epoch": 8.920166815609175,
      "grad_norm": 4.273186206817627,
      "learning_rate": 3.3877601156737604e-05,
      "loss": 0.0672,
      "num_input_tokens_seen": 34749880,
      "step": 59890
    },
    {
      "epoch": 8.920911528150134,
      "grad_norm": 21.117996215820312,
      "learning_rate": 3.3874563435547934e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 34752888,
      "step": 59895
    },
    {
      "epoch": 8.921656240691092,
      "grad_norm": 204.5068817138672,
      "learning_rate": 3.387152556443153e-05,
      "loss": 0.5561,
      "num_input_tokens_seen": 34755672,
      "step": 59900
    },
    {
      "epoch": 8.922400953232053,
      "grad_norm": 0.011564685963094234,
      "learning_rate": 3.386848754343972e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 34758488,
      "step": 59905
    },
    {
      "epoch": 8.923145665773012,
      "grad_norm": 0.10429652035236359,
      "learning_rate": 3.386544937262382e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 34761176,
      "step": 59910
    },
    {
      "epoch": 8.92389037831397,
      "grad_norm": 14.290475845336914,
      "learning_rate": 3.386241105203517e-05,
      "loss": 0.1817,
      "num_input_tokens_seen": 34763864,
      "step": 59915
    },
    {
      "epoch": 8.92463509085493,
      "grad_norm": 23.03220558166504,
      "learning_rate": 3.38593725817251e-05,
      "loss": 0.141,
      "num_input_tokens_seen": 34767288,
      "step": 59920
    },
    {
      "epoch": 8.92537980339589,
      "grad_norm": 0.891473114490509,
      "learning_rate": 3.385633396174492e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 34770104,
      "step": 59925
    },
    {
      "epoch": 8.926124515936849,
      "grad_norm": 1.4059224128723145,
      "learning_rate": 3.385329519214599e-05,
      "loss": 0.2805,
      "num_input_tokens_seen": 34772632,
      "step": 59930
    },
    {
      "epoch": 8.926869228477807,
      "grad_norm": 26.76786231994629,
      "learning_rate": 3.385025627297963e-05,
      "loss": 0.1276,
      "num_input_tokens_seen": 34775512,
      "step": 59935
    },
    {
      "epoch": 8.927613941018766,
      "grad_norm": 0.9743926525115967,
      "learning_rate": 3.384721720429718e-05,
      "loss": 0.1155,
      "num_input_tokens_seen": 34778456,
      "step": 59940
    },
    {
      "epoch": 8.928358653559727,
      "grad_norm": 0.015709834173321724,
      "learning_rate": 3.384417798614999e-05,
      "loss": 0.3844,
      "num_input_tokens_seen": 34781528,
      "step": 59945
    },
    {
      "epoch": 8.929103366100685,
      "grad_norm": 0.0390067882835865,
      "learning_rate": 3.3841138618589416e-05,
      "loss": 0.2328,
      "num_input_tokens_seen": 34784312,
      "step": 59950
    },
    {
      "epoch": 8.929848078641644,
      "grad_norm": 0.06446703523397446,
      "learning_rate": 3.383809910166678e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 34787096,
      "step": 59955
    },
    {
      "epoch": 8.930592791182603,
      "grad_norm": 0.19430169463157654,
      "learning_rate": 3.383505943543344e-05,
      "loss": 0.0186,
      "num_input_tokens_seen": 34789784,
      "step": 59960
    },
    {
      "epoch": 8.931337503723563,
      "grad_norm": 0.018256140872836113,
      "learning_rate": 3.383201961994076e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 34792760,
      "step": 59965
    },
    {
      "epoch": 8.932082216264522,
      "grad_norm": 0.07128147780895233,
      "learning_rate": 3.382897965524007e-05,
      "loss": 0.2236,
      "num_input_tokens_seen": 34795480,
      "step": 59970
    },
    {
      "epoch": 8.932826928805481,
      "grad_norm": 0.21766319870948792,
      "learning_rate": 3.382593954138276e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 34798488,
      "step": 59975
    },
    {
      "epoch": 8.93357164134644,
      "grad_norm": 30.687070846557617,
      "learning_rate": 3.382289927842015e-05,
      "loss": 0.0472,
      "num_input_tokens_seen": 34801336,
      "step": 59980
    },
    {
      "epoch": 8.9343163538874,
      "grad_norm": 10.202592849731445,
      "learning_rate": 3.381985886640364e-05,
      "loss": 0.2405,
      "num_input_tokens_seen": 34804344,
      "step": 59985
    },
    {
      "epoch": 8.935061066428359,
      "grad_norm": 0.02490963786840439,
      "learning_rate": 3.381681830538458e-05,
      "loss": 0.0462,
      "num_input_tokens_seen": 34807256,
      "step": 59990
    },
    {
      "epoch": 8.935805778969318,
      "grad_norm": 0.005533755756914616,
      "learning_rate": 3.3813777595414324e-05,
      "loss": 0.2571,
      "num_input_tokens_seen": 34810104,
      "step": 59995
    },
    {
      "epoch": 8.936550491510276,
      "grad_norm": 64.54816436767578,
      "learning_rate": 3.3810736736544265e-05,
      "loss": 0.3357,
      "num_input_tokens_seen": 34812984,
      "step": 60000
    },
    {
      "epoch": 8.937295204051237,
      "grad_norm": 0.13410219550132751,
      "learning_rate": 3.380769572882576e-05,
      "loss": 0.0169,
      "num_input_tokens_seen": 34816184,
      "step": 60005
    },
    {
      "epoch": 8.938039916592196,
      "grad_norm": 0.012599986977875233,
      "learning_rate": 3.380465457231018e-05,
      "loss": 0.3175,
      "num_input_tokens_seen": 34818968,
      "step": 60010
    },
    {
      "epoch": 8.938784629133155,
      "grad_norm": 0.05203588306903839,
      "learning_rate": 3.3801613267048916e-05,
      "loss": 0.02,
      "num_input_tokens_seen": 34821720,
      "step": 60015
    },
    {
      "epoch": 8.939529341674113,
      "grad_norm": 0.06836949288845062,
      "learning_rate": 3.379857181309334e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 34824664,
      "step": 60020
    },
    {
      "epoch": 8.940274054215074,
      "grad_norm": 14.178133964538574,
      "learning_rate": 3.379553021049484e-05,
      "loss": 0.0362,
      "num_input_tokens_seen": 34827640,
      "step": 60025
    },
    {
      "epoch": 8.941018766756033,
      "grad_norm": 25.936426162719727,
      "learning_rate": 3.379248845930479e-05,
      "loss": 0.1978,
      "num_input_tokens_seen": 34830360,
      "step": 60030
    },
    {
      "epoch": 8.941763479296991,
      "grad_norm": 0.011328313499689102,
      "learning_rate": 3.378944655957458e-05,
      "loss": 0.0225,
      "num_input_tokens_seen": 34833400,
      "step": 60035
    },
    {
      "epoch": 8.94250819183795,
      "grad_norm": 3.925053119659424,
      "learning_rate": 3.3786404511355616e-05,
      "loss": 0.5564,
      "num_input_tokens_seen": 34836184,
      "step": 60040
    },
    {
      "epoch": 8.943252904378909,
      "grad_norm": 4.992956161499023,
      "learning_rate": 3.378336231469927e-05,
      "loss": 0.2899,
      "num_input_tokens_seen": 34839352,
      "step": 60045
    },
    {
      "epoch": 8.94399761691987,
      "grad_norm": 0.031953245401382446,
      "learning_rate": 3.378031996965695e-05,
      "loss": 0.1593,
      "num_input_tokens_seen": 34842232,
      "step": 60050
    },
    {
      "epoch": 8.944742329460828,
      "grad_norm": 0.04613202065229416,
      "learning_rate": 3.3777277476280036e-05,
      "loss": 0.1797,
      "num_input_tokens_seen": 34845368,
      "step": 60055
    },
    {
      "epoch": 8.945487042001787,
      "grad_norm": 0.013960410840809345,
      "learning_rate": 3.3774234834619956e-05,
      "loss": 0.027,
      "num_input_tokens_seen": 34848248,
      "step": 60060
    },
    {
      "epoch": 8.946231754542747,
      "grad_norm": 0.22578977048397064,
      "learning_rate": 3.377119204472809e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 34851128,
      "step": 60065
    },
    {
      "epoch": 8.946976467083706,
      "grad_norm": 0.040426407009363174,
      "learning_rate": 3.376814910665584e-05,
      "loss": 0.0605,
      "num_input_tokens_seen": 34853976,
      "step": 60070
    },
    {
      "epoch": 8.947721179624665,
      "grad_norm": 0.03484281152486801,
      "learning_rate": 3.3765106020454636e-05,
      "loss": 0.0382,
      "num_input_tokens_seen": 34856760,
      "step": 60075
    },
    {
      "epoch": 8.948465892165624,
      "grad_norm": 0.01682302914559841,
      "learning_rate": 3.376206278617587e-05,
      "loss": 0.0106,
      "num_input_tokens_seen": 34859256,
      "step": 60080
    },
    {
      "epoch": 8.949210604706582,
      "grad_norm": 0.11903561651706696,
      "learning_rate": 3.375901940387096e-05,
      "loss": 0.1882,
      "num_input_tokens_seen": 34862232,
      "step": 60085
    },
    {
      "epoch": 8.949955317247543,
      "grad_norm": 31.317182540893555,
      "learning_rate": 3.375597587359131e-05,
      "loss": 0.1218,
      "num_input_tokens_seen": 34865144,
      "step": 60090
    },
    {
      "epoch": 8.950700029788502,
      "grad_norm": 9.357063293457031,
      "learning_rate": 3.375293219538836e-05,
      "loss": 0.4678,
      "num_input_tokens_seen": 34868280,
      "step": 60095
    },
    {
      "epoch": 8.95144474232946,
      "grad_norm": 7.6906633377075195,
      "learning_rate": 3.374988836931351e-05,
      "loss": 0.0971,
      "num_input_tokens_seen": 34871288,
      "step": 60100
    },
    {
      "epoch": 8.95218945487042,
      "grad_norm": 0.8291269540786743,
      "learning_rate": 3.374684439541819e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 34874520,
      "step": 60105
    },
    {
      "epoch": 8.95293416741138,
      "grad_norm": 0.02406425215303898,
      "learning_rate": 3.374380027375382e-05,
      "loss": 0.2162,
      "num_input_tokens_seen": 34877304,
      "step": 60110
    },
    {
      "epoch": 8.953678879952339,
      "grad_norm": 21.127490997314453,
      "learning_rate": 3.374075600437183e-05,
      "loss": 0.103,
      "num_input_tokens_seen": 34880440,
      "step": 60115
    },
    {
      "epoch": 8.954423592493297,
      "grad_norm": 0.028131509199738503,
      "learning_rate": 3.373771158732366e-05,
      "loss": 0.0998,
      "num_input_tokens_seen": 34883384,
      "step": 60120
    },
    {
      "epoch": 8.955168305034256,
      "grad_norm": 0.033320918679237366,
      "learning_rate": 3.3734667022660724e-05,
      "loss": 0.2707,
      "num_input_tokens_seen": 34886200,
      "step": 60125
    },
    {
      "epoch": 8.955913017575217,
      "grad_norm": 0.5701702237129211,
      "learning_rate": 3.373162231043447e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 34889240,
      "step": 60130
    },
    {
      "epoch": 8.956657730116175,
      "grad_norm": 0.09819912165403366,
      "learning_rate": 3.3728577450696336e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 34892088,
      "step": 60135
    },
    {
      "epoch": 8.957402442657134,
      "grad_norm": 0.007325940765440464,
      "learning_rate": 3.372553244349775e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 34895192,
      "step": 60140
    },
    {
      "epoch": 8.958147155198093,
      "grad_norm": 0.0373796783387661,
      "learning_rate": 3.372248728889017e-05,
      "loss": 0.0178,
      "num_input_tokens_seen": 34898520,
      "step": 60145
    },
    {
      "epoch": 8.958891867739053,
      "grad_norm": 0.0844278335571289,
      "learning_rate": 3.371944198692502e-05,
      "loss": 0.1068,
      "num_input_tokens_seen": 34901528,
      "step": 60150
    },
    {
      "epoch": 8.959636580280012,
      "grad_norm": 54.26935958862305,
      "learning_rate": 3.3716396537653774e-05,
      "loss": 0.4889,
      "num_input_tokens_seen": 34904568,
      "step": 60155
    },
    {
      "epoch": 8.960381292820971,
      "grad_norm": 0.358083039522171,
      "learning_rate": 3.371335094112786e-05,
      "loss": 0.0924,
      "num_input_tokens_seen": 34907928,
      "step": 60160
    },
    {
      "epoch": 8.96112600536193,
      "grad_norm": 23.073822021484375,
      "learning_rate": 3.371030519739874e-05,
      "loss": 0.2098,
      "num_input_tokens_seen": 34910744,
      "step": 60165
    },
    {
      "epoch": 8.96187071790289,
      "grad_norm": 20.750638961791992,
      "learning_rate": 3.370725930651786e-05,
      "loss": 0.0714,
      "num_input_tokens_seen": 34913752,
      "step": 60170
    },
    {
      "epoch": 8.962615430443849,
      "grad_norm": 25.451587677001953,
      "learning_rate": 3.370421326853669e-05,
      "loss": 0.0559,
      "num_input_tokens_seen": 34916600,
      "step": 60175
    },
    {
      "epoch": 8.963360142984808,
      "grad_norm": 0.031291015446186066,
      "learning_rate": 3.370116708350668e-05,
      "loss": 0.1633,
      "num_input_tokens_seen": 34919768,
      "step": 60180
    },
    {
      "epoch": 8.964104855525767,
      "grad_norm": 0.009108299389481544,
      "learning_rate": 3.369812075147929e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 34922584,
      "step": 60185
    },
    {
      "epoch": 8.964849568066727,
      "grad_norm": 11.626924514770508,
      "learning_rate": 3.369507427250601e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 34925592,
      "step": 60190
    },
    {
      "epoch": 8.965594280607686,
      "grad_norm": 18.3254337310791,
      "learning_rate": 3.369202764663827e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 34928696,
      "step": 60195
    },
    {
      "epoch": 8.966338993148645,
      "grad_norm": 0.3245752453804016,
      "learning_rate": 3.368898087392756e-05,
      "loss": 0.2972,
      "num_input_tokens_seen": 34931640,
      "step": 60200
    },
    {
      "epoch": 8.967083705689603,
      "grad_norm": 61.876121520996094,
      "learning_rate": 3.3685933954425353e-05,
      "loss": 0.3193,
      "num_input_tokens_seen": 34934776,
      "step": 60205
    },
    {
      "epoch": 8.967828418230564,
      "grad_norm": 0.08061164617538452,
      "learning_rate": 3.368288688818312e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 34937688,
      "step": 60210
    },
    {
      "epoch": 8.968573130771523,
      "grad_norm": 0.12278831005096436,
      "learning_rate": 3.367983967525234e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 34940568,
      "step": 60215
    },
    {
      "epoch": 8.969317843312481,
      "grad_norm": 14.561105728149414,
      "learning_rate": 3.367679231568448e-05,
      "loss": 0.2171,
      "num_input_tokens_seen": 34943320,
      "step": 60220
    },
    {
      "epoch": 8.97006255585344,
      "grad_norm": 0.03062262386083603,
      "learning_rate": 3.367374480953104e-05,
      "loss": 0.3001,
      "num_input_tokens_seen": 34946008,
      "step": 60225
    },
    {
      "epoch": 8.970807268394399,
      "grad_norm": 0.007867387495934963,
      "learning_rate": 3.367069715684349e-05,
      "loss": 0.1731,
      "num_input_tokens_seen": 34948920,
      "step": 60230
    },
    {
      "epoch": 8.97155198093536,
      "grad_norm": 0.037922054529190063,
      "learning_rate": 3.366764935767333e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 34951576,
      "step": 60235
    },
    {
      "epoch": 8.972296693476318,
      "grad_norm": 0.005738348700106144,
      "learning_rate": 3.366460141207205e-05,
      "loss": 0.0781,
      "num_input_tokens_seen": 34954328,
      "step": 60240
    },
    {
      "epoch": 8.973041406017277,
      "grad_norm": 22.370933532714844,
      "learning_rate": 3.366155332009113e-05,
      "loss": 0.1361,
      "num_input_tokens_seen": 34957240,
      "step": 60245
    },
    {
      "epoch": 8.973786118558236,
      "grad_norm": 0.014490917325019836,
      "learning_rate": 3.3658505081782064e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 34960024,
      "step": 60250
    },
    {
      "epoch": 8.974530831099196,
      "grad_norm": 62.27800369262695,
      "learning_rate": 3.3655456697196366e-05,
      "loss": 0.2507,
      "num_input_tokens_seen": 34962680,
      "step": 60255
    },
    {
      "epoch": 8.975275543640155,
      "grad_norm": 0.09811889380216599,
      "learning_rate": 3.365240816638552e-05,
      "loss": 0.0333,
      "num_input_tokens_seen": 34965336,
      "step": 60260
    },
    {
      "epoch": 8.976020256181114,
      "grad_norm": 0.005271934438496828,
      "learning_rate": 3.3649359489401025e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 34968472,
      "step": 60265
    },
    {
      "epoch": 8.976764968722073,
      "grad_norm": 0.07239601016044617,
      "learning_rate": 3.3646310666294396e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 34971704,
      "step": 60270
    },
    {
      "epoch": 8.977509681263033,
      "grad_norm": 110.13846588134766,
      "learning_rate": 3.364326169711713e-05,
      "loss": 0.2074,
      "num_input_tokens_seen": 34974584,
      "step": 60275
    },
    {
      "epoch": 8.978254393803992,
      "grad_norm": 57.57845687866211,
      "learning_rate": 3.364021258192075e-05,
      "loss": 0.2216,
      "num_input_tokens_seen": 34977560,
      "step": 60280
    },
    {
      "epoch": 8.97899910634495,
      "grad_norm": 0.04089684039354324,
      "learning_rate": 3.363716332075676e-05,
      "loss": 0.2464,
      "num_input_tokens_seen": 34980696,
      "step": 60285
    },
    {
      "epoch": 8.97974381888591,
      "grad_norm": 0.011799060739576817,
      "learning_rate": 3.363411391367668e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 34983832,
      "step": 60290
    },
    {
      "epoch": 8.98048853142687,
      "grad_norm": 0.18701504170894623,
      "learning_rate": 3.363106436073202e-05,
      "loss": 0.1236,
      "num_input_tokens_seen": 34986456,
      "step": 60295
    },
    {
      "epoch": 8.981233243967829,
      "grad_norm": 0.03373616933822632,
      "learning_rate": 3.362801466197429e-05,
      "loss": 0.2577,
      "num_input_tokens_seen": 34989432,
      "step": 60300
    },
    {
      "epoch": 8.981977956508787,
      "grad_norm": 0.3021621108055115,
      "learning_rate": 3.362496481745502e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 34992216,
      "step": 60305
    },
    {
      "epoch": 8.982722669049746,
      "grad_norm": 0.04754900187253952,
      "learning_rate": 3.362191482722574e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 34994904,
      "step": 60310
    },
    {
      "epoch": 8.983467381590707,
      "grad_norm": 91.41944122314453,
      "learning_rate": 3.361886469133798e-05,
      "loss": 0.155,
      "num_input_tokens_seen": 34997720,
      "step": 60315
    },
    {
      "epoch": 8.984212094131665,
      "grad_norm": 0.043109774589538574,
      "learning_rate": 3.361581440984325e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 35000440,
      "step": 60320
    },
    {
      "epoch": 8.984956806672624,
      "grad_norm": 0.1498633623123169,
      "learning_rate": 3.3612763982793094e-05,
      "loss": 0.1206,
      "num_input_tokens_seen": 35003224,
      "step": 60325
    },
    {
      "epoch": 8.985701519213583,
      "grad_norm": 0.009013605304062366,
      "learning_rate": 3.360971341023905e-05,
      "loss": 0.1522,
      "num_input_tokens_seen": 35006040,
      "step": 60330
    },
    {
      "epoch": 8.986446231754543,
      "grad_norm": 0.016179926693439484,
      "learning_rate": 3.360666269223264e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 35008792,
      "step": 60335
    },
    {
      "epoch": 8.987190944295502,
      "grad_norm": 0.31754985451698303,
      "learning_rate": 3.360361182882542e-05,
      "loss": 0.1825,
      "num_input_tokens_seen": 35012024,
      "step": 60340
    },
    {
      "epoch": 8.987935656836461,
      "grad_norm": 0.10754550248384476,
      "learning_rate": 3.3600560820068916e-05,
      "loss": 0.1233,
      "num_input_tokens_seen": 35015096,
      "step": 60345
    },
    {
      "epoch": 8.98868036937742,
      "grad_norm": 0.5084128379821777,
      "learning_rate": 3.3597509666014684e-05,
      "loss": 0.3628,
      "num_input_tokens_seen": 35017944,
      "step": 60350
    },
    {
      "epoch": 8.98942508191838,
      "grad_norm": 7.881695747375488,
      "learning_rate": 3.359445836671426e-05,
      "loss": 0.3286,
      "num_input_tokens_seen": 35021176,
      "step": 60355
    },
    {
      "epoch": 8.990169794459339,
      "grad_norm": 0.18076133728027344,
      "learning_rate": 3.359140692221919e-05,
      "loss": 0.3566,
      "num_input_tokens_seen": 35023992,
      "step": 60360
    },
    {
      "epoch": 8.990914507000298,
      "grad_norm": 7.528207302093506,
      "learning_rate": 3.3588355332581045e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 35026520,
      "step": 60365
    },
    {
      "epoch": 8.991659219541257,
      "grad_norm": 23.137136459350586,
      "learning_rate": 3.358530359785136e-05,
      "loss": 0.1695,
      "num_input_tokens_seen": 35029624,
      "step": 60370
    },
    {
      "epoch": 8.992403932082215,
      "grad_norm": 0.216791033744812,
      "learning_rate": 3.35822517180817e-05,
      "loss": 0.03,
      "num_input_tokens_seen": 35032248,
      "step": 60375
    },
    {
      "epoch": 8.993148644623176,
      "grad_norm": 52.2769889831543,
      "learning_rate": 3.357919969332361e-05,
      "loss": 0.2955,
      "num_input_tokens_seen": 35035192,
      "step": 60380
    },
    {
      "epoch": 8.993893357164135,
      "grad_norm": 5.328210353851318,
      "learning_rate": 3.357614752362867e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 35037912,
      "step": 60385
    },
    {
      "epoch": 8.994638069705093,
      "grad_norm": 3.247385263442993,
      "learning_rate": 3.3573095209048435e-05,
      "loss": 0.5327,
      "num_input_tokens_seen": 35040760,
      "step": 60390
    },
    {
      "epoch": 8.995382782246054,
      "grad_norm": 7.359090328216553,
      "learning_rate": 3.357004274963446e-05,
      "loss": 0.2673,
      "num_input_tokens_seen": 35043768,
      "step": 60395
    },
    {
      "epoch": 8.996127494787013,
      "grad_norm": 18.220293045043945,
      "learning_rate": 3.356699014543833e-05,
      "loss": 0.4159,
      "num_input_tokens_seen": 35046552,
      "step": 60400
    },
    {
      "epoch": 8.996872207327971,
      "grad_norm": 1.1585354804992676,
      "learning_rate": 3.3563937396511607e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 35049400,
      "step": 60405
    },
    {
      "epoch": 8.99761691986893,
      "grad_norm": 3.027709722518921,
      "learning_rate": 3.3560884502905865e-05,
      "loss": 0.1806,
      "num_input_tokens_seen": 35052536,
      "step": 60410
    },
    {
      "epoch": 8.998361632409889,
      "grad_norm": 35.094512939453125,
      "learning_rate": 3.355783146467268e-05,
      "loss": 0.1565,
      "num_input_tokens_seen": 35055448,
      "step": 60415
    },
    {
      "epoch": 8.99910634495085,
      "grad_norm": 0.6594276428222656,
      "learning_rate": 3.355477828186363e-05,
      "loss": 0.1425,
      "num_input_tokens_seen": 35058808,
      "step": 60420
    },
    {
      "epoch": 8.999851057491808,
      "grad_norm": 0.48374655842781067,
      "learning_rate": 3.3551724954530303e-05,
      "loss": 0.2298,
      "num_input_tokens_seen": 35061560,
      "step": 60425
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.3880276679992676,
      "eval_runtime": 49.2033,
      "eval_samples_per_second": 60.646,
      "eval_steps_per_second": 15.162,
      "num_input_tokens_seen": 35061680,
      "step": 60426
    },
    {
      "epoch": 9.000595770032767,
      "grad_norm": 0.019737379625439644,
      "learning_rate": 3.3548671482724267e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 35063920,
      "step": 60430
    },
    {
      "epoch": 9.001340482573726,
      "grad_norm": 0.054789502173662186,
      "learning_rate": 3.354561786649711e-05,
      "loss": 0.0404,
      "num_input_tokens_seen": 35066832,
      "step": 60435
    },
    {
      "epoch": 9.002085195114686,
      "grad_norm": 0.13474850356578827,
      "learning_rate": 3.354256410590043e-05,
      "loss": 0.0739,
      "num_input_tokens_seen": 35069712,
      "step": 60440
    },
    {
      "epoch": 9.002829907655645,
      "grad_norm": 0.00966053456068039,
      "learning_rate": 3.353951020098582e-05,
      "loss": 0.2047,
      "num_input_tokens_seen": 35072528,
      "step": 60445
    },
    {
      "epoch": 9.003574620196604,
      "grad_norm": 0.03479120880365372,
      "learning_rate": 3.353645615180485e-05,
      "loss": 0.0687,
      "num_input_tokens_seen": 35075472,
      "step": 60450
    },
    {
      "epoch": 9.004319332737563,
      "grad_norm": 5.0900163650512695,
      "learning_rate": 3.3533401958409136e-05,
      "loss": 0.1045,
      "num_input_tokens_seen": 35078512,
      "step": 60455
    },
    {
      "epoch": 9.005064045278523,
      "grad_norm": 0.008347013033926487,
      "learning_rate": 3.3530347620850276e-05,
      "loss": 0.0274,
      "num_input_tokens_seen": 35081744,
      "step": 60460
    },
    {
      "epoch": 9.005808757819482,
      "grad_norm": 0.0352213978767395,
      "learning_rate": 3.3527293139179854e-05,
      "loss": 0.1236,
      "num_input_tokens_seen": 35084528,
      "step": 60465
    },
    {
      "epoch": 9.00655347036044,
      "grad_norm": 0.10196713358163834,
      "learning_rate": 3.352423851344948e-05,
      "loss": 0.0926,
      "num_input_tokens_seen": 35087536,
      "step": 60470
    },
    {
      "epoch": 9.0072981829014,
      "grad_norm": 0.004592295736074448,
      "learning_rate": 3.352118374371076e-05,
      "loss": 0.0901,
      "num_input_tokens_seen": 35090224,
      "step": 60475
    },
    {
      "epoch": 9.00804289544236,
      "grad_norm": 0.008766213431954384,
      "learning_rate": 3.351812883001531e-05,
      "loss": 0.5001,
      "num_input_tokens_seen": 35093136,
      "step": 60480
    },
    {
      "epoch": 9.008787607983319,
      "grad_norm": 0.019202185794711113,
      "learning_rate": 3.3515073772414725e-05,
      "loss": 0.079,
      "num_input_tokens_seen": 35095760,
      "step": 60485
    },
    {
      "epoch": 9.009532320524277,
      "grad_norm": 0.04603833705186844,
      "learning_rate": 3.351201857096062e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 35099152,
      "step": 60490
    },
    {
      "epoch": 9.010277033065236,
      "grad_norm": 0.332390159368515,
      "learning_rate": 3.350896322570462e-05,
      "loss": 0.2158,
      "num_input_tokens_seen": 35101776,
      "step": 60495
    },
    {
      "epoch": 9.011021745606197,
      "grad_norm": 97.88397216796875,
      "learning_rate": 3.350590773669833e-05,
      "loss": 0.1282,
      "num_input_tokens_seen": 35104720,
      "step": 60500
    },
    {
      "epoch": 9.011766458147155,
      "grad_norm": 57.940608978271484,
      "learning_rate": 3.350285210399337e-05,
      "loss": 0.4638,
      "num_input_tokens_seen": 35107920,
      "step": 60505
    },
    {
      "epoch": 9.012511170688114,
      "grad_norm": 0.033124081790447235,
      "learning_rate": 3.3499796327641366e-05,
      "loss": 0.005,
      "num_input_tokens_seen": 35110640,
      "step": 60510
    },
    {
      "epoch": 9.013255883229073,
      "grad_norm": 0.005015633534640074,
      "learning_rate": 3.349674040769394e-05,
      "loss": 0.2267,
      "num_input_tokens_seen": 35113712,
      "step": 60515
    },
    {
      "epoch": 9.014000595770034,
      "grad_norm": 0.2700468897819519,
      "learning_rate": 3.349368434420274e-05,
      "loss": 0.0214,
      "num_input_tokens_seen": 35116656,
      "step": 60520
    },
    {
      "epoch": 9.014745308310992,
      "grad_norm": 0.018293337896466255,
      "learning_rate": 3.349062813721936e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35119536,
      "step": 60525
    },
    {
      "epoch": 9.015490020851951,
      "grad_norm": 122.46337890625,
      "learning_rate": 3.348757178679545e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 35122352,
      "step": 60530
    },
    {
      "epoch": 9.01623473339291,
      "grad_norm": 2.822547435760498,
      "learning_rate": 3.3484515292982634e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 35125264,
      "step": 60535
    },
    {
      "epoch": 9.01697944593387,
      "grad_norm": 0.030147520825266838,
      "learning_rate": 3.348145865583256e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 35128112,
      "step": 60540
    },
    {
      "epoch": 9.017724158474829,
      "grad_norm": 38.913185119628906,
      "learning_rate": 3.347840187539686e-05,
      "loss": 0.2519,
      "num_input_tokens_seen": 35131216,
      "step": 60545
    },
    {
      "epoch": 9.018468871015788,
      "grad_norm": 28.56749725341797,
      "learning_rate": 3.347534495172718e-05,
      "loss": 0.4024,
      "num_input_tokens_seen": 35134064,
      "step": 60550
    },
    {
      "epoch": 9.019213583556747,
      "grad_norm": 0.01704796962440014,
      "learning_rate": 3.3472287884875167e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35136912,
      "step": 60555
    },
    {
      "epoch": 9.019958296097707,
      "grad_norm": 0.051242440938949585,
      "learning_rate": 3.346923067489245e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35139856,
      "step": 60560
    },
    {
      "epoch": 9.020703008638666,
      "grad_norm": 5.041036128997803,
      "learning_rate": 3.3466173321830705e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 35142672,
      "step": 60565
    },
    {
      "epoch": 9.021447721179625,
      "grad_norm": 0.016698164865374565,
      "learning_rate": 3.346311582574155e-05,
      "loss": 0.2054,
      "num_input_tokens_seen": 35145584,
      "step": 60570
    },
    {
      "epoch": 9.022192433720583,
      "grad_norm": 0.11792761087417603,
      "learning_rate": 3.3460058186676656e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 35148592,
      "step": 60575
    },
    {
      "epoch": 9.022937146261542,
      "grad_norm": 0.010578799061477184,
      "learning_rate": 3.345700040468768e-05,
      "loss": 0.1017,
      "num_input_tokens_seen": 35151696,
      "step": 60580
    },
    {
      "epoch": 9.023681858802503,
      "grad_norm": 43.54777145385742,
      "learning_rate": 3.345394247982628e-05,
      "loss": 0.0639,
      "num_input_tokens_seen": 35154768,
      "step": 60585
    },
    {
      "epoch": 9.024426571343461,
      "grad_norm": 0.13616450130939484,
      "learning_rate": 3.345088441214411e-05,
      "loss": 0.0409,
      "num_input_tokens_seen": 35157584,
      "step": 60590
    },
    {
      "epoch": 9.02517128388442,
      "grad_norm": 0.005093966610729694,
      "learning_rate": 3.344782620169284e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35160336,
      "step": 60595
    },
    {
      "epoch": 9.025915996425379,
      "grad_norm": 0.027363577857613564,
      "learning_rate": 3.344476784852413e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35163184,
      "step": 60600
    },
    {
      "epoch": 9.02666070896634,
      "grad_norm": 16.15047836303711,
      "learning_rate": 3.344170935268966e-05,
      "loss": 0.3536,
      "num_input_tokens_seen": 35165968,
      "step": 60605
    },
    {
      "epoch": 9.027405421507298,
      "grad_norm": 17.70936393737793,
      "learning_rate": 3.3438650714241084e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 35168784,
      "step": 60610
    },
    {
      "epoch": 9.028150134048257,
      "grad_norm": 0.020275836810469627,
      "learning_rate": 3.3435591933230074e-05,
      "loss": 0.1217,
      "num_input_tokens_seen": 35171888,
      "step": 60615
    },
    {
      "epoch": 9.028894846589216,
      "grad_norm": 0.008863122202455997,
      "learning_rate": 3.343253300970832e-05,
      "loss": 0.0486,
      "num_input_tokens_seen": 35174800,
      "step": 60620
    },
    {
      "epoch": 9.029639559130176,
      "grad_norm": 0.08580160140991211,
      "learning_rate": 3.3429473943727486e-05,
      "loss": 0.087,
      "num_input_tokens_seen": 35177648,
      "step": 60625
    },
    {
      "epoch": 9.030384271671135,
      "grad_norm": 3.852543592453003,
      "learning_rate": 3.342641473533926e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 35180528,
      "step": 60630
    },
    {
      "epoch": 9.031128984212094,
      "grad_norm": 0.04683173820376396,
      "learning_rate": 3.3423355384595316e-05,
      "loss": 0.0974,
      "num_input_tokens_seen": 35183600,
      "step": 60635
    },
    {
      "epoch": 9.031873696753053,
      "grad_norm": 0.0291643887758255,
      "learning_rate": 3.342029589154735e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 35186384,
      "step": 60640
    },
    {
      "epoch": 9.032618409294013,
      "grad_norm": 0.026688963174819946,
      "learning_rate": 3.3417236256247044e-05,
      "loss": 0.0801,
      "num_input_tokens_seen": 35189168,
      "step": 60645
    },
    {
      "epoch": 9.033363121834972,
      "grad_norm": 0.03101474791765213,
      "learning_rate": 3.341417647874608e-05,
      "loss": 0.0885,
      "num_input_tokens_seen": 35191888,
      "step": 60650
    },
    {
      "epoch": 9.03410783437593,
      "grad_norm": 0.0546603724360466,
      "learning_rate": 3.341111655909616e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 35194512,
      "step": 60655
    },
    {
      "epoch": 9.03485254691689,
      "grad_norm": 0.022336306050419807,
      "learning_rate": 3.340805649734898e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35197456,
      "step": 60660
    },
    {
      "epoch": 9.03559725945785,
      "grad_norm": 0.09055142849683762,
      "learning_rate": 3.340499629355622e-05,
      "loss": 0.131,
      "num_input_tokens_seen": 35200304,
      "step": 60665
    },
    {
      "epoch": 9.036341971998809,
      "grad_norm": 60.13724136352539,
      "learning_rate": 3.34019359477696e-05,
      "loss": 0.1138,
      "num_input_tokens_seen": 35203184,
      "step": 60670
    },
    {
      "epoch": 9.037086684539767,
      "grad_norm": 2.1803770065307617,
      "learning_rate": 3.33988754600408e-05,
      "loss": 0.1301,
      "num_input_tokens_seen": 35206448,
      "step": 60675
    },
    {
      "epoch": 9.037831397080726,
      "grad_norm": 0.004914072807878256,
      "learning_rate": 3.339581483042155e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35209200,
      "step": 60680
    },
    {
      "epoch": 9.038576109621687,
      "grad_norm": 0.00307493656873703,
      "learning_rate": 3.339275405896353e-05,
      "loss": 0.2903,
      "num_input_tokens_seen": 35212368,
      "step": 60685
    },
    {
      "epoch": 9.039320822162646,
      "grad_norm": 0.05150352790951729,
      "learning_rate": 3.338969314571847e-05,
      "loss": 0.0472,
      "num_input_tokens_seen": 35215024,
      "step": 60690
    },
    {
      "epoch": 9.040065534703604,
      "grad_norm": 0.002619793638586998,
      "learning_rate": 3.338663209073806e-05,
      "loss": 0.0742,
      "num_input_tokens_seen": 35217968,
      "step": 60695
    },
    {
      "epoch": 9.040810247244563,
      "grad_norm": 0.0035845586098730564,
      "learning_rate": 3.338357089407403e-05,
      "loss": 0.1946,
      "num_input_tokens_seen": 35221232,
      "step": 60700
    },
    {
      "epoch": 9.041554959785524,
      "grad_norm": 1.189449667930603,
      "learning_rate": 3.338050955577809e-05,
      "loss": 0.2205,
      "num_input_tokens_seen": 35224240,
      "step": 60705
    },
    {
      "epoch": 9.042299672326482,
      "grad_norm": 0.0024513190146535635,
      "learning_rate": 3.337744807590196e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 35226992,
      "step": 60710
    },
    {
      "epoch": 9.043044384867441,
      "grad_norm": 0.012299076654016972,
      "learning_rate": 3.337438645449735e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35229680,
      "step": 60715
    },
    {
      "epoch": 9.0437890974084,
      "grad_norm": 21.84882354736328,
      "learning_rate": 3.3371324691616004e-05,
      "loss": 0.3927,
      "num_input_tokens_seen": 35232688,
      "step": 60720
    },
    {
      "epoch": 9.04453380994936,
      "grad_norm": 0.015678003430366516,
      "learning_rate": 3.3368262787309636e-05,
      "loss": 0.0512,
      "num_input_tokens_seen": 35235440,
      "step": 60725
    },
    {
      "epoch": 9.04527852249032,
      "grad_norm": 0.016651101410388947,
      "learning_rate": 3.3365200741629973e-05,
      "loss": 0.0671,
      "num_input_tokens_seen": 35238128,
      "step": 60730
    },
    {
      "epoch": 9.046023235031278,
      "grad_norm": 0.0250849686563015,
      "learning_rate": 3.336213855462874e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35241136,
      "step": 60735
    },
    {
      "epoch": 9.046767947572237,
      "grad_norm": 0.008755536749958992,
      "learning_rate": 3.3359076226357675e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35243952,
      "step": 60740
    },
    {
      "epoch": 9.047512660113195,
      "grad_norm": 91.77603912353516,
      "learning_rate": 3.335601375686851e-05,
      "loss": 0.2183,
      "num_input_tokens_seen": 35247120,
      "step": 60745
    },
    {
      "epoch": 9.048257372654156,
      "grad_norm": 0.9295559525489807,
      "learning_rate": 3.335295114621299e-05,
      "loss": 0.0315,
      "num_input_tokens_seen": 35249968,
      "step": 60750
    },
    {
      "epoch": 9.049002085195115,
      "grad_norm": 0.007116901222616434,
      "learning_rate": 3.334988839444285e-05,
      "loss": 0.0285,
      "num_input_tokens_seen": 35253136,
      "step": 60755
    },
    {
      "epoch": 9.049746797736073,
      "grad_norm": 0.027991708368062973,
      "learning_rate": 3.3346825501609834e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 35256208,
      "step": 60760
    },
    {
      "epoch": 9.050491510277032,
      "grad_norm": 0.22029253840446472,
      "learning_rate": 3.3343762467765685e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 35259120,
      "step": 60765
    },
    {
      "epoch": 9.051236222817993,
      "grad_norm": 0.004292527679353952,
      "learning_rate": 3.334069929296215e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35261840,
      "step": 60770
    },
    {
      "epoch": 9.051980935358952,
      "grad_norm": 0.005817669443786144,
      "learning_rate": 3.333763597725097e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35264688,
      "step": 60775
    },
    {
      "epoch": 9.05272564789991,
      "grad_norm": 0.03656642138957977,
      "learning_rate": 3.333457252068391e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35267664,
      "step": 60780
    },
    {
      "epoch": 9.053470360440869,
      "grad_norm": 0.003473173128440976,
      "learning_rate": 3.333150892331271e-05,
      "loss": 0.1214,
      "num_input_tokens_seen": 35270640,
      "step": 60785
    },
    {
      "epoch": 9.05421507298183,
      "grad_norm": 0.003977028653025627,
      "learning_rate": 3.3328445185189145e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35273168,
      "step": 60790
    },
    {
      "epoch": 9.054959785522788,
      "grad_norm": 0.12615494430065155,
      "learning_rate": 3.332538130636496e-05,
      "loss": 0.2881,
      "num_input_tokens_seen": 35275920,
      "step": 60795
    },
    {
      "epoch": 9.055704498063747,
      "grad_norm": 43.554237365722656,
      "learning_rate": 3.3322317286891913e-05,
      "loss": 0.1014,
      "num_input_tokens_seen": 35278576,
      "step": 60800
    },
    {
      "epoch": 9.056449210604706,
      "grad_norm": 0.03223302587866783,
      "learning_rate": 3.331925312682178e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 35281648,
      "step": 60805
    },
    {
      "epoch": 9.057193923145666,
      "grad_norm": 3.3295514583587646,
      "learning_rate": 3.331618882620632e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 35284464,
      "step": 60810
    },
    {
      "epoch": 9.057938635686625,
      "grad_norm": 0.03834333270788193,
      "learning_rate": 3.3313124385097306e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35287024,
      "step": 60815
    },
    {
      "epoch": 9.058683348227584,
      "grad_norm": 0.019830359145998955,
      "learning_rate": 3.33100598035465e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35290000,
      "step": 60820
    },
    {
      "epoch": 9.059428060768543,
      "grad_norm": 0.005735676269978285,
      "learning_rate": 3.3306995081605686e-05,
      "loss": 0.1294,
      "num_input_tokens_seen": 35293072,
      "step": 60825
    },
    {
      "epoch": 9.060172773309503,
      "grad_norm": 149.79522705078125,
      "learning_rate": 3.3303930219326625e-05,
      "loss": 0.0633,
      "num_input_tokens_seen": 35295920,
      "step": 60830
    },
    {
      "epoch": 9.060917485850462,
      "grad_norm": 0.012036485597491264,
      "learning_rate": 3.33008652167611e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35298704,
      "step": 60835
    },
    {
      "epoch": 9.06166219839142,
      "grad_norm": 0.04478514939546585,
      "learning_rate": 3.32978000739609e-05,
      "loss": 0.1965,
      "num_input_tokens_seen": 35301584,
      "step": 60840
    },
    {
      "epoch": 9.06240691093238,
      "grad_norm": 26.585275650024414,
      "learning_rate": 3.32947347909778e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 35304848,
      "step": 60845
    },
    {
      "epoch": 9.06315162347334,
      "grad_norm": 0.6282587051391602,
      "learning_rate": 3.329166936786359e-05,
      "loss": 0.339,
      "num_input_tokens_seen": 35307536,
      "step": 60850
    },
    {
      "epoch": 9.063896336014299,
      "grad_norm": 0.01156159769743681,
      "learning_rate": 3.328860380467005e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 35310320,
      "step": 60855
    },
    {
      "epoch": 9.064641048555258,
      "grad_norm": 9.663920402526855,
      "learning_rate": 3.328553810144897e-05,
      "loss": 0.2199,
      "num_input_tokens_seen": 35313584,
      "step": 60860
    },
    {
      "epoch": 9.065385761096216,
      "grad_norm": 9.480634689331055,
      "learning_rate": 3.328247225825215e-05,
      "loss": 0.1761,
      "num_input_tokens_seen": 35316880,
      "step": 60865
    },
    {
      "epoch": 9.066130473637177,
      "grad_norm": 0.006103291641920805,
      "learning_rate": 3.327940627513137e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 35319632,
      "step": 60870
    },
    {
      "epoch": 9.066875186178136,
      "grad_norm": 0.019846290349960327,
      "learning_rate": 3.327634015213844e-05,
      "loss": 0.2571,
      "num_input_tokens_seen": 35322672,
      "step": 60875
    },
    {
      "epoch": 9.067619898719094,
      "grad_norm": 54.32254409790039,
      "learning_rate": 3.327327388932516e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 35325552,
      "step": 60880
    },
    {
      "epoch": 9.068364611260053,
      "grad_norm": 0.0182228721678257,
      "learning_rate": 3.327020748674333e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 35328208,
      "step": 60885
    },
    {
      "epoch": 9.069109323801014,
      "grad_norm": 0.009035478346049786,
      "learning_rate": 3.326714094444474e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 35331056,
      "step": 60890
    },
    {
      "epoch": 9.069854036341972,
      "grad_norm": 0.2151280641555786,
      "learning_rate": 3.326407426248121e-05,
      "loss": 0.0474,
      "num_input_tokens_seen": 35333648,
      "step": 60895
    },
    {
      "epoch": 9.070598748882931,
      "grad_norm": 4.903216361999512,
      "learning_rate": 3.326100744090455e-05,
      "loss": 0.2715,
      "num_input_tokens_seen": 35336432,
      "step": 60900
    },
    {
      "epoch": 9.07134346142389,
      "grad_norm": 0.01963319443166256,
      "learning_rate": 3.3257940479766544e-05,
      "loss": 0.2162,
      "num_input_tokens_seen": 35339152,
      "step": 60905
    },
    {
      "epoch": 9.07208817396485,
      "grad_norm": 0.08005338162183762,
      "learning_rate": 3.3254873379119044e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 35342000,
      "step": 60910
    },
    {
      "epoch": 9.07283288650581,
      "grad_norm": 0.015211746096611023,
      "learning_rate": 3.325180613901385e-05,
      "loss": 0.1906,
      "num_input_tokens_seen": 35345072,
      "step": 60915
    },
    {
      "epoch": 9.073577599046768,
      "grad_norm": 0.602289617061615,
      "learning_rate": 3.3248738759502775e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 35348112,
      "step": 60920
    },
    {
      "epoch": 9.074322311587727,
      "grad_norm": 0.018691860139369965,
      "learning_rate": 3.3245671240637635e-05,
      "loss": 0.0324,
      "num_input_tokens_seen": 35351120,
      "step": 60925
    },
    {
      "epoch": 9.075067024128685,
      "grad_norm": 1.9206856489181519,
      "learning_rate": 3.324260358247028e-05,
      "loss": 0.0327,
      "num_input_tokens_seen": 35353840,
      "step": 60930
    },
    {
      "epoch": 9.075811736669646,
      "grad_norm": 0.11747004091739655,
      "learning_rate": 3.323953578505249e-05,
      "loss": 0.1146,
      "num_input_tokens_seen": 35356688,
      "step": 60935
    },
    {
      "epoch": 9.076556449210605,
      "grad_norm": 0.3182179629802704,
      "learning_rate": 3.323646784843613e-05,
      "loss": 0.1344,
      "num_input_tokens_seen": 35359760,
      "step": 60940
    },
    {
      "epoch": 9.077301161751564,
      "grad_norm": 0.0053406148217618465,
      "learning_rate": 3.323339977267301e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 35362608,
      "step": 60945
    },
    {
      "epoch": 9.078045874292522,
      "grad_norm": 0.08978403359651566,
      "learning_rate": 3.3230331557814975e-05,
      "loss": 0.0236,
      "num_input_tokens_seen": 35365808,
      "step": 60950
    },
    {
      "epoch": 9.078790586833483,
      "grad_norm": 1.1803569793701172,
      "learning_rate": 3.322726320391386e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 35368912,
      "step": 60955
    },
    {
      "epoch": 9.079535299374442,
      "grad_norm": 17.6028995513916,
      "learning_rate": 3.322419471102148e-05,
      "loss": 0.3079,
      "num_input_tokens_seen": 35371792,
      "step": 60960
    },
    {
      "epoch": 9.0802800119154,
      "grad_norm": 0.04085232689976692,
      "learning_rate": 3.3221126079189704e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 35375056,
      "step": 60965
    },
    {
      "epoch": 9.081024724456359,
      "grad_norm": 0.007846107706427574,
      "learning_rate": 3.321805730847035e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 35377680,
      "step": 60970
    },
    {
      "epoch": 9.08176943699732,
      "grad_norm": 0.052891071885824203,
      "learning_rate": 3.321498839891527e-05,
      "loss": 0.1588,
      "num_input_tokens_seen": 35380208,
      "step": 60975
    },
    {
      "epoch": 9.082514149538278,
      "grad_norm": 0.04476744681596756,
      "learning_rate": 3.321191935057631e-05,
      "loss": 0.1072,
      "num_input_tokens_seen": 35382928,
      "step": 60980
    },
    {
      "epoch": 9.083258862079237,
      "grad_norm": 1.0452048778533936,
      "learning_rate": 3.3208850163505314e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 35385872,
      "step": 60985
    },
    {
      "epoch": 9.084003574620196,
      "grad_norm": 0.006132245995104313,
      "learning_rate": 3.3205780837754154e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35388688,
      "step": 60990
    },
    {
      "epoch": 9.084748287161156,
      "grad_norm": 0.015406901948153973,
      "learning_rate": 3.3202711373374654e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 35391792,
      "step": 60995
    },
    {
      "epoch": 9.085492999702115,
      "grad_norm": 0.03955313563346863,
      "learning_rate": 3.319964177041868e-05,
      "loss": 0.1338,
      "num_input_tokens_seen": 35394832,
      "step": 61000
    },
    {
      "epoch": 9.086237712243074,
      "grad_norm": 0.012354918755590916,
      "learning_rate": 3.31965720289381e-05,
      "loss": 0.0456,
      "num_input_tokens_seen": 35398032,
      "step": 61005
    },
    {
      "epoch": 9.086982424784033,
      "grad_norm": 0.017446499317884445,
      "learning_rate": 3.319350214898476e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 35401264,
      "step": 61010
    },
    {
      "epoch": 9.087727137324993,
      "grad_norm": 0.0024879334960132837,
      "learning_rate": 3.319043213061053e-05,
      "loss": 0.0449,
      "num_input_tokens_seen": 35404240,
      "step": 61015
    },
    {
      "epoch": 9.088471849865952,
      "grad_norm": 18.855527877807617,
      "learning_rate": 3.318736197386728e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 35406928,
      "step": 61020
    },
    {
      "epoch": 9.08921656240691,
      "grad_norm": 0.02211725525557995,
      "learning_rate": 3.3184291678806866e-05,
      "loss": 0.0566,
      "num_input_tokens_seen": 35409840,
      "step": 61025
    },
    {
      "epoch": 9.08996127494787,
      "grad_norm": 0.18801173567771912,
      "learning_rate": 3.3181221245481164e-05,
      "loss": 0.015,
      "num_input_tokens_seen": 35412496,
      "step": 61030
    },
    {
      "epoch": 9.09070598748883,
      "grad_norm": 0.004164968151599169,
      "learning_rate": 3.317815067394204e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35415536,
      "step": 61035
    },
    {
      "epoch": 9.091450700029789,
      "grad_norm": 3.3451061248779297,
      "learning_rate": 3.317507996424137e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 35418544,
      "step": 61040
    },
    {
      "epoch": 9.092195412570748,
      "grad_norm": 0.14478939771652222,
      "learning_rate": 3.317200911643103e-05,
      "loss": 0.1727,
      "num_input_tokens_seen": 35421296,
      "step": 61045
    },
    {
      "epoch": 9.092940125111706,
      "grad_norm": 0.027235407382249832,
      "learning_rate": 3.316893813056292e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35423792,
      "step": 61050
    },
    {
      "epoch": 9.093684837652667,
      "grad_norm": 0.017648521810770035,
      "learning_rate": 3.3165867006688894e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 35426640,
      "step": 61055
    },
    {
      "epoch": 9.094429550193626,
      "grad_norm": 0.004279699642211199,
      "learning_rate": 3.3162795744860845e-05,
      "loss": 0.1062,
      "num_input_tokens_seen": 35429456,
      "step": 61060
    },
    {
      "epoch": 9.095174262734584,
      "grad_norm": 0.1028578132390976,
      "learning_rate": 3.315972434513065e-05,
      "loss": 0.2833,
      "num_input_tokens_seen": 35432176,
      "step": 61065
    },
    {
      "epoch": 9.095918975275543,
      "grad_norm": 44.40206527709961,
      "learning_rate": 3.315665280755021e-05,
      "loss": 0.2277,
      "num_input_tokens_seen": 35435152,
      "step": 61070
    },
    {
      "epoch": 9.096663687816504,
      "grad_norm": 18.09423065185547,
      "learning_rate": 3.315358113217141e-05,
      "loss": 0.3725,
      "num_input_tokens_seen": 35438064,
      "step": 61075
    },
    {
      "epoch": 9.097408400357462,
      "grad_norm": 0.0027295586187392473,
      "learning_rate": 3.315050931904614e-05,
      "loss": 0.2804,
      "num_input_tokens_seen": 35440816,
      "step": 61080
    },
    {
      "epoch": 9.098153112898421,
      "grad_norm": 0.026535093784332275,
      "learning_rate": 3.314743736822631e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 35443888,
      "step": 61085
    },
    {
      "epoch": 9.09889782543938,
      "grad_norm": 0.027630066499114037,
      "learning_rate": 3.314436527976381e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35446640,
      "step": 61090
    },
    {
      "epoch": 9.099642537980339,
      "grad_norm": 0.009848239831626415,
      "learning_rate": 3.314129305371052e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 35449488,
      "step": 61095
    },
    {
      "epoch": 9.1003872505213,
      "grad_norm": 0.5218255519866943,
      "learning_rate": 3.313822069011837e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 35452432,
      "step": 61100
    },
    {
      "epoch": 9.101131963062258,
      "grad_norm": 0.08174887299537659,
      "learning_rate": 3.313514818903924e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35455056,
      "step": 61105
    },
    {
      "epoch": 9.101876675603217,
      "grad_norm": 2.0052237510681152,
      "learning_rate": 3.313207555052505e-05,
      "loss": 0.3043,
      "num_input_tokens_seen": 35457936,
      "step": 61110
    },
    {
      "epoch": 9.102621388144176,
      "grad_norm": 0.07223155349493027,
      "learning_rate": 3.3129002774627723e-05,
      "loss": 0.3317,
      "num_input_tokens_seen": 35460720,
      "step": 61115
    },
    {
      "epoch": 9.103366100685136,
      "grad_norm": 0.14388512074947357,
      "learning_rate": 3.3125929861399155e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35463664,
      "step": 61120
    },
    {
      "epoch": 9.104110813226095,
      "grad_norm": 1.9170722961425781,
      "learning_rate": 3.3122856810891245e-05,
      "loss": 0.0555,
      "num_input_tokens_seen": 35466576,
      "step": 61125
    },
    {
      "epoch": 9.104855525767054,
      "grad_norm": 0.02973361872136593,
      "learning_rate": 3.311978362315594e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 35469616,
      "step": 61130
    },
    {
      "epoch": 9.105600238308012,
      "grad_norm": 34.698272705078125,
      "learning_rate": 3.3116710298245134e-05,
      "loss": 0.0701,
      "num_input_tokens_seen": 35472656,
      "step": 61135
    },
    {
      "epoch": 9.106344950848973,
      "grad_norm": 0.03508777543902397,
      "learning_rate": 3.311363683621076e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35475312,
      "step": 61140
    },
    {
      "epoch": 9.107089663389932,
      "grad_norm": 39.191219329833984,
      "learning_rate": 3.311056323710474e-05,
      "loss": 0.0168,
      "num_input_tokens_seen": 35478480,
      "step": 61145
    },
    {
      "epoch": 9.10783437593089,
      "grad_norm": 0.0061874473467469215,
      "learning_rate": 3.3107489500978996e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35481360,
      "step": 61150
    },
    {
      "epoch": 9.10857908847185,
      "grad_norm": 109.69628143310547,
      "learning_rate": 3.310441562788546e-05,
      "loss": 0.025,
      "num_input_tokens_seen": 35484400,
      "step": 61155
    },
    {
      "epoch": 9.10932380101281,
      "grad_norm": 46.453887939453125,
      "learning_rate": 3.310134161787605e-05,
      "loss": 0.3569,
      "num_input_tokens_seen": 35487536,
      "step": 61160
    },
    {
      "epoch": 9.110068513553768,
      "grad_norm": 0.07937539368867874,
      "learning_rate": 3.309826747100272e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35490448,
      "step": 61165
    },
    {
      "epoch": 9.110813226094727,
      "grad_norm": 0.008763081394135952,
      "learning_rate": 3.309519318731739e-05,
      "loss": 0.0628,
      "num_input_tokens_seen": 35493392,
      "step": 61170
    },
    {
      "epoch": 9.111557938635686,
      "grad_norm": 166.66403198242188,
      "learning_rate": 3.309211876687199e-05,
      "loss": 0.0436,
      "num_input_tokens_seen": 35495984,
      "step": 61175
    },
    {
      "epoch": 9.112302651176647,
      "grad_norm": 0.001907345955260098,
      "learning_rate": 3.308904420971847e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35498800,
      "step": 61180
    },
    {
      "epoch": 9.113047363717605,
      "grad_norm": 0.01300441287457943,
      "learning_rate": 3.308596951590877e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 35501392,
      "step": 61185
    },
    {
      "epoch": 9.113792076258564,
      "grad_norm": 0.026369987055659294,
      "learning_rate": 3.308289468549484e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 35504208,
      "step": 61190
    },
    {
      "epoch": 9.114536788799523,
      "grad_norm": 1.0330097675323486,
      "learning_rate": 3.30798197185286e-05,
      "loss": 0.0441,
      "num_input_tokens_seen": 35506992,
      "step": 61195
    },
    {
      "epoch": 9.115281501340483,
      "grad_norm": 0.010082981549203396,
      "learning_rate": 3.307674461506204e-05,
      "loss": 0.1176,
      "num_input_tokens_seen": 35509776,
      "step": 61200
    },
    {
      "epoch": 9.116026213881442,
      "grad_norm": 0.0064796158112585545,
      "learning_rate": 3.3073669375147074e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 35512880,
      "step": 61205
    },
    {
      "epoch": 9.1167709264224,
      "grad_norm": 12.445146560668945,
      "learning_rate": 3.307059399883568e-05,
      "loss": 0.1896,
      "num_input_tokens_seen": 35515728,
      "step": 61210
    },
    {
      "epoch": 9.11751563896336,
      "grad_norm": 0.004158043302595615,
      "learning_rate": 3.30675184861798e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35518512,
      "step": 61215
    },
    {
      "epoch": 9.11826035150432,
      "grad_norm": 0.005588659085333347,
      "learning_rate": 3.30644428372314e-05,
      "loss": 0.0835,
      "num_input_tokens_seen": 35521424,
      "step": 61220
    },
    {
      "epoch": 9.119005064045279,
      "grad_norm": 0.002374054165557027,
      "learning_rate": 3.306136705204242e-05,
      "loss": 0.1792,
      "num_input_tokens_seen": 35524240,
      "step": 61225
    },
    {
      "epoch": 9.119749776586238,
      "grad_norm": 0.0702393427491188,
      "learning_rate": 3.3058291130664844e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 35527056,
      "step": 61230
    },
    {
      "epoch": 9.120494489127196,
      "grad_norm": 0.027953844517469406,
      "learning_rate": 3.305521507315063e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 35530288,
      "step": 61235
    },
    {
      "epoch": 9.121239201668157,
      "grad_norm": 0.016681089997291565,
      "learning_rate": 3.305213887955174e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 35533424,
      "step": 61240
    },
    {
      "epoch": 9.121983914209116,
      "grad_norm": 0.011841225437819958,
      "learning_rate": 3.3049062549920154e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35536176,
      "step": 61245
    },
    {
      "epoch": 9.122728626750074,
      "grad_norm": 9.78358268737793,
      "learning_rate": 3.3045986084307835e-05,
      "loss": 0.1947,
      "num_input_tokens_seen": 35539152,
      "step": 61250
    },
    {
      "epoch": 9.123473339291033,
      "grad_norm": 0.010693663731217384,
      "learning_rate": 3.304290948276677e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35541936,
      "step": 61255
    },
    {
      "epoch": 9.124218051831992,
      "grad_norm": 29.09446144104004,
      "learning_rate": 3.30398327453489e-05,
      "loss": 0.2627,
      "num_input_tokens_seen": 35545072,
      "step": 61260
    },
    {
      "epoch": 9.124962764372953,
      "grad_norm": 0.005346788093447685,
      "learning_rate": 3.303675587210624e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 35547792,
      "step": 61265
    },
    {
      "epoch": 9.125707476913911,
      "grad_norm": 0.02026502601802349,
      "learning_rate": 3.3033678863090756e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35550704,
      "step": 61270
    },
    {
      "epoch": 9.12645218945487,
      "grad_norm": 0.2966460883617401,
      "learning_rate": 3.303060171835444e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 35553456,
      "step": 61275
    },
    {
      "epoch": 9.127196901995829,
      "grad_norm": 0.01683417335152626,
      "learning_rate": 3.302752443794925e-05,
      "loss": 0.2072,
      "num_input_tokens_seen": 35556112,
      "step": 61280
    },
    {
      "epoch": 9.12794161453679,
      "grad_norm": 0.02404283545911312,
      "learning_rate": 3.302444702192722e-05,
      "loss": 0.2482,
      "num_input_tokens_seen": 35559088,
      "step": 61285
    },
    {
      "epoch": 9.128686327077748,
      "grad_norm": 0.009320098906755447,
      "learning_rate": 3.30213694703403e-05,
      "loss": 0.0681,
      "num_input_tokens_seen": 35561744,
      "step": 61290
    },
    {
      "epoch": 9.129431039618707,
      "grad_norm": 20.43263053894043,
      "learning_rate": 3.3018291783240495e-05,
      "loss": 0.1946,
      "num_input_tokens_seen": 35564880,
      "step": 61295
    },
    {
      "epoch": 9.130175752159666,
      "grad_norm": 0.01527655590325594,
      "learning_rate": 3.3015213960679796e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35567664,
      "step": 61300
    },
    {
      "epoch": 9.130920464700626,
      "grad_norm": 0.2813604474067688,
      "learning_rate": 3.301213600271021e-05,
      "loss": 0.0714,
      "num_input_tokens_seen": 35570480,
      "step": 61305
    },
    {
      "epoch": 9.131665177241585,
      "grad_norm": 0.01865348219871521,
      "learning_rate": 3.3009057909383725e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 35573392,
      "step": 61310
    },
    {
      "epoch": 9.132409889782544,
      "grad_norm": 0.4312625825405121,
      "learning_rate": 3.300597968075235e-05,
      "loss": 0.1183,
      "num_input_tokens_seen": 35576208,
      "step": 61315
    },
    {
      "epoch": 9.133154602323502,
      "grad_norm": 0.019304290413856506,
      "learning_rate": 3.3002901316868085e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 35579184,
      "step": 61320
    },
    {
      "epoch": 9.133899314864463,
      "grad_norm": 0.09161403030157089,
      "learning_rate": 3.299982281778293e-05,
      "loss": 0.0319,
      "num_input_tokens_seen": 35582416,
      "step": 61325
    },
    {
      "epoch": 9.134644027405422,
      "grad_norm": 0.028689727187156677,
      "learning_rate": 3.2996744183548905e-05,
      "loss": 0.27,
      "num_input_tokens_seen": 35585552,
      "step": 61330
    },
    {
      "epoch": 9.13538873994638,
      "grad_norm": 0.05268232151865959,
      "learning_rate": 3.2993665414218024e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 35588656,
      "step": 61335
    },
    {
      "epoch": 9.13613345248734,
      "grad_norm": 0.2154550999403,
      "learning_rate": 3.2990586509842274e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35591440,
      "step": 61340
    },
    {
      "epoch": 9.1368781650283,
      "grad_norm": 0.03858046978712082,
      "learning_rate": 3.298750747047369e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35594256,
      "step": 61345
    },
    {
      "epoch": 9.137622877569259,
      "grad_norm": 0.025420192629098892,
      "learning_rate": 3.2984428296164296e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35596848,
      "step": 61350
    },
    {
      "epoch": 9.138367590110217,
      "grad_norm": 0.0066520641557872295,
      "learning_rate": 3.298134898696609e-05,
      "loss": 0.4258,
      "num_input_tokens_seen": 35600048,
      "step": 61355
    },
    {
      "epoch": 9.139112302651176,
      "grad_norm": 0.06820130348205566,
      "learning_rate": 3.297826954293111e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35602928,
      "step": 61360
    },
    {
      "epoch": 9.139857015192137,
      "grad_norm": 0.4372979998588562,
      "learning_rate": 3.2975189964111365e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35606096,
      "step": 61365
    },
    {
      "epoch": 9.140601727733095,
      "grad_norm": 29.528278350830078,
      "learning_rate": 3.2972110250558895e-05,
      "loss": 0.4043,
      "num_input_tokens_seen": 35609232,
      "step": 61370
    },
    {
      "epoch": 9.141346440274054,
      "grad_norm": 0.02525562234222889,
      "learning_rate": 3.296903040232573e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 35612272,
      "step": 61375
    },
    {
      "epoch": 9.142091152815013,
      "grad_norm": 0.5488778948783875,
      "learning_rate": 3.29659504194639e-05,
      "loss": 0.0633,
      "num_input_tokens_seen": 35615024,
      "step": 61380
    },
    {
      "epoch": 9.142835865355973,
      "grad_norm": 0.018450060859322548,
      "learning_rate": 3.296287030202543e-05,
      "loss": 0.0831,
      "num_input_tokens_seen": 35617872,
      "step": 61385
    },
    {
      "epoch": 9.143580577896932,
      "grad_norm": 0.011641151271760464,
      "learning_rate": 3.295979005006235e-05,
      "loss": 0.0931,
      "num_input_tokens_seen": 35621104,
      "step": 61390
    },
    {
      "epoch": 9.14432529043789,
      "grad_norm": 0.004018746316432953,
      "learning_rate": 3.295670966362672e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35624240,
      "step": 61395
    },
    {
      "epoch": 9.14507000297885,
      "grad_norm": 0.009104262106120586,
      "learning_rate": 3.2953629142770556e-05,
      "loss": 0.1393,
      "num_input_tokens_seen": 35627440,
      "step": 61400
    },
    {
      "epoch": 9.14581471551981,
      "grad_norm": 0.0054478333331644535,
      "learning_rate": 3.295054848754591e-05,
      "loss": 0.0253,
      "num_input_tokens_seen": 35630160,
      "step": 61405
    },
    {
      "epoch": 9.146559428060769,
      "grad_norm": 0.0038385912775993347,
      "learning_rate": 3.294746769800484e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35633008,
      "step": 61410
    },
    {
      "epoch": 9.147304140601728,
      "grad_norm": 0.003689306555315852,
      "learning_rate": 3.2944386774199373e-05,
      "loss": 0.1383,
      "num_input_tokens_seen": 35635728,
      "step": 61415
    },
    {
      "epoch": 9.148048853142686,
      "grad_norm": 54.21213150024414,
      "learning_rate": 3.294130571618157e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 35638672,
      "step": 61420
    },
    {
      "epoch": 9.148793565683647,
      "grad_norm": 0.07382594794034958,
      "learning_rate": 3.2938224524003483e-05,
      "loss": 0.1355,
      "num_input_tokens_seen": 35641616,
      "step": 61425
    },
    {
      "epoch": 9.149538278224606,
      "grad_norm": 0.02384914644062519,
      "learning_rate": 3.293514319771715e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 35644368,
      "step": 61430
    },
    {
      "epoch": 9.150282990765565,
      "grad_norm": 0.024808740243315697,
      "learning_rate": 3.2932061737374635e-05,
      "loss": 0.2117,
      "num_input_tokens_seen": 35647088,
      "step": 61435
    },
    {
      "epoch": 9.151027703306523,
      "grad_norm": 0.07549168914556503,
      "learning_rate": 3.292898014302801e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35649808,
      "step": 61440
    },
    {
      "epoch": 9.151772415847482,
      "grad_norm": 0.12360092252492905,
      "learning_rate": 3.292589841472932e-05,
      "loss": 0.0096,
      "num_input_tokens_seen": 35652592,
      "step": 61445
    },
    {
      "epoch": 9.152517128388443,
      "grad_norm": 13.994812965393066,
      "learning_rate": 3.292281655253063e-05,
      "loss": 0.2458,
      "num_input_tokens_seen": 35655824,
      "step": 61450
    },
    {
      "epoch": 9.153261840929401,
      "grad_norm": 0.2957954406738281,
      "learning_rate": 3.291973455648401e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 35658608,
      "step": 61455
    },
    {
      "epoch": 9.15400655347036,
      "grad_norm": 0.5556438565254211,
      "learning_rate": 3.291665242664152e-05,
      "loss": 0.1081,
      "num_input_tokens_seen": 35661584,
      "step": 61460
    },
    {
      "epoch": 9.154751266011319,
      "grad_norm": 0.03581501916050911,
      "learning_rate": 3.291357016305523e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 35664624,
      "step": 61465
    },
    {
      "epoch": 9.15549597855228,
      "grad_norm": 0.0029334467835724354,
      "learning_rate": 3.291048776577722e-05,
      "loss": 0.0244,
      "num_input_tokens_seen": 35667472,
      "step": 61470
    },
    {
      "epoch": 9.156240691093238,
      "grad_norm": 0.34351012110710144,
      "learning_rate": 3.290740523485956e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 35670512,
      "step": 61475
    },
    {
      "epoch": 9.156985403634197,
      "grad_norm": 0.008144475519657135,
      "learning_rate": 3.290432257035432e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 35673424,
      "step": 61480
    },
    {
      "epoch": 9.157730116175156,
      "grad_norm": 0.04705677926540375,
      "learning_rate": 3.29012397723136e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 35676560,
      "step": 61485
    },
    {
      "epoch": 9.158474828716116,
      "grad_norm": 2.814612627029419,
      "learning_rate": 3.289815684078944e-05,
      "loss": 0.0477,
      "num_input_tokens_seen": 35679504,
      "step": 61490
    },
    {
      "epoch": 9.159219541257075,
      "grad_norm": 0.01990465261042118,
      "learning_rate": 3.2895073775833976e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 35682512,
      "step": 61495
    },
    {
      "epoch": 9.159964253798034,
      "grad_norm": 0.0029555289074778557,
      "learning_rate": 3.2891990577499246e-05,
      "loss": 0.1165,
      "num_input_tokens_seen": 35685232,
      "step": 61500
    },
    {
      "epoch": 9.160708966338992,
      "grad_norm": 0.025287684053182602,
      "learning_rate": 3.2888907245837356e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35688112,
      "step": 61505
    },
    {
      "epoch": 9.161453678879953,
      "grad_norm": 0.024232327938079834,
      "learning_rate": 3.2885823780900395e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 35691088,
      "step": 61510
    },
    {
      "epoch": 9.162198391420912,
      "grad_norm": 0.008833544328808784,
      "learning_rate": 3.2882740182740466e-05,
      "loss": 0.2461,
      "num_input_tokens_seen": 35693872,
      "step": 61515
    },
    {
      "epoch": 9.16294310396187,
      "grad_norm": 0.00450199656188488,
      "learning_rate": 3.2879656451409644e-05,
      "loss": 0.01,
      "num_input_tokens_seen": 35696432,
      "step": 61520
    },
    {
      "epoch": 9.16368781650283,
      "grad_norm": 0.00748197827488184,
      "learning_rate": 3.287657258696004e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 35699440,
      "step": 61525
    },
    {
      "epoch": 9.16443252904379,
      "grad_norm": 165.01193237304688,
      "learning_rate": 3.2873488589443747e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 35702320,
      "step": 61530
    },
    {
      "epoch": 9.165177241584749,
      "grad_norm": 10.188109397888184,
      "learning_rate": 3.287040445891286e-05,
      "loss": 0.0842,
      "num_input_tokens_seen": 35705264,
      "step": 61535
    },
    {
      "epoch": 9.165921954125707,
      "grad_norm": 0.23749502003192902,
      "learning_rate": 3.28673201954195e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 35708272,
      "step": 61540
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.004357657860964537,
      "learning_rate": 3.286423579901575e-05,
      "loss": 0.1314,
      "num_input_tokens_seen": 35711376,
      "step": 61545
    },
    {
      "epoch": 9.167411379207627,
      "grad_norm": 4.20811653137207,
      "learning_rate": 3.2861151269753745e-05,
      "loss": 0.3641,
      "num_input_tokens_seen": 35714512,
      "step": 61550
    },
    {
      "epoch": 9.168156091748585,
      "grad_norm": 248.40077209472656,
      "learning_rate": 3.285806660768556e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 35717328,
      "step": 61555
    },
    {
      "epoch": 9.168900804289544,
      "grad_norm": 12.494973182678223,
      "learning_rate": 3.285498181286334e-05,
      "loss": 0.2561,
      "num_input_tokens_seen": 35719888,
      "step": 61560
    },
    {
      "epoch": 9.169645516830503,
      "grad_norm": 34.07237243652344,
      "learning_rate": 3.285189688533917e-05,
      "loss": 0.2454,
      "num_input_tokens_seen": 35722832,
      "step": 61565
    },
    {
      "epoch": 9.170390229371463,
      "grad_norm": 0.0072496007196605206,
      "learning_rate": 3.284881182516519e-05,
      "loss": 0.0542,
      "num_input_tokens_seen": 35725584,
      "step": 61570
    },
    {
      "epoch": 9.171134941912422,
      "grad_norm": 0.00760754756629467,
      "learning_rate": 3.2845726632393525e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 35728432,
      "step": 61575
    },
    {
      "epoch": 9.171879654453381,
      "grad_norm": 0.025059891864657402,
      "learning_rate": 3.284264130707627e-05,
      "loss": 0.3988,
      "num_input_tokens_seen": 35731184,
      "step": 61580
    },
    {
      "epoch": 9.17262436699434,
      "grad_norm": 0.015925170853734016,
      "learning_rate": 3.283955584926557e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 35734384,
      "step": 61585
    },
    {
      "epoch": 9.1733690795353,
      "grad_norm": 39.38159942626953,
      "learning_rate": 3.283647025901353e-05,
      "loss": 0.1289,
      "num_input_tokens_seen": 35737392,
      "step": 61590
    },
    {
      "epoch": 9.174113792076259,
      "grad_norm": 0.04108600690960884,
      "learning_rate": 3.283338453637229e-05,
      "loss": 0.1814,
      "num_input_tokens_seen": 35740176,
      "step": 61595
    },
    {
      "epoch": 9.174858504617218,
      "grad_norm": 13.333549499511719,
      "learning_rate": 3.2830298681393985e-05,
      "loss": 0.1685,
      "num_input_tokens_seen": 35743248,
      "step": 61600
    },
    {
      "epoch": 9.175603217158177,
      "grad_norm": 0.7977138757705688,
      "learning_rate": 3.2827212694130736e-05,
      "loss": 0.0602,
      "num_input_tokens_seen": 35746224,
      "step": 61605
    },
    {
      "epoch": 9.176347929699135,
      "grad_norm": 0.5074892044067383,
      "learning_rate": 3.282412657463469e-05,
      "loss": 0.1055,
      "num_input_tokens_seen": 35748976,
      "step": 61610
    },
    {
      "epoch": 9.177092642240096,
      "grad_norm": 0.03478235378861427,
      "learning_rate": 3.282104032295798e-05,
      "loss": 0.3162,
      "num_input_tokens_seen": 35751792,
      "step": 61615
    },
    {
      "epoch": 9.177837354781055,
      "grad_norm": 43.97478485107422,
      "learning_rate": 3.281795393915275e-05,
      "loss": 0.0495,
      "num_input_tokens_seen": 35754928,
      "step": 61620
    },
    {
      "epoch": 9.178582067322013,
      "grad_norm": 0.04211605712771416,
      "learning_rate": 3.281486742327112e-05,
      "loss": 0.1399,
      "num_input_tokens_seen": 35757840,
      "step": 61625
    },
    {
      "epoch": 9.179326779862972,
      "grad_norm": 0.039629265666007996,
      "learning_rate": 3.281178077536525e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 35760688,
      "step": 61630
    },
    {
      "epoch": 9.180071492403933,
      "grad_norm": 0.005159732885658741,
      "learning_rate": 3.280869399548728e-05,
      "loss": 0.1789,
      "num_input_tokens_seen": 35763280,
      "step": 61635
    },
    {
      "epoch": 9.180816204944891,
      "grad_norm": 25.660348892211914,
      "learning_rate": 3.280560708368936e-05,
      "loss": 0.2559,
      "num_input_tokens_seen": 35766608,
      "step": 61640
    },
    {
      "epoch": 9.18156091748585,
      "grad_norm": 0.22920098900794983,
      "learning_rate": 3.2802520040023646e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 35769360,
      "step": 61645
    },
    {
      "epoch": 9.182305630026809,
      "grad_norm": 82.44013977050781,
      "learning_rate": 3.279943286454229e-05,
      "loss": 0.1814,
      "num_input_tokens_seen": 35772176,
      "step": 61650
    },
    {
      "epoch": 9.18305034256777,
      "grad_norm": 0.03201144188642502,
      "learning_rate": 3.2796345557297446e-05,
      "loss": 0.1262,
      "num_input_tokens_seen": 35775280,
      "step": 61655
    },
    {
      "epoch": 9.183795055108728,
      "grad_norm": 0.0028790943324565887,
      "learning_rate": 3.2793258118341265e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 35778352,
      "step": 61660
    },
    {
      "epoch": 9.184539767649687,
      "grad_norm": 0.004183989483863115,
      "learning_rate": 3.2790170547725894e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 35781488,
      "step": 61665
    },
    {
      "epoch": 9.185284480190646,
      "grad_norm": 1.593367099761963,
      "learning_rate": 3.2787082845503525e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 35784208,
      "step": 61670
    },
    {
      "epoch": 9.186029192731606,
      "grad_norm": 0.005110405385494232,
      "learning_rate": 3.27839950117263e-05,
      "loss": 0.0921,
      "num_input_tokens_seen": 35787248,
      "step": 61675
    },
    {
      "epoch": 9.186773905272565,
      "grad_norm": 0.03279060870409012,
      "learning_rate": 3.27809070464464e-05,
      "loss": 0.026,
      "num_input_tokens_seen": 35790096,
      "step": 61680
    },
    {
      "epoch": 9.187518617813524,
      "grad_norm": 0.014687533490359783,
      "learning_rate": 3.2777818949715965e-05,
      "loss": 0.2349,
      "num_input_tokens_seen": 35793072,
      "step": 61685
    },
    {
      "epoch": 9.188263330354483,
      "grad_norm": 79.37617492675781,
      "learning_rate": 3.27747307215872e-05,
      "loss": 0.12,
      "num_input_tokens_seen": 35796112,
      "step": 61690
    },
    {
      "epoch": 9.189008042895443,
      "grad_norm": 0.057527054101228714,
      "learning_rate": 3.2771642362112255e-05,
      "loss": 0.1956,
      "num_input_tokens_seen": 35798864,
      "step": 61695
    },
    {
      "epoch": 9.189752755436402,
      "grad_norm": 0.22986823320388794,
      "learning_rate": 3.276855387134331e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35802128,
      "step": 61700
    },
    {
      "epoch": 9.19049746797736,
      "grad_norm": 0.023888621479272842,
      "learning_rate": 3.2765465249332545e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 35804976,
      "step": 61705
    },
    {
      "epoch": 9.19124218051832,
      "grad_norm": 0.280997633934021,
      "learning_rate": 3.276237649613214e-05,
      "loss": 0.169,
      "num_input_tokens_seen": 35807888,
      "step": 61710
    },
    {
      "epoch": 9.19198689305928,
      "grad_norm": 0.2148769199848175,
      "learning_rate": 3.275928761179427e-05,
      "loss": 0.6981,
      "num_input_tokens_seen": 35810928,
      "step": 61715
    },
    {
      "epoch": 9.192731605600239,
      "grad_norm": 0.11019770056009293,
      "learning_rate": 3.2756198596371115e-05,
      "loss": 0.0618,
      "num_input_tokens_seen": 35813904,
      "step": 61720
    },
    {
      "epoch": 9.193476318141197,
      "grad_norm": 10.261534690856934,
      "learning_rate": 3.275310944991487e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 35816752,
      "step": 61725
    },
    {
      "epoch": 9.194221030682156,
      "grad_norm": 0.025192756205797195,
      "learning_rate": 3.275002017247773e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 35819344,
      "step": 61730
    },
    {
      "epoch": 9.194965743223117,
      "grad_norm": 0.04860866442322731,
      "learning_rate": 3.2746930764111876e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 35822128,
      "step": 61735
    },
    {
      "epoch": 9.195710455764075,
      "grad_norm": 0.06337185204029083,
      "learning_rate": 3.2743841224869496e-05,
      "loss": 0.0102,
      "num_input_tokens_seen": 35824848,
      "step": 61740
    },
    {
      "epoch": 9.196455168305034,
      "grad_norm": 32.67298889160156,
      "learning_rate": 3.274075155480278e-05,
      "loss": 0.3517,
      "num_input_tokens_seen": 35827824,
      "step": 61745
    },
    {
      "epoch": 9.197199880845993,
      "grad_norm": 0.5708228945732117,
      "learning_rate": 3.273766175396395e-05,
      "loss": 0.1602,
      "num_input_tokens_seen": 35830576,
      "step": 61750
    },
    {
      "epoch": 9.197944593386953,
      "grad_norm": 20.358333587646484,
      "learning_rate": 3.273457182240518e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 35833488,
      "step": 61755
    },
    {
      "epoch": 9.198689305927912,
      "grad_norm": 0.004930192604660988,
      "learning_rate": 3.273148176017868e-05,
      "loss": 0.2294,
      "num_input_tokens_seen": 35836304,
      "step": 61760
    },
    {
      "epoch": 9.199434018468871,
      "grad_norm": 33.17435836791992,
      "learning_rate": 3.2728391567336656e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 35839440,
      "step": 61765
    },
    {
      "epoch": 9.20017873100983,
      "grad_norm": 0.008347956463694572,
      "learning_rate": 3.272530124393131e-05,
      "loss": 0.0619,
      "num_input_tokens_seen": 35842544,
      "step": 61770
    },
    {
      "epoch": 9.200923443550789,
      "grad_norm": 0.443014919757843,
      "learning_rate": 3.2722210790014854e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 35845520,
      "step": 61775
    },
    {
      "epoch": 9.201668156091749,
      "grad_norm": 0.011940008960664272,
      "learning_rate": 3.271912020563949e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 35848592,
      "step": 61780
    },
    {
      "epoch": 9.202412868632708,
      "grad_norm": 8.754150390625,
      "learning_rate": 3.2716029490857445e-05,
      "loss": 0.0771,
      "num_input_tokens_seen": 35851376,
      "step": 61785
    },
    {
      "epoch": 9.203157581173667,
      "grad_norm": 0.013021382503211498,
      "learning_rate": 3.271293864572092e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 35854640,
      "step": 61790
    },
    {
      "epoch": 9.203902293714625,
      "grad_norm": 0.0012376252561807632,
      "learning_rate": 3.2709847670282126e-05,
      "loss": 0.0188,
      "num_input_tokens_seen": 35857392,
      "step": 61795
    },
    {
      "epoch": 9.204647006255586,
      "grad_norm": 0.34972521662712097,
      "learning_rate": 3.27067565645933e-05,
      "loss": 0.1512,
      "num_input_tokens_seen": 35860560,
      "step": 61800
    },
    {
      "epoch": 9.205391718796545,
      "grad_norm": 33.5902214050293,
      "learning_rate": 3.2703665328706654e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 35863536,
      "step": 61805
    },
    {
      "epoch": 9.206136431337503,
      "grad_norm": 0.029976634308695793,
      "learning_rate": 3.270057396267441e-05,
      "loss": 0.1737,
      "num_input_tokens_seen": 35866224,
      "step": 61810
    },
    {
      "epoch": 9.206881143878462,
      "grad_norm": 0.3029636740684509,
      "learning_rate": 3.26974824665488e-05,
      "loss": 0.2434,
      "num_input_tokens_seen": 35869072,
      "step": 61815
    },
    {
      "epoch": 9.207625856419423,
      "grad_norm": 0.41356968879699707,
      "learning_rate": 3.269439084038205e-05,
      "loss": 0.4489,
      "num_input_tokens_seen": 35871664,
      "step": 61820
    },
    {
      "epoch": 9.208370568960381,
      "grad_norm": 0.01614372991025448,
      "learning_rate": 3.2691299084226375e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35874544,
      "step": 61825
    },
    {
      "epoch": 9.20911528150134,
      "grad_norm": 0.26840895414352417,
      "learning_rate": 3.2688207198134026e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35877168,
      "step": 61830
    },
    {
      "epoch": 9.209859994042299,
      "grad_norm": 0.010786552913486958,
      "learning_rate": 3.2685115182157225e-05,
      "loss": 0.025,
      "num_input_tokens_seen": 35879984,
      "step": 61835
    },
    {
      "epoch": 9.21060470658326,
      "grad_norm": 0.012945489026606083,
      "learning_rate": 3.2682023036348216e-05,
      "loss": 0.1325,
      "num_input_tokens_seen": 35882928,
      "step": 61840
    },
    {
      "epoch": 9.211349419124218,
      "grad_norm": 51.84193801879883,
      "learning_rate": 3.267893076075924e-05,
      "loss": 0.245,
      "num_input_tokens_seen": 35885872,
      "step": 61845
    },
    {
      "epoch": 9.212094131665177,
      "grad_norm": 0.005066653247922659,
      "learning_rate": 3.267583835544253e-05,
      "loss": 0.1941,
      "num_input_tokens_seen": 35888656,
      "step": 61850
    },
    {
      "epoch": 9.212838844206136,
      "grad_norm": 0.007189434487372637,
      "learning_rate": 3.2672745820450336e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35891664,
      "step": 61855
    },
    {
      "epoch": 9.213583556747096,
      "grad_norm": 0.0801302120089531,
      "learning_rate": 3.2669653155834894e-05,
      "loss": 0.1766,
      "num_input_tokens_seen": 35894320,
      "step": 61860
    },
    {
      "epoch": 9.214328269288055,
      "grad_norm": 0.038201749324798584,
      "learning_rate": 3.2666560361648456e-05,
      "loss": 0.0464,
      "num_input_tokens_seen": 35897072,
      "step": 61865
    },
    {
      "epoch": 9.215072981829014,
      "grad_norm": 0.021554507315158844,
      "learning_rate": 3.266346743794328e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35901232,
      "step": 61870
    },
    {
      "epoch": 9.215817694369973,
      "grad_norm": 0.06864752620458603,
      "learning_rate": 3.26603743847716e-05,
      "loss": 0.0424,
      "num_input_tokens_seen": 35904112,
      "step": 61875
    },
    {
      "epoch": 9.216562406910933,
      "grad_norm": 0.17067937552928925,
      "learning_rate": 3.26572812021857e-05,
      "loss": 0.2225,
      "num_input_tokens_seen": 35906864,
      "step": 61880
    },
    {
      "epoch": 9.217307119451892,
      "grad_norm": 0.09146664291620255,
      "learning_rate": 3.2654187890237795e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35909392,
      "step": 61885
    },
    {
      "epoch": 9.21805183199285,
      "grad_norm": 64.07452392578125,
      "learning_rate": 3.2651094448980175e-05,
      "loss": 0.015,
      "num_input_tokens_seen": 35912272,
      "step": 61890
    },
    {
      "epoch": 9.21879654453381,
      "grad_norm": 0.03473782166838646,
      "learning_rate": 3.264800087846509e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35914992,
      "step": 61895
    },
    {
      "epoch": 9.21954125707477,
      "grad_norm": 0.040525883436203,
      "learning_rate": 3.2644907178744805e-05,
      "loss": 0.0301,
      "num_input_tokens_seen": 35917776,
      "step": 61900
    },
    {
      "epoch": 9.220285969615729,
      "grad_norm": 0.013662182725965977,
      "learning_rate": 3.264181334987157e-05,
      "loss": 0.3488,
      "num_input_tokens_seen": 35920368,
      "step": 61905
    },
    {
      "epoch": 9.221030682156687,
      "grad_norm": 0.4629806578159332,
      "learning_rate": 3.2638719391897684e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 35923152,
      "step": 61910
    },
    {
      "epoch": 9.221775394697646,
      "grad_norm": 0.026388727128505707,
      "learning_rate": 3.2635625304875386e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 35926288,
      "step": 61915
    },
    {
      "epoch": 9.222520107238607,
      "grad_norm": 0.023703468963503838,
      "learning_rate": 3.263253108885696e-05,
      "loss": 0.0238,
      "num_input_tokens_seen": 35929232,
      "step": 61920
    },
    {
      "epoch": 9.223264819779565,
      "grad_norm": 4.091447353363037,
      "learning_rate": 3.262943674389469e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 35932432,
      "step": 61925
    },
    {
      "epoch": 9.224009532320524,
      "grad_norm": 0.007097252644598484,
      "learning_rate": 3.2626342270040823e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35935280,
      "step": 61930
    },
    {
      "epoch": 9.224754244861483,
      "grad_norm": 22.15012550354004,
      "learning_rate": 3.262324766734766e-05,
      "loss": 0.1237,
      "num_input_tokens_seen": 35938160,
      "step": 61935
    },
    {
      "epoch": 9.225498957402444,
      "grad_norm": 77.5079345703125,
      "learning_rate": 3.2620152935867484e-05,
      "loss": 0.2613,
      "num_input_tokens_seen": 35940880,
      "step": 61940
    },
    {
      "epoch": 9.226243669943402,
      "grad_norm": 0.028718380257487297,
      "learning_rate": 3.261705807565256e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35943696,
      "step": 61945
    },
    {
      "epoch": 9.226988382484361,
      "grad_norm": 0.01698869839310646,
      "learning_rate": 3.26139630867552e-05,
      "loss": 0.5224,
      "num_input_tokens_seen": 35946512,
      "step": 61950
    },
    {
      "epoch": 9.22773309502532,
      "grad_norm": 19.877845764160156,
      "learning_rate": 3.261086796922765e-05,
      "loss": 0.0105,
      "num_input_tokens_seen": 35949296,
      "step": 61955
    },
    {
      "epoch": 9.228477807566279,
      "grad_norm": 0.019284522160887718,
      "learning_rate": 3.260777272312222e-05,
      "loss": 0.0062,
      "num_input_tokens_seen": 35951920,
      "step": 61960
    },
    {
      "epoch": 9.229222520107239,
      "grad_norm": 0.05546132102608681,
      "learning_rate": 3.2604677348491215e-05,
      "loss": 0.069,
      "num_input_tokens_seen": 35954864,
      "step": 61965
    },
    {
      "epoch": 9.229967232648198,
      "grad_norm": 0.03197460249066353,
      "learning_rate": 3.260158184538691e-05,
      "loss": 0.0798,
      "num_input_tokens_seen": 35957744,
      "step": 61970
    },
    {
      "epoch": 9.230711945189157,
      "grad_norm": 0.011409604921936989,
      "learning_rate": 3.25984862138616e-05,
      "loss": 0.1317,
      "num_input_tokens_seen": 35960528,
      "step": 61975
    },
    {
      "epoch": 9.231456657730115,
      "grad_norm": 52.95927429199219,
      "learning_rate": 3.25953904539676e-05,
      "loss": 0.0604,
      "num_input_tokens_seen": 35963952,
      "step": 61980
    },
    {
      "epoch": 9.232201370271076,
      "grad_norm": 0.02328040450811386,
      "learning_rate": 3.259229456575719e-05,
      "loss": 0.2271,
      "num_input_tokens_seen": 35966928,
      "step": 61985
    },
    {
      "epoch": 9.232946082812035,
      "grad_norm": 0.26620936393737793,
      "learning_rate": 3.258919854928268e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 35969776,
      "step": 61990
    },
    {
      "epoch": 9.233690795352993,
      "grad_norm": 0.004111130256205797,
      "learning_rate": 3.2586102404596375e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 35972656,
      "step": 61995
    },
    {
      "epoch": 9.234435507893952,
      "grad_norm": 89.98552703857422,
      "learning_rate": 3.258300613175058e-05,
      "loss": 0.4657,
      "num_input_tokens_seen": 35975504,
      "step": 62000
    },
    {
      "epoch": 9.235180220434913,
      "grad_norm": 0.9729251265525818,
      "learning_rate": 3.2579909730797605e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 35978672,
      "step": 62005
    },
    {
      "epoch": 9.235924932975871,
      "grad_norm": 0.015622015111148357,
      "learning_rate": 3.2576813201789755e-05,
      "loss": 0.0768,
      "num_input_tokens_seen": 35981776,
      "step": 62010
    },
    {
      "epoch": 9.23666964551683,
      "grad_norm": 0.030383281409740448,
      "learning_rate": 3.257371654477935e-05,
      "loss": 0.0537,
      "num_input_tokens_seen": 35984688,
      "step": 62015
    },
    {
      "epoch": 9.237414358057789,
      "grad_norm": 0.017992857843637466,
      "learning_rate": 3.257061975981871e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 35987632,
      "step": 62020
    },
    {
      "epoch": 9.23815907059875,
      "grad_norm": 0.02074018120765686,
      "learning_rate": 3.256752284696013e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 35990480,
      "step": 62025
    },
    {
      "epoch": 9.238903783139708,
      "grad_norm": 0.010332334786653519,
      "learning_rate": 3.256442580625595e-05,
      "loss": 0.1962,
      "num_input_tokens_seen": 35993488,
      "step": 62030
    },
    {
      "epoch": 9.239648495680667,
      "grad_norm": 0.006379547994583845,
      "learning_rate": 3.2561328637758475e-05,
      "loss": 0.139,
      "num_input_tokens_seen": 35996304,
      "step": 62035
    },
    {
      "epoch": 9.240393208221626,
      "grad_norm": 0.22160279750823975,
      "learning_rate": 3.2558231341520046e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 35999088,
      "step": 62040
    },
    {
      "epoch": 9.241137920762586,
      "grad_norm": 0.045735836029052734,
      "learning_rate": 3.255513391759299e-05,
      "loss": 0.1898,
      "num_input_tokens_seen": 36001840,
      "step": 62045
    },
    {
      "epoch": 9.241882633303545,
      "grad_norm": 0.012997840531170368,
      "learning_rate": 3.25520363660296e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36004560,
      "step": 62050
    },
    {
      "epoch": 9.242627345844504,
      "grad_norm": 34.03955078125,
      "learning_rate": 3.2548938686882246e-05,
      "loss": 0.1934,
      "num_input_tokens_seen": 36007824,
      "step": 62055
    },
    {
      "epoch": 9.243372058385463,
      "grad_norm": 0.0028155031614005566,
      "learning_rate": 3.254584088020325e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36010704,
      "step": 62060
    },
    {
      "epoch": 9.244116770926423,
      "grad_norm": 7.210628509521484,
      "learning_rate": 3.254274294604494e-05,
      "loss": 0.0328,
      "num_input_tokens_seen": 36013968,
      "step": 62065
    },
    {
      "epoch": 9.244861483467382,
      "grad_norm": 0.02555343322455883,
      "learning_rate": 3.253964488445964e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36017072,
      "step": 62070
    },
    {
      "epoch": 9.24560619600834,
      "grad_norm": 7.9023637771606445,
      "learning_rate": 3.253654669549972e-05,
      "loss": 0.2539,
      "num_input_tokens_seen": 36020080,
      "step": 62075
    },
    {
      "epoch": 9.2463509085493,
      "grad_norm": 6.731573104858398,
      "learning_rate": 3.253344837921749e-05,
      "loss": 0.4456,
      "num_input_tokens_seen": 36023088,
      "step": 62080
    },
    {
      "epoch": 9.24709562109026,
      "grad_norm": 0.012094189412891865,
      "learning_rate": 3.253034993566532e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 36025808,
      "step": 62085
    },
    {
      "epoch": 9.247840333631219,
      "grad_norm": 0.40708786249160767,
      "learning_rate": 3.252725136489553e-05,
      "loss": 0.0803,
      "num_input_tokens_seen": 36028528,
      "step": 62090
    },
    {
      "epoch": 9.248585046172177,
      "grad_norm": 0.39019834995269775,
      "learning_rate": 3.2524152666960476e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 36031568,
      "step": 62095
    },
    {
      "epoch": 9.249329758713136,
      "grad_norm": 27.88083839416504,
      "learning_rate": 3.252105384191252e-05,
      "loss": 0.2729,
      "num_input_tokens_seen": 36034384,
      "step": 62100
    },
    {
      "epoch": 9.250074471254097,
      "grad_norm": 0.05837981030344963,
      "learning_rate": 3.2517954889803995e-05,
      "loss": 0.2015,
      "num_input_tokens_seen": 36037168,
      "step": 62105
    },
    {
      "epoch": 9.250819183795056,
      "grad_norm": 11.622466087341309,
      "learning_rate": 3.2514855810687265e-05,
      "loss": 0.0979,
      "num_input_tokens_seen": 36040240,
      "step": 62110
    },
    {
      "epoch": 9.251563896336014,
      "grad_norm": 12.689399719238281,
      "learning_rate": 3.2511756604614695e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 36043376,
      "step": 62115
    },
    {
      "epoch": 9.252308608876973,
      "grad_norm": 0.032772164791822433,
      "learning_rate": 3.250865727163862e-05,
      "loss": 0.0659,
      "num_input_tokens_seen": 36046320,
      "step": 62120
    },
    {
      "epoch": 9.253053321417934,
      "grad_norm": 0.021558690816164017,
      "learning_rate": 3.250555781181142e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 36049296,
      "step": 62125
    },
    {
      "epoch": 9.253798033958892,
      "grad_norm": 0.20349571108818054,
      "learning_rate": 3.250245822518544e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36052400,
      "step": 62130
    },
    {
      "epoch": 9.254542746499851,
      "grad_norm": 2.5641658306121826,
      "learning_rate": 3.249935851181305e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 36055440,
      "step": 62135
    },
    {
      "epoch": 9.25528745904081,
      "grad_norm": 0.04303044080734253,
      "learning_rate": 3.2496258671746636e-05,
      "loss": 0.1415,
      "num_input_tokens_seen": 36058256,
      "step": 62140
    },
    {
      "epoch": 9.256032171581769,
      "grad_norm": 0.04554542154073715,
      "learning_rate": 3.249315870503854e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 36060848,
      "step": 62145
    },
    {
      "epoch": 9.25677688412273,
      "grad_norm": 29.706655502319336,
      "learning_rate": 3.249005861174115e-05,
      "loss": 0.231,
      "num_input_tokens_seen": 36063504,
      "step": 62150
    },
    {
      "epoch": 9.257521596663688,
      "grad_norm": 8.344161987304688,
      "learning_rate": 3.2486958391906825e-05,
      "loss": 0.1449,
      "num_input_tokens_seen": 36066480,
      "step": 62155
    },
    {
      "epoch": 9.258266309204647,
      "grad_norm": 0.27698108553886414,
      "learning_rate": 3.2483858045587944e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36069072,
      "step": 62160
    },
    {
      "epoch": 9.259011021745605,
      "grad_norm": 0.01145690307021141,
      "learning_rate": 3.2480757572836895e-05,
      "loss": 0.11,
      "num_input_tokens_seen": 36072144,
      "step": 62165
    },
    {
      "epoch": 9.259755734286566,
      "grad_norm": 0.009408731944859028,
      "learning_rate": 3.247765697370604e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 36074800,
      "step": 62170
    },
    {
      "epoch": 9.260500446827525,
      "grad_norm": 0.007258798461407423,
      "learning_rate": 3.247455624824779e-05,
      "loss": 0.2317,
      "num_input_tokens_seen": 36077712,
      "step": 62175
    },
    {
      "epoch": 9.261245159368483,
      "grad_norm": 0.4471673369407654,
      "learning_rate": 3.247145539651449e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36080592,
      "step": 62180
    },
    {
      "epoch": 9.261989871909442,
      "grad_norm": 89.52362060546875,
      "learning_rate": 3.246835441855856e-05,
      "loss": 0.3185,
      "num_input_tokens_seen": 36083664,
      "step": 62185
    },
    {
      "epoch": 9.262734584450403,
      "grad_norm": 0.007405235897749662,
      "learning_rate": 3.2465253314432366e-05,
      "loss": 0.2517,
      "num_input_tokens_seen": 36086448,
      "step": 62190
    },
    {
      "epoch": 9.263479296991362,
      "grad_norm": 0.015391205437481403,
      "learning_rate": 3.24621520841883e-05,
      "loss": 0.0756,
      "num_input_tokens_seen": 36089424,
      "step": 62195
    },
    {
      "epoch": 9.26422400953232,
      "grad_norm": 0.03906060755252838,
      "learning_rate": 3.245905072787876e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 36092464,
      "step": 62200
    },
    {
      "epoch": 9.264968722073279,
      "grad_norm": 39.79309844970703,
      "learning_rate": 3.245594924555614e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 36095664,
      "step": 62205
    },
    {
      "epoch": 9.26571343461424,
      "grad_norm": 23.161773681640625,
      "learning_rate": 3.2452847637272845e-05,
      "loss": 0.1213,
      "num_input_tokens_seen": 36098320,
      "step": 62210
    },
    {
      "epoch": 9.266458147155198,
      "grad_norm": 142.74842834472656,
      "learning_rate": 3.244974590308125e-05,
      "loss": 0.3499,
      "num_input_tokens_seen": 36101296,
      "step": 62215
    },
    {
      "epoch": 9.267202859696157,
      "grad_norm": 13.817155838012695,
      "learning_rate": 3.244664404303378e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 36104112,
      "step": 62220
    },
    {
      "epoch": 9.267947572237116,
      "grad_norm": 0.06199300289154053,
      "learning_rate": 3.2443542057182825e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36107088,
      "step": 62225
    },
    {
      "epoch": 9.268692284778076,
      "grad_norm": 0.014888145960867405,
      "learning_rate": 3.244043994558079e-05,
      "loss": 0.0434,
      "num_input_tokens_seen": 36109776,
      "step": 62230
    },
    {
      "epoch": 9.269436997319035,
      "grad_norm": 70.7705078125,
      "learning_rate": 3.243733770828008e-05,
      "loss": 0.1223,
      "num_input_tokens_seen": 36113104,
      "step": 62235
    },
    {
      "epoch": 9.270181709859994,
      "grad_norm": 10.223287582397461,
      "learning_rate": 3.243423534533311e-05,
      "loss": 0.2975,
      "num_input_tokens_seen": 36115760,
      "step": 62240
    },
    {
      "epoch": 9.270926422400953,
      "grad_norm": 0.0037136871833354235,
      "learning_rate": 3.2431132856792294e-05,
      "loss": 0.1714,
      "num_input_tokens_seen": 36118672,
      "step": 62245
    },
    {
      "epoch": 9.271671134941913,
      "grad_norm": 0.05128790810704231,
      "learning_rate": 3.242803024271004e-05,
      "loss": 0.0317,
      "num_input_tokens_seen": 36121776,
      "step": 62250
    },
    {
      "epoch": 9.272415847482872,
      "grad_norm": 0.4127404987812042,
      "learning_rate": 3.2424927503138766e-05,
      "loss": 0.1142,
      "num_input_tokens_seen": 36124336,
      "step": 62255
    },
    {
      "epoch": 9.27316056002383,
      "grad_norm": 0.1864946186542511,
      "learning_rate": 3.242182463813088e-05,
      "loss": 0.3564,
      "num_input_tokens_seen": 36127312,
      "step": 62260
    },
    {
      "epoch": 9.27390527256479,
      "grad_norm": 3.6767568588256836,
      "learning_rate": 3.241872164773882e-05,
      "loss": 0.2176,
      "num_input_tokens_seen": 36130160,
      "step": 62265
    },
    {
      "epoch": 9.27464998510575,
      "grad_norm": 0.030113155022263527,
      "learning_rate": 3.241561853201499e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36132976,
      "step": 62270
    },
    {
      "epoch": 9.275394697646709,
      "grad_norm": 0.11451421678066254,
      "learning_rate": 3.2412515291011826e-05,
      "loss": 0.0779,
      "num_input_tokens_seen": 36135984,
      "step": 62275
    },
    {
      "epoch": 9.276139410187668,
      "grad_norm": 0.01957675628364086,
      "learning_rate": 3.2409411924781754e-05,
      "loss": 0.1239,
      "num_input_tokens_seen": 36138768,
      "step": 62280
    },
    {
      "epoch": 9.276884122728626,
      "grad_norm": 0.47970619797706604,
      "learning_rate": 3.2406308433377194e-05,
      "loss": 0.0253,
      "num_input_tokens_seen": 36141904,
      "step": 62285
    },
    {
      "epoch": 9.277628835269585,
      "grad_norm": 0.07687709480524063,
      "learning_rate": 3.2403204816850574e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 36145072,
      "step": 62290
    },
    {
      "epoch": 9.278373547810546,
      "grad_norm": 0.00250440975651145,
      "learning_rate": 3.240010107525434e-05,
      "loss": 0.0275,
      "num_input_tokens_seen": 36147760,
      "step": 62295
    },
    {
      "epoch": 9.279118260351504,
      "grad_norm": 0.28454965353012085,
      "learning_rate": 3.2396997208640925e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 36150896,
      "step": 62300
    },
    {
      "epoch": 9.279862972892463,
      "grad_norm": 0.014596596360206604,
      "learning_rate": 3.2393893217062746e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 36153680,
      "step": 62305
    },
    {
      "epoch": 9.280607685433422,
      "grad_norm": 0.016867920756340027,
      "learning_rate": 3.239078910057226e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 36156176,
      "step": 62310
    },
    {
      "epoch": 9.281352397974382,
      "grad_norm": 0.5201413631439209,
      "learning_rate": 3.238768485922191e-05,
      "loss": 0.1629,
      "num_input_tokens_seen": 36159120,
      "step": 62315
    },
    {
      "epoch": 9.282097110515341,
      "grad_norm": 0.015522615984082222,
      "learning_rate": 3.238458049306413e-05,
      "loss": 0.0731,
      "num_input_tokens_seen": 36162032,
      "step": 62320
    },
    {
      "epoch": 9.2828418230563,
      "grad_norm": 0.9712306261062622,
      "learning_rate": 3.2381476002151365e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 36164784,
      "step": 62325
    },
    {
      "epoch": 9.283586535597259,
      "grad_norm": 17.485300064086914,
      "learning_rate": 3.2378371386536074e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 36167568,
      "step": 62330
    },
    {
      "epoch": 9.28433124813822,
      "grad_norm": 0.06454791873693466,
      "learning_rate": 3.2375266646270684e-05,
      "loss": 0.2797,
      "num_input_tokens_seen": 36170544,
      "step": 62335
    },
    {
      "epoch": 9.285075960679178,
      "grad_norm": 33.408546447753906,
      "learning_rate": 3.2372161781407675e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 36173520,
      "step": 62340
    },
    {
      "epoch": 9.285820673220137,
      "grad_norm": 0.04682322219014168,
      "learning_rate": 3.2369056791999476e-05,
      "loss": 0.2691,
      "num_input_tokens_seen": 36176528,
      "step": 62345
    },
    {
      "epoch": 9.286565385761095,
      "grad_norm": 0.011089046485722065,
      "learning_rate": 3.236595167809856e-05,
      "loss": 0.1006,
      "num_input_tokens_seen": 36179696,
      "step": 62350
    },
    {
      "epoch": 9.287310098302056,
      "grad_norm": 0.003967475611716509,
      "learning_rate": 3.236284643975737e-05,
      "loss": 0.1503,
      "num_input_tokens_seen": 36182864,
      "step": 62355
    },
    {
      "epoch": 9.288054810843015,
      "grad_norm": 0.003010660642758012,
      "learning_rate": 3.235974107702837e-05,
      "loss": 0.0575,
      "num_input_tokens_seen": 36185360,
      "step": 62360
    },
    {
      "epoch": 9.288799523383974,
      "grad_norm": 0.2986452877521515,
      "learning_rate": 3.235663558996402e-05,
      "loss": 0.2157,
      "num_input_tokens_seen": 36188048,
      "step": 62365
    },
    {
      "epoch": 9.289544235924932,
      "grad_norm": 0.009656378999352455,
      "learning_rate": 3.2353529978616806e-05,
      "loss": 0.0129,
      "num_input_tokens_seen": 36190960,
      "step": 62370
    },
    {
      "epoch": 9.290288948465893,
      "grad_norm": 18.664026260375977,
      "learning_rate": 3.235042424303917e-05,
      "loss": 0.4734,
      "num_input_tokens_seen": 36194160,
      "step": 62375
    },
    {
      "epoch": 9.291033661006852,
      "grad_norm": 0.013363751582801342,
      "learning_rate": 3.2347318383283585e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 36196720,
      "step": 62380
    },
    {
      "epoch": 9.29177837354781,
      "grad_norm": 0.15574787557125092,
      "learning_rate": 3.234421239940252e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 36199856,
      "step": 62385
    },
    {
      "epoch": 9.292523086088769,
      "grad_norm": 0.019912751391530037,
      "learning_rate": 3.2341106291448456e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 36202608,
      "step": 62390
    },
    {
      "epoch": 9.29326779862973,
      "grad_norm": 0.022523505613207817,
      "learning_rate": 3.233800005947386e-05,
      "loss": 0.1133,
      "num_input_tokens_seen": 36205520,
      "step": 62395
    },
    {
      "epoch": 9.294012511170688,
      "grad_norm": 40.90584945678711,
      "learning_rate": 3.23348937035312e-05,
      "loss": 0.0732,
      "num_input_tokens_seen": 36208240,
      "step": 62400
    },
    {
      "epoch": 9.294757223711647,
      "grad_norm": 52.925418853759766,
      "learning_rate": 3.233178722367298e-05,
      "loss": 0.3163,
      "num_input_tokens_seen": 36211376,
      "step": 62405
    },
    {
      "epoch": 9.295501936252606,
      "grad_norm": 0.14060020446777344,
      "learning_rate": 3.232868061995167e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 36214768,
      "step": 62410
    },
    {
      "epoch": 9.296246648793566,
      "grad_norm": 1.2511463165283203,
      "learning_rate": 3.2325573892419745e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 36217744,
      "step": 62415
    },
    {
      "epoch": 9.296991361334525,
      "grad_norm": 0.08513160794973373,
      "learning_rate": 3.232246704112969e-05,
      "loss": 0.1761,
      "num_input_tokens_seen": 36220848,
      "step": 62420
    },
    {
      "epoch": 9.297736073875484,
      "grad_norm": 0.19778940081596375,
      "learning_rate": 3.2319360066134e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 36223632,
      "step": 62425
    },
    {
      "epoch": 9.298480786416443,
      "grad_norm": 0.008368677459657192,
      "learning_rate": 3.2316252967485155e-05,
      "loss": 0.0238,
      "num_input_tokens_seen": 36226384,
      "step": 62430
    },
    {
      "epoch": 9.299225498957403,
      "grad_norm": 10.480456352233887,
      "learning_rate": 3.231314574523566e-05,
      "loss": 0.0789,
      "num_input_tokens_seen": 36229328,
      "step": 62435
    },
    {
      "epoch": 9.299970211498362,
      "grad_norm": 0.005376119632273912,
      "learning_rate": 3.2310038399437995e-05,
      "loss": 0.0595,
      "num_input_tokens_seen": 36232272,
      "step": 62440
    },
    {
      "epoch": 9.30071492403932,
      "grad_norm": 33.54030227661133,
      "learning_rate": 3.230693093014466e-05,
      "loss": 0.202,
      "num_input_tokens_seen": 36235184,
      "step": 62445
    },
    {
      "epoch": 9.30145963658028,
      "grad_norm": 14.192163467407227,
      "learning_rate": 3.230382333740816e-05,
      "loss": 0.3944,
      "num_input_tokens_seen": 36237936,
      "step": 62450
    },
    {
      "epoch": 9.30220434912124,
      "grad_norm": 37.525390625,
      "learning_rate": 3.230071562128098e-05,
      "loss": 0.1686,
      "num_input_tokens_seen": 36240656,
      "step": 62455
    },
    {
      "epoch": 9.302949061662199,
      "grad_norm": 50.63203430175781,
      "learning_rate": 3.2297607781815645e-05,
      "loss": 0.0233,
      "num_input_tokens_seen": 36243504,
      "step": 62460
    },
    {
      "epoch": 9.303693774203158,
      "grad_norm": 21.45882797241211,
      "learning_rate": 3.229449981906463e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 36246512,
      "step": 62465
    },
    {
      "epoch": 9.304438486744116,
      "grad_norm": 0.06069799140095711,
      "learning_rate": 3.229139173308045e-05,
      "loss": 0.0062,
      "num_input_tokens_seen": 36249776,
      "step": 62470
    },
    {
      "epoch": 9.305183199285075,
      "grad_norm": 152.49923706054688,
      "learning_rate": 3.228828352391562e-05,
      "loss": 0.1481,
      "num_input_tokens_seen": 36252720,
      "step": 62475
    },
    {
      "epoch": 9.305927911826036,
      "grad_norm": 0.013834171928465366,
      "learning_rate": 3.2285175191622656e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36255600,
      "step": 62480
    },
    {
      "epoch": 9.306672624366994,
      "grad_norm": 0.04021662473678589,
      "learning_rate": 3.2282066736254056e-05,
      "loss": 0.1291,
      "num_input_tokens_seen": 36258544,
      "step": 62485
    },
    {
      "epoch": 9.307417336907953,
      "grad_norm": 3.7146198749542236,
      "learning_rate": 3.2278958157862336e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 36261328,
      "step": 62490
    },
    {
      "epoch": 9.308162049448912,
      "grad_norm": 0.03495713323354721,
      "learning_rate": 3.2275849456500026e-05,
      "loss": 0.1631,
      "num_input_tokens_seen": 36264560,
      "step": 62495
    },
    {
      "epoch": 9.308906761989872,
      "grad_norm": 0.05404040589928627,
      "learning_rate": 3.2272740632219635e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 36267152,
      "step": 62500
    },
    {
      "epoch": 9.309651474530831,
      "grad_norm": 47.530067443847656,
      "learning_rate": 3.226963168507367e-05,
      "loss": 0.4778,
      "num_input_tokens_seen": 36270000,
      "step": 62505
    },
    {
      "epoch": 9.31039618707179,
      "grad_norm": 21.541738510131836,
      "learning_rate": 3.226652261511467e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 36272880,
      "step": 62510
    },
    {
      "epoch": 9.311140899612749,
      "grad_norm": 2.878519296646118,
      "learning_rate": 3.226341342239516e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 36275472,
      "step": 62515
    },
    {
      "epoch": 9.31188561215371,
      "grad_norm": 120.49281311035156,
      "learning_rate": 3.226030410696766e-05,
      "loss": 0.0727,
      "num_input_tokens_seen": 36278256,
      "step": 62520
    },
    {
      "epoch": 9.312630324694668,
      "grad_norm": 0.011663352139294147,
      "learning_rate": 3.2257194668884704e-05,
      "loss": 0.2568,
      "num_input_tokens_seen": 36281136,
      "step": 62525
    },
    {
      "epoch": 9.313375037235627,
      "grad_norm": 3.5699427127838135,
      "learning_rate": 3.2254085108198815e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 36284048,
      "step": 62530
    },
    {
      "epoch": 9.314119749776586,
      "grad_norm": 0.040529221296310425,
      "learning_rate": 3.225097542496254e-05,
      "loss": 0.0722,
      "num_input_tokens_seen": 36286992,
      "step": 62535
    },
    {
      "epoch": 9.314864462317546,
      "grad_norm": 0.022562768310308456,
      "learning_rate": 3.2247865619228394e-05,
      "loss": 0.1704,
      "num_input_tokens_seen": 36291344,
      "step": 62540
    },
    {
      "epoch": 9.315609174858505,
      "grad_norm": 0.004183931276202202,
      "learning_rate": 3.2244755691048933e-05,
      "loss": 0.2168,
      "num_input_tokens_seen": 36294192,
      "step": 62545
    },
    {
      "epoch": 9.316353887399464,
      "grad_norm": 20.094436645507812,
      "learning_rate": 3.224164564047669e-05,
      "loss": 0.3069,
      "num_input_tokens_seen": 36296848,
      "step": 62550
    },
    {
      "epoch": 9.317098599940422,
      "grad_norm": 0.006843560840934515,
      "learning_rate": 3.223853546756419e-05,
      "loss": 0.2341,
      "num_input_tokens_seen": 36299472,
      "step": 62555
    },
    {
      "epoch": 9.317843312481383,
      "grad_norm": 0.015899160876870155,
      "learning_rate": 3.2235425172363996e-05,
      "loss": 0.0579,
      "num_input_tokens_seen": 36302352,
      "step": 62560
    },
    {
      "epoch": 9.318588025022342,
      "grad_norm": 0.009853335097432137,
      "learning_rate": 3.223231475492865e-05,
      "loss": 0.0114,
      "num_input_tokens_seen": 36305136,
      "step": 62565
    },
    {
      "epoch": 9.3193327375633,
      "grad_norm": 37.73895263671875,
      "learning_rate": 3.222920421531069e-05,
      "loss": 0.1193,
      "num_input_tokens_seen": 36308016,
      "step": 62570
    },
    {
      "epoch": 9.32007745010426,
      "grad_norm": 0.01934017799794674,
      "learning_rate": 3.222609355356269e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36310992,
      "step": 62575
    },
    {
      "epoch": 9.32082216264522,
      "grad_norm": 119.09349060058594,
      "learning_rate": 3.222298276973717e-05,
      "loss": 0.0741,
      "num_input_tokens_seen": 36313872,
      "step": 62580
    },
    {
      "epoch": 9.321566875186178,
      "grad_norm": 0.07842124998569489,
      "learning_rate": 3.22198718638867e-05,
      "loss": 0.1663,
      "num_input_tokens_seen": 36317072,
      "step": 62585
    },
    {
      "epoch": 9.322311587727137,
      "grad_norm": 0.291384756565094,
      "learning_rate": 3.2216760836063834e-05,
      "loss": 0.1728,
      "num_input_tokens_seen": 36319696,
      "step": 62590
    },
    {
      "epoch": 9.323056300268096,
      "grad_norm": 30.630569458007812,
      "learning_rate": 3.2213649686321124e-05,
      "loss": 0.1142,
      "num_input_tokens_seen": 36322576,
      "step": 62595
    },
    {
      "epoch": 9.323801012809056,
      "grad_norm": 0.11118464916944504,
      "learning_rate": 3.2210538414711136e-05,
      "loss": 0.1326,
      "num_input_tokens_seen": 36325200,
      "step": 62600
    },
    {
      "epoch": 9.324545725350015,
      "grad_norm": 0.01272426638752222,
      "learning_rate": 3.220742702128643e-05,
      "loss": 0.1756,
      "num_input_tokens_seen": 36327888,
      "step": 62605
    },
    {
      "epoch": 9.325290437890974,
      "grad_norm": 0.10822874307632446,
      "learning_rate": 3.220431550609958e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36330672,
      "step": 62610
    },
    {
      "epoch": 9.326035150431933,
      "grad_norm": 0.01198344212025404,
      "learning_rate": 3.220120386920313e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 36333616,
      "step": 62615
    },
    {
      "epoch": 9.326779862972893,
      "grad_norm": 0.011832117103040218,
      "learning_rate": 3.219809211064966e-05,
      "loss": 0.3617,
      "num_input_tokens_seen": 36336336,
      "step": 62620
    },
    {
      "epoch": 9.327524575513852,
      "grad_norm": 0.009262444451451302,
      "learning_rate": 3.2194980230491744e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 36339408,
      "step": 62625
    },
    {
      "epoch": 9.32826928805481,
      "grad_norm": 0.004307935480028391,
      "learning_rate": 3.2191868228781944e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 36342256,
      "step": 62630
    },
    {
      "epoch": 9.32901400059577,
      "grad_norm": 44.94054412841797,
      "learning_rate": 3.2188756105572844e-05,
      "loss": 0.0915,
      "num_input_tokens_seen": 36345136,
      "step": 62635
    },
    {
      "epoch": 9.32975871313673,
      "grad_norm": 37.80714416503906,
      "learning_rate": 3.218564386091701e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 36347920,
      "step": 62640
    },
    {
      "epoch": 9.330503425677689,
      "grad_norm": 83.99932098388672,
      "learning_rate": 3.218253149486704e-05,
      "loss": 0.0184,
      "num_input_tokens_seen": 36350896,
      "step": 62645
    },
    {
      "epoch": 9.331248138218648,
      "grad_norm": 119.72518157958984,
      "learning_rate": 3.2179419007475483e-05,
      "loss": 0.1409,
      "num_input_tokens_seen": 36354128,
      "step": 62650
    },
    {
      "epoch": 9.331992850759606,
      "grad_norm": 0.025639362633228302,
      "learning_rate": 3.217630639879495e-05,
      "loss": 0.0756,
      "num_input_tokens_seen": 36357008,
      "step": 62655
    },
    {
      "epoch": 9.332737563300565,
      "grad_norm": 0.1407151073217392,
      "learning_rate": 3.217319366887801e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36359696,
      "step": 62660
    },
    {
      "epoch": 9.333482275841526,
      "grad_norm": 0.021794872358441353,
      "learning_rate": 3.217008081777726e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 36362512,
      "step": 62665
    },
    {
      "epoch": 9.334226988382484,
      "grad_norm": 1.5462520122528076,
      "learning_rate": 3.2166967845545275e-05,
      "loss": 0.1575,
      "num_input_tokens_seen": 36365424,
      "step": 62670
    },
    {
      "epoch": 9.334971700923443,
      "grad_norm": 0.01252042781561613,
      "learning_rate": 3.216385475223465e-05,
      "loss": 0.4237,
      "num_input_tokens_seen": 36368464,
      "step": 62675
    },
    {
      "epoch": 9.335716413464402,
      "grad_norm": 0.024989400058984756,
      "learning_rate": 3.216074153789799e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 36371344,
      "step": 62680
    },
    {
      "epoch": 9.336461126005362,
      "grad_norm": 14.165687561035156,
      "learning_rate": 3.2157628202587874e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 36374384,
      "step": 62685
    },
    {
      "epoch": 9.337205838546321,
      "grad_norm": 17.050975799560547,
      "learning_rate": 3.21545147463569e-05,
      "loss": 0.2186,
      "num_input_tokens_seen": 36377008,
      "step": 62690
    },
    {
      "epoch": 9.33795055108728,
      "grad_norm": 0.009479708038270473,
      "learning_rate": 3.2151401169257676e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 36379856,
      "step": 62695
    },
    {
      "epoch": 9.338695263628239,
      "grad_norm": 0.3431093990802765,
      "learning_rate": 3.2148287471342796e-05,
      "loss": 0.3129,
      "num_input_tokens_seen": 36382800,
      "step": 62700
    },
    {
      "epoch": 9.3394399761692,
      "grad_norm": 19.086040496826172,
      "learning_rate": 3.2145173652664864e-05,
      "loss": 0.1788,
      "num_input_tokens_seen": 36385808,
      "step": 62705
    },
    {
      "epoch": 9.340184688710158,
      "grad_norm": 7.607504844665527,
      "learning_rate": 3.21420597132765e-05,
      "loss": 0.0549,
      "num_input_tokens_seen": 36388400,
      "step": 62710
    },
    {
      "epoch": 9.340929401251117,
      "grad_norm": 0.051331114023923874,
      "learning_rate": 3.213894565323027e-05,
      "loss": 0.2066,
      "num_input_tokens_seen": 36391408,
      "step": 62715
    },
    {
      "epoch": 9.341674113792076,
      "grad_norm": 0.04276624321937561,
      "learning_rate": 3.213583147257883e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 36394032,
      "step": 62720
    },
    {
      "epoch": 9.342418826333036,
      "grad_norm": 0.21728426218032837,
      "learning_rate": 3.213271717137475e-05,
      "loss": 0.0142,
      "num_input_tokens_seen": 36396784,
      "step": 62725
    },
    {
      "epoch": 9.343163538873995,
      "grad_norm": 0.6555799245834351,
      "learning_rate": 3.2129602749670674e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 36399888,
      "step": 62730
    },
    {
      "epoch": 9.343908251414954,
      "grad_norm": 0.44620394706726074,
      "learning_rate": 3.212648820751921e-05,
      "loss": 0.0454,
      "num_input_tokens_seen": 36402576,
      "step": 62735
    },
    {
      "epoch": 9.344652963955912,
      "grad_norm": 20.147281646728516,
      "learning_rate": 3.212337354497296e-05,
      "loss": 0.3311,
      "num_input_tokens_seen": 36405648,
      "step": 62740
    },
    {
      "epoch": 9.345397676496873,
      "grad_norm": 0.07218732684850693,
      "learning_rate": 3.2120258762084565e-05,
      "loss": 0.0745,
      "num_input_tokens_seen": 36408336,
      "step": 62745
    },
    {
      "epoch": 9.346142389037832,
      "grad_norm": 0.008013970218598843,
      "learning_rate": 3.211714385890663e-05,
      "loss": 0.2502,
      "num_input_tokens_seen": 36411440,
      "step": 62750
    },
    {
      "epoch": 9.34688710157879,
      "grad_norm": 0.2540352940559387,
      "learning_rate": 3.2114028835491786e-05,
      "loss": 0.3323,
      "num_input_tokens_seen": 36414416,
      "step": 62755
    },
    {
      "epoch": 9.34763181411975,
      "grad_norm": 0.33879613876342773,
      "learning_rate": 3.211091369189265e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 36417168,
      "step": 62760
    },
    {
      "epoch": 9.34837652666071,
      "grad_norm": 0.03536587581038475,
      "learning_rate": 3.210779842816185e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 36420112,
      "step": 62765
    },
    {
      "epoch": 9.349121239201668,
      "grad_norm": 0.02053496055305004,
      "learning_rate": 3.2104683044352025e-05,
      "loss": 0.1233,
      "num_input_tokens_seen": 36422832,
      "step": 62770
    },
    {
      "epoch": 9.349865951742627,
      "grad_norm": 0.010997351258993149,
      "learning_rate": 3.210156754051581e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 36426160,
      "step": 62775
    },
    {
      "epoch": 9.350610664283586,
      "grad_norm": 0.5188878774642944,
      "learning_rate": 3.2098451916705815e-05,
      "loss": 0.0731,
      "num_input_tokens_seen": 36428720,
      "step": 62780
    },
    {
      "epoch": 9.351355376824547,
      "grad_norm": 0.004839595872908831,
      "learning_rate": 3.20953361729747e-05,
      "loss": 0.0921,
      "num_input_tokens_seen": 36431664,
      "step": 62785
    },
    {
      "epoch": 9.352100089365505,
      "grad_norm": 52.38886260986328,
      "learning_rate": 3.209222030937509e-05,
      "loss": 0.383,
      "num_input_tokens_seen": 36434672,
      "step": 62790
    },
    {
      "epoch": 9.352844801906464,
      "grad_norm": 0.02430318295955658,
      "learning_rate": 3.208910432595962e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 36437456,
      "step": 62795
    },
    {
      "epoch": 9.353589514447423,
      "grad_norm": 55.251502990722656,
      "learning_rate": 3.208598822278094e-05,
      "loss": 0.1809,
      "num_input_tokens_seen": 36440560,
      "step": 62800
    },
    {
      "epoch": 9.354334226988382,
      "grad_norm": 0.018220866098999977,
      "learning_rate": 3.208287199989169e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36443600,
      "step": 62805
    },
    {
      "epoch": 9.355078939529342,
      "grad_norm": 0.010270238853991032,
      "learning_rate": 3.207975565734452e-05,
      "loss": 0.2264,
      "num_input_tokens_seen": 36446448,
      "step": 62810
    },
    {
      "epoch": 9.3558236520703,
      "grad_norm": 9.817374229431152,
      "learning_rate": 3.207663919519207e-05,
      "loss": 0.1916,
      "num_input_tokens_seen": 36449136,
      "step": 62815
    },
    {
      "epoch": 9.35656836461126,
      "grad_norm": 0.1859196126461029,
      "learning_rate": 3.2073522613486994e-05,
      "loss": 0.0656,
      "num_input_tokens_seen": 36452176,
      "step": 62820
    },
    {
      "epoch": 9.357313077152218,
      "grad_norm": 0.06061476096510887,
      "learning_rate": 3.207040591228194e-05,
      "loss": 0.08,
      "num_input_tokens_seen": 36455024,
      "step": 62825
    },
    {
      "epoch": 9.358057789693179,
      "grad_norm": 0.01302681490778923,
      "learning_rate": 3.206728909162957e-05,
      "loss": 0.2687,
      "num_input_tokens_seen": 36457968,
      "step": 62830
    },
    {
      "epoch": 9.358802502234138,
      "grad_norm": 0.009890507906675339,
      "learning_rate": 3.206417215158253e-05,
      "loss": 0.0149,
      "num_input_tokens_seen": 36461136,
      "step": 62835
    },
    {
      "epoch": 9.359547214775096,
      "grad_norm": 0.04706210270524025,
      "learning_rate": 3.206105509219348e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36463792,
      "step": 62840
    },
    {
      "epoch": 9.360291927316055,
      "grad_norm": 0.07130446285009384,
      "learning_rate": 3.205793791351509e-05,
      "loss": 0.1096,
      "num_input_tokens_seen": 36466512,
      "step": 62845
    },
    {
      "epoch": 9.361036639857016,
      "grad_norm": 47.5557746887207,
      "learning_rate": 3.2054820615600003e-05,
      "loss": 0.0862,
      "num_input_tokens_seen": 36469520,
      "step": 62850
    },
    {
      "epoch": 9.361781352397974,
      "grad_norm": 60.57183074951172,
      "learning_rate": 3.2051703198500896e-05,
      "loss": 0.1258,
      "num_input_tokens_seen": 36472400,
      "step": 62855
    },
    {
      "epoch": 9.362526064938933,
      "grad_norm": 0.04534319043159485,
      "learning_rate": 3.2048585662270425e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 36475248,
      "step": 62860
    },
    {
      "epoch": 9.363270777479892,
      "grad_norm": 38.065242767333984,
      "learning_rate": 3.204546800696127e-05,
      "loss": 0.0737,
      "num_input_tokens_seen": 36477840,
      "step": 62865
    },
    {
      "epoch": 9.364015490020853,
      "grad_norm": 0.1329597532749176,
      "learning_rate": 3.2042350232626086e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 36480688,
      "step": 62870
    },
    {
      "epoch": 9.364760202561811,
      "grad_norm": 106.58329010009766,
      "learning_rate": 3.203923233931757e-05,
      "loss": 0.1961,
      "num_input_tokens_seen": 36483536,
      "step": 62875
    },
    {
      "epoch": 9.36550491510277,
      "grad_norm": 0.04033774882555008,
      "learning_rate": 3.2036114327088354e-05,
      "loss": 0.1106,
      "num_input_tokens_seen": 36486384,
      "step": 62880
    },
    {
      "epoch": 9.366249627643729,
      "grad_norm": 0.0052011688239872456,
      "learning_rate": 3.203299619599115e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 36489488,
      "step": 62885
    },
    {
      "epoch": 9.36699434018469,
      "grad_norm": 0.006026793271303177,
      "learning_rate": 3.2029877946078624e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 36492528,
      "step": 62890
    },
    {
      "epoch": 9.367739052725648,
      "grad_norm": 0.005238679703325033,
      "learning_rate": 3.2026759577403445e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 36495600,
      "step": 62895
    },
    {
      "epoch": 9.368483765266607,
      "grad_norm": 0.15260978043079376,
      "learning_rate": 3.202364109001831e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36498608,
      "step": 62900
    },
    {
      "epoch": 9.369228477807566,
      "grad_norm": 0.00612495606765151,
      "learning_rate": 3.2020522483975906e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 36501424,
      "step": 62905
    },
    {
      "epoch": 9.369973190348526,
      "grad_norm": 0.010770579800009727,
      "learning_rate": 3.201740375932891e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36504144,
      "step": 62910
    },
    {
      "epoch": 9.370717902889485,
      "grad_norm": 150.61131286621094,
      "learning_rate": 3.201428491613e-05,
      "loss": 0.1039,
      "num_input_tokens_seen": 36507024,
      "step": 62915
    },
    {
      "epoch": 9.371462615430444,
      "grad_norm": 0.08430524915456772,
      "learning_rate": 3.2011165954431873e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36510000,
      "step": 62920
    },
    {
      "epoch": 9.372207327971402,
      "grad_norm": 0.008437144570052624,
      "learning_rate": 3.200804687428724e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 36512656,
      "step": 62925
    },
    {
      "epoch": 9.372952040512363,
      "grad_norm": 8.617865562438965,
      "learning_rate": 3.200492767574876e-05,
      "loss": 0.3085,
      "num_input_tokens_seen": 36515344,
      "step": 62930
    },
    {
      "epoch": 9.373696753053322,
      "grad_norm": 0.003091612132266164,
      "learning_rate": 3.200180835886915e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36518064,
      "step": 62935
    },
    {
      "epoch": 9.37444146559428,
      "grad_norm": 0.057961367070674896,
      "learning_rate": 3.199868892370111e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 36521072,
      "step": 62940
    },
    {
      "epoch": 9.37518617813524,
      "grad_norm": 0.944616973400116,
      "learning_rate": 3.199556937029734e-05,
      "loss": 0.0216,
      "num_input_tokens_seen": 36523824,
      "step": 62945
    },
    {
      "epoch": 9.3759308906762,
      "grad_norm": 81.42829895019531,
      "learning_rate": 3.199244969871052e-05,
      "loss": 0.3139,
      "num_input_tokens_seen": 36526512,
      "step": 62950
    },
    {
      "epoch": 9.376675603217159,
      "grad_norm": 0.0027461915742605925,
      "learning_rate": 3.198932990899337e-05,
      "loss": 0.0544,
      "num_input_tokens_seen": 36529360,
      "step": 62955
    },
    {
      "epoch": 9.377420315758117,
      "grad_norm": 0.025072848424315453,
      "learning_rate": 3.19862100011986e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 36532464,
      "step": 62960
    },
    {
      "epoch": 9.378165028299076,
      "grad_norm": 0.01808750443160534,
      "learning_rate": 3.198308997537891e-05,
      "loss": 0.0895,
      "num_input_tokens_seen": 36535280,
      "step": 62965
    },
    {
      "epoch": 9.378909740840037,
      "grad_norm": 0.026865504682064056,
      "learning_rate": 3.1979969831587014e-05,
      "loss": 0.1181,
      "num_input_tokens_seen": 36538032,
      "step": 62970
    },
    {
      "epoch": 9.379654453380995,
      "grad_norm": 0.006127219181507826,
      "learning_rate": 3.1976849569875624e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 36540848,
      "step": 62975
    },
    {
      "epoch": 9.380399165921954,
      "grad_norm": 0.015992091968655586,
      "learning_rate": 3.197372919029745e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 36543888,
      "step": 62980
    },
    {
      "epoch": 9.381143878462913,
      "grad_norm": 9.809819221496582,
      "learning_rate": 3.1970608692905216e-05,
      "loss": 0.0124,
      "num_input_tokens_seen": 36546832,
      "step": 62985
    },
    {
      "epoch": 9.381888591003872,
      "grad_norm": 187.73162841796875,
      "learning_rate": 3.196748807775162e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 36549616,
      "step": 62990
    },
    {
      "epoch": 9.382633303544832,
      "grad_norm": 0.9290400147438049,
      "learning_rate": 3.19643673448894e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 36552336,
      "step": 62995
    },
    {
      "epoch": 9.383378016085791,
      "grad_norm": 0.3047766089439392,
      "learning_rate": 3.1961246494371275e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 36555248,
      "step": 63000
    },
    {
      "epoch": 9.38412272862675,
      "grad_norm": 0.008911828510463238,
      "learning_rate": 3.195812552624996e-05,
      "loss": 0.1623,
      "num_input_tokens_seen": 36558352,
      "step": 63005
    },
    {
      "epoch": 9.384867441167708,
      "grad_norm": 9.68702507019043,
      "learning_rate": 3.1955004440578196e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 36561136,
      "step": 63010
    },
    {
      "epoch": 9.385612153708669,
      "grad_norm": 0.0019018709426745772,
      "learning_rate": 3.195188323740869e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 36563984,
      "step": 63015
    },
    {
      "epoch": 9.386356866249628,
      "grad_norm": 0.06759827584028244,
      "learning_rate": 3.194876191679418e-05,
      "loss": 0.2503,
      "num_input_tokens_seen": 36567056,
      "step": 63020
    },
    {
      "epoch": 9.387101578790586,
      "grad_norm": 0.02126603201031685,
      "learning_rate": 3.194564047878742e-05,
      "loss": 0.2223,
      "num_input_tokens_seen": 36570224,
      "step": 63025
    },
    {
      "epoch": 9.387846291331545,
      "grad_norm": 0.00162667001131922,
      "learning_rate": 3.19425189234411e-05,
      "loss": 0.0189,
      "num_input_tokens_seen": 36572816,
      "step": 63030
    },
    {
      "epoch": 9.388591003872506,
      "grad_norm": 14.410720825195312,
      "learning_rate": 3.193939725080799e-05,
      "loss": 0.1112,
      "num_input_tokens_seen": 36575568,
      "step": 63035
    },
    {
      "epoch": 9.389335716413465,
      "grad_norm": 5.7456769943237305,
      "learning_rate": 3.1936275460940815e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 36578352,
      "step": 63040
    },
    {
      "epoch": 9.390080428954423,
      "grad_norm": 0.009940629824995995,
      "learning_rate": 3.193315355389231e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 36581104,
      "step": 63045
    },
    {
      "epoch": 9.390825141495382,
      "grad_norm": 0.17593152821063995,
      "learning_rate": 3.1930031529715234e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 36583952,
      "step": 63050
    },
    {
      "epoch": 9.391569854036343,
      "grad_norm": 0.023120857775211334,
      "learning_rate": 3.192690938846231e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36586640,
      "step": 63055
    },
    {
      "epoch": 9.392314566577301,
      "grad_norm": 0.010500588454306126,
      "learning_rate": 3.1923787130186286e-05,
      "loss": 0.0981,
      "num_input_tokens_seen": 36589712,
      "step": 63060
    },
    {
      "epoch": 9.39305927911826,
      "grad_norm": 0.1047932505607605,
      "learning_rate": 3.1920664754939936e-05,
      "loss": 0.2543,
      "num_input_tokens_seen": 36592592,
      "step": 63065
    },
    {
      "epoch": 9.393803991659219,
      "grad_norm": 0.003790424671024084,
      "learning_rate": 3.1917542262775975e-05,
      "loss": 0.2075,
      "num_input_tokens_seen": 36595568,
      "step": 63070
    },
    {
      "epoch": 9.39454870420018,
      "grad_norm": 0.017878200858831406,
      "learning_rate": 3.191441965374717e-05,
      "loss": 0.0659,
      "num_input_tokens_seen": 36598416,
      "step": 63075
    },
    {
      "epoch": 9.395293416741138,
      "grad_norm": 53.3223876953125,
      "learning_rate": 3.191129692790627e-05,
      "loss": 0.1428,
      "num_input_tokens_seen": 36601392,
      "step": 63080
    },
    {
      "epoch": 9.396038129282097,
      "grad_norm": 12.403569221496582,
      "learning_rate": 3.190817408530604e-05,
      "loss": 0.2263,
      "num_input_tokens_seen": 36603984,
      "step": 63085
    },
    {
      "epoch": 9.396782841823056,
      "grad_norm": 0.010515079833567142,
      "learning_rate": 3.190505112599922e-05,
      "loss": 0.1482,
      "num_input_tokens_seen": 36606736,
      "step": 63090
    },
    {
      "epoch": 9.397527554364016,
      "grad_norm": 0.051529139280319214,
      "learning_rate": 3.190192805003858e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36609776,
      "step": 63095
    },
    {
      "epoch": 9.398272266904975,
      "grad_norm": 0.011770985089242458,
      "learning_rate": 3.189880485747688e-05,
      "loss": 0.0981,
      "num_input_tokens_seen": 36612528,
      "step": 63100
    },
    {
      "epoch": 9.399016979445934,
      "grad_norm": 0.07645861059427261,
      "learning_rate": 3.1895681548366896e-05,
      "loss": 0.0741,
      "num_input_tokens_seen": 36615440,
      "step": 63105
    },
    {
      "epoch": 9.399761691986892,
      "grad_norm": 0.13232457637786865,
      "learning_rate": 3.189255812276137e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 36618352,
      "step": 63110
    },
    {
      "epoch": 9.400506404527853,
      "grad_norm": 0.048720505088567734,
      "learning_rate": 3.188943458071308e-05,
      "loss": 0.5046,
      "num_input_tokens_seen": 36621616,
      "step": 63115
    },
    {
      "epoch": 9.401251117068812,
      "grad_norm": 0.11885108798742294,
      "learning_rate": 3.18863109222748e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 36624368,
      "step": 63120
    },
    {
      "epoch": 9.40199582960977,
      "grad_norm": 0.06471480429172516,
      "learning_rate": 3.188318714749929e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36627376,
      "step": 63125
    },
    {
      "epoch": 9.40274054215073,
      "grad_norm": 21.758447647094727,
      "learning_rate": 3.188006325643934e-05,
      "loss": 0.1293,
      "num_input_tokens_seen": 36630384,
      "step": 63130
    },
    {
      "epoch": 9.40348525469169,
      "grad_norm": 0.019710028544068336,
      "learning_rate": 3.1876939249147694e-05,
      "loss": 0.1684,
      "num_input_tokens_seen": 36633520,
      "step": 63135
    },
    {
      "epoch": 9.404229967232649,
      "grad_norm": 0.002115995390340686,
      "learning_rate": 3.187381512567717e-05,
      "loss": 0.1603,
      "num_input_tokens_seen": 36636624,
      "step": 63140
    },
    {
      "epoch": 9.404974679773607,
      "grad_norm": 0.17564360797405243,
      "learning_rate": 3.1870690886080515e-05,
      "loss": 0.0561,
      "num_input_tokens_seen": 36639664,
      "step": 63145
    },
    {
      "epoch": 9.405719392314566,
      "grad_norm": 0.8501636385917664,
      "learning_rate": 3.186756653041053e-05,
      "loss": 0.1702,
      "num_input_tokens_seen": 36642544,
      "step": 63150
    },
    {
      "epoch": 9.406464104855527,
      "grad_norm": 0.0282776840031147,
      "learning_rate": 3.186444205871997e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 36645264,
      "step": 63155
    },
    {
      "epoch": 9.407208817396485,
      "grad_norm": 17.731483459472656,
      "learning_rate": 3.186131747106165e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 36648336,
      "step": 63160
    },
    {
      "epoch": 9.407953529937444,
      "grad_norm": 0.21549232304096222,
      "learning_rate": 3.1858192767488345e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 36651056,
      "step": 63165
    },
    {
      "epoch": 9.408698242478403,
      "grad_norm": 0.06768323481082916,
      "learning_rate": 3.185506794805284e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 36653936,
      "step": 63170
    },
    {
      "epoch": 9.409442955019362,
      "grad_norm": 0.04493745043873787,
      "learning_rate": 3.1851943012807934e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36657040,
      "step": 63175
    },
    {
      "epoch": 9.410187667560322,
      "grad_norm": 0.002513039857149124,
      "learning_rate": 3.184881796180641e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 36660016,
      "step": 63180
    },
    {
      "epoch": 9.410932380101281,
      "grad_norm": 0.030095268040895462,
      "learning_rate": 3.184569279510107e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36662992,
      "step": 63185
    },
    {
      "epoch": 9.41167709264224,
      "grad_norm": 62.729862213134766,
      "learning_rate": 3.184256751274471e-05,
      "loss": 0.1882,
      "num_input_tokens_seen": 36665744,
      "step": 63190
    },
    {
      "epoch": 9.412421805183198,
      "grad_norm": 13.344684600830078,
      "learning_rate": 3.183944211479012e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 36668816,
      "step": 63195
    },
    {
      "epoch": 9.413166517724159,
      "grad_norm": 0.00425142515450716,
      "learning_rate": 3.183631660129011e-05,
      "loss": 0.1964,
      "num_input_tokens_seen": 36672240,
      "step": 63200
    },
    {
      "epoch": 9.413911230265118,
      "grad_norm": 16.04623031616211,
      "learning_rate": 3.183319097229748e-05,
      "loss": 0.0436,
      "num_input_tokens_seen": 36675248,
      "step": 63205
    },
    {
      "epoch": 9.414655942806077,
      "grad_norm": 2.742924451828003,
      "learning_rate": 3.183006522786504e-05,
      "loss": 0.0819,
      "num_input_tokens_seen": 36678224,
      "step": 63210
    },
    {
      "epoch": 9.415400655347035,
      "grad_norm": 0.10211369395256042,
      "learning_rate": 3.182693936804558e-05,
      "loss": 0.0687,
      "num_input_tokens_seen": 36681136,
      "step": 63215
    },
    {
      "epoch": 9.416145367887996,
      "grad_norm": 0.028973184525966644,
      "learning_rate": 3.182381339289192e-05,
      "loss": 0.1171,
      "num_input_tokens_seen": 36684208,
      "step": 63220
    },
    {
      "epoch": 9.416890080428955,
      "grad_norm": 2.6737987995147705,
      "learning_rate": 3.182068730245686e-05,
      "loss": 0.1314,
      "num_input_tokens_seen": 36686960,
      "step": 63225
    },
    {
      "epoch": 9.417634792969913,
      "grad_norm": 0.13763315975666046,
      "learning_rate": 3.181756109679324e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 36689872,
      "step": 63230
    },
    {
      "epoch": 9.418379505510872,
      "grad_norm": 0.03508660942316055,
      "learning_rate": 3.1814434775953837e-05,
      "loss": 0.0199,
      "num_input_tokens_seen": 36692816,
      "step": 63235
    },
    {
      "epoch": 9.419124218051833,
      "grad_norm": 0.014516483061015606,
      "learning_rate": 3.18113083399915e-05,
      "loss": 0.2241,
      "num_input_tokens_seen": 36695728,
      "step": 63240
    },
    {
      "epoch": 9.419868930592791,
      "grad_norm": 0.04437907412648201,
      "learning_rate": 3.180818178895901e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36698864,
      "step": 63245
    },
    {
      "epoch": 9.42061364313375,
      "grad_norm": 0.02877207100391388,
      "learning_rate": 3.180505512290922e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 36702000,
      "step": 63250
    },
    {
      "epoch": 9.421358355674709,
      "grad_norm": 107.5165023803711,
      "learning_rate": 3.1801928341894943e-05,
      "loss": 0.024,
      "num_input_tokens_seen": 36704880,
      "step": 63255
    },
    {
      "epoch": 9.42210306821567,
      "grad_norm": 0.0011965571902692318,
      "learning_rate": 3.1798801445968993e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 36707856,
      "step": 63260
    },
    {
      "epoch": 9.422847780756628,
      "grad_norm": 0.025053594261407852,
      "learning_rate": 3.179567443518421e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 36710736,
      "step": 63265
    },
    {
      "epoch": 9.423592493297587,
      "grad_norm": 85.24364471435547,
      "learning_rate": 3.1792547309593415e-05,
      "loss": 0.2191,
      "num_input_tokens_seen": 36713456,
      "step": 63270
    },
    {
      "epoch": 9.424337205838546,
      "grad_norm": 0.008825653232634068,
      "learning_rate": 3.178942006924943e-05,
      "loss": 0.2223,
      "num_input_tokens_seen": 36716528,
      "step": 63275
    },
    {
      "epoch": 9.425081918379506,
      "grad_norm": 0.16728836297988892,
      "learning_rate": 3.17862927142051e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 36719184,
      "step": 63280
    },
    {
      "epoch": 9.425826630920465,
      "grad_norm": 0.001488647423684597,
      "learning_rate": 3.178316524451325e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 36722000,
      "step": 63285
    },
    {
      "epoch": 9.426571343461424,
      "grad_norm": 0.06600993871688843,
      "learning_rate": 3.178003766022671e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 36724720,
      "step": 63290
    },
    {
      "epoch": 9.427316056002383,
      "grad_norm": 91.71659088134766,
      "learning_rate": 3.177690996139833e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 36727728,
      "step": 63295
    },
    {
      "epoch": 9.428060768543343,
      "grad_norm": 0.008272405713796616,
      "learning_rate": 3.177378214808094e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36730512,
      "step": 63300
    },
    {
      "epoch": 9.428805481084302,
      "grad_norm": 0.01999562419950962,
      "learning_rate": 3.177065422032739e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 36733648,
      "step": 63305
    },
    {
      "epoch": 9.42955019362526,
      "grad_norm": 0.013059411197900772,
      "learning_rate": 3.176752617819052e-05,
      "loss": 0.1504,
      "num_input_tokens_seen": 36736688,
      "step": 63310
    },
    {
      "epoch": 9.43029490616622,
      "grad_norm": 0.0003887221682816744,
      "learning_rate": 3.1764398021723175e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36739472,
      "step": 63315
    },
    {
      "epoch": 9.43103961870718,
      "grad_norm": 0.05407211184501648,
      "learning_rate": 3.17612697509782e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 36742416,
      "step": 63320
    },
    {
      "epoch": 9.431784331248139,
      "grad_norm": 0.365364670753479,
      "learning_rate": 3.1758141366008434e-05,
      "loss": 0.1114,
      "num_input_tokens_seen": 36745424,
      "step": 63325
    },
    {
      "epoch": 9.432529043789097,
      "grad_norm": 0.0025232427287846804,
      "learning_rate": 3.175501286686674e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 36748272,
      "step": 63330
    },
    {
      "epoch": 9.433273756330056,
      "grad_norm": 0.022249091416597366,
      "learning_rate": 3.1751884253605974e-05,
      "loss": 0.1597,
      "num_input_tokens_seen": 36751472,
      "step": 63335
    },
    {
      "epoch": 9.434018468871017,
      "grad_norm": 0.007998642511665821,
      "learning_rate": 3.174875552627899e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36754512,
      "step": 63340
    },
    {
      "epoch": 9.434763181411975,
      "grad_norm": 0.012256436049938202,
      "learning_rate": 3.174562668493863e-05,
      "loss": 0.2575,
      "num_input_tokens_seen": 36757776,
      "step": 63345
    },
    {
      "epoch": 9.435507893952934,
      "grad_norm": 0.1363111287355423,
      "learning_rate": 3.1742497729637774e-05,
      "loss": 0.0677,
      "num_input_tokens_seen": 36760528,
      "step": 63350
    },
    {
      "epoch": 9.436252606493893,
      "grad_norm": 0.0053153010085225105,
      "learning_rate": 3.173936866042927e-05,
      "loss": 0.145,
      "num_input_tokens_seen": 36763536,
      "step": 63355
    },
    {
      "epoch": 9.436997319034852,
      "grad_norm": 0.03883308544754982,
      "learning_rate": 3.173623947736597e-05,
      "loss": 0.0454,
      "num_input_tokens_seen": 36766512,
      "step": 63360
    },
    {
      "epoch": 9.437742031575812,
      "grad_norm": 0.0008938033715821803,
      "learning_rate": 3.1733110180500766e-05,
      "loss": 0.0432,
      "num_input_tokens_seen": 36769328,
      "step": 63365
    },
    {
      "epoch": 9.438486744116771,
      "grad_norm": 0.002168605336919427,
      "learning_rate": 3.17299807698865e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36772304,
      "step": 63370
    },
    {
      "epoch": 9.43923145665773,
      "grad_norm": 0.011327647604048252,
      "learning_rate": 3.1726851245576056e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 36775088,
      "step": 63375
    },
    {
      "epoch": 9.439976169198689,
      "grad_norm": 0.010837797075510025,
      "learning_rate": 3.172372160762229e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36777904,
      "step": 63380
    },
    {
      "epoch": 9.440720881739649,
      "grad_norm": 0.19199499487876892,
      "learning_rate": 3.172059185607808e-05,
      "loss": 0.2082,
      "num_input_tokens_seen": 36780752,
      "step": 63385
    },
    {
      "epoch": 9.441465594280608,
      "grad_norm": 0.0030764550901949406,
      "learning_rate": 3.171746199099631e-05,
      "loss": 0.169,
      "num_input_tokens_seen": 36783664,
      "step": 63390
    },
    {
      "epoch": 9.442210306821567,
      "grad_norm": 0.004936337936669588,
      "learning_rate": 3.171433201242984e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 36786832,
      "step": 63395
    },
    {
      "epoch": 9.442955019362525,
      "grad_norm": 0.1459064781665802,
      "learning_rate": 3.1711201920431556e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 36789488,
      "step": 63400
    },
    {
      "epoch": 9.443699731903486,
      "grad_norm": 66.37409973144531,
      "learning_rate": 3.170807171505434e-05,
      "loss": 0.2731,
      "num_input_tokens_seen": 36792368,
      "step": 63405
    },
    {
      "epoch": 9.444444444444445,
      "grad_norm": 0.007221147418022156,
      "learning_rate": 3.1704941396351064e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 36795184,
      "step": 63410
    },
    {
      "epoch": 9.445189156985403,
      "grad_norm": 0.0016028451500460505,
      "learning_rate": 3.1701810964374626e-05,
      "loss": 0.5039,
      "num_input_tokens_seen": 36798224,
      "step": 63415
    },
    {
      "epoch": 9.445933869526362,
      "grad_norm": 0.011490484699606895,
      "learning_rate": 3.169868041917789e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 36800976,
      "step": 63420
    },
    {
      "epoch": 9.446678582067323,
      "grad_norm": 165.6830291748047,
      "learning_rate": 3.1695549760813764e-05,
      "loss": 0.0838,
      "num_input_tokens_seen": 36803856,
      "step": 63425
    },
    {
      "epoch": 9.447423294608281,
      "grad_norm": 14.384958267211914,
      "learning_rate": 3.169241898933514e-05,
      "loss": 0.1287,
      "num_input_tokens_seen": 36806896,
      "step": 63430
    },
    {
      "epoch": 9.44816800714924,
      "grad_norm": 33.463706970214844,
      "learning_rate": 3.168928810479488e-05,
      "loss": 0.095,
      "num_input_tokens_seen": 36809552,
      "step": 63435
    },
    {
      "epoch": 9.448912719690199,
      "grad_norm": 1.9586650133132935,
      "learning_rate": 3.1686157107245915e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 36812272,
      "step": 63440
    },
    {
      "epoch": 9.44965743223116,
      "grad_norm": 0.0016016113804653287,
      "learning_rate": 3.1683025996741104e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 36815344,
      "step": 63445
    },
    {
      "epoch": 9.450402144772118,
      "grad_norm": 0.15730036795139313,
      "learning_rate": 3.167989477333337e-05,
      "loss": 0.0459,
      "num_input_tokens_seen": 36818352,
      "step": 63450
    },
    {
      "epoch": 9.451146857313077,
      "grad_norm": 0.0070897359400987625,
      "learning_rate": 3.16767634370756e-05,
      "loss": 0.0465,
      "num_input_tokens_seen": 36821040,
      "step": 63455
    },
    {
      "epoch": 9.451891569854036,
      "grad_norm": 0.5762373208999634,
      "learning_rate": 3.16736319880207e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 36823728,
      "step": 63460
    },
    {
      "epoch": 9.452636282394996,
      "grad_norm": 0.007058929651975632,
      "learning_rate": 3.1670500426221566e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 36826480,
      "step": 63465
    },
    {
      "epoch": 9.453380994935955,
      "grad_norm": 21.21394157409668,
      "learning_rate": 3.1667368751731116e-05,
      "loss": 0.0223,
      "num_input_tokens_seen": 36829424,
      "step": 63470
    },
    {
      "epoch": 9.454125707476914,
      "grad_norm": 0.01649555005133152,
      "learning_rate": 3.1664236964602244e-05,
      "loss": 0.1773,
      "num_input_tokens_seen": 36832176,
      "step": 63475
    },
    {
      "epoch": 9.454870420017873,
      "grad_norm": 0.008266523480415344,
      "learning_rate": 3.166110506488786e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36834864,
      "step": 63480
    },
    {
      "epoch": 9.455615132558833,
      "grad_norm": 0.003187630558386445,
      "learning_rate": 3.165797305264087e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 36838032,
      "step": 63485
    },
    {
      "epoch": 9.456359845099792,
      "grad_norm": 2.481459617614746,
      "learning_rate": 3.1654840927914196e-05,
      "loss": 0.0548,
      "num_input_tokens_seen": 36840912,
      "step": 63490
    },
    {
      "epoch": 9.45710455764075,
      "grad_norm": 0.0008860478992573917,
      "learning_rate": 3.165170869076075e-05,
      "loss": 0.0799,
      "num_input_tokens_seen": 36843792,
      "step": 63495
    },
    {
      "epoch": 9.45784927018171,
      "grad_norm": 0.00415171729400754,
      "learning_rate": 3.164857634123345e-05,
      "loss": 0.1462,
      "num_input_tokens_seen": 36846768,
      "step": 63500
    },
    {
      "epoch": 9.458593982722668,
      "grad_norm": 0.13880081474781036,
      "learning_rate": 3.1645443879385206e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 36849680,
      "step": 63505
    },
    {
      "epoch": 9.459338695263629,
      "grad_norm": 0.506560206413269,
      "learning_rate": 3.164231130526894e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 36852688,
      "step": 63510
    },
    {
      "epoch": 9.460083407804587,
      "grad_norm": 0.22059214115142822,
      "learning_rate": 3.163917861893758e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 36855600,
      "step": 63515
    },
    {
      "epoch": 9.460828120345546,
      "grad_norm": 0.013622279278934002,
      "learning_rate": 3.1636045820444044e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 36858704,
      "step": 63520
    },
    {
      "epoch": 9.461572832886505,
      "grad_norm": 0.8710622191429138,
      "learning_rate": 3.163291290984125e-05,
      "loss": 0.1077,
      "num_input_tokens_seen": 36861552,
      "step": 63525
    },
    {
      "epoch": 9.462317545427466,
      "grad_norm": 1.1439708471298218,
      "learning_rate": 3.162977988718214e-05,
      "loss": 0.1065,
      "num_input_tokens_seen": 36864880,
      "step": 63530
    },
    {
      "epoch": 9.463062257968424,
      "grad_norm": 0.008775623515248299,
      "learning_rate": 3.162664675251965e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 36867824,
      "step": 63535
    },
    {
      "epoch": 9.463806970509383,
      "grad_norm": 0.00129328400362283,
      "learning_rate": 3.162351350590668e-05,
      "loss": 0.1017,
      "num_input_tokens_seen": 36870896,
      "step": 63540
    },
    {
      "epoch": 9.464551683050342,
      "grad_norm": 0.08865564316511154,
      "learning_rate": 3.1620380147396186e-05,
      "loss": 0.1629,
      "num_input_tokens_seen": 36873712,
      "step": 63545
    },
    {
      "epoch": 9.465296395591302,
      "grad_norm": 0.0047324239276349545,
      "learning_rate": 3.1617246677041104e-05,
      "loss": 0.1786,
      "num_input_tokens_seen": 36876688,
      "step": 63550
    },
    {
      "epoch": 9.466041108132261,
      "grad_norm": 0.021004213020205498,
      "learning_rate": 3.161411309489436e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36879376,
      "step": 63555
    },
    {
      "epoch": 9.46678582067322,
      "grad_norm": 0.01411187183111906,
      "learning_rate": 3.161097940100889e-05,
      "loss": 0.229,
      "num_input_tokens_seen": 36882288,
      "step": 63560
    },
    {
      "epoch": 9.467530533214179,
      "grad_norm": 1.6993188858032227,
      "learning_rate": 3.160784559543765e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 36885136,
      "step": 63565
    },
    {
      "epoch": 9.46827524575514,
      "grad_norm": 4.107854843139648,
      "learning_rate": 3.160471167823358e-05,
      "loss": 0.0166,
      "num_input_tokens_seen": 36887984,
      "step": 63570
    },
    {
      "epoch": 9.469019958296098,
      "grad_norm": 105.26427459716797,
      "learning_rate": 3.1601577649449606e-05,
      "loss": 0.1559,
      "num_input_tokens_seen": 36891248,
      "step": 63575
    },
    {
      "epoch": 9.469764670837057,
      "grad_norm": 2.2575409412384033,
      "learning_rate": 3.15984435091387e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 36894448,
      "step": 63580
    },
    {
      "epoch": 9.470509383378015,
      "grad_norm": 0.09872289001941681,
      "learning_rate": 3.159530925735379e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 36897520,
      "step": 63585
    },
    {
      "epoch": 9.471254095918976,
      "grad_norm": 10.404170989990234,
      "learning_rate": 3.1592174894147835e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 36900272,
      "step": 63590
    },
    {
      "epoch": 9.471998808459935,
      "grad_norm": 0.006270852871239185,
      "learning_rate": 3.158904041957379e-05,
      "loss": 0.2041,
      "num_input_tokens_seen": 36903152,
      "step": 63595
    },
    {
      "epoch": 9.472743521000893,
      "grad_norm": 0.024056846275925636,
      "learning_rate": 3.1585905833684595e-05,
      "loss": 0.0672,
      "num_input_tokens_seen": 36905968,
      "step": 63600
    },
    {
      "epoch": 9.473488233541852,
      "grad_norm": 0.029456032440066338,
      "learning_rate": 3.158277113653322e-05,
      "loss": 0.1818,
      "num_input_tokens_seen": 36909040,
      "step": 63605
    },
    {
      "epoch": 9.474232946082813,
      "grad_norm": 0.08528520166873932,
      "learning_rate": 3.157963632817261e-05,
      "loss": 0.0732,
      "num_input_tokens_seen": 36911888,
      "step": 63610
    },
    {
      "epoch": 9.474977658623772,
      "grad_norm": 0.2560200095176697,
      "learning_rate": 3.157650140865574e-05,
      "loss": 0.3157,
      "num_input_tokens_seen": 36914832,
      "step": 63615
    },
    {
      "epoch": 9.47572237116473,
      "grad_norm": 0.3874363899230957,
      "learning_rate": 3.157336637803556e-05,
      "loss": 0.0856,
      "num_input_tokens_seen": 36917680,
      "step": 63620
    },
    {
      "epoch": 9.476467083705689,
      "grad_norm": 0.07826261967420578,
      "learning_rate": 3.1570231236365035e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 36920592,
      "step": 63625
    },
    {
      "epoch": 9.47721179624665,
      "grad_norm": 0.06691818684339523,
      "learning_rate": 3.156709598369713e-05,
      "loss": 0.1246,
      "num_input_tokens_seen": 36923408,
      "step": 63630
    },
    {
      "epoch": 9.477956508787608,
      "grad_norm": 0.0007283052545972168,
      "learning_rate": 3.1563960620084816e-05,
      "loss": 0.043,
      "num_input_tokens_seen": 36926480,
      "step": 63635
    },
    {
      "epoch": 9.478701221328567,
      "grad_norm": 0.38992422819137573,
      "learning_rate": 3.1560825145581056e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 36929296,
      "step": 63640
    },
    {
      "epoch": 9.479445933869526,
      "grad_norm": 0.000531055498868227,
      "learning_rate": 3.155768956023882e-05,
      "loss": 0.0515,
      "num_input_tokens_seen": 36932016,
      "step": 63645
    },
    {
      "epoch": 9.480190646410486,
      "grad_norm": 18.693241119384766,
      "learning_rate": 3.155455386411109e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 36934864,
      "step": 63650
    },
    {
      "epoch": 9.480935358951445,
      "grad_norm": 12.53250789642334,
      "learning_rate": 3.1551418057250835e-05,
      "loss": 0.0245,
      "num_input_tokens_seen": 36937648,
      "step": 63655
    },
    {
      "epoch": 9.481680071492404,
      "grad_norm": 0.008173445239663124,
      "learning_rate": 3.1548282139711025e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 36940944,
      "step": 63660
    },
    {
      "epoch": 9.482424784033363,
      "grad_norm": 48.63737487792969,
      "learning_rate": 3.154514611154464e-05,
      "loss": 0.0688,
      "num_input_tokens_seen": 36943472,
      "step": 63665
    },
    {
      "epoch": 9.483169496574323,
      "grad_norm": 0.09429369866847992,
      "learning_rate": 3.154200997280468e-05,
      "loss": 0.0757,
      "num_input_tokens_seen": 36946512,
      "step": 63670
    },
    {
      "epoch": 9.483914209115282,
      "grad_norm": 2.632183074951172,
      "learning_rate": 3.1538873723544105e-05,
      "loss": 0.071,
      "num_input_tokens_seen": 36949456,
      "step": 63675
    },
    {
      "epoch": 9.48465892165624,
      "grad_norm": 14.982667922973633,
      "learning_rate": 3.1535737363815896e-05,
      "loss": 0.2984,
      "num_input_tokens_seen": 36952368,
      "step": 63680
    },
    {
      "epoch": 9.4854036341972,
      "grad_norm": 6.596836566925049,
      "learning_rate": 3.1532600893673045e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 36955600,
      "step": 63685
    },
    {
      "epoch": 9.486148346738158,
      "grad_norm": 25.020044326782227,
      "learning_rate": 3.152946431316855e-05,
      "loss": 0.2223,
      "num_input_tokens_seen": 36958480,
      "step": 63690
    },
    {
      "epoch": 9.486893059279119,
      "grad_norm": 4.295581817626953,
      "learning_rate": 3.152632762235539e-05,
      "loss": 0.2276,
      "num_input_tokens_seen": 36961232,
      "step": 63695
    },
    {
      "epoch": 9.487637771820078,
      "grad_norm": 5.997738361358643,
      "learning_rate": 3.152319082128656e-05,
      "loss": 0.0278,
      "num_input_tokens_seen": 36963984,
      "step": 63700
    },
    {
      "epoch": 9.488382484361036,
      "grad_norm": 1.3622902631759644,
      "learning_rate": 3.1520053910015046e-05,
      "loss": 0.3991,
      "num_input_tokens_seen": 36967184,
      "step": 63705
    },
    {
      "epoch": 9.489127196901995,
      "grad_norm": 10.014002799987793,
      "learning_rate": 3.151691688859385e-05,
      "loss": 0.0814,
      "num_input_tokens_seen": 36970640,
      "step": 63710
    },
    {
      "epoch": 9.489871909442956,
      "grad_norm": 111.99393463134766,
      "learning_rate": 3.151377975707597e-05,
      "loss": 0.1459,
      "num_input_tokens_seen": 36973520,
      "step": 63715
    },
    {
      "epoch": 9.490616621983914,
      "grad_norm": 4.391602993011475,
      "learning_rate": 3.1510642515514393e-05,
      "loss": 0.0688,
      "num_input_tokens_seen": 36976496,
      "step": 63720
    },
    {
      "epoch": 9.491361334524873,
      "grad_norm": 0.000927745015360415,
      "learning_rate": 3.150750516396213e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 36979344,
      "step": 63725
    },
    {
      "epoch": 9.492106047065832,
      "grad_norm": 0.09487705677747726,
      "learning_rate": 3.1504367702472185e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 36982544,
      "step": 63730
    },
    {
      "epoch": 9.492850759606792,
      "grad_norm": 0.11249009519815445,
      "learning_rate": 3.150123013109756e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 36985296,
      "step": 63735
    },
    {
      "epoch": 9.493595472147751,
      "grad_norm": 0.02986328862607479,
      "learning_rate": 3.149809244989125e-05,
      "loss": 0.2355,
      "num_input_tokens_seen": 36988304,
      "step": 63740
    },
    {
      "epoch": 9.49434018468871,
      "grad_norm": 0.2422473430633545,
      "learning_rate": 3.149495465890628e-05,
      "loss": 0.1921,
      "num_input_tokens_seen": 36991248,
      "step": 63745
    },
    {
      "epoch": 9.495084897229669,
      "grad_norm": 15.957756996154785,
      "learning_rate": 3.149181675819565e-05,
      "loss": 0.2024,
      "num_input_tokens_seen": 36994128,
      "step": 63750
    },
    {
      "epoch": 9.49582960977063,
      "grad_norm": 13.963911056518555,
      "learning_rate": 3.148867874781238e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 36997200,
      "step": 63755
    },
    {
      "epoch": 9.496574322311588,
      "grad_norm": 36.19503402709961,
      "learning_rate": 3.148554062780947e-05,
      "loss": 0.0535,
      "num_input_tokens_seen": 37000336,
      "step": 63760
    },
    {
      "epoch": 9.497319034852547,
      "grad_norm": 0.059861138463020325,
      "learning_rate": 3.148240239823994e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 37003280,
      "step": 63765
    },
    {
      "epoch": 9.498063747393505,
      "grad_norm": 0.0365174226462841,
      "learning_rate": 3.147926405915682e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 37006384,
      "step": 63770
    },
    {
      "epoch": 9.498808459934466,
      "grad_norm": 0.0032782270573079586,
      "learning_rate": 3.147612561061312e-05,
      "loss": 0.0493,
      "num_input_tokens_seen": 37009072,
      "step": 63775
    },
    {
      "epoch": 9.499553172475425,
      "grad_norm": 0.8954086899757385,
      "learning_rate": 3.147298705266185e-05,
      "loss": 0.0317,
      "num_input_tokens_seen": 37011792,
      "step": 63780
    },
    {
      "epoch": 9.500297885016384,
      "grad_norm": 0.0014209161745384336,
      "learning_rate": 3.146984838535604e-05,
      "loss": 0.0085,
      "num_input_tokens_seen": 37014672,
      "step": 63785
    },
    {
      "epoch": 9.501042597557342,
      "grad_norm": 5.888589382171631,
      "learning_rate": 3.146670960874872e-05,
      "loss": 0.1503,
      "num_input_tokens_seen": 37017648,
      "step": 63790
    },
    {
      "epoch": 9.501787310098303,
      "grad_norm": 61.00300216674805,
      "learning_rate": 3.146357072289292e-05,
      "loss": 0.0172,
      "num_input_tokens_seen": 37020560,
      "step": 63795
    },
    {
      "epoch": 9.502532022639262,
      "grad_norm": 0.012935539707541466,
      "learning_rate": 3.146043172784166e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 37023376,
      "step": 63800
    },
    {
      "epoch": 9.50327673518022,
      "grad_norm": 0.003218114608898759,
      "learning_rate": 3.1457292623647976e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37026128,
      "step": 63805
    },
    {
      "epoch": 9.504021447721179,
      "grad_norm": 0.020152989774942398,
      "learning_rate": 3.145415341036489e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37028912,
      "step": 63810
    },
    {
      "epoch": 9.50476616026214,
      "grad_norm": 0.023126617074012756,
      "learning_rate": 3.1451014088045435e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 37032048,
      "step": 63815
    },
    {
      "epoch": 9.505510872803098,
      "grad_norm": 0.4495469629764557,
      "learning_rate": 3.144787465674266e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 37034832,
      "step": 63820
    },
    {
      "epoch": 9.506255585344057,
      "grad_norm": 0.011042126454412937,
      "learning_rate": 3.14447351165096e-05,
      "loss": 0.0203,
      "num_input_tokens_seen": 37037840,
      "step": 63825
    },
    {
      "epoch": 9.507000297885016,
      "grad_norm": 0.05641375854611397,
      "learning_rate": 3.1441595467399286e-05,
      "loss": 0.3141,
      "num_input_tokens_seen": 37040816,
      "step": 63830
    },
    {
      "epoch": 9.507745010425975,
      "grad_norm": 0.007785978261381388,
      "learning_rate": 3.143845570946477e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 37043728,
      "step": 63835
    },
    {
      "epoch": 9.508489722966935,
      "grad_norm": 1.1523897647857666,
      "learning_rate": 3.143531584275909e-05,
      "loss": 0.0644,
      "num_input_tokens_seen": 37046512,
      "step": 63840
    },
    {
      "epoch": 9.509234435507894,
      "grad_norm": 0.9157628417015076,
      "learning_rate": 3.1432175867335275e-05,
      "loss": 0.0467,
      "num_input_tokens_seen": 37049360,
      "step": 63845
    },
    {
      "epoch": 9.509979148048853,
      "grad_norm": 0.02169588766992092,
      "learning_rate": 3.1429035783246395e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 37052272,
      "step": 63850
    },
    {
      "epoch": 9.510723860589813,
      "grad_norm": 192.28977966308594,
      "learning_rate": 3.142589559054549e-05,
      "loss": 0.1542,
      "num_input_tokens_seen": 37055152,
      "step": 63855
    },
    {
      "epoch": 9.511468573130772,
      "grad_norm": 41.28947448730469,
      "learning_rate": 3.142275528928561e-05,
      "loss": 0.3004,
      "num_input_tokens_seen": 37057680,
      "step": 63860
    },
    {
      "epoch": 9.51221328567173,
      "grad_norm": 27.38951873779297,
      "learning_rate": 3.141961487951981e-05,
      "loss": 0.211,
      "num_input_tokens_seen": 37060688,
      "step": 63865
    },
    {
      "epoch": 9.51295799821269,
      "grad_norm": 391.19207763671875,
      "learning_rate": 3.141647436130113e-05,
      "loss": 0.0245,
      "num_input_tokens_seen": 37063472,
      "step": 63870
    },
    {
      "epoch": 9.513702710753648,
      "grad_norm": 0.0013415197608992457,
      "learning_rate": 3.1413333734682656e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 37066352,
      "step": 63875
    },
    {
      "epoch": 9.514447423294609,
      "grad_norm": 0.11118926852941513,
      "learning_rate": 3.141019299971741e-05,
      "loss": 0.0378,
      "num_input_tokens_seen": 37069040,
      "step": 63880
    },
    {
      "epoch": 9.515192135835568,
      "grad_norm": 184.41270446777344,
      "learning_rate": 3.140705215645847e-05,
      "loss": 0.1549,
      "num_input_tokens_seen": 37071888,
      "step": 63885
    },
    {
      "epoch": 9.515936848376526,
      "grad_norm": 45.719329833984375,
      "learning_rate": 3.14039112049589e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 37074800,
      "step": 63890
    },
    {
      "epoch": 9.516681560917485,
      "grad_norm": 0.007969869300723076,
      "learning_rate": 3.140077014527176e-05,
      "loss": 0.0479,
      "num_input_tokens_seen": 37077872,
      "step": 63895
    },
    {
      "epoch": 9.517426273458446,
      "grad_norm": 0.00909851398319006,
      "learning_rate": 3.139762897745011e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 37080624,
      "step": 63900
    },
    {
      "epoch": 9.518170985999404,
      "grad_norm": 0.320052832365036,
      "learning_rate": 3.139448770154702e-05,
      "loss": 0.0719,
      "num_input_tokens_seen": 37083376,
      "step": 63905
    },
    {
      "epoch": 9.518915698540363,
      "grad_norm": 0.028509479016065598,
      "learning_rate": 3.139134631761557e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 37086320,
      "step": 63910
    },
    {
      "epoch": 9.519660411081322,
      "grad_norm": 9.510482788085938,
      "learning_rate": 3.1388204825708815e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 37089456,
      "step": 63915
    },
    {
      "epoch": 9.520405123622282,
      "grad_norm": 121.46682739257812,
      "learning_rate": 3.138506322587982e-05,
      "loss": 0.2054,
      "num_input_tokens_seen": 37092144,
      "step": 63920
    },
    {
      "epoch": 9.521149836163241,
      "grad_norm": 99.88745880126953,
      "learning_rate": 3.138192151818168e-05,
      "loss": 0.4083,
      "num_input_tokens_seen": 37095184,
      "step": 63925
    },
    {
      "epoch": 9.5218945487042,
      "grad_norm": 0.03353595361113548,
      "learning_rate": 3.137877970266746e-05,
      "loss": 0.1505,
      "num_input_tokens_seen": 37097776,
      "step": 63930
    },
    {
      "epoch": 9.522639261245159,
      "grad_norm": 0.018255937844514847,
      "learning_rate": 3.1375637779390244e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37100688,
      "step": 63935
    },
    {
      "epoch": 9.52338397378612,
      "grad_norm": 18.08429718017578,
      "learning_rate": 3.137249574840311e-05,
      "loss": 0.4352,
      "num_input_tokens_seen": 37103536,
      "step": 63940
    },
    {
      "epoch": 9.524128686327078,
      "grad_norm": 2.0566530227661133,
      "learning_rate": 3.136935360975913e-05,
      "loss": 0.2852,
      "num_input_tokens_seen": 37106288,
      "step": 63945
    },
    {
      "epoch": 9.524873398868037,
      "grad_norm": 0.023245694115757942,
      "learning_rate": 3.1366211363511394e-05,
      "loss": 0.2116,
      "num_input_tokens_seen": 37109200,
      "step": 63950
    },
    {
      "epoch": 9.525618111408996,
      "grad_norm": 0.005162947345525026,
      "learning_rate": 3.1363069009712994e-05,
      "loss": 0.2101,
      "num_input_tokens_seen": 37112016,
      "step": 63955
    },
    {
      "epoch": 9.526362823949956,
      "grad_norm": 0.004276372026652098,
      "learning_rate": 3.1359926548417007e-05,
      "loss": 0.5949,
      "num_input_tokens_seen": 37114576,
      "step": 63960
    },
    {
      "epoch": 9.527107536490915,
      "grad_norm": 0.18491128087043762,
      "learning_rate": 3.135678397967652e-05,
      "loss": 0.1001,
      "num_input_tokens_seen": 37117488,
      "step": 63965
    },
    {
      "epoch": 9.527852249031874,
      "grad_norm": 0.10116464644670486,
      "learning_rate": 3.135364130354464e-05,
      "loss": 0.1795,
      "num_input_tokens_seen": 37120432,
      "step": 63970
    },
    {
      "epoch": 9.528596961572832,
      "grad_norm": 0.006112068425863981,
      "learning_rate": 3.135049852007444e-05,
      "loss": 0.2697,
      "num_input_tokens_seen": 37123312,
      "step": 63975
    },
    {
      "epoch": 9.529341674113793,
      "grad_norm": 37.096309661865234,
      "learning_rate": 3.134735562931902e-05,
      "loss": 0.2477,
      "num_input_tokens_seen": 37126160,
      "step": 63980
    },
    {
      "epoch": 9.530086386654752,
      "grad_norm": 1.1492546796798706,
      "learning_rate": 3.1344212631331484e-05,
      "loss": 0.2778,
      "num_input_tokens_seen": 37129136,
      "step": 63985
    },
    {
      "epoch": 9.53083109919571,
      "grad_norm": 0.006313086953014135,
      "learning_rate": 3.134106952616491e-05,
      "loss": 0.0509,
      "num_input_tokens_seen": 37131856,
      "step": 63990
    },
    {
      "epoch": 9.53157581173667,
      "grad_norm": 12.293608665466309,
      "learning_rate": 3.133792631387243e-05,
      "loss": 0.2642,
      "num_input_tokens_seen": 37134640,
      "step": 63995
    },
    {
      "epoch": 9.53232052427763,
      "grad_norm": 0.0021701420191675425,
      "learning_rate": 3.133478299450712e-05,
      "loss": 0.0836,
      "num_input_tokens_seen": 37138032,
      "step": 64000
    },
    {
      "epoch": 9.533065236818588,
      "grad_norm": 5.195497035980225,
      "learning_rate": 3.1331639568122084e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 37140784,
      "step": 64005
    },
    {
      "epoch": 9.533809949359547,
      "grad_norm": 14.174898147583008,
      "learning_rate": 3.132849603477044e-05,
      "loss": 0.2212,
      "num_input_tokens_seen": 37143952,
      "step": 64010
    },
    {
      "epoch": 9.534554661900506,
      "grad_norm": 48.43050765991211,
      "learning_rate": 3.132535239450528e-05,
      "loss": 0.1793,
      "num_input_tokens_seen": 37147216,
      "step": 64015
    },
    {
      "epoch": 9.535299374441465,
      "grad_norm": 0.011533008888363838,
      "learning_rate": 3.1322208647379724e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 37150160,
      "step": 64020
    },
    {
      "epoch": 9.536044086982425,
      "grad_norm": 0.016715629026293755,
      "learning_rate": 3.1319064793446876e-05,
      "loss": 0.2444,
      "num_input_tokens_seen": 37153232,
      "step": 64025
    },
    {
      "epoch": 9.536788799523384,
      "grad_norm": 109.26773071289062,
      "learning_rate": 3.131592083275986e-05,
      "loss": 0.2411,
      "num_input_tokens_seen": 37156176,
      "step": 64030
    },
    {
      "epoch": 9.537533512064343,
      "grad_norm": 0.23742370307445526,
      "learning_rate": 3.1312776765371765e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 37159056,
      "step": 64035
    },
    {
      "epoch": 9.538278224605303,
      "grad_norm": 0.013394367881119251,
      "learning_rate": 3.1309632591335734e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 37162320,
      "step": 64040
    },
    {
      "epoch": 9.539022937146262,
      "grad_norm": 5.208802223205566,
      "learning_rate": 3.1306488310704875e-05,
      "loss": 0.0933,
      "num_input_tokens_seen": 37165328,
      "step": 64045
    },
    {
      "epoch": 9.53976764968722,
      "grad_norm": 0.029054928570985794,
      "learning_rate": 3.1303343923532294e-05,
      "loss": 0.1568,
      "num_input_tokens_seen": 37168496,
      "step": 64050
    },
    {
      "epoch": 9.54051236222818,
      "grad_norm": 4.765904903411865,
      "learning_rate": 3.130019942987114e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 37171216,
      "step": 64055
    },
    {
      "epoch": 9.541257074769138,
      "grad_norm": 0.009819572791457176,
      "learning_rate": 3.1297054829774505e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 37174064,
      "step": 64060
    },
    {
      "epoch": 9.542001787310099,
      "grad_norm": 19.627986907958984,
      "learning_rate": 3.1293910123295535e-05,
      "loss": 0.2434,
      "num_input_tokens_seen": 37176656,
      "step": 64065
    },
    {
      "epoch": 9.542746499851058,
      "grad_norm": 0.015041911043226719,
      "learning_rate": 3.1290765310487346e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37179376,
      "step": 64070
    },
    {
      "epoch": 9.543491212392016,
      "grad_norm": 0.0028976711910218,
      "learning_rate": 3.1287620391403086e-05,
      "loss": 0.177,
      "num_input_tokens_seen": 37182448,
      "step": 64075
    },
    {
      "epoch": 9.544235924932975,
      "grad_norm": 79.04613494873047,
      "learning_rate": 3.128447536609585e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 37185360,
      "step": 64080
    },
    {
      "epoch": 9.544980637473936,
      "grad_norm": 0.17724280059337616,
      "learning_rate": 3.12813302346188e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 37188336,
      "step": 64085
    },
    {
      "epoch": 9.545725350014894,
      "grad_norm": 4.981696128845215,
      "learning_rate": 3.127818499702506e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 37191152,
      "step": 64090
    },
    {
      "epoch": 9.546470062555853,
      "grad_norm": 91.6502685546875,
      "learning_rate": 3.127503965336776e-05,
      "loss": 0.2274,
      "num_input_tokens_seen": 37193936,
      "step": 64095
    },
    {
      "epoch": 9.547214775096812,
      "grad_norm": 0.13721588253974915,
      "learning_rate": 3.1271894203700045e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 37197136,
      "step": 64100
    },
    {
      "epoch": 9.547959487637772,
      "grad_norm": 0.24833017587661743,
      "learning_rate": 3.126874864807505e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 37200144,
      "step": 64105
    },
    {
      "epoch": 9.548704200178731,
      "grad_norm": 1.1074132919311523,
      "learning_rate": 3.126560298654593e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 37203088,
      "step": 64110
    },
    {
      "epoch": 9.54944891271969,
      "grad_norm": 57.05271530151367,
      "learning_rate": 3.126245721916581e-05,
      "loss": 0.0802,
      "num_input_tokens_seen": 37206032,
      "step": 64115
    },
    {
      "epoch": 9.550193625260649,
      "grad_norm": 103.79438018798828,
      "learning_rate": 3.125931134598783e-05,
      "loss": 0.1199,
      "num_input_tokens_seen": 37208912,
      "step": 64120
    },
    {
      "epoch": 9.55093833780161,
      "grad_norm": 4.051033973693848,
      "learning_rate": 3.1256165367065155e-05,
      "loss": 0.0124,
      "num_input_tokens_seen": 37211856,
      "step": 64125
    },
    {
      "epoch": 9.551683050342568,
      "grad_norm": 0.026140889152884483,
      "learning_rate": 3.125301928245092e-05,
      "loss": 0.018,
      "num_input_tokens_seen": 37214832,
      "step": 64130
    },
    {
      "epoch": 9.552427762883527,
      "grad_norm": 8.401948928833008,
      "learning_rate": 3.124987309219828e-05,
      "loss": 0.0591,
      "num_input_tokens_seen": 37217616,
      "step": 64135
    },
    {
      "epoch": 9.553172475424486,
      "grad_norm": 0.006940039806067944,
      "learning_rate": 3.124672679636039e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 37220368,
      "step": 64140
    },
    {
      "epoch": 9.553917187965446,
      "grad_norm": 27.878629684448242,
      "learning_rate": 3.12435803949904e-05,
      "loss": 0.1286,
      "num_input_tokens_seen": 37223056,
      "step": 64145
    },
    {
      "epoch": 9.554661900506405,
      "grad_norm": 19.665630340576172,
      "learning_rate": 3.1240433888141466e-05,
      "loss": 0.1438,
      "num_input_tokens_seen": 37225712,
      "step": 64150
    },
    {
      "epoch": 9.555406613047364,
      "grad_norm": 0.012946609407663345,
      "learning_rate": 3.1237287275866736e-05,
      "loss": 0.1319,
      "num_input_tokens_seen": 37228656,
      "step": 64155
    },
    {
      "epoch": 9.556151325588322,
      "grad_norm": 0.45081835985183716,
      "learning_rate": 3.123414055821938e-05,
      "loss": 0.1437,
      "num_input_tokens_seen": 37231760,
      "step": 64160
    },
    {
      "epoch": 9.556896038129283,
      "grad_norm": 0.012257593683898449,
      "learning_rate": 3.1230993735252564e-05,
      "loss": 0.2041,
      "num_input_tokens_seen": 37234352,
      "step": 64165
    },
    {
      "epoch": 9.557640750670242,
      "grad_norm": 0.02071489207446575,
      "learning_rate": 3.1227846807019435e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 37237328,
      "step": 64170
    },
    {
      "epoch": 9.5583854632112,
      "grad_norm": 0.01580427773296833,
      "learning_rate": 3.1224699773573164e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 37240528,
      "step": 64175
    },
    {
      "epoch": 9.55913017575216,
      "grad_norm": 0.2552913427352905,
      "learning_rate": 3.1221552634966914e-05,
      "loss": 0.1173,
      "num_input_tokens_seen": 37243536,
      "step": 64180
    },
    {
      "epoch": 9.55987488829312,
      "grad_norm": 0.013203698210418224,
      "learning_rate": 3.1218405391253856e-05,
      "loss": 0.4503,
      "num_input_tokens_seen": 37246288,
      "step": 64185
    },
    {
      "epoch": 9.560619600834078,
      "grad_norm": 0.005283800885081291,
      "learning_rate": 3.121525804248716e-05,
      "loss": 0.0752,
      "num_input_tokens_seen": 37249456,
      "step": 64190
    },
    {
      "epoch": 9.561364313375037,
      "grad_norm": 0.010392725467681885,
      "learning_rate": 3.1212110588720004e-05,
      "loss": 0.1738,
      "num_input_tokens_seen": 37252592,
      "step": 64195
    },
    {
      "epoch": 9.562109025915996,
      "grad_norm": 30.442466735839844,
      "learning_rate": 3.1208963030005543e-05,
      "loss": 0.0221,
      "num_input_tokens_seen": 37255184,
      "step": 64200
    },
    {
      "epoch": 9.562853738456955,
      "grad_norm": 7.6837077140808105,
      "learning_rate": 3.120581536639697e-05,
      "loss": 0.0141,
      "num_input_tokens_seen": 37257904,
      "step": 64205
    },
    {
      "epoch": 9.563598450997915,
      "grad_norm": 38.83395004272461,
      "learning_rate": 3.120266759794745e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 37260784,
      "step": 64210
    },
    {
      "epoch": 9.564343163538874,
      "grad_norm": 0.007917274720966816,
      "learning_rate": 3.119951972471016e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37263600,
      "step": 64215
    },
    {
      "epoch": 9.565087876079833,
      "grad_norm": 6.332326889038086,
      "learning_rate": 3.119637174673829e-05,
      "loss": 0.2702,
      "num_input_tokens_seen": 37266256,
      "step": 64220
    },
    {
      "epoch": 9.565832588620792,
      "grad_norm": 0.027882272377610207,
      "learning_rate": 3.119322366408501e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37269264,
      "step": 64225
    },
    {
      "epoch": 9.566577301161752,
      "grad_norm": 0.0063484483398497105,
      "learning_rate": 3.119007547680353e-05,
      "loss": 0.0179,
      "num_input_tokens_seen": 37272112,
      "step": 64230
    },
    {
      "epoch": 9.56732201370271,
      "grad_norm": 0.004363528918474913,
      "learning_rate": 3.1186927184947e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 37274960,
      "step": 64235
    },
    {
      "epoch": 9.56806672624367,
      "grad_norm": 28.686134338378906,
      "learning_rate": 3.118377878856863e-05,
      "loss": 0.2075,
      "num_input_tokens_seen": 37277872,
      "step": 64240
    },
    {
      "epoch": 9.568811438784628,
      "grad_norm": 0.013885138556361198,
      "learning_rate": 3.1180630287721595e-05,
      "loss": 0.1879,
      "num_input_tokens_seen": 37280720,
      "step": 64245
    },
    {
      "epoch": 9.569556151325589,
      "grad_norm": 0.03705364093184471,
      "learning_rate": 3.11774816824591e-05,
      "loss": 0.2489,
      "num_input_tokens_seen": 37283312,
      "step": 64250
    },
    {
      "epoch": 9.570300863866548,
      "grad_norm": 57.11568832397461,
      "learning_rate": 3.1174332972834326e-05,
      "loss": 0.1228,
      "num_input_tokens_seen": 37286416,
      "step": 64255
    },
    {
      "epoch": 9.571045576407506,
      "grad_norm": 0.005886000581085682,
      "learning_rate": 3.117118415890047e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 37289296,
      "step": 64260
    },
    {
      "epoch": 9.571790288948465,
      "grad_norm": 108.15129852294922,
      "learning_rate": 3.116803524071074e-05,
      "loss": 0.0513,
      "num_input_tokens_seen": 37291984,
      "step": 64265
    },
    {
      "epoch": 9.572535001489426,
      "grad_norm": 1.409943699836731,
      "learning_rate": 3.116488621831831e-05,
      "loss": 0.1757,
      "num_input_tokens_seen": 37294864,
      "step": 64270
    },
    {
      "epoch": 9.573279714030384,
      "grad_norm": 103.26377868652344,
      "learning_rate": 3.1161737091776404e-05,
      "loss": 0.1998,
      "num_input_tokens_seen": 37297776,
      "step": 64275
    },
    {
      "epoch": 9.574024426571343,
      "grad_norm": 0.0014012755127623677,
      "learning_rate": 3.115858786113821e-05,
      "loss": 0.0562,
      "num_input_tokens_seen": 37300848,
      "step": 64280
    },
    {
      "epoch": 9.574769139112302,
      "grad_norm": 1.1317323446273804,
      "learning_rate": 3.115543852645693e-05,
      "loss": 0.0531,
      "num_input_tokens_seen": 37304112,
      "step": 64285
    },
    {
      "epoch": 9.575513851653263,
      "grad_norm": 1.3460848331451416,
      "learning_rate": 3.1152289087785776e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 37306896,
      "step": 64290
    },
    {
      "epoch": 9.576258564194221,
      "grad_norm": 0.0021667960099875927,
      "learning_rate": 3.114913954517794e-05,
      "loss": 0.2366,
      "num_input_tokens_seen": 37310032,
      "step": 64295
    },
    {
      "epoch": 9.57700327673518,
      "grad_norm": 0.00679745664820075,
      "learning_rate": 3.1145989898686656e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37312880,
      "step": 64300
    },
    {
      "epoch": 9.577747989276139,
      "grad_norm": 0.17818087339401245,
      "learning_rate": 3.114284014836512e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 37315792,
      "step": 64305
    },
    {
      "epoch": 9.5784927018171,
      "grad_norm": 0.013871237635612488,
      "learning_rate": 3.1139690294266526e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37318768,
      "step": 64310
    },
    {
      "epoch": 9.579237414358058,
      "grad_norm": 132.27389526367188,
      "learning_rate": 3.1136540336444114e-05,
      "loss": 0.3173,
      "num_input_tokens_seen": 37321904,
      "step": 64315
    },
    {
      "epoch": 9.579982126899017,
      "grad_norm": 0.0041452432051301,
      "learning_rate": 3.11333902749511e-05,
      "loss": 0.1094,
      "num_input_tokens_seen": 37325008,
      "step": 64320
    },
    {
      "epoch": 9.580726839439976,
      "grad_norm": 0.08855058997869492,
      "learning_rate": 3.1130240109840676e-05,
      "loss": 0.2544,
      "num_input_tokens_seen": 37328016,
      "step": 64325
    },
    {
      "epoch": 9.581471551980936,
      "grad_norm": 0.030887985602021217,
      "learning_rate": 3.112708984116608e-05,
      "loss": 0.0491,
      "num_input_tokens_seen": 37330800,
      "step": 64330
    },
    {
      "epoch": 9.582216264521895,
      "grad_norm": 0.6293290257453918,
      "learning_rate": 3.1123939468980535e-05,
      "loss": 0.0163,
      "num_input_tokens_seen": 37333520,
      "step": 64335
    },
    {
      "epoch": 9.582960977062854,
      "grad_norm": 0.033967673778533936,
      "learning_rate": 3.1120788993337244e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37336496,
      "step": 64340
    },
    {
      "epoch": 9.583705689603812,
      "grad_norm": 0.47734972834587097,
      "learning_rate": 3.111763841428945e-05,
      "loss": 0.0292,
      "num_input_tokens_seen": 37339440,
      "step": 64345
    },
    {
      "epoch": 9.584450402144771,
      "grad_norm": 41.47929763793945,
      "learning_rate": 3.111448773189037e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 37342576,
      "step": 64350
    },
    {
      "epoch": 9.585195114685732,
      "grad_norm": 0.23906706273555756,
      "learning_rate": 3.1111336946193244e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 37345616,
      "step": 64355
    },
    {
      "epoch": 9.58593982722669,
      "grad_norm": 0.004817616194486618,
      "learning_rate": 3.1108186057251285e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 37348880,
      "step": 64360
    },
    {
      "epoch": 9.58668453976765,
      "grad_norm": 0.030644303187727928,
      "learning_rate": 3.1105035065117735e-05,
      "loss": 0.4599,
      "num_input_tokens_seen": 37351664,
      "step": 64365
    },
    {
      "epoch": 9.58742925230861,
      "grad_norm": 0.007692542392760515,
      "learning_rate": 3.110188396984582e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37354544,
      "step": 64370
    },
    {
      "epoch": 9.588173964849569,
      "grad_norm": 0.00726230489090085,
      "learning_rate": 3.109873277148878e-05,
      "loss": 0.1705,
      "num_input_tokens_seen": 37357200,
      "step": 64375
    },
    {
      "epoch": 9.588918677390527,
      "grad_norm": 0.00221350253559649,
      "learning_rate": 3.109558147009984e-05,
      "loss": 0.0717,
      "num_input_tokens_seen": 37360272,
      "step": 64380
    },
    {
      "epoch": 9.589663389931486,
      "grad_norm": 0.2962542772293091,
      "learning_rate": 3.1092430065732246e-05,
      "loss": 0.1452,
      "num_input_tokens_seen": 37363248,
      "step": 64385
    },
    {
      "epoch": 9.590408102472445,
      "grad_norm": 213.38075256347656,
      "learning_rate": 3.108927855843924e-05,
      "loss": 0.324,
      "num_input_tokens_seen": 37366160,
      "step": 64390
    },
    {
      "epoch": 9.591152815013405,
      "grad_norm": 0.010919371619820595,
      "learning_rate": 3.108612694827407e-05,
      "loss": 0.0137,
      "num_input_tokens_seen": 37368880,
      "step": 64395
    },
    {
      "epoch": 9.591897527554364,
      "grad_norm": 0.0115773044526577,
      "learning_rate": 3.108297523528997e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 37371600,
      "step": 64400
    },
    {
      "epoch": 9.592642240095323,
      "grad_norm": 0.0022294619120657444,
      "learning_rate": 3.107982341954018e-05,
      "loss": 0.1817,
      "num_input_tokens_seen": 37374672,
      "step": 64405
    },
    {
      "epoch": 9.593386952636282,
      "grad_norm": 0.00277049676515162,
      "learning_rate": 3.1076671501077946e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 37377520,
      "step": 64410
    },
    {
      "epoch": 9.594131665177242,
      "grad_norm": 0.0022632812615484,
      "learning_rate": 3.1073519479956534e-05,
      "loss": 0.1383,
      "num_input_tokens_seen": 37380720,
      "step": 64415
    },
    {
      "epoch": 9.594876377718201,
      "grad_norm": 0.009908058680593967,
      "learning_rate": 3.107036735622918e-05,
      "loss": 0.0765,
      "num_input_tokens_seen": 37383856,
      "step": 64420
    },
    {
      "epoch": 9.59562109025916,
      "grad_norm": 0.0015359240351244807,
      "learning_rate": 3.106721512994913e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 37386832,
      "step": 64425
    },
    {
      "epoch": 9.596365802800118,
      "grad_norm": 0.0074591790325939655,
      "learning_rate": 3.1064062801169666e-05,
      "loss": 0.0149,
      "num_input_tokens_seen": 37389840,
      "step": 64430
    },
    {
      "epoch": 9.597110515341079,
      "grad_norm": 0.09533995389938354,
      "learning_rate": 3.106091036994401e-05,
      "loss": 0.1521,
      "num_input_tokens_seen": 37392528,
      "step": 64435
    },
    {
      "epoch": 9.597855227882038,
      "grad_norm": 0.14795586466789246,
      "learning_rate": 3.105775783632544e-05,
      "loss": 0.0276,
      "num_input_tokens_seen": 37395312,
      "step": 64440
    },
    {
      "epoch": 9.598599940422996,
      "grad_norm": 0.0035225767642259598,
      "learning_rate": 3.10546052003672e-05,
      "loss": 0.0562,
      "num_input_tokens_seen": 37398000,
      "step": 64445
    },
    {
      "epoch": 9.599344652963955,
      "grad_norm": 0.12140481919050217,
      "learning_rate": 3.105145246212257e-05,
      "loss": 0.06,
      "num_input_tokens_seen": 37400688,
      "step": 64450
    },
    {
      "epoch": 9.600089365504916,
      "grad_norm": 62.582706451416016,
      "learning_rate": 3.1048299621644794e-05,
      "loss": 0.2608,
      "num_input_tokens_seen": 37403664,
      "step": 64455
    },
    {
      "epoch": 9.600834078045875,
      "grad_norm": 0.008935320191085339,
      "learning_rate": 3.1045146678987144e-05,
      "loss": 0.2784,
      "num_input_tokens_seen": 37406896,
      "step": 64460
    },
    {
      "epoch": 9.601578790586833,
      "grad_norm": 77.16401672363281,
      "learning_rate": 3.104199363420289e-05,
      "loss": 0.0536,
      "num_input_tokens_seen": 37409712,
      "step": 64465
    },
    {
      "epoch": 9.602323503127792,
      "grad_norm": 21.889850616455078,
      "learning_rate": 3.1038840487345286e-05,
      "loss": 0.1538,
      "num_input_tokens_seen": 37412528,
      "step": 64470
    },
    {
      "epoch": 9.603068215668753,
      "grad_norm": 0.09368286281824112,
      "learning_rate": 3.103568723846761e-05,
      "loss": 0.1042,
      "num_input_tokens_seen": 37415248,
      "step": 64475
    },
    {
      "epoch": 9.603812928209711,
      "grad_norm": 0.010722885839641094,
      "learning_rate": 3.103253388762314e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37418160,
      "step": 64480
    },
    {
      "epoch": 9.60455764075067,
      "grad_norm": 0.00756206177175045,
      "learning_rate": 3.102938043486513e-05,
      "loss": 0.026,
      "num_input_tokens_seen": 37421392,
      "step": 64485
    },
    {
      "epoch": 9.605302353291629,
      "grad_norm": 0.029892809689044952,
      "learning_rate": 3.102622688024688e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 37424432,
      "step": 64490
    },
    {
      "epoch": 9.60604706583259,
      "grad_norm": 0.005482695065438747,
      "learning_rate": 3.1023073223821643e-05,
      "loss": 0.0736,
      "num_input_tokens_seen": 37427216,
      "step": 64495
    },
    {
      "epoch": 9.606791778373548,
      "grad_norm": 54.10575485229492,
      "learning_rate": 3.101991946564271e-05,
      "loss": 0.0558,
      "num_input_tokens_seen": 37430352,
      "step": 64500
    },
    {
      "epoch": 9.607536490914507,
      "grad_norm": 0.015672948211431503,
      "learning_rate": 3.1016765605763346e-05,
      "loss": 0.0383,
      "num_input_tokens_seen": 37433392,
      "step": 64505
    },
    {
      "epoch": 9.608281203455466,
      "grad_norm": 0.8849456906318665,
      "learning_rate": 3.101361164423685e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 37436368,
      "step": 64510
    },
    {
      "epoch": 9.609025915996426,
      "grad_norm": 0.019569972530007362,
      "learning_rate": 3.1010457581116494e-05,
      "loss": 0.2405,
      "num_input_tokens_seen": 37439408,
      "step": 64515
    },
    {
      "epoch": 9.609770628537385,
      "grad_norm": 0.02302994765341282,
      "learning_rate": 3.100730341645557e-05,
      "loss": 0.1662,
      "num_input_tokens_seen": 37442768,
      "step": 64520
    },
    {
      "epoch": 9.610515341078344,
      "grad_norm": 0.022881200537085533,
      "learning_rate": 3.100414915030736e-05,
      "loss": 0.1111,
      "num_input_tokens_seen": 37445616,
      "step": 64525
    },
    {
      "epoch": 9.611260053619302,
      "grad_norm": 0.045875322073698044,
      "learning_rate": 3.100099478272515e-05,
      "loss": 0.2303,
      "num_input_tokens_seen": 37448656,
      "step": 64530
    },
    {
      "epoch": 9.612004766160261,
      "grad_norm": 0.020507732406258583,
      "learning_rate": 3.099784031376224e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37451408,
      "step": 64535
    },
    {
      "epoch": 9.612749478701222,
      "grad_norm": 0.018053093925118446,
      "learning_rate": 3.09946857434719e-05,
      "loss": 0.2481,
      "num_input_tokens_seen": 37454384,
      "step": 64540
    },
    {
      "epoch": 9.61349419124218,
      "grad_norm": 0.014643444679677486,
      "learning_rate": 3.099153107190744e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37457424,
      "step": 64545
    },
    {
      "epoch": 9.61423890378314,
      "grad_norm": 0.03830290958285332,
      "learning_rate": 3.0988376299122154e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 37460624,
      "step": 64550
    },
    {
      "epoch": 9.6149836163241,
      "grad_norm": 0.02020825631916523,
      "learning_rate": 3.098522142516934e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 37463600,
      "step": 64555
    },
    {
      "epoch": 9.615728328865059,
      "grad_norm": 0.030487628653645515,
      "learning_rate": 3.09820664501023e-05,
      "loss": 0.1491,
      "num_input_tokens_seen": 37466416,
      "step": 64560
    },
    {
      "epoch": 9.616473041406017,
      "grad_norm": 0.024044981226325035,
      "learning_rate": 3.097891137397432e-05,
      "loss": 0.4435,
      "num_input_tokens_seen": 37469584,
      "step": 64565
    },
    {
      "epoch": 9.617217753946976,
      "grad_norm": 0.016527287662029266,
      "learning_rate": 3.097575619683871e-05,
      "loss": 0.0441,
      "num_input_tokens_seen": 37472304,
      "step": 64570
    },
    {
      "epoch": 9.617962466487935,
      "grad_norm": 0.02019442431628704,
      "learning_rate": 3.097260091874877e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 37474960,
      "step": 64575
    },
    {
      "epoch": 9.618707179028895,
      "grad_norm": 20.394519805908203,
      "learning_rate": 3.0969445539757805e-05,
      "loss": 0.1917,
      "num_input_tokens_seen": 37477648,
      "step": 64580
    },
    {
      "epoch": 9.619451891569854,
      "grad_norm": 22.96033477783203,
      "learning_rate": 3.0966290059919126e-05,
      "loss": 0.1264,
      "num_input_tokens_seen": 37480560,
      "step": 64585
    },
    {
      "epoch": 9.620196604110813,
      "grad_norm": 0.2547285258769989,
      "learning_rate": 3.096313447928604e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 37483472,
      "step": 64590
    },
    {
      "epoch": 9.620941316651772,
      "grad_norm": 0.08051875978708267,
      "learning_rate": 3.095997879791187e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 37486256,
      "step": 64595
    },
    {
      "epoch": 9.621686029192732,
      "grad_norm": 0.007145935203880072,
      "learning_rate": 3.095682301584991e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37489264,
      "step": 64600
    },
    {
      "epoch": 9.622430741733691,
      "grad_norm": 1.8160364627838135,
      "learning_rate": 3.095366713315347e-05,
      "loss": 0.0922,
      "num_input_tokens_seen": 37492400,
      "step": 64605
    },
    {
      "epoch": 9.62317545427465,
      "grad_norm": 2.2480266094207764,
      "learning_rate": 3.095051114987588e-05,
      "loss": 0.0112,
      "num_input_tokens_seen": 37495344,
      "step": 64610
    },
    {
      "epoch": 9.623920166815608,
      "grad_norm": 0.7694269418716431,
      "learning_rate": 3.094735506607045e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 37498576,
      "step": 64615
    },
    {
      "epoch": 9.624664879356569,
      "grad_norm": 84.65205383300781,
      "learning_rate": 3.09441988817905e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 37501424,
      "step": 64620
    },
    {
      "epoch": 9.625409591897528,
      "grad_norm": 0.02062106691300869,
      "learning_rate": 3.0941042597089356e-05,
      "loss": 0.1165,
      "num_input_tokens_seen": 37504336,
      "step": 64625
    },
    {
      "epoch": 9.626154304438487,
      "grad_norm": 74.10003662109375,
      "learning_rate": 3.093788621202033e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 37507312,
      "step": 64630
    },
    {
      "epoch": 9.626899016979445,
      "grad_norm": 0.3296249806880951,
      "learning_rate": 3.0934729726636755e-05,
      "loss": 0.2224,
      "num_input_tokens_seen": 37510288,
      "step": 64635
    },
    {
      "epoch": 9.627643729520406,
      "grad_norm": 42.27216720581055,
      "learning_rate": 3.093157314099196e-05,
      "loss": 0.1808,
      "num_input_tokens_seen": 37513328,
      "step": 64640
    },
    {
      "epoch": 9.628388442061365,
      "grad_norm": 0.024182213470339775,
      "learning_rate": 3.092841645513925e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 37516144,
      "step": 64645
    },
    {
      "epoch": 9.629133154602323,
      "grad_norm": 0.009358285926282406,
      "learning_rate": 3.092525966913198e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 37518896,
      "step": 64650
    },
    {
      "epoch": 9.629877867143282,
      "grad_norm": 0.1753641963005066,
      "learning_rate": 3.0922102783023466e-05,
      "loss": 0.0246,
      "num_input_tokens_seen": 37522032,
      "step": 64655
    },
    {
      "epoch": 9.630622579684243,
      "grad_norm": 0.11747247725725174,
      "learning_rate": 3.0918945796867044e-05,
      "loss": 0.1033,
      "num_input_tokens_seen": 37524976,
      "step": 64660
    },
    {
      "epoch": 9.631367292225201,
      "grad_norm": 0.02289055660367012,
      "learning_rate": 3.091578871071605e-05,
      "loss": 0.0782,
      "num_input_tokens_seen": 37527856,
      "step": 64665
    },
    {
      "epoch": 9.63211200476616,
      "grad_norm": 0.004341976251453161,
      "learning_rate": 3.0912631524623826e-05,
      "loss": 0.0202,
      "num_input_tokens_seen": 37530768,
      "step": 64670
    },
    {
      "epoch": 9.632856717307119,
      "grad_norm": 0.010692134499549866,
      "learning_rate": 3.0909474238643694e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 37533424,
      "step": 64675
    },
    {
      "epoch": 9.63360142984808,
      "grad_norm": 0.018273038789629936,
      "learning_rate": 3.090631685282901e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 37536080,
      "step": 64680
    },
    {
      "epoch": 9.634346142389038,
      "grad_norm": 0.03339123725891113,
      "learning_rate": 3.0903159367233086e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 37538992,
      "step": 64685
    },
    {
      "epoch": 9.635090854929997,
      "grad_norm": 0.025639476254582405,
      "learning_rate": 3.09000017819093e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37542192,
      "step": 64690
    },
    {
      "epoch": 9.635835567470956,
      "grad_norm": 0.028546983376145363,
      "learning_rate": 3.089684409691097e-05,
      "loss": 0.2405,
      "num_input_tokens_seen": 37545072,
      "step": 64695
    },
    {
      "epoch": 9.636580280011916,
      "grad_norm": 24.52751350402832,
      "learning_rate": 3.0893686312291466e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 37547792,
      "step": 64700
    },
    {
      "epoch": 9.637324992552875,
      "grad_norm": 12.248939514160156,
      "learning_rate": 3.089052842810411e-05,
      "loss": 0.3038,
      "num_input_tokens_seen": 37550640,
      "step": 64705
    },
    {
      "epoch": 9.638069705093834,
      "grad_norm": 0.005292408633977175,
      "learning_rate": 3.088737044440226e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 37553360,
      "step": 64710
    },
    {
      "epoch": 9.638814417634793,
      "grad_norm": 0.016261078417301178,
      "learning_rate": 3.088421236123928e-05,
      "loss": 0.165,
      "num_input_tokens_seen": 37556368,
      "step": 64715
    },
    {
      "epoch": 9.639559130175751,
      "grad_norm": 0.003710557008162141,
      "learning_rate": 3.0881054178668514e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37559248,
      "step": 64720
    },
    {
      "epoch": 9.640303842716712,
      "grad_norm": 62.46343994140625,
      "learning_rate": 3.087789589674331e-05,
      "loss": 0.1752,
      "num_input_tokens_seen": 37562064,
      "step": 64725
    },
    {
      "epoch": 9.64104855525767,
      "grad_norm": 0.07106887549161911,
      "learning_rate": 3.087473751551703e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 37564912,
      "step": 64730
    },
    {
      "epoch": 9.64179326779863,
      "grad_norm": 0.03217829018831253,
      "learning_rate": 3.087157903504303e-05,
      "loss": 0.1344,
      "num_input_tokens_seen": 37567792,
      "step": 64735
    },
    {
      "epoch": 9.642537980339588,
      "grad_norm": 15.21090316772461,
      "learning_rate": 3.086842045537467e-05,
      "loss": 0.2521,
      "num_input_tokens_seen": 37570704,
      "step": 64740
    },
    {
      "epoch": 9.643282692880549,
      "grad_norm": 0.008587783202528954,
      "learning_rate": 3.0865261776565306e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37573488,
      "step": 64745
    },
    {
      "epoch": 9.644027405421507,
      "grad_norm": 0.030727075412869453,
      "learning_rate": 3.0862102998668314e-05,
      "loss": 0.2885,
      "num_input_tokens_seen": 37576624,
      "step": 64750
    },
    {
      "epoch": 9.644772117962466,
      "grad_norm": 0.002221266273409128,
      "learning_rate": 3.085894412173704e-05,
      "loss": 0.0936,
      "num_input_tokens_seen": 37579408,
      "step": 64755
    },
    {
      "epoch": 9.645516830503425,
      "grad_norm": 0.08871927112340927,
      "learning_rate": 3.085578514582487e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37582224,
      "step": 64760
    },
    {
      "epoch": 9.646261543044385,
      "grad_norm": 0.08672985434532166,
      "learning_rate": 3.0852626070985164e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 37585488,
      "step": 64765
    },
    {
      "epoch": 9.647006255585344,
      "grad_norm": 36.175235748291016,
      "learning_rate": 3.084946689727128e-05,
      "loss": 0.0428,
      "num_input_tokens_seen": 37588144,
      "step": 64770
    },
    {
      "epoch": 9.647750968126303,
      "grad_norm": 0.003129195887595415,
      "learning_rate": 3.08463076247366e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 37591248,
      "step": 64775
    },
    {
      "epoch": 9.648495680667262,
      "grad_norm": 21.082984924316406,
      "learning_rate": 3.084314825343449e-05,
      "loss": 0.2294,
      "num_input_tokens_seen": 37593968,
      "step": 64780
    },
    {
      "epoch": 9.649240393208222,
      "grad_norm": 100.41988372802734,
      "learning_rate": 3.083998878341833e-05,
      "loss": 0.2585,
      "num_input_tokens_seen": 37596624,
      "step": 64785
    },
    {
      "epoch": 9.649985105749181,
      "grad_norm": 79.46961212158203,
      "learning_rate": 3.0836829214741496e-05,
      "loss": 0.2532,
      "num_input_tokens_seen": 37599440,
      "step": 64790
    },
    {
      "epoch": 9.65072981829014,
      "grad_norm": 176.34947204589844,
      "learning_rate": 3.0833669547457375e-05,
      "loss": 0.2896,
      "num_input_tokens_seen": 37602416,
      "step": 64795
    },
    {
      "epoch": 9.651474530831099,
      "grad_norm": 11.693086624145508,
      "learning_rate": 3.083050978161933e-05,
      "loss": 0.3114,
      "num_input_tokens_seen": 37605392,
      "step": 64800
    },
    {
      "epoch": 9.652219243372059,
      "grad_norm": 0.031147342175245285,
      "learning_rate": 3.082734991728075e-05,
      "loss": 0.061,
      "num_input_tokens_seen": 37608208,
      "step": 64805
    },
    {
      "epoch": 9.652963955913018,
      "grad_norm": 17.47374153137207,
      "learning_rate": 3.0824189954495006e-05,
      "loss": 0.1239,
      "num_input_tokens_seen": 37611088,
      "step": 64810
    },
    {
      "epoch": 9.653708668453977,
      "grad_norm": 0.04046254977583885,
      "learning_rate": 3.08210298933155e-05,
      "loss": 0.1856,
      "num_input_tokens_seen": 37613648,
      "step": 64815
    },
    {
      "epoch": 9.654453380994935,
      "grad_norm": 23.931642532348633,
      "learning_rate": 3.081786973379561e-05,
      "loss": 0.1927,
      "num_input_tokens_seen": 37616272,
      "step": 64820
    },
    {
      "epoch": 9.655198093535896,
      "grad_norm": 6.7925124168396,
      "learning_rate": 3.081470947598872e-05,
      "loss": 0.3956,
      "num_input_tokens_seen": 37619024,
      "step": 64825
    },
    {
      "epoch": 9.655942806076855,
      "grad_norm": 0.033185429871082306,
      "learning_rate": 3.081154911994822e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 37622000,
      "step": 64830
    },
    {
      "epoch": 9.656687518617813,
      "grad_norm": 6.712645530700684,
      "learning_rate": 3.080838866572752e-05,
      "loss": 0.0442,
      "num_input_tokens_seen": 37624560,
      "step": 64835
    },
    {
      "epoch": 9.657432231158772,
      "grad_norm": 0.08491973578929901,
      "learning_rate": 3.0805228113379986e-05,
      "loss": 0.1404,
      "num_input_tokens_seen": 37627376,
      "step": 64840
    },
    {
      "epoch": 9.658176943699733,
      "grad_norm": 0.006169172935187817,
      "learning_rate": 3.080206746295902e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 37630192,
      "step": 64845
    },
    {
      "epoch": 9.658921656240691,
      "grad_norm": 0.34318849444389343,
      "learning_rate": 3.079890671451802e-05,
      "loss": 0.106,
      "num_input_tokens_seen": 37632720,
      "step": 64850
    },
    {
      "epoch": 9.65966636878165,
      "grad_norm": 3.5847814083099365,
      "learning_rate": 3.079574586811039e-05,
      "loss": 0.1726,
      "num_input_tokens_seen": 37635856,
      "step": 64855
    },
    {
      "epoch": 9.660411081322609,
      "grad_norm": 0.14264756441116333,
      "learning_rate": 3.0792584923789525e-05,
      "loss": 0.0128,
      "num_input_tokens_seen": 37638672,
      "step": 64860
    },
    {
      "epoch": 9.66115579386357,
      "grad_norm": 11.021591186523438,
      "learning_rate": 3.078942388160883e-05,
      "loss": 0.0324,
      "num_input_tokens_seen": 37641616,
      "step": 64865
    },
    {
      "epoch": 9.661900506404528,
      "grad_norm": 66.44261169433594,
      "learning_rate": 3.07862627416217e-05,
      "loss": 0.0688,
      "num_input_tokens_seen": 37644432,
      "step": 64870
    },
    {
      "epoch": 9.662645218945487,
      "grad_norm": 0.049455124884843826,
      "learning_rate": 3.0783101503881526e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 37647216,
      "step": 64875
    },
    {
      "epoch": 9.663389931486446,
      "grad_norm": 0.006606116425246,
      "learning_rate": 3.0779940168441754e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37650032,
      "step": 64880
    },
    {
      "epoch": 9.664134644027406,
      "grad_norm": 0.0155789228156209,
      "learning_rate": 3.077677873535575e-05,
      "loss": 0.2293,
      "num_input_tokens_seen": 37653072,
      "step": 64885
    },
    {
      "epoch": 9.664879356568365,
      "grad_norm": 0.01498840469866991,
      "learning_rate": 3.0773617204676946e-05,
      "loss": 0.0777,
      "num_input_tokens_seen": 37656016,
      "step": 64890
    },
    {
      "epoch": 9.665624069109324,
      "grad_norm": 72.50982666015625,
      "learning_rate": 3.077045557645875e-05,
      "loss": 0.3565,
      "num_input_tokens_seen": 37658992,
      "step": 64895
    },
    {
      "epoch": 9.666368781650283,
      "grad_norm": 0.04978325217962265,
      "learning_rate": 3.0767293850754566e-05,
      "loss": 0.185,
      "num_input_tokens_seen": 37661776,
      "step": 64900
    },
    {
      "epoch": 9.667113494191241,
      "grad_norm": 0.0030758152715861797,
      "learning_rate": 3.076413202761782e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 37664528,
      "step": 64905
    },
    {
      "epoch": 9.667858206732202,
      "grad_norm": 0.1304587721824646,
      "learning_rate": 3.076097010710192e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 37667280,
      "step": 64910
    },
    {
      "epoch": 9.66860291927316,
      "grad_norm": 32.02494430541992,
      "learning_rate": 3.075780808926028e-05,
      "loss": 0.3075,
      "num_input_tokens_seen": 37670448,
      "step": 64915
    },
    {
      "epoch": 9.66934763181412,
      "grad_norm": 0.010873994790017605,
      "learning_rate": 3.075464597414632e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 37673296,
      "step": 64920
    },
    {
      "epoch": 9.670092344355078,
      "grad_norm": 0.0047443825751543045,
      "learning_rate": 3.075148376181348e-05,
      "loss": 0.0977,
      "num_input_tokens_seen": 37676112,
      "step": 64925
    },
    {
      "epoch": 9.670837056896039,
      "grad_norm": 2.3746066093444824,
      "learning_rate": 3.074832145231517e-05,
      "loss": 0.219,
      "num_input_tokens_seen": 37678864,
      "step": 64930
    },
    {
      "epoch": 9.671581769436997,
      "grad_norm": 0.011978380382061005,
      "learning_rate": 3.07451590457048e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37681648,
      "step": 64935
    },
    {
      "epoch": 9.672326481977956,
      "grad_norm": 0.7336978912353516,
      "learning_rate": 3.0741996542035804e-05,
      "loss": 0.0117,
      "num_input_tokens_seen": 37684560,
      "step": 64940
    },
    {
      "epoch": 9.673071194518915,
      "grad_norm": 22.820499420166016,
      "learning_rate": 3.073883394136162e-05,
      "loss": 0.8799,
      "num_input_tokens_seen": 37687344,
      "step": 64945
    },
    {
      "epoch": 9.673815907059875,
      "grad_norm": 0.024284765124320984,
      "learning_rate": 3.073567124373567e-05,
      "loss": 0.0536,
      "num_input_tokens_seen": 37690064,
      "step": 64950
    },
    {
      "epoch": 9.674560619600834,
      "grad_norm": 14.463897705078125,
      "learning_rate": 3.0732508449211373e-05,
      "loss": 0.5039,
      "num_input_tokens_seen": 37692976,
      "step": 64955
    },
    {
      "epoch": 9.675305332141793,
      "grad_norm": 0.3582735061645508,
      "learning_rate": 3.0729345557842184e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 37696048,
      "step": 64960
    },
    {
      "epoch": 9.676050044682752,
      "grad_norm": 40.066139221191406,
      "learning_rate": 3.072618256968153e-05,
      "loss": 0.0213,
      "num_input_tokens_seen": 37698832,
      "step": 64965
    },
    {
      "epoch": 9.676794757223712,
      "grad_norm": 0.07093643397092819,
      "learning_rate": 3.072301948478283e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 37701776,
      "step": 64970
    },
    {
      "epoch": 9.677539469764671,
      "grad_norm": 53.75940704345703,
      "learning_rate": 3.0719856303199526e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 37704784,
      "step": 64975
    },
    {
      "epoch": 9.67828418230563,
      "grad_norm": 0.6619844436645508,
      "learning_rate": 3.071669302498508e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 37707632,
      "step": 64980
    },
    {
      "epoch": 9.679028894846589,
      "grad_norm": 38.09144973754883,
      "learning_rate": 3.07135296501929e-05,
      "loss": 0.2819,
      "num_input_tokens_seen": 37710448,
      "step": 64985
    },
    {
      "epoch": 9.679773607387549,
      "grad_norm": 0.09123270213603973,
      "learning_rate": 3.071036617887645e-05,
      "loss": 0.1462,
      "num_input_tokens_seen": 37713200,
      "step": 64990
    },
    {
      "epoch": 9.680518319928508,
      "grad_norm": 0.10722525417804718,
      "learning_rate": 3.070720261108917e-05,
      "loss": 0.4247,
      "num_input_tokens_seen": 37716016,
      "step": 64995
    },
    {
      "epoch": 9.681263032469467,
      "grad_norm": 0.011013832874596119,
      "learning_rate": 3.07040389468845e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 37718800,
      "step": 65000
    },
    {
      "epoch": 9.682007745010425,
      "grad_norm": 61.11623001098633,
      "learning_rate": 3.070087518631589e-05,
      "loss": 0.2081,
      "num_input_tokens_seen": 37721904,
      "step": 65005
    },
    {
      "epoch": 9.682752457551386,
      "grad_norm": 0.3344527781009674,
      "learning_rate": 3.069771132943679e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 37724688,
      "step": 65010
    },
    {
      "epoch": 9.683497170092345,
      "grad_norm": 27.880062103271484,
      "learning_rate": 3.069454737630064e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 37727376,
      "step": 65015
    },
    {
      "epoch": 9.684241882633303,
      "grad_norm": 0.031133441254496574,
      "learning_rate": 3.069138332696091e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 37730320,
      "step": 65020
    },
    {
      "epoch": 9.684986595174262,
      "grad_norm": 0.03164292126893997,
      "learning_rate": 3.0688219181471036e-05,
      "loss": 0.4458,
      "num_input_tokens_seen": 37732880,
      "step": 65025
    },
    {
      "epoch": 9.685731307715223,
      "grad_norm": 0.010455161333084106,
      "learning_rate": 3.0685054939884485e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 37735568,
      "step": 65030
    },
    {
      "epoch": 9.686476020256181,
      "grad_norm": 0.03204428404569626,
      "learning_rate": 3.0681890602254704e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 37738608,
      "step": 65035
    },
    {
      "epoch": 9.68722073279714,
      "grad_norm": 0.030730929225683212,
      "learning_rate": 3.067872616863516e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 37741392,
      "step": 65040
    },
    {
      "epoch": 9.687965445338099,
      "grad_norm": 31.428503036499023,
      "learning_rate": 3.0675561639079306e-05,
      "loss": 0.2761,
      "num_input_tokens_seen": 37744304,
      "step": 65045
    },
    {
      "epoch": 9.688710157879058,
      "grad_norm": 0.008298640139400959,
      "learning_rate": 3.0672397013640605e-05,
      "loss": 0.1319,
      "num_input_tokens_seen": 37747184,
      "step": 65050
    },
    {
      "epoch": 9.689454870420018,
      "grad_norm": 0.13320113718509674,
      "learning_rate": 3.066923229237253e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 37750096,
      "step": 65055
    },
    {
      "epoch": 9.690199582960977,
      "grad_norm": 0.07212600111961365,
      "learning_rate": 3.0666067475328534e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37752944,
      "step": 65060
    },
    {
      "epoch": 9.690944295501936,
      "grad_norm": 0.026667192578315735,
      "learning_rate": 3.066290256256208e-05,
      "loss": 0.0526,
      "num_input_tokens_seen": 37755856,
      "step": 65065
    },
    {
      "epoch": 9.691689008042896,
      "grad_norm": 0.37426334619522095,
      "learning_rate": 3.065973755412665e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 37758800,
      "step": 65070
    },
    {
      "epoch": 9.692433720583855,
      "grad_norm": 0.005939048249274492,
      "learning_rate": 3.06565724500757e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 37761744,
      "step": 65075
    },
    {
      "epoch": 9.693178433124814,
      "grad_norm": 0.002911217510700226,
      "learning_rate": 3.0653407250462716e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 37764592,
      "step": 65080
    },
    {
      "epoch": 9.693923145665773,
      "grad_norm": 0.055989280343055725,
      "learning_rate": 3.065024195534116e-05,
      "loss": 0.0296,
      "num_input_tokens_seen": 37767248,
      "step": 65085
    },
    {
      "epoch": 9.694667858206731,
      "grad_norm": 20.809349060058594,
      "learning_rate": 3.06470765647645e-05,
      "loss": 0.3181,
      "num_input_tokens_seen": 37770128,
      "step": 65090
    },
    {
      "epoch": 9.695412570747692,
      "grad_norm": 0.019144795835018158,
      "learning_rate": 3.064391107878623e-05,
      "loss": 0.2097,
      "num_input_tokens_seen": 37773200,
      "step": 65095
    },
    {
      "epoch": 9.69615728328865,
      "grad_norm": 0.001080620801076293,
      "learning_rate": 3.064074549745982e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 37775824,
      "step": 65100
    },
    {
      "epoch": 9.69690199582961,
      "grad_norm": 0.01636037416756153,
      "learning_rate": 3.063757982083874e-05,
      "loss": 0.0268,
      "num_input_tokens_seen": 37778320,
      "step": 65105
    },
    {
      "epoch": 9.697646708370568,
      "grad_norm": 0.29438546299934387,
      "learning_rate": 3.063441404897648e-05,
      "loss": 0.1391,
      "num_input_tokens_seen": 37780976,
      "step": 65110
    },
    {
      "epoch": 9.698391420911529,
      "grad_norm": 0.017477884888648987,
      "learning_rate": 3.063124818192652e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 37783600,
      "step": 65115
    },
    {
      "epoch": 9.699136133452487,
      "grad_norm": 0.005940211471170187,
      "learning_rate": 3.062808221974235e-05,
      "loss": 0.1232,
      "num_input_tokens_seen": 37786544,
      "step": 65120
    },
    {
      "epoch": 9.699880845993446,
      "grad_norm": 1.40413236618042,
      "learning_rate": 3.062491616247745e-05,
      "loss": 0.3293,
      "num_input_tokens_seen": 37789584,
      "step": 65125
    },
    {
      "epoch": 9.700625558534405,
      "grad_norm": 0.1431489735841751,
      "learning_rate": 3.0621750010185316e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 37793360,
      "step": 65130
    },
    {
      "epoch": 9.701370271075366,
      "grad_norm": 7.125877857208252,
      "learning_rate": 3.0618583762919417e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 37796112,
      "step": 65135
    },
    {
      "epoch": 9.702114983616324,
      "grad_norm": 0.014734442345798016,
      "learning_rate": 3.0615417420733264e-05,
      "loss": 0.0907,
      "num_input_tokens_seen": 37798928,
      "step": 65140
    },
    {
      "epoch": 9.702859696157283,
      "grad_norm": 0.14695137739181519,
      "learning_rate": 3.0612250983680336e-05,
      "loss": 0.2677,
      "num_input_tokens_seen": 37801872,
      "step": 65145
    },
    {
      "epoch": 9.703604408698242,
      "grad_norm": 0.07357914000749588,
      "learning_rate": 3.060908445181413e-05,
      "loss": 0.0727,
      "num_input_tokens_seen": 37804976,
      "step": 65150
    },
    {
      "epoch": 9.704349121239202,
      "grad_norm": 0.01435802411288023,
      "learning_rate": 3.060591782518815e-05,
      "loss": 0.0296,
      "num_input_tokens_seen": 37807728,
      "step": 65155
    },
    {
      "epoch": 9.705093833780161,
      "grad_norm": 0.09215003252029419,
      "learning_rate": 3.060275110385588e-05,
      "loss": 0.0113,
      "num_input_tokens_seen": 37810704,
      "step": 65160
    },
    {
      "epoch": 9.70583854632112,
      "grad_norm": 0.07131379097700119,
      "learning_rate": 3.059958428787083e-05,
      "loss": 0.1762,
      "num_input_tokens_seen": 37813616,
      "step": 65165
    },
    {
      "epoch": 9.706583258862079,
      "grad_norm": 0.09817787259817123,
      "learning_rate": 3.059641737728649e-05,
      "loss": 0.1304,
      "num_input_tokens_seen": 37816432,
      "step": 65170
    },
    {
      "epoch": 9.70732797140304,
      "grad_norm": 0.07586562633514404,
      "learning_rate": 3.059325037215637e-05,
      "loss": 0.0179,
      "num_input_tokens_seen": 37819280,
      "step": 65175
    },
    {
      "epoch": 9.708072683943998,
      "grad_norm": 42.1340217590332,
      "learning_rate": 3.059008327253396e-05,
      "loss": 0.2069,
      "num_input_tokens_seen": 37822064,
      "step": 65180
    },
    {
      "epoch": 9.708817396484957,
      "grad_norm": 0.007777610793709755,
      "learning_rate": 3.0586916078472785e-05,
      "loss": 0.2042,
      "num_input_tokens_seen": 37824816,
      "step": 65185
    },
    {
      "epoch": 9.709562109025915,
      "grad_norm": 11.07295036315918,
      "learning_rate": 3.058374879002634e-05,
      "loss": 0.0201,
      "num_input_tokens_seen": 37827760,
      "step": 65190
    },
    {
      "epoch": 9.710306821566876,
      "grad_norm": 21.457151412963867,
      "learning_rate": 3.0580581407248126e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 37830896,
      "step": 65195
    },
    {
      "epoch": 9.711051534107835,
      "grad_norm": 0.07906179875135422,
      "learning_rate": 3.0577413930191666e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 37833744,
      "step": 65200
    },
    {
      "epoch": 9.711796246648793,
      "grad_norm": 108.81816101074219,
      "learning_rate": 3.0574246358910474e-05,
      "loss": 0.2758,
      "num_input_tokens_seen": 37836624,
      "step": 65205
    },
    {
      "epoch": 9.712540959189752,
      "grad_norm": 16.552762985229492,
      "learning_rate": 3.057107869345804e-05,
      "loss": 0.1915,
      "num_input_tokens_seen": 37839504,
      "step": 65210
    },
    {
      "epoch": 9.713285671730713,
      "grad_norm": 0.019484415650367737,
      "learning_rate": 3.0567910933887905e-05,
      "loss": 0.0817,
      "num_input_tokens_seen": 37842576,
      "step": 65215
    },
    {
      "epoch": 9.714030384271672,
      "grad_norm": 0.0547330342233181,
      "learning_rate": 3.056474308025357e-05,
      "loss": 0.2188,
      "num_input_tokens_seen": 37845328,
      "step": 65220
    },
    {
      "epoch": 9.71477509681263,
      "grad_norm": 0.14957723021507263,
      "learning_rate": 3.056157513260856e-05,
      "loss": 0.344,
      "num_input_tokens_seen": 37848496,
      "step": 65225
    },
    {
      "epoch": 9.715519809353589,
      "grad_norm": 2.2334489822387695,
      "learning_rate": 3.055840709100639e-05,
      "loss": 0.0902,
      "num_input_tokens_seen": 37851280,
      "step": 65230
    },
    {
      "epoch": 9.716264521894548,
      "grad_norm": 0.45077067613601685,
      "learning_rate": 3.055523895550058e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 37854256,
      "step": 65235
    },
    {
      "epoch": 9.717009234435508,
      "grad_norm": 0.017398284748196602,
      "learning_rate": 3.055207072614465e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 37856944,
      "step": 65240
    },
    {
      "epoch": 9.717753946976467,
      "grad_norm": 11.892057418823242,
      "learning_rate": 3.0548902402992134e-05,
      "loss": 0.0899,
      "num_input_tokens_seen": 37859824,
      "step": 65245
    },
    {
      "epoch": 9.718498659517426,
      "grad_norm": 0.09828346222639084,
      "learning_rate": 3.0545733986096545e-05,
      "loss": 0.2884,
      "num_input_tokens_seen": 37862608,
      "step": 65250
    },
    {
      "epoch": 9.719243372058386,
      "grad_norm": 112.74544525146484,
      "learning_rate": 3.054256547551142e-05,
      "loss": 0.1488,
      "num_input_tokens_seen": 37865456,
      "step": 65255
    },
    {
      "epoch": 9.719988084599345,
      "grad_norm": 0.2530066668987274,
      "learning_rate": 3.0539396871290294e-05,
      "loss": 0.0199,
      "num_input_tokens_seen": 37868112,
      "step": 65260
    },
    {
      "epoch": 9.720732797140304,
      "grad_norm": 0.13758669793605804,
      "learning_rate": 3.053622817348668e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37870768,
      "step": 65265
    },
    {
      "epoch": 9.721477509681263,
      "grad_norm": 0.04143117368221283,
      "learning_rate": 3.053305938215411e-05,
      "loss": 0.0057,
      "num_input_tokens_seen": 37873840,
      "step": 65270
    },
    {
      "epoch": 9.722222222222221,
      "grad_norm": 0.016521047800779343,
      "learning_rate": 3.052989049734613e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37876848,
      "step": 65275
    },
    {
      "epoch": 9.722966934763182,
      "grad_norm": 0.062314994633197784,
      "learning_rate": 3.052672151911627e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 37879696,
      "step": 65280
    },
    {
      "epoch": 9.72371164730414,
      "grad_norm": 0.04839193820953369,
      "learning_rate": 3.052355244751807e-05,
      "loss": 0.19,
      "num_input_tokens_seen": 37882384,
      "step": 65285
    },
    {
      "epoch": 9.7244563598451,
      "grad_norm": 0.599120020866394,
      "learning_rate": 3.052038328260507e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 37885264,
      "step": 65290
    },
    {
      "epoch": 9.725201072386058,
      "grad_norm": 0.13301090896129608,
      "learning_rate": 3.05172140244308e-05,
      "loss": 0.2648,
      "num_input_tokens_seen": 37888304,
      "step": 65295
    },
    {
      "epoch": 9.725945784927019,
      "grad_norm": 38.400856018066406,
      "learning_rate": 3.051404467304881e-05,
      "loss": 0.2761,
      "num_input_tokens_seen": 37891024,
      "step": 65300
    },
    {
      "epoch": 9.726690497467978,
      "grad_norm": 0.004837090149521828,
      "learning_rate": 3.051087522851263e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 37893744,
      "step": 65305
    },
    {
      "epoch": 9.727435210008936,
      "grad_norm": 0.2986435890197754,
      "learning_rate": 3.050770569087582e-05,
      "loss": 0.2042,
      "num_input_tokens_seen": 37896656,
      "step": 65310
    },
    {
      "epoch": 9.728179922549895,
      "grad_norm": 13.566506385803223,
      "learning_rate": 3.0504536060191917e-05,
      "loss": 0.1482,
      "num_input_tokens_seen": 37899952,
      "step": 65315
    },
    {
      "epoch": 9.728924635090856,
      "grad_norm": 2.3676469326019287,
      "learning_rate": 3.0501366336514477e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 37903120,
      "step": 65320
    },
    {
      "epoch": 9.729669347631814,
      "grad_norm": 48.00205612182617,
      "learning_rate": 3.0498196519897044e-05,
      "loss": 0.2887,
      "num_input_tokens_seen": 37905872,
      "step": 65325
    },
    {
      "epoch": 9.730414060172773,
      "grad_norm": 2.1732029914855957,
      "learning_rate": 3.0495026610393168e-05,
      "loss": 0.1173,
      "num_input_tokens_seen": 37908816,
      "step": 65330
    },
    {
      "epoch": 9.731158772713732,
      "grad_norm": 0.01423807255923748,
      "learning_rate": 3.0491856608056403e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 37911696,
      "step": 65335
    },
    {
      "epoch": 9.731903485254692,
      "grad_norm": 0.013859003782272339,
      "learning_rate": 3.0488686512940297e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 37914512,
      "step": 65340
    },
    {
      "epoch": 9.732648197795651,
      "grad_norm": 10.272247314453125,
      "learning_rate": 3.0485516325098413e-05,
      "loss": 0.1072,
      "num_input_tokens_seen": 37917488,
      "step": 65345
    },
    {
      "epoch": 9.73339291033661,
      "grad_norm": 0.04081888496875763,
      "learning_rate": 3.0482346044584305e-05,
      "loss": 0.0924,
      "num_input_tokens_seen": 37920176,
      "step": 65350
    },
    {
      "epoch": 9.734137622877569,
      "grad_norm": 0.00834213849157095,
      "learning_rate": 3.047917567145153e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 37922864,
      "step": 65355
    },
    {
      "epoch": 9.73488233541853,
      "grad_norm": 0.05509127676486969,
      "learning_rate": 3.0476005205753666e-05,
      "loss": 0.061,
      "num_input_tokens_seen": 37926032,
      "step": 65360
    },
    {
      "epoch": 9.735627047959488,
      "grad_norm": 0.769917368888855,
      "learning_rate": 3.047283464754425e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 37929168,
      "step": 65365
    },
    {
      "epoch": 9.736371760500447,
      "grad_norm": 0.03292857110500336,
      "learning_rate": 3.0469663996876853e-05,
      "loss": 0.0747,
      "num_input_tokens_seen": 37932016,
      "step": 65370
    },
    {
      "epoch": 9.737116473041405,
      "grad_norm": 0.2152160406112671,
      "learning_rate": 3.046649325380504e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 37934800,
      "step": 65375
    },
    {
      "epoch": 9.737861185582366,
      "grad_norm": 17.976627349853516,
      "learning_rate": 3.0463322418382384e-05,
      "loss": 0.4311,
      "num_input_tokens_seen": 37937648,
      "step": 65380
    },
    {
      "epoch": 9.738605898123325,
      "grad_norm": 0.002688389038667083,
      "learning_rate": 3.0460151490662442e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 37940656,
      "step": 65385
    },
    {
      "epoch": 9.739350610664284,
      "grad_norm": 0.031207608059048653,
      "learning_rate": 3.0456980470698803e-05,
      "loss": 0.0231,
      "num_input_tokens_seen": 37943920,
      "step": 65390
    },
    {
      "epoch": 9.740095323205242,
      "grad_norm": 92.27030181884766,
      "learning_rate": 3.0453809358545016e-05,
      "loss": 0.0421,
      "num_input_tokens_seen": 37947056,
      "step": 65395
    },
    {
      "epoch": 9.740840035746203,
      "grad_norm": 0.7493383288383484,
      "learning_rate": 3.0450638154254664e-05,
      "loss": 0.1419,
      "num_input_tokens_seen": 37949712,
      "step": 65400
    },
    {
      "epoch": 9.741584748287162,
      "grad_norm": 0.04082806035876274,
      "learning_rate": 3.0447466857881318e-05,
      "loss": 0.021,
      "num_input_tokens_seen": 37952816,
      "step": 65405
    },
    {
      "epoch": 9.74232946082812,
      "grad_norm": 0.020272569730877876,
      "learning_rate": 3.0444295469478557e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 37955568,
      "step": 65410
    },
    {
      "epoch": 9.743074173369079,
      "grad_norm": 0.02778054215013981,
      "learning_rate": 3.0441123989099958e-05,
      "loss": 0.112,
      "num_input_tokens_seen": 37958640,
      "step": 65415
    },
    {
      "epoch": 9.743818885910038,
      "grad_norm": 37.32758331298828,
      "learning_rate": 3.0437952416799097e-05,
      "loss": 0.2105,
      "num_input_tokens_seen": 37961360,
      "step": 65420
    },
    {
      "epoch": 9.744563598450998,
      "grad_norm": 6.611920356750488,
      "learning_rate": 3.0434780752629567e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 37964528,
      "step": 65425
    },
    {
      "epoch": 9.745308310991957,
      "grad_norm": 0.012885828502476215,
      "learning_rate": 3.043160899664493e-05,
      "loss": 0.3081,
      "num_input_tokens_seen": 37967664,
      "step": 65430
    },
    {
      "epoch": 9.746053023532916,
      "grad_norm": 0.06156991422176361,
      "learning_rate": 3.042843714889878e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 37970416,
      "step": 65435
    },
    {
      "epoch": 9.746797736073875,
      "grad_norm": 0.006536928936839104,
      "learning_rate": 3.0425265209444704e-05,
      "loss": 0.0122,
      "num_input_tokens_seen": 37973520,
      "step": 65440
    },
    {
      "epoch": 9.747542448614835,
      "grad_norm": 0.0057715424336493015,
      "learning_rate": 3.0422093178336287e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 37976304,
      "step": 65445
    },
    {
      "epoch": 9.748287161155794,
      "grad_norm": 0.007856518030166626,
      "learning_rate": 3.0418921055627115e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 37979248,
      "step": 65450
    },
    {
      "epoch": 9.749031873696753,
      "grad_norm": 57.34212875366211,
      "learning_rate": 3.0415748841370778e-05,
      "loss": 0.247,
      "num_input_tokens_seen": 37982288,
      "step": 65455
    },
    {
      "epoch": 9.749776586237711,
      "grad_norm": 0.02294144779443741,
      "learning_rate": 3.0412576535620873e-05,
      "loss": 0.2318,
      "num_input_tokens_seen": 37985136,
      "step": 65460
    },
    {
      "epoch": 9.750521298778672,
      "grad_norm": 11.415149688720703,
      "learning_rate": 3.0409404138430986e-05,
      "loss": 0.0142,
      "num_input_tokens_seen": 37988144,
      "step": 65465
    },
    {
      "epoch": 9.75126601131963,
      "grad_norm": 6.324585437774658,
      "learning_rate": 3.040623164985471e-05,
      "loss": 0.0429,
      "num_input_tokens_seen": 37990800,
      "step": 65470
    },
    {
      "epoch": 9.75201072386059,
      "grad_norm": 0.342864453792572,
      "learning_rate": 3.040305906994565e-05,
      "loss": 0.1383,
      "num_input_tokens_seen": 37993584,
      "step": 65475
    },
    {
      "epoch": 9.752755436401548,
      "grad_norm": 0.007008133921772242,
      "learning_rate": 3.0399886398757394e-05,
      "loss": 0.2867,
      "num_input_tokens_seen": 37996176,
      "step": 65480
    },
    {
      "epoch": 9.753500148942509,
      "grad_norm": 1.0290416479110718,
      "learning_rate": 3.0396713636343553e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 37999216,
      "step": 65485
    },
    {
      "epoch": 9.754244861483468,
      "grad_norm": 0.007796319667249918,
      "learning_rate": 3.039354078275771e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 38001968,
      "step": 65490
    },
    {
      "epoch": 9.754989574024426,
      "grad_norm": 5.273936748504639,
      "learning_rate": 3.039036783805349e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 38005040,
      "step": 65495
    },
    {
      "epoch": 9.755734286565385,
      "grad_norm": 0.059985555708408356,
      "learning_rate": 3.0387194802284474e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 38008144,
      "step": 65500
    },
    {
      "epoch": 9.756478999106346,
      "grad_norm": 83.35790252685547,
      "learning_rate": 3.0384021675504283e-05,
      "loss": 0.0236,
      "num_input_tokens_seen": 38011216,
      "step": 65505
    },
    {
      "epoch": 9.757223711647304,
      "grad_norm": 0.004777963738888502,
      "learning_rate": 3.038084845776651e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38014160,
      "step": 65510
    },
    {
      "epoch": 9.757968424188263,
      "grad_norm": 11.103790283203125,
      "learning_rate": 3.0377675149124772e-05,
      "loss": 0.2715,
      "num_input_tokens_seen": 38017072,
      "step": 65515
    },
    {
      "epoch": 9.758713136729222,
      "grad_norm": 0.008940992876887321,
      "learning_rate": 3.0374501749632684e-05,
      "loss": 0.1257,
      "num_input_tokens_seen": 38019824,
      "step": 65520
    },
    {
      "epoch": 9.759457849270182,
      "grad_norm": 52.98103332519531,
      "learning_rate": 3.037132825934385e-05,
      "loss": 0.2884,
      "num_input_tokens_seen": 38022992,
      "step": 65525
    },
    {
      "epoch": 9.760202561811141,
      "grad_norm": 0.012912340462207794,
      "learning_rate": 3.0368154678311888e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38025552,
      "step": 65530
    },
    {
      "epoch": 9.7609472743521,
      "grad_norm": 0.0075016929768025875,
      "learning_rate": 3.0364981006590404e-05,
      "loss": 0.1635,
      "num_input_tokens_seen": 38028368,
      "step": 65535
    },
    {
      "epoch": 9.761691986893059,
      "grad_norm": 0.023414600640535355,
      "learning_rate": 3.0361807244233016e-05,
      "loss": 0.0777,
      "num_input_tokens_seen": 38031216,
      "step": 65540
    },
    {
      "epoch": 9.76243669943402,
      "grad_norm": 0.33894476294517517,
      "learning_rate": 3.0358633391293346e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 38034192,
      "step": 65545
    },
    {
      "epoch": 9.763181411974978,
      "grad_norm": 0.07520409673452377,
      "learning_rate": 3.0355459447825014e-05,
      "loss": 0.179,
      "num_input_tokens_seen": 38036912,
      "step": 65550
    },
    {
      "epoch": 9.763926124515937,
      "grad_norm": 6.491623401641846,
      "learning_rate": 3.0352285413881636e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 38039920,
      "step": 65555
    },
    {
      "epoch": 9.764670837056896,
      "grad_norm": 0.02714470773935318,
      "learning_rate": 3.0349111289516834e-05,
      "loss": 0.1231,
      "num_input_tokens_seen": 38042832,
      "step": 65560
    },
    {
      "epoch": 9.765415549597854,
      "grad_norm": 0.01542395818978548,
      "learning_rate": 3.0345937074784235e-05,
      "loss": 0.1811,
      "num_input_tokens_seen": 38045392,
      "step": 65565
    },
    {
      "epoch": 9.766160262138815,
      "grad_norm": 0.0054361470974981785,
      "learning_rate": 3.0342762769737464e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38048464,
      "step": 65570
    },
    {
      "epoch": 9.766904974679774,
      "grad_norm": 0.0027458672411739826,
      "learning_rate": 3.0339588374430146e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38051440,
      "step": 65575
    },
    {
      "epoch": 9.767649687220732,
      "grad_norm": 0.01218950841575861,
      "learning_rate": 3.0336413888915903e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 38054096,
      "step": 65580
    },
    {
      "epoch": 9.768394399761693,
      "grad_norm": 0.0009346565348096192,
      "learning_rate": 3.0333239313248372e-05,
      "loss": 0.0275,
      "num_input_tokens_seen": 38057200,
      "step": 65585
    },
    {
      "epoch": 9.769139112302652,
      "grad_norm": 0.00953227374702692,
      "learning_rate": 3.0330064647481195e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38060016,
      "step": 65590
    },
    {
      "epoch": 9.76988382484361,
      "grad_norm": 0.011163202114403248,
      "learning_rate": 3.032688989166798e-05,
      "loss": 0.0314,
      "num_input_tokens_seen": 38062896,
      "step": 65595
    },
    {
      "epoch": 9.77062853738457,
      "grad_norm": 24.091672897338867,
      "learning_rate": 3.0323715045862382e-05,
      "loss": 0.3295,
      "num_input_tokens_seen": 38065936,
      "step": 65600
    },
    {
      "epoch": 9.771373249925528,
      "grad_norm": 12.894349098205566,
      "learning_rate": 3.0320540110118022e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 38069104,
      "step": 65605
    },
    {
      "epoch": 9.772117962466488,
      "grad_norm": 24.72658920288086,
      "learning_rate": 3.031736508448855e-05,
      "loss": 0.1177,
      "num_input_tokens_seen": 38071952,
      "step": 65610
    },
    {
      "epoch": 9.772862675007447,
      "grad_norm": 37.78718948364258,
      "learning_rate": 3.03141899690276e-05,
      "loss": 0.1601,
      "num_input_tokens_seen": 38074896,
      "step": 65615
    },
    {
      "epoch": 9.773607387548406,
      "grad_norm": 0.10439863055944443,
      "learning_rate": 3.031101476378881e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38077936,
      "step": 65620
    },
    {
      "epoch": 9.774352100089365,
      "grad_norm": 0.009741721674799919,
      "learning_rate": 3.0307839468825826e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 38080624,
      "step": 65625
    },
    {
      "epoch": 9.775096812630325,
      "grad_norm": 1.2333468198776245,
      "learning_rate": 3.0304664084192286e-05,
      "loss": 0.0449,
      "num_input_tokens_seen": 38083344,
      "step": 65630
    },
    {
      "epoch": 9.775841525171284,
      "grad_norm": 0.13032476603984833,
      "learning_rate": 3.0301488609941837e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 38086032,
      "step": 65635
    },
    {
      "epoch": 9.776586237712243,
      "grad_norm": 19.715295791625977,
      "learning_rate": 3.0298313046128123e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 38088912,
      "step": 65640
    },
    {
      "epoch": 9.777330950253202,
      "grad_norm": 0.07692126929759979,
      "learning_rate": 3.0295137392804796e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 38092048,
      "step": 65645
    },
    {
      "epoch": 9.778075662794162,
      "grad_norm": 16.000532150268555,
      "learning_rate": 3.0291961650025512e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 38094992,
      "step": 65650
    },
    {
      "epoch": 9.77882037533512,
      "grad_norm": 29.09832191467285,
      "learning_rate": 3.0288785817843907e-05,
      "loss": 0.0237,
      "num_input_tokens_seen": 38097872,
      "step": 65655
    },
    {
      "epoch": 9.77956508787608,
      "grad_norm": 0.0175191517919302,
      "learning_rate": 3.028560989631365e-05,
      "loss": 0.1966,
      "num_input_tokens_seen": 38100720,
      "step": 65660
    },
    {
      "epoch": 9.780309800417038,
      "grad_norm": 0.004651108291000128,
      "learning_rate": 3.0282433885488375e-05,
      "loss": 0.0854,
      "num_input_tokens_seen": 38103536,
      "step": 65665
    },
    {
      "epoch": 9.781054512957999,
      "grad_norm": 8.543661117553711,
      "learning_rate": 3.0279257785421755e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 38106128,
      "step": 65670
    },
    {
      "epoch": 9.781799225498958,
      "grad_norm": 0.013258074410259724,
      "learning_rate": 3.0276081596167434e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 38108912,
      "step": 65675
    },
    {
      "epoch": 9.782543938039916,
      "grad_norm": 0.002729798434302211,
      "learning_rate": 3.027290531777908e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 38111760,
      "step": 65680
    },
    {
      "epoch": 9.783288650580875,
      "grad_norm": 0.046844806522130966,
      "learning_rate": 3.026972895031035e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38114512,
      "step": 65685
    },
    {
      "epoch": 9.784033363121836,
      "grad_norm": 0.6395415663719177,
      "learning_rate": 3.026655249381491e-05,
      "loss": 0.1352,
      "num_input_tokens_seen": 38117456,
      "step": 65690
    },
    {
      "epoch": 9.784778075662794,
      "grad_norm": 0.026231680065393448,
      "learning_rate": 3.0263375948346416e-05,
      "loss": 0.2437,
      "num_input_tokens_seen": 38120080,
      "step": 65695
    },
    {
      "epoch": 9.785522788203753,
      "grad_norm": 0.0052566854283213615,
      "learning_rate": 3.026019931395853e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38123248,
      "step": 65700
    },
    {
      "epoch": 9.786267500744712,
      "grad_norm": 0.010671463795006275,
      "learning_rate": 3.0257022590704926e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 38125936,
      "step": 65705
    },
    {
      "epoch": 9.787012213285673,
      "grad_norm": 0.013229163363575935,
      "learning_rate": 3.0253845778639267e-05,
      "loss": 0.0571,
      "num_input_tokens_seen": 38128784,
      "step": 65710
    },
    {
      "epoch": 9.787756925826631,
      "grad_norm": 0.9647189378738403,
      "learning_rate": 3.0250668877815226e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 38131568,
      "step": 65715
    },
    {
      "epoch": 9.78850163836759,
      "grad_norm": 0.03356069698929787,
      "learning_rate": 3.024749188828647e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38134224,
      "step": 65720
    },
    {
      "epoch": 9.789246350908549,
      "grad_norm": 0.13554392755031586,
      "learning_rate": 3.024431481010667e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 38137296,
      "step": 65725
    },
    {
      "epoch": 9.78999106344951,
      "grad_norm": 16.275449752807617,
      "learning_rate": 3.0241137643329508e-05,
      "loss": 0.2423,
      "num_input_tokens_seen": 38140464,
      "step": 65730
    },
    {
      "epoch": 9.790735775990468,
      "grad_norm": 0.01870798133313656,
      "learning_rate": 3.0237960388008647e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38143312,
      "step": 65735
    },
    {
      "epoch": 9.791480488531427,
      "grad_norm": 8.219772338867188,
      "learning_rate": 3.0234783044197767e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 38146320,
      "step": 65740
    },
    {
      "epoch": 9.792225201072386,
      "grad_norm": 0.19118857383728027,
      "learning_rate": 3.0231605611950548e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38149232,
      "step": 65745
    },
    {
      "epoch": 9.792969913613344,
      "grad_norm": 0.014377880841493607,
      "learning_rate": 3.0228428091320672e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 38152336,
      "step": 65750
    },
    {
      "epoch": 9.793714626154305,
      "grad_norm": 0.006361208390444517,
      "learning_rate": 3.0225250482361818e-05,
      "loss": 0.2169,
      "num_input_tokens_seen": 38154928,
      "step": 65755
    },
    {
      "epoch": 9.794459338695264,
      "grad_norm": 0.017805662006139755,
      "learning_rate": 3.0222072785127663e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 38157680,
      "step": 65760
    },
    {
      "epoch": 9.795204051236222,
      "grad_norm": 0.0029160224366933107,
      "learning_rate": 3.02188949996719e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 38160560,
      "step": 65765
    },
    {
      "epoch": 9.795948763777183,
      "grad_norm": 0.053431663662195206,
      "learning_rate": 3.021571712604821e-05,
      "loss": 0.1418,
      "num_input_tokens_seen": 38163792,
      "step": 65770
    },
    {
      "epoch": 9.796693476318142,
      "grad_norm": 0.011063259094953537,
      "learning_rate": 3.0212539164310276e-05,
      "loss": 0.2084,
      "num_input_tokens_seen": 38166704,
      "step": 65775
    },
    {
      "epoch": 9.7974381888591,
      "grad_norm": 0.07811874151229858,
      "learning_rate": 3.0209361114511796e-05,
      "loss": 0.0092,
      "num_input_tokens_seen": 38169520,
      "step": 65780
    },
    {
      "epoch": 9.79818290140006,
      "grad_norm": 0.00881541334092617,
      "learning_rate": 3.0206182976706447e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38172272,
      "step": 65785
    },
    {
      "epoch": 9.798927613941018,
      "grad_norm": 0.03391633927822113,
      "learning_rate": 3.0203004750947938e-05,
      "loss": 0.0276,
      "num_input_tokens_seen": 38174992,
      "step": 65790
    },
    {
      "epoch": 9.799672326481979,
      "grad_norm": 0.019552508369088173,
      "learning_rate": 3.0199826437289947e-05,
      "loss": 0.0359,
      "num_input_tokens_seen": 38177872,
      "step": 65795
    },
    {
      "epoch": 9.800417039022937,
      "grad_norm": 0.03923770785331726,
      "learning_rate": 3.0196648035786173e-05,
      "loss": 0.2761,
      "num_input_tokens_seen": 38180688,
      "step": 65800
    },
    {
      "epoch": 9.801161751563896,
      "grad_norm": 0.008845960721373558,
      "learning_rate": 3.019346954649031e-05,
      "loss": 0.2464,
      "num_input_tokens_seen": 38183792,
      "step": 65805
    },
    {
      "epoch": 9.801906464104855,
      "grad_norm": 0.00436507910490036,
      "learning_rate": 3.0190290969456063e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38186896,
      "step": 65810
    },
    {
      "epoch": 9.802651176645815,
      "grad_norm": 0.9482485055923462,
      "learning_rate": 3.0187112304737125e-05,
      "loss": 0.0107,
      "num_input_tokens_seen": 38189616,
      "step": 65815
    },
    {
      "epoch": 9.803395889186774,
      "grad_norm": 0.001300675910897553,
      "learning_rate": 3.0183933552387188e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 38192752,
      "step": 65820
    },
    {
      "epoch": 9.804140601727733,
      "grad_norm": 36.58855438232422,
      "learning_rate": 3.0180754712459973e-05,
      "loss": 0.0757,
      "num_input_tokens_seen": 38195440,
      "step": 65825
    },
    {
      "epoch": 9.804885314268692,
      "grad_norm": 0.047021616250276566,
      "learning_rate": 3.0177575785009172e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 38198192,
      "step": 65830
    },
    {
      "epoch": 9.805630026809652,
      "grad_norm": 20.858259201049805,
      "learning_rate": 3.017439677008848e-05,
      "loss": 0.2654,
      "num_input_tokens_seen": 38201040,
      "step": 65835
    },
    {
      "epoch": 9.80637473935061,
      "grad_norm": 0.014170261099934578,
      "learning_rate": 3.0171217667751617e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38203792,
      "step": 65840
    },
    {
      "epoch": 9.80711945189157,
      "grad_norm": 176.3831329345703,
      "learning_rate": 3.016803847805229e-05,
      "loss": 0.4079,
      "num_input_tokens_seen": 38206768,
      "step": 65845
    },
    {
      "epoch": 9.807864164432528,
      "grad_norm": 0.013744554482400417,
      "learning_rate": 3.016485920104421e-05,
      "loss": 0.1881,
      "num_input_tokens_seen": 38209936,
      "step": 65850
    },
    {
      "epoch": 9.808608876973489,
      "grad_norm": 0.07983170449733734,
      "learning_rate": 3.0161679836781076e-05,
      "loss": 0.1506,
      "num_input_tokens_seen": 38212624,
      "step": 65855
    },
    {
      "epoch": 9.809353589514448,
      "grad_norm": 42.53847122192383,
      "learning_rate": 3.0158500385316612e-05,
      "loss": 0.1977,
      "num_input_tokens_seen": 38215376,
      "step": 65860
    },
    {
      "epoch": 9.810098302055406,
      "grad_norm": 1.5072646141052246,
      "learning_rate": 3.0155320846704526e-05,
      "loss": 0.1517,
      "num_input_tokens_seen": 38218512,
      "step": 65865
    },
    {
      "epoch": 9.810843014596365,
      "grad_norm": 0.044891174882650375,
      "learning_rate": 3.015214122099853e-05,
      "loss": 0.108,
      "num_input_tokens_seen": 38221200,
      "step": 65870
    },
    {
      "epoch": 9.811587727137326,
      "grad_norm": 0.12264508008956909,
      "learning_rate": 3.0148961508252347e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 38223952,
      "step": 65875
    },
    {
      "epoch": 9.812332439678285,
      "grad_norm": 0.17859284579753876,
      "learning_rate": 3.0145781708519692e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 38227184,
      "step": 65880
    },
    {
      "epoch": 9.813077152219243,
      "grad_norm": 0.15222640335559845,
      "learning_rate": 3.0142601821854288e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 38230448,
      "step": 65885
    },
    {
      "epoch": 9.813821864760202,
      "grad_norm": 0.017257779836654663,
      "learning_rate": 3.0139421848309852e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38233104,
      "step": 65890
    },
    {
      "epoch": 9.814566577301163,
      "grad_norm": 0.04172247275710106,
      "learning_rate": 3.0136241787940107e-05,
      "loss": 0.0801,
      "num_input_tokens_seen": 38235984,
      "step": 65895
    },
    {
      "epoch": 9.815311289842121,
      "grad_norm": 0.004774930886924267,
      "learning_rate": 3.0133061640798776e-05,
      "loss": 0.2189,
      "num_input_tokens_seen": 38238832,
      "step": 65900
    },
    {
      "epoch": 9.81605600238308,
      "grad_norm": 0.7310343980789185,
      "learning_rate": 3.0129881406939587e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 38241712,
      "step": 65905
    },
    {
      "epoch": 9.816800714924039,
      "grad_norm": 4.420327663421631,
      "learning_rate": 3.012670108641626e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 38244400,
      "step": 65910
    },
    {
      "epoch": 9.817545427465,
      "grad_norm": 0.2218976616859436,
      "learning_rate": 3.012352067928253e-05,
      "loss": 0.1195,
      "num_input_tokens_seen": 38247024,
      "step": 65915
    },
    {
      "epoch": 9.818290140005958,
      "grad_norm": 14.911951065063477,
      "learning_rate": 3.0120340185592132e-05,
      "loss": 0.2152,
      "num_input_tokens_seen": 38250320,
      "step": 65920
    },
    {
      "epoch": 9.819034852546917,
      "grad_norm": 0.027409689500927925,
      "learning_rate": 3.0117159605398786e-05,
      "loss": 0.1294,
      "num_input_tokens_seen": 38253072,
      "step": 65925
    },
    {
      "epoch": 9.819779565087876,
      "grad_norm": 0.19696906208992004,
      "learning_rate": 3.0113978938756237e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38256048,
      "step": 65930
    },
    {
      "epoch": 9.820524277628834,
      "grad_norm": 0.06272386759519577,
      "learning_rate": 3.0110798185718202e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 38258992,
      "step": 65935
    },
    {
      "epoch": 9.821268990169795,
      "grad_norm": 0.0019579632207751274,
      "learning_rate": 3.0107617346338422e-05,
      "loss": 0.0979,
      "num_input_tokens_seen": 38261872,
      "step": 65940
    },
    {
      "epoch": 9.822013702710754,
      "grad_norm": 0.012743611820042133,
      "learning_rate": 3.0104436420670644e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38265008,
      "step": 65945
    },
    {
      "epoch": 9.822758415251712,
      "grad_norm": 0.27030351758003235,
      "learning_rate": 3.0101255408768603e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38268112,
      "step": 65950
    },
    {
      "epoch": 9.823503127792671,
      "grad_norm": 2.803525686264038,
      "learning_rate": 3.0098074310686042e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 38271472,
      "step": 65955
    },
    {
      "epoch": 9.824247840333632,
      "grad_norm": 10.300277709960938,
      "learning_rate": 3.0094893126476686e-05,
      "loss": 0.2252,
      "num_input_tokens_seen": 38274576,
      "step": 65960
    },
    {
      "epoch": 9.82499255287459,
      "grad_norm": 0.2749585807323456,
      "learning_rate": 3.0091711856194295e-05,
      "loss": 0.2371,
      "num_input_tokens_seen": 38277424,
      "step": 65965
    },
    {
      "epoch": 9.82573726541555,
      "grad_norm": 0.054597459733486176,
      "learning_rate": 3.0088530499892605e-05,
      "loss": 0.307,
      "num_input_tokens_seen": 38280112,
      "step": 65970
    },
    {
      "epoch": 9.826481977956508,
      "grad_norm": 0.01894940249621868,
      "learning_rate": 3.008534905762536e-05,
      "loss": 0.086,
      "num_input_tokens_seen": 38282704,
      "step": 65975
    },
    {
      "epoch": 9.827226690497469,
      "grad_norm": 0.0063881403766572475,
      "learning_rate": 3.0082167529446314e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 38285616,
      "step": 65980
    },
    {
      "epoch": 9.827971403038427,
      "grad_norm": 0.009586695581674576,
      "learning_rate": 3.0078985915409214e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38288432,
      "step": 65985
    },
    {
      "epoch": 9.828716115579386,
      "grad_norm": 0.28711065649986267,
      "learning_rate": 3.0075804215567817e-05,
      "loss": 0.1787,
      "num_input_tokens_seen": 38291248,
      "step": 65990
    },
    {
      "epoch": 9.829460828120345,
      "grad_norm": 0.15609703958034515,
      "learning_rate": 3.0072622429975856e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 38294288,
      "step": 65995
    },
    {
      "epoch": 9.830205540661305,
      "grad_norm": 0.013810653239488602,
      "learning_rate": 3.006944055868709e-05,
      "loss": 0.129,
      "num_input_tokens_seen": 38297136,
      "step": 66000
    },
    {
      "epoch": 9.830950253202264,
      "grad_norm": 17.424245834350586,
      "learning_rate": 3.0066258601755288e-05,
      "loss": 0.246,
      "num_input_tokens_seen": 38299888,
      "step": 66005
    },
    {
      "epoch": 9.831694965743223,
      "grad_norm": 0.35553327202796936,
      "learning_rate": 3.0063076559234192e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 38302608,
      "step": 66010
    },
    {
      "epoch": 9.832439678284182,
      "grad_norm": 0.012501689605414867,
      "learning_rate": 3.0059894431177565e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 38305616,
      "step": 66015
    },
    {
      "epoch": 9.833184390825142,
      "grad_norm": 0.02865915559232235,
      "learning_rate": 3.0056712217639165e-05,
      "loss": 0.1166,
      "num_input_tokens_seen": 38308336,
      "step": 66020
    },
    {
      "epoch": 9.833929103366101,
      "grad_norm": 47.43149185180664,
      "learning_rate": 3.005352991867275e-05,
      "loss": 0.2854,
      "num_input_tokens_seen": 38311152,
      "step": 66025
    },
    {
      "epoch": 9.83467381590706,
      "grad_norm": 0.23609066009521484,
      "learning_rate": 3.0050347534332084e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 38313936,
      "step": 66030
    },
    {
      "epoch": 9.835418528448018,
      "grad_norm": 31.67473793029785,
      "learning_rate": 3.004716506467093e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 38316624,
      "step": 66035
    },
    {
      "epoch": 9.836163240988979,
      "grad_norm": 0.06589367985725403,
      "learning_rate": 3.0043982509743052e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 38319696,
      "step": 66040
    },
    {
      "epoch": 9.836907953529938,
      "grad_norm": 116.5230712890625,
      "learning_rate": 3.004079986960221e-05,
      "loss": 0.1934,
      "num_input_tokens_seen": 38322352,
      "step": 66045
    },
    {
      "epoch": 9.837652666070897,
      "grad_norm": 0.014605858363211155,
      "learning_rate": 3.0037617144302188e-05,
      "loss": 0.1721,
      "num_input_tokens_seen": 38325648,
      "step": 66050
    },
    {
      "epoch": 9.838397378611855,
      "grad_norm": 0.004193645901978016,
      "learning_rate": 3.0034434333896737e-05,
      "loss": 0.1323,
      "num_input_tokens_seen": 38328528,
      "step": 66055
    },
    {
      "epoch": 9.839142091152816,
      "grad_norm": 0.16350802779197693,
      "learning_rate": 3.003125143843964e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 38331440,
      "step": 66060
    },
    {
      "epoch": 9.839886803693775,
      "grad_norm": 0.1004074290394783,
      "learning_rate": 3.002806845798466e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 38334224,
      "step": 66065
    },
    {
      "epoch": 9.840631516234733,
      "grad_norm": 0.05389323830604553,
      "learning_rate": 3.002488539258557e-05,
      "loss": 0.1377,
      "num_input_tokens_seen": 38337072,
      "step": 66070
    },
    {
      "epoch": 9.841376228775692,
      "grad_norm": 15.980816841125488,
      "learning_rate": 3.0021702242296153e-05,
      "loss": 0.157,
      "num_input_tokens_seen": 38340016,
      "step": 66075
    },
    {
      "epoch": 9.842120941316653,
      "grad_norm": 0.8375453352928162,
      "learning_rate": 3.0018519007170177e-05,
      "loss": 0.1104,
      "num_input_tokens_seen": 38342800,
      "step": 66080
    },
    {
      "epoch": 9.842865653857611,
      "grad_norm": 0.05089375749230385,
      "learning_rate": 3.0015335687261425e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 38345712,
      "step": 66085
    },
    {
      "epoch": 9.84361036639857,
      "grad_norm": 0.01692896895110607,
      "learning_rate": 3.001215228262368e-05,
      "loss": 0.1064,
      "num_input_tokens_seen": 38348624,
      "step": 66090
    },
    {
      "epoch": 9.844355078939529,
      "grad_norm": 104.71977233886719,
      "learning_rate": 3.000896879331071e-05,
      "loss": 0.0242,
      "num_input_tokens_seen": 38351568,
      "step": 66095
    },
    {
      "epoch": 9.84509979148049,
      "grad_norm": 0.017450615763664246,
      "learning_rate": 3.0005785219376304e-05,
      "loss": 0.1419,
      "num_input_tokens_seen": 38354416,
      "step": 66100
    },
    {
      "epoch": 9.845844504021448,
      "grad_norm": 2.666330099105835,
      "learning_rate": 3.000260156087424e-05,
      "loss": 0.1895,
      "num_input_tokens_seen": 38357264,
      "step": 66105
    },
    {
      "epoch": 9.846589216562407,
      "grad_norm": 0.17286719381809235,
      "learning_rate": 2.999941781785831e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 38360016,
      "step": 66110
    },
    {
      "epoch": 9.847333929103366,
      "grad_norm": 0.03822770342230797,
      "learning_rate": 2.9996233990382296e-05,
      "loss": 0.0656,
      "num_input_tokens_seen": 38362960,
      "step": 66115
    },
    {
      "epoch": 9.848078641644324,
      "grad_norm": 0.09641463309526443,
      "learning_rate": 2.9993050078499997e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 38365616,
      "step": 66120
    },
    {
      "epoch": 9.848823354185285,
      "grad_norm": 0.01290965173393488,
      "learning_rate": 2.9989866082265177e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 38368400,
      "step": 66125
    },
    {
      "epoch": 9.849568066726244,
      "grad_norm": 17.36725425720215,
      "learning_rate": 2.9986682001731647e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 38371440,
      "step": 66130
    },
    {
      "epoch": 9.850312779267203,
      "grad_norm": 0.0051214913837611675,
      "learning_rate": 2.99834978369532e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 38374352,
      "step": 66135
    },
    {
      "epoch": 9.851057491808161,
      "grad_norm": 0.10146746039390564,
      "learning_rate": 2.998031358798361e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 38377200,
      "step": 66140
    },
    {
      "epoch": 9.851802204349122,
      "grad_norm": 0.002243007766082883,
      "learning_rate": 2.997712925487669e-05,
      "loss": 0.5536,
      "num_input_tokens_seen": 38379920,
      "step": 66145
    },
    {
      "epoch": 9.85254691689008,
      "grad_norm": 52.44350051879883,
      "learning_rate": 2.9973944837686228e-05,
      "loss": 0.2211,
      "num_input_tokens_seen": 38382736,
      "step": 66150
    },
    {
      "epoch": 9.85329162943104,
      "grad_norm": 59.897010803222656,
      "learning_rate": 2.9970760336466032e-05,
      "loss": 0.3478,
      "num_input_tokens_seen": 38385424,
      "step": 66155
    },
    {
      "epoch": 9.854036341971998,
      "grad_norm": 0.013392481952905655,
      "learning_rate": 2.9967575751269878e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 38388592,
      "step": 66160
    },
    {
      "epoch": 9.854781054512959,
      "grad_norm": 0.13222506642341614,
      "learning_rate": 2.9964391082151587e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 38391248,
      "step": 66165
    },
    {
      "epoch": 9.855525767053917,
      "grad_norm": 15.682555198669434,
      "learning_rate": 2.9961206329164952e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 38394256,
      "step": 66170
    },
    {
      "epoch": 9.856270479594876,
      "grad_norm": 2.7476491928100586,
      "learning_rate": 2.9958021492363787e-05,
      "loss": 0.0118,
      "num_input_tokens_seen": 38396976,
      "step": 66175
    },
    {
      "epoch": 9.857015192135835,
      "grad_norm": 9.602818489074707,
      "learning_rate": 2.9954836571801875e-05,
      "loss": 0.1047,
      "num_input_tokens_seen": 38399696,
      "step": 66180
    },
    {
      "epoch": 9.857759904676795,
      "grad_norm": 0.006608907133340836,
      "learning_rate": 2.9951651567533046e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 38402544,
      "step": 66185
    },
    {
      "epoch": 9.858504617217754,
      "grad_norm": 4.4249091148376465,
      "learning_rate": 2.994846647961109e-05,
      "loss": 0.1142,
      "num_input_tokens_seen": 38405232,
      "step": 66190
    },
    {
      "epoch": 9.859249329758713,
      "grad_norm": 0.045564476400613785,
      "learning_rate": 2.9945281308089824e-05,
      "loss": 0.023,
      "num_input_tokens_seen": 38408272,
      "step": 66195
    },
    {
      "epoch": 9.859994042299672,
      "grad_norm": 0.025322748348116875,
      "learning_rate": 2.9942096053023055e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38410928,
      "step": 66200
    },
    {
      "epoch": 9.860738754840632,
      "grad_norm": 0.0010557048954069614,
      "learning_rate": 2.9938910714464596e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 38413712,
      "step": 66205
    },
    {
      "epoch": 9.861483467381591,
      "grad_norm": 3.2960500717163086,
      "learning_rate": 2.9935725292468263e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 38417072,
      "step": 66210
    },
    {
      "epoch": 9.86222817992255,
      "grad_norm": 0.02909128926694393,
      "learning_rate": 2.9932539787087872e-05,
      "loss": 0.3027,
      "num_input_tokens_seen": 38420016,
      "step": 66215
    },
    {
      "epoch": 9.862972892463509,
      "grad_norm": 82.25200653076172,
      "learning_rate": 2.9929354198377223e-05,
      "loss": 0.2666,
      "num_input_tokens_seen": 38423056,
      "step": 66220
    },
    {
      "epoch": 9.863717605004469,
      "grad_norm": 0.002240048022940755,
      "learning_rate": 2.9926168526390157e-05,
      "loss": 0.4348,
      "num_input_tokens_seen": 38426320,
      "step": 66225
    },
    {
      "epoch": 9.864462317545428,
      "grad_norm": 92.05218505859375,
      "learning_rate": 2.9922982771180475e-05,
      "loss": 0.0302,
      "num_input_tokens_seen": 38428912,
      "step": 66230
    },
    {
      "epoch": 9.865207030086387,
      "grad_norm": 0.007188578136265278,
      "learning_rate": 2.9919796932801996e-05,
      "loss": 0.1045,
      "num_input_tokens_seen": 38431984,
      "step": 66235
    },
    {
      "epoch": 9.865951742627345,
      "grad_norm": 0.051430486142635345,
      "learning_rate": 2.9916611011308555e-05,
      "loss": 0.0773,
      "num_input_tokens_seen": 38435152,
      "step": 66240
    },
    {
      "epoch": 9.866696455168306,
      "grad_norm": 0.0007438486209139228,
      "learning_rate": 2.9913425006753965e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 38438000,
      "step": 66245
    },
    {
      "epoch": 9.867441167709265,
      "grad_norm": 13.251058578491211,
      "learning_rate": 2.9910238919192058e-05,
      "loss": 0.1215,
      "num_input_tokens_seen": 38441040,
      "step": 66250
    },
    {
      "epoch": 9.868185880250223,
      "grad_norm": 0.048331376165151596,
      "learning_rate": 2.9907052748676656e-05,
      "loss": 0.0599,
      "num_input_tokens_seen": 38444112,
      "step": 66255
    },
    {
      "epoch": 9.868930592791182,
      "grad_norm": 0.05003202706575394,
      "learning_rate": 2.9903866495261578e-05,
      "loss": 0.3753,
      "num_input_tokens_seen": 38446768,
      "step": 66260
    },
    {
      "epoch": 9.86967530533214,
      "grad_norm": 0.004976660944521427,
      "learning_rate": 2.9900680159000666e-05,
      "loss": 0.005,
      "num_input_tokens_seen": 38449552,
      "step": 66265
    },
    {
      "epoch": 9.870420017873101,
      "grad_norm": 0.035337503999471664,
      "learning_rate": 2.9897493739947736e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 38452368,
      "step": 66270
    },
    {
      "epoch": 9.87116473041406,
      "grad_norm": 60.58975601196289,
      "learning_rate": 2.9894307238156634e-05,
      "loss": 0.5885,
      "num_input_tokens_seen": 38454928,
      "step": 66275
    },
    {
      "epoch": 9.871909442955019,
      "grad_norm": 0.02160516381263733,
      "learning_rate": 2.989112065368118e-05,
      "loss": 0.0592,
      "num_input_tokens_seen": 38457712,
      "step": 66280
    },
    {
      "epoch": 9.87265415549598,
      "grad_norm": 30.77150535583496,
      "learning_rate": 2.9887933986575218e-05,
      "loss": 0.2031,
      "num_input_tokens_seen": 38460816,
      "step": 66285
    },
    {
      "epoch": 9.873398868036938,
      "grad_norm": 0.09293762594461441,
      "learning_rate": 2.9884747236892578e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 38463952,
      "step": 66290
    },
    {
      "epoch": 9.874143580577897,
      "grad_norm": 30.363954544067383,
      "learning_rate": 2.9881560404687103e-05,
      "loss": 0.1823,
      "num_input_tokens_seen": 38466768,
      "step": 66295
    },
    {
      "epoch": 9.874888293118856,
      "grad_norm": 0.13320598006248474,
      "learning_rate": 2.9878373490012617e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 38470000,
      "step": 66300
    },
    {
      "epoch": 9.875633005659815,
      "grad_norm": 0.08567091822624207,
      "learning_rate": 2.9875186492922973e-05,
      "loss": 0.0336,
      "num_input_tokens_seen": 38472784,
      "step": 66305
    },
    {
      "epoch": 9.876377718200775,
      "grad_norm": 130.95384216308594,
      "learning_rate": 2.9871999413472006e-05,
      "loss": 0.0771,
      "num_input_tokens_seen": 38475344,
      "step": 66310
    },
    {
      "epoch": 9.877122430741734,
      "grad_norm": 0.3691066801548004,
      "learning_rate": 2.9868812251713564e-05,
      "loss": 0.1257,
      "num_input_tokens_seen": 38478064,
      "step": 66315
    },
    {
      "epoch": 9.877867143282693,
      "grad_norm": 0.019905876368284225,
      "learning_rate": 2.9865625007701487e-05,
      "loss": 0.0866,
      "num_input_tokens_seen": 38480944,
      "step": 66320
    },
    {
      "epoch": 9.878611855823651,
      "grad_norm": 0.2889154255390167,
      "learning_rate": 2.986243768148962e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 38483952,
      "step": 66325
    },
    {
      "epoch": 9.879356568364612,
      "grad_norm": 0.029512539505958557,
      "learning_rate": 2.9859250273131812e-05,
      "loss": 0.0834,
      "num_input_tokens_seen": 38486928,
      "step": 66330
    },
    {
      "epoch": 9.88010128090557,
      "grad_norm": 11.16596794128418,
      "learning_rate": 2.985606278268191e-05,
      "loss": 0.1714,
      "num_input_tokens_seen": 38489776,
      "step": 66335
    },
    {
      "epoch": 9.88084599344653,
      "grad_norm": 0.015915563330054283,
      "learning_rate": 2.985287521019376e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 38492560,
      "step": 66340
    },
    {
      "epoch": 9.881590705987488,
      "grad_norm": 10.457830429077148,
      "learning_rate": 2.984968755572121e-05,
      "loss": 0.1047,
      "num_input_tokens_seen": 38495536,
      "step": 66345
    },
    {
      "epoch": 9.882335418528449,
      "grad_norm": 0.20683987438678741,
      "learning_rate": 2.9846499819318124e-05,
      "loss": 0.0519,
      "num_input_tokens_seen": 38498640,
      "step": 66350
    },
    {
      "epoch": 9.883080131069407,
      "grad_norm": 24.30033302307129,
      "learning_rate": 2.9843312001038353e-05,
      "loss": 0.0323,
      "num_input_tokens_seen": 38501488,
      "step": 66355
    },
    {
      "epoch": 9.883824843610366,
      "grad_norm": 0.0388091616332531,
      "learning_rate": 2.9840124100935744e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38504496,
      "step": 66360
    },
    {
      "epoch": 9.884569556151325,
      "grad_norm": 0.04054829478263855,
      "learning_rate": 2.9836936119064156e-05,
      "loss": 0.1979,
      "num_input_tokens_seen": 38507600,
      "step": 66365
    },
    {
      "epoch": 9.885314268692285,
      "grad_norm": 5.729215621948242,
      "learning_rate": 2.983374805547745e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 38510608,
      "step": 66370
    },
    {
      "epoch": 9.886058981233244,
      "grad_norm": 0.06168048828840256,
      "learning_rate": 2.983055991022949e-05,
      "loss": 0.1907,
      "num_input_tokens_seen": 38513488,
      "step": 66375
    },
    {
      "epoch": 9.886803693774203,
      "grad_norm": 1.7690141201019287,
      "learning_rate": 2.9827371683374116e-05,
      "loss": 0.1086,
      "num_input_tokens_seen": 38516208,
      "step": 66380
    },
    {
      "epoch": 9.887548406315162,
      "grad_norm": 0.04409819841384888,
      "learning_rate": 2.9824183374965214e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 38519312,
      "step": 66385
    },
    {
      "epoch": 9.888293118856122,
      "grad_norm": 36.76244354248047,
      "learning_rate": 2.982099498505664e-05,
      "loss": 0.4015,
      "num_input_tokens_seen": 38522064,
      "step": 66390
    },
    {
      "epoch": 9.889037831397081,
      "grad_norm": 0.04306962341070175,
      "learning_rate": 2.9817806513702244e-05,
      "loss": 0.0459,
      "num_input_tokens_seen": 38525072,
      "step": 66395
    },
    {
      "epoch": 9.88978254393804,
      "grad_norm": 0.022110475227236748,
      "learning_rate": 2.9814617960955908e-05,
      "loss": 0.1009,
      "num_input_tokens_seen": 38527984,
      "step": 66400
    },
    {
      "epoch": 9.890527256478999,
      "grad_norm": 0.05031079053878784,
      "learning_rate": 2.9811429326871498e-05,
      "loss": 0.256,
      "num_input_tokens_seen": 38530800,
      "step": 66405
    },
    {
      "epoch": 9.891271969019959,
      "grad_norm": 14.01213264465332,
      "learning_rate": 2.9808240611502873e-05,
      "loss": 0.3637,
      "num_input_tokens_seen": 38533616,
      "step": 66410
    },
    {
      "epoch": 9.892016681560918,
      "grad_norm": 3.6544082164764404,
      "learning_rate": 2.9805051814903923e-05,
      "loss": 0.0711,
      "num_input_tokens_seen": 38536720,
      "step": 66415
    },
    {
      "epoch": 9.892761394101877,
      "grad_norm": 0.06795700639486313,
      "learning_rate": 2.98018629371285e-05,
      "loss": 0.4237,
      "num_input_tokens_seen": 38539888,
      "step": 66420
    },
    {
      "epoch": 9.893506106642835,
      "grad_norm": 0.19451667368412018,
      "learning_rate": 2.979867397823048e-05,
      "loss": 0.2388,
      "num_input_tokens_seen": 38542928,
      "step": 66425
    },
    {
      "epoch": 9.894250819183796,
      "grad_norm": 0.9337027668952942,
      "learning_rate": 2.979548493826374e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 38545840,
      "step": 66430
    },
    {
      "epoch": 9.894995531724755,
      "grad_norm": 2.1557822227478027,
      "learning_rate": 2.9792295817282157e-05,
      "loss": 0.1366,
      "num_input_tokens_seen": 38548944,
      "step": 66435
    },
    {
      "epoch": 9.895740244265713,
      "grad_norm": 0.05811186134815216,
      "learning_rate": 2.9789106615339603e-05,
      "loss": 0.0598,
      "num_input_tokens_seen": 38552144,
      "step": 66440
    },
    {
      "epoch": 9.896484956806672,
      "grad_norm": 0.02103835716843605,
      "learning_rate": 2.9785917332489965e-05,
      "loss": 0.1444,
      "num_input_tokens_seen": 38554864,
      "step": 66445
    },
    {
      "epoch": 9.897229669347631,
      "grad_norm": 0.025271954014897346,
      "learning_rate": 2.9782727968787116e-05,
      "loss": 0.1081,
      "num_input_tokens_seen": 38557744,
      "step": 66450
    },
    {
      "epoch": 9.897974381888591,
      "grad_norm": 8.157236099243164,
      "learning_rate": 2.9779538524284943e-05,
      "loss": 0.2924,
      "num_input_tokens_seen": 38560464,
      "step": 66455
    },
    {
      "epoch": 9.89871909442955,
      "grad_norm": 0.05908680334687233,
      "learning_rate": 2.9776348999037322e-05,
      "loss": 0.0911,
      "num_input_tokens_seen": 38563312,
      "step": 66460
    },
    {
      "epoch": 9.899463806970509,
      "grad_norm": 0.004889335948973894,
      "learning_rate": 2.9773159393098137e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 38565872,
      "step": 66465
    },
    {
      "epoch": 9.900208519511468,
      "grad_norm": 0.11758007854223251,
      "learning_rate": 2.9769969706521277e-05,
      "loss": 0.1428,
      "num_input_tokens_seen": 38568912,
      "step": 66470
    },
    {
      "epoch": 9.900953232052428,
      "grad_norm": 0.087466761469841,
      "learning_rate": 2.9766779939360623e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38571696,
      "step": 66475
    },
    {
      "epoch": 9.901697944593387,
      "grad_norm": 0.3700107932090759,
      "learning_rate": 2.976359009167007e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 38574576,
      "step": 66480
    },
    {
      "epoch": 9.902442657134346,
      "grad_norm": 7.689419746398926,
      "learning_rate": 2.976040016350351e-05,
      "loss": 0.0258,
      "num_input_tokens_seen": 38577872,
      "step": 66485
    },
    {
      "epoch": 9.903187369675305,
      "grad_norm": 0.5463879704475403,
      "learning_rate": 2.9757210154914816e-05,
      "loss": 0.0528,
      "num_input_tokens_seen": 38580592,
      "step": 66490
    },
    {
      "epoch": 9.903932082216265,
      "grad_norm": 31.649858474731445,
      "learning_rate": 2.9754020065957905e-05,
      "loss": 0.066,
      "num_input_tokens_seen": 38583600,
      "step": 66495
    },
    {
      "epoch": 9.904676794757224,
      "grad_norm": 0.15814252197742462,
      "learning_rate": 2.9750829896686645e-05,
      "loss": 0.0443,
      "num_input_tokens_seen": 38586320,
      "step": 66500
    },
    {
      "epoch": 9.905421507298183,
      "grad_norm": 0.010453077033162117,
      "learning_rate": 2.9747639647154947e-05,
      "loss": 0.0957,
      "num_input_tokens_seen": 38589616,
      "step": 66505
    },
    {
      "epoch": 9.906166219839141,
      "grad_norm": 0.0809752568602562,
      "learning_rate": 2.97444493174167e-05,
      "loss": 0.0281,
      "num_input_tokens_seen": 38592880,
      "step": 66510
    },
    {
      "epoch": 9.906910932380102,
      "grad_norm": 0.02538467012345791,
      "learning_rate": 2.9741258907525805e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 38595728,
      "step": 66515
    },
    {
      "epoch": 9.90765564492106,
      "grad_norm": 0.07235931605100632,
      "learning_rate": 2.9738068417536165e-05,
      "loss": 0.0513,
      "num_input_tokens_seen": 38598544,
      "step": 66520
    },
    {
      "epoch": 9.90840035746202,
      "grad_norm": 0.01768425479531288,
      "learning_rate": 2.9734877847501664e-05,
      "loss": 0.1789,
      "num_input_tokens_seen": 38601520,
      "step": 66525
    },
    {
      "epoch": 9.909145070002978,
      "grad_norm": 0.08757959306240082,
      "learning_rate": 2.973168719747622e-05,
      "loss": 0.1024,
      "num_input_tokens_seen": 38604496,
      "step": 66530
    },
    {
      "epoch": 9.909889782543939,
      "grad_norm": 0.04939485341310501,
      "learning_rate": 2.9728496467513734e-05,
      "loss": 0.4366,
      "num_input_tokens_seen": 38607312,
      "step": 66535
    },
    {
      "epoch": 9.910634495084897,
      "grad_norm": 156.1952667236328,
      "learning_rate": 2.9725305657668102e-05,
      "loss": 0.0689,
      "num_input_tokens_seen": 38610032,
      "step": 66540
    },
    {
      "epoch": 9.911379207625856,
      "grad_norm": 0.005256305914372206,
      "learning_rate": 2.9722114767993226e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 38612976,
      "step": 66545
    },
    {
      "epoch": 9.912123920166815,
      "grad_norm": 0.1323121339082718,
      "learning_rate": 2.971892379854303e-05,
      "loss": 0.021,
      "num_input_tokens_seen": 38615792,
      "step": 66550
    },
    {
      "epoch": 9.912868632707776,
      "grad_norm": 0.03266790136694908,
      "learning_rate": 2.9715732749371412e-05,
      "loss": 0.1023,
      "num_input_tokens_seen": 38618672,
      "step": 66555
    },
    {
      "epoch": 9.913613345248734,
      "grad_norm": 20.197418212890625,
      "learning_rate": 2.971254162053228e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 38621552,
      "step": 66560
    },
    {
      "epoch": 9.914358057789693,
      "grad_norm": 0.011418608948588371,
      "learning_rate": 2.9709350412079544e-05,
      "loss": 0.1705,
      "num_input_tokens_seen": 38624592,
      "step": 66565
    },
    {
      "epoch": 9.915102770330652,
      "grad_norm": 5.129850387573242,
      "learning_rate": 2.9706159124067123e-05,
      "loss": 0.0175,
      "num_input_tokens_seen": 38627440,
      "step": 66570
    },
    {
      "epoch": 9.915847482871612,
      "grad_norm": 0.049158498644828796,
      "learning_rate": 2.9702967756548927e-05,
      "loss": 0.2418,
      "num_input_tokens_seen": 38630384,
      "step": 66575
    },
    {
      "epoch": 9.916592195412571,
      "grad_norm": 0.0020405713003128767,
      "learning_rate": 2.969977630957887e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 38633168,
      "step": 66580
    },
    {
      "epoch": 9.91733690795353,
      "grad_norm": 0.07308503240346909,
      "learning_rate": 2.9696584783210874e-05,
      "loss": 0.2745,
      "num_input_tokens_seen": 38636016,
      "step": 66585
    },
    {
      "epoch": 9.918081620494489,
      "grad_norm": 9.304521560668945,
      "learning_rate": 2.969339317749884e-05,
      "loss": 0.1503,
      "num_input_tokens_seen": 38638800,
      "step": 66590
    },
    {
      "epoch": 9.91882633303545,
      "grad_norm": 0.015111497603356838,
      "learning_rate": 2.9690201492496704e-05,
      "loss": 0.1145,
      "num_input_tokens_seen": 38641456,
      "step": 66595
    },
    {
      "epoch": 9.919571045576408,
      "grad_norm": 137.7904052734375,
      "learning_rate": 2.968700972825838e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 38644272,
      "step": 66600
    },
    {
      "epoch": 9.920315758117367,
      "grad_norm": 0.05288038030266762,
      "learning_rate": 2.9683817884837788e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 38647120,
      "step": 66605
    },
    {
      "epoch": 9.921060470658325,
      "grad_norm": 0.10303990542888641,
      "learning_rate": 2.9680625962288856e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 38649968,
      "step": 66610
    },
    {
      "epoch": 9.921805183199286,
      "grad_norm": 0.029199279844760895,
      "learning_rate": 2.9677433960665512e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38652912,
      "step": 66615
    },
    {
      "epoch": 9.922549895740245,
      "grad_norm": 11.863114356994629,
      "learning_rate": 2.967424188002167e-05,
      "loss": 0.6579,
      "num_input_tokens_seen": 38656016,
      "step": 66620
    },
    {
      "epoch": 9.923294608281203,
      "grad_norm": 1.3429070711135864,
      "learning_rate": 2.967104972041126e-05,
      "loss": 0.1763,
      "num_input_tokens_seen": 38658896,
      "step": 66625
    },
    {
      "epoch": 9.924039320822162,
      "grad_norm": 0.008934796787798405,
      "learning_rate": 2.9667857481888218e-05,
      "loss": 0.092,
      "num_input_tokens_seen": 38661840,
      "step": 66630
    },
    {
      "epoch": 9.924784033363121,
      "grad_norm": 14.110730171203613,
      "learning_rate": 2.9664665164506455e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 38664720,
      "step": 66635
    },
    {
      "epoch": 9.925528745904082,
      "grad_norm": 3.174743175506592,
      "learning_rate": 2.9661472768319924e-05,
      "loss": 0.0118,
      "num_input_tokens_seen": 38667472,
      "step": 66640
    },
    {
      "epoch": 9.92627345844504,
      "grad_norm": 14.027328491210938,
      "learning_rate": 2.9658280293382545e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 38670224,
      "step": 66645
    },
    {
      "epoch": 9.927018170985999,
      "grad_norm": 2.488654375076294,
      "learning_rate": 2.9655087739748267e-05,
      "loss": 0.0684,
      "num_input_tokens_seen": 38673200,
      "step": 66650
    },
    {
      "epoch": 9.927762883526958,
      "grad_norm": 116.09833526611328,
      "learning_rate": 2.9651895107471004e-05,
      "loss": 0.2613,
      "num_input_tokens_seen": 38675920,
      "step": 66655
    },
    {
      "epoch": 9.928507596067918,
      "grad_norm": 10.858543395996094,
      "learning_rate": 2.96487023966047e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 38678800,
      "step": 66660
    },
    {
      "epoch": 9.929252308608877,
      "grad_norm": 0.03566636145114899,
      "learning_rate": 2.9645509607203294e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 38681648,
      "step": 66665
    },
    {
      "epoch": 9.929997021149836,
      "grad_norm": 8.28458023071289,
      "learning_rate": 2.9642316739320724e-05,
      "loss": 0.1416,
      "num_input_tokens_seen": 38684816,
      "step": 66670
    },
    {
      "epoch": 9.930741733690795,
      "grad_norm": 0.009439285844564438,
      "learning_rate": 2.9639123793010933e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 38687728,
      "step": 66675
    },
    {
      "epoch": 9.931486446231755,
      "grad_norm": 0.029295457527041435,
      "learning_rate": 2.9635930768327856e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 38690192,
      "step": 66680
    },
    {
      "epoch": 9.932231158772714,
      "grad_norm": 27.652082443237305,
      "learning_rate": 2.963273766532545e-05,
      "loss": 0.098,
      "num_input_tokens_seen": 38693168,
      "step": 66685
    },
    {
      "epoch": 9.932975871313673,
      "grad_norm": 0.010550284758210182,
      "learning_rate": 2.962954448405764e-05,
      "loss": 0.0539,
      "num_input_tokens_seen": 38695856,
      "step": 66690
    },
    {
      "epoch": 9.933720583854631,
      "grad_norm": 18.35758399963379,
      "learning_rate": 2.9626351224578386e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 38698736,
      "step": 66695
    },
    {
      "epoch": 9.934465296395592,
      "grad_norm": 16.15313720703125,
      "learning_rate": 2.9623157886941633e-05,
      "loss": 0.1136,
      "num_input_tokens_seen": 38701648,
      "step": 66700
    },
    {
      "epoch": 9.93521000893655,
      "grad_norm": 45.099857330322266,
      "learning_rate": 2.961996447120132e-05,
      "loss": 0.1908,
      "num_input_tokens_seen": 38704560,
      "step": 66705
    },
    {
      "epoch": 9.93595472147751,
      "grad_norm": 0.14049121737480164,
      "learning_rate": 2.9616770977411408e-05,
      "loss": 0.1166,
      "num_input_tokens_seen": 38707504,
      "step": 66710
    },
    {
      "epoch": 9.936699434018468,
      "grad_norm": 0.0343356728553772,
      "learning_rate": 2.9613577405625838e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 38710544,
      "step": 66715
    },
    {
      "epoch": 9.937444146559429,
      "grad_norm": 17.783220291137695,
      "learning_rate": 2.961038375589857e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 38713552,
      "step": 66720
    },
    {
      "epoch": 9.938188859100388,
      "grad_norm": 8.041149139404297,
      "learning_rate": 2.9607190028283548e-05,
      "loss": 0.0399,
      "num_input_tokens_seen": 38716432,
      "step": 66725
    },
    {
      "epoch": 9.938933571641346,
      "grad_norm": 0.0046607982367277145,
      "learning_rate": 2.960399622283474e-05,
      "loss": 0.2814,
      "num_input_tokens_seen": 38719728,
      "step": 66730
    },
    {
      "epoch": 9.939678284182305,
      "grad_norm": 0.03067759796977043,
      "learning_rate": 2.960080233960609e-05,
      "loss": 0.274,
      "num_input_tokens_seen": 38722736,
      "step": 66735
    },
    {
      "epoch": 9.940422996723266,
      "grad_norm": 0.034390948712825775,
      "learning_rate": 2.959760837865157e-05,
      "loss": 0.0129,
      "num_input_tokens_seen": 38725616,
      "step": 66740
    },
    {
      "epoch": 9.941167709264224,
      "grad_norm": 3.4182984828948975,
      "learning_rate": 2.9594414340025118e-05,
      "loss": 0.0759,
      "num_input_tokens_seen": 38728400,
      "step": 66745
    },
    {
      "epoch": 9.941912421805183,
      "grad_norm": 33.330013275146484,
      "learning_rate": 2.9591220223780714e-05,
      "loss": 0.3161,
      "num_input_tokens_seen": 38731696,
      "step": 66750
    },
    {
      "epoch": 9.942657134346142,
      "grad_norm": 0.05155488848686218,
      "learning_rate": 2.9588026029972305e-05,
      "loss": 0.233,
      "num_input_tokens_seen": 38734448,
      "step": 66755
    },
    {
      "epoch": 9.943401846887102,
      "grad_norm": 0.2227296084165573,
      "learning_rate": 2.9584831758653865e-05,
      "loss": 0.1755,
      "num_input_tokens_seen": 38737552,
      "step": 66760
    },
    {
      "epoch": 9.944146559428061,
      "grad_norm": 0.09993040561676025,
      "learning_rate": 2.9581637409879344e-05,
      "loss": 0.1019,
      "num_input_tokens_seen": 38740880,
      "step": 66765
    },
    {
      "epoch": 9.94489127196902,
      "grad_norm": 34.45888137817383,
      "learning_rate": 2.9578442983702716e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 38743664,
      "step": 66770
    },
    {
      "epoch": 9.945635984509979,
      "grad_norm": 0.034016214311122894,
      "learning_rate": 2.9575248480177952e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 38746384,
      "step": 66775
    },
    {
      "epoch": 9.946380697050937,
      "grad_norm": 0.0819559171795845,
      "learning_rate": 2.9572053899359013e-05,
      "loss": 0.032,
      "num_input_tokens_seen": 38749200,
      "step": 66780
    },
    {
      "epoch": 9.947125409591898,
      "grad_norm": 90.52780151367188,
      "learning_rate": 2.9568859241299878e-05,
      "loss": 0.2689,
      "num_input_tokens_seen": 38752016,
      "step": 66785
    },
    {
      "epoch": 9.947870122132857,
      "grad_norm": 34.496185302734375,
      "learning_rate": 2.9565664506054503e-05,
      "loss": 0.0758,
      "num_input_tokens_seen": 38754896,
      "step": 66790
    },
    {
      "epoch": 9.948614834673815,
      "grad_norm": 0.6312580704689026,
      "learning_rate": 2.9562469693676865e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 38757680,
      "step": 66795
    },
    {
      "epoch": 9.949359547214776,
      "grad_norm": 0.006616115104407072,
      "learning_rate": 2.9559274804220936e-05,
      "loss": 0.0587,
      "num_input_tokens_seen": 38760368,
      "step": 66800
    },
    {
      "epoch": 9.950104259755735,
      "grad_norm": 1.3282972574234009,
      "learning_rate": 2.9556079837740697e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 38763216,
      "step": 66805
    },
    {
      "epoch": 9.950848972296694,
      "grad_norm": 0.13257022202014923,
      "learning_rate": 2.9552884794290116e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 38766224,
      "step": 66810
    },
    {
      "epoch": 9.951593684837652,
      "grad_norm": 141.50135803222656,
      "learning_rate": 2.954968967392318e-05,
      "loss": 0.3863,
      "num_input_tokens_seen": 38769040,
      "step": 66815
    },
    {
      "epoch": 9.952338397378611,
      "grad_norm": 0.010038108564913273,
      "learning_rate": 2.9546494476693865e-05,
      "loss": 0.1149,
      "num_input_tokens_seen": 38771728,
      "step": 66820
    },
    {
      "epoch": 9.953083109919572,
      "grad_norm": 29.94339370727539,
      "learning_rate": 2.954329920265614e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 38774544,
      "step": 66825
    },
    {
      "epoch": 9.95382782246053,
      "grad_norm": 0.02617867849767208,
      "learning_rate": 2.9540103851863986e-05,
      "loss": 0.0811,
      "num_input_tokens_seen": 38777488,
      "step": 66830
    },
    {
      "epoch": 9.954572535001489,
      "grad_norm": 0.06098223850131035,
      "learning_rate": 2.95369084243714e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 38780176,
      "step": 66835
    },
    {
      "epoch": 9.955317247542448,
      "grad_norm": 0.001263120793737471,
      "learning_rate": 2.9533712920232353e-05,
      "loss": 0.0929,
      "num_input_tokens_seen": 38783152,
      "step": 66840
    },
    {
      "epoch": 9.956061960083408,
      "grad_norm": 0.01638910174369812,
      "learning_rate": 2.9530517339500835e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38785872,
      "step": 66845
    },
    {
      "epoch": 9.956806672624367,
      "grad_norm": 12.3284912109375,
      "learning_rate": 2.952732168223084e-05,
      "loss": 0.2477,
      "num_input_tokens_seen": 38789008,
      "step": 66850
    },
    {
      "epoch": 9.957551385165326,
      "grad_norm": 0.04621950909495354,
      "learning_rate": 2.952412594847634e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 38791888,
      "step": 66855
    },
    {
      "epoch": 9.958296097706285,
      "grad_norm": 3.103074073791504,
      "learning_rate": 2.952093013829133e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 38794768,
      "step": 66860
    },
    {
      "epoch": 9.959040810247245,
      "grad_norm": 0.16009289026260376,
      "learning_rate": 2.95177342517298e-05,
      "loss": 0.0712,
      "num_input_tokens_seen": 38797904,
      "step": 66865
    },
    {
      "epoch": 9.959785522788204,
      "grad_norm": 58.02012252807617,
      "learning_rate": 2.951453828884574e-05,
      "loss": 0.0714,
      "num_input_tokens_seen": 38800880,
      "step": 66870
    },
    {
      "epoch": 9.960530235329163,
      "grad_norm": 0.03719645366072655,
      "learning_rate": 2.951134224969314e-05,
      "loss": 0.2045,
      "num_input_tokens_seen": 38803920,
      "step": 66875
    },
    {
      "epoch": 9.961274947870121,
      "grad_norm": 0.037082478404045105,
      "learning_rate": 2.9508146134326004e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 38806960,
      "step": 66880
    },
    {
      "epoch": 9.962019660411082,
      "grad_norm": 0.002314456505700946,
      "learning_rate": 2.950494994279832e-05,
      "loss": 0.0684,
      "num_input_tokens_seen": 38810224,
      "step": 66885
    },
    {
      "epoch": 9.96276437295204,
      "grad_norm": 0.10993309319019318,
      "learning_rate": 2.950175367516409e-05,
      "loss": 0.4267,
      "num_input_tokens_seen": 38813072,
      "step": 66890
    },
    {
      "epoch": 9.963509085493,
      "grad_norm": 0.05034579709172249,
      "learning_rate": 2.94985573314773e-05,
      "loss": 0.0223,
      "num_input_tokens_seen": 38815888,
      "step": 66895
    },
    {
      "epoch": 9.964253798033958,
      "grad_norm": 16.21941375732422,
      "learning_rate": 2.949536091179196e-05,
      "loss": 0.117,
      "num_input_tokens_seen": 38818736,
      "step": 66900
    },
    {
      "epoch": 9.964998510574919,
      "grad_norm": 36.2315559387207,
      "learning_rate": 2.9492164416162066e-05,
      "loss": 0.4429,
      "num_input_tokens_seen": 38821680,
      "step": 66905
    },
    {
      "epoch": 9.965743223115878,
      "grad_norm": 55.74490737915039,
      "learning_rate": 2.9488967844641612e-05,
      "loss": 0.1771,
      "num_input_tokens_seen": 38824816,
      "step": 66910
    },
    {
      "epoch": 9.966487935656836,
      "grad_norm": 116.79889678955078,
      "learning_rate": 2.9485771197284625e-05,
      "loss": 0.2529,
      "num_input_tokens_seen": 38827824,
      "step": 66915
    },
    {
      "epoch": 9.967232648197795,
      "grad_norm": 0.003294107038527727,
      "learning_rate": 2.948257447414508e-05,
      "loss": 0.1406,
      "num_input_tokens_seen": 38830544,
      "step": 66920
    },
    {
      "epoch": 9.967977360738756,
      "grad_norm": 0.028078462928533554,
      "learning_rate": 2.9479377675276998e-05,
      "loss": 0.1536,
      "num_input_tokens_seen": 38833488,
      "step": 66925
    },
    {
      "epoch": 9.968722073279714,
      "grad_norm": 146.8712615966797,
      "learning_rate": 2.9476180800734376e-05,
      "loss": 0.0464,
      "num_input_tokens_seen": 38836240,
      "step": 66930
    },
    {
      "epoch": 9.969466785820673,
      "grad_norm": 0.0013493102742359042,
      "learning_rate": 2.9472983850571235e-05,
      "loss": 0.0555,
      "num_input_tokens_seen": 38838928,
      "step": 66935
    },
    {
      "epoch": 9.970211498361632,
      "grad_norm": 0.008998129516839981,
      "learning_rate": 2.9469786824841584e-05,
      "loss": 0.1959,
      "num_input_tokens_seen": 38841904,
      "step": 66940
    },
    {
      "epoch": 9.970956210902592,
      "grad_norm": 0.05059891939163208,
      "learning_rate": 2.946658972359942e-05,
      "loss": 0.1507,
      "num_input_tokens_seen": 38844592,
      "step": 66945
    },
    {
      "epoch": 9.971700923443551,
      "grad_norm": 6.834339141845703,
      "learning_rate": 2.946339254689877e-05,
      "loss": 0.1317,
      "num_input_tokens_seen": 38847664,
      "step": 66950
    },
    {
      "epoch": 9.97244563598451,
      "grad_norm": 38.211997985839844,
      "learning_rate": 2.946019529479363e-05,
      "loss": 0.1735,
      "num_input_tokens_seen": 38850608,
      "step": 66955
    },
    {
      "epoch": 9.973190348525469,
      "grad_norm": 0.05576513335108757,
      "learning_rate": 2.945699796733803e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 38853776,
      "step": 66960
    },
    {
      "epoch": 9.973935061066427,
      "grad_norm": 0.00026183025329373777,
      "learning_rate": 2.945380056458597e-05,
      "loss": 0.0217,
      "num_input_tokens_seen": 38856944,
      "step": 66965
    },
    {
      "epoch": 9.974679773607388,
      "grad_norm": 0.017850853502750397,
      "learning_rate": 2.9450603086591484e-05,
      "loss": 0.106,
      "num_input_tokens_seen": 38859856,
      "step": 66970
    },
    {
      "epoch": 9.975424486148347,
      "grad_norm": 1.4588481187820435,
      "learning_rate": 2.944740553340858e-05,
      "loss": 0.213,
      "num_input_tokens_seen": 38862768,
      "step": 66975
    },
    {
      "epoch": 9.976169198689306,
      "grad_norm": 0.0017581512220203876,
      "learning_rate": 2.944420790509128e-05,
      "loss": 0.0204,
      "num_input_tokens_seen": 38865616,
      "step": 66980
    },
    {
      "epoch": 9.976913911230266,
      "grad_norm": 66.34770202636719,
      "learning_rate": 2.9441010201693614e-05,
      "loss": 0.184,
      "num_input_tokens_seen": 38868624,
      "step": 66985
    },
    {
      "epoch": 9.977658623771225,
      "grad_norm": 0.013057318516075611,
      "learning_rate": 2.9437812423269585e-05,
      "loss": 0.1841,
      "num_input_tokens_seen": 38871728,
      "step": 66990
    },
    {
      "epoch": 9.978403336312184,
      "grad_norm": 0.015535417944192886,
      "learning_rate": 2.943461456987322e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 38874736,
      "step": 66995
    },
    {
      "epoch": 9.979148048853142,
      "grad_norm": 40.516483306884766,
      "learning_rate": 2.9431416641558558e-05,
      "loss": 0.0517,
      "num_input_tokens_seen": 38877744,
      "step": 67000
    },
    {
      "epoch": 9.979892761394101,
      "grad_norm": 0.0331437923014164,
      "learning_rate": 2.9428218638379608e-05,
      "loss": 0.1515,
      "num_input_tokens_seen": 38880272,
      "step": 67005
    },
    {
      "epoch": 9.980637473935062,
      "grad_norm": 0.010342776775360107,
      "learning_rate": 2.942502056039041e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38882928,
      "step": 67010
    },
    {
      "epoch": 9.98138218647602,
      "grad_norm": 0.08221317827701569,
      "learning_rate": 2.9421822407644987e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 38885584,
      "step": 67015
    },
    {
      "epoch": 9.98212689901698,
      "grad_norm": 1.9812713861465454,
      "learning_rate": 2.9418624180197375e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 38888560,
      "step": 67020
    },
    {
      "epoch": 9.982871611557938,
      "grad_norm": 0.13104495406150818,
      "learning_rate": 2.941542587810159e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38891536,
      "step": 67025
    },
    {
      "epoch": 9.983616324098898,
      "grad_norm": 0.010901236906647682,
      "learning_rate": 2.941222750141167e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 38894448,
      "step": 67030
    },
    {
      "epoch": 9.984361036639857,
      "grad_norm": 0.014439815655350685,
      "learning_rate": 2.9409029050181652e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 38897200,
      "step": 67035
    },
    {
      "epoch": 9.985105749180816,
      "grad_norm": 0.0121100889518857,
      "learning_rate": 2.9405830524465573e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 38900016,
      "step": 67040
    },
    {
      "epoch": 9.985850461721775,
      "grad_norm": 0.011103295721113682,
      "learning_rate": 2.940263192431746e-05,
      "loss": 0.139,
      "num_input_tokens_seen": 38903120,
      "step": 67045
    },
    {
      "epoch": 9.986595174262735,
      "grad_norm": 0.025275031104683876,
      "learning_rate": 2.9399433249791363e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 38906096,
      "step": 67050
    },
    {
      "epoch": 9.987339886803694,
      "grad_norm": 0.06326289474964142,
      "learning_rate": 2.9396234500941307e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 38909296,
      "step": 67055
    },
    {
      "epoch": 9.988084599344653,
      "grad_norm": 56.0239372253418,
      "learning_rate": 2.939303567782134e-05,
      "loss": 0.1124,
      "num_input_tokens_seen": 38912016,
      "step": 67060
    },
    {
      "epoch": 9.988829311885612,
      "grad_norm": 0.014122523367404938,
      "learning_rate": 2.9389836780485502e-05,
      "loss": 0.0873,
      "num_input_tokens_seen": 38914704,
      "step": 67065
    },
    {
      "epoch": 9.989574024426572,
      "grad_norm": 0.2877812385559082,
      "learning_rate": 2.9386637808987828e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 38917584,
      "step": 67070
    },
    {
      "epoch": 9.99031873696753,
      "grad_norm": 0.058036044239997864,
      "learning_rate": 2.9383438763382363e-05,
      "loss": 0.1474,
      "num_input_tokens_seen": 38920208,
      "step": 67075
    },
    {
      "epoch": 9.99106344950849,
      "grad_norm": 25.882156372070312,
      "learning_rate": 2.9380239643723167e-05,
      "loss": 0.1013,
      "num_input_tokens_seen": 38923248,
      "step": 67080
    },
    {
      "epoch": 9.991808162049448,
      "grad_norm": 0.03310004621744156,
      "learning_rate": 2.9377040450064268e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 38926352,
      "step": 67085
    },
    {
      "epoch": 9.992552874590409,
      "grad_norm": 0.0921473279595375,
      "learning_rate": 2.9373841182459715e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 38928944,
      "step": 67090
    },
    {
      "epoch": 9.993297587131368,
      "grad_norm": 0.0015372949419543147,
      "learning_rate": 2.9370641840963565e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 38932176,
      "step": 67095
    },
    {
      "epoch": 9.994042299672326,
      "grad_norm": 0.0006439724238589406,
      "learning_rate": 2.9367442425629866e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 38935056,
      "step": 67100
    },
    {
      "epoch": 9.994787012213285,
      "grad_norm": 0.061351142823696136,
      "learning_rate": 2.9364242936512665e-05,
      "loss": 0.2777,
      "num_input_tokens_seen": 38937776,
      "step": 67105
    },
    {
      "epoch": 9.995531724754246,
      "grad_norm": 3.5350592136383057,
      "learning_rate": 2.936104337366601e-05,
      "loss": 0.2652,
      "num_input_tokens_seen": 38940464,
      "step": 67110
    },
    {
      "epoch": 9.996276437295204,
      "grad_norm": 0.012435180135071278,
      "learning_rate": 2.935784373714397e-05,
      "loss": 0.2292,
      "num_input_tokens_seen": 38943248,
      "step": 67115
    },
    {
      "epoch": 9.997021149836163,
      "grad_norm": 13.53369426727295,
      "learning_rate": 2.9354644027000577e-05,
      "loss": 0.1908,
      "num_input_tokens_seen": 38946544,
      "step": 67120
    },
    {
      "epoch": 9.997765862377122,
      "grad_norm": 0.27187326550483704,
      "learning_rate": 2.9351444243289904e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 38949328,
      "step": 67125
    },
    {
      "epoch": 9.998510574918082,
      "grad_norm": 9.922032356262207,
      "learning_rate": 2.9348244386066005e-05,
      "loss": 0.0497,
      "num_input_tokens_seen": 38952080,
      "step": 67130
    },
    {
      "epoch": 9.999255287459041,
      "grad_norm": 0.12260816991329193,
      "learning_rate": 2.9345044455382932e-05,
      "loss": 0.1439,
      "num_input_tokens_seen": 38954800,
      "step": 67135
    },
    {
      "epoch": 10.0,
      "grad_norm": 32.758087158203125,
      "learning_rate": 2.9341844451294754e-05,
      "loss": 0.1602,
      "num_input_tokens_seen": 38957336,
      "step": 67140
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.5225276947021484,
      "eval_runtime": 49.1741,
      "eval_samples_per_second": 60.682,
      "eval_steps_per_second": 15.171,
      "num_input_tokens_seen": 38957336,
      "step": 67140
    },
    {
      "epoch": 10.000744712540959,
      "grad_norm": 39.51138687133789,
      "learning_rate": 2.9338644373855522e-05,
      "loss": 0.1916,
      "num_input_tokens_seen": 38960056,
      "step": 67145
    },
    {
      "epoch": 10.001489425081918,
      "grad_norm": 9.758918762207031,
      "learning_rate": 2.9335444223119314e-05,
      "loss": 0.1964,
      "num_input_tokens_seen": 38963160,
      "step": 67150
    },
    {
      "epoch": 10.002234137622878,
      "grad_norm": 66.76952362060547,
      "learning_rate": 2.9332243999140167e-05,
      "loss": 0.0627,
      "num_input_tokens_seen": 38965784,
      "step": 67155
    },
    {
      "epoch": 10.002978850163837,
      "grad_norm": 0.031732600182294846,
      "learning_rate": 2.932904370197217e-05,
      "loss": 0.0417,
      "num_input_tokens_seen": 38968632,
      "step": 67160
    },
    {
      "epoch": 10.003723562704796,
      "grad_norm": 1.2036638259887695,
      "learning_rate": 2.932584333166937e-05,
      "loss": 0.2093,
      "num_input_tokens_seen": 38972024,
      "step": 67165
    },
    {
      "epoch": 10.004468275245754,
      "grad_norm": 0.2866255044937134,
      "learning_rate": 2.9322642888285855e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 38974936,
      "step": 67170
    },
    {
      "epoch": 10.005212987786715,
      "grad_norm": 17.403770446777344,
      "learning_rate": 2.931944237187567e-05,
      "loss": 0.0992,
      "num_input_tokens_seen": 38977944,
      "step": 67175
    },
    {
      "epoch": 10.005957700327674,
      "grad_norm": 0.01553071103990078,
      "learning_rate": 2.931624178249291e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38980920,
      "step": 67180
    },
    {
      "epoch": 10.006702412868632,
      "grad_norm": 0.048300523310899734,
      "learning_rate": 2.931304112019163e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 38983768,
      "step": 67185
    },
    {
      "epoch": 10.007447125409591,
      "grad_norm": 0.01472310721874237,
      "learning_rate": 2.93098403850259e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 38986488,
      "step": 67190
    },
    {
      "epoch": 10.008191837950552,
      "grad_norm": 0.012559466995298862,
      "learning_rate": 2.9306639577049793e-05,
      "loss": 0.0973,
      "num_input_tokens_seen": 38989656,
      "step": 67195
    },
    {
      "epoch": 10.00893655049151,
      "grad_norm": 0.10112982988357544,
      "learning_rate": 2.9303438696317385e-05,
      "loss": 0.0558,
      "num_input_tokens_seen": 38992472,
      "step": 67200
    },
    {
      "epoch": 10.00968126303247,
      "grad_norm": 0.05162355676293373,
      "learning_rate": 2.9300237742882764e-05,
      "loss": 0.0178,
      "num_input_tokens_seen": 38995192,
      "step": 67205
    },
    {
      "epoch": 10.010425975573428,
      "grad_norm": 0.01906391978263855,
      "learning_rate": 2.929703671679999e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 38998392,
      "step": 67210
    },
    {
      "epoch": 10.011170688114388,
      "grad_norm": 0.05413058027625084,
      "learning_rate": 2.9293835618123157e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39001560,
      "step": 67215
    },
    {
      "epoch": 10.011915400655347,
      "grad_norm": 0.10057534277439117,
      "learning_rate": 2.929063444690633e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 39004536,
      "step": 67220
    },
    {
      "epoch": 10.012660113196306,
      "grad_norm": 0.09869718551635742,
      "learning_rate": 2.9287433203203598e-05,
      "loss": 0.0721,
      "num_input_tokens_seen": 39007320,
      "step": 67225
    },
    {
      "epoch": 10.013404825737265,
      "grad_norm": 75.79845428466797,
      "learning_rate": 2.928423188706903e-05,
      "loss": 0.0194,
      "num_input_tokens_seen": 39010392,
      "step": 67230
    },
    {
      "epoch": 10.014149538278225,
      "grad_norm": 0.012817775830626488,
      "learning_rate": 2.9281030498556723e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39013240,
      "step": 67235
    },
    {
      "epoch": 10.014894250819184,
      "grad_norm": 0.003303734352812171,
      "learning_rate": 2.9277829037720754e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 39016312,
      "step": 67240
    },
    {
      "epoch": 10.015638963360143,
      "grad_norm": 0.0022482711356133223,
      "learning_rate": 2.927462750461522e-05,
      "loss": 0.0377,
      "num_input_tokens_seen": 39019064,
      "step": 67245
    },
    {
      "epoch": 10.016383675901102,
      "grad_norm": 0.15063880383968353,
      "learning_rate": 2.9271425899294193e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39021912,
      "step": 67250
    },
    {
      "epoch": 10.017128388442062,
      "grad_norm": 0.04156915470957756,
      "learning_rate": 2.9268224221811763e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39024728,
      "step": 67255
    },
    {
      "epoch": 10.01787310098302,
      "grad_norm": 0.012329214252531528,
      "learning_rate": 2.9265022472222032e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39027640,
      "step": 67260
    },
    {
      "epoch": 10.01861781352398,
      "grad_norm": 0.007974226959049702,
      "learning_rate": 2.9261820650579074e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39030456,
      "step": 67265
    },
    {
      "epoch": 10.019362526064938,
      "grad_norm": 0.006186127662658691,
      "learning_rate": 2.925861875693699e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39033400,
      "step": 67270
    },
    {
      "epoch": 10.020107238605899,
      "grad_norm": 20.57242774963379,
      "learning_rate": 2.9255416791349867e-05,
      "loss": 0.0575,
      "num_input_tokens_seen": 39036120,
      "step": 67275
    },
    {
      "epoch": 10.020851951146858,
      "grad_norm": 0.0015101711032912135,
      "learning_rate": 2.925221475387181e-05,
      "loss": 0.1292,
      "num_input_tokens_seen": 39038936,
      "step": 67280
    },
    {
      "epoch": 10.021596663687816,
      "grad_norm": 0.006374897435307503,
      "learning_rate": 2.92490126445569e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39042040,
      "step": 67285
    },
    {
      "epoch": 10.022341376228775,
      "grad_norm": 1.5836204290390015,
      "learning_rate": 2.9245810463459245e-05,
      "loss": 0.0867,
      "num_input_tokens_seen": 39044760,
      "step": 67290
    },
    {
      "epoch": 10.023086088769736,
      "grad_norm": 0.004208570811897516,
      "learning_rate": 2.9242608210632932e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 39047736,
      "step": 67295
    },
    {
      "epoch": 10.023830801310694,
      "grad_norm": 0.002454497618600726,
      "learning_rate": 2.9239405886132066e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 39050488,
      "step": 67300
    },
    {
      "epoch": 10.024575513851653,
      "grad_norm": 0.011671810410916805,
      "learning_rate": 2.923620349001075e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 39053272,
      "step": 67305
    },
    {
      "epoch": 10.025320226392612,
      "grad_norm": 0.007441246882081032,
      "learning_rate": 2.923300102232308e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 39056184,
      "step": 67310
    },
    {
      "epoch": 10.02606493893357,
      "grad_norm": 0.012628338299691677,
      "learning_rate": 2.9229798483123162e-05,
      "loss": 0.2752,
      "num_input_tokens_seen": 39059480,
      "step": 67315
    },
    {
      "epoch": 10.026809651474531,
      "grad_norm": 0.001285926322452724,
      "learning_rate": 2.9226595872465097e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39062072,
      "step": 67320
    },
    {
      "epoch": 10.02755436401549,
      "grad_norm": 0.04901941865682602,
      "learning_rate": 2.922339319040298e-05,
      "loss": 0.1158,
      "num_input_tokens_seen": 39065112,
      "step": 67325
    },
    {
      "epoch": 10.028299076556449,
      "grad_norm": 0.0005551208159886301,
      "learning_rate": 2.922019043699094e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39068120,
      "step": 67330
    },
    {
      "epoch": 10.029043789097408,
      "grad_norm": 0.9774268865585327,
      "learning_rate": 2.9216987612283064e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 39070936,
      "step": 67335
    },
    {
      "epoch": 10.029788501638368,
      "grad_norm": 0.0031899805180728436,
      "learning_rate": 2.921378471633347e-05,
      "loss": 0.0177,
      "num_input_tokens_seen": 39073880,
      "step": 67340
    },
    {
      "epoch": 10.030533214179327,
      "grad_norm": 0.000708575826138258,
      "learning_rate": 2.9210581749196274e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39076952,
      "step": 67345
    },
    {
      "epoch": 10.031277926720286,
      "grad_norm": 0.008571474812924862,
      "learning_rate": 2.9207378710925575e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39079736,
      "step": 67350
    },
    {
      "epoch": 10.032022639261244,
      "grad_norm": 0.020072083920240402,
      "learning_rate": 2.920417560157549e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39082584,
      "step": 67355
    },
    {
      "epoch": 10.032767351802205,
      "grad_norm": 0.006466020829975605,
      "learning_rate": 2.9200972421200124e-05,
      "loss": 0.048,
      "num_input_tokens_seen": 39085464,
      "step": 67360
    },
    {
      "epoch": 10.033512064343164,
      "grad_norm": 0.0032671215012669563,
      "learning_rate": 2.91977691698536e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 39088472,
      "step": 67365
    },
    {
      "epoch": 10.034256776884122,
      "grad_norm": 0.07370865345001221,
      "learning_rate": 2.919456584759003e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39091224,
      "step": 67370
    },
    {
      "epoch": 10.035001489425081,
      "grad_norm": 0.00965528842061758,
      "learning_rate": 2.919136245446354e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39094072,
      "step": 67375
    },
    {
      "epoch": 10.035746201966042,
      "grad_norm": 0.006242994684726,
      "learning_rate": 2.918815899052824e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 39097048,
      "step": 67380
    },
    {
      "epoch": 10.036490914507,
      "grad_norm": 0.04048784822225571,
      "learning_rate": 2.9184955455838258e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39099960,
      "step": 67385
    },
    {
      "epoch": 10.03723562704796,
      "grad_norm": 0.0031634613405913115,
      "learning_rate": 2.9181751850447698e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 39103000,
      "step": 67390
    },
    {
      "epoch": 10.037980339588918,
      "grad_norm": 0.0018772995099425316,
      "learning_rate": 2.9178548174410687e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39106008,
      "step": 67395
    },
    {
      "epoch": 10.038725052129879,
      "grad_norm": 63.22367858886719,
      "learning_rate": 2.9175344427781354e-05,
      "loss": 0.4756,
      "num_input_tokens_seen": 39108760,
      "step": 67400
    },
    {
      "epoch": 10.039469764670837,
      "grad_norm": 0.03244159370660782,
      "learning_rate": 2.9172140610613825e-05,
      "loss": 0.0127,
      "num_input_tokens_seen": 39111736,
      "step": 67405
    },
    {
      "epoch": 10.040214477211796,
      "grad_norm": 0.028816424310207367,
      "learning_rate": 2.916893672296222e-05,
      "loss": 0.3134,
      "num_input_tokens_seen": 39115352,
      "step": 67410
    },
    {
      "epoch": 10.040959189752755,
      "grad_norm": 0.03195779398083687,
      "learning_rate": 2.916573276488066e-05,
      "loss": 0.0758,
      "num_input_tokens_seen": 39118264,
      "step": 67415
    },
    {
      "epoch": 10.041703902293715,
      "grad_norm": 0.025667933747172356,
      "learning_rate": 2.9162528736423283e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39120856,
      "step": 67420
    },
    {
      "epoch": 10.042448614834674,
      "grad_norm": 0.012022512033581734,
      "learning_rate": 2.915932463764422e-05,
      "loss": 0.1497,
      "num_input_tokens_seen": 39123800,
      "step": 67425
    },
    {
      "epoch": 10.043193327375633,
      "grad_norm": 0.002831719582900405,
      "learning_rate": 2.9156120468597588e-05,
      "loss": 0.1901,
      "num_input_tokens_seen": 39126680,
      "step": 67430
    },
    {
      "epoch": 10.043938039916592,
      "grad_norm": 0.03622118756175041,
      "learning_rate": 2.9152916229337525e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 39129336,
      "step": 67435
    },
    {
      "epoch": 10.044682752457552,
      "grad_norm": 15.966231346130371,
      "learning_rate": 2.9149711919918154e-05,
      "loss": 0.2091,
      "num_input_tokens_seen": 39132376,
      "step": 67440
    },
    {
      "epoch": 10.045427464998511,
      "grad_norm": 0.007120879366993904,
      "learning_rate": 2.9146507540393636e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 39135512,
      "step": 67445
    },
    {
      "epoch": 10.04617217753947,
      "grad_norm": 0.0033274535089731216,
      "learning_rate": 2.9143303090818074e-05,
      "loss": 0.0122,
      "num_input_tokens_seen": 39138552,
      "step": 67450
    },
    {
      "epoch": 10.046916890080428,
      "grad_norm": 0.029177390038967133,
      "learning_rate": 2.9140098571245623e-05,
      "loss": 0.1415,
      "num_input_tokens_seen": 39141688,
      "step": 67455
    },
    {
      "epoch": 10.047661602621389,
      "grad_norm": 0.027812834829092026,
      "learning_rate": 2.9136893981730406e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39144728,
      "step": 67460
    },
    {
      "epoch": 10.048406315162348,
      "grad_norm": 0.030845507979393005,
      "learning_rate": 2.9133689322326586e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39147864,
      "step": 67465
    },
    {
      "epoch": 10.049151027703306,
      "grad_norm": 0.003248314606025815,
      "learning_rate": 2.9130484593088276e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 39150872,
      "step": 67470
    },
    {
      "epoch": 10.049895740244265,
      "grad_norm": 0.016191119328141212,
      "learning_rate": 2.9127279794069624e-05,
      "loss": 0.1729,
      "num_input_tokens_seen": 39153816,
      "step": 67475
    },
    {
      "epoch": 10.050640452785226,
      "grad_norm": 0.18831118941307068,
      "learning_rate": 2.9124074925324785e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39156888,
      "step": 67480
    },
    {
      "epoch": 10.051385165326185,
      "grad_norm": 0.0474352203309536,
      "learning_rate": 2.9120869986907885e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 39159864,
      "step": 67485
    },
    {
      "epoch": 10.052129877867143,
      "grad_norm": 0.005868982523679733,
      "learning_rate": 2.9117664978873072e-05,
      "loss": 0.0245,
      "num_input_tokens_seen": 39162936,
      "step": 67490
    },
    {
      "epoch": 10.052874590408102,
      "grad_norm": 0.09566875547170639,
      "learning_rate": 2.9114459901274493e-05,
      "loss": 0.1156,
      "num_input_tokens_seen": 39165688,
      "step": 67495
    },
    {
      "epoch": 10.05361930294906,
      "grad_norm": 98.5765151977539,
      "learning_rate": 2.91112547541663e-05,
      "loss": 0.1505,
      "num_input_tokens_seen": 39168792,
      "step": 67500
    },
    {
      "epoch": 10.054364015490021,
      "grad_norm": 0.022968726232647896,
      "learning_rate": 2.9108049537602637e-05,
      "loss": 0.0711,
      "num_input_tokens_seen": 39171576,
      "step": 67505
    },
    {
      "epoch": 10.05510872803098,
      "grad_norm": 0.006348933558911085,
      "learning_rate": 2.9104844251637652e-05,
      "loss": 0.1226,
      "num_input_tokens_seen": 39174424,
      "step": 67510
    },
    {
      "epoch": 10.055853440571939,
      "grad_norm": 0.0012407521717250347,
      "learning_rate": 2.91016388963255e-05,
      "loss": 0.0171,
      "num_input_tokens_seen": 39177176,
      "step": 67515
    },
    {
      "epoch": 10.056598153112898,
      "grad_norm": 0.0278024785220623,
      "learning_rate": 2.9098433471720322e-05,
      "loss": 0.0404,
      "num_input_tokens_seen": 39179960,
      "step": 67520
    },
    {
      "epoch": 10.057342865653858,
      "grad_norm": 7.30228328704834,
      "learning_rate": 2.909522797787627e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 39182712,
      "step": 67525
    },
    {
      "epoch": 10.058087578194817,
      "grad_norm": 0.11217068135738373,
      "learning_rate": 2.9092022414847514e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 39185368,
      "step": 67530
    },
    {
      "epoch": 10.058832290735776,
      "grad_norm": 0.24235142767429352,
      "learning_rate": 2.908881678268819e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 39188344,
      "step": 67535
    },
    {
      "epoch": 10.059577003276734,
      "grad_norm": 24.54922866821289,
      "learning_rate": 2.908561108145247e-05,
      "loss": 0.1869,
      "num_input_tokens_seen": 39191192,
      "step": 67540
    },
    {
      "epoch": 10.060321715817695,
      "grad_norm": 0.018867788836359978,
      "learning_rate": 2.90824053111945e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39194392,
      "step": 67545
    },
    {
      "epoch": 10.061066428358654,
      "grad_norm": 0.012368769384920597,
      "learning_rate": 2.9079199471968444e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39197272,
      "step": 67550
    },
    {
      "epoch": 10.061811140899612,
      "grad_norm": 0.023639976978302002,
      "learning_rate": 2.9075993563828452e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39199864,
      "step": 67555
    },
    {
      "epoch": 10.062555853440571,
      "grad_norm": 0.023125670850276947,
      "learning_rate": 2.9072787586828697e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 39202680,
      "step": 67560
    },
    {
      "epoch": 10.063300565981532,
      "grad_norm": 0.03928438946604729,
      "learning_rate": 2.9069581541023333e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39205624,
      "step": 67565
    },
    {
      "epoch": 10.06404527852249,
      "grad_norm": 0.0260756965726614,
      "learning_rate": 2.9066375426466518e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39208408,
      "step": 67570
    },
    {
      "epoch": 10.06478999106345,
      "grad_norm": 75.63340759277344,
      "learning_rate": 2.906316924321244e-05,
      "loss": 0.059,
      "num_input_tokens_seen": 39211160,
      "step": 67575
    },
    {
      "epoch": 10.065534703604408,
      "grad_norm": 0.015875669196248055,
      "learning_rate": 2.9059962991315237e-05,
      "loss": 0.0525,
      "num_input_tokens_seen": 39214008,
      "step": 67580
    },
    {
      "epoch": 10.066279416145369,
      "grad_norm": 45.44725799560547,
      "learning_rate": 2.9056756670829087e-05,
      "loss": 0.0396,
      "num_input_tokens_seen": 39216920,
      "step": 67585
    },
    {
      "epoch": 10.067024128686327,
      "grad_norm": 0.9847763776779175,
      "learning_rate": 2.9053550281808155e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39219608,
      "step": 67590
    },
    {
      "epoch": 10.067768841227286,
      "grad_norm": 0.004593597259372473,
      "learning_rate": 2.905034382430661e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 39222456,
      "step": 67595
    },
    {
      "epoch": 10.068513553768245,
      "grad_norm": 0.0028457397129386663,
      "learning_rate": 2.9047137298378624e-05,
      "loss": 0.0349,
      "num_input_tokens_seen": 39225400,
      "step": 67600
    },
    {
      "epoch": 10.069258266309205,
      "grad_norm": 0.1709284484386444,
      "learning_rate": 2.9043930704078364e-05,
      "loss": 0.1316,
      "num_input_tokens_seen": 39228088,
      "step": 67605
    },
    {
      "epoch": 10.070002978850164,
      "grad_norm": 0.002221310045570135,
      "learning_rate": 2.904072404146001e-05,
      "loss": 0.2112,
      "num_input_tokens_seen": 39231096,
      "step": 67610
    },
    {
      "epoch": 10.070747691391123,
      "grad_norm": 0.002383769489824772,
      "learning_rate": 2.9037517310577726e-05,
      "loss": 0.1334,
      "num_input_tokens_seen": 39233912,
      "step": 67615
    },
    {
      "epoch": 10.071492403932082,
      "grad_norm": 0.03743948042392731,
      "learning_rate": 2.9034310511485692e-05,
      "loss": 0.0192,
      "num_input_tokens_seen": 39236824,
      "step": 67620
    },
    {
      "epoch": 10.072237116473042,
      "grad_norm": 11.774518013000488,
      "learning_rate": 2.903110364423809e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 39239480,
      "step": 67625
    },
    {
      "epoch": 10.072981829014001,
      "grad_norm": 0.004172372166067362,
      "learning_rate": 2.9027896708889073e-05,
      "loss": 0.1187,
      "num_input_tokens_seen": 39242360,
      "step": 67630
    },
    {
      "epoch": 10.07372654155496,
      "grad_norm": 0.004322416614741087,
      "learning_rate": 2.9024689705492847e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 39245592,
      "step": 67635
    },
    {
      "epoch": 10.074471254095918,
      "grad_norm": 0.3645642101764679,
      "learning_rate": 2.902148263410357e-05,
      "loss": 0.0077,
      "num_input_tokens_seen": 39248344,
      "step": 67640
    },
    {
      "epoch": 10.075215966636879,
      "grad_norm": 32.889625549316406,
      "learning_rate": 2.9018275494775442e-05,
      "loss": 0.0688,
      "num_input_tokens_seen": 39251064,
      "step": 67645
    },
    {
      "epoch": 10.075960679177838,
      "grad_norm": 0.008782226592302322,
      "learning_rate": 2.9015068287562626e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 39253848,
      "step": 67650
    },
    {
      "epoch": 10.076705391718797,
      "grad_norm": 115.34229278564453,
      "learning_rate": 2.9011861012519316e-05,
      "loss": 0.3,
      "num_input_tokens_seen": 39256536,
      "step": 67655
    },
    {
      "epoch": 10.077450104259755,
      "grad_norm": 0.042165327817201614,
      "learning_rate": 2.900865366969968e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39259768,
      "step": 67660
    },
    {
      "epoch": 10.078194816800714,
      "grad_norm": 0.016838451847434044,
      "learning_rate": 2.900544625915793e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39262712,
      "step": 67665
    },
    {
      "epoch": 10.078939529341675,
      "grad_norm": 0.004555749706923962,
      "learning_rate": 2.9002238780948232e-05,
      "loss": 0.129,
      "num_input_tokens_seen": 39265400,
      "step": 67670
    },
    {
      "epoch": 10.079684241882633,
      "grad_norm": 0.004052579402923584,
      "learning_rate": 2.8999031235124775e-05,
      "loss": 0.1287,
      "num_input_tokens_seen": 39268568,
      "step": 67675
    },
    {
      "epoch": 10.080428954423592,
      "grad_norm": 0.014675982296466827,
      "learning_rate": 2.8995823621741754e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39271544,
      "step": 67680
    },
    {
      "epoch": 10.08117366696455,
      "grad_norm": 21.04800033569336,
      "learning_rate": 2.8992615940853347e-05,
      "loss": 0.1106,
      "num_input_tokens_seen": 39274456,
      "step": 67685
    },
    {
      "epoch": 10.081918379505511,
      "grad_norm": 0.00760373892262578,
      "learning_rate": 2.8989408192513756e-05,
      "loss": 0.0083,
      "num_input_tokens_seen": 39277208,
      "step": 67690
    },
    {
      "epoch": 10.08266309204647,
      "grad_norm": 0.007102068513631821,
      "learning_rate": 2.898620037677717e-05,
      "loss": 0.0094,
      "num_input_tokens_seen": 39280280,
      "step": 67695
    },
    {
      "epoch": 10.083407804587429,
      "grad_norm": 0.007199988700449467,
      "learning_rate": 2.898299249369777e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39283224,
      "step": 67700
    },
    {
      "epoch": 10.084152517128388,
      "grad_norm": 0.00029222224839031696,
      "learning_rate": 2.8979784543329775e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39286168,
      "step": 67705
    },
    {
      "epoch": 10.084897229669348,
      "grad_norm": 58.89809799194336,
      "learning_rate": 2.897657652572735e-05,
      "loss": 0.0387,
      "num_input_tokens_seen": 39288920,
      "step": 67710
    },
    {
      "epoch": 10.085641942210307,
      "grad_norm": 0.02189595066010952,
      "learning_rate": 2.897336844094472e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39292120,
      "step": 67715
    },
    {
      "epoch": 10.086386654751266,
      "grad_norm": 0.0031546701211482286,
      "learning_rate": 2.8970160289036064e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 39294904,
      "step": 67720
    },
    {
      "epoch": 10.087131367292224,
      "grad_norm": 0.00410007918253541,
      "learning_rate": 2.8966952070055582e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 39297880,
      "step": 67725
    },
    {
      "epoch": 10.087876079833185,
      "grad_norm": 0.006904186215251684,
      "learning_rate": 2.8963743784057474e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39300664,
      "step": 67730
    },
    {
      "epoch": 10.088620792374144,
      "grad_norm": 0.07218025624752045,
      "learning_rate": 2.896053543109595e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 39303416,
      "step": 67735
    },
    {
      "epoch": 10.089365504915103,
      "grad_norm": 0.007737702690064907,
      "learning_rate": 2.8957327011225198e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39306136,
      "step": 67740
    },
    {
      "epoch": 10.090110217456061,
      "grad_norm": 0.0054189967922866344,
      "learning_rate": 2.8954118524499434e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39309016,
      "step": 67745
    },
    {
      "epoch": 10.090854929997022,
      "grad_norm": 0.0025815709959715605,
      "learning_rate": 2.895090997097286e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39312184,
      "step": 67750
    },
    {
      "epoch": 10.09159964253798,
      "grad_norm": 0.0011142523726448417,
      "learning_rate": 2.894770135069967e-05,
      "loss": 0.1319,
      "num_input_tokens_seen": 39314904,
      "step": 67755
    },
    {
      "epoch": 10.09234435507894,
      "grad_norm": 0.006462245713919401,
      "learning_rate": 2.894449266373408e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39317368,
      "step": 67760
    },
    {
      "epoch": 10.093089067619898,
      "grad_norm": 2.5009937286376953,
      "learning_rate": 2.8941283910130295e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 39320312,
      "step": 67765
    },
    {
      "epoch": 10.093833780160859,
      "grad_norm": 0.0035687366034835577,
      "learning_rate": 2.8938075089942524e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 39323192,
      "step": 67770
    },
    {
      "epoch": 10.094578492701817,
      "grad_norm": 0.002571691758930683,
      "learning_rate": 2.893486620322498e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39326424,
      "step": 67775
    },
    {
      "epoch": 10.095323205242776,
      "grad_norm": 0.21761512756347656,
      "learning_rate": 2.893165725003187e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39329336,
      "step": 67780
    },
    {
      "epoch": 10.096067917783735,
      "grad_norm": 0.006263336632400751,
      "learning_rate": 2.8928448230417404e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 39332280,
      "step": 67785
    },
    {
      "epoch": 10.096812630324695,
      "grad_norm": 0.09579765051603317,
      "learning_rate": 2.89252391444358e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 39335224,
      "step": 67790
    },
    {
      "epoch": 10.097557342865654,
      "grad_norm": 0.002266251714900136,
      "learning_rate": 2.892202999214127e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39337912,
      "step": 67795
    },
    {
      "epoch": 10.098302055406613,
      "grad_norm": 0.0010012846905738115,
      "learning_rate": 2.8918820773588025e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 39340888,
      "step": 67800
    },
    {
      "epoch": 10.099046767947572,
      "grad_norm": 0.0043382104486227036,
      "learning_rate": 2.8915611488830284e-05,
      "loss": 0.0367,
      "num_input_tokens_seen": 39343640,
      "step": 67805
    },
    {
      "epoch": 10.099791480488532,
      "grad_norm": 0.02274254895746708,
      "learning_rate": 2.891240213792228e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39346680,
      "step": 67810
    },
    {
      "epoch": 10.100536193029491,
      "grad_norm": 0.0006064902991056442,
      "learning_rate": 2.890919272091821e-05,
      "loss": 0.3977,
      "num_input_tokens_seen": 39349560,
      "step": 67815
    },
    {
      "epoch": 10.10128090557045,
      "grad_norm": 0.03504308685660362,
      "learning_rate": 2.8905983237872304e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39352280,
      "step": 67820
    },
    {
      "epoch": 10.102025618111409,
      "grad_norm": 0.0004383942286949605,
      "learning_rate": 2.890277368883878e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39355096,
      "step": 67825
    },
    {
      "epoch": 10.102770330652369,
      "grad_norm": 0.003099598456174135,
      "learning_rate": 2.889956407387186e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39358168,
      "step": 67830
    },
    {
      "epoch": 10.103515043193328,
      "grad_norm": 0.021231474354863167,
      "learning_rate": 2.8896354393025765e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 39361048,
      "step": 67835
    },
    {
      "epoch": 10.104259755734287,
      "grad_norm": 0.010044816881418228,
      "learning_rate": 2.8893144646354725e-05,
      "loss": 0.1317,
      "num_input_tokens_seen": 39363864,
      "step": 67840
    },
    {
      "epoch": 10.105004468275245,
      "grad_norm": 12.034045219421387,
      "learning_rate": 2.888993483391297e-05,
      "loss": 0.2407,
      "num_input_tokens_seen": 39367160,
      "step": 67845
    },
    {
      "epoch": 10.105749180816204,
      "grad_norm": 0.0033588989172130823,
      "learning_rate": 2.8886724955754713e-05,
      "loss": 0.1262,
      "num_input_tokens_seen": 39370232,
      "step": 67850
    },
    {
      "epoch": 10.106493893357165,
      "grad_norm": 0.006528833415359259,
      "learning_rate": 2.8883515011934186e-05,
      "loss": 0.0168,
      "num_input_tokens_seen": 39373272,
      "step": 67855
    },
    {
      "epoch": 10.107238605898123,
      "grad_norm": 0.004596947226673365,
      "learning_rate": 2.8880305002505624e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39375960,
      "step": 67860
    },
    {
      "epoch": 10.107983318439082,
      "grad_norm": 0.11794453859329224,
      "learning_rate": 2.887709492752325e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 39378936,
      "step": 67865
    },
    {
      "epoch": 10.108728030980041,
      "grad_norm": 0.9490537643432617,
      "learning_rate": 2.8873884787041304e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39381816,
      "step": 67870
    },
    {
      "epoch": 10.109472743521001,
      "grad_norm": 0.009962653741240501,
      "learning_rate": 2.8870674581114004e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 39384728,
      "step": 67875
    },
    {
      "epoch": 10.11021745606196,
      "grad_norm": 0.00593224074691534,
      "learning_rate": 2.88674643097956e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39387768,
      "step": 67880
    },
    {
      "epoch": 10.110962168602919,
      "grad_norm": 0.004628634080290794,
      "learning_rate": 2.886425397314031e-05,
      "loss": 0.2554,
      "num_input_tokens_seen": 39392088,
      "step": 67885
    },
    {
      "epoch": 10.111706881143878,
      "grad_norm": 0.012464815750718117,
      "learning_rate": 2.886104357120237e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39394968,
      "step": 67890
    },
    {
      "epoch": 10.112451593684838,
      "grad_norm": 0.0026608023326843977,
      "learning_rate": 2.8857833104036036e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39397816,
      "step": 67895
    },
    {
      "epoch": 10.113196306225797,
      "grad_norm": 0.0034047712106257677,
      "learning_rate": 2.8854622571695526e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 39400600,
      "step": 67900
    },
    {
      "epoch": 10.113941018766756,
      "grad_norm": 0.005000041797757149,
      "learning_rate": 2.8851411974235086e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39403320,
      "step": 67905
    },
    {
      "epoch": 10.114685731307715,
      "grad_norm": 10.68004035949707,
      "learning_rate": 2.884820131170896e-05,
      "loss": 0.0566,
      "num_input_tokens_seen": 39406136,
      "step": 67910
    },
    {
      "epoch": 10.115430443848675,
      "grad_norm": 0.011980965733528137,
      "learning_rate": 2.884499058417138e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39408856,
      "step": 67915
    },
    {
      "epoch": 10.116175156389634,
      "grad_norm": 0.566766083240509,
      "learning_rate": 2.8841779791676594e-05,
      "loss": 0.0611,
      "num_input_tokens_seen": 39411576,
      "step": 67920
    },
    {
      "epoch": 10.116919868930593,
      "grad_norm": 39.068115234375,
      "learning_rate": 2.8838568934278843e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 39414584,
      "step": 67925
    },
    {
      "epoch": 10.117664581471551,
      "grad_norm": 0.12636403739452362,
      "learning_rate": 2.8835358012032364e-05,
      "loss": 0.051,
      "num_input_tokens_seen": 39417400,
      "step": 67930
    },
    {
      "epoch": 10.118409294012512,
      "grad_norm": 0.007522239349782467,
      "learning_rate": 2.8832147024991412e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39420152,
      "step": 67935
    },
    {
      "epoch": 10.11915400655347,
      "grad_norm": 0.009329404681921005,
      "learning_rate": 2.882893597321024e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 39423192,
      "step": 67940
    },
    {
      "epoch": 10.11989871909443,
      "grad_norm": 41.42875671386719,
      "learning_rate": 2.8825724856743075e-05,
      "loss": 0.1169,
      "num_input_tokens_seen": 39426264,
      "step": 67945
    },
    {
      "epoch": 10.120643431635388,
      "grad_norm": 26.448013305664062,
      "learning_rate": 2.8822513675644192e-05,
      "loss": 0.1411,
      "num_input_tokens_seen": 39429272,
      "step": 67950
    },
    {
      "epoch": 10.121388144176349,
      "grad_norm": 0.0696614682674408,
      "learning_rate": 2.8819302429967808e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 39432280,
      "step": 67955
    },
    {
      "epoch": 10.122132856717307,
      "grad_norm": 9.0667085647583,
      "learning_rate": 2.88160911197682e-05,
      "loss": 0.0118,
      "num_input_tokens_seen": 39435320,
      "step": 67960
    },
    {
      "epoch": 10.122877569258266,
      "grad_norm": 0.030305281281471252,
      "learning_rate": 2.881287974509961e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39438392,
      "step": 67965
    },
    {
      "epoch": 10.123622281799225,
      "grad_norm": 0.007560460828244686,
      "learning_rate": 2.8809668306016286e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 39441432,
      "step": 67970
    },
    {
      "epoch": 10.124366994340185,
      "grad_norm": 0.03178390860557556,
      "learning_rate": 2.8806456802572502e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39444344,
      "step": 67975
    },
    {
      "epoch": 10.125111706881144,
      "grad_norm": 0.05015527829527855,
      "learning_rate": 2.8803245234822485e-05,
      "loss": 0.1359,
      "num_input_tokens_seen": 39447256,
      "step": 67980
    },
    {
      "epoch": 10.125856419422103,
      "grad_norm": 0.004569296725094318,
      "learning_rate": 2.880003360282051e-05,
      "loss": 0.048,
      "num_input_tokens_seen": 39450200,
      "step": 67985
    },
    {
      "epoch": 10.126601131963062,
      "grad_norm": 0.0026177549734711647,
      "learning_rate": 2.8796821906620837e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39453080,
      "step": 67990
    },
    {
      "epoch": 10.127345844504022,
      "grad_norm": 0.05341070890426636,
      "learning_rate": 2.8793610146277707e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39455896,
      "step": 67995
    },
    {
      "epoch": 10.128090557044981,
      "grad_norm": 1.0360251665115356,
      "learning_rate": 2.879039832184539e-05,
      "loss": 0.2199,
      "num_input_tokens_seen": 39458840,
      "step": 68000
    },
    {
      "epoch": 10.12883526958594,
      "grad_norm": 0.014480824582278728,
      "learning_rate": 2.8787186433378142e-05,
      "loss": 0.2028,
      "num_input_tokens_seen": 39461464,
      "step": 68005
    },
    {
      "epoch": 10.129579982126899,
      "grad_norm": 0.0010056664468720555,
      "learning_rate": 2.8783974480930244e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 39463992,
      "step": 68010
    },
    {
      "epoch": 10.130324694667857,
      "grad_norm": 0.03717043623328209,
      "learning_rate": 2.8780762464555928e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 39466776,
      "step": 68015
    },
    {
      "epoch": 10.131069407208818,
      "grad_norm": 0.054825834929943085,
      "learning_rate": 2.8777550384309477e-05,
      "loss": 0.092,
      "num_input_tokens_seen": 39469848,
      "step": 68020
    },
    {
      "epoch": 10.131814119749777,
      "grad_norm": 0.005195536185055971,
      "learning_rate": 2.877433824024515e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39472664,
      "step": 68025
    },
    {
      "epoch": 10.132558832290735,
      "grad_norm": 0.010331893339753151,
      "learning_rate": 2.8771126032417222e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39475448,
      "step": 68030
    },
    {
      "epoch": 10.133303544831694,
      "grad_norm": 0.014193328097462654,
      "learning_rate": 2.876791376087995e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39478200,
      "step": 68035
    },
    {
      "epoch": 10.134048257372655,
      "grad_norm": 0.0050600687973201275,
      "learning_rate": 2.8764701425687597e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39481368,
      "step": 68040
    },
    {
      "epoch": 10.134792969913613,
      "grad_norm": 1.8938939571380615,
      "learning_rate": 2.876148902689445e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39484312,
      "step": 68045
    },
    {
      "epoch": 10.135537682454572,
      "grad_norm": 87.72269439697266,
      "learning_rate": 2.875827656455476e-05,
      "loss": 0.2081,
      "num_input_tokens_seen": 39487416,
      "step": 68050
    },
    {
      "epoch": 10.136282394995531,
      "grad_norm": 0.0016980910440906882,
      "learning_rate": 2.8755064038722813e-05,
      "loss": 0.1447,
      "num_input_tokens_seen": 39490872,
      "step": 68055
    },
    {
      "epoch": 10.137027107536491,
      "grad_norm": 0.007564258296042681,
      "learning_rate": 2.875185144945287e-05,
      "loss": 0.2103,
      "num_input_tokens_seen": 39493688,
      "step": 68060
    },
    {
      "epoch": 10.13777182007745,
      "grad_norm": 0.03493661805987358,
      "learning_rate": 2.874863879679921e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39496536,
      "step": 68065
    },
    {
      "epoch": 10.138516532618409,
      "grad_norm": 0.002198069589212537,
      "learning_rate": 2.8745426080816117e-05,
      "loss": 0.0322,
      "num_input_tokens_seen": 39499192,
      "step": 68070
    },
    {
      "epoch": 10.139261245159368,
      "grad_norm": 0.21699044108390808,
      "learning_rate": 2.8742213301557847e-05,
      "loss": 0.2531,
      "num_input_tokens_seen": 39502040,
      "step": 68075
    },
    {
      "epoch": 10.140005957700328,
      "grad_norm": 33.28828811645508,
      "learning_rate": 2.8739000459078695e-05,
      "loss": 0.0988,
      "num_input_tokens_seen": 39505048,
      "step": 68080
    },
    {
      "epoch": 10.140750670241287,
      "grad_norm": 0.017927957698702812,
      "learning_rate": 2.8735787553432925e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 39507736,
      "step": 68085
    },
    {
      "epoch": 10.141495382782246,
      "grad_norm": 70.11648559570312,
      "learning_rate": 2.873257458467482e-05,
      "loss": 0.1847,
      "num_input_tokens_seen": 39510584,
      "step": 68090
    },
    {
      "epoch": 10.142240095323205,
      "grad_norm": 0.02588476985692978,
      "learning_rate": 2.8729361552858662e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39513464,
      "step": 68095
    },
    {
      "epoch": 10.142984807864165,
      "grad_norm": 0.007442980073392391,
      "learning_rate": 2.8726148458038732e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39516536,
      "step": 68100
    },
    {
      "epoch": 10.143729520405124,
      "grad_norm": 0.09251967072486877,
      "learning_rate": 2.8722935300269315e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39519224,
      "step": 68105
    },
    {
      "epoch": 10.144474232946083,
      "grad_norm": 0.01074338611215353,
      "learning_rate": 2.8719722079604684e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39522040,
      "step": 68110
    },
    {
      "epoch": 10.145218945487041,
      "grad_norm": 0.9317267537117004,
      "learning_rate": 2.8716508796099135e-05,
      "loss": 0.049,
      "num_input_tokens_seen": 39524984,
      "step": 68115
    },
    {
      "epoch": 10.145963658028002,
      "grad_norm": 0.0013443775242194533,
      "learning_rate": 2.8713295449806944e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39528248,
      "step": 68120
    },
    {
      "epoch": 10.14670837056896,
      "grad_norm": 0.3609217703342438,
      "learning_rate": 2.8710082040782392e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 39531384,
      "step": 68125
    },
    {
      "epoch": 10.14745308310992,
      "grad_norm": 0.046430401504039764,
      "learning_rate": 2.870686856907978e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39534040,
      "step": 68130
    },
    {
      "epoch": 10.148197795650878,
      "grad_norm": 0.05722806230187416,
      "learning_rate": 2.8703655034753397e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 39537112,
      "step": 68135
    },
    {
      "epoch": 10.148942508191839,
      "grad_norm": 0.08596592396497726,
      "learning_rate": 2.8700441437857527e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 39540024,
      "step": 68140
    },
    {
      "epoch": 10.149687220732797,
      "grad_norm": 0.026652872562408447,
      "learning_rate": 2.869722777844645e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 39542744,
      "step": 68145
    },
    {
      "epoch": 10.150431933273756,
      "grad_norm": 0.004784060642123222,
      "learning_rate": 2.869401405657448e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39545432,
      "step": 68150
    },
    {
      "epoch": 10.151176645814715,
      "grad_norm": 0.002874196507036686,
      "learning_rate": 2.8690800272295888e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 39548376,
      "step": 68155
    },
    {
      "epoch": 10.151921358355676,
      "grad_norm": 0.002072409261018038,
      "learning_rate": 2.8687586425664974e-05,
      "loss": 0.0513,
      "num_input_tokens_seen": 39551320,
      "step": 68160
    },
    {
      "epoch": 10.152666070896634,
      "grad_norm": 0.010612742975354195,
      "learning_rate": 2.868437251673604e-05,
      "loss": 0.2282,
      "num_input_tokens_seen": 39554264,
      "step": 68165
    },
    {
      "epoch": 10.153410783437593,
      "grad_norm": 0.0048525370657444,
      "learning_rate": 2.8681158545563375e-05,
      "loss": 0.3753,
      "num_input_tokens_seen": 39557240,
      "step": 68170
    },
    {
      "epoch": 10.154155495978552,
      "grad_norm": 0.07411105185747147,
      "learning_rate": 2.8677944512201283e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39560056,
      "step": 68175
    },
    {
      "epoch": 10.15490020851951,
      "grad_norm": 0.0009616221650503576,
      "learning_rate": 2.8674730416704056e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39562968,
      "step": 68180
    },
    {
      "epoch": 10.155644921060471,
      "grad_norm": 0.0053996555507183075,
      "learning_rate": 2.8671516259125985e-05,
      "loss": 0.0383,
      "num_input_tokens_seen": 39565688,
      "step": 68185
    },
    {
      "epoch": 10.15638963360143,
      "grad_norm": 0.003399168374016881,
      "learning_rate": 2.866830203952139e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 39568856,
      "step": 68190
    },
    {
      "epoch": 10.157134346142389,
      "grad_norm": 0.318086177110672,
      "learning_rate": 2.866508775794455e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39571768,
      "step": 68195
    },
    {
      "epoch": 10.157879058683347,
      "grad_norm": 0.009723229333758354,
      "learning_rate": 2.866187341444978e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39574552,
      "step": 68200
    },
    {
      "epoch": 10.158623771224308,
      "grad_norm": 0.004339960869401693,
      "learning_rate": 2.8658659009091383e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 39577272,
      "step": 68205
    },
    {
      "epoch": 10.159368483765267,
      "grad_norm": 178.49710083007812,
      "learning_rate": 2.865544454192366e-05,
      "loss": 0.0914,
      "num_input_tokens_seen": 39580056,
      "step": 68210
    },
    {
      "epoch": 10.160113196306225,
      "grad_norm": 0.002365236636251211,
      "learning_rate": 2.8652230013000914e-05,
      "loss": 0.2842,
      "num_input_tokens_seen": 39582936,
      "step": 68215
    },
    {
      "epoch": 10.160857908847184,
      "grad_norm": 0.003883620025590062,
      "learning_rate": 2.8649015422377456e-05,
      "loss": 0.0332,
      "num_input_tokens_seen": 39585848,
      "step": 68220
    },
    {
      "epoch": 10.161602621388145,
      "grad_norm": 0.005502321291714907,
      "learning_rate": 2.864580077010759e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39588728,
      "step": 68225
    },
    {
      "epoch": 10.162347333929103,
      "grad_norm": 0.06912902742624283,
      "learning_rate": 2.8642586056245628e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39591352,
      "step": 68230
    },
    {
      "epoch": 10.163092046470062,
      "grad_norm": 0.011137707158923149,
      "learning_rate": 2.8639371280845872e-05,
      "loss": 0.2417,
      "num_input_tokens_seen": 39594008,
      "step": 68235
    },
    {
      "epoch": 10.163836759011021,
      "grad_norm": 0.07636445015668869,
      "learning_rate": 2.863615644396264e-05,
      "loss": 0.045,
      "num_input_tokens_seen": 39596696,
      "step": 68240
    },
    {
      "epoch": 10.164581471551982,
      "grad_norm": 33.47779846191406,
      "learning_rate": 2.863294154565025e-05,
      "loss": 0.2021,
      "num_input_tokens_seen": 39599352,
      "step": 68245
    },
    {
      "epoch": 10.16532618409294,
      "grad_norm": 1.0167008638381958,
      "learning_rate": 2.862972658596299e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 39602296,
      "step": 68250
    },
    {
      "epoch": 10.166070896633899,
      "grad_norm": 0.018161600455641747,
      "learning_rate": 2.8626511564955195e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 39605176,
      "step": 68255
    },
    {
      "epoch": 10.166815609174858,
      "grad_norm": 0.5359539985656738,
      "learning_rate": 2.8623296482681166e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 39608056,
      "step": 68260
    },
    {
      "epoch": 10.167560321715818,
      "grad_norm": 0.0031275912187993526,
      "learning_rate": 2.862008133919523e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39610872,
      "step": 68265
    },
    {
      "epoch": 10.168305034256777,
      "grad_norm": 0.0010734800016507506,
      "learning_rate": 2.8616866134551706e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39614008,
      "step": 68270
    },
    {
      "epoch": 10.169049746797736,
      "grad_norm": 0.0007699118577875197,
      "learning_rate": 2.86136508688049e-05,
      "loss": 0.1572,
      "num_input_tokens_seen": 39616760,
      "step": 68275
    },
    {
      "epoch": 10.169794459338695,
      "grad_norm": 0.008505353704094887,
      "learning_rate": 2.861043554200914e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 39619448,
      "step": 68280
    },
    {
      "epoch": 10.170539171879655,
      "grad_norm": 0.0032006429973989725,
      "learning_rate": 2.8607220154218734e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 39622104,
      "step": 68285
    },
    {
      "epoch": 10.171283884420614,
      "grad_norm": 0.008437789976596832,
      "learning_rate": 2.860400470548801e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 39625048,
      "step": 68290
    },
    {
      "epoch": 10.172028596961573,
      "grad_norm": 0.0015483855968341231,
      "learning_rate": 2.8600789195871286e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39627960,
      "step": 68295
    },
    {
      "epoch": 10.172773309502531,
      "grad_norm": 0.012385768815875053,
      "learning_rate": 2.8597573625422892e-05,
      "loss": 0.0574,
      "num_input_tokens_seen": 39630840,
      "step": 68300
    },
    {
      "epoch": 10.173518022043492,
      "grad_norm": 0.003810484893620014,
      "learning_rate": 2.859435799419715e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39633656,
      "step": 68305
    },
    {
      "epoch": 10.17426273458445,
      "grad_norm": 0.0028137401677668095,
      "learning_rate": 2.8591142302248392e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39636440,
      "step": 68310
    },
    {
      "epoch": 10.17500744712541,
      "grad_norm": 0.0020693568512797356,
      "learning_rate": 2.8587926549630923e-05,
      "loss": 0.1257,
      "num_input_tokens_seen": 39639192,
      "step": 68315
    },
    {
      "epoch": 10.175752159666368,
      "grad_norm": 3.078494071960449,
      "learning_rate": 2.858471073639908e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 39642264,
      "step": 68320
    },
    {
      "epoch": 10.176496872207329,
      "grad_norm": 0.005125574767589569,
      "learning_rate": 2.8581494862607194e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 39645400,
      "step": 68325
    },
    {
      "epoch": 10.177241584748288,
      "grad_norm": 17.70828628540039,
      "learning_rate": 2.8578278928309594e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 39648632,
      "step": 68330
    },
    {
      "epoch": 10.177986297289246,
      "grad_norm": 0.0018101257737725973,
      "learning_rate": 2.8575062933560605e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39651480,
      "step": 68335
    },
    {
      "epoch": 10.178731009830205,
      "grad_norm": 0.0040922509506344795,
      "learning_rate": 2.8571846878414565e-05,
      "loss": 0.015,
      "num_input_tokens_seen": 39654392,
      "step": 68340
    },
    {
      "epoch": 10.179475722371166,
      "grad_norm": 0.0916539654135704,
      "learning_rate": 2.8568630762925803e-05,
      "loss": 0.1241,
      "num_input_tokens_seen": 39657080,
      "step": 68345
    },
    {
      "epoch": 10.180220434912124,
      "grad_norm": 0.040189702063798904,
      "learning_rate": 2.8565414587148654e-05,
      "loss": 0.1389,
      "num_input_tokens_seen": 39660056,
      "step": 68350
    },
    {
      "epoch": 10.180965147453083,
      "grad_norm": 0.38072115182876587,
      "learning_rate": 2.856219835113744e-05,
      "loss": 0.3878,
      "num_input_tokens_seen": 39663288,
      "step": 68355
    },
    {
      "epoch": 10.181709859994042,
      "grad_norm": 0.07842439413070679,
      "learning_rate": 2.8558982054946515e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39666072,
      "step": 68360
    },
    {
      "epoch": 10.182454572535,
      "grad_norm": 0.006834454368799925,
      "learning_rate": 2.85557656986302e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39668920,
      "step": 68365
    },
    {
      "epoch": 10.183199285075961,
      "grad_norm": 0.08549553900957108,
      "learning_rate": 2.8552549282242836e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 39671832,
      "step": 68370
    },
    {
      "epoch": 10.18394399761692,
      "grad_norm": 132.95928955078125,
      "learning_rate": 2.854933280583877e-05,
      "loss": 0.1007,
      "num_input_tokens_seen": 39674616,
      "step": 68375
    },
    {
      "epoch": 10.184688710157879,
      "grad_norm": 0.004716681316494942,
      "learning_rate": 2.8546116269472322e-05,
      "loss": 0.1349,
      "num_input_tokens_seen": 39677432,
      "step": 68380
    },
    {
      "epoch": 10.185433422698837,
      "grad_norm": 0.029507750645279884,
      "learning_rate": 2.8542899673197847e-05,
      "loss": 0.1757,
      "num_input_tokens_seen": 39680376,
      "step": 68385
    },
    {
      "epoch": 10.186178135239798,
      "grad_norm": 0.03662455081939697,
      "learning_rate": 2.8539683017069697e-05,
      "loss": 0.0939,
      "num_input_tokens_seen": 39683352,
      "step": 68390
    },
    {
      "epoch": 10.186922847780757,
      "grad_norm": 0.05688842013478279,
      "learning_rate": 2.8536466301142185e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 39686648,
      "step": 68395
    },
    {
      "epoch": 10.187667560321715,
      "grad_norm": 0.10828853398561478,
      "learning_rate": 2.853324952546967e-05,
      "loss": 0.2691,
      "num_input_tokens_seen": 39689944,
      "step": 68400
    },
    {
      "epoch": 10.188412272862674,
      "grad_norm": 11.38387680053711,
      "learning_rate": 2.8530032690106494e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 39692600,
      "step": 68405
    },
    {
      "epoch": 10.189156985403635,
      "grad_norm": 0.011077340692281723,
      "learning_rate": 2.8526815795107016e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 39695320,
      "step": 68410
    },
    {
      "epoch": 10.189901697944594,
      "grad_norm": 79.58161926269531,
      "learning_rate": 2.8523598840525563e-05,
      "loss": 0.0169,
      "num_input_tokens_seen": 39698360,
      "step": 68415
    },
    {
      "epoch": 10.190646410485552,
      "grad_norm": 0.013411838561296463,
      "learning_rate": 2.852038182641648e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39701080,
      "step": 68420
    },
    {
      "epoch": 10.191391123026511,
      "grad_norm": 0.3243969678878784,
      "learning_rate": 2.8517164752834136e-05,
      "loss": 0.2355,
      "num_input_tokens_seen": 39703928,
      "step": 68425
    },
    {
      "epoch": 10.192135835567472,
      "grad_norm": 0.07047383487224579,
      "learning_rate": 2.8513947619832866e-05,
      "loss": 0.1535,
      "num_input_tokens_seen": 39706648,
      "step": 68430
    },
    {
      "epoch": 10.19288054810843,
      "grad_norm": 11.192644119262695,
      "learning_rate": 2.8510730427467015e-05,
      "loss": 0.0891,
      "num_input_tokens_seen": 39709368,
      "step": 68435
    },
    {
      "epoch": 10.19362526064939,
      "grad_norm": 2.800182819366455,
      "learning_rate": 2.8507513175790944e-05,
      "loss": 0.044,
      "num_input_tokens_seen": 39712312,
      "step": 68440
    },
    {
      "epoch": 10.194369973190348,
      "grad_norm": 0.013062427751719952,
      "learning_rate": 2.850429586485901e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 39715512,
      "step": 68445
    },
    {
      "epoch": 10.195114685731308,
      "grad_norm": 0.06432575732469559,
      "learning_rate": 2.850107849472555e-05,
      "loss": 0.1386,
      "num_input_tokens_seen": 39718456,
      "step": 68450
    },
    {
      "epoch": 10.195859398272267,
      "grad_norm": 0.08664976060390472,
      "learning_rate": 2.8497861065444937e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39721432,
      "step": 68455
    },
    {
      "epoch": 10.196604110813226,
      "grad_norm": 17.260509490966797,
      "learning_rate": 2.8494643577071506e-05,
      "loss": 0.0484,
      "num_input_tokens_seen": 39724312,
      "step": 68460
    },
    {
      "epoch": 10.197348823354185,
      "grad_norm": 0.061034850776195526,
      "learning_rate": 2.849142602965963e-05,
      "loss": 0.1692,
      "num_input_tokens_seen": 39727192,
      "step": 68465
    },
    {
      "epoch": 10.198093535895145,
      "grad_norm": 0.06777872145175934,
      "learning_rate": 2.8488208423263663e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39729816,
      "step": 68470
    },
    {
      "epoch": 10.198838248436104,
      "grad_norm": 0.005750127136707306,
      "learning_rate": 2.8484990757937958e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39732504,
      "step": 68475
    },
    {
      "epoch": 10.199582960977063,
      "grad_norm": 0.0018170339753851295,
      "learning_rate": 2.848177303373687e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39736312,
      "step": 68480
    },
    {
      "epoch": 10.200327673518021,
      "grad_norm": 0.07997716963291168,
      "learning_rate": 2.847855525071477e-05,
      "loss": 0.0795,
      "num_input_tokens_seen": 39738968,
      "step": 68485
    },
    {
      "epoch": 10.201072386058982,
      "grad_norm": 0.008378771133720875,
      "learning_rate": 2.8475337408926005e-05,
      "loss": 0.1475,
      "num_input_tokens_seen": 39741976,
      "step": 68490
    },
    {
      "epoch": 10.20181709859994,
      "grad_norm": 0.48308509588241577,
      "learning_rate": 2.8472119508424954e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 39745016,
      "step": 68495
    },
    {
      "epoch": 10.2025618111409,
      "grad_norm": 113.30231475830078,
      "learning_rate": 2.8468901549265976e-05,
      "loss": 0.2215,
      "num_input_tokens_seen": 39747928,
      "step": 68500
    },
    {
      "epoch": 10.203306523681858,
      "grad_norm": 94.025146484375,
      "learning_rate": 2.8465683531503435e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 39750936,
      "step": 68505
    },
    {
      "epoch": 10.204051236222819,
      "grad_norm": 0.1066378653049469,
      "learning_rate": 2.8462465455191682e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39753624,
      "step": 68510
    },
    {
      "epoch": 10.204795948763778,
      "grad_norm": 0.017377106472849846,
      "learning_rate": 2.845924732038511e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 39756408,
      "step": 68515
    },
    {
      "epoch": 10.205540661304736,
      "grad_norm": 0.013023325242102146,
      "learning_rate": 2.8456029127138056e-05,
      "loss": 0.2163,
      "num_input_tokens_seen": 39759640,
      "step": 68520
    },
    {
      "epoch": 10.206285373845695,
      "grad_norm": 0.011546122841536999,
      "learning_rate": 2.8452810875504903e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 39762552,
      "step": 68525
    },
    {
      "epoch": 10.207030086386654,
      "grad_norm": 0.07792866230010986,
      "learning_rate": 2.8449592565540024e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 39765432,
      "step": 68530
    },
    {
      "epoch": 10.207774798927614,
      "grad_norm": 0.0038753498811274767,
      "learning_rate": 2.844637419729778e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 39768344,
      "step": 68535
    },
    {
      "epoch": 10.208519511468573,
      "grad_norm": 0.00072511937469244,
      "learning_rate": 2.844315577083255e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 39771192,
      "step": 68540
    },
    {
      "epoch": 10.209264224009532,
      "grad_norm": 0.0789874792098999,
      "learning_rate": 2.8439937286198704e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39773752,
      "step": 68545
    },
    {
      "epoch": 10.21000893655049,
      "grad_norm": 0.0010386684443801641,
      "learning_rate": 2.8436718743450614e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39777016,
      "step": 68550
    },
    {
      "epoch": 10.210753649091451,
      "grad_norm": 5.6011271476745605,
      "learning_rate": 2.8433500142642654e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39779864,
      "step": 68555
    },
    {
      "epoch": 10.21149836163241,
      "grad_norm": 4.1663737297058105,
      "learning_rate": 2.8430281483829196e-05,
      "loss": 0.2555,
      "num_input_tokens_seen": 39782776,
      "step": 68560
    },
    {
      "epoch": 10.212243074173369,
      "grad_norm": 0.0016229798784479499,
      "learning_rate": 2.842706276706462e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 39785560,
      "step": 68565
    },
    {
      "epoch": 10.212987786714327,
      "grad_norm": 0.00350782903842628,
      "learning_rate": 2.8423843992403298e-05,
      "loss": 0.0084,
      "num_input_tokens_seen": 39788664,
      "step": 68570
    },
    {
      "epoch": 10.213732499255288,
      "grad_norm": 0.0018530983943492174,
      "learning_rate": 2.8420625159899622e-05,
      "loss": 0.2427,
      "num_input_tokens_seen": 39791512,
      "step": 68575
    },
    {
      "epoch": 10.214477211796247,
      "grad_norm": 0.012489993125200272,
      "learning_rate": 2.8417406269607954e-05,
      "loss": 0.0218,
      "num_input_tokens_seen": 39794328,
      "step": 68580
    },
    {
      "epoch": 10.215221924337206,
      "grad_norm": 0.03415883332490921,
      "learning_rate": 2.8414187321582676e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39797080,
      "step": 68585
    },
    {
      "epoch": 10.215966636878164,
      "grad_norm": 0.0020686807110905647,
      "learning_rate": 2.8410968315878178e-05,
      "loss": 0.0813,
      "num_input_tokens_seen": 39799832,
      "step": 68590
    },
    {
      "epoch": 10.216711349419125,
      "grad_norm": 0.037113212049007416,
      "learning_rate": 2.8407749252548843e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39803032,
      "step": 68595
    },
    {
      "epoch": 10.217456061960084,
      "grad_norm": 0.004463483113795519,
      "learning_rate": 2.8404530131649036e-05,
      "loss": 0.1129,
      "num_input_tokens_seen": 39806008,
      "step": 68600
    },
    {
      "epoch": 10.218200774501042,
      "grad_norm": 0.04576635733246803,
      "learning_rate": 2.8401310953233158e-05,
      "loss": 0.0194,
      "num_input_tokens_seen": 39809176,
      "step": 68605
    },
    {
      "epoch": 10.218945487042001,
      "grad_norm": 28.296606063842773,
      "learning_rate": 2.839809171735559e-05,
      "loss": 0.214,
      "num_input_tokens_seen": 39812152,
      "step": 68610
    },
    {
      "epoch": 10.219690199582962,
      "grad_norm": 43.806114196777344,
      "learning_rate": 2.8394872424070716e-05,
      "loss": 0.1714,
      "num_input_tokens_seen": 39815288,
      "step": 68615
    },
    {
      "epoch": 10.22043491212392,
      "grad_norm": 11.283580780029297,
      "learning_rate": 2.8391653073432918e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 39818296,
      "step": 68620
    },
    {
      "epoch": 10.22117962466488,
      "grad_norm": 0.0019225419964641333,
      "learning_rate": 2.838843366549659e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 39821048,
      "step": 68625
    },
    {
      "epoch": 10.221924337205838,
      "grad_norm": 0.020570823922753334,
      "learning_rate": 2.8385214200316118e-05,
      "loss": 0.1416,
      "num_input_tokens_seen": 39823896,
      "step": 68630
    },
    {
      "epoch": 10.222669049746798,
      "grad_norm": 0.10426794737577438,
      "learning_rate": 2.83819946779459e-05,
      "loss": 0.1411,
      "num_input_tokens_seen": 39826680,
      "step": 68635
    },
    {
      "epoch": 10.223413762287757,
      "grad_norm": 0.04573054984211922,
      "learning_rate": 2.8378775098440318e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39829848,
      "step": 68640
    },
    {
      "epoch": 10.224158474828716,
      "grad_norm": 0.0009698941721580923,
      "learning_rate": 2.8375555461853764e-05,
      "loss": 0.1345,
      "num_input_tokens_seen": 39832760,
      "step": 68645
    },
    {
      "epoch": 10.224903187369675,
      "grad_norm": 162.7139129638672,
      "learning_rate": 2.8372335768240626e-05,
      "loss": 0.1694,
      "num_input_tokens_seen": 39835512,
      "step": 68650
    },
    {
      "epoch": 10.225647899910635,
      "grad_norm": 0.0051501719281077385,
      "learning_rate": 2.8369116017655307e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39838552,
      "step": 68655
    },
    {
      "epoch": 10.226392612451594,
      "grad_norm": 2.6147139072418213,
      "learning_rate": 2.836589621015219e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 39841528,
      "step": 68660
    },
    {
      "epoch": 10.227137324992553,
      "grad_norm": 0.028269251808524132,
      "learning_rate": 2.8362676345785683e-05,
      "loss": 0.0875,
      "num_input_tokens_seen": 39844728,
      "step": 68665
    },
    {
      "epoch": 10.227882037533512,
      "grad_norm": 0.02380700781941414,
      "learning_rate": 2.835945642461018e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39847448,
      "step": 68670
    },
    {
      "epoch": 10.228626750074472,
      "grad_norm": 0.021899795159697533,
      "learning_rate": 2.8356236446680073e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 39850424,
      "step": 68675
    },
    {
      "epoch": 10.22937146261543,
      "grad_norm": 0.005606235470622778,
      "learning_rate": 2.835301641204976e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 39853240,
      "step": 68680
    },
    {
      "epoch": 10.23011617515639,
      "grad_norm": 0.0024506947956979275,
      "learning_rate": 2.834979632077364e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 39855960,
      "step": 68685
    },
    {
      "epoch": 10.230860887697348,
      "grad_norm": 0.053038351237773895,
      "learning_rate": 2.834657617290612e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 39858680,
      "step": 68690
    },
    {
      "epoch": 10.231605600238307,
      "grad_norm": 0.02803936041891575,
      "learning_rate": 2.8343355968501596e-05,
      "loss": 0.197,
      "num_input_tokens_seen": 39861496,
      "step": 68695
    },
    {
      "epoch": 10.232350312779268,
      "grad_norm": 0.0014830568106845021,
      "learning_rate": 2.8340135707614467e-05,
      "loss": 0.1782,
      "num_input_tokens_seen": 39864344,
      "step": 68700
    },
    {
      "epoch": 10.233095025320226,
      "grad_norm": 0.43143242597579956,
      "learning_rate": 2.8336915390299152e-05,
      "loss": 0.0104,
      "num_input_tokens_seen": 39867416,
      "step": 68705
    },
    {
      "epoch": 10.233839737861185,
      "grad_norm": 0.001222005463205278,
      "learning_rate": 2.8333695016610034e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 39870200,
      "step": 68710
    },
    {
      "epoch": 10.234584450402144,
      "grad_norm": 0.0009857756085693836,
      "learning_rate": 2.833047458660153e-05,
      "loss": 0.048,
      "num_input_tokens_seen": 39873304,
      "step": 68715
    },
    {
      "epoch": 10.235329162943104,
      "grad_norm": 0.0012509782100096345,
      "learning_rate": 2.8327254100328044e-05,
      "loss": 0.0543,
      "num_input_tokens_seen": 39876088,
      "step": 68720
    },
    {
      "epoch": 10.236073875484063,
      "grad_norm": 0.005153415724635124,
      "learning_rate": 2.8324033557843975e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39879032,
      "step": 68725
    },
    {
      "epoch": 10.236818588025022,
      "grad_norm": 0.004920531064271927,
      "learning_rate": 2.832081295920374e-05,
      "loss": 0.2908,
      "num_input_tokens_seen": 39881816,
      "step": 68730
    },
    {
      "epoch": 10.23756330056598,
      "grad_norm": 0.0038848817348480225,
      "learning_rate": 2.8317592304461744e-05,
      "loss": 0.0988,
      "num_input_tokens_seen": 39885048,
      "step": 68735
    },
    {
      "epoch": 10.238308013106941,
      "grad_norm": 1.2091139554977417,
      "learning_rate": 2.8314371593672408e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 39888120,
      "step": 68740
    },
    {
      "epoch": 10.2390527256479,
      "grad_norm": 0.0569247342646122,
      "learning_rate": 2.8311150826890122e-05,
      "loss": 0.2408,
      "num_input_tokens_seen": 39891032,
      "step": 68745
    },
    {
      "epoch": 10.239797438188859,
      "grad_norm": 0.0410567969083786,
      "learning_rate": 2.830793000416931e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 39893752,
      "step": 68750
    },
    {
      "epoch": 10.240542150729818,
      "grad_norm": 0.0014476354699581861,
      "learning_rate": 2.8304709125564382e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 39896568,
      "step": 68755
    },
    {
      "epoch": 10.241286863270778,
      "grad_norm": 0.017393460497260094,
      "learning_rate": 2.8301488191129756e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 39899448,
      "step": 68760
    },
    {
      "epoch": 10.242031575811737,
      "grad_norm": 15.18973159790039,
      "learning_rate": 2.8298267200919836e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 39902488,
      "step": 68765
    },
    {
      "epoch": 10.242776288352696,
      "grad_norm": 3.2666823863983154,
      "learning_rate": 2.8295046154989047e-05,
      "loss": 0.0106,
      "num_input_tokens_seen": 39905720,
      "step": 68770
    },
    {
      "epoch": 10.243521000893654,
      "grad_norm": 205.39794921875,
      "learning_rate": 2.8291825053391808e-05,
      "loss": 0.1043,
      "num_input_tokens_seen": 39908536,
      "step": 68775
    },
    {
      "epoch": 10.244265713434615,
      "grad_norm": 0.1682390570640564,
      "learning_rate": 2.828860389618252e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 39911256,
      "step": 68780
    },
    {
      "epoch": 10.245010425975574,
      "grad_norm": 1.8987022638320923,
      "learning_rate": 2.8285382683415617e-05,
      "loss": 0.1116,
      "num_input_tokens_seen": 39914328,
      "step": 68785
    },
    {
      "epoch": 10.245755138516532,
      "grad_norm": 4.561721324920654,
      "learning_rate": 2.8282161415145513e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 39917368,
      "step": 68790
    },
    {
      "epoch": 10.246499851057491,
      "grad_norm": 0.07183019071817398,
      "learning_rate": 2.827894009142663e-05,
      "loss": 0.1418,
      "num_input_tokens_seen": 39919960,
      "step": 68795
    },
    {
      "epoch": 10.247244563598452,
      "grad_norm": 0.0013053687289357185,
      "learning_rate": 2.827571871231338e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39922968,
      "step": 68800
    },
    {
      "epoch": 10.24798927613941,
      "grad_norm": 16.665096282958984,
      "learning_rate": 2.82724972778602e-05,
      "loss": 0.1212,
      "num_input_tokens_seen": 39925720,
      "step": 68805
    },
    {
      "epoch": 10.24873398868037,
      "grad_norm": 0.009602637961506844,
      "learning_rate": 2.8269275788121503e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 39928760,
      "step": 68810
    },
    {
      "epoch": 10.249478701221328,
      "grad_norm": 0.024417642503976822,
      "learning_rate": 2.8266054243151708e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 39931640,
      "step": 68815
    },
    {
      "epoch": 10.250223413762289,
      "grad_norm": 0.02262919396162033,
      "learning_rate": 2.8262832643005242e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39934584,
      "step": 68820
    },
    {
      "epoch": 10.250968126303247,
      "grad_norm": 0.0043224007822573185,
      "learning_rate": 2.8259610987736545e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39937944,
      "step": 68825
    },
    {
      "epoch": 10.251712838844206,
      "grad_norm": 50.2040901184082,
      "learning_rate": 2.825638927740003e-05,
      "loss": 0.1373,
      "num_input_tokens_seen": 39940952,
      "step": 68830
    },
    {
      "epoch": 10.252457551385165,
      "grad_norm": 0.0019618580117821693,
      "learning_rate": 2.825316751205013e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 39944024,
      "step": 68835
    },
    {
      "epoch": 10.253202263926125,
      "grad_norm": 0.031579021364450455,
      "learning_rate": 2.8249945691741276e-05,
      "loss": 0.0457,
      "num_input_tokens_seen": 39946904,
      "step": 68840
    },
    {
      "epoch": 10.253946976467084,
      "grad_norm": 0.017133761197328568,
      "learning_rate": 2.824672381652788e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 39949880,
      "step": 68845
    },
    {
      "epoch": 10.254691689008043,
      "grad_norm": 0.010592699982225895,
      "learning_rate": 2.8243501886464392e-05,
      "loss": 0.1161,
      "num_input_tokens_seen": 39952696,
      "step": 68850
    },
    {
      "epoch": 10.255436401549002,
      "grad_norm": 0.001922560972161591,
      "learning_rate": 2.8240279901605238e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 39955384,
      "step": 68855
    },
    {
      "epoch": 10.256181114089962,
      "grad_norm": 0.015087475068867207,
      "learning_rate": 2.823705786200484e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 39958264,
      "step": 68860
    },
    {
      "epoch": 10.256925826630921,
      "grad_norm": 0.025872081518173218,
      "learning_rate": 2.8233835767717642e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39961368,
      "step": 68865
    },
    {
      "epoch": 10.25767053917188,
      "grad_norm": 0.0017542868154123425,
      "learning_rate": 2.8230613618798086e-05,
      "loss": 0.1422,
      "num_input_tokens_seen": 39964408,
      "step": 68870
    },
    {
      "epoch": 10.258415251712838,
      "grad_norm": 0.007237174082547426,
      "learning_rate": 2.822739141530059e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 39967288,
      "step": 68875
    },
    {
      "epoch": 10.259159964253797,
      "grad_norm": 0.006294822320342064,
      "learning_rate": 2.8224169157279597e-05,
      "loss": 0.1631,
      "num_input_tokens_seen": 39970072,
      "step": 68880
    },
    {
      "epoch": 10.259904676794758,
      "grad_norm": 0.0019543198868632317,
      "learning_rate": 2.8220946844789535e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39973080,
      "step": 68885
    },
    {
      "epoch": 10.260649389335716,
      "grad_norm": 44.0866584777832,
      "learning_rate": 2.8217724477884854e-05,
      "loss": 0.0268,
      "num_input_tokens_seen": 39976312,
      "step": 68890
    },
    {
      "epoch": 10.261394101876675,
      "grad_norm": 5.930895805358887,
      "learning_rate": 2.821450205661999e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39979064,
      "step": 68895
    },
    {
      "epoch": 10.262138814417634,
      "grad_norm": 0.012788043357431889,
      "learning_rate": 2.8211279581049384e-05,
      "loss": 0.1721,
      "num_input_tokens_seen": 39982040,
      "step": 68900
    },
    {
      "epoch": 10.262883526958595,
      "grad_norm": 0.009176882915198803,
      "learning_rate": 2.8208057051227473e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39985048,
      "step": 68905
    },
    {
      "epoch": 10.263628239499553,
      "grad_norm": 0.000341734936228022,
      "learning_rate": 2.820483446720869e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 39987928,
      "step": 68910
    },
    {
      "epoch": 10.264372952040512,
      "grad_norm": 70.8000717163086,
      "learning_rate": 2.8201611829047498e-05,
      "loss": 0.1324,
      "num_input_tokens_seen": 39990744,
      "step": 68915
    },
    {
      "epoch": 10.26511766458147,
      "grad_norm": 10.950409889221191,
      "learning_rate": 2.819838913679832e-05,
      "loss": 0.0744,
      "num_input_tokens_seen": 39993720,
      "step": 68920
    },
    {
      "epoch": 10.265862377122431,
      "grad_norm": 0.0021891340147703886,
      "learning_rate": 2.819516639051561e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 39996824,
      "step": 68925
    },
    {
      "epoch": 10.26660708966339,
      "grad_norm": 0.0002853789774235338,
      "learning_rate": 2.8191943590253806e-05,
      "loss": 0.1049,
      "num_input_tokens_seen": 39999672,
      "step": 68930
    },
    {
      "epoch": 10.267351802204349,
      "grad_norm": 0.009738555178046227,
      "learning_rate": 2.8188720736067364e-05,
      "loss": 0.0522,
      "num_input_tokens_seen": 40002968,
      "step": 68935
    },
    {
      "epoch": 10.268096514745308,
      "grad_norm": 0.019159391522407532,
      "learning_rate": 2.818549782801073e-05,
      "loss": 0.0404,
      "num_input_tokens_seen": 40005528,
      "step": 68940
    },
    {
      "epoch": 10.268841227286268,
      "grad_norm": 0.04584705829620361,
      "learning_rate": 2.8182274866138343e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40008312,
      "step": 68945
    },
    {
      "epoch": 10.269585939827227,
      "grad_norm": 0.15960481762886047,
      "learning_rate": 2.8179051850504656e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 40011032,
      "step": 68950
    },
    {
      "epoch": 10.270330652368186,
      "grad_norm": 0.001973808975890279,
      "learning_rate": 2.8175828781164127e-05,
      "loss": 0.0564,
      "num_input_tokens_seen": 40013944,
      "step": 68955
    },
    {
      "epoch": 10.271075364909144,
      "grad_norm": 0.0740680918097496,
      "learning_rate": 2.8172605658171192e-05,
      "loss": 0.1165,
      "num_input_tokens_seen": 40017016,
      "step": 68960
    },
    {
      "epoch": 10.271820077450105,
      "grad_norm": 34.735328674316406,
      "learning_rate": 2.8169382481580303e-05,
      "loss": 0.0825,
      "num_input_tokens_seen": 40019896,
      "step": 68965
    },
    {
      "epoch": 10.272564789991064,
      "grad_norm": 0.04117761552333832,
      "learning_rate": 2.8166159251445928e-05,
      "loss": 0.0466,
      "num_input_tokens_seen": 40022840,
      "step": 68970
    },
    {
      "epoch": 10.273309502532022,
      "grad_norm": 5.621809482574463,
      "learning_rate": 2.8162935967822505e-05,
      "loss": 0.1581,
      "num_input_tokens_seen": 40025944,
      "step": 68975
    },
    {
      "epoch": 10.274054215072981,
      "grad_norm": 0.6671192049980164,
      "learning_rate": 2.8159712630764494e-05,
      "loss": 0.2438,
      "num_input_tokens_seen": 40028760,
      "step": 68980
    },
    {
      "epoch": 10.274798927613942,
      "grad_norm": 0.010907704010605812,
      "learning_rate": 2.815648924032635e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 40031640,
      "step": 68985
    },
    {
      "epoch": 10.2755436401549,
      "grad_norm": 0.009930465370416641,
      "learning_rate": 2.8153265796562528e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40034488,
      "step": 68990
    },
    {
      "epoch": 10.27628835269586,
      "grad_norm": 0.14251425862312317,
      "learning_rate": 2.815004229952749e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40037400,
      "step": 68995
    },
    {
      "epoch": 10.277033065236818,
      "grad_norm": 0.007087002974003553,
      "learning_rate": 2.8146818749275684e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40040440,
      "step": 69000
    },
    {
      "epoch": 10.277777777777779,
      "grad_norm": 0.0006871451041661203,
      "learning_rate": 2.814359514586158e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 40043256,
      "step": 69005
    },
    {
      "epoch": 10.278522490318737,
      "grad_norm": 0.02735929563641548,
      "learning_rate": 2.8140371489339624e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40046168,
      "step": 69010
    },
    {
      "epoch": 10.279267202859696,
      "grad_norm": 0.1010286808013916,
      "learning_rate": 2.8137147779764285e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40048952,
      "step": 69015
    },
    {
      "epoch": 10.280011915400655,
      "grad_norm": 28.616958618164062,
      "learning_rate": 2.8133924017190023e-05,
      "loss": 0.3256,
      "num_input_tokens_seen": 40051864,
      "step": 69020
    },
    {
      "epoch": 10.280756627941615,
      "grad_norm": 0.004483875818550587,
      "learning_rate": 2.8130700201671296e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40054808,
      "step": 69025
    },
    {
      "epoch": 10.281501340482574,
      "grad_norm": 0.018541580066084862,
      "learning_rate": 2.812747633326257e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 40057752,
      "step": 69030
    },
    {
      "epoch": 10.282246053023533,
      "grad_norm": 0.0007250861381180584,
      "learning_rate": 2.812425241201832e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40060312,
      "step": 69035
    },
    {
      "epoch": 10.282990765564492,
      "grad_norm": 0.023741520941257477,
      "learning_rate": 2.8121028437993002e-05,
      "loss": 0.1908,
      "num_input_tokens_seen": 40063384,
      "step": 69040
    },
    {
      "epoch": 10.283735478105452,
      "grad_norm": 0.022101061418652534,
      "learning_rate": 2.8117804411241074e-05,
      "loss": 0.3593,
      "num_input_tokens_seen": 40066296,
      "step": 69045
    },
    {
      "epoch": 10.284480190646411,
      "grad_norm": 0.01104134600609541,
      "learning_rate": 2.8114580331817004e-05,
      "loss": 0.1498,
      "num_input_tokens_seen": 40069240,
      "step": 69050
    },
    {
      "epoch": 10.28522490318737,
      "grad_norm": 52.45825958251953,
      "learning_rate": 2.8111356199775268e-05,
      "loss": 0.0311,
      "num_input_tokens_seen": 40072184,
      "step": 69055
    },
    {
      "epoch": 10.285969615728328,
      "grad_norm": 0.005046534817665815,
      "learning_rate": 2.8108132015170337e-05,
      "loss": 0.1385,
      "num_input_tokens_seen": 40074904,
      "step": 69060
    },
    {
      "epoch": 10.286714328269287,
      "grad_norm": 0.01074305921792984,
      "learning_rate": 2.8104907778056667e-05,
      "loss": 0.2997,
      "num_input_tokens_seen": 40077912,
      "step": 69065
    },
    {
      "epoch": 10.287459040810248,
      "grad_norm": 0.15817482769489288,
      "learning_rate": 2.8101683488488745e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40080728,
      "step": 69070
    },
    {
      "epoch": 10.288203753351207,
      "grad_norm": 26.216047286987305,
      "learning_rate": 2.8098459146521026e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 40084088,
      "step": 69075
    },
    {
      "epoch": 10.288948465892165,
      "grad_norm": 0.03698677197098732,
      "learning_rate": 2.8095234752207993e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40086744,
      "step": 69080
    },
    {
      "epoch": 10.289693178433124,
      "grad_norm": 0.010381557047367096,
      "learning_rate": 2.809201030560411e-05,
      "loss": 0.0796,
      "num_input_tokens_seen": 40089688,
      "step": 69085
    },
    {
      "epoch": 10.290437890974085,
      "grad_norm": 0.003733421675860882,
      "learning_rate": 2.8088785806763856e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 40092440,
      "step": 69090
    },
    {
      "epoch": 10.291182603515043,
      "grad_norm": 0.010810057632625103,
      "learning_rate": 2.8085561255741704e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 40095224,
      "step": 69095
    },
    {
      "epoch": 10.291927316056002,
      "grad_norm": 29.40855598449707,
      "learning_rate": 2.8082336652592135e-05,
      "loss": 0.0479,
      "num_input_tokens_seen": 40097912,
      "step": 69100
    },
    {
      "epoch": 10.29267202859696,
      "grad_norm": 0.044403139501810074,
      "learning_rate": 2.8079111997369624e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 40100760,
      "step": 69105
    },
    {
      "epoch": 10.293416741137921,
      "grad_norm": 0.0019433374982327223,
      "learning_rate": 2.807588729012864e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 40103864,
      "step": 69110
    },
    {
      "epoch": 10.29416145367888,
      "grad_norm": 0.0018832527566701174,
      "learning_rate": 2.8072662530923666e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40106840,
      "step": 69115
    },
    {
      "epoch": 10.294906166219839,
      "grad_norm": 0.005088783800601959,
      "learning_rate": 2.8069437719809182e-05,
      "loss": 0.011,
      "num_input_tokens_seen": 40109656,
      "step": 69120
    },
    {
      "epoch": 10.295650878760798,
      "grad_norm": 0.013833465054631233,
      "learning_rate": 2.806621285683967e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 40112440,
      "step": 69125
    },
    {
      "epoch": 10.296395591301758,
      "grad_norm": 0.005442050751298666,
      "learning_rate": 2.8062987942069603e-05,
      "loss": 0.253,
      "num_input_tokens_seen": 40115704,
      "step": 69130
    },
    {
      "epoch": 10.297140303842717,
      "grad_norm": 0.029701482504606247,
      "learning_rate": 2.8059762975553478e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40118392,
      "step": 69135
    },
    {
      "epoch": 10.297885016383676,
      "grad_norm": 0.06949692219495773,
      "learning_rate": 2.8056537957345757e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40121112,
      "step": 69140
    },
    {
      "epoch": 10.298629728924634,
      "grad_norm": 70.88115692138672,
      "learning_rate": 2.8053312887500936e-05,
      "loss": 0.1408,
      "num_input_tokens_seen": 40123832,
      "step": 69145
    },
    {
      "epoch": 10.299374441465595,
      "grad_norm": 3.7798380851745605,
      "learning_rate": 2.8050087766073496e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 40126776,
      "step": 69150
    },
    {
      "epoch": 10.300119154006554,
      "grad_norm": 0.031824517995119095,
      "learning_rate": 2.804686259311792e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40129656,
      "step": 69155
    },
    {
      "epoch": 10.300863866547513,
      "grad_norm": 1.200819730758667,
      "learning_rate": 2.8043637368688707e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 40132440,
      "step": 69160
    },
    {
      "epoch": 10.301608579088471,
      "grad_norm": 35.95869445800781,
      "learning_rate": 2.804041209284033e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 40135576,
      "step": 69165
    },
    {
      "epoch": 10.302353291629432,
      "grad_norm": 0.0011361815268173814,
      "learning_rate": 2.803718676562729e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40138168,
      "step": 69170
    },
    {
      "epoch": 10.30309800417039,
      "grad_norm": 0.0022030710242688656,
      "learning_rate": 2.803396138710405e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 40141048,
      "step": 69175
    },
    {
      "epoch": 10.30384271671135,
      "grad_norm": 0.08134276419878006,
      "learning_rate": 2.8030735957325122e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40143896,
      "step": 69180
    },
    {
      "epoch": 10.304587429252308,
      "grad_norm": 0.0034729260951280594,
      "learning_rate": 2.8027510476344986e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40146968,
      "step": 69185
    },
    {
      "epoch": 10.305332141793269,
      "grad_norm": 0.004495609551668167,
      "learning_rate": 2.8024284944218145e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40150136,
      "step": 69190
    },
    {
      "epoch": 10.306076854334227,
      "grad_norm": 0.00014715520956087857,
      "learning_rate": 2.802105936099908e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40153144,
      "step": 69195
    },
    {
      "epoch": 10.306821566875186,
      "grad_norm": 0.002085953950881958,
      "learning_rate": 2.8017833726742293e-05,
      "loss": 0.1532,
      "num_input_tokens_seen": 40156376,
      "step": 69200
    },
    {
      "epoch": 10.307566279416145,
      "grad_norm": 0.009687326848506927,
      "learning_rate": 2.8014608041502273e-05,
      "loss": 0.0452,
      "num_input_tokens_seen": 40159128,
      "step": 69205
    },
    {
      "epoch": 10.308310991957104,
      "grad_norm": 0.0036525512114167213,
      "learning_rate": 2.8011382305333505e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40162104,
      "step": 69210
    },
    {
      "epoch": 10.309055704498064,
      "grad_norm": 119.14126586914062,
      "learning_rate": 2.8008156518290496e-05,
      "loss": 0.0886,
      "num_input_tokens_seen": 40165208,
      "step": 69215
    },
    {
      "epoch": 10.309800417039023,
      "grad_norm": 11.270803451538086,
      "learning_rate": 2.8004930680427742e-05,
      "loss": 0.1478,
      "num_input_tokens_seen": 40168056,
      "step": 69220
    },
    {
      "epoch": 10.310545129579982,
      "grad_norm": 0.00268359761685133,
      "learning_rate": 2.8001704791799732e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40170968,
      "step": 69225
    },
    {
      "epoch": 10.31128984212094,
      "grad_norm": 0.015957698225975037,
      "learning_rate": 2.799847885246098e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 40173944,
      "step": 69230
    },
    {
      "epoch": 10.312034554661901,
      "grad_norm": 0.012579661794006824,
      "learning_rate": 2.799525286246597e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40177240,
      "step": 69235
    },
    {
      "epoch": 10.31277926720286,
      "grad_norm": 0.0019189195008948445,
      "learning_rate": 2.7992026821869215e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 40180472,
      "step": 69240
    },
    {
      "epoch": 10.313523979743819,
      "grad_norm": 0.0007075691246427596,
      "learning_rate": 2.7988800730725202e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40183704,
      "step": 69245
    },
    {
      "epoch": 10.314268692284777,
      "grad_norm": 0.001034310320392251,
      "learning_rate": 2.7985574589088437e-05,
      "loss": 0.2002,
      "num_input_tokens_seen": 40186904,
      "step": 69250
    },
    {
      "epoch": 10.315013404825738,
      "grad_norm": 0.003413812955841422,
      "learning_rate": 2.798234839701342e-05,
      "loss": 0.1946,
      "num_input_tokens_seen": 40190136,
      "step": 69255
    },
    {
      "epoch": 10.315758117366697,
      "grad_norm": 0.03796922415494919,
      "learning_rate": 2.797912215455466e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40192920,
      "step": 69260
    },
    {
      "epoch": 10.316502829907655,
      "grad_norm": 0.002014338970184326,
      "learning_rate": 2.797589586176666e-05,
      "loss": 0.2184,
      "num_input_tokens_seen": 40195736,
      "step": 69265
    },
    {
      "epoch": 10.317247542448614,
      "grad_norm": 0.8102010488510132,
      "learning_rate": 2.797266951870393e-05,
      "loss": 0.1396,
      "num_input_tokens_seen": 40198360,
      "step": 69270
    },
    {
      "epoch": 10.317992254989575,
      "grad_norm": 0.014580432325601578,
      "learning_rate": 2.7969443125420963e-05,
      "loss": 0.1955,
      "num_input_tokens_seen": 40201208,
      "step": 69275
    },
    {
      "epoch": 10.318736967530533,
      "grad_norm": 0.00517371017485857,
      "learning_rate": 2.7966216681972278e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40203896,
      "step": 69280
    },
    {
      "epoch": 10.319481680071492,
      "grad_norm": 0.06913149356842041,
      "learning_rate": 2.7962990188412375e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 40206552,
      "step": 69285
    },
    {
      "epoch": 10.320226392612451,
      "grad_norm": 41.686763763427734,
      "learning_rate": 2.7959763644795762e-05,
      "loss": 0.2723,
      "num_input_tokens_seen": 40209432,
      "step": 69290
    },
    {
      "epoch": 10.320971105153411,
      "grad_norm": 0.08302473276853561,
      "learning_rate": 2.7956537051176952e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40212344,
      "step": 69295
    },
    {
      "epoch": 10.32171581769437,
      "grad_norm": 0.0003053976106457412,
      "learning_rate": 2.7953310407610455e-05,
      "loss": 0.0838,
      "num_input_tokens_seen": 40215448,
      "step": 69300
    },
    {
      "epoch": 10.322460530235329,
      "grad_norm": 0.043036192655563354,
      "learning_rate": 2.7950083714150776e-05,
      "loss": 0.0922,
      "num_input_tokens_seen": 40218232,
      "step": 69305
    },
    {
      "epoch": 10.323205242776288,
      "grad_norm": 0.004275670275092125,
      "learning_rate": 2.794685697085243e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40221048,
      "step": 69310
    },
    {
      "epoch": 10.323949955317248,
      "grad_norm": 15.231534004211426,
      "learning_rate": 2.7943630177769932e-05,
      "loss": 0.1898,
      "num_input_tokens_seen": 40224248,
      "step": 69315
    },
    {
      "epoch": 10.324694667858207,
      "grad_norm": 0.009640499949455261,
      "learning_rate": 2.79404033349578e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40227160,
      "step": 69320
    },
    {
      "epoch": 10.325439380399166,
      "grad_norm": 0.0002795332984533161,
      "learning_rate": 2.7937176442470535e-05,
      "loss": 0.1599,
      "num_input_tokens_seen": 40229880,
      "step": 69325
    },
    {
      "epoch": 10.326184092940125,
      "grad_norm": 0.002337506739422679,
      "learning_rate": 2.793394950036266e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 40232536,
      "step": 69330
    },
    {
      "epoch": 10.326928805481085,
      "grad_norm": 0.033716049045324326,
      "learning_rate": 2.7930722508688696e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 40235160,
      "step": 69335
    },
    {
      "epoch": 10.327673518022044,
      "grad_norm": 1.2286688089370728,
      "learning_rate": 2.792749546750315e-05,
      "loss": 0.0433,
      "num_input_tokens_seen": 40238104,
      "step": 69340
    },
    {
      "epoch": 10.328418230563003,
      "grad_norm": 0.01806008629500866,
      "learning_rate": 2.792426837686054e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 40241048,
      "step": 69345
    },
    {
      "epoch": 10.329162943103961,
      "grad_norm": 0.009947380051016808,
      "learning_rate": 2.7921041236815387e-05,
      "loss": 0.01,
      "num_input_tokens_seen": 40243768,
      "step": 69350
    },
    {
      "epoch": 10.329907655644922,
      "grad_norm": 0.0051367878913879395,
      "learning_rate": 2.7917814047422214e-05,
      "loss": 0.0562,
      "num_input_tokens_seen": 40246840,
      "step": 69355
    },
    {
      "epoch": 10.33065236818588,
      "grad_norm": 0.5719077587127686,
      "learning_rate": 2.7914586808735542e-05,
      "loss": 0.1862,
      "num_input_tokens_seen": 40249944,
      "step": 69360
    },
    {
      "epoch": 10.33139708072684,
      "grad_norm": 0.008935323916375637,
      "learning_rate": 2.7911359520809886e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40252632,
      "step": 69365
    },
    {
      "epoch": 10.332141793267798,
      "grad_norm": 0.04081336036324501,
      "learning_rate": 2.7908132183699775e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 40255768,
      "step": 69370
    },
    {
      "epoch": 10.332886505808759,
      "grad_norm": 0.6689061522483826,
      "learning_rate": 2.790490479745972e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 40258328,
      "step": 69375
    },
    {
      "epoch": 10.333631218349717,
      "grad_norm": 0.03389192000031471,
      "learning_rate": 2.7901677362144252e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40261144,
      "step": 69380
    },
    {
      "epoch": 10.334375930890676,
      "grad_norm": 0.026478610932826996,
      "learning_rate": 2.7898449877807885e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 40264056,
      "step": 69385
    },
    {
      "epoch": 10.335120643431635,
      "grad_norm": 0.005323657765984535,
      "learning_rate": 2.7895222344505163e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40266584,
      "step": 69390
    },
    {
      "epoch": 10.335865355972594,
      "grad_norm": 0.5060325264930725,
      "learning_rate": 2.78919947622906e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 40269240,
      "step": 69395
    },
    {
      "epoch": 10.336610068513554,
      "grad_norm": 0.009261601604521275,
      "learning_rate": 2.788876713121873e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40272024,
      "step": 69400
    },
    {
      "epoch": 10.337354781054513,
      "grad_norm": 0.008201244287192822,
      "learning_rate": 2.7885539451344077e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40274840,
      "step": 69405
    },
    {
      "epoch": 10.338099493595472,
      "grad_norm": 0.0011195422848686576,
      "learning_rate": 2.788231172272116e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40277880,
      "step": 69410
    },
    {
      "epoch": 10.33884420613643,
      "grad_norm": 0.0024035729002207518,
      "learning_rate": 2.7879083945404517e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40280792,
      "step": 69415
    },
    {
      "epoch": 10.339588918677391,
      "grad_norm": 0.009821400977671146,
      "learning_rate": 2.7875856119448672e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 40283736,
      "step": 69420
    },
    {
      "epoch": 10.34033363121835,
      "grad_norm": 0.029366422444581985,
      "learning_rate": 2.7872628244908167e-05,
      "loss": 0.0946,
      "num_input_tokens_seen": 40286584,
      "step": 69425
    },
    {
      "epoch": 10.341078343759309,
      "grad_norm": 0.012809760868549347,
      "learning_rate": 2.7869400321837525e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 40289432,
      "step": 69430
    },
    {
      "epoch": 10.341823056300267,
      "grad_norm": 0.028299793601036072,
      "learning_rate": 2.7866172350291286e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40292440,
      "step": 69435
    },
    {
      "epoch": 10.342567768841228,
      "grad_norm": 0.003088892437517643,
      "learning_rate": 2.7862944330323982e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40295416,
      "step": 69440
    },
    {
      "epoch": 10.343312481382187,
      "grad_norm": 128.47996520996094,
      "learning_rate": 2.785971626199013e-05,
      "loss": 0.169,
      "num_input_tokens_seen": 40298072,
      "step": 69445
    },
    {
      "epoch": 10.344057193923145,
      "grad_norm": 8.200374603271484,
      "learning_rate": 2.7856488145344285e-05,
      "loss": 0.3597,
      "num_input_tokens_seen": 40301048,
      "step": 69450
    },
    {
      "epoch": 10.344801906464104,
      "grad_norm": 0.019856583327054977,
      "learning_rate": 2.785325998044097e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 40303992,
      "step": 69455
    },
    {
      "epoch": 10.345546619005065,
      "grad_norm": 0.0014176986878737807,
      "learning_rate": 2.7850031767334734e-05,
      "loss": 0.1457,
      "num_input_tokens_seen": 40306936,
      "step": 69460
    },
    {
      "epoch": 10.346291331546023,
      "grad_norm": 0.0014579613925889134,
      "learning_rate": 2.784680350608011e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40309976,
      "step": 69465
    },
    {
      "epoch": 10.347036044086982,
      "grad_norm": 51.345516204833984,
      "learning_rate": 2.784357519673163e-05,
      "loss": 0.0699,
      "num_input_tokens_seen": 40312632,
      "step": 69470
    },
    {
      "epoch": 10.347780756627941,
      "grad_norm": 41.93281555175781,
      "learning_rate": 2.784034683934384e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 40315800,
      "step": 69475
    },
    {
      "epoch": 10.348525469168901,
      "grad_norm": 0.5620418787002563,
      "learning_rate": 2.7837118433971277e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 40318680,
      "step": 69480
    },
    {
      "epoch": 10.34927018170986,
      "grad_norm": 0.011147283017635345,
      "learning_rate": 2.7833889980668476e-05,
      "loss": 0.1134,
      "num_input_tokens_seen": 40321656,
      "step": 69485
    },
    {
      "epoch": 10.350014894250819,
      "grad_norm": 36.86048889160156,
      "learning_rate": 2.7830661479489987e-05,
      "loss": 0.0875,
      "num_input_tokens_seen": 40324664,
      "step": 69490
    },
    {
      "epoch": 10.350759606791778,
      "grad_norm": 0.01512958575040102,
      "learning_rate": 2.782743293049035e-05,
      "loss": 0.1288,
      "num_input_tokens_seen": 40327608,
      "step": 69495
    },
    {
      "epoch": 10.351504319332738,
      "grad_norm": 0.0034947236999869347,
      "learning_rate": 2.7824204333724115e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40330680,
      "step": 69500
    },
    {
      "epoch": 10.352249031873697,
      "grad_norm": 0.023761851713061333,
      "learning_rate": 2.7820975689245805e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40333368,
      "step": 69505
    },
    {
      "epoch": 10.352993744414656,
      "grad_norm": 14.966606140136719,
      "learning_rate": 2.7817746997109983e-05,
      "loss": 0.3008,
      "num_input_tokens_seen": 40336312,
      "step": 69510
    },
    {
      "epoch": 10.353738456955615,
      "grad_norm": 0.030820881947875023,
      "learning_rate": 2.7814518257371187e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 40338968,
      "step": 69515
    },
    {
      "epoch": 10.354483169496575,
      "grad_norm": 0.010196102783083916,
      "learning_rate": 2.7811289470083972e-05,
      "loss": 0.0421,
      "num_input_tokens_seen": 40341912,
      "step": 69520
    },
    {
      "epoch": 10.355227882037534,
      "grad_norm": 0.11719783395528793,
      "learning_rate": 2.7808060635302875e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40344824,
      "step": 69525
    },
    {
      "epoch": 10.355972594578493,
      "grad_norm": 0.1060190349817276,
      "learning_rate": 2.7804831753082445e-05,
      "loss": 0.2216,
      "num_input_tokens_seen": 40347800,
      "step": 69530
    },
    {
      "epoch": 10.356717307119451,
      "grad_norm": 2.4254398345947266,
      "learning_rate": 2.7801602823477236e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 40350424,
      "step": 69535
    },
    {
      "epoch": 10.357462019660412,
      "grad_norm": 0.006958052050322294,
      "learning_rate": 2.779837384654179e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40353368,
      "step": 69540
    },
    {
      "epoch": 10.35820673220137,
      "grad_norm": 0.003149529220536351,
      "learning_rate": 2.7795144822330673e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 40356120,
      "step": 69545
    },
    {
      "epoch": 10.35895144474233,
      "grad_norm": 71.13589477539062,
      "learning_rate": 2.7791915750898413e-05,
      "loss": 0.2001,
      "num_input_tokens_seen": 40359160,
      "step": 69550
    },
    {
      "epoch": 10.359696157283288,
      "grad_norm": 0.004450714681297541,
      "learning_rate": 2.7788686632299577e-05,
      "loss": 0.0428,
      "num_input_tokens_seen": 40362008,
      "step": 69555
    },
    {
      "epoch": 10.360440869824249,
      "grad_norm": 0.003412401769310236,
      "learning_rate": 2.778545746658872e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40364856,
      "step": 69560
    },
    {
      "epoch": 10.361185582365207,
      "grad_norm": 342.7032470703125,
      "learning_rate": 2.7782228253820385e-05,
      "loss": 0.1828,
      "num_input_tokens_seen": 40368024,
      "step": 69565
    },
    {
      "epoch": 10.361930294906166,
      "grad_norm": 0.016543816775083542,
      "learning_rate": 2.777899899404914e-05,
      "loss": 0.1095,
      "num_input_tokens_seen": 40371000,
      "step": 69570
    },
    {
      "epoch": 10.362675007447125,
      "grad_norm": 0.004422519356012344,
      "learning_rate": 2.777576968732952e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40374008,
      "step": 69575
    },
    {
      "epoch": 10.363419719988084,
      "grad_norm": 128.02525329589844,
      "learning_rate": 2.7772540333716102e-05,
      "loss": 0.2577,
      "num_input_tokens_seen": 40376952,
      "step": 69580
    },
    {
      "epoch": 10.364164432529044,
      "grad_norm": 0.029001649469137192,
      "learning_rate": 2.7769310933263425e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 40379608,
      "step": 69585
    },
    {
      "epoch": 10.364909145070003,
      "grad_norm": 0.0066339317709207535,
      "learning_rate": 2.776608148602605e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 40382616,
      "step": 69590
    },
    {
      "epoch": 10.365653857610962,
      "grad_norm": 0.5156599283218384,
      "learning_rate": 2.7762851992058548e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 40385688,
      "step": 69595
    },
    {
      "epoch": 10.36639857015192,
      "grad_norm": 0.3564665615558624,
      "learning_rate": 2.7759622451415473e-05,
      "loss": 0.1567,
      "num_input_tokens_seen": 40388440,
      "step": 69600
    },
    {
      "epoch": 10.367143282692881,
      "grad_norm": 0.01864083670079708,
      "learning_rate": 2.775639286415138e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40391576,
      "step": 69605
    },
    {
      "epoch": 10.36788799523384,
      "grad_norm": 0.0017853183671832085,
      "learning_rate": 2.7753163230320828e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40394360,
      "step": 69610
    },
    {
      "epoch": 10.368632707774799,
      "grad_norm": 0.01708604395389557,
      "learning_rate": 2.774993354997838e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40397208,
      "step": 69615
    },
    {
      "epoch": 10.369377420315757,
      "grad_norm": 0.6280044317245483,
      "learning_rate": 2.77467038231786e-05,
      "loss": 0.0528,
      "num_input_tokens_seen": 40400056,
      "step": 69620
    },
    {
      "epoch": 10.370122132856718,
      "grad_norm": 23.760461807250977,
      "learning_rate": 2.7743474049976054e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 40402904,
      "step": 69625
    },
    {
      "epoch": 10.370866845397677,
      "grad_norm": 0.01014252845197916,
      "learning_rate": 2.77402442304253e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40406072,
      "step": 69630
    },
    {
      "epoch": 10.371611557938635,
      "grad_norm": 0.08177648484706879,
      "learning_rate": 2.7737014364580904e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40408952,
      "step": 69635
    },
    {
      "epoch": 10.372356270479594,
      "grad_norm": 0.004300560802221298,
      "learning_rate": 2.7733784452497436e-05,
      "loss": 0.106,
      "num_input_tokens_seen": 40411928,
      "step": 69640
    },
    {
      "epoch": 10.373100983020555,
      "grad_norm": 0.005926094017922878,
      "learning_rate": 2.7730554494229453e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40414936,
      "step": 69645
    },
    {
      "epoch": 10.373845695561513,
      "grad_norm": 0.16347040235996246,
      "learning_rate": 2.772732448983153e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 40417912,
      "step": 69650
    },
    {
      "epoch": 10.374590408102472,
      "grad_norm": 0.44966021180152893,
      "learning_rate": 2.7724094439358227e-05,
      "loss": 0.0365,
      "num_input_tokens_seen": 40420696,
      "step": 69655
    },
    {
      "epoch": 10.375335120643431,
      "grad_norm": 0.022501235827803612,
      "learning_rate": 2.7720864342864123e-05,
      "loss": 0.0188,
      "num_input_tokens_seen": 40423608,
      "step": 69660
    },
    {
      "epoch": 10.376079833184392,
      "grad_norm": 0.0023358913604170084,
      "learning_rate": 2.771763420040378e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40426552,
      "step": 69665
    },
    {
      "epoch": 10.37682454572535,
      "grad_norm": 0.006996444892138243,
      "learning_rate": 2.771440401203177e-05,
      "loss": 0.2229,
      "num_input_tokens_seen": 40429560,
      "step": 69670
    },
    {
      "epoch": 10.377569258266309,
      "grad_norm": 0.05777255445718765,
      "learning_rate": 2.7711173777802657e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 40432248,
      "step": 69675
    },
    {
      "epoch": 10.378313970807268,
      "grad_norm": 0.01880394108593464,
      "learning_rate": 2.770794349777102e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40435128,
      "step": 69680
    },
    {
      "epoch": 10.379058683348228,
      "grad_norm": 0.028203535825014114,
      "learning_rate": 2.770471317199144e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 40438232,
      "step": 69685
    },
    {
      "epoch": 10.379803395889187,
      "grad_norm": 0.008159705437719822,
      "learning_rate": 2.7701482800518475e-05,
      "loss": 0.2879,
      "num_input_tokens_seen": 40441368,
      "step": 69690
    },
    {
      "epoch": 10.380548108430146,
      "grad_norm": 0.002439923817291856,
      "learning_rate": 2.7698252383406696e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40444280,
      "step": 69695
    },
    {
      "epoch": 10.381292820971105,
      "grad_norm": 0.002079157391563058,
      "learning_rate": 2.7695021920710694e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 40447288,
      "step": 69700
    },
    {
      "epoch": 10.382037533512065,
      "grad_norm": 0.012215591967105865,
      "learning_rate": 2.7691791412485035e-05,
      "loss": 0.3786,
      "num_input_tokens_seen": 40450168,
      "step": 69705
    },
    {
      "epoch": 10.382782246053024,
      "grad_norm": 0.0033719358034431934,
      "learning_rate": 2.768856085878429e-05,
      "loss": 0.0262,
      "num_input_tokens_seen": 40453080,
      "step": 69710
    },
    {
      "epoch": 10.383526958593983,
      "grad_norm": 1.0221679210662842,
      "learning_rate": 2.7685330259663045e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 40455896,
      "step": 69715
    },
    {
      "epoch": 10.384271671134941,
      "grad_norm": 0.00195826543495059,
      "learning_rate": 2.768209961517587e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40458712,
      "step": 69720
    },
    {
      "epoch": 10.3850163836759,
      "grad_norm": 0.0643201693892479,
      "learning_rate": 2.7678868925377362e-05,
      "loss": 0.2161,
      "num_input_tokens_seen": 40461720,
      "step": 69725
    },
    {
      "epoch": 10.38576109621686,
      "grad_norm": 0.011268215253949165,
      "learning_rate": 2.7675638190322073e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 40464728,
      "step": 69730
    },
    {
      "epoch": 10.38650580875782,
      "grad_norm": 0.004943981766700745,
      "learning_rate": 2.7672407410064603e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40467416,
      "step": 69735
    },
    {
      "epoch": 10.387250521298778,
      "grad_norm": 0.023426102474331856,
      "learning_rate": 2.7669176584659522e-05,
      "loss": 0.1659,
      "num_input_tokens_seen": 40470072,
      "step": 69740
    },
    {
      "epoch": 10.387995233839739,
      "grad_norm": 0.07519248872995377,
      "learning_rate": 2.766594571416141e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40472984,
      "step": 69745
    },
    {
      "epoch": 10.388739946380698,
      "grad_norm": 2.535691976547241,
      "learning_rate": 2.7662714798624865e-05,
      "loss": 0.1271,
      "num_input_tokens_seen": 40475832,
      "step": 69750
    },
    {
      "epoch": 10.389484658921656,
      "grad_norm": 0.0029158564284443855,
      "learning_rate": 2.7659483838104456e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 40478808,
      "step": 69755
    },
    {
      "epoch": 10.390229371462615,
      "grad_norm": 0.006670706905424595,
      "learning_rate": 2.7656252832654766e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 40481560,
      "step": 69760
    },
    {
      "epoch": 10.390974084003574,
      "grad_norm": 0.005995656363666058,
      "learning_rate": 2.765302178233039e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40484376,
      "step": 69765
    },
    {
      "epoch": 10.391718796544534,
      "grad_norm": 8.296487808227539,
      "learning_rate": 2.764979068718591e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 40487096,
      "step": 69770
    },
    {
      "epoch": 10.392463509085493,
      "grad_norm": 0.008846797049045563,
      "learning_rate": 2.7646559547275907e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40490168,
      "step": 69775
    },
    {
      "epoch": 10.393208221626452,
      "grad_norm": 16.80354881286621,
      "learning_rate": 2.7643328362654968e-05,
      "loss": 0.1521,
      "num_input_tokens_seen": 40492792,
      "step": 69780
    },
    {
      "epoch": 10.39395293416741,
      "grad_norm": 0.001480622566305101,
      "learning_rate": 2.764009713337768e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40495928,
      "step": 69785
    },
    {
      "epoch": 10.394697646708371,
      "grad_norm": 19.702072143554688,
      "learning_rate": 2.763686585949864e-05,
      "loss": 0.125,
      "num_input_tokens_seen": 40498680,
      "step": 69790
    },
    {
      "epoch": 10.39544235924933,
      "grad_norm": 0.01644854247570038,
      "learning_rate": 2.7633634541072428e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40501304,
      "step": 69795
    },
    {
      "epoch": 10.396187071790289,
      "grad_norm": 22.699481964111328,
      "learning_rate": 2.763040317815364e-05,
      "loss": 0.2514,
      "num_input_tokens_seen": 40504088,
      "step": 69800
    },
    {
      "epoch": 10.396931784331247,
      "grad_norm": 0.010578436776995659,
      "learning_rate": 2.7627171770796868e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40506776,
      "step": 69805
    },
    {
      "epoch": 10.397676496872208,
      "grad_norm": 0.0068400101736187935,
      "learning_rate": 2.762394031905669e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40509976,
      "step": 69810
    },
    {
      "epoch": 10.398421209413167,
      "grad_norm": 0.0013542418600991368,
      "learning_rate": 2.7620708822987708e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40513048,
      "step": 69815
    },
    {
      "epoch": 10.399165921954125,
      "grad_norm": 5.329664707183838,
      "learning_rate": 2.7617477282644515e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 40516056,
      "step": 69820
    },
    {
      "epoch": 10.399910634495084,
      "grad_norm": 0.019676480442285538,
      "learning_rate": 2.7614245698081702e-05,
      "loss": 0.3507,
      "num_input_tokens_seen": 40519000,
      "step": 69825
    },
    {
      "epoch": 10.400655347036045,
      "grad_norm": 0.03665556758642197,
      "learning_rate": 2.7611014069353874e-05,
      "loss": 0.1118,
      "num_input_tokens_seen": 40522168,
      "step": 69830
    },
    {
      "epoch": 10.401400059577004,
      "grad_norm": 0.009718170389533043,
      "learning_rate": 2.760778239651561e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40524920,
      "step": 69835
    },
    {
      "epoch": 10.402144772117962,
      "grad_norm": 0.05788934603333473,
      "learning_rate": 2.760455067962151e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40527576,
      "step": 69840
    },
    {
      "epoch": 10.402889484658921,
      "grad_norm": 0.018994389101862907,
      "learning_rate": 2.7601318918726184e-05,
      "loss": 0.0314,
      "num_input_tokens_seen": 40530456,
      "step": 69845
    },
    {
      "epoch": 10.403634197199882,
      "grad_norm": 0.019949190318584442,
      "learning_rate": 2.7598087113884207e-05,
      "loss": 0.1014,
      "num_input_tokens_seen": 40533496,
      "step": 69850
    },
    {
      "epoch": 10.40437890974084,
      "grad_norm": 0.10164570808410645,
      "learning_rate": 2.7594855265150192e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40536408,
      "step": 69855
    },
    {
      "epoch": 10.405123622281799,
      "grad_norm": 0.6928284168243408,
      "learning_rate": 2.7591623372578736e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 40539288,
      "step": 69860
    },
    {
      "epoch": 10.405868334822758,
      "grad_norm": 0.4985656142234802,
      "learning_rate": 2.758839143622444e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 40542072,
      "step": 69865
    },
    {
      "epoch": 10.406613047363718,
      "grad_norm": 0.11834727972745895,
      "learning_rate": 2.7585159456141895e-05,
      "loss": 0.2472,
      "num_input_tokens_seen": 40544824,
      "step": 69870
    },
    {
      "epoch": 10.407357759904677,
      "grad_norm": 105.16008758544922,
      "learning_rate": 2.7581927432385713e-05,
      "loss": 0.3193,
      "num_input_tokens_seen": 40547544,
      "step": 69875
    },
    {
      "epoch": 10.408102472445636,
      "grad_norm": 0.013177263550460339,
      "learning_rate": 2.757869536501049e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 40550456,
      "step": 69880
    },
    {
      "epoch": 10.408847184986595,
      "grad_norm": 0.031009476631879807,
      "learning_rate": 2.7575463254070832e-05,
      "loss": 0.0162,
      "num_input_tokens_seen": 40553240,
      "step": 69885
    },
    {
      "epoch": 10.409591897527555,
      "grad_norm": 0.26790347695350647,
      "learning_rate": 2.757223109962134e-05,
      "loss": 0.0298,
      "num_input_tokens_seen": 40556152,
      "step": 69890
    },
    {
      "epoch": 10.410336610068514,
      "grad_norm": 0.008422281593084335,
      "learning_rate": 2.7568998901716613e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40559064,
      "step": 69895
    },
    {
      "epoch": 10.411081322609473,
      "grad_norm": 0.004909100942313671,
      "learning_rate": 2.7565766660411263e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40561624,
      "step": 69900
    },
    {
      "epoch": 10.411826035150431,
      "grad_norm": 0.008174215443432331,
      "learning_rate": 2.7562534375759898e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 40564664,
      "step": 69905
    },
    {
      "epoch": 10.41257074769139,
      "grad_norm": 239.71560668945312,
      "learning_rate": 2.7559302047817108e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 40567384,
      "step": 69910
    },
    {
      "epoch": 10.41331546023235,
      "grad_norm": 1.3469047546386719,
      "learning_rate": 2.755606967663752e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40570552,
      "step": 69915
    },
    {
      "epoch": 10.41406017277331,
      "grad_norm": 0.012953928671777248,
      "learning_rate": 2.755283726227573e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 40573272,
      "step": 69920
    },
    {
      "epoch": 10.414804885314268,
      "grad_norm": 0.002036598278209567,
      "learning_rate": 2.754960480478635e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40575960,
      "step": 69925
    },
    {
      "epoch": 10.415549597855227,
      "grad_norm": 356.0801696777344,
      "learning_rate": 2.7546372304223983e-05,
      "loss": 0.2273,
      "num_input_tokens_seen": 40579128,
      "step": 69930
    },
    {
      "epoch": 10.416294310396188,
      "grad_norm": 30.389225006103516,
      "learning_rate": 2.7543139760643255e-05,
      "loss": 0.0244,
      "num_input_tokens_seen": 40582136,
      "step": 69935
    },
    {
      "epoch": 10.417039022937146,
      "grad_norm": 0.015954019501805305,
      "learning_rate": 2.7539907174098755e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40585304,
      "step": 69940
    },
    {
      "epoch": 10.417783735478105,
      "grad_norm": 34.512569427490234,
      "learning_rate": 2.7536674544645108e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 40588344,
      "step": 69945
    },
    {
      "epoch": 10.418528448019064,
      "grad_norm": 0.005826643668115139,
      "learning_rate": 2.7533441872336923e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 40591192,
      "step": 69950
    },
    {
      "epoch": 10.419273160560024,
      "grad_norm": 0.013062805868685246,
      "learning_rate": 2.7530209157228808e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40594104,
      "step": 69955
    },
    {
      "epoch": 10.420017873100983,
      "grad_norm": 0.02578786574304104,
      "learning_rate": 2.752697639937539e-05,
      "loss": 0.0275,
      "num_input_tokens_seen": 40596920,
      "step": 69960
    },
    {
      "epoch": 10.420762585641942,
      "grad_norm": 0.0017258927691727877,
      "learning_rate": 2.752374359883127e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 40599576,
      "step": 69965
    },
    {
      "epoch": 10.4215072981829,
      "grad_norm": 0.005646069534122944,
      "learning_rate": 2.7520510755651068e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40602680,
      "step": 69970
    },
    {
      "epoch": 10.422252010723861,
      "grad_norm": 0.006630047224462032,
      "learning_rate": 2.7517277869889395e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40605624,
      "step": 69975
    },
    {
      "epoch": 10.42299672326482,
      "grad_norm": 0.001043815747834742,
      "learning_rate": 2.7514044941600874e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 40608344,
      "step": 69980
    },
    {
      "epoch": 10.423741435805779,
      "grad_norm": 0.06962399929761887,
      "learning_rate": 2.7510811970840115e-05,
      "loss": 0.107,
      "num_input_tokens_seen": 40611192,
      "step": 69985
    },
    {
      "epoch": 10.424486148346737,
      "grad_norm": 0.0060269795358181,
      "learning_rate": 2.7507578957661746e-05,
      "loss": 0.0488,
      "num_input_tokens_seen": 40614072,
      "step": 69990
    },
    {
      "epoch": 10.425230860887698,
      "grad_norm": 0.0479411743581295,
      "learning_rate": 2.7504345902120375e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40617368,
      "step": 69995
    },
    {
      "epoch": 10.425975573428657,
      "grad_norm": 121.506591796875,
      "learning_rate": 2.7501112804270624e-05,
      "loss": 0.2115,
      "num_input_tokens_seen": 40620280,
      "step": 70000
    },
    {
      "epoch": 10.426720285969616,
      "grad_norm": 45.1982536315918,
      "learning_rate": 2.749787966416712e-05,
      "loss": 0.0853,
      "num_input_tokens_seen": 40622936,
      "step": 70005
    },
    {
      "epoch": 10.427464998510574,
      "grad_norm": 0.006769891362637281,
      "learning_rate": 2.7494646481864472e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40625784,
      "step": 70010
    },
    {
      "epoch": 10.428209711051535,
      "grad_norm": 0.002362835453823209,
      "learning_rate": 2.749141325741731e-05,
      "loss": 0.0879,
      "num_input_tokens_seen": 40628440,
      "step": 70015
    },
    {
      "epoch": 10.428954423592494,
      "grad_norm": 0.003973615355789661,
      "learning_rate": 2.7488179990880248e-05,
      "loss": 0.2313,
      "num_input_tokens_seen": 40631704,
      "step": 70020
    },
    {
      "epoch": 10.429699136133452,
      "grad_norm": 98.99581909179688,
      "learning_rate": 2.7484946682307917e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 40634584,
      "step": 70025
    },
    {
      "epoch": 10.430443848674411,
      "grad_norm": 199.85511779785156,
      "learning_rate": 2.7481713331754945e-05,
      "loss": 0.1011,
      "num_input_tokens_seen": 40637656,
      "step": 70030
    },
    {
      "epoch": 10.431188561215372,
      "grad_norm": 5.1976637840271,
      "learning_rate": 2.7478479939275937e-05,
      "loss": 0.0102,
      "num_input_tokens_seen": 40640440,
      "step": 70035
    },
    {
      "epoch": 10.43193327375633,
      "grad_norm": 0.0031221455428749323,
      "learning_rate": 2.7475246504925535e-05,
      "loss": 0.2771,
      "num_input_tokens_seen": 40643576,
      "step": 70040
    },
    {
      "epoch": 10.43267798629729,
      "grad_norm": 16.148637771606445,
      "learning_rate": 2.7472013028758364e-05,
      "loss": 0.2296,
      "num_input_tokens_seen": 40646328,
      "step": 70045
    },
    {
      "epoch": 10.433422698838248,
      "grad_norm": 0.23924875259399414,
      "learning_rate": 2.7468779510829036e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40649272,
      "step": 70050
    },
    {
      "epoch": 10.434167411379208,
      "grad_norm": 0.00917056668549776,
      "learning_rate": 2.746554595119219e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 40652312,
      "step": 70055
    },
    {
      "epoch": 10.434912123920167,
      "grad_norm": 0.011595981195569038,
      "learning_rate": 2.7462312349902452e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 40655864,
      "step": 70060
    },
    {
      "epoch": 10.435656836461126,
      "grad_norm": 0.00857306458055973,
      "learning_rate": 2.7459078707014453e-05,
      "loss": 0.2192,
      "num_input_tokens_seen": 40658808,
      "step": 70065
    },
    {
      "epoch": 10.436401549002085,
      "grad_norm": 0.008208071812987328,
      "learning_rate": 2.745584502258281e-05,
      "loss": 0.077,
      "num_input_tokens_seen": 40661592,
      "step": 70070
    },
    {
      "epoch": 10.437146261543045,
      "grad_norm": 0.06182115897536278,
      "learning_rate": 2.745261129666217e-05,
      "loss": 0.0734,
      "num_input_tokens_seen": 40664568,
      "step": 70075
    },
    {
      "epoch": 10.437890974084004,
      "grad_norm": 0.00867854617536068,
      "learning_rate": 2.7449377529307147e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40667512,
      "step": 70080
    },
    {
      "epoch": 10.438635686624963,
      "grad_norm": 0.003225632244721055,
      "learning_rate": 2.7446143720572387e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 40670648,
      "step": 70085
    },
    {
      "epoch": 10.439380399165922,
      "grad_norm": 0.005578256212174892,
      "learning_rate": 2.7442909870512513e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 40673752,
      "step": 70090
    },
    {
      "epoch": 10.44012511170688,
      "grad_norm": 0.01624239608645439,
      "learning_rate": 2.7439675979182155e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40676696,
      "step": 70095
    },
    {
      "epoch": 10.44086982424784,
      "grad_norm": 2.734363555908203,
      "learning_rate": 2.7436442046635962e-05,
      "loss": 0.0503,
      "num_input_tokens_seen": 40679704,
      "step": 70100
    },
    {
      "epoch": 10.4416145367888,
      "grad_norm": 0.04684093967080116,
      "learning_rate": 2.7433208072928546e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40682776,
      "step": 70105
    },
    {
      "epoch": 10.442359249329758,
      "grad_norm": 65.09735107421875,
      "learning_rate": 2.7429974058114553e-05,
      "loss": 0.0684,
      "num_input_tokens_seen": 40685624,
      "step": 70110
    },
    {
      "epoch": 10.443103961870717,
      "grad_norm": 2.6229355335235596,
      "learning_rate": 2.7426740002248624e-05,
      "loss": 0.2617,
      "num_input_tokens_seen": 40688312,
      "step": 70115
    },
    {
      "epoch": 10.443848674411678,
      "grad_norm": 0.011509578675031662,
      "learning_rate": 2.7423505905385382e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 40691384,
      "step": 70120
    },
    {
      "epoch": 10.444593386952636,
      "grad_norm": 0.006765197496861219,
      "learning_rate": 2.742027176757948e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40694328,
      "step": 70125
    },
    {
      "epoch": 10.445338099493595,
      "grad_norm": 0.021413372829556465,
      "learning_rate": 2.741703758888554e-05,
      "loss": 0.0966,
      "num_input_tokens_seen": 40697496,
      "step": 70130
    },
    {
      "epoch": 10.446082812034554,
      "grad_norm": 69.37154388427734,
      "learning_rate": 2.7413803369358217e-05,
      "loss": 0.0561,
      "num_input_tokens_seen": 40700152,
      "step": 70135
    },
    {
      "epoch": 10.446827524575514,
      "grad_norm": 0.01912001147866249,
      "learning_rate": 2.7410569109052124e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40702936,
      "step": 70140
    },
    {
      "epoch": 10.447572237116473,
      "grad_norm": 31.95661735534668,
      "learning_rate": 2.7407334808021924e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 40705784,
      "step": 70145
    },
    {
      "epoch": 10.448316949657432,
      "grad_norm": 0.021938519552350044,
      "learning_rate": 2.740410046632224e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40708664,
      "step": 70150
    },
    {
      "epoch": 10.44906166219839,
      "grad_norm": 0.03613639995455742,
      "learning_rate": 2.7400866084007732e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40711256,
      "step": 70155
    },
    {
      "epoch": 10.449806374739351,
      "grad_norm": 0.00126478704623878,
      "learning_rate": 2.7397631661133032e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40713944,
      "step": 70160
    },
    {
      "epoch": 10.45055108728031,
      "grad_norm": 0.007673853076994419,
      "learning_rate": 2.7394397197752786e-05,
      "loss": 0.1493,
      "num_input_tokens_seen": 40716856,
      "step": 70165
    },
    {
      "epoch": 10.451295799821269,
      "grad_norm": 0.06786007434129715,
      "learning_rate": 2.7391162693921624e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40719736,
      "step": 70170
    },
    {
      "epoch": 10.452040512362228,
      "grad_norm": 13.090836524963379,
      "learning_rate": 2.7387928149694197e-05,
      "loss": 0.3002,
      "num_input_tokens_seen": 40722616,
      "step": 70175
    },
    {
      "epoch": 10.452785224903188,
      "grad_norm": 0.01989532634615898,
      "learning_rate": 2.7384693565125153e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 40725240,
      "step": 70180
    },
    {
      "epoch": 10.453529937444147,
      "grad_norm": 0.0007275283569470048,
      "learning_rate": 2.7381458940269134e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 40728312,
      "step": 70185
    },
    {
      "epoch": 10.454274649985106,
      "grad_norm": 0.014583293348550797,
      "learning_rate": 2.737822427518079e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 40731672,
      "step": 70190
    },
    {
      "epoch": 10.455019362526064,
      "grad_norm": 164.57876586914062,
      "learning_rate": 2.7374989569914766e-05,
      "loss": 0.0332,
      "num_input_tokens_seen": 40734360,
      "step": 70195
    },
    {
      "epoch": 10.455764075067025,
      "grad_norm": 0.01520752627402544,
      "learning_rate": 2.73717548245257e-05,
      "loss": 0.2936,
      "num_input_tokens_seen": 40737176,
      "step": 70200
    },
    {
      "epoch": 10.456508787607984,
      "grad_norm": 0.09044281393289566,
      "learning_rate": 2.736852003906826e-05,
      "loss": 0.0803,
      "num_input_tokens_seen": 40739800,
      "step": 70205
    },
    {
      "epoch": 10.457253500148942,
      "grad_norm": 23.81950569152832,
      "learning_rate": 2.736528521359707e-05,
      "loss": 0.0222,
      "num_input_tokens_seen": 40742840,
      "step": 70210
    },
    {
      "epoch": 10.457998212689901,
      "grad_norm": 0.03857504203915596,
      "learning_rate": 2.736205034816679e-05,
      "loss": 0.0655,
      "num_input_tokens_seen": 40745336,
      "step": 70215
    },
    {
      "epoch": 10.458742925230862,
      "grad_norm": 0.07369399070739746,
      "learning_rate": 2.735881544283207e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 40748216,
      "step": 70220
    },
    {
      "epoch": 10.45948763777182,
      "grad_norm": 0.004637286998331547,
      "learning_rate": 2.735558049764756e-05,
      "loss": 0.195,
      "num_input_tokens_seen": 40751064,
      "step": 70225
    },
    {
      "epoch": 10.46023235031278,
      "grad_norm": 0.012246154248714447,
      "learning_rate": 2.735234551266792e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40754040,
      "step": 70230
    },
    {
      "epoch": 10.460977062853738,
      "grad_norm": 0.0047101969830691814,
      "learning_rate": 2.734911048794779e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40757240,
      "step": 70235
    },
    {
      "epoch": 10.461721775394698,
      "grad_norm": 0.27267134189605713,
      "learning_rate": 2.7345875423541817e-05,
      "loss": 0.0127,
      "num_input_tokens_seen": 40760120,
      "step": 70240
    },
    {
      "epoch": 10.462466487935657,
      "grad_norm": 0.05305025726556778,
      "learning_rate": 2.7342640319504674e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 40762776,
      "step": 70245
    },
    {
      "epoch": 10.463211200476616,
      "grad_norm": 0.015530074946582317,
      "learning_rate": 2.7339405175890998e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 40765432,
      "step": 70250
    },
    {
      "epoch": 10.463955913017575,
      "grad_norm": 23.919780731201172,
      "learning_rate": 2.733616999275545e-05,
      "loss": 0.1137,
      "num_input_tokens_seen": 40768152,
      "step": 70255
    },
    {
      "epoch": 10.464700625558535,
      "grad_norm": 0.004418297670781612,
      "learning_rate": 2.7332934770152686e-05,
      "loss": 0.3754,
      "num_input_tokens_seen": 40771256,
      "step": 70260
    },
    {
      "epoch": 10.465445338099494,
      "grad_norm": 0.013681730255484581,
      "learning_rate": 2.7329699508137363e-05,
      "loss": 0.0959,
      "num_input_tokens_seen": 40774200,
      "step": 70265
    },
    {
      "epoch": 10.466190050640453,
      "grad_norm": 4.443765640258789,
      "learning_rate": 2.7326464206764125e-05,
      "loss": 0.0686,
      "num_input_tokens_seen": 40777144,
      "step": 70270
    },
    {
      "epoch": 10.466934763181412,
      "grad_norm": 0.08013977110385895,
      "learning_rate": 2.7323228866087647e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 40779960,
      "step": 70275
    },
    {
      "epoch": 10.46767947572237,
      "grad_norm": 8.664810180664062,
      "learning_rate": 2.731999348616257e-05,
      "loss": 0.1597,
      "num_input_tokens_seen": 40782616,
      "step": 70280
    },
    {
      "epoch": 10.46842418826333,
      "grad_norm": 0.04565287008881569,
      "learning_rate": 2.731675806704357e-05,
      "loss": 0.238,
      "num_input_tokens_seen": 40785496,
      "step": 70285
    },
    {
      "epoch": 10.46916890080429,
      "grad_norm": 16.53263282775879,
      "learning_rate": 2.7313522608785295e-05,
      "loss": 0.2058,
      "num_input_tokens_seen": 40788344,
      "step": 70290
    },
    {
      "epoch": 10.469913613345248,
      "grad_norm": 0.0051625631749629974,
      "learning_rate": 2.7310287111442407e-05,
      "loss": 0.0298,
      "num_input_tokens_seen": 40791672,
      "step": 70295
    },
    {
      "epoch": 10.470658325886207,
      "grad_norm": 0.024188218638300896,
      "learning_rate": 2.730705157506957e-05,
      "loss": 0.1004,
      "num_input_tokens_seen": 40794520,
      "step": 70300
    },
    {
      "epoch": 10.471403038427168,
      "grad_norm": 0.020901259034872055,
      "learning_rate": 2.7303815999721433e-05,
      "loss": 0.0642,
      "num_input_tokens_seen": 40797304,
      "step": 70305
    },
    {
      "epoch": 10.472147750968126,
      "grad_norm": 0.020563548430800438,
      "learning_rate": 2.730058038545267e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 40800056,
      "step": 70310
    },
    {
      "epoch": 10.472892463509085,
      "grad_norm": 2.3624279499053955,
      "learning_rate": 2.7297344732317938e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 40802936,
      "step": 70315
    },
    {
      "epoch": 10.473637176050044,
      "grad_norm": 0.005658506415784359,
      "learning_rate": 2.7294109040371902e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 40806296,
      "step": 70320
    },
    {
      "epoch": 10.474381888591004,
      "grad_norm": 0.0034416562411934137,
      "learning_rate": 2.729087330966923e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 40809112,
      "step": 70325
    },
    {
      "epoch": 10.475126601131963,
      "grad_norm": 0.04508551210165024,
      "learning_rate": 2.7287637540264584e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 40811800,
      "step": 70330
    },
    {
      "epoch": 10.475871313672922,
      "grad_norm": 14.264866828918457,
      "learning_rate": 2.7284401732212615e-05,
      "loss": 0.096,
      "num_input_tokens_seen": 40814840,
      "step": 70335
    },
    {
      "epoch": 10.47661602621388,
      "grad_norm": 0.00463196961209178,
      "learning_rate": 2.7281165885568006e-05,
      "loss": 0.0498,
      "num_input_tokens_seen": 40817688,
      "step": 70340
    },
    {
      "epoch": 10.477360738754841,
      "grad_norm": 0.05140342563390732,
      "learning_rate": 2.7277930000385414e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 40820504,
      "step": 70345
    },
    {
      "epoch": 10.4781054512958,
      "grad_norm": 43.49049758911133,
      "learning_rate": 2.7274694076719513e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 40823256,
      "step": 70350
    },
    {
      "epoch": 10.478850163836759,
      "grad_norm": 0.0029354821890592575,
      "learning_rate": 2.727145811462497e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40826392,
      "step": 70355
    },
    {
      "epoch": 10.479594876377718,
      "grad_norm": 0.042594023048877716,
      "learning_rate": 2.7268222114156454e-05,
      "loss": 0.1256,
      "num_input_tokens_seen": 40829336,
      "step": 70360
    },
    {
      "epoch": 10.480339588918678,
      "grad_norm": 43.79362487792969,
      "learning_rate": 2.7264986075368625e-05,
      "loss": 0.1785,
      "num_input_tokens_seen": 40832024,
      "step": 70365
    },
    {
      "epoch": 10.481084301459637,
      "grad_norm": 0.007320886477828026,
      "learning_rate": 2.726174999831616e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 40834776,
      "step": 70370
    },
    {
      "epoch": 10.481829014000596,
      "grad_norm": 47.060394287109375,
      "learning_rate": 2.7258513883053727e-05,
      "loss": 0.0369,
      "num_input_tokens_seen": 40837912,
      "step": 70375
    },
    {
      "epoch": 10.482573726541554,
      "grad_norm": 0.02250935137271881,
      "learning_rate": 2.7255277729635997e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40841208,
      "step": 70380
    },
    {
      "epoch": 10.483318439082515,
      "grad_norm": 71.62041473388672,
      "learning_rate": 2.725204153811764e-05,
      "loss": 0.1381,
      "num_input_tokens_seen": 40844056,
      "step": 70385
    },
    {
      "epoch": 10.484063151623474,
      "grad_norm": 0.007899869233369827,
      "learning_rate": 2.7248805308553333e-05,
      "loss": 0.167,
      "num_input_tokens_seen": 40847128,
      "step": 70390
    },
    {
      "epoch": 10.484807864164432,
      "grad_norm": 0.0031205799896270037,
      "learning_rate": 2.7245569040997747e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 40850264,
      "step": 70395
    },
    {
      "epoch": 10.485552576705391,
      "grad_norm": 0.04345255345106125,
      "learning_rate": 2.7242332735505555e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40852856,
      "step": 70400
    },
    {
      "epoch": 10.486297289246352,
      "grad_norm": 0.023113787174224854,
      "learning_rate": 2.7239096392131423e-05,
      "loss": 0.1448,
      "num_input_tokens_seen": 40855672,
      "step": 70405
    },
    {
      "epoch": 10.48704200178731,
      "grad_norm": 0.02718299627304077,
      "learning_rate": 2.723586001093004e-05,
      "loss": 0.3284,
      "num_input_tokens_seen": 40858520,
      "step": 70410
    },
    {
      "epoch": 10.48778671432827,
      "grad_norm": 0.015110738575458527,
      "learning_rate": 2.7232623591956074e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 40861592,
      "step": 70415
    },
    {
      "epoch": 10.488531426869228,
      "grad_norm": 0.01560325175523758,
      "learning_rate": 2.72293871352642e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 40864248,
      "step": 70420
    },
    {
      "epoch": 10.489276139410187,
      "grad_norm": 5.0076584815979,
      "learning_rate": 2.7226150640909092e-05,
      "loss": 0.0852,
      "num_input_tokens_seen": 40867096,
      "step": 70425
    },
    {
      "epoch": 10.490020851951147,
      "grad_norm": 86.64689636230469,
      "learning_rate": 2.722291410894544e-05,
      "loss": 0.114,
      "num_input_tokens_seen": 40870200,
      "step": 70430
    },
    {
      "epoch": 10.490765564492106,
      "grad_norm": 0.04075014591217041,
      "learning_rate": 2.721967753942791e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40873240,
      "step": 70435
    },
    {
      "epoch": 10.491510277033065,
      "grad_norm": 0.024091849103569984,
      "learning_rate": 2.721644093241118e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 40876152,
      "step": 70440
    },
    {
      "epoch": 10.492254989574024,
      "grad_norm": 4.894111156463623,
      "learning_rate": 2.7213204287949938e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 40878808,
      "step": 70445
    },
    {
      "epoch": 10.492999702114984,
      "grad_norm": 5.738400459289551,
      "learning_rate": 2.7209967606098862e-05,
      "loss": 0.4696,
      "num_input_tokens_seen": 40881784,
      "step": 70450
    },
    {
      "epoch": 10.493744414655943,
      "grad_norm": 24.897666931152344,
      "learning_rate": 2.7206730886912624e-05,
      "loss": 0.1276,
      "num_input_tokens_seen": 40884440,
      "step": 70455
    },
    {
      "epoch": 10.494489127196902,
      "grad_norm": 0.02243128791451454,
      "learning_rate": 2.7203494130445905e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40887320,
      "step": 70460
    },
    {
      "epoch": 10.49523383973786,
      "grad_norm": 0.01915939524769783,
      "learning_rate": 2.7200257336753405e-05,
      "loss": 0.2022,
      "num_input_tokens_seen": 40890264,
      "step": 70465
    },
    {
      "epoch": 10.495978552278821,
      "grad_norm": 0.06338093429803848,
      "learning_rate": 2.7197020505889786e-05,
      "loss": 0.0611,
      "num_input_tokens_seen": 40893272,
      "step": 70470
    },
    {
      "epoch": 10.49672326481978,
      "grad_norm": 0.007411852013319731,
      "learning_rate": 2.7193783637909736e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 40896120,
      "step": 70475
    },
    {
      "epoch": 10.497467977360738,
      "grad_norm": 0.01734257861971855,
      "learning_rate": 2.7190546732867945e-05,
      "loss": 0.1847,
      "num_input_tokens_seen": 40898968,
      "step": 70480
    },
    {
      "epoch": 10.498212689901697,
      "grad_norm": 0.12241572886705399,
      "learning_rate": 2.7187309790819092e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40902008,
      "step": 70485
    },
    {
      "epoch": 10.498957402442658,
      "grad_norm": 0.28879761695861816,
      "learning_rate": 2.7184072811817867e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 40905112,
      "step": 70490
    },
    {
      "epoch": 10.499702114983616,
      "grad_norm": 0.03637498617172241,
      "learning_rate": 2.7180835795918952e-05,
      "loss": 0.1293,
      "num_input_tokens_seen": 40908184,
      "step": 70495
    },
    {
      "epoch": 10.500446827524575,
      "grad_norm": 0.05963258072733879,
      "learning_rate": 2.7177598743177028e-05,
      "loss": 0.0742,
      "num_input_tokens_seen": 40911448,
      "step": 70500
    },
    {
      "epoch": 10.501191540065534,
      "grad_norm": 0.0171145498752594,
      "learning_rate": 2.717436165364679e-05,
      "loss": 0.196,
      "num_input_tokens_seen": 40914328,
      "step": 70505
    },
    {
      "epoch": 10.501936252606495,
      "grad_norm": 0.01201073732227087,
      "learning_rate": 2.7171124527382917e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 40917368,
      "step": 70510
    },
    {
      "epoch": 10.502680965147453,
      "grad_norm": 0.0040734014473855495,
      "learning_rate": 2.7167887364440102e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40920664,
      "step": 70515
    },
    {
      "epoch": 10.503425677688412,
      "grad_norm": 0.018750112503767014,
      "learning_rate": 2.7164650164873033e-05,
      "loss": 0.1256,
      "num_input_tokens_seen": 40923352,
      "step": 70520
    },
    {
      "epoch": 10.50417039022937,
      "grad_norm": 189.37161254882812,
      "learning_rate": 2.7161412928736407e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 40926168,
      "step": 70525
    },
    {
      "epoch": 10.504915102770331,
      "grad_norm": 15.078669548034668,
      "learning_rate": 2.7158175656084906e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 40929016,
      "step": 70530
    },
    {
      "epoch": 10.50565981531129,
      "grad_norm": 0.019149666652083397,
      "learning_rate": 2.7154938346973214e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 40931928,
      "step": 70535
    },
    {
      "epoch": 10.506404527852249,
      "grad_norm": 0.009554460644721985,
      "learning_rate": 2.715170100145603e-05,
      "loss": 0.0134,
      "num_input_tokens_seen": 40935192,
      "step": 70540
    },
    {
      "epoch": 10.507149240393208,
      "grad_norm": 1.9808666706085205,
      "learning_rate": 2.7148463619588045e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 40938168,
      "step": 70545
    },
    {
      "epoch": 10.507893952934168,
      "grad_norm": 0.002692457055673003,
      "learning_rate": 2.714522620142395e-05,
      "loss": 0.0294,
      "num_input_tokens_seen": 40941080,
      "step": 70550
    },
    {
      "epoch": 10.508638665475127,
      "grad_norm": 0.008018280379474163,
      "learning_rate": 2.7141988747018437e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 40944024,
      "step": 70555
    },
    {
      "epoch": 10.509383378016086,
      "grad_norm": 0.26929140090942383,
      "learning_rate": 2.713875125642621e-05,
      "loss": 0.1224,
      "num_input_tokens_seen": 40947256,
      "step": 70560
    },
    {
      "epoch": 10.510128090557044,
      "grad_norm": 0.05039771646261215,
      "learning_rate": 2.713551372970195e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40950232,
      "step": 70565
    },
    {
      "epoch": 10.510872803098005,
      "grad_norm": 0.00553534273058176,
      "learning_rate": 2.7132276166900357e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 40952952,
      "step": 70570
    },
    {
      "epoch": 10.511617515638964,
      "grad_norm": 20.621492385864258,
      "learning_rate": 2.7129038568076122e-05,
      "loss": 0.197,
      "num_input_tokens_seen": 40956024,
      "step": 70575
    },
    {
      "epoch": 10.512362228179922,
      "grad_norm": 0.0036406449507921934,
      "learning_rate": 2.712580093328394e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 40959288,
      "step": 70580
    },
    {
      "epoch": 10.513106940720881,
      "grad_norm": 0.0011180132860317826,
      "learning_rate": 2.7122563262578515e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 40962232,
      "step": 70585
    },
    {
      "epoch": 10.513851653261842,
      "grad_norm": 0.3473341166973114,
      "learning_rate": 2.7119325556014546e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 40965272,
      "step": 70590
    },
    {
      "epoch": 10.5145963658028,
      "grad_norm": 16.876501083374023,
      "learning_rate": 2.7116087813646724e-05,
      "loss": 0.0265,
      "num_input_tokens_seen": 40968088,
      "step": 70595
    },
    {
      "epoch": 10.51534107834376,
      "grad_norm": 65.88694763183594,
      "learning_rate": 2.7112850035529748e-05,
      "loss": 0.2979,
      "num_input_tokens_seen": 40970744,
      "step": 70600
    },
    {
      "epoch": 10.516085790884718,
      "grad_norm": 0.05036259442567825,
      "learning_rate": 2.7109612221718316e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 40973720,
      "step": 70605
    },
    {
      "epoch": 10.516830503425677,
      "grad_norm": 0.028128622099757195,
      "learning_rate": 2.7106374372267136e-05,
      "loss": 0.0655,
      "num_input_tokens_seen": 40976792,
      "step": 70610
    },
    {
      "epoch": 10.517575215966637,
      "grad_norm": 78.57477569580078,
      "learning_rate": 2.7103136487230895e-05,
      "loss": 0.4436,
      "num_input_tokens_seen": 40979672,
      "step": 70615
    },
    {
      "epoch": 10.518319928507596,
      "grad_norm": 0.01780124567449093,
      "learning_rate": 2.70998985666643e-05,
      "loss": 0.1505,
      "num_input_tokens_seen": 40982520,
      "step": 70620
    },
    {
      "epoch": 10.519064641048555,
      "grad_norm": 73.50316619873047,
      "learning_rate": 2.7096660610622055e-05,
      "loss": 0.3843,
      "num_input_tokens_seen": 40985336,
      "step": 70625
    },
    {
      "epoch": 10.519809353589514,
      "grad_norm": 2.0622668266296387,
      "learning_rate": 2.7093422619158866e-05,
      "loss": 0.0171,
      "num_input_tokens_seen": 40988152,
      "step": 70630
    },
    {
      "epoch": 10.520554066130474,
      "grad_norm": 0.015357118099927902,
      "learning_rate": 2.709018459232942e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 40990936,
      "step": 70635
    },
    {
      "epoch": 10.521298778671433,
      "grad_norm": 0.006768132094293833,
      "learning_rate": 2.7086946530188434e-05,
      "loss": 0.1108,
      "num_input_tokens_seen": 40993976,
      "step": 70640
    },
    {
      "epoch": 10.522043491212392,
      "grad_norm": 0.06123875081539154,
      "learning_rate": 2.7083708432790605e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 40997144,
      "step": 70645
    },
    {
      "epoch": 10.52278820375335,
      "grad_norm": 0.034898240119218826,
      "learning_rate": 2.7080470300190646e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 41000216,
      "step": 70650
    },
    {
      "epoch": 10.523532916294311,
      "grad_norm": 0.010519514791667461,
      "learning_rate": 2.7077232132443247e-05,
      "loss": 0.3473,
      "num_input_tokens_seen": 41003288,
      "step": 70655
    },
    {
      "epoch": 10.52427762883527,
      "grad_norm": 0.00814236979931593,
      "learning_rate": 2.7073993929603138e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41006072,
      "step": 70660
    },
    {
      "epoch": 10.525022341376228,
      "grad_norm": 0.0495639368891716,
      "learning_rate": 2.7070755691724993e-05,
      "loss": 0.2405,
      "num_input_tokens_seen": 41008920,
      "step": 70665
    },
    {
      "epoch": 10.525767053917187,
      "grad_norm": 0.003298727562651038,
      "learning_rate": 2.7067517418863543e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41011992,
      "step": 70670
    },
    {
      "epoch": 10.526511766458148,
      "grad_norm": 0.09779787808656693,
      "learning_rate": 2.706427911107348e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41014808,
      "step": 70675
    },
    {
      "epoch": 10.527256478999107,
      "grad_norm": 0.022729462012648582,
      "learning_rate": 2.7061040768409523e-05,
      "loss": 0.142,
      "num_input_tokens_seen": 41018136,
      "step": 70680
    },
    {
      "epoch": 10.528001191540065,
      "grad_norm": 4.047563076019287,
      "learning_rate": 2.705780239092638e-05,
      "loss": 0.0116,
      "num_input_tokens_seen": 41020856,
      "step": 70685
    },
    {
      "epoch": 10.528745904081024,
      "grad_norm": 0.01936955936253071,
      "learning_rate": 2.705456397867876e-05,
      "loss": 0.129,
      "num_input_tokens_seen": 41023608,
      "step": 70690
    },
    {
      "epoch": 10.529490616621985,
      "grad_norm": 12.476327896118164,
      "learning_rate": 2.7051325531721366e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 41026456,
      "step": 70695
    },
    {
      "epoch": 10.530235329162943,
      "grad_norm": 0.09419193863868713,
      "learning_rate": 2.704808705010891e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 41029336,
      "step": 70700
    },
    {
      "epoch": 10.530980041703902,
      "grad_norm": 12.245013236999512,
      "learning_rate": 2.7044848533896105e-05,
      "loss": 0.1534,
      "num_input_tokens_seen": 41032280,
      "step": 70705
    },
    {
      "epoch": 10.53172475424486,
      "grad_norm": 108.6740493774414,
      "learning_rate": 2.704160998313766e-05,
      "loss": 0.1817,
      "num_input_tokens_seen": 41035160,
      "step": 70710
    },
    {
      "epoch": 10.532469466785821,
      "grad_norm": 57.78074264526367,
      "learning_rate": 2.7038371397888295e-05,
      "loss": 0.1441,
      "num_input_tokens_seen": 41038136,
      "step": 70715
    },
    {
      "epoch": 10.53321417932678,
      "grad_norm": 0.00043664619443006814,
      "learning_rate": 2.7035132778202717e-05,
      "loss": 0.0255,
      "num_input_tokens_seen": 41041048,
      "step": 70720
    },
    {
      "epoch": 10.533958891867739,
      "grad_norm": 0.005952564068138599,
      "learning_rate": 2.7031894124135638e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41044056,
      "step": 70725
    },
    {
      "epoch": 10.534703604408698,
      "grad_norm": 0.01471030618995428,
      "learning_rate": 2.7028655435741772e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 41046872,
      "step": 70730
    },
    {
      "epoch": 10.535448316949658,
      "grad_norm": 0.044227484613657,
      "learning_rate": 2.7025416713075836e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 41049656,
      "step": 70735
    },
    {
      "epoch": 10.536193029490617,
      "grad_norm": 0.030149253085255623,
      "learning_rate": 2.702217795619254e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41052344,
      "step": 70740
    },
    {
      "epoch": 10.536937742031576,
      "grad_norm": 0.016048017889261246,
      "learning_rate": 2.7018939165146606e-05,
      "loss": 0.1731,
      "num_input_tokens_seen": 41055192,
      "step": 70745
    },
    {
      "epoch": 10.537682454572534,
      "grad_norm": 0.030814239755272865,
      "learning_rate": 2.701570033999274e-05,
      "loss": 0.093,
      "num_input_tokens_seen": 41058296,
      "step": 70750
    },
    {
      "epoch": 10.538427167113493,
      "grad_norm": 0.005482276901602745,
      "learning_rate": 2.7012461480785668e-05,
      "loss": 0.0991,
      "num_input_tokens_seen": 41061208,
      "step": 70755
    },
    {
      "epoch": 10.539171879654454,
      "grad_norm": 0.052404243499040604,
      "learning_rate": 2.7009222587580114e-05,
      "loss": 0.0737,
      "num_input_tokens_seen": 41064024,
      "step": 70760
    },
    {
      "epoch": 10.539916592195413,
      "grad_norm": 17.80314826965332,
      "learning_rate": 2.7005983660430778e-05,
      "loss": 0.3293,
      "num_input_tokens_seen": 41066936,
      "step": 70765
    },
    {
      "epoch": 10.540661304736371,
      "grad_norm": 0.05900711566209793,
      "learning_rate": 2.700274469939239e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 41069976,
      "step": 70770
    },
    {
      "epoch": 10.541406017277332,
      "grad_norm": 44.89080810546875,
      "learning_rate": 2.6999505704519662e-05,
      "loss": 0.115,
      "num_input_tokens_seen": 41073016,
      "step": 70775
    },
    {
      "epoch": 10.54215072981829,
      "grad_norm": 0.052515652030706406,
      "learning_rate": 2.6996266675867322e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41075960,
      "step": 70780
    },
    {
      "epoch": 10.54289544235925,
      "grad_norm": 35.90220260620117,
      "learning_rate": 2.6993027613490078e-05,
      "loss": 0.2381,
      "num_input_tokens_seen": 41078968,
      "step": 70785
    },
    {
      "epoch": 10.543640154900208,
      "grad_norm": 0.021178986877202988,
      "learning_rate": 2.698978851744266e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 41081784,
      "step": 70790
    },
    {
      "epoch": 10.544384867441167,
      "grad_norm": 0.023558447137475014,
      "learning_rate": 2.69865493877798e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41084856,
      "step": 70795
    },
    {
      "epoch": 10.545129579982127,
      "grad_norm": 0.09263430535793304,
      "learning_rate": 2.698331022455619e-05,
      "loss": 0.2214,
      "num_input_tokens_seen": 41087672,
      "step": 70800
    },
    {
      "epoch": 10.545874292523086,
      "grad_norm": 44.43637466430664,
      "learning_rate": 2.6980071027826574e-05,
      "loss": 0.253,
      "num_input_tokens_seen": 41090424,
      "step": 70805
    },
    {
      "epoch": 10.546619005064045,
      "grad_norm": 16.01251792907715,
      "learning_rate": 2.697683179764568e-05,
      "loss": 0.29,
      "num_input_tokens_seen": 41093560,
      "step": 70810
    },
    {
      "epoch": 10.547363717605004,
      "grad_norm": 0.03259028121829033,
      "learning_rate": 2.6973592534068216e-05,
      "loss": 0.1692,
      "num_input_tokens_seen": 41096376,
      "step": 70815
    },
    {
      "epoch": 10.548108430145964,
      "grad_norm": 0.025787748396396637,
      "learning_rate": 2.697035323714891e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41099448,
      "step": 70820
    },
    {
      "epoch": 10.548853142686923,
      "grad_norm": 0.08153439313173294,
      "learning_rate": 2.6967113906942494e-05,
      "loss": 0.0418,
      "num_input_tokens_seen": 41102136,
      "step": 70825
    },
    {
      "epoch": 10.549597855227882,
      "grad_norm": 0.10905200988054276,
      "learning_rate": 2.696387454350368e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 41105048,
      "step": 70830
    },
    {
      "epoch": 10.55034256776884,
      "grad_norm": 0.005388346966356039,
      "learning_rate": 2.6960635146887202e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41107768,
      "step": 70835
    },
    {
      "epoch": 10.551087280309801,
      "grad_norm": 76.41153717041016,
      "learning_rate": 2.6957395717147794e-05,
      "loss": 0.2456,
      "num_input_tokens_seen": 41110616,
      "step": 70840
    },
    {
      "epoch": 10.55183199285076,
      "grad_norm": 30.353282928466797,
      "learning_rate": 2.695415625434017e-05,
      "loss": 0.0411,
      "num_input_tokens_seen": 41113240,
      "step": 70845
    },
    {
      "epoch": 10.552576705391719,
      "grad_norm": 1.822115421295166,
      "learning_rate": 2.695091675851906e-05,
      "loss": 0.4303,
      "num_input_tokens_seen": 41116280,
      "step": 70850
    },
    {
      "epoch": 10.553321417932677,
      "grad_norm": 0.06688226014375687,
      "learning_rate": 2.6947677229739198e-05,
      "loss": 0.2114,
      "num_input_tokens_seen": 41119096,
      "step": 70855
    },
    {
      "epoch": 10.554066130473638,
      "grad_norm": 15.640606880187988,
      "learning_rate": 2.6944437668055313e-05,
      "loss": 0.0675,
      "num_input_tokens_seen": 41121976,
      "step": 70860
    },
    {
      "epoch": 10.554810843014597,
      "grad_norm": 0.022153085097670555,
      "learning_rate": 2.6941198073522118e-05,
      "loss": 0.031,
      "num_input_tokens_seen": 41124824,
      "step": 70865
    },
    {
      "epoch": 10.555555555555555,
      "grad_norm": 40.453861236572266,
      "learning_rate": 2.693795844619436e-05,
      "loss": 0.1277,
      "num_input_tokens_seen": 41127512,
      "step": 70870
    },
    {
      "epoch": 10.556300268096514,
      "grad_norm": 0.0018008596962317824,
      "learning_rate": 2.6934718786126763e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 41130520,
      "step": 70875
    },
    {
      "epoch": 10.557044980637475,
      "grad_norm": 22.143997192382812,
      "learning_rate": 2.6931479093374056e-05,
      "loss": 0.0793,
      "num_input_tokens_seen": 41133240,
      "step": 70880
    },
    {
      "epoch": 10.557789693178433,
      "grad_norm": 0.005321022588759661,
      "learning_rate": 2.6928239367990974e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41135704,
      "step": 70885
    },
    {
      "epoch": 10.558534405719392,
      "grad_norm": 13.601445198059082,
      "learning_rate": 2.692499961003226e-05,
      "loss": 0.1343,
      "num_input_tokens_seen": 41138200,
      "step": 70890
    },
    {
      "epoch": 10.559279118260351,
      "grad_norm": 0.038556795567274094,
      "learning_rate": 2.692175981955263e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 41140920,
      "step": 70895
    },
    {
      "epoch": 10.560023830801311,
      "grad_norm": 39.29603958129883,
      "learning_rate": 2.691851999660681e-05,
      "loss": 0.2632,
      "num_input_tokens_seen": 41143480,
      "step": 70900
    },
    {
      "epoch": 10.56076854334227,
      "grad_norm": 0.802970290184021,
      "learning_rate": 2.691528014124955e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 41146392,
      "step": 70905
    },
    {
      "epoch": 10.561513255883229,
      "grad_norm": 0.003219539299607277,
      "learning_rate": 2.6912040253535574e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 41148984,
      "step": 70910
    },
    {
      "epoch": 10.562257968424188,
      "grad_norm": 0.09954632073640823,
      "learning_rate": 2.6908800333519625e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41152440,
      "step": 70915
    },
    {
      "epoch": 10.563002680965148,
      "grad_norm": 0.08921781927347183,
      "learning_rate": 2.6905560381256434e-05,
      "loss": 0.1914,
      "num_input_tokens_seen": 41155672,
      "step": 70920
    },
    {
      "epoch": 10.563747393506107,
      "grad_norm": 0.0069895414635539055,
      "learning_rate": 2.690232039680074e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 41158488,
      "step": 70925
    },
    {
      "epoch": 10.564492106047066,
      "grad_norm": 0.13496339321136475,
      "learning_rate": 2.6899080380207276e-05,
      "loss": 0.2103,
      "num_input_tokens_seen": 41161432,
      "step": 70930
    },
    {
      "epoch": 10.565236818588025,
      "grad_norm": 0.005847127642482519,
      "learning_rate": 2.689584033153078e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41164408,
      "step": 70935
    },
    {
      "epoch": 10.565981531128983,
      "grad_norm": 19.506460189819336,
      "learning_rate": 2.6892600250825982e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 41167480,
      "step": 70940
    },
    {
      "epoch": 10.566726243669944,
      "grad_norm": 0.18271473050117493,
      "learning_rate": 2.688936013814763e-05,
      "loss": 0.1227,
      "num_input_tokens_seen": 41170360,
      "step": 70945
    },
    {
      "epoch": 10.567470956210903,
      "grad_norm": 88.73294067382812,
      "learning_rate": 2.688611999355046e-05,
      "loss": 0.121,
      "num_input_tokens_seen": 41173496,
      "step": 70950
    },
    {
      "epoch": 10.568215668751861,
      "grad_norm": 0.004208531696349382,
      "learning_rate": 2.6882879817089207e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 41176504,
      "step": 70955
    },
    {
      "epoch": 10.568960381292822,
      "grad_norm": 0.0021914024837315083,
      "learning_rate": 2.6879639608818618e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41179512,
      "step": 70960
    },
    {
      "epoch": 10.56970509383378,
      "grad_norm": 0.01341082900762558,
      "learning_rate": 2.6876399368793425e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 41182552,
      "step": 70965
    },
    {
      "epoch": 10.57044980637474,
      "grad_norm": 0.001632502768188715,
      "learning_rate": 2.6873159097068366e-05,
      "loss": 0.3998,
      "num_input_tokens_seen": 41185400,
      "step": 70970
    },
    {
      "epoch": 10.571194518915698,
      "grad_norm": 0.10178498923778534,
      "learning_rate": 2.68699187936982e-05,
      "loss": 0.0937,
      "num_input_tokens_seen": 41188024,
      "step": 70975
    },
    {
      "epoch": 10.571939231456657,
      "grad_norm": 0.0147183733060956,
      "learning_rate": 2.686667845873765e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41190904,
      "step": 70980
    },
    {
      "epoch": 10.572683943997617,
      "grad_norm": 0.019132468849420547,
      "learning_rate": 2.686343809224146e-05,
      "loss": 0.1117,
      "num_input_tokens_seen": 41194072,
      "step": 70985
    },
    {
      "epoch": 10.573428656538576,
      "grad_norm": 0.00910409726202488,
      "learning_rate": 2.6860197694264388e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 41196728,
      "step": 70990
    },
    {
      "epoch": 10.574173369079535,
      "grad_norm": 0.33211812376976013,
      "learning_rate": 2.685695726486116e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 41199448,
      "step": 70995
    },
    {
      "epoch": 10.574918081620494,
      "grad_norm": 0.03296522796154022,
      "learning_rate": 2.6853716804086527e-05,
      "loss": 0.018,
      "num_input_tokens_seen": 41202232,
      "step": 71000
    },
    {
      "epoch": 10.575662794161454,
      "grad_norm": 0.017853179946541786,
      "learning_rate": 2.6850476311995226e-05,
      "loss": 0.21,
      "num_input_tokens_seen": 41205144,
      "step": 71005
    },
    {
      "epoch": 10.576407506702413,
      "grad_norm": 0.007444628980010748,
      "learning_rate": 2.6847235788642018e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 41208120,
      "step": 71010
    },
    {
      "epoch": 10.577152219243372,
      "grad_norm": 0.034510910511016846,
      "learning_rate": 2.6843995234081636e-05,
      "loss": 0.0841,
      "num_input_tokens_seen": 41211064,
      "step": 71015
    },
    {
      "epoch": 10.57789693178433,
      "grad_norm": 18.92940330505371,
      "learning_rate": 2.6840754648368826e-05,
      "loss": 0.0778,
      "num_input_tokens_seen": 41213912,
      "step": 71020
    },
    {
      "epoch": 10.578641644325291,
      "grad_norm": 0.08102959394454956,
      "learning_rate": 2.6837514031558347e-05,
      "loss": 0.1671,
      "num_input_tokens_seen": 41216600,
      "step": 71025
    },
    {
      "epoch": 10.57938635686625,
      "grad_norm": 0.013770622201263905,
      "learning_rate": 2.6834273383704927e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 41219672,
      "step": 71030
    },
    {
      "epoch": 10.580131069407209,
      "grad_norm": 0.05694969743490219,
      "learning_rate": 2.6831032704863324e-05,
      "loss": 0.0411,
      "num_input_tokens_seen": 41222808,
      "step": 71035
    },
    {
      "epoch": 10.580875781948167,
      "grad_norm": 0.10491369664669037,
      "learning_rate": 2.6827791995088282e-05,
      "loss": 0.0428,
      "num_input_tokens_seen": 41225720,
      "step": 71040
    },
    {
      "epoch": 10.581620494489128,
      "grad_norm": 22.914281845092773,
      "learning_rate": 2.6824551254434555e-05,
      "loss": 0.1668,
      "num_input_tokens_seen": 41228920,
      "step": 71045
    },
    {
      "epoch": 10.582365207030087,
      "grad_norm": 0.2805158793926239,
      "learning_rate": 2.6821310482956886e-05,
      "loss": 0.1186,
      "num_input_tokens_seen": 41231736,
      "step": 71050
    },
    {
      "epoch": 10.583109919571045,
      "grad_norm": 51.42167663574219,
      "learning_rate": 2.6818069680710034e-05,
      "loss": 0.0817,
      "num_input_tokens_seen": 41234648,
      "step": 71055
    },
    {
      "epoch": 10.583854632112004,
      "grad_norm": 0.31852325797080994,
      "learning_rate": 2.681482884774874e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41237400,
      "step": 71060
    },
    {
      "epoch": 10.584599344652965,
      "grad_norm": 121.92401123046875,
      "learning_rate": 2.6811587984127758e-05,
      "loss": 0.3335,
      "num_input_tokens_seen": 41240184,
      "step": 71065
    },
    {
      "epoch": 10.585344057193923,
      "grad_norm": 0.02372192032635212,
      "learning_rate": 2.680834708990183e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41243192,
      "step": 71070
    },
    {
      "epoch": 10.586088769734882,
      "grad_norm": 0.0032418600749224424,
      "learning_rate": 2.680510616512572e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41245880,
      "step": 71075
    },
    {
      "epoch": 10.586833482275841,
      "grad_norm": 0.02128303423523903,
      "learning_rate": 2.6801865209854177e-05,
      "loss": 0.1928,
      "num_input_tokens_seen": 41248728,
      "step": 71080
    },
    {
      "epoch": 10.587578194816802,
      "grad_norm": 88.19302368164062,
      "learning_rate": 2.6798624224141954e-05,
      "loss": 0.0269,
      "num_input_tokens_seen": 41251800,
      "step": 71085
    },
    {
      "epoch": 10.58832290735776,
      "grad_norm": 0.000479058624478057,
      "learning_rate": 2.6795383208043805e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41254424,
      "step": 71090
    },
    {
      "epoch": 10.589067619898719,
      "grad_norm": 0.772741973400116,
      "learning_rate": 2.679214216161448e-05,
      "loss": 0.0518,
      "num_input_tokens_seen": 41257400,
      "step": 71095
    },
    {
      "epoch": 10.589812332439678,
      "grad_norm": 0.035934656858444214,
      "learning_rate": 2.6788901084908734e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41260312,
      "step": 71100
    },
    {
      "epoch": 10.590557044980638,
      "grad_norm": 48.18683624267578,
      "learning_rate": 2.678565997798132e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 41263064,
      "step": 71105
    },
    {
      "epoch": 10.591301757521597,
      "grad_norm": 0.03559261932969093,
      "learning_rate": 2.6782418840886997e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41265816,
      "step": 71110
    },
    {
      "epoch": 10.592046470062556,
      "grad_norm": 0.18372198939323425,
      "learning_rate": 2.6779177673680516e-05,
      "loss": 0.292,
      "num_input_tokens_seen": 41268888,
      "step": 71115
    },
    {
      "epoch": 10.592791182603515,
      "grad_norm": 0.0027195655275136232,
      "learning_rate": 2.6775936476416636e-05,
      "loss": 0.0918,
      "num_input_tokens_seen": 41271736,
      "step": 71120
    },
    {
      "epoch": 10.593535895144473,
      "grad_norm": 40.24154281616211,
      "learning_rate": 2.6772695249150125e-05,
      "loss": 0.0828,
      "num_input_tokens_seen": 41274552,
      "step": 71125
    },
    {
      "epoch": 10.594280607685434,
      "grad_norm": 7.330766677856445,
      "learning_rate": 2.6769453991935717e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 41277368,
      "step": 71130
    },
    {
      "epoch": 10.595025320226393,
      "grad_norm": 0.1422334760427475,
      "learning_rate": 2.676621270482819e-05,
      "loss": 0.117,
      "num_input_tokens_seen": 41280152,
      "step": 71135
    },
    {
      "epoch": 10.595770032767351,
      "grad_norm": 0.5291927456855774,
      "learning_rate": 2.6762971387882297e-05,
      "loss": 0.2164,
      "num_input_tokens_seen": 41283000,
      "step": 71140
    },
    {
      "epoch": 10.59651474530831,
      "grad_norm": 0.002579696476459503,
      "learning_rate": 2.6759730041152787e-05,
      "loss": 0.1986,
      "num_input_tokens_seen": 41286136,
      "step": 71145
    },
    {
      "epoch": 10.59725945784927,
      "grad_norm": 0.024007026106119156,
      "learning_rate": 2.6756488664694422e-05,
      "loss": 0.2692,
      "num_input_tokens_seen": 41289176,
      "step": 71150
    },
    {
      "epoch": 10.59800417039023,
      "grad_norm": 0.19814704358577728,
      "learning_rate": 2.675324725856198e-05,
      "loss": 0.2506,
      "num_input_tokens_seen": 41291960,
      "step": 71155
    },
    {
      "epoch": 10.598748882931188,
      "grad_norm": 0.00942954607307911,
      "learning_rate": 2.6750005822810197e-05,
      "loss": 0.2008,
      "num_input_tokens_seen": 41294616,
      "step": 71160
    },
    {
      "epoch": 10.599493595472147,
      "grad_norm": 7.973058700561523,
      "learning_rate": 2.6746764357493848e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 41297528,
      "step": 71165
    },
    {
      "epoch": 10.600238308013108,
      "grad_norm": 0.02960028313100338,
      "learning_rate": 2.6743522862667687e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41300408,
      "step": 71170
    },
    {
      "epoch": 10.600983020554066,
      "grad_norm": 0.16281896829605103,
      "learning_rate": 2.6740281338386484e-05,
      "loss": 0.0688,
      "num_input_tokens_seen": 41303576,
      "step": 71175
    },
    {
      "epoch": 10.601727733095025,
      "grad_norm": 0.006213601678609848,
      "learning_rate": 2.6737039784705e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41306584,
      "step": 71180
    },
    {
      "epoch": 10.602472445635984,
      "grad_norm": 0.05090836435556412,
      "learning_rate": 2.6733798201677985e-05,
      "loss": 0.0917,
      "num_input_tokens_seen": 41309464,
      "step": 71185
    },
    {
      "epoch": 10.603217158176944,
      "grad_norm": 0.004028855357319117,
      "learning_rate": 2.6730556589360216e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 41312504,
      "step": 71190
    },
    {
      "epoch": 10.603961870717903,
      "grad_norm": 0.004386322107166052,
      "learning_rate": 2.672731494780645e-05,
      "loss": 0.1635,
      "num_input_tokens_seen": 41315384,
      "step": 71195
    },
    {
      "epoch": 10.604706583258862,
      "grad_norm": 11.550300598144531,
      "learning_rate": 2.672407327707146e-05,
      "loss": 0.0692,
      "num_input_tokens_seen": 41318360,
      "step": 71200
    },
    {
      "epoch": 10.60545129579982,
      "grad_norm": 0.08649138361215591,
      "learning_rate": 2.6720831577209997e-05,
      "loss": 0.0729,
      "num_input_tokens_seen": 41321176,
      "step": 71205
    },
    {
      "epoch": 10.606196008340781,
      "grad_norm": 73.44215393066406,
      "learning_rate": 2.6717589848276835e-05,
      "loss": 0.0352,
      "num_input_tokens_seen": 41323992,
      "step": 71210
    },
    {
      "epoch": 10.60694072088174,
      "grad_norm": 0.13625383377075195,
      "learning_rate": 2.671434809032674e-05,
      "loss": 0.0552,
      "num_input_tokens_seen": 41327096,
      "step": 71215
    },
    {
      "epoch": 10.607685433422699,
      "grad_norm": 1.3885453939437866,
      "learning_rate": 2.6711106303414478e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 41329784,
      "step": 71220
    },
    {
      "epoch": 10.608430145963657,
      "grad_norm": 3.134547233581543,
      "learning_rate": 2.6707864487594815e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 41332984,
      "step": 71225
    },
    {
      "epoch": 10.609174858504618,
      "grad_norm": 0.3094536066055298,
      "learning_rate": 2.6704622642922512e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 41335832,
      "step": 71230
    },
    {
      "epoch": 10.609919571045577,
      "grad_norm": 0.1314850151538849,
      "learning_rate": 2.6701380769452346e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41338744,
      "step": 71235
    },
    {
      "epoch": 10.610664283586535,
      "grad_norm": 0.02112443372607231,
      "learning_rate": 2.6698138867239076e-05,
      "loss": 0.0626,
      "num_input_tokens_seen": 41341560,
      "step": 71240
    },
    {
      "epoch": 10.611408996127494,
      "grad_norm": 0.004081520717591047,
      "learning_rate": 2.6694896936337477e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41345656,
      "step": 71245
    },
    {
      "epoch": 10.612153708668455,
      "grad_norm": 0.022725338116288185,
      "learning_rate": 2.6691654976802316e-05,
      "loss": 0.1495,
      "num_input_tokens_seen": 41348792,
      "step": 71250
    },
    {
      "epoch": 10.612898421209414,
      "grad_norm": 0.007469582371413708,
      "learning_rate": 2.6688412988688372e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41351448,
      "step": 71255
    },
    {
      "epoch": 10.613643133750372,
      "grad_norm": 17.55120086669922,
      "learning_rate": 2.6685170972050404e-05,
      "loss": 0.1428,
      "num_input_tokens_seen": 41354392,
      "step": 71260
    },
    {
      "epoch": 10.614387846291331,
      "grad_norm": 328.99676513671875,
      "learning_rate": 2.6681928926943183e-05,
      "loss": 0.054,
      "num_input_tokens_seen": 41357112,
      "step": 71265
    },
    {
      "epoch": 10.615132558832292,
      "grad_norm": 0.41308581829071045,
      "learning_rate": 2.667868685342148e-05,
      "loss": 0.145,
      "num_input_tokens_seen": 41360088,
      "step": 71270
    },
    {
      "epoch": 10.61587727137325,
      "grad_norm": 0.024622397497296333,
      "learning_rate": 2.6675444751540068e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 41362904,
      "step": 71275
    },
    {
      "epoch": 10.616621983914209,
      "grad_norm": 0.0002127831830875948,
      "learning_rate": 2.667220262135372e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41365688,
      "step": 71280
    },
    {
      "epoch": 10.617366696455168,
      "grad_norm": 15.060961723327637,
      "learning_rate": 2.666896046291721e-05,
      "loss": 0.2609,
      "num_input_tokens_seen": 41368664,
      "step": 71285
    },
    {
      "epoch": 10.618111408996128,
      "grad_norm": 149.14878845214844,
      "learning_rate": 2.6665718276285312e-05,
      "loss": 0.7259,
      "num_input_tokens_seen": 41371352,
      "step": 71290
    },
    {
      "epoch": 10.618856121537087,
      "grad_norm": 0.019559744745492935,
      "learning_rate": 2.66624760615128e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 41374424,
      "step": 71295
    },
    {
      "epoch": 10.619600834078046,
      "grad_norm": 0.16383253037929535,
      "learning_rate": 2.6659233818654434e-05,
      "loss": 0.0118,
      "num_input_tokens_seen": 41377944,
      "step": 71300
    },
    {
      "epoch": 10.620345546619005,
      "grad_norm": 0.0074936519376933575,
      "learning_rate": 2.6655991547765e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 41380792,
      "step": 71305
    },
    {
      "epoch": 10.621090259159963,
      "grad_norm": 73.39815521240234,
      "learning_rate": 2.6652749248899277e-05,
      "loss": 0.0658,
      "num_input_tokens_seen": 41384056,
      "step": 71310
    },
    {
      "epoch": 10.621834971700924,
      "grad_norm": 12.963085174560547,
      "learning_rate": 2.6649506922112033e-05,
      "loss": 0.2732,
      "num_input_tokens_seen": 41387256,
      "step": 71315
    },
    {
      "epoch": 10.622579684241883,
      "grad_norm": 0.20182712376117706,
      "learning_rate": 2.6646264567458052e-05,
      "loss": 0.2952,
      "num_input_tokens_seen": 41390104,
      "step": 71320
    },
    {
      "epoch": 10.623324396782841,
      "grad_norm": 0.01633128896355629,
      "learning_rate": 2.6643022184992096e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41392952,
      "step": 71325
    },
    {
      "epoch": 10.6240691093238,
      "grad_norm": 0.0185870211571455,
      "learning_rate": 2.6639779774768953e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41395416,
      "step": 71330
    },
    {
      "epoch": 10.62481382186476,
      "grad_norm": 0.05436234921216965,
      "learning_rate": 2.6636537336843396e-05,
      "loss": 0.2088,
      "num_input_tokens_seen": 41398136,
      "step": 71335
    },
    {
      "epoch": 10.62555853440572,
      "grad_norm": 0.10602069646120071,
      "learning_rate": 2.663329487127021e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 41400952,
      "step": 71340
    },
    {
      "epoch": 10.626303246946678,
      "grad_norm": 0.003564164973795414,
      "learning_rate": 2.663005237810416e-05,
      "loss": 0.0776,
      "num_input_tokens_seen": 41403736,
      "step": 71345
    },
    {
      "epoch": 10.627047959487637,
      "grad_norm": 0.022293612360954285,
      "learning_rate": 2.6626809857400033e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41406552,
      "step": 71350
    },
    {
      "epoch": 10.627792672028598,
      "grad_norm": 0.08997069299221039,
      "learning_rate": 2.662356730921261e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 41409496,
      "step": 71355
    },
    {
      "epoch": 10.628537384569556,
      "grad_norm": 176.21617126464844,
      "learning_rate": 2.6620324733596664e-05,
      "loss": 0.268,
      "num_input_tokens_seen": 41412984,
      "step": 71360
    },
    {
      "epoch": 10.629282097110515,
      "grad_norm": 0.0008508006576448679,
      "learning_rate": 2.661708213060698e-05,
      "loss": 0.0149,
      "num_input_tokens_seen": 41415960,
      "step": 71365
    },
    {
      "epoch": 10.630026809651474,
      "grad_norm": 102.247314453125,
      "learning_rate": 2.661383950029834e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 41419096,
      "step": 71370
    },
    {
      "epoch": 10.630771522192434,
      "grad_norm": 0.05123693123459816,
      "learning_rate": 2.6610596842725522e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 41421976,
      "step": 71375
    },
    {
      "epoch": 10.631516234733393,
      "grad_norm": 0.018156716600060463,
      "learning_rate": 2.66073541579433e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41424696,
      "step": 71380
    },
    {
      "epoch": 10.632260947274352,
      "grad_norm": 0.005329739768058062,
      "learning_rate": 2.6604111446006464e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 41427704,
      "step": 71385
    },
    {
      "epoch": 10.63300565981531,
      "grad_norm": 67.63237762451172,
      "learning_rate": 2.6600868706969806e-05,
      "loss": 0.1367,
      "num_input_tokens_seen": 41430552,
      "step": 71390
    },
    {
      "epoch": 10.633750372356271,
      "grad_norm": 0.0077999369241297245,
      "learning_rate": 2.6597625940888087e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 41433336,
      "step": 71395
    },
    {
      "epoch": 10.63449508489723,
      "grad_norm": 27.358232498168945,
      "learning_rate": 2.6594383147816103e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 41436024,
      "step": 71400
    },
    {
      "epoch": 10.635239797438189,
      "grad_norm": 0.6342257261276245,
      "learning_rate": 2.659114032780864e-05,
      "loss": 0.2273,
      "num_input_tokens_seen": 41439448,
      "step": 71405
    },
    {
      "epoch": 10.635984509979147,
      "grad_norm": 197.8356170654297,
      "learning_rate": 2.6587897480920478e-05,
      "loss": 0.0714,
      "num_input_tokens_seen": 41442200,
      "step": 71410
    },
    {
      "epoch": 10.636729222520108,
      "grad_norm": 0.01974889636039734,
      "learning_rate": 2.6584654607206404e-05,
      "loss": 0.2854,
      "num_input_tokens_seen": 41445112,
      "step": 71415
    },
    {
      "epoch": 10.637473935061067,
      "grad_norm": 0.8439549803733826,
      "learning_rate": 2.6581411706721194e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 41448056,
      "step": 71420
    },
    {
      "epoch": 10.638218647602026,
      "grad_norm": 0.0027114597614854574,
      "learning_rate": 2.6578168779519652e-05,
      "loss": 0.036,
      "num_input_tokens_seen": 41450808,
      "step": 71425
    },
    {
      "epoch": 10.638963360142984,
      "grad_norm": 0.07638103514909744,
      "learning_rate": 2.657492582565654e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41453528,
      "step": 71430
    },
    {
      "epoch": 10.639708072683945,
      "grad_norm": 0.001538907061330974,
      "learning_rate": 2.6571682845186662e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 41456312,
      "step": 71435
    },
    {
      "epoch": 10.640452785224904,
      "grad_norm": 0.0010412168921902776,
      "learning_rate": 2.6568439838164798e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41459320,
      "step": 71440
    },
    {
      "epoch": 10.641197497765862,
      "grad_norm": 13.716790199279785,
      "learning_rate": 2.6565196804645738e-05,
      "loss": 0.1484,
      "num_input_tokens_seen": 41462104,
      "step": 71445
    },
    {
      "epoch": 10.641942210306821,
      "grad_norm": 0.008826474659144878,
      "learning_rate": 2.6561953744684264e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41465016,
      "step": 71450
    },
    {
      "epoch": 10.64268692284778,
      "grad_norm": 0.002163113560527563,
      "learning_rate": 2.655871065833518e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41467928,
      "step": 71455
    },
    {
      "epoch": 10.64343163538874,
      "grad_norm": 0.01207080390304327,
      "learning_rate": 2.655546754565326e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 41470648,
      "step": 71460
    },
    {
      "epoch": 10.6441763479297,
      "grad_norm": 0.02190263383090496,
      "learning_rate": 2.6552224406693293e-05,
      "loss": 0.0959,
      "num_input_tokens_seen": 41473464,
      "step": 71465
    },
    {
      "epoch": 10.644921060470658,
      "grad_norm": 0.01538379117846489,
      "learning_rate": 2.6548981241510073e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41476152,
      "step": 71470
    },
    {
      "epoch": 10.645665773011618,
      "grad_norm": 0.017678555101156235,
      "learning_rate": 2.654573805015839e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 41479192,
      "step": 71475
    },
    {
      "epoch": 10.646410485552577,
      "grad_norm": 42.7049446105957,
      "learning_rate": 2.654249483269303e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 41482200,
      "step": 71480
    },
    {
      "epoch": 10.647155198093536,
      "grad_norm": 0.002632677089422941,
      "learning_rate": 2.65392515891688e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41485144,
      "step": 71485
    },
    {
      "epoch": 10.647899910634495,
      "grad_norm": 0.09613629430532455,
      "learning_rate": 2.6536008319640466e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41488056,
      "step": 71490
    },
    {
      "epoch": 10.648644623175453,
      "grad_norm": 0.00811203382909298,
      "learning_rate": 2.6532765024162837e-05,
      "loss": 0.2941,
      "num_input_tokens_seen": 41491032,
      "step": 71495
    },
    {
      "epoch": 10.649389335716414,
      "grad_norm": 0.03598508983850479,
      "learning_rate": 2.6529521702790705e-05,
      "loss": 0.1946,
      "num_input_tokens_seen": 41493720,
      "step": 71500
    },
    {
      "epoch": 10.650134048257373,
      "grad_norm": 0.05519009754061699,
      "learning_rate": 2.6526278355578848e-05,
      "loss": 0.0614,
      "num_input_tokens_seen": 41496408,
      "step": 71505
    },
    {
      "epoch": 10.650878760798332,
      "grad_norm": 0.004614634905010462,
      "learning_rate": 2.6523034982582078e-05,
      "loss": 0.1348,
      "num_input_tokens_seen": 41499512,
      "step": 71510
    },
    {
      "epoch": 10.65162347333929,
      "grad_norm": 26.656190872192383,
      "learning_rate": 2.6519791583855174e-05,
      "loss": 0.4403,
      "num_input_tokens_seen": 41502392,
      "step": 71515
    },
    {
      "epoch": 10.65236818588025,
      "grad_norm": 0.8463889360427856,
      "learning_rate": 2.6516548159452943e-05,
      "loss": 0.0869,
      "num_input_tokens_seen": 41505816,
      "step": 71520
    },
    {
      "epoch": 10.65311289842121,
      "grad_norm": 0.13545291125774384,
      "learning_rate": 2.651330470943017e-05,
      "loss": 0.0917,
      "num_input_tokens_seen": 41508728,
      "step": 71525
    },
    {
      "epoch": 10.653857610962168,
      "grad_norm": 0.008094290271401405,
      "learning_rate": 2.651006123384165e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 41511832,
      "step": 71530
    },
    {
      "epoch": 10.654602323503127,
      "grad_norm": 0.04225831851363182,
      "learning_rate": 2.6506817732742173e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41514744,
      "step": 71535
    },
    {
      "epoch": 10.655347036044088,
      "grad_norm": 45.6904296875,
      "learning_rate": 2.6503574206186553e-05,
      "loss": 0.0684,
      "num_input_tokens_seen": 41517976,
      "step": 71540
    },
    {
      "epoch": 10.656091748585046,
      "grad_norm": 1.9894267320632935,
      "learning_rate": 2.6500330654229573e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 41520856,
      "step": 71545
    },
    {
      "epoch": 10.656836461126005,
      "grad_norm": 0.04120877757668495,
      "learning_rate": 2.649708707692603e-05,
      "loss": 0.0909,
      "num_input_tokens_seen": 41523928,
      "step": 71550
    },
    {
      "epoch": 10.657581173666964,
      "grad_norm": 0.325693279504776,
      "learning_rate": 2.6493843474330727e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 41526808,
      "step": 71555
    },
    {
      "epoch": 10.658325886207924,
      "grad_norm": 0.0035697000566869974,
      "learning_rate": 2.649059984649845e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41529752,
      "step": 71560
    },
    {
      "epoch": 10.659070598748883,
      "grad_norm": 0.28429362177848816,
      "learning_rate": 2.6487356193484002e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 41532408,
      "step": 71565
    },
    {
      "epoch": 10.659815311289842,
      "grad_norm": 0.007875875569880009,
      "learning_rate": 2.6484112515342186e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 41535192,
      "step": 71570
    },
    {
      "epoch": 10.6605600238308,
      "grad_norm": 0.3377295732498169,
      "learning_rate": 2.6480868812127795e-05,
      "loss": 0.1457,
      "num_input_tokens_seen": 41538136,
      "step": 71575
    },
    {
      "epoch": 10.661304736371761,
      "grad_norm": 0.002888056915253401,
      "learning_rate": 2.6477625083895636e-05,
      "loss": 0.0092,
      "num_input_tokens_seen": 41541112,
      "step": 71580
    },
    {
      "epoch": 10.66204944891272,
      "grad_norm": 0.04672371223568916,
      "learning_rate": 2.6474381330700497e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41544344,
      "step": 71585
    },
    {
      "epoch": 10.662794161453679,
      "grad_norm": 0.0034666694700717926,
      "learning_rate": 2.6471137552597193e-05,
      "loss": 0.0365,
      "num_input_tokens_seen": 41547512,
      "step": 71590
    },
    {
      "epoch": 10.663538873994638,
      "grad_norm": 0.0019734809175133705,
      "learning_rate": 2.646789374964051e-05,
      "loss": 0.029,
      "num_input_tokens_seen": 41550616,
      "step": 71595
    },
    {
      "epoch": 10.664283586535598,
      "grad_norm": 0.0018161587649956346,
      "learning_rate": 2.6464649921885247e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41553272,
      "step": 71600
    },
    {
      "epoch": 10.665028299076557,
      "grad_norm": 0.003901117481291294,
      "learning_rate": 2.646140606938622e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 41555960,
      "step": 71605
    },
    {
      "epoch": 10.665773011617516,
      "grad_norm": 0.0691475048661232,
      "learning_rate": 2.6458162192198223e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 41559160,
      "step": 71610
    },
    {
      "epoch": 10.666517724158474,
      "grad_norm": 12.791031837463379,
      "learning_rate": 2.6454918290376053e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 41561816,
      "step": 71615
    },
    {
      "epoch": 10.667262436699435,
      "grad_norm": 182.79901123046875,
      "learning_rate": 2.645167436397452e-05,
      "loss": 0.1303,
      "num_input_tokens_seen": 41564440,
      "step": 71620
    },
    {
      "epoch": 10.668007149240394,
      "grad_norm": 0.0002000837994273752,
      "learning_rate": 2.644843041304843e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41567160,
      "step": 71625
    },
    {
      "epoch": 10.668751861781352,
      "grad_norm": 0.013618076220154762,
      "learning_rate": 2.6445186437652577e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 41569816,
      "step": 71630
    },
    {
      "epoch": 10.669496574322311,
      "grad_norm": 0.001786265172995627,
      "learning_rate": 2.644194243784176e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 41572856,
      "step": 71635
    },
    {
      "epoch": 10.67024128686327,
      "grad_norm": 0.0012342999689280987,
      "learning_rate": 2.64386984136708e-05,
      "loss": 0.3419,
      "num_input_tokens_seen": 41575768,
      "step": 71640
    },
    {
      "epoch": 10.67098599940423,
      "grad_norm": 0.0034484986681491137,
      "learning_rate": 2.6435454365194483e-05,
      "loss": 0.121,
      "num_input_tokens_seen": 41578456,
      "step": 71645
    },
    {
      "epoch": 10.67173071194519,
      "grad_norm": 0.032346297055482864,
      "learning_rate": 2.6432210292467634e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 41581272,
      "step": 71650
    },
    {
      "epoch": 10.672475424486148,
      "grad_norm": 0.06595050543546677,
      "learning_rate": 2.642896619554504e-05,
      "loss": 0.1177,
      "num_input_tokens_seen": 41584056,
      "step": 71655
    },
    {
      "epoch": 10.673220137027108,
      "grad_norm": 0.015326101332902908,
      "learning_rate": 2.6425722074481525e-05,
      "loss": 0.1882,
      "num_input_tokens_seen": 41586840,
      "step": 71660
    },
    {
      "epoch": 10.673964849568067,
      "grad_norm": 0.04290582984685898,
      "learning_rate": 2.6422477929331875e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 41589720,
      "step": 71665
    },
    {
      "epoch": 10.674709562109026,
      "grad_norm": 9.156646728515625,
      "learning_rate": 2.6419233760150907e-05,
      "loss": 0.1836,
      "num_input_tokens_seen": 41592408,
      "step": 71670
    },
    {
      "epoch": 10.675454274649985,
      "grad_norm": 0.5222742557525635,
      "learning_rate": 2.6415989566993425e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 41595064,
      "step": 71675
    },
    {
      "epoch": 10.676198987190944,
      "grad_norm": 0.02330087125301361,
      "learning_rate": 2.6412745349914242e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 41598072,
      "step": 71680
    },
    {
      "epoch": 10.676943699731904,
      "grad_norm": 0.008473746478557587,
      "learning_rate": 2.6409501108968164e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 41601336,
      "step": 71685
    },
    {
      "epoch": 10.677688412272863,
      "grad_norm": 0.0031623966060578823,
      "learning_rate": 2.6406256844209998e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41604600,
      "step": 71690
    },
    {
      "epoch": 10.678433124813822,
      "grad_norm": 0.01493716798722744,
      "learning_rate": 2.6403012555694546e-05,
      "loss": 0.1355,
      "num_input_tokens_seen": 41607320,
      "step": 71695
    },
    {
      "epoch": 10.67917783735478,
      "grad_norm": 21.850982666015625,
      "learning_rate": 2.639976824347663e-05,
      "loss": 0.1407,
      "num_input_tokens_seen": 41610328,
      "step": 71700
    },
    {
      "epoch": 10.67992254989574,
      "grad_norm": 0.015610537491738796,
      "learning_rate": 2.639652390761105e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41613112,
      "step": 71705
    },
    {
      "epoch": 10.6806672624367,
      "grad_norm": 0.9497486352920532,
      "learning_rate": 2.639327954815261e-05,
      "loss": 0.0134,
      "num_input_tokens_seen": 41616056,
      "step": 71710
    },
    {
      "epoch": 10.681411974977658,
      "grad_norm": 0.05267469212412834,
      "learning_rate": 2.6390035165156136e-05,
      "loss": 0.0175,
      "num_input_tokens_seen": 41619064,
      "step": 71715
    },
    {
      "epoch": 10.682156687518617,
      "grad_norm": 106.17481994628906,
      "learning_rate": 2.6386790758676432e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 41621752,
      "step": 71720
    },
    {
      "epoch": 10.682901400059578,
      "grad_norm": 1.0902163982391357,
      "learning_rate": 2.6383546328768305e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 41624856,
      "step": 71725
    },
    {
      "epoch": 10.683646112600536,
      "grad_norm": 0.0015400508418679237,
      "learning_rate": 2.6380301875486568e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41628088,
      "step": 71730
    },
    {
      "epoch": 10.684390825141495,
      "grad_norm": 0.3886411190032959,
      "learning_rate": 2.637705739888603e-05,
      "loss": 0.143,
      "num_input_tokens_seen": 41630808,
      "step": 71735
    },
    {
      "epoch": 10.685135537682454,
      "grad_norm": 0.0031157510820776224,
      "learning_rate": 2.6373812899021516e-05,
      "loss": 0.1817,
      "num_input_tokens_seen": 41633688,
      "step": 71740
    },
    {
      "epoch": 10.685880250223414,
      "grad_norm": 37.72098159790039,
      "learning_rate": 2.6370568375947825e-05,
      "loss": 0.1756,
      "num_input_tokens_seen": 41636376,
      "step": 71745
    },
    {
      "epoch": 10.686624962764373,
      "grad_norm": 0.008859079331159592,
      "learning_rate": 2.636732382971977e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 41638936,
      "step": 71750
    },
    {
      "epoch": 10.687369675305332,
      "grad_norm": 0.007951156236231327,
      "learning_rate": 2.6364079260392178e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 41642008,
      "step": 71755
    },
    {
      "epoch": 10.68811438784629,
      "grad_norm": 18.02983283996582,
      "learning_rate": 2.6360834668019845e-05,
      "loss": 0.242,
      "num_input_tokens_seen": 41645016,
      "step": 71760
    },
    {
      "epoch": 10.688859100387251,
      "grad_norm": 0.006303655449301004,
      "learning_rate": 2.6357590052657595e-05,
      "loss": 0.0803,
      "num_input_tokens_seen": 41648056,
      "step": 71765
    },
    {
      "epoch": 10.68960381292821,
      "grad_norm": 0.6038686633110046,
      "learning_rate": 2.6354345414360236e-05,
      "loss": 0.1045,
      "num_input_tokens_seen": 41651000,
      "step": 71770
    },
    {
      "epoch": 10.690348525469169,
      "grad_norm": 51.84527587890625,
      "learning_rate": 2.6351100753182594e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 41653624,
      "step": 71775
    },
    {
      "epoch": 10.691093238010128,
      "grad_norm": 0.020799098536372185,
      "learning_rate": 2.6347856069179483e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 41656472,
      "step": 71780
    },
    {
      "epoch": 10.691837950551088,
      "grad_norm": 0.05451105907559395,
      "learning_rate": 2.6344611362405708e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 41659160,
      "step": 71785
    },
    {
      "epoch": 10.692582663092047,
      "grad_norm": 0.04762618988752365,
      "learning_rate": 2.634136663291609e-05,
      "loss": 0.099,
      "num_input_tokens_seen": 41662232,
      "step": 71790
    },
    {
      "epoch": 10.693327375633006,
      "grad_norm": 140.8767852783203,
      "learning_rate": 2.6338121880765447e-05,
      "loss": 0.2541,
      "num_input_tokens_seen": 41665080,
      "step": 71795
    },
    {
      "epoch": 10.694072088173964,
      "grad_norm": 40.24433517456055,
      "learning_rate": 2.6334877106008594e-05,
      "loss": 0.2599,
      "num_input_tokens_seen": 41667768,
      "step": 71800
    },
    {
      "epoch": 10.694816800714925,
      "grad_norm": 0.004091888666152954,
      "learning_rate": 2.633163230870035e-05,
      "loss": 0.104,
      "num_input_tokens_seen": 41671032,
      "step": 71805
    },
    {
      "epoch": 10.695561513255884,
      "grad_norm": 2.048422336578369,
      "learning_rate": 2.632838748889553e-05,
      "loss": 0.0378,
      "num_input_tokens_seen": 41673496,
      "step": 71810
    },
    {
      "epoch": 10.696306225796842,
      "grad_norm": 0.10117034614086151,
      "learning_rate": 2.6325142646648958e-05,
      "loss": 0.0545,
      "num_input_tokens_seen": 41676280,
      "step": 71815
    },
    {
      "epoch": 10.697050938337801,
      "grad_norm": 0.8022505640983582,
      "learning_rate": 2.632189778201544e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 41679480,
      "step": 71820
    },
    {
      "epoch": 10.69779565087876,
      "grad_norm": 16.543067932128906,
      "learning_rate": 2.631865289504981e-05,
      "loss": 0.2767,
      "num_input_tokens_seen": 41682712,
      "step": 71825
    },
    {
      "epoch": 10.69854036341972,
      "grad_norm": 0.0024654832668602467,
      "learning_rate": 2.631540798580688e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41685368,
      "step": 71830
    },
    {
      "epoch": 10.69928507596068,
      "grad_norm": 0.26157331466674805,
      "learning_rate": 2.6312163054341464e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 41688408,
      "step": 71835
    },
    {
      "epoch": 10.700029788501638,
      "grad_norm": 0.010553224012255669,
      "learning_rate": 2.6308918100708386e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41691256,
      "step": 71840
    },
    {
      "epoch": 10.700774501042597,
      "grad_norm": 2.1232223510742188,
      "learning_rate": 2.6305673124962466e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 41693976,
      "step": 71845
    },
    {
      "epoch": 10.701519213583557,
      "grad_norm": 81.4754409790039,
      "learning_rate": 2.6302428127158535e-05,
      "loss": 0.301,
      "num_input_tokens_seen": 41696888,
      "step": 71850
    },
    {
      "epoch": 10.702263926124516,
      "grad_norm": 0.007500875275582075,
      "learning_rate": 2.6299183107351395e-05,
      "loss": 0.0935,
      "num_input_tokens_seen": 41699864,
      "step": 71855
    },
    {
      "epoch": 10.703008638665475,
      "grad_norm": 3.559821844100952,
      "learning_rate": 2.629593806559589e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 41702904,
      "step": 71860
    },
    {
      "epoch": 10.703753351206434,
      "grad_norm": 0.021295154467225075,
      "learning_rate": 2.629269300194681e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 41705624,
      "step": 71865
    },
    {
      "epoch": 10.704498063747394,
      "grad_norm": 0.019463593140244484,
      "learning_rate": 2.6289447916459005e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41708664,
      "step": 71870
    },
    {
      "epoch": 10.705242776288353,
      "grad_norm": 0.03236192464828491,
      "learning_rate": 2.628620280918729e-05,
      "loss": 0.1441,
      "num_input_tokens_seen": 41711512,
      "step": 71875
    },
    {
      "epoch": 10.705987488829312,
      "grad_norm": 0.0195146556943655,
      "learning_rate": 2.6282957680186476e-05,
      "loss": 0.1788,
      "num_input_tokens_seen": 41714552,
      "step": 71880
    },
    {
      "epoch": 10.70673220137027,
      "grad_norm": 0.023750122636556625,
      "learning_rate": 2.6279712529511406e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41717752,
      "step": 71885
    },
    {
      "epoch": 10.707476913911231,
      "grad_norm": 0.010388679802417755,
      "learning_rate": 2.6276467357216895e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 41721016,
      "step": 71890
    },
    {
      "epoch": 10.70822162645219,
      "grad_norm": 0.22347301244735718,
      "learning_rate": 2.627322216335776e-05,
      "loss": 0.1225,
      "num_input_tokens_seen": 41723960,
      "step": 71895
    },
    {
      "epoch": 10.708966338993148,
      "grad_norm": 22.782196044921875,
      "learning_rate": 2.6269976947988834e-05,
      "loss": 0.0292,
      "num_input_tokens_seen": 41727000,
      "step": 71900
    },
    {
      "epoch": 10.709711051534107,
      "grad_norm": 0.005586195737123489,
      "learning_rate": 2.626673171116493e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 41729784,
      "step": 71905
    },
    {
      "epoch": 10.710455764075068,
      "grad_norm": 0.004152746871113777,
      "learning_rate": 2.626348645294089e-05,
      "loss": 0.1007,
      "num_input_tokens_seen": 41732280,
      "step": 71910
    },
    {
      "epoch": 10.711200476616026,
      "grad_norm": 0.004572822246700525,
      "learning_rate": 2.6260241173371525e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 41735032,
      "step": 71915
    },
    {
      "epoch": 10.711945189156985,
      "grad_norm": 0.03266184777021408,
      "learning_rate": 2.625699587251167e-05,
      "loss": 0.058,
      "num_input_tokens_seen": 41738072,
      "step": 71920
    },
    {
      "epoch": 10.712689901697944,
      "grad_norm": 0.010192285291850567,
      "learning_rate": 2.6253750550416144e-05,
      "loss": 0.1633,
      "num_input_tokens_seen": 41740792,
      "step": 71925
    },
    {
      "epoch": 10.713434614238905,
      "grad_norm": 0.00404739286750555,
      "learning_rate": 2.6250505207139782e-05,
      "loss": 0.1903,
      "num_input_tokens_seen": 41743544,
      "step": 71930
    },
    {
      "epoch": 10.714179326779863,
      "grad_norm": 0.8862466812133789,
      "learning_rate": 2.62472598427374e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 41746456,
      "step": 71935
    },
    {
      "epoch": 10.714924039320822,
      "grad_norm": 0.0049306354485452175,
      "learning_rate": 2.624401445726383e-05,
      "loss": 0.1943,
      "num_input_tokens_seen": 41749304,
      "step": 71940
    },
    {
      "epoch": 10.71566875186178,
      "grad_norm": 0.0015651173889636993,
      "learning_rate": 2.6240769050773906e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41752088,
      "step": 71945
    },
    {
      "epoch": 10.716413464402741,
      "grad_norm": 19.467052459716797,
      "learning_rate": 2.6237523623322446e-05,
      "loss": 0.2636,
      "num_input_tokens_seen": 41754712,
      "step": 71950
    },
    {
      "epoch": 10.7171581769437,
      "grad_norm": 0.011713860556483269,
      "learning_rate": 2.6234278174964288e-05,
      "loss": 0.1025,
      "num_input_tokens_seen": 41757560,
      "step": 71955
    },
    {
      "epoch": 10.717902889484659,
      "grad_norm": 0.014679537154734135,
      "learning_rate": 2.6231032705754243e-05,
      "loss": 0.0615,
      "num_input_tokens_seen": 41760600,
      "step": 71960
    },
    {
      "epoch": 10.718647602025618,
      "grad_norm": 1.5579090118408203,
      "learning_rate": 2.6227787215747156e-05,
      "loss": 0.1328,
      "num_input_tokens_seen": 41763640,
      "step": 71965
    },
    {
      "epoch": 10.719392314566576,
      "grad_norm": 0.005274041555821896,
      "learning_rate": 2.6224541704997856e-05,
      "loss": 0.0057,
      "num_input_tokens_seen": 41766584,
      "step": 71970
    },
    {
      "epoch": 10.720137027107537,
      "grad_norm": 22.258737564086914,
      "learning_rate": 2.6221296173561166e-05,
      "loss": 0.1102,
      "num_input_tokens_seen": 41769688,
      "step": 71975
    },
    {
      "epoch": 10.720881739648496,
      "grad_norm": 0.013534634374082088,
      "learning_rate": 2.6218050621491925e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 41772632,
      "step": 71980
    },
    {
      "epoch": 10.721626452189454,
      "grad_norm": 0.1319151669740677,
      "learning_rate": 2.6214805048844947e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41775640,
      "step": 71985
    },
    {
      "epoch": 10.722371164730415,
      "grad_norm": 195.3112030029297,
      "learning_rate": 2.621155945567508e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 41778392,
      "step": 71990
    },
    {
      "epoch": 10.723115877271374,
      "grad_norm": 58.81496810913086,
      "learning_rate": 2.620831384203714e-05,
      "loss": 0.1379,
      "num_input_tokens_seen": 41781176,
      "step": 71995
    },
    {
      "epoch": 10.723860589812332,
      "grad_norm": 28.52165412902832,
      "learning_rate": 2.6205068207985965e-05,
      "loss": 0.561,
      "num_input_tokens_seen": 41783960,
      "step": 72000
    },
    {
      "epoch": 10.724605302353291,
      "grad_norm": 0.008575241081416607,
      "learning_rate": 2.6201822553576394e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 41787224,
      "step": 72005
    },
    {
      "epoch": 10.72535001489425,
      "grad_norm": 0.013252545148134232,
      "learning_rate": 2.619857687886325e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41789944,
      "step": 72010
    },
    {
      "epoch": 10.72609472743521,
      "grad_norm": 0.6337534189224243,
      "learning_rate": 2.6195331183901374e-05,
      "loss": 0.1327,
      "num_input_tokens_seen": 41792824,
      "step": 72015
    },
    {
      "epoch": 10.72683943997617,
      "grad_norm": 38.115447998046875,
      "learning_rate": 2.6192085468745585e-05,
      "loss": 0.1129,
      "num_input_tokens_seen": 41795544,
      "step": 72020
    },
    {
      "epoch": 10.727584152517128,
      "grad_norm": 0.015004108659923077,
      "learning_rate": 2.6188839733450727e-05,
      "loss": 0.3552,
      "num_input_tokens_seen": 41798392,
      "step": 72025
    },
    {
      "epoch": 10.728328865058087,
      "grad_norm": 0.007902445271611214,
      "learning_rate": 2.6185593978071627e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41801336,
      "step": 72030
    },
    {
      "epoch": 10.729073577599047,
      "grad_norm": 0.0037259510718286037,
      "learning_rate": 2.6182348202663122e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 41804120,
      "step": 72035
    },
    {
      "epoch": 10.729818290140006,
      "grad_norm": 0.011372935958206654,
      "learning_rate": 2.617910240728004e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41807224,
      "step": 72040
    },
    {
      "epoch": 10.730563002680965,
      "grad_norm": 28.814144134521484,
      "learning_rate": 2.6175856591977226e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 41810168,
      "step": 72045
    },
    {
      "epoch": 10.731307715221924,
      "grad_norm": 0.008242285810410976,
      "learning_rate": 2.6172610756809517e-05,
      "loss": 0.1162,
      "num_input_tokens_seen": 41812952,
      "step": 72050
    },
    {
      "epoch": 10.732052427762884,
      "grad_norm": 0.033610641956329346,
      "learning_rate": 2.6169364901831732e-05,
      "loss": 0.154,
      "num_input_tokens_seen": 41815704,
      "step": 72055
    },
    {
      "epoch": 10.732797140303843,
      "grad_norm": 0.006770764477550983,
      "learning_rate": 2.6166119027098724e-05,
      "loss": 0.0481,
      "num_input_tokens_seen": 41818808,
      "step": 72060
    },
    {
      "epoch": 10.733541852844802,
      "grad_norm": 14.780252456665039,
      "learning_rate": 2.6162873132665315e-05,
      "loss": 0.1787,
      "num_input_tokens_seen": 41821432,
      "step": 72065
    },
    {
      "epoch": 10.73428656538576,
      "grad_norm": 0.010560233145952225,
      "learning_rate": 2.6159627218586345e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41824280,
      "step": 72070
    },
    {
      "epoch": 10.735031277926721,
      "grad_norm": 0.18758288025856018,
      "learning_rate": 2.6156381284916653e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41826840,
      "step": 72075
    },
    {
      "epoch": 10.73577599046768,
      "grad_norm": 23.967975616455078,
      "learning_rate": 2.615313533171107e-05,
      "loss": 0.4037,
      "num_input_tokens_seen": 41829912,
      "step": 72080
    },
    {
      "epoch": 10.736520703008638,
      "grad_norm": 256.7347717285156,
      "learning_rate": 2.6149889359024447e-05,
      "loss": 0.1017,
      "num_input_tokens_seen": 41833080,
      "step": 72085
    },
    {
      "epoch": 10.737265415549597,
      "grad_norm": 0.20123617351055145,
      "learning_rate": 2.6146643366911612e-05,
      "loss": 0.0442,
      "num_input_tokens_seen": 41836152,
      "step": 72090
    },
    {
      "epoch": 10.738010128090558,
      "grad_norm": 0.21112582087516785,
      "learning_rate": 2.614339735542739e-05,
      "loss": 0.1601,
      "num_input_tokens_seen": 41839160,
      "step": 72095
    },
    {
      "epoch": 10.738754840631517,
      "grad_norm": 0.027904922142624855,
      "learning_rate": 2.6140151324626644e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 41842264,
      "step": 72100
    },
    {
      "epoch": 10.739499553172475,
      "grad_norm": 0.010274641215801239,
      "learning_rate": 2.61369052745642e-05,
      "loss": 0.1441,
      "num_input_tokens_seen": 41844984,
      "step": 72105
    },
    {
      "epoch": 10.740244265713434,
      "grad_norm": 0.01803533174097538,
      "learning_rate": 2.6133659205294892e-05,
      "loss": 0.1668,
      "num_input_tokens_seen": 41847800,
      "step": 72110
    },
    {
      "epoch": 10.740988978254395,
      "grad_norm": 0.021542714908719063,
      "learning_rate": 2.6130413116873557e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 41850616,
      "step": 72115
    },
    {
      "epoch": 10.741733690795353,
      "grad_norm": 102.14295959472656,
      "learning_rate": 2.6127167009355058e-05,
      "loss": 0.1461,
      "num_input_tokens_seen": 41853624,
      "step": 72120
    },
    {
      "epoch": 10.742478403336312,
      "grad_norm": 0.14189477264881134,
      "learning_rate": 2.6123920882794208e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 41856536,
      "step": 72125
    },
    {
      "epoch": 10.74322311587727,
      "grad_norm": 0.01139997597783804,
      "learning_rate": 2.6120674737245854e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 41859256,
      "step": 72130
    },
    {
      "epoch": 10.743967828418231,
      "grad_norm": 0.06627033650875092,
      "learning_rate": 2.611742857276484e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 41861816,
      "step": 72135
    },
    {
      "epoch": 10.74471254095919,
      "grad_norm": 0.028399618342518806,
      "learning_rate": 2.6114182389406012e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41864344,
      "step": 72140
    },
    {
      "epoch": 10.745457253500149,
      "grad_norm": 0.1524636298418045,
      "learning_rate": 2.6110936187224205e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 41867096,
      "step": 72145
    },
    {
      "epoch": 10.746201966041108,
      "grad_norm": 0.08639148622751236,
      "learning_rate": 2.610768996627426e-05,
      "loss": 0.1356,
      "num_input_tokens_seen": 41869816,
      "step": 72150
    },
    {
      "epoch": 10.746946678582066,
      "grad_norm": 2.6300432682037354,
      "learning_rate": 2.6104443726611016e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 41872504,
      "step": 72155
    },
    {
      "epoch": 10.747691391123027,
      "grad_norm": 0.042298853397369385,
      "learning_rate": 2.610119746828932e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 41875480,
      "step": 72160
    },
    {
      "epoch": 10.748436103663986,
      "grad_norm": 0.012569262646138668,
      "learning_rate": 2.6097951191364007e-05,
      "loss": 0.0905,
      "num_input_tokens_seen": 41878264,
      "step": 72165
    },
    {
      "epoch": 10.749180816204944,
      "grad_norm": 0.026529354974627495,
      "learning_rate": 2.6094704895889927e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41880984,
      "step": 72170
    },
    {
      "epoch": 10.749925528745905,
      "grad_norm": 102.3325424194336,
      "learning_rate": 2.609145858192192e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 41884216,
      "step": 72175
    },
    {
      "epoch": 10.750670241286864,
      "grad_norm": 3.1973795890808105,
      "learning_rate": 2.608821224951483e-05,
      "loss": 0.0142,
      "num_input_tokens_seen": 41886936,
      "step": 72180
    },
    {
      "epoch": 10.751414953827823,
      "grad_norm": 0.005588632542639971,
      "learning_rate": 2.608496589872351e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 41889688,
      "step": 72185
    },
    {
      "epoch": 10.752159666368781,
      "grad_norm": 0.010537332855165005,
      "learning_rate": 2.6081719529602776e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41892504,
      "step": 72190
    },
    {
      "epoch": 10.75290437890974,
      "grad_norm": 0.01784083992242813,
      "learning_rate": 2.6078473142207498e-05,
      "loss": 0.0547,
      "num_input_tokens_seen": 41895320,
      "step": 72195
    },
    {
      "epoch": 10.7536490914507,
      "grad_norm": 0.014659518375992775,
      "learning_rate": 2.607522673659251e-05,
      "loss": 0.0541,
      "num_input_tokens_seen": 41897944,
      "step": 72200
    },
    {
      "epoch": 10.75439380399166,
      "grad_norm": 0.0011510017793625593,
      "learning_rate": 2.6071980312812665e-05,
      "loss": 0.0382,
      "num_input_tokens_seen": 41901048,
      "step": 72205
    },
    {
      "epoch": 10.755138516532618,
      "grad_norm": 0.026343276724219322,
      "learning_rate": 2.6068733870922797e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 41903864,
      "step": 72210
    },
    {
      "epoch": 10.755883229073577,
      "grad_norm": 0.0012099232990294695,
      "learning_rate": 2.606548741097776e-05,
      "loss": 0.0929,
      "num_input_tokens_seen": 41906936,
      "step": 72215
    },
    {
      "epoch": 10.756627941614537,
      "grad_norm": 1.2377278804779053,
      "learning_rate": 2.6062240933032394e-05,
      "loss": 0.027,
      "num_input_tokens_seen": 41909784,
      "step": 72220
    },
    {
      "epoch": 10.757372654155496,
      "grad_norm": 44.25941467285156,
      "learning_rate": 2.6058994437141554e-05,
      "loss": 0.3224,
      "num_input_tokens_seen": 41912760,
      "step": 72225
    },
    {
      "epoch": 10.758117366696455,
      "grad_norm": 21.013751983642578,
      "learning_rate": 2.605574792336007e-05,
      "loss": 0.1534,
      "num_input_tokens_seen": 41915544,
      "step": 72230
    },
    {
      "epoch": 10.758862079237414,
      "grad_norm": 0.004497615620493889,
      "learning_rate": 2.6052501391742802e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 41918552,
      "step": 72235
    },
    {
      "epoch": 10.759606791778374,
      "grad_norm": 0.0012571371626108885,
      "learning_rate": 2.604925484234459e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 41921304,
      "step": 72240
    },
    {
      "epoch": 10.760351504319333,
      "grad_norm": 27.822904586791992,
      "learning_rate": 2.6046008275220286e-05,
      "loss": 0.1913,
      "num_input_tokens_seen": 41924056,
      "step": 72245
    },
    {
      "epoch": 10.761096216860292,
      "grad_norm": 17.01373863220215,
      "learning_rate": 2.604276169042473e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 41927000,
      "step": 72250
    },
    {
      "epoch": 10.76184092940125,
      "grad_norm": 0.06631916016340256,
      "learning_rate": 2.6039515088012783e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 41930232,
      "step": 72255
    },
    {
      "epoch": 10.762585641942211,
      "grad_norm": 0.007988342083990574,
      "learning_rate": 2.6036268468039282e-05,
      "loss": 0.4369,
      "num_input_tokens_seen": 41933048,
      "step": 72260
    },
    {
      "epoch": 10.76333035448317,
      "grad_norm": 92.35323333740234,
      "learning_rate": 2.603302183055908e-05,
      "loss": 0.1116,
      "num_input_tokens_seen": 41936184,
      "step": 72265
    },
    {
      "epoch": 10.764075067024129,
      "grad_norm": 3.636183977127075,
      "learning_rate": 2.6029775175627024e-05,
      "loss": 0.0594,
      "num_input_tokens_seen": 41939192,
      "step": 72270
    },
    {
      "epoch": 10.764819779565087,
      "grad_norm": 0.1686364710330963,
      "learning_rate": 2.602652850329796e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 41941912,
      "step": 72275
    },
    {
      "epoch": 10.765564492106048,
      "grad_norm": 2.9463226795196533,
      "learning_rate": 2.6023281813626737e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 41944824,
      "step": 72280
    },
    {
      "epoch": 10.766309204647007,
      "grad_norm": 0.016252143308520317,
      "learning_rate": 2.602003510666822e-05,
      "loss": 0.3282,
      "num_input_tokens_seen": 41947320,
      "step": 72285
    },
    {
      "epoch": 10.767053917187965,
      "grad_norm": 0.23473931849002838,
      "learning_rate": 2.6016788382477238e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 41950424,
      "step": 72290
    },
    {
      "epoch": 10.767798629728924,
      "grad_norm": 0.24350567162036896,
      "learning_rate": 2.6013541641108646e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 41953304,
      "step": 72295
    },
    {
      "epoch": 10.768543342269885,
      "grad_norm": 0.12316194921731949,
      "learning_rate": 2.6010294882617304e-05,
      "loss": 0.263,
      "num_input_tokens_seen": 41956408,
      "step": 72300
    },
    {
      "epoch": 10.769288054810843,
      "grad_norm": 14.306937217712402,
      "learning_rate": 2.6007048107058058e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 41959160,
      "step": 72305
    },
    {
      "epoch": 10.770032767351802,
      "grad_norm": 0.14998020231723785,
      "learning_rate": 2.6003801314485755e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 41961880,
      "step": 72310
    },
    {
      "epoch": 10.770777479892761,
      "grad_norm": 0.03383322060108185,
      "learning_rate": 2.600055450495525e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 41965048,
      "step": 72315
    },
    {
      "epoch": 10.771522192433721,
      "grad_norm": 0.020285729318857193,
      "learning_rate": 2.5997307678521392e-05,
      "loss": 0.0837,
      "num_input_tokens_seen": 41968184,
      "step": 72320
    },
    {
      "epoch": 10.77226690497468,
      "grad_norm": 0.0093765240162611,
      "learning_rate": 2.5994060835239036e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 41970776,
      "step": 72325
    },
    {
      "epoch": 10.773011617515639,
      "grad_norm": 3.3428056240081787,
      "learning_rate": 2.5990813975163032e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 41973656,
      "step": 72330
    },
    {
      "epoch": 10.773756330056598,
      "grad_norm": 29.712417602539062,
      "learning_rate": 2.598756709834823e-05,
      "loss": 0.618,
      "num_input_tokens_seen": 41976440,
      "step": 72335
    },
    {
      "epoch": 10.774501042597556,
      "grad_norm": 0.06910911202430725,
      "learning_rate": 2.598432020484949e-05,
      "loss": 0.1127,
      "num_input_tokens_seen": 41979480,
      "step": 72340
    },
    {
      "epoch": 10.775245755138517,
      "grad_norm": 0.011163988150656223,
      "learning_rate": 2.598107329472166e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 41982232,
      "step": 72345
    },
    {
      "epoch": 10.775990467679476,
      "grad_norm": 0.20155762135982513,
      "learning_rate": 2.5977826368019598e-05,
      "loss": 0.0435,
      "num_input_tokens_seen": 41985144,
      "step": 72350
    },
    {
      "epoch": 10.776735180220435,
      "grad_norm": 0.08501197397708893,
      "learning_rate": 2.5974579424798146e-05,
      "loss": 0.063,
      "num_input_tokens_seen": 41988216,
      "step": 72355
    },
    {
      "epoch": 10.777479892761393,
      "grad_norm": 67.96829223632812,
      "learning_rate": 2.5971332465112165e-05,
      "loss": 0.0825,
      "num_input_tokens_seen": 41991000,
      "step": 72360
    },
    {
      "epoch": 10.778224605302354,
      "grad_norm": 0.09390609711408615,
      "learning_rate": 2.5968085489016507e-05,
      "loss": 0.347,
      "num_input_tokens_seen": 41993848,
      "step": 72365
    },
    {
      "epoch": 10.778969317843313,
      "grad_norm": 9.1860990524292,
      "learning_rate": 2.5964838496566035e-05,
      "loss": 0.301,
      "num_input_tokens_seen": 41996760,
      "step": 72370
    },
    {
      "epoch": 10.779714030384271,
      "grad_norm": 0.031693920493125916,
      "learning_rate": 2.596159148781559e-05,
      "loss": 0.015,
      "num_input_tokens_seen": 41999704,
      "step": 72375
    },
    {
      "epoch": 10.78045874292523,
      "grad_norm": 0.14925459027290344,
      "learning_rate": 2.5958344462820045e-05,
      "loss": 0.2479,
      "num_input_tokens_seen": 42002584,
      "step": 72380
    },
    {
      "epoch": 10.78120345546619,
      "grad_norm": 0.05113804340362549,
      "learning_rate": 2.5955097421634244e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 42005368,
      "step": 72385
    },
    {
      "epoch": 10.78194816800715,
      "grad_norm": 0.04231226444244385,
      "learning_rate": 2.5951850364313036e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 42008344,
      "step": 72390
    },
    {
      "epoch": 10.782692880548108,
      "grad_norm": 0.2649596333503723,
      "learning_rate": 2.5948603290911283e-05,
      "loss": 0.2545,
      "num_input_tokens_seen": 42011320,
      "step": 72395
    },
    {
      "epoch": 10.783437593089067,
      "grad_norm": 156.5290069580078,
      "learning_rate": 2.594535620148384e-05,
      "loss": 0.0335,
      "num_input_tokens_seen": 42014680,
      "step": 72400
    },
    {
      "epoch": 10.784182305630027,
      "grad_norm": 0.02208411693572998,
      "learning_rate": 2.5942109096085566e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42017688,
      "step": 72405
    },
    {
      "epoch": 10.784927018170986,
      "grad_norm": 24.39845085144043,
      "learning_rate": 2.5938861974771316e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 42020472,
      "step": 72410
    },
    {
      "epoch": 10.785671730711945,
      "grad_norm": 59.97167205810547,
      "learning_rate": 2.5935614837595958e-05,
      "loss": 0.0855,
      "num_input_tokens_seen": 42023288,
      "step": 72415
    },
    {
      "epoch": 10.786416443252904,
      "grad_norm": 328.1727600097656,
      "learning_rate": 2.5932367684614328e-05,
      "loss": 0.086,
      "num_input_tokens_seen": 42026072,
      "step": 72420
    },
    {
      "epoch": 10.787161155793864,
      "grad_norm": 0.01759401336312294,
      "learning_rate": 2.59291205158813e-05,
      "loss": 0.1065,
      "num_input_tokens_seen": 42029048,
      "step": 72425
    },
    {
      "epoch": 10.787905868334823,
      "grad_norm": 18.703359603881836,
      "learning_rate": 2.5925873331451715e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 42031992,
      "step": 72430
    },
    {
      "epoch": 10.788650580875782,
      "grad_norm": 0.005937016569077969,
      "learning_rate": 2.5922626131380444e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 42035320,
      "step": 72435
    },
    {
      "epoch": 10.78939529341674,
      "grad_norm": 0.04126441851258278,
      "learning_rate": 2.5919378915722347e-05,
      "loss": 0.1755,
      "num_input_tokens_seen": 42038200,
      "step": 72440
    },
    {
      "epoch": 10.790140005957701,
      "grad_norm": 0.0748147964477539,
      "learning_rate": 2.5916131684532274e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 42041080,
      "step": 72445
    },
    {
      "epoch": 10.79088471849866,
      "grad_norm": 63.87059783935547,
      "learning_rate": 2.5912884437865093e-05,
      "loss": 0.1491,
      "num_input_tokens_seen": 42043992,
      "step": 72450
    },
    {
      "epoch": 10.791629431039619,
      "grad_norm": 0.003975964616984129,
      "learning_rate": 2.5909637175775652e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 42047224,
      "step": 72455
    },
    {
      "epoch": 10.792374143580577,
      "grad_norm": 3.9210472106933594,
      "learning_rate": 2.5906389898318817e-05,
      "loss": 0.2536,
      "num_input_tokens_seen": 42050008,
      "step": 72460
    },
    {
      "epoch": 10.793118856121538,
      "grad_norm": 5.530948638916016,
      "learning_rate": 2.5903142605549445e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 42052920,
      "step": 72465
    },
    {
      "epoch": 10.793863568662497,
      "grad_norm": 0.027149135246872902,
      "learning_rate": 2.58998952975224e-05,
      "loss": 0.1509,
      "num_input_tokens_seen": 42055480,
      "step": 72470
    },
    {
      "epoch": 10.794608281203455,
      "grad_norm": 0.017319293692708015,
      "learning_rate": 2.5896647974292533e-05,
      "loss": 0.1573,
      "num_input_tokens_seen": 42058488,
      "step": 72475
    },
    {
      "epoch": 10.795352993744414,
      "grad_norm": 0.0069487025029957294,
      "learning_rate": 2.589340063591471e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42061592,
      "step": 72480
    },
    {
      "epoch": 10.796097706285373,
      "grad_norm": 67.28902435302734,
      "learning_rate": 2.5890153282443797e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 42064376,
      "step": 72485
    },
    {
      "epoch": 10.796842418826333,
      "grad_norm": 2.4389114379882812,
      "learning_rate": 2.5886905913934643e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 42067448,
      "step": 72490
    },
    {
      "epoch": 10.797587131367292,
      "grad_norm": 80.94261932373047,
      "learning_rate": 2.5883658530442117e-05,
      "loss": 0.2961,
      "num_input_tokens_seen": 42070584,
      "step": 72495
    },
    {
      "epoch": 10.798331843908251,
      "grad_norm": 71.54269409179688,
      "learning_rate": 2.5880411132021083e-05,
      "loss": 0.1197,
      "num_input_tokens_seen": 42073336,
      "step": 72500
    },
    {
      "epoch": 10.799076556449211,
      "grad_norm": 0.014870168641209602,
      "learning_rate": 2.5877163718726394e-05,
      "loss": 0.1104,
      "num_input_tokens_seen": 42076312,
      "step": 72505
    },
    {
      "epoch": 10.79982126899017,
      "grad_norm": 0.011768490076065063,
      "learning_rate": 2.5873916290612915e-05,
      "loss": 0.3197,
      "num_input_tokens_seen": 42079032,
      "step": 72510
    },
    {
      "epoch": 10.800565981531129,
      "grad_norm": 0.012588324956595898,
      "learning_rate": 2.5870668847735512e-05,
      "loss": 0.1321,
      "num_input_tokens_seen": 42081848,
      "step": 72515
    },
    {
      "epoch": 10.801310694072088,
      "grad_norm": 0.005885228980332613,
      "learning_rate": 2.5867421390149037e-05,
      "loss": 0.2818,
      "num_input_tokens_seen": 42084920,
      "step": 72520
    },
    {
      "epoch": 10.802055406613047,
      "grad_norm": 5.924829483032227,
      "learning_rate": 2.5864173917908363e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 42087736,
      "step": 72525
    },
    {
      "epoch": 10.802800119154007,
      "grad_norm": 0.015003379434347153,
      "learning_rate": 2.5860926431068344e-05,
      "loss": 0.0496,
      "num_input_tokens_seen": 42090424,
      "step": 72530
    },
    {
      "epoch": 10.803544831694966,
      "grad_norm": 0.06500168889760971,
      "learning_rate": 2.5857678929683855e-05,
      "loss": 0.161,
      "num_input_tokens_seen": 42093336,
      "step": 72535
    },
    {
      "epoch": 10.804289544235925,
      "grad_norm": 0.010270721279084682,
      "learning_rate": 2.585443141380975e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 42096696,
      "step": 72540
    },
    {
      "epoch": 10.805034256776883,
      "grad_norm": 329.2511291503906,
      "learning_rate": 2.5851183883500895e-05,
      "loss": 0.0673,
      "num_input_tokens_seen": 42099512,
      "step": 72545
    },
    {
      "epoch": 10.805778969317844,
      "grad_norm": 0.002257100772112608,
      "learning_rate": 2.5847936338812158e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 42102392,
      "step": 72550
    },
    {
      "epoch": 10.806523681858803,
      "grad_norm": 0.01284467987716198,
      "learning_rate": 2.5844688779798393e-05,
      "loss": 0.1972,
      "num_input_tokens_seen": 42105112,
      "step": 72555
    },
    {
      "epoch": 10.807268394399761,
      "grad_norm": 56.302547454833984,
      "learning_rate": 2.5841441206514468e-05,
      "loss": 0.033,
      "num_input_tokens_seen": 42107800,
      "step": 72560
    },
    {
      "epoch": 10.80801310694072,
      "grad_norm": 0.003852325724437833,
      "learning_rate": 2.583819361901525e-05,
      "loss": 0.1704,
      "num_input_tokens_seen": 42110616,
      "step": 72565
    },
    {
      "epoch": 10.80875781948168,
      "grad_norm": 0.003927500918507576,
      "learning_rate": 2.5834946017355598e-05,
      "loss": 0.0884,
      "num_input_tokens_seen": 42113432,
      "step": 72570
    },
    {
      "epoch": 10.80950253202264,
      "grad_norm": 0.10346975922584534,
      "learning_rate": 2.583169840159039e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 42116248,
      "step": 72575
    },
    {
      "epoch": 10.810247244563598,
      "grad_norm": 0.06659117341041565,
      "learning_rate": 2.582845077177448e-05,
      "loss": 0.1509,
      "num_input_tokens_seen": 42119288,
      "step": 72580
    },
    {
      "epoch": 10.810991957104557,
      "grad_norm": 0.01641879417002201,
      "learning_rate": 2.5825203127962737e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42122296,
      "step": 72585
    },
    {
      "epoch": 10.811736669645517,
      "grad_norm": 0.0039543891325592995,
      "learning_rate": 2.582195547021003e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42124984,
      "step": 72590
    },
    {
      "epoch": 10.812481382186476,
      "grad_norm": 0.09891451895236969,
      "learning_rate": 2.581870779857121e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 42127800,
      "step": 72595
    },
    {
      "epoch": 10.813226094727435,
      "grad_norm": 0.04355510324239731,
      "learning_rate": 2.581546011310116e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 42130648,
      "step": 72600
    },
    {
      "epoch": 10.813970807268394,
      "grad_norm": 0.019989410415291786,
      "learning_rate": 2.5812212413854738e-05,
      "loss": 0.2203,
      "num_input_tokens_seen": 42133496,
      "step": 72605
    },
    {
      "epoch": 10.814715519809354,
      "grad_norm": 0.18245479464530945,
      "learning_rate": 2.5808964700886812e-05,
      "loss": 0.0358,
      "num_input_tokens_seen": 42136312,
      "step": 72610
    },
    {
      "epoch": 10.815460232350313,
      "grad_norm": 13.153298377990723,
      "learning_rate": 2.5805716974252257e-05,
      "loss": 0.1387,
      "num_input_tokens_seen": 42139416,
      "step": 72615
    },
    {
      "epoch": 10.816204944891272,
      "grad_norm": 3.2146570682525635,
      "learning_rate": 2.5802469234005927e-05,
      "loss": 0.182,
      "num_input_tokens_seen": 42142712,
      "step": 72620
    },
    {
      "epoch": 10.81694965743223,
      "grad_norm": 0.008841532282531261,
      "learning_rate": 2.57992214802027e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 42145528,
      "step": 72625
    },
    {
      "epoch": 10.817694369973191,
      "grad_norm": 0.007915559224784374,
      "learning_rate": 2.579597371289743e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 42148664,
      "step": 72630
    },
    {
      "epoch": 10.81843908251415,
      "grad_norm": 0.010749208740890026,
      "learning_rate": 2.5792725932144996e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42151800,
      "step": 72635
    },
    {
      "epoch": 10.819183795055109,
      "grad_norm": 0.04234180599451065,
      "learning_rate": 2.5789478138000262e-05,
      "loss": 0.0959,
      "num_input_tokens_seen": 42154904,
      "step": 72640
    },
    {
      "epoch": 10.819928507596067,
      "grad_norm": 26.818500518798828,
      "learning_rate": 2.5786230330518096e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 42157592,
      "step": 72645
    },
    {
      "epoch": 10.820673220137028,
      "grad_norm": 0.013360880315303802,
      "learning_rate": 2.5782982509753377e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42160152,
      "step": 72650
    },
    {
      "epoch": 10.821417932677987,
      "grad_norm": 0.007298389449715614,
      "learning_rate": 2.5779734675760957e-05,
      "loss": 0.1009,
      "num_input_tokens_seen": 42163192,
      "step": 72655
    },
    {
      "epoch": 10.822162645218945,
      "grad_norm": 0.01922568306326866,
      "learning_rate": 2.5776486828595715e-05,
      "loss": 0.1115,
      "num_input_tokens_seen": 42166072,
      "step": 72660
    },
    {
      "epoch": 10.822907357759904,
      "grad_norm": 36.30540466308594,
      "learning_rate": 2.5773238968312514e-05,
      "loss": 0.2808,
      "num_input_tokens_seen": 42169208,
      "step": 72665
    },
    {
      "epoch": 10.823652070300863,
      "grad_norm": 0.5288331508636475,
      "learning_rate": 2.5769991094966228e-05,
      "loss": 0.3189,
      "num_input_tokens_seen": 42172216,
      "step": 72670
    },
    {
      "epoch": 10.824396782841823,
      "grad_norm": 0.004123488906770945,
      "learning_rate": 2.5766743208611726e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42175192,
      "step": 72675
    },
    {
      "epoch": 10.825141495382782,
      "grad_norm": 0.016524823382496834,
      "learning_rate": 2.576349530930388e-05,
      "loss": 0.1281,
      "num_input_tokens_seen": 42178040,
      "step": 72680
    },
    {
      "epoch": 10.825886207923741,
      "grad_norm": 0.06763263046741486,
      "learning_rate": 2.5760247397097553e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 42180600,
      "step": 72685
    },
    {
      "epoch": 10.826630920464702,
      "grad_norm": 1.3643673658370972,
      "learning_rate": 2.5756999472047617e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 42183192,
      "step": 72690
    },
    {
      "epoch": 10.82737563300566,
      "grad_norm": 1.558100700378418,
      "learning_rate": 2.575375153420894e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 42186328,
      "step": 72695
    },
    {
      "epoch": 10.828120345546619,
      "grad_norm": 19.684398651123047,
      "learning_rate": 2.5750503583636402e-05,
      "loss": 0.142,
      "num_input_tokens_seen": 42189208,
      "step": 72700
    },
    {
      "epoch": 10.828865058087578,
      "grad_norm": 0.013645594008266926,
      "learning_rate": 2.5747255620384868e-05,
      "loss": 0.2161,
      "num_input_tokens_seen": 42192280,
      "step": 72705
    },
    {
      "epoch": 10.829609770628537,
      "grad_norm": 253.853271484375,
      "learning_rate": 2.5744007644509215e-05,
      "loss": 0.062,
      "num_input_tokens_seen": 42195576,
      "step": 72710
    },
    {
      "epoch": 10.830354483169497,
      "grad_norm": 19.669483184814453,
      "learning_rate": 2.574075965606431e-05,
      "loss": 0.0893,
      "num_input_tokens_seen": 42198392,
      "step": 72715
    },
    {
      "epoch": 10.831099195710456,
      "grad_norm": 0.005335880909115076,
      "learning_rate": 2.5737511655105018e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 42201400,
      "step": 72720
    },
    {
      "epoch": 10.831843908251415,
      "grad_norm": 0.020042967051267624,
      "learning_rate": 2.573426364168622e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 42204280,
      "step": 72725
    },
    {
      "epoch": 10.832588620792373,
      "grad_norm": 0.2036110907793045,
      "learning_rate": 2.5731015615862774e-05,
      "loss": 0.1189,
      "num_input_tokens_seen": 42207032,
      "step": 72730
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.009793882258236408,
      "learning_rate": 2.572776757768957e-05,
      "loss": 0.0522,
      "num_input_tokens_seen": 42209752,
      "step": 72735
    },
    {
      "epoch": 10.834078045874293,
      "grad_norm": 2.807724714279175,
      "learning_rate": 2.5724519527221468e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 42212568,
      "step": 72740
    },
    {
      "epoch": 10.834822758415251,
      "grad_norm": 0.0075226123444736,
      "learning_rate": 2.5721271464513354e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 42215640,
      "step": 72745
    },
    {
      "epoch": 10.83556747095621,
      "grad_norm": 2.3724937438964844,
      "learning_rate": 2.571802338962009e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 42218712,
      "step": 72750
    },
    {
      "epoch": 10.83631218349717,
      "grad_norm": 0.17271874845027924,
      "learning_rate": 2.5714775302596545e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 42221752,
      "step": 72755
    },
    {
      "epoch": 10.83705689603813,
      "grad_norm": 0.06267144531011581,
      "learning_rate": 2.57115272034976e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42224440,
      "step": 72760
    },
    {
      "epoch": 10.837801608579088,
      "grad_norm": 0.03615542873740196,
      "learning_rate": 2.5708279092378123e-05,
      "loss": 0.2521,
      "num_input_tokens_seen": 42227640,
      "step": 72765
    },
    {
      "epoch": 10.838546321120047,
      "grad_norm": 0.03490927815437317,
      "learning_rate": 2.5705030969292992e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 42230424,
      "step": 72770
    },
    {
      "epoch": 10.839291033661008,
      "grad_norm": 7.919796943664551,
      "learning_rate": 2.5701782834297078e-05,
      "loss": 0.0786,
      "num_input_tokens_seen": 42233240,
      "step": 72775
    },
    {
      "epoch": 10.840035746201966,
      "grad_norm": 0.046733688563108444,
      "learning_rate": 2.5698534687445263e-05,
      "loss": 0.0227,
      "num_input_tokens_seen": 42236248,
      "step": 72780
    },
    {
      "epoch": 10.840780458742925,
      "grad_norm": 0.02854200266301632,
      "learning_rate": 2.5695286528792413e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 42239288,
      "step": 72785
    },
    {
      "epoch": 10.841525171283884,
      "grad_norm": 25.324811935424805,
      "learning_rate": 2.56920383583934e-05,
      "loss": 0.0859,
      "num_input_tokens_seen": 42242008,
      "step": 72790
    },
    {
      "epoch": 10.842269883824844,
      "grad_norm": 0.0007349032675847411,
      "learning_rate": 2.56887901763031e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42244792,
      "step": 72795
    },
    {
      "epoch": 10.843014596365803,
      "grad_norm": 0.013189233839511871,
      "learning_rate": 2.5685541982576395e-05,
      "loss": 0.021,
      "num_input_tokens_seen": 42247704,
      "step": 72800
    },
    {
      "epoch": 10.843759308906762,
      "grad_norm": 0.12354513257741928,
      "learning_rate": 2.5682293777268153e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42250776,
      "step": 72805
    },
    {
      "epoch": 10.84450402144772,
      "grad_norm": 0.009123364463448524,
      "learning_rate": 2.567904556043325e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 42253720,
      "step": 72810
    },
    {
      "epoch": 10.845248733988681,
      "grad_norm": 0.0004211743362247944,
      "learning_rate": 2.5675797332126566e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42256728,
      "step": 72815
    },
    {
      "epoch": 10.84599344652964,
      "grad_norm": 0.06463155150413513,
      "learning_rate": 2.567254909240297e-05,
      "loss": 0.0946,
      "num_input_tokens_seen": 42259352,
      "step": 72820
    },
    {
      "epoch": 10.846738159070599,
      "grad_norm": 24.832355499267578,
      "learning_rate": 2.566930084131734e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 42262520,
      "step": 72825
    },
    {
      "epoch": 10.847482871611557,
      "grad_norm": 0.07736534625291824,
      "learning_rate": 2.566605257892456e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42265304,
      "step": 72830
    },
    {
      "epoch": 10.848227584152518,
      "grad_norm": 0.04410042613744736,
      "learning_rate": 2.5662804305279485e-05,
      "loss": 0.0567,
      "num_input_tokens_seen": 42268120,
      "step": 72835
    },
    {
      "epoch": 10.848972296693477,
      "grad_norm": 0.00045870154281146824,
      "learning_rate": 2.5659556020437015e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 42271032,
      "step": 72840
    },
    {
      "epoch": 10.849717009234435,
      "grad_norm": 0.1385916918516159,
      "learning_rate": 2.5656307724452016e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42273688,
      "step": 72845
    },
    {
      "epoch": 10.850461721775394,
      "grad_norm": 0.005758349783718586,
      "learning_rate": 2.565305941737936e-05,
      "loss": 0.308,
      "num_input_tokens_seen": 42276632,
      "step": 72850
    },
    {
      "epoch": 10.851206434316353,
      "grad_norm": 0.006875358521938324,
      "learning_rate": 2.5649811099273935e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42279640,
      "step": 72855
    },
    {
      "epoch": 10.851951146857314,
      "grad_norm": 0.0010931692086160183,
      "learning_rate": 2.564656277019061e-05,
      "loss": 0.1751,
      "num_input_tokens_seen": 42282296,
      "step": 72860
    },
    {
      "epoch": 10.852695859398272,
      "grad_norm": 0.00511829974129796,
      "learning_rate": 2.5643314430184257e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42284888,
      "step": 72865
    },
    {
      "epoch": 10.853440571939231,
      "grad_norm": 14.461588859558105,
      "learning_rate": 2.564006607930977e-05,
      "loss": 0.0653,
      "num_input_tokens_seen": 42287896,
      "step": 72870
    },
    {
      "epoch": 10.85418528448019,
      "grad_norm": 0.00240654987283051,
      "learning_rate": 2.5636817717622015e-05,
      "loss": 0.1709,
      "num_input_tokens_seen": 42290552,
      "step": 72875
    },
    {
      "epoch": 10.85492999702115,
      "grad_norm": 0.007642674259841442,
      "learning_rate": 2.5633569345175873e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42293336,
      "step": 72880
    },
    {
      "epoch": 10.85567470956211,
      "grad_norm": 40.23387908935547,
      "learning_rate": 2.5630320962026217e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 42296312,
      "step": 72885
    },
    {
      "epoch": 10.856419422103068,
      "grad_norm": 0.0007239285041578114,
      "learning_rate": 2.5627072568227927e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42299288,
      "step": 72890
    },
    {
      "epoch": 10.857164134644027,
      "grad_norm": 0.012023738585412502,
      "learning_rate": 2.5623824163835887e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42302200,
      "step": 72895
    },
    {
      "epoch": 10.857908847184987,
      "grad_norm": 0.00378479715436697,
      "learning_rate": 2.5620575748904968e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42304984,
      "step": 72900
    },
    {
      "epoch": 10.858653559725946,
      "grad_norm": 0.03885819390416145,
      "learning_rate": 2.5617327323490055e-05,
      "loss": 0.0473,
      "num_input_tokens_seen": 42307864,
      "step": 72905
    },
    {
      "epoch": 10.859398272266905,
      "grad_norm": 48.0376091003418,
      "learning_rate": 2.5614078887646025e-05,
      "loss": 0.2221,
      "num_input_tokens_seen": 42310520,
      "step": 72910
    },
    {
      "epoch": 10.860142984807863,
      "grad_norm": 0.0032866692636162043,
      "learning_rate": 2.5610830441427762e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 42313368,
      "step": 72915
    },
    {
      "epoch": 10.860887697348824,
      "grad_norm": 0.03106795996427536,
      "learning_rate": 2.5607581984890134e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42316408,
      "step": 72920
    },
    {
      "epoch": 10.861632409889783,
      "grad_norm": 0.018565138801932335,
      "learning_rate": 2.5604333518088026e-05,
      "loss": 0.2586,
      "num_input_tokens_seen": 42319352,
      "step": 72925
    },
    {
      "epoch": 10.862377122430741,
      "grad_norm": 1.7904564142227173,
      "learning_rate": 2.560108504107631e-05,
      "loss": 0.133,
      "num_input_tokens_seen": 42322232,
      "step": 72930
    },
    {
      "epoch": 10.8631218349717,
      "grad_norm": 0.022509228438138962,
      "learning_rate": 2.5597836553909884e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42324984,
      "step": 72935
    },
    {
      "epoch": 10.86386654751266,
      "grad_norm": 0.003055934328585863,
      "learning_rate": 2.5594588056643608e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 42328152,
      "step": 72940
    },
    {
      "epoch": 10.86461126005362,
      "grad_norm": 0.04629353806376457,
      "learning_rate": 2.5591339549332383e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 42331160,
      "step": 72945
    },
    {
      "epoch": 10.865355972594578,
      "grad_norm": 0.13483935594558716,
      "learning_rate": 2.5588091032031075e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42334104,
      "step": 72950
    },
    {
      "epoch": 10.866100685135537,
      "grad_norm": 0.003948363941162825,
      "learning_rate": 2.5584842504794558e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42336920,
      "step": 72955
    },
    {
      "epoch": 10.866845397676498,
      "grad_norm": 0.6681138277053833,
      "learning_rate": 2.5581593967677724e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 42339576,
      "step": 72960
    },
    {
      "epoch": 10.867590110217456,
      "grad_norm": 0.015706712380051613,
      "learning_rate": 2.557834542073545e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 42342520,
      "step": 72965
    },
    {
      "epoch": 10.868334822758415,
      "grad_norm": 0.05969443917274475,
      "learning_rate": 2.557509686402262e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 42345944,
      "step": 72970
    },
    {
      "epoch": 10.869079535299374,
      "grad_norm": 0.002465540776029229,
      "learning_rate": 2.5571848297594116e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 42348760,
      "step": 72975
    },
    {
      "epoch": 10.869824247840334,
      "grad_norm": 0.011000992730259895,
      "learning_rate": 2.5568599721504814e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42351640,
      "step": 72980
    },
    {
      "epoch": 10.870568960381293,
      "grad_norm": 0.005997613072395325,
      "learning_rate": 2.5565351135809597e-05,
      "loss": 0.1228,
      "num_input_tokens_seen": 42354616,
      "step": 72985
    },
    {
      "epoch": 10.871313672922252,
      "grad_norm": 27.138607025146484,
      "learning_rate": 2.5562102540563355e-05,
      "loss": 0.0491,
      "num_input_tokens_seen": 42357336,
      "step": 72990
    },
    {
      "epoch": 10.87205838546321,
      "grad_norm": 0.2091187685728073,
      "learning_rate": 2.5558853935820948e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42360216,
      "step": 72995
    },
    {
      "epoch": 10.872803098004171,
      "grad_norm": 0.022969910874962807,
      "learning_rate": 2.555560532163728e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42363320,
      "step": 73000
    },
    {
      "epoch": 10.87354781054513,
      "grad_norm": 0.0402633398771286,
      "learning_rate": 2.555235669806722e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42366328,
      "step": 73005
    },
    {
      "epoch": 10.874292523086089,
      "grad_norm": 14.706286430358887,
      "learning_rate": 2.554910806516566e-05,
      "loss": 0.2547,
      "num_input_tokens_seen": 42369400,
      "step": 73010
    },
    {
      "epoch": 10.875037235627047,
      "grad_norm": 25.498144149780273,
      "learning_rate": 2.5545859422987478e-05,
      "loss": 0.3,
      "num_input_tokens_seen": 42372312,
      "step": 73015
    },
    {
      "epoch": 10.875781948168008,
      "grad_norm": 0.33601605892181396,
      "learning_rate": 2.554261077158755e-05,
      "loss": 0.0381,
      "num_input_tokens_seen": 42375224,
      "step": 73020
    },
    {
      "epoch": 10.876526660708967,
      "grad_norm": 26.083660125732422,
      "learning_rate": 2.5539362111020765e-05,
      "loss": 0.229,
      "num_input_tokens_seen": 42378072,
      "step": 73025
    },
    {
      "epoch": 10.877271373249926,
      "grad_norm": 0.14058232307434082,
      "learning_rate": 2.5536113441342014e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 42380824,
      "step": 73030
    },
    {
      "epoch": 10.878016085790884,
      "grad_norm": 37.21857452392578,
      "learning_rate": 2.5532864762606164e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 42383736,
      "step": 73035
    },
    {
      "epoch": 10.878760798331843,
      "grad_norm": 0.00883394293487072,
      "learning_rate": 2.55296160748681e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42386584,
      "step": 73040
    },
    {
      "epoch": 10.879505510872804,
      "grad_norm": 0.07401121407747269,
      "learning_rate": 2.5526367378182725e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 42389400,
      "step": 73045
    },
    {
      "epoch": 10.880250223413762,
      "grad_norm": 175.05117797851562,
      "learning_rate": 2.55231186726049e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 42392248,
      "step": 73050
    },
    {
      "epoch": 10.880994935954721,
      "grad_norm": 84.01777648925781,
      "learning_rate": 2.5519869958189513e-05,
      "loss": 0.208,
      "num_input_tokens_seen": 42395384,
      "step": 73055
    },
    {
      "epoch": 10.88173964849568,
      "grad_norm": 0.004350051283836365,
      "learning_rate": 2.5516621234991456e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 42398168,
      "step": 73060
    },
    {
      "epoch": 10.88248436103664,
      "grad_norm": 4.400911808013916,
      "learning_rate": 2.551337250306561e-05,
      "loss": 0.4642,
      "num_input_tokens_seen": 42400888,
      "step": 73065
    },
    {
      "epoch": 10.8832290735776,
      "grad_norm": 116.51318359375,
      "learning_rate": 2.5510123762466853e-05,
      "loss": 0.0969,
      "num_input_tokens_seen": 42403768,
      "step": 73070
    },
    {
      "epoch": 10.883973786118558,
      "grad_norm": 0.0021322479005903006,
      "learning_rate": 2.5506875013250075e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42406712,
      "step": 73075
    },
    {
      "epoch": 10.884718498659517,
      "grad_norm": 0.021297799423336983,
      "learning_rate": 2.5503626255470164e-05,
      "loss": 0.0446,
      "num_input_tokens_seen": 42409752,
      "step": 73080
    },
    {
      "epoch": 10.885463211200477,
      "grad_norm": 0.07516057044267654,
      "learning_rate": 2.5500377489181992e-05,
      "loss": 0.23,
      "num_input_tokens_seen": 42412984,
      "step": 73085
    },
    {
      "epoch": 10.886207923741436,
      "grad_norm": 0.02258339896798134,
      "learning_rate": 2.5497128714440456e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 42416248,
      "step": 73090
    },
    {
      "epoch": 10.886952636282395,
      "grad_norm": 0.010911074467003345,
      "learning_rate": 2.549387993130043e-05,
      "loss": 0.0985,
      "num_input_tokens_seen": 42419160,
      "step": 73095
    },
    {
      "epoch": 10.887697348823353,
      "grad_norm": 22.364330291748047,
      "learning_rate": 2.5490631139816806e-05,
      "loss": 0.4717,
      "num_input_tokens_seen": 42422104,
      "step": 73100
    },
    {
      "epoch": 10.888442061364314,
      "grad_norm": 130.0869903564453,
      "learning_rate": 2.548738234004447e-05,
      "loss": 0.1376,
      "num_input_tokens_seen": 42424856,
      "step": 73105
    },
    {
      "epoch": 10.889186773905273,
      "grad_norm": 0.13137860596179962,
      "learning_rate": 2.5484133532038307e-05,
      "loss": 0.1579,
      "num_input_tokens_seen": 42427768,
      "step": 73110
    },
    {
      "epoch": 10.889931486446232,
      "grad_norm": 49.06356430053711,
      "learning_rate": 2.5480884715853197e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 42431000,
      "step": 73115
    },
    {
      "epoch": 10.89067619898719,
      "grad_norm": 0.0010294937528669834,
      "learning_rate": 2.547763589154403e-05,
      "loss": 0.1031,
      "num_input_tokens_seen": 42433944,
      "step": 73120
    },
    {
      "epoch": 10.89142091152815,
      "grad_norm": 0.0067190444096922874,
      "learning_rate": 2.5474387059165687e-05,
      "loss": 0.0869,
      "num_input_tokens_seen": 42436728,
      "step": 73125
    },
    {
      "epoch": 10.89216562406911,
      "grad_norm": 0.004809992387890816,
      "learning_rate": 2.547113821877306e-05,
      "loss": 0.2014,
      "num_input_tokens_seen": 42439640,
      "step": 73130
    },
    {
      "epoch": 10.892910336610068,
      "grad_norm": 0.008918222971260548,
      "learning_rate": 2.5467889370421027e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 42442872,
      "step": 73135
    },
    {
      "epoch": 10.893655049151027,
      "grad_norm": 11.878657341003418,
      "learning_rate": 2.546464051416448e-05,
      "loss": 0.2653,
      "num_input_tokens_seen": 42445720,
      "step": 73140
    },
    {
      "epoch": 10.894399761691988,
      "grad_norm": 0.010879087261855602,
      "learning_rate": 2.5461391650058307e-05,
      "loss": 0.1231,
      "num_input_tokens_seen": 42448728,
      "step": 73145
    },
    {
      "epoch": 10.895144474232946,
      "grad_norm": 0.014106529764831066,
      "learning_rate": 2.5458142778157396e-05,
      "loss": 0.0493,
      "num_input_tokens_seen": 42451704,
      "step": 73150
    },
    {
      "epoch": 10.895889186773905,
      "grad_norm": 0.02320498786866665,
      "learning_rate": 2.545489389851662e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42454424,
      "step": 73155
    },
    {
      "epoch": 10.896633899314864,
      "grad_norm": 0.12122126668691635,
      "learning_rate": 2.5451645011190872e-05,
      "loss": 0.1786,
      "num_input_tokens_seen": 42457496,
      "step": 73160
    },
    {
      "epoch": 10.897378611855824,
      "grad_norm": 0.3653751313686371,
      "learning_rate": 2.5448396116235046e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42460216,
      "step": 73165
    },
    {
      "epoch": 10.898123324396783,
      "grad_norm": 14.5071439743042,
      "learning_rate": 2.5445147213704017e-05,
      "loss": 0.1485,
      "num_input_tokens_seen": 42463032,
      "step": 73170
    },
    {
      "epoch": 10.898868036937742,
      "grad_norm": 0.005623963661491871,
      "learning_rate": 2.5441898303652688e-05,
      "loss": 0.0308,
      "num_input_tokens_seen": 42465752,
      "step": 73175
    },
    {
      "epoch": 10.8996127494787,
      "grad_norm": 0.0008153858943842351,
      "learning_rate": 2.5438649386135932e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42468568,
      "step": 73180
    },
    {
      "epoch": 10.90035746201966,
      "grad_norm": 0.04313330352306366,
      "learning_rate": 2.5435400461208637e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 42471320,
      "step": 73185
    },
    {
      "epoch": 10.90110217456062,
      "grad_norm": 0.010157653130590916,
      "learning_rate": 2.5432151528925702e-05,
      "loss": 0.1224,
      "num_input_tokens_seen": 42474200,
      "step": 73190
    },
    {
      "epoch": 10.901846887101579,
      "grad_norm": 0.04557438939809799,
      "learning_rate": 2.5428902589341996e-05,
      "loss": 0.1727,
      "num_input_tokens_seen": 42477208,
      "step": 73195
    },
    {
      "epoch": 10.902591599642538,
      "grad_norm": 0.005619687493890524,
      "learning_rate": 2.542565364251242e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42479768,
      "step": 73200
    },
    {
      "epoch": 10.903336312183498,
      "grad_norm": 0.01778036169707775,
      "learning_rate": 2.542240468849186e-05,
      "loss": 0.1079,
      "num_input_tokens_seen": 42482392,
      "step": 73205
    },
    {
      "epoch": 10.904081024724457,
      "grad_norm": 0.42755934596061707,
      "learning_rate": 2.5419155727335204e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42485688,
      "step": 73210
    },
    {
      "epoch": 10.904825737265416,
      "grad_norm": 0.017575526610016823,
      "learning_rate": 2.5415906759097336e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42488536,
      "step": 73215
    },
    {
      "epoch": 10.905570449806374,
      "grad_norm": 18.933502197265625,
      "learning_rate": 2.5412657783833143e-05,
      "loss": 0.0223,
      "num_input_tokens_seen": 42491416,
      "step": 73220
    },
    {
      "epoch": 10.906315162347333,
      "grad_norm": 0.0010230318875983357,
      "learning_rate": 2.5409408801597517e-05,
      "loss": 0.0414,
      "num_input_tokens_seen": 42494328,
      "step": 73225
    },
    {
      "epoch": 10.907059874888294,
      "grad_norm": 0.0026674799155443907,
      "learning_rate": 2.540615981244535e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 42497080,
      "step": 73230
    },
    {
      "epoch": 10.907804587429252,
      "grad_norm": 0.04004892334342003,
      "learning_rate": 2.5402910816431525e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42499640,
      "step": 73235
    },
    {
      "epoch": 10.908549299970211,
      "grad_norm": 0.002334342570975423,
      "learning_rate": 2.5399661813610925e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42502488,
      "step": 73240
    },
    {
      "epoch": 10.90929401251117,
      "grad_norm": 0.4314166009426117,
      "learning_rate": 2.5396412804038455e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42505208,
      "step": 73245
    },
    {
      "epoch": 10.91003872505213,
      "grad_norm": 0.01772920973598957,
      "learning_rate": 2.5393163787768988e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42508120,
      "step": 73250
    },
    {
      "epoch": 10.91078343759309,
      "grad_norm": 0.017707444727420807,
      "learning_rate": 2.5389914764857413e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42511192,
      "step": 73255
    },
    {
      "epoch": 10.911528150134048,
      "grad_norm": 0.30790337920188904,
      "learning_rate": 2.538666573535863e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42514072,
      "step": 73260
    },
    {
      "epoch": 10.912272862675007,
      "grad_norm": 0.050185780972242355,
      "learning_rate": 2.5383416699327524e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 42517112,
      "step": 73265
    },
    {
      "epoch": 10.913017575215967,
      "grad_norm": 0.07331199198961258,
      "learning_rate": 2.5380167656818978e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42520440,
      "step": 73270
    },
    {
      "epoch": 10.913762287756926,
      "grad_norm": 0.0006758956587873399,
      "learning_rate": 2.537691860788789e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42523288,
      "step": 73275
    },
    {
      "epoch": 10.914507000297885,
      "grad_norm": 0.0019007641822099686,
      "learning_rate": 2.5373669552589146e-05,
      "loss": 0.1301,
      "num_input_tokens_seen": 42526040,
      "step": 73280
    },
    {
      "epoch": 10.915251712838844,
      "grad_norm": 0.8591589331626892,
      "learning_rate": 2.537042049097763e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 42528888,
      "step": 73285
    },
    {
      "epoch": 10.915996425379804,
      "grad_norm": 0.0010914200684055686,
      "learning_rate": 2.5367171423108238e-05,
      "loss": 0.0562,
      "num_input_tokens_seen": 42532056,
      "step": 73290
    },
    {
      "epoch": 10.916741137920763,
      "grad_norm": 0.005995637271553278,
      "learning_rate": 2.5363922349035857e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 42535416,
      "step": 73295
    },
    {
      "epoch": 10.917485850461722,
      "grad_norm": 0.011414814740419388,
      "learning_rate": 2.5360673268815378e-05,
      "loss": 0.0268,
      "num_input_tokens_seen": 42538104,
      "step": 73300
    },
    {
      "epoch": 10.91823056300268,
      "grad_norm": 0.06871103495359421,
      "learning_rate": 2.535742418250169e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42541112,
      "step": 73305
    },
    {
      "epoch": 10.918975275543641,
      "grad_norm": 12.387431144714355,
      "learning_rate": 2.535417509014969e-05,
      "loss": 0.2089,
      "num_input_tokens_seen": 42543896,
      "step": 73310
    },
    {
      "epoch": 10.9197199880846,
      "grad_norm": 0.015184329822659492,
      "learning_rate": 2.5350925991814263e-05,
      "loss": 0.0275,
      "num_input_tokens_seen": 42546744,
      "step": 73315
    },
    {
      "epoch": 10.920464700625558,
      "grad_norm": 0.005444131791591644,
      "learning_rate": 2.5347676887550286e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42549528,
      "step": 73320
    },
    {
      "epoch": 10.921209413166517,
      "grad_norm": 71.50788116455078,
      "learning_rate": 2.534442777741267e-05,
      "loss": 0.0257,
      "num_input_tokens_seen": 42552120,
      "step": 73325
    },
    {
      "epoch": 10.921954125707478,
      "grad_norm": 0.004193222150206566,
      "learning_rate": 2.5341178661456293e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42554968,
      "step": 73330
    },
    {
      "epoch": 10.922698838248436,
      "grad_norm": 0.0023226034827530384,
      "learning_rate": 2.533792953973605e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 42557784,
      "step": 73335
    },
    {
      "epoch": 10.923443550789395,
      "grad_norm": 51.642333984375,
      "learning_rate": 2.533468041230683e-05,
      "loss": 0.2985,
      "num_input_tokens_seen": 42560536,
      "step": 73340
    },
    {
      "epoch": 10.924188263330354,
      "grad_norm": 0.0020284531638026237,
      "learning_rate": 2.5331431279223528e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42563288,
      "step": 73345
    },
    {
      "epoch": 10.924932975871315,
      "grad_norm": 0.0007513402961194515,
      "learning_rate": 2.5328182140541028e-05,
      "loss": 0.0346,
      "num_input_tokens_seen": 42566136,
      "step": 73350
    },
    {
      "epoch": 10.925677688412273,
      "grad_norm": 0.10439050197601318,
      "learning_rate": 2.5324932996314233e-05,
      "loss": 0.2617,
      "num_input_tokens_seen": 42569304,
      "step": 73355
    },
    {
      "epoch": 10.926422400953232,
      "grad_norm": 4.980920314788818,
      "learning_rate": 2.5321683846598015e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 42572408,
      "step": 73360
    },
    {
      "epoch": 10.92716711349419,
      "grad_norm": 0.12678362429141998,
      "learning_rate": 2.531843469144728e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42575320,
      "step": 73365
    },
    {
      "epoch": 10.92791182603515,
      "grad_norm": 0.08044403046369553,
      "learning_rate": 2.5315185530916907e-05,
      "loss": 0.1534,
      "num_input_tokens_seen": 42578168,
      "step": 73370
    },
    {
      "epoch": 10.92865653857611,
      "grad_norm": 0.028676016256213188,
      "learning_rate": 2.5311936365061804e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 42581176,
      "step": 73375
    },
    {
      "epoch": 10.929401251117069,
      "grad_norm": 0.04502531886100769,
      "learning_rate": 2.530868719393685e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 42584120,
      "step": 73380
    },
    {
      "epoch": 10.930145963658028,
      "grad_norm": 0.009702651761472225,
      "learning_rate": 2.5305438017596937e-05,
      "loss": 0.0664,
      "num_input_tokens_seen": 42586712,
      "step": 73385
    },
    {
      "epoch": 10.930890676198988,
      "grad_norm": 0.020637014880776405,
      "learning_rate": 2.5302188836096963e-05,
      "loss": 0.141,
      "num_input_tokens_seen": 42589656,
      "step": 73390
    },
    {
      "epoch": 10.931635388739947,
      "grad_norm": 0.11908519268035889,
      "learning_rate": 2.5298939649491816e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 42592536,
      "step": 73395
    },
    {
      "epoch": 10.932380101280906,
      "grad_norm": 0.023552948608994484,
      "learning_rate": 2.5295690457836384e-05,
      "loss": 0.0521,
      "num_input_tokens_seen": 42595224,
      "step": 73400
    },
    {
      "epoch": 10.933124813821864,
      "grad_norm": 0.017249619588255882,
      "learning_rate": 2.529244126118556e-05,
      "loss": 0.1923,
      "num_input_tokens_seen": 42597880,
      "step": 73405
    },
    {
      "epoch": 10.933869526362823,
      "grad_norm": 35.33441925048828,
      "learning_rate": 2.5289192059594253e-05,
      "loss": 0.4294,
      "num_input_tokens_seen": 42600792,
      "step": 73410
    },
    {
      "epoch": 10.934614238903784,
      "grad_norm": 0.047936249524354935,
      "learning_rate": 2.5285942853117327e-05,
      "loss": 0.204,
      "num_input_tokens_seen": 42603736,
      "step": 73415
    },
    {
      "epoch": 10.935358951444742,
      "grad_norm": 1.7203574180603027,
      "learning_rate": 2.5282693641809683e-05,
      "loss": 0.0173,
      "num_input_tokens_seen": 42606584,
      "step": 73420
    },
    {
      "epoch": 10.936103663985701,
      "grad_norm": 99.5325698852539,
      "learning_rate": 2.5279444425726228e-05,
      "loss": 0.5771,
      "num_input_tokens_seen": 42609560,
      "step": 73425
    },
    {
      "epoch": 10.93684837652666,
      "grad_norm": 0.0077124349772930145,
      "learning_rate": 2.5276195204921837e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 42612312,
      "step": 73430
    },
    {
      "epoch": 10.93759308906762,
      "grad_norm": 0.004206293728202581,
      "learning_rate": 2.5272945979451413e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 42615224,
      "step": 73435
    },
    {
      "epoch": 10.93833780160858,
      "grad_norm": 0.04319075122475624,
      "learning_rate": 2.5269696749369844e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42617880,
      "step": 73440
    },
    {
      "epoch": 10.939082514149538,
      "grad_norm": 0.0005033152992837131,
      "learning_rate": 2.5266447514732023e-05,
      "loss": 0.0179,
      "num_input_tokens_seen": 42620760,
      "step": 73445
    },
    {
      "epoch": 10.939827226690497,
      "grad_norm": 0.0007265566382557154,
      "learning_rate": 2.5263198275592835e-05,
      "loss": 0.1447,
      "num_input_tokens_seen": 42623704,
      "step": 73450
    },
    {
      "epoch": 10.940571939231457,
      "grad_norm": 9.140212059020996,
      "learning_rate": 2.5259949032007186e-05,
      "loss": 0.0927,
      "num_input_tokens_seen": 42626488,
      "step": 73455
    },
    {
      "epoch": 10.941316651772416,
      "grad_norm": 0.0010281918803229928,
      "learning_rate": 2.5256699784029958e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 42629144,
      "step": 73460
    },
    {
      "epoch": 10.942061364313375,
      "grad_norm": 0.020964981988072395,
      "learning_rate": 2.525345053171605e-05,
      "loss": 0.2428,
      "num_input_tokens_seen": 42631736,
      "step": 73465
    },
    {
      "epoch": 10.942806076854334,
      "grad_norm": 0.032342568039894104,
      "learning_rate": 2.525020127512035e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42634616,
      "step": 73470
    },
    {
      "epoch": 10.943550789395294,
      "grad_norm": 0.0007631027256138623,
      "learning_rate": 2.524695201429776e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42637624,
      "step": 73475
    },
    {
      "epoch": 10.944295501936253,
      "grad_norm": 62.42652893066406,
      "learning_rate": 2.5243702749303173e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 42640312,
      "step": 73480
    },
    {
      "epoch": 10.945040214477212,
      "grad_norm": 0.7119760513305664,
      "learning_rate": 2.5240453480191463e-05,
      "loss": 0.2267,
      "num_input_tokens_seen": 42643384,
      "step": 73485
    },
    {
      "epoch": 10.94578492701817,
      "grad_norm": 0.004605383146554232,
      "learning_rate": 2.5237204207017533e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 42646104,
      "step": 73490
    },
    {
      "epoch": 10.946529639559131,
      "grad_norm": 0.03271600976586342,
      "learning_rate": 2.523395492983629e-05,
      "loss": 0.0543,
      "num_input_tokens_seen": 42649112,
      "step": 73495
    },
    {
      "epoch": 10.94727435210009,
      "grad_norm": 0.0033069420605897903,
      "learning_rate": 2.5230705648702608e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42652184,
      "step": 73500
    },
    {
      "epoch": 10.948019064641048,
      "grad_norm": 0.024233754724264145,
      "learning_rate": 2.52274563636714e-05,
      "loss": 0.247,
      "num_input_tokens_seen": 42655320,
      "step": 73505
    },
    {
      "epoch": 10.948763777182007,
      "grad_norm": 0.00527950469404459,
      "learning_rate": 2.5224207074797533e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42658712,
      "step": 73510
    },
    {
      "epoch": 10.949508489722968,
      "grad_norm": 0.023420795798301697,
      "learning_rate": 2.522095778213593e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42661304,
      "step": 73515
    },
    {
      "epoch": 10.950253202263927,
      "grad_norm": 0.004182320553809404,
      "learning_rate": 2.5217708485741458e-05,
      "loss": 0.2316,
      "num_input_tokens_seen": 42664248,
      "step": 73520
    },
    {
      "epoch": 10.950997914804885,
      "grad_norm": 20.518905639648438,
      "learning_rate": 2.5214459185669028e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 42667128,
      "step": 73525
    },
    {
      "epoch": 10.951742627345844,
      "grad_norm": 25.123268127441406,
      "learning_rate": 2.5211209881973525e-05,
      "loss": 0.169,
      "num_input_tokens_seen": 42669880,
      "step": 73530
    },
    {
      "epoch": 10.952487339886805,
      "grad_norm": 0.09952393919229507,
      "learning_rate": 2.5207960574709843e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 42672664,
      "step": 73535
    },
    {
      "epoch": 10.953232052427763,
      "grad_norm": 7.214907646179199,
      "learning_rate": 2.520471126393289e-05,
      "loss": 0.0154,
      "num_input_tokens_seen": 42675384,
      "step": 73540
    },
    {
      "epoch": 10.953976764968722,
      "grad_norm": 0.11455192416906357,
      "learning_rate": 2.5201461949697534e-05,
      "loss": 0.1917,
      "num_input_tokens_seen": 42678200,
      "step": 73545
    },
    {
      "epoch": 10.95472147750968,
      "grad_norm": 15.011308670043945,
      "learning_rate": 2.5198212632058694e-05,
      "loss": 0.2739,
      "num_input_tokens_seen": 42680920,
      "step": 73550
    },
    {
      "epoch": 10.95546619005064,
      "grad_norm": 0.0007408768287859857,
      "learning_rate": 2.519496331107125e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42684024,
      "step": 73555
    },
    {
      "epoch": 10.9562109025916,
      "grad_norm": 0.014233346097171307,
      "learning_rate": 2.51917139867901e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 42686872,
      "step": 73560
    },
    {
      "epoch": 10.956955615132559,
      "grad_norm": 0.0032333056442439556,
      "learning_rate": 2.5188464659270133e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 42689560,
      "step": 73565
    },
    {
      "epoch": 10.957700327673518,
      "grad_norm": 20.80555534362793,
      "learning_rate": 2.5185215328566247e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 42692408,
      "step": 73570
    },
    {
      "epoch": 10.958445040214476,
      "grad_norm": 0.02987329289317131,
      "learning_rate": 2.5181965994733343e-05,
      "loss": 0.0101,
      "num_input_tokens_seen": 42694968,
      "step": 73575
    },
    {
      "epoch": 10.959189752755437,
      "grad_norm": 16.865671157836914,
      "learning_rate": 2.5178716657826302e-05,
      "loss": 0.0753,
      "num_input_tokens_seen": 42697944,
      "step": 73580
    },
    {
      "epoch": 10.959934465296396,
      "grad_norm": 97.94825744628906,
      "learning_rate": 2.5175467317900026e-05,
      "loss": 0.1558,
      "num_input_tokens_seen": 42700760,
      "step": 73585
    },
    {
      "epoch": 10.960679177837354,
      "grad_norm": 0.026019614189863205,
      "learning_rate": 2.517221797500941e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 42703576,
      "step": 73590
    },
    {
      "epoch": 10.961423890378313,
      "grad_norm": 0.013425028882920742,
      "learning_rate": 2.516896862920935e-05,
      "loss": 0.291,
      "num_input_tokens_seen": 42706648,
      "step": 73595
    },
    {
      "epoch": 10.962168602919274,
      "grad_norm": 0.06984006613492966,
      "learning_rate": 2.5165719280554728e-05,
      "loss": 0.1475,
      "num_input_tokens_seen": 42709464,
      "step": 73600
    },
    {
      "epoch": 10.962913315460233,
      "grad_norm": 582.7427368164062,
      "learning_rate": 2.5162469929100452e-05,
      "loss": 0.0318,
      "num_input_tokens_seen": 42712120,
      "step": 73605
    },
    {
      "epoch": 10.963658028001191,
      "grad_norm": 0.0009029260836541653,
      "learning_rate": 2.5159220574901417e-05,
      "loss": 0.0439,
      "num_input_tokens_seen": 42715256,
      "step": 73610
    },
    {
      "epoch": 10.96440274054215,
      "grad_norm": 36.753108978271484,
      "learning_rate": 2.5155971218012503e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 42718168,
      "step": 73615
    },
    {
      "epoch": 10.96514745308311,
      "grad_norm": 0.0028986032120883465,
      "learning_rate": 2.5152721858488615e-05,
      "loss": 0.1958,
      "num_input_tokens_seen": 42720920,
      "step": 73620
    },
    {
      "epoch": 10.96589216562407,
      "grad_norm": 29.29883575439453,
      "learning_rate": 2.5149472496384645e-05,
      "loss": 0.3013,
      "num_input_tokens_seen": 42723640,
      "step": 73625
    },
    {
      "epoch": 10.966636878165028,
      "grad_norm": 0.02386314608156681,
      "learning_rate": 2.5146223131755493e-05,
      "loss": 0.3995,
      "num_input_tokens_seen": 42726584,
      "step": 73630
    },
    {
      "epoch": 10.967381590705987,
      "grad_norm": 0.01347418874502182,
      "learning_rate": 2.514297376465605e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42729624,
      "step": 73635
    },
    {
      "epoch": 10.968126303246947,
      "grad_norm": 0.3542715907096863,
      "learning_rate": 2.5139724395141207e-05,
      "loss": 0.1641,
      "num_input_tokens_seen": 42732696,
      "step": 73640
    },
    {
      "epoch": 10.968871015787906,
      "grad_norm": 0.002161371288821101,
      "learning_rate": 2.513647502326587e-05,
      "loss": 0.1306,
      "num_input_tokens_seen": 42735672,
      "step": 73645
    },
    {
      "epoch": 10.969615728328865,
      "grad_norm": 0.01895185001194477,
      "learning_rate": 2.513322564908492e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42738488,
      "step": 73650
    },
    {
      "epoch": 10.970360440869824,
      "grad_norm": 0.007002795580774546,
      "learning_rate": 2.512997627265326e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 42741176,
      "step": 73655
    },
    {
      "epoch": 10.971105153410784,
      "grad_norm": 12.692428588867188,
      "learning_rate": 2.5126726894025782e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 42743768,
      "step": 73660
    },
    {
      "epoch": 10.971849865951743,
      "grad_norm": 0.03058265522122383,
      "learning_rate": 2.5123477513257376e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42746584,
      "step": 73665
    },
    {
      "epoch": 10.972594578492702,
      "grad_norm": 0.06595493108034134,
      "learning_rate": 2.5120228130402955e-05,
      "loss": 0.0532,
      "num_input_tokens_seen": 42749176,
      "step": 73670
    },
    {
      "epoch": 10.97333929103366,
      "grad_norm": 0.013270027004182339,
      "learning_rate": 2.5116978745517394e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 42752024,
      "step": 73675
    },
    {
      "epoch": 10.974084003574621,
      "grad_norm": 11.343250274658203,
      "learning_rate": 2.5113729358655602e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 42754872,
      "step": 73680
    },
    {
      "epoch": 10.97482871611558,
      "grad_norm": 0.0010341303423047066,
      "learning_rate": 2.5110479969872463e-05,
      "loss": 0.1653,
      "num_input_tokens_seen": 42757592,
      "step": 73685
    },
    {
      "epoch": 10.975573428656539,
      "grad_norm": 24.05705451965332,
      "learning_rate": 2.510723057922288e-05,
      "loss": 0.0199,
      "num_input_tokens_seen": 42760504,
      "step": 73690
    },
    {
      "epoch": 10.976318141197497,
      "grad_norm": 27.906314849853516,
      "learning_rate": 2.510398118676174e-05,
      "loss": 0.2153,
      "num_input_tokens_seen": 42763576,
      "step": 73695
    },
    {
      "epoch": 10.977062853738456,
      "grad_norm": 0.0012575270375236869,
      "learning_rate": 2.5100731792543948e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42766232,
      "step": 73700
    },
    {
      "epoch": 10.977807566279417,
      "grad_norm": 0.20258428156375885,
      "learning_rate": 2.5097482396624393e-05,
      "loss": 0.1758,
      "num_input_tokens_seen": 42769368,
      "step": 73705
    },
    {
      "epoch": 10.978552278820375,
      "grad_norm": 5.992030143737793,
      "learning_rate": 2.5094232999057975e-05,
      "loss": 0.0201,
      "num_input_tokens_seen": 42772312,
      "step": 73710
    },
    {
      "epoch": 10.979296991361334,
      "grad_norm": 0.18242575228214264,
      "learning_rate": 2.5090983599899587e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 42774968,
      "step": 73715
    },
    {
      "epoch": 10.980041703902295,
      "grad_norm": 0.008136801421642303,
      "learning_rate": 2.508773419920412e-05,
      "loss": 0.1864,
      "num_input_tokens_seen": 42777912,
      "step": 73720
    },
    {
      "epoch": 10.980786416443253,
      "grad_norm": 0.03417763486504555,
      "learning_rate": 2.508448479702647e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 42780792,
      "step": 73725
    },
    {
      "epoch": 10.981531128984212,
      "grad_norm": 0.011275628581643105,
      "learning_rate": 2.5081235393421537e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 42783704,
      "step": 73730
    },
    {
      "epoch": 10.982275841525171,
      "grad_norm": 0.6800398230552673,
      "learning_rate": 2.507798598844422e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 42786552,
      "step": 73735
    },
    {
      "epoch": 10.98302055406613,
      "grad_norm": 0.0007813964621163905,
      "learning_rate": 2.5074736582149405e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42789304,
      "step": 73740
    },
    {
      "epoch": 10.98376526660709,
      "grad_norm": 0.003080718219280243,
      "learning_rate": 2.507148717459199e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 42792120,
      "step": 73745
    },
    {
      "epoch": 10.984509979148049,
      "grad_norm": 0.6896244883537292,
      "learning_rate": 2.5068237765826875e-05,
      "loss": 0.3136,
      "num_input_tokens_seen": 42794680,
      "step": 73750
    },
    {
      "epoch": 10.985254691689008,
      "grad_norm": 0.0027318464126437902,
      "learning_rate": 2.5064988355908952e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42797624,
      "step": 73755
    },
    {
      "epoch": 10.985999404229966,
      "grad_norm": 0.0005662182811647654,
      "learning_rate": 2.5061738944893115e-05,
      "loss": 0.1915,
      "num_input_tokens_seen": 42800440,
      "step": 73760
    },
    {
      "epoch": 10.986744116770927,
      "grad_norm": 0.016115320846438408,
      "learning_rate": 2.5058489532834262e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 42803288,
      "step": 73765
    },
    {
      "epoch": 10.987488829311886,
      "grad_norm": 0.008305937983095646,
      "learning_rate": 2.5055240119787287e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42806168,
      "step": 73770
    },
    {
      "epoch": 10.988233541852845,
      "grad_norm": 24.668210983276367,
      "learning_rate": 2.5051990705807092e-05,
      "loss": 0.1782,
      "num_input_tokens_seen": 42808856,
      "step": 73775
    },
    {
      "epoch": 10.988978254393803,
      "grad_norm": 0.019268212839961052,
      "learning_rate": 2.504874129094856e-05,
      "loss": 0.2728,
      "num_input_tokens_seen": 42811736,
      "step": 73780
    },
    {
      "epoch": 10.989722966934764,
      "grad_norm": 0.0324183851480484,
      "learning_rate": 2.504549187526659e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 42814648,
      "step": 73785
    },
    {
      "epoch": 10.990467679475723,
      "grad_norm": 48.84165954589844,
      "learning_rate": 2.504224245881609e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 42817496,
      "step": 73790
    },
    {
      "epoch": 10.991212392016681,
      "grad_norm": 5.267954349517822,
      "learning_rate": 2.5038993041651947e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 42820472,
      "step": 73795
    },
    {
      "epoch": 10.99195710455764,
      "grad_norm": 0.4837499260902405,
      "learning_rate": 2.503574362382905e-05,
      "loss": 0.1509,
      "num_input_tokens_seen": 42823480,
      "step": 73800
    },
    {
      "epoch": 10.9927018170986,
      "grad_norm": 36.63617706298828,
      "learning_rate": 2.5032494205402303e-05,
      "loss": 0.1804,
      "num_input_tokens_seen": 42826520,
      "step": 73805
    },
    {
      "epoch": 10.99344652963956,
      "grad_norm": 0.015041006729006767,
      "learning_rate": 2.5029244786426603e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42829368,
      "step": 73810
    },
    {
      "epoch": 10.994191242180518,
      "grad_norm": 0.0038862433284521103,
      "learning_rate": 2.5025995366956835e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 42832152,
      "step": 73815
    },
    {
      "epoch": 10.994935954721477,
      "grad_norm": 16.805030822753906,
      "learning_rate": 2.5022745947047904e-05,
      "loss": 0.3324,
      "num_input_tokens_seen": 42834968,
      "step": 73820
    },
    {
      "epoch": 10.995680667262437,
      "grad_norm": 0.003457437502220273,
      "learning_rate": 2.5019496526754705e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 42838072,
      "step": 73825
    },
    {
      "epoch": 10.996425379803396,
      "grad_norm": 0.4916788339614868,
      "learning_rate": 2.501624710613213e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 42840856,
      "step": 73830
    },
    {
      "epoch": 10.997170092344355,
      "grad_norm": 5.573967933654785,
      "learning_rate": 2.501299768523508e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 42843608,
      "step": 73835
    },
    {
      "epoch": 10.997914804885314,
      "grad_norm": 0.0007990774465724826,
      "learning_rate": 2.5009748264118442e-05,
      "loss": 0.0456,
      "num_input_tokens_seen": 42846616,
      "step": 73840
    },
    {
      "epoch": 10.998659517426274,
      "grad_norm": 3.5692617893218994,
      "learning_rate": 2.500649884283713e-05,
      "loss": 0.0557,
      "num_input_tokens_seen": 42849592,
      "step": 73845
    },
    {
      "epoch": 10.999404229967233,
      "grad_norm": 25.005285263061523,
      "learning_rate": 2.5003249421446012e-05,
      "loss": 0.2557,
      "num_input_tokens_seen": 42852504,
      "step": 73850
    },
    {
      "epoch": 11.0,
      "eval_loss": 1.6555758714675903,
      "eval_runtime": 49.2093,
      "eval_samples_per_second": 60.639,
      "eval_steps_per_second": 15.16,
      "num_input_tokens_seen": 42854488,
      "step": 73854
    },
    {
      "epoch": 11.000148942508192,
      "grad_norm": 0.010308191180229187,
      "learning_rate": 2.5e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 42855096,
      "step": 73855
    },
    {
      "epoch": 11.00089365504915,
      "grad_norm": 0.005882979836314917,
      "learning_rate": 2.4996750578553997e-05,
      "loss": 0.068,
      "num_input_tokens_seen": 42858328,
      "step": 73860
    },
    {
      "epoch": 11.001638367590111,
      "grad_norm": 0.07459067553281784,
      "learning_rate": 2.499350115716288e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42861336,
      "step": 73865
    },
    {
      "epoch": 11.00238308013107,
      "grad_norm": 0.00840255431830883,
      "learning_rate": 2.4990251735881563e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 42864248,
      "step": 73870
    },
    {
      "epoch": 11.003127792672029,
      "grad_norm": 0.005937036592513323,
      "learning_rate": 2.4987002314764926e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 42867064,
      "step": 73875
    },
    {
      "epoch": 11.003872505212987,
      "grad_norm": 0.0938839465379715,
      "learning_rate": 2.4983752893867877e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42870360,
      "step": 73880
    },
    {
      "epoch": 11.004617217753948,
      "grad_norm": 0.0880039781332016,
      "learning_rate": 2.4980503473245298e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 42872984,
      "step": 73885
    },
    {
      "epoch": 11.005361930294907,
      "grad_norm": 14.71137523651123,
      "learning_rate": 2.4977254052952102e-05,
      "loss": 0.1659,
      "num_input_tokens_seen": 42875992,
      "step": 73890
    },
    {
      "epoch": 11.006106642835865,
      "grad_norm": 0.006035794038325548,
      "learning_rate": 2.4974004633043168e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 42878584,
      "step": 73895
    },
    {
      "epoch": 11.006851355376824,
      "grad_norm": 0.1734309196472168,
      "learning_rate": 2.4970755213573403e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 42881336,
      "step": 73900
    },
    {
      "epoch": 11.007596067917783,
      "grad_norm": 0.0316036231815815,
      "learning_rate": 2.4967505794597703e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42884440,
      "step": 73905
    },
    {
      "epoch": 11.008340780458743,
      "grad_norm": 0.027620134875178337,
      "learning_rate": 2.4964256376170954e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42887096,
      "step": 73910
    },
    {
      "epoch": 11.009085492999702,
      "grad_norm": 19.91175651550293,
      "learning_rate": 2.4961006958348066e-05,
      "loss": 0.0547,
      "num_input_tokens_seen": 42890136,
      "step": 73915
    },
    {
      "epoch": 11.009830205540661,
      "grad_norm": 0.0029495737981051207,
      "learning_rate": 2.495775754118391e-05,
      "loss": 0.0055,
      "num_input_tokens_seen": 42892952,
      "step": 73920
    },
    {
      "epoch": 11.01057491808162,
      "grad_norm": 0.0489843524992466,
      "learning_rate": 2.4954508124733413e-05,
      "loss": 0.1161,
      "num_input_tokens_seen": 42895736,
      "step": 73925
    },
    {
      "epoch": 11.01131963062258,
      "grad_norm": 0.014776314608752728,
      "learning_rate": 2.495125870905144e-05,
      "loss": 0.1194,
      "num_input_tokens_seen": 42898552,
      "step": 73930
    },
    {
      "epoch": 11.012064343163539,
      "grad_norm": 0.004593515302985907,
      "learning_rate": 2.4948009294192913e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42901400,
      "step": 73935
    },
    {
      "epoch": 11.012809055704498,
      "grad_norm": 0.004208051599562168,
      "learning_rate": 2.494475988021272e-05,
      "loss": 0.0678,
      "num_input_tokens_seen": 42904280,
      "step": 73940
    },
    {
      "epoch": 11.013553768245457,
      "grad_norm": 0.16391198337078094,
      "learning_rate": 2.4941510467165744e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 42907000,
      "step": 73945
    },
    {
      "epoch": 11.014298480786417,
      "grad_norm": 0.006247291341423988,
      "learning_rate": 2.4938261055106894e-05,
      "loss": 0.0167,
      "num_input_tokens_seen": 42909816,
      "step": 73950
    },
    {
      "epoch": 11.015043193327376,
      "grad_norm": 0.00401943689212203,
      "learning_rate": 2.493501164409105e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42912536,
      "step": 73955
    },
    {
      "epoch": 11.015787905868335,
      "grad_norm": 0.0008296309970319271,
      "learning_rate": 2.493176223417313e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42915064,
      "step": 73960
    },
    {
      "epoch": 11.016532618409293,
      "grad_norm": 0.0012028964702039957,
      "learning_rate": 2.4928512825408006e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 42918744,
      "step": 73965
    },
    {
      "epoch": 11.017277330950254,
      "grad_norm": 0.005466541741043329,
      "learning_rate": 2.4925263417850598e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 42922136,
      "step": 73970
    },
    {
      "epoch": 11.018022043491213,
      "grad_norm": 0.014181459322571754,
      "learning_rate": 2.4922014011555784e-05,
      "loss": 0.1355,
      "num_input_tokens_seen": 42924856,
      "step": 73975
    },
    {
      "epoch": 11.018766756032171,
      "grad_norm": 0.010078663937747478,
      "learning_rate": 2.4918764606578465e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42927608,
      "step": 73980
    },
    {
      "epoch": 11.01951146857313,
      "grad_norm": 0.012306103482842445,
      "learning_rate": 2.491551520297354e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 42930712,
      "step": 73985
    },
    {
      "epoch": 11.02025618111409,
      "grad_norm": 0.004457641858607531,
      "learning_rate": 2.4912265800795885e-05,
      "loss": 0.1161,
      "num_input_tokens_seen": 42933720,
      "step": 73990
    },
    {
      "epoch": 11.02100089365505,
      "grad_norm": 0.21254144608974457,
      "learning_rate": 2.4909016400100423e-05,
      "loss": 0.1786,
      "num_input_tokens_seen": 42936792,
      "step": 73995
    },
    {
      "epoch": 11.021745606196008,
      "grad_norm": 0.0019069454865530133,
      "learning_rate": 2.490576700094203e-05,
      "loss": 0.1476,
      "num_input_tokens_seen": 42939512,
      "step": 74000
    },
    {
      "epoch": 11.022490318736967,
      "grad_norm": 0.008315273560583591,
      "learning_rate": 2.490251760337561e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42942552,
      "step": 74005
    },
    {
      "epoch": 11.023235031277927,
      "grad_norm": 0.18879146873950958,
      "learning_rate": 2.4899268207456055e-05,
      "loss": 0.0341,
      "num_input_tokens_seen": 42945304,
      "step": 74010
    },
    {
      "epoch": 11.023979743818886,
      "grad_norm": 0.11892630159854889,
      "learning_rate": 2.4896018813238263e-05,
      "loss": 0.1201,
      "num_input_tokens_seen": 42948024,
      "step": 74015
    },
    {
      "epoch": 11.024724456359845,
      "grad_norm": 0.03166941553354263,
      "learning_rate": 2.4892769420777134e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42950936,
      "step": 74020
    },
    {
      "epoch": 11.025469168900804,
      "grad_norm": 0.00601370120421052,
      "learning_rate": 2.4889520030127543e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42953976,
      "step": 74025
    },
    {
      "epoch": 11.026213881441764,
      "grad_norm": 18.462858200073242,
      "learning_rate": 2.488627064134441e-05,
      "loss": 0.2606,
      "num_input_tokens_seen": 42956920,
      "step": 74030
    },
    {
      "epoch": 11.026958593982723,
      "grad_norm": 0.0802488699555397,
      "learning_rate": 2.4883021254482612e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 42959800,
      "step": 74035
    },
    {
      "epoch": 11.027703306523682,
      "grad_norm": 0.011511614546179771,
      "learning_rate": 2.487977186959705e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42963000,
      "step": 74040
    },
    {
      "epoch": 11.02844801906464,
      "grad_norm": 0.0017502827104181051,
      "learning_rate": 2.487652248674262e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 42965944,
      "step": 74045
    },
    {
      "epoch": 11.029192731605601,
      "grad_norm": 0.03803453594446182,
      "learning_rate": 2.4873273105974227e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42969048,
      "step": 74050
    },
    {
      "epoch": 11.02993744414656,
      "grad_norm": 0.0014741566265001893,
      "learning_rate": 2.487002372734674e-05,
      "loss": 0.147,
      "num_input_tokens_seen": 42972088,
      "step": 74055
    },
    {
      "epoch": 11.030682156687519,
      "grad_norm": 0.0017322036437690258,
      "learning_rate": 2.4866774350915084e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42975000,
      "step": 74060
    },
    {
      "epoch": 11.031426869228477,
      "grad_norm": 0.002303977496922016,
      "learning_rate": 2.486352497673414e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 42977720,
      "step": 74065
    },
    {
      "epoch": 11.032171581769436,
      "grad_norm": 0.002780353184789419,
      "learning_rate": 2.4860275604858796e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 42980408,
      "step": 74070
    },
    {
      "epoch": 11.032916294310397,
      "grad_norm": 0.0011983078438788652,
      "learning_rate": 2.485702623534396e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 42983448,
      "step": 74075
    },
    {
      "epoch": 11.033661006851355,
      "grad_norm": 0.06805739551782608,
      "learning_rate": 2.485377686824451e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42986456,
      "step": 74080
    },
    {
      "epoch": 11.034405719392314,
      "grad_norm": 0.0012143709463998675,
      "learning_rate": 2.485052750361536e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 42989400,
      "step": 74085
    },
    {
      "epoch": 11.035150431933273,
      "grad_norm": 0.11283785849809647,
      "learning_rate": 2.4847278141511387e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 42992312,
      "step": 74090
    },
    {
      "epoch": 11.035895144474233,
      "grad_norm": 0.010904645547270775,
      "learning_rate": 2.4844028781987506e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 42994936,
      "step": 74095
    },
    {
      "epoch": 11.036639857015192,
      "grad_norm": 0.028750833123922348,
      "learning_rate": 2.48407794250986e-05,
      "loss": 0.0413,
      "num_input_tokens_seen": 42997880,
      "step": 74100
    },
    {
      "epoch": 11.037384569556151,
      "grad_norm": 0.004194599576294422,
      "learning_rate": 2.4837530070899557e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43000728,
      "step": 74105
    },
    {
      "epoch": 11.03812928209711,
      "grad_norm": 0.00738860759884119,
      "learning_rate": 2.483428071944528e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43003800,
      "step": 74110
    },
    {
      "epoch": 11.03887399463807,
      "grad_norm": 0.011973279528319836,
      "learning_rate": 2.483103137079066e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43006520,
      "step": 74115
    },
    {
      "epoch": 11.039618707179029,
      "grad_norm": 0.0036301701329648495,
      "learning_rate": 2.4827782024990596e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 43009496,
      "step": 74120
    },
    {
      "epoch": 11.040363419719988,
      "grad_norm": 0.0011751774000003934,
      "learning_rate": 2.4824532682099973e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 43012248,
      "step": 74125
    },
    {
      "epoch": 11.041108132260947,
      "grad_norm": 9.154939471045509e-05,
      "learning_rate": 2.48212833421737e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43015160,
      "step": 74130
    },
    {
      "epoch": 11.041852844801907,
      "grad_norm": 0.01143267285078764,
      "learning_rate": 2.4818034005266663e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 43018072,
      "step": 74135
    },
    {
      "epoch": 11.042597557342866,
      "grad_norm": 0.007195653859525919,
      "learning_rate": 2.481478467143376e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43020856,
      "step": 74140
    },
    {
      "epoch": 11.043342269883825,
      "grad_norm": 0.003992668353021145,
      "learning_rate": 2.4811535340729876e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43023448,
      "step": 74145
    },
    {
      "epoch": 11.044086982424783,
      "grad_norm": 0.014266792684793472,
      "learning_rate": 2.4808286013209905e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43026552,
      "step": 74150
    },
    {
      "epoch": 11.044831694965744,
      "grad_norm": 0.04505275934934616,
      "learning_rate": 2.4805036688928758e-05,
      "loss": 0.0464,
      "num_input_tokens_seen": 43029624,
      "step": 74155
    },
    {
      "epoch": 11.045576407506703,
      "grad_norm": 0.0028575670439749956,
      "learning_rate": 2.4801787367941305e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 43032760,
      "step": 74160
    },
    {
      "epoch": 11.046321120047661,
      "grad_norm": 0.0009588798275217414,
      "learning_rate": 2.4798538050302468e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43035736,
      "step": 74165
    },
    {
      "epoch": 11.04706583258862,
      "grad_norm": 0.0007916235481388867,
      "learning_rate": 2.4795288736067118e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43038392,
      "step": 74170
    },
    {
      "epoch": 11.04781054512958,
      "grad_norm": 46.9990234375,
      "learning_rate": 2.4792039425290163e-05,
      "loss": 0.0813,
      "num_input_tokens_seen": 43041240,
      "step": 74175
    },
    {
      "epoch": 11.04855525767054,
      "grad_norm": 0.010559141635894775,
      "learning_rate": 2.4788790118026487e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 43044120,
      "step": 74180
    },
    {
      "epoch": 11.049299970211498,
      "grad_norm": 0.03503881394863129,
      "learning_rate": 2.4785540814330978e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43046968,
      "step": 74185
    },
    {
      "epoch": 11.050044682752457,
      "grad_norm": 0.013819959945976734,
      "learning_rate": 2.478229151425855e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43049816,
      "step": 74190
    },
    {
      "epoch": 11.050789395293418,
      "grad_norm": 7.863638401031494,
      "learning_rate": 2.4779042217864077e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 43053080,
      "step": 74195
    },
    {
      "epoch": 11.051534107834376,
      "grad_norm": 0.03962867334485054,
      "learning_rate": 2.477579292520247e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43055800,
      "step": 74200
    },
    {
      "epoch": 11.052278820375335,
      "grad_norm": 0.00032183286384679377,
      "learning_rate": 2.477254363632861e-05,
      "loss": 0.0445,
      "num_input_tokens_seen": 43058648,
      "step": 74205
    },
    {
      "epoch": 11.053023532916294,
      "grad_norm": 0.016390889883041382,
      "learning_rate": 2.4769294351297398e-05,
      "loss": 0.0783,
      "num_input_tokens_seen": 43061784,
      "step": 74210
    },
    {
      "epoch": 11.053768245457254,
      "grad_norm": 0.0010006981901824474,
      "learning_rate": 2.4766045070163713e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 43064632,
      "step": 74215
    },
    {
      "epoch": 11.054512957998213,
      "grad_norm": 0.004159213043749332,
      "learning_rate": 2.476279579298247e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43067512,
      "step": 74220
    },
    {
      "epoch": 11.055257670539172,
      "grad_norm": 0.002930935239419341,
      "learning_rate": 2.475954651980855e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43070680,
      "step": 74225
    },
    {
      "epoch": 11.05600238308013,
      "grad_norm": 0.0009069341467693448,
      "learning_rate": 2.4756297250696837e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 43073752,
      "step": 74230
    },
    {
      "epoch": 11.056747095621091,
      "grad_norm": 0.0015065501211211085,
      "learning_rate": 2.4753047985702243e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 43076632,
      "step": 74235
    },
    {
      "epoch": 11.05749180816205,
      "grad_norm": 0.002895455341786146,
      "learning_rate": 2.474979872487965e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43079288,
      "step": 74240
    },
    {
      "epoch": 11.058236520703009,
      "grad_norm": 0.16468851268291473,
      "learning_rate": 2.474654946828396e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43081912,
      "step": 74245
    },
    {
      "epoch": 11.058981233243967,
      "grad_norm": 0.06641106307506561,
      "learning_rate": 2.474330021597004e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 43084856,
      "step": 74250
    },
    {
      "epoch": 11.059725945784926,
      "grad_norm": 0.33200880885124207,
      "learning_rate": 2.474005096799282e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43087608,
      "step": 74255
    },
    {
      "epoch": 11.060470658325887,
      "grad_norm": 0.0009175293962471187,
      "learning_rate": 2.4736801724407174e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43090520,
      "step": 74260
    },
    {
      "epoch": 11.061215370866845,
      "grad_norm": 0.10309524089097977,
      "learning_rate": 2.4733552485267983e-05,
      "loss": 0.0419,
      "num_input_tokens_seen": 43093496,
      "step": 74265
    },
    {
      "epoch": 11.061960083407804,
      "grad_norm": 0.006532147992402315,
      "learning_rate": 2.4730303250630165e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43096632,
      "step": 74270
    },
    {
      "epoch": 11.062704795948763,
      "grad_norm": 0.4038752615451813,
      "learning_rate": 2.4727054020548592e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43099448,
      "step": 74275
    },
    {
      "epoch": 11.063449508489724,
      "grad_norm": 0.0006491860840469599,
      "learning_rate": 2.4723804795078172e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43102456,
      "step": 74280
    },
    {
      "epoch": 11.064194221030682,
      "grad_norm": 0.019829949364066124,
      "learning_rate": 2.4720555574273775e-05,
      "loss": 0.0289,
      "num_input_tokens_seen": 43105304,
      "step": 74285
    },
    {
      "epoch": 11.064938933571641,
      "grad_norm": 0.00047491161967627704,
      "learning_rate": 2.471730635819032e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43108376,
      "step": 74290
    },
    {
      "epoch": 11.0656836461126,
      "grad_norm": 0.010338773019611835,
      "learning_rate": 2.4714057146882676e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 43111256,
      "step": 74295
    },
    {
      "epoch": 11.06642835865356,
      "grad_norm": 0.10006707161664963,
      "learning_rate": 2.4710807940405756e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 43114296,
      "step": 74300
    },
    {
      "epoch": 11.067173071194519,
      "grad_norm": 2.5275821826653555e-05,
      "learning_rate": 2.470755873881444e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43116888,
      "step": 74305
    },
    {
      "epoch": 11.067917783735478,
      "grad_norm": 0.0023125559091567993,
      "learning_rate": 2.470430954216362e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43119896,
      "step": 74310
    },
    {
      "epoch": 11.068662496276437,
      "grad_norm": 0.04634144902229309,
      "learning_rate": 2.4701060350508194e-05,
      "loss": 0.0229,
      "num_input_tokens_seen": 43122936,
      "step": 74315
    },
    {
      "epoch": 11.069407208817397,
      "grad_norm": 0.005829896777868271,
      "learning_rate": 2.4697811163903036e-05,
      "loss": 0.019,
      "num_input_tokens_seen": 43126072,
      "step": 74320
    },
    {
      "epoch": 11.070151921358356,
      "grad_norm": 0.0003052718238905072,
      "learning_rate": 2.4694561982403065e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43128856,
      "step": 74325
    },
    {
      "epoch": 11.070896633899315,
      "grad_norm": 0.0009000279824249446,
      "learning_rate": 2.4691312806063154e-05,
      "loss": 0.0461,
      "num_input_tokens_seen": 43131896,
      "step": 74330
    },
    {
      "epoch": 11.071641346440273,
      "grad_norm": 14.374734878540039,
      "learning_rate": 2.4688063634938198e-05,
      "loss": 0.0605,
      "num_input_tokens_seen": 43134552,
      "step": 74335
    },
    {
      "epoch": 11.072386058981234,
      "grad_norm": 0.0005229542730376124,
      "learning_rate": 2.46848144690831e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43137528,
      "step": 74340
    },
    {
      "epoch": 11.073130771522193,
      "grad_norm": 4.652064308174886e-05,
      "learning_rate": 2.468156530855273e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43140536,
      "step": 74345
    },
    {
      "epoch": 11.073875484063151,
      "grad_norm": 0.00020428127027116716,
      "learning_rate": 2.4678316153401994e-05,
      "loss": 0.3228,
      "num_input_tokens_seen": 43143160,
      "step": 74350
    },
    {
      "epoch": 11.07462019660411,
      "grad_norm": 0.001390888006426394,
      "learning_rate": 2.4675067003685776e-05,
      "loss": 0.0244,
      "num_input_tokens_seen": 43145848,
      "step": 74355
    },
    {
      "epoch": 11.07536490914507,
      "grad_norm": 0.0014571548672392964,
      "learning_rate": 2.4671817859458974e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43148632,
      "step": 74360
    },
    {
      "epoch": 11.07610962168603,
      "grad_norm": 0.01720663718879223,
      "learning_rate": 2.4668568720776478e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43151256,
      "step": 74365
    },
    {
      "epoch": 11.076854334226988,
      "grad_norm": 0.04772412031888962,
      "learning_rate": 2.466531958769317e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43154296,
      "step": 74370
    },
    {
      "epoch": 11.077599046767947,
      "grad_norm": 0.002821423811838031,
      "learning_rate": 2.466207046026395e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43157208,
      "step": 74375
    },
    {
      "epoch": 11.078343759308908,
      "grad_norm": 0.002951044123619795,
      "learning_rate": 2.4658821338543713e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 43160408,
      "step": 74380
    },
    {
      "epoch": 11.079088471849866,
      "grad_norm": 0.028284171596169472,
      "learning_rate": 2.465557222258734e-05,
      "loss": 0.0562,
      "num_input_tokens_seen": 43163544,
      "step": 74385
    },
    {
      "epoch": 11.079833184390825,
      "grad_norm": 0.0019163885153830051,
      "learning_rate": 2.4652323112449716e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 43166680,
      "step": 74390
    },
    {
      "epoch": 11.080577896931784,
      "grad_norm": 0.004021984059363604,
      "learning_rate": 2.464907400818575e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 43169528,
      "step": 74395
    },
    {
      "epoch": 11.081322609472744,
      "grad_norm": 0.00166911946143955,
      "learning_rate": 2.4645824909850316e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 43172888,
      "step": 74400
    },
    {
      "epoch": 11.082067322013703,
      "grad_norm": 3.077366828918457,
      "learning_rate": 2.4642575817498313e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 43175736,
      "step": 74405
    },
    {
      "epoch": 11.082812034554662,
      "grad_norm": 0.004251393955200911,
      "learning_rate": 2.463932673118462e-05,
      "loss": 0.074,
      "num_input_tokens_seen": 43178552,
      "step": 74410
    },
    {
      "epoch": 11.08355674709562,
      "grad_norm": 0.03654960170388222,
      "learning_rate": 2.463607765096415e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 43181496,
      "step": 74415
    },
    {
      "epoch": 11.08430145963658,
      "grad_norm": 0.0032329950481653214,
      "learning_rate": 2.4632828576891774e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 43184152,
      "step": 74420
    },
    {
      "epoch": 11.08504617217754,
      "grad_norm": 0.00020343612413853407,
      "learning_rate": 2.4629579509022374e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 43187448,
      "step": 74425
    },
    {
      "epoch": 11.085790884718499,
      "grad_norm": 0.005568728316575289,
      "learning_rate": 2.4626330447410864e-05,
      "loss": 0.2313,
      "num_input_tokens_seen": 43190328,
      "step": 74430
    },
    {
      "epoch": 11.086535597259457,
      "grad_norm": 0.0005368932033888996,
      "learning_rate": 2.4623081392112117e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43193048,
      "step": 74435
    },
    {
      "epoch": 11.087280309800416,
      "grad_norm": 0.0005242641200311482,
      "learning_rate": 2.4619832343181028e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43196376,
      "step": 74440
    },
    {
      "epoch": 11.088025022341377,
      "grad_norm": 0.019698524847626686,
      "learning_rate": 2.461658330067248e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 43199256,
      "step": 74445
    },
    {
      "epoch": 11.088769734882336,
      "grad_norm": 0.00019753175729420036,
      "learning_rate": 2.4613334264641373e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43201944,
      "step": 74450
    },
    {
      "epoch": 11.089514447423294,
      "grad_norm": 0.001103476621210575,
      "learning_rate": 2.4610085235142586e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43204984,
      "step": 74455
    },
    {
      "epoch": 11.090259159964253,
      "grad_norm": 0.0013232178753241897,
      "learning_rate": 2.4606836212231018e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43207640,
      "step": 74460
    },
    {
      "epoch": 11.091003872505214,
      "grad_norm": 0.0004929343122057617,
      "learning_rate": 2.4603587195961554e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 43210776,
      "step": 74465
    },
    {
      "epoch": 11.091748585046172,
      "grad_norm": 9.93635767372325e-05,
      "learning_rate": 2.460033818638908e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 43213784,
      "step": 74470
    },
    {
      "epoch": 11.092493297587131,
      "grad_norm": 0.057096704840660095,
      "learning_rate": 2.4597089183568488e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43216728,
      "step": 74475
    },
    {
      "epoch": 11.09323801012809,
      "grad_norm": 0.00014050841855350882,
      "learning_rate": 2.4593840187554654e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43219960,
      "step": 74480
    },
    {
      "epoch": 11.09398272266905,
      "grad_norm": 0.00012852581858169287,
      "learning_rate": 2.459059119840249e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 43222872,
      "step": 74485
    },
    {
      "epoch": 11.09472743521001,
      "grad_norm": 0.12536045908927917,
      "learning_rate": 2.4587342216166856e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43225880,
      "step": 74490
    },
    {
      "epoch": 11.095472147750968,
      "grad_norm": 0.0005380279617384076,
      "learning_rate": 2.458409324090267e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43228632,
      "step": 74495
    },
    {
      "epoch": 11.096216860291927,
      "grad_norm": 0.0010131263406947255,
      "learning_rate": 2.45808442726648e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43231704,
      "step": 74500
    },
    {
      "epoch": 11.096961572832887,
      "grad_norm": 0.0009611407294869423,
      "learning_rate": 2.4577595311508143e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43234808,
      "step": 74505
    },
    {
      "epoch": 11.097706285373846,
      "grad_norm": 0.011956953443586826,
      "learning_rate": 2.4574346357487588e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 43237880,
      "step": 74510
    },
    {
      "epoch": 11.098450997914805,
      "grad_norm": 0.0005508394096978009,
      "learning_rate": 2.4571097410658006e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43240632,
      "step": 74515
    },
    {
      "epoch": 11.099195710455763,
      "grad_norm": 0.0007333309622481465,
      "learning_rate": 2.4567848471074307e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 43243416,
      "step": 74520
    },
    {
      "epoch": 11.099940422996724,
      "grad_norm": 0.002568713389337063,
      "learning_rate": 2.4564599538791362e-05,
      "loss": 0.1283,
      "num_input_tokens_seen": 43246456,
      "step": 74525
    },
    {
      "epoch": 11.100685135537683,
      "grad_norm": 0.05515097454190254,
      "learning_rate": 2.4561350613864074e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43249080,
      "step": 74530
    },
    {
      "epoch": 11.101429848078642,
      "grad_norm": 0.004957166500389576,
      "learning_rate": 2.4558101696347315e-05,
      "loss": 0.0581,
      "num_input_tokens_seen": 43252184,
      "step": 74535
    },
    {
      "epoch": 11.1021745606196,
      "grad_norm": 0.03288046270608902,
      "learning_rate": 2.4554852786295985e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43255128,
      "step": 74540
    },
    {
      "epoch": 11.10291927316056,
      "grad_norm": 0.0047056786715984344,
      "learning_rate": 2.4551603883764963e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 43257944,
      "step": 74545
    },
    {
      "epoch": 11.10366398570152,
      "grad_norm": 0.017828118056058884,
      "learning_rate": 2.454835498880913e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43260568,
      "step": 74550
    },
    {
      "epoch": 11.104408698242478,
      "grad_norm": 0.0004900561762042344,
      "learning_rate": 2.454510610148339e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43263448,
      "step": 74555
    },
    {
      "epoch": 11.105153410783437,
      "grad_norm": 0.05042558163404465,
      "learning_rate": 2.454185722184261e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43266744,
      "step": 74560
    },
    {
      "epoch": 11.105898123324398,
      "grad_norm": 0.0017387571278959513,
      "learning_rate": 2.4538608349941695e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43269496,
      "step": 74565
    },
    {
      "epoch": 11.106642835865356,
      "grad_norm": 0.03482397273182869,
      "learning_rate": 2.453535948583552e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43272344,
      "step": 74570
    },
    {
      "epoch": 11.107387548406315,
      "grad_norm": 3.05899977684021,
      "learning_rate": 2.453211062957898e-05,
      "loss": 0.074,
      "num_input_tokens_seen": 43275320,
      "step": 74575
    },
    {
      "epoch": 11.108132260947274,
      "grad_norm": 0.0032161634881049395,
      "learning_rate": 2.4528861781226942e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 43278328,
      "step": 74580
    },
    {
      "epoch": 11.108876973488233,
      "grad_norm": 0.010685899294912815,
      "learning_rate": 2.4525612940834315e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43281144,
      "step": 74585
    },
    {
      "epoch": 11.109621686029193,
      "grad_norm": 0.0024760952219367027,
      "learning_rate": 2.452236410845598e-05,
      "loss": 0.0735,
      "num_input_tokens_seen": 43284216,
      "step": 74590
    },
    {
      "epoch": 11.110366398570152,
      "grad_norm": 0.0011289975373074412,
      "learning_rate": 2.4519115284146806e-05,
      "loss": 0.2188,
      "num_input_tokens_seen": 43287000,
      "step": 74595
    },
    {
      "epoch": 11.11111111111111,
      "grad_norm": 3.6479108333587646,
      "learning_rate": 2.45158664679617e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 43289944,
      "step": 74600
    },
    {
      "epoch": 11.11185582365207,
      "grad_norm": 0.0015594380674883723,
      "learning_rate": 2.4512617659955532e-05,
      "loss": 0.1139,
      "num_input_tokens_seen": 43292792,
      "step": 74605
    },
    {
      "epoch": 11.11260053619303,
      "grad_norm": 0.004338516388088465,
      "learning_rate": 2.45093688601832e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43295896,
      "step": 74610
    },
    {
      "epoch": 11.113345248733989,
      "grad_norm": 0.004636057186871767,
      "learning_rate": 2.450612006869957e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43298968,
      "step": 74615
    },
    {
      "epoch": 11.114089961274948,
      "grad_norm": 0.005071213003247976,
      "learning_rate": 2.450287128555955e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43301880,
      "step": 74620
    },
    {
      "epoch": 11.114834673815906,
      "grad_norm": 0.007272315677255392,
      "learning_rate": 2.4499622510818017e-05,
      "loss": 0.1438,
      "num_input_tokens_seen": 43304792,
      "step": 74625
    },
    {
      "epoch": 11.115579386356867,
      "grad_norm": 0.03561139851808548,
      "learning_rate": 2.4496373744529842e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43307896,
      "step": 74630
    },
    {
      "epoch": 11.116324098897826,
      "grad_norm": 108.30422973632812,
      "learning_rate": 2.449312498674993e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 43310904,
      "step": 74635
    },
    {
      "epoch": 11.117068811438784,
      "grad_norm": 26.870769500732422,
      "learning_rate": 2.448987623753315e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 43313688,
      "step": 74640
    },
    {
      "epoch": 11.117813523979743,
      "grad_norm": 0.025518639013171196,
      "learning_rate": 2.44866274969344e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43316920,
      "step": 74645
    },
    {
      "epoch": 11.118558236520704,
      "grad_norm": 0.04033299908041954,
      "learning_rate": 2.4483378765008543e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 43319576,
      "step": 74650
    },
    {
      "epoch": 11.119302949061662,
      "grad_norm": 0.0006252944585867226,
      "learning_rate": 2.4480130041810493e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43322232,
      "step": 74655
    },
    {
      "epoch": 11.120047661602621,
      "grad_norm": 0.0010105957044288516,
      "learning_rate": 2.4476881327395108e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43324824,
      "step": 74660
    },
    {
      "epoch": 11.12079237414358,
      "grad_norm": 83.78142547607422,
      "learning_rate": 2.447363262181728e-05,
      "loss": 0.1819,
      "num_input_tokens_seen": 43327448,
      "step": 74665
    },
    {
      "epoch": 11.12153708668454,
      "grad_norm": 0.002207179320976138,
      "learning_rate": 2.44703839251319e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43330584,
      "step": 74670
    },
    {
      "epoch": 11.1222817992255,
      "grad_norm": 183.49957275390625,
      "learning_rate": 2.4467135237393842e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 43333496,
      "step": 74675
    },
    {
      "epoch": 11.123026511766458,
      "grad_norm": 0.009848779998719692,
      "learning_rate": 2.4463886558658e-05,
      "loss": 0.2439,
      "num_input_tokens_seen": 43336376,
      "step": 74680
    },
    {
      "epoch": 11.123771224307417,
      "grad_norm": 86.9408187866211,
      "learning_rate": 2.4460637888979234e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 43339288,
      "step": 74685
    },
    {
      "epoch": 11.124515936848377,
      "grad_norm": 360.480712890625,
      "learning_rate": 2.4457389228412457e-05,
      "loss": 0.1464,
      "num_input_tokens_seen": 43342392,
      "step": 74690
    },
    {
      "epoch": 11.125260649389336,
      "grad_norm": 0.02163306437432766,
      "learning_rate": 2.445414057701253e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 43345048,
      "step": 74695
    },
    {
      "epoch": 11.126005361930295,
      "grad_norm": 0.024697093293070793,
      "learning_rate": 2.4450891934834345e-05,
      "loss": 0.0592,
      "num_input_tokens_seen": 43348088,
      "step": 74700
    },
    {
      "epoch": 11.126750074471254,
      "grad_norm": 0.0010474169394001365,
      "learning_rate": 2.4447643301932785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43351160,
      "step": 74705
    },
    {
      "epoch": 11.127494787012214,
      "grad_norm": 0.0006755441427230835,
      "learning_rate": 2.4444394678362727e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43353976,
      "step": 74710
    },
    {
      "epoch": 11.128239499553173,
      "grad_norm": 0.04218586906790733,
      "learning_rate": 2.444114606417906e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43356920,
      "step": 74715
    },
    {
      "epoch": 11.128984212094132,
      "grad_norm": 0.0006803016876801848,
      "learning_rate": 2.4437897459436654e-05,
      "loss": 0.0461,
      "num_input_tokens_seen": 43359864,
      "step": 74720
    },
    {
      "epoch": 11.12972892463509,
      "grad_norm": 3.538986921310425,
      "learning_rate": 2.4434648864190405e-05,
      "loss": 0.0139,
      "num_input_tokens_seen": 43362680,
      "step": 74725
    },
    {
      "epoch": 11.13047363717605,
      "grad_norm": 0.251136839389801,
      "learning_rate": 2.4431400278495188e-05,
      "loss": 0.2717,
      "num_input_tokens_seen": 43365688,
      "step": 74730
    },
    {
      "epoch": 11.13121834971701,
      "grad_norm": 0.02495494857430458,
      "learning_rate": 2.442815170240589e-05,
      "loss": 0.1677,
      "num_input_tokens_seen": 43368600,
      "step": 74735
    },
    {
      "epoch": 11.131963062257968,
      "grad_norm": 0.002491600112989545,
      "learning_rate": 2.442490313597738e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 43371000,
      "step": 74740
    },
    {
      "epoch": 11.132707774798927,
      "grad_norm": 0.0044999197125434875,
      "learning_rate": 2.4421654579264553e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43373592,
      "step": 74745
    },
    {
      "epoch": 11.133452487339888,
      "grad_norm": 8.101587445707992e-05,
      "learning_rate": 2.4418406032322286e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43376408,
      "step": 74750
    },
    {
      "epoch": 11.134197199880846,
      "grad_norm": 0.0006049670046195388,
      "learning_rate": 2.4415157495205445e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 43379160,
      "step": 74755
    },
    {
      "epoch": 11.134941912421805,
      "grad_norm": 0.001059728441759944,
      "learning_rate": 2.4411908967968938e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43381944,
      "step": 74760
    },
    {
      "epoch": 11.135686624962764,
      "grad_norm": 0.00015827790775801986,
      "learning_rate": 2.4408660450667626e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 43384792,
      "step": 74765
    },
    {
      "epoch": 11.136431337503723,
      "grad_norm": 0.001360240625217557,
      "learning_rate": 2.4405411943356398e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43387608,
      "step": 74770
    },
    {
      "epoch": 11.137176050044683,
      "grad_norm": 127.5385971069336,
      "learning_rate": 2.440216344609012e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 43390360,
      "step": 74775
    },
    {
      "epoch": 11.137920762585642,
      "grad_norm": 0.022403201088309288,
      "learning_rate": 2.4398914958923695e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 43393304,
      "step": 74780
    },
    {
      "epoch": 11.1386654751266,
      "grad_norm": 0.000989493215456605,
      "learning_rate": 2.439566648191199e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43396216,
      "step": 74785
    },
    {
      "epoch": 11.13941018766756,
      "grad_norm": 0.06984085589647293,
      "learning_rate": 2.439241801510987e-05,
      "loss": 0.0533,
      "num_input_tokens_seen": 43399000,
      "step": 74790
    },
    {
      "epoch": 11.14015490020852,
      "grad_norm": 0.0010396630968898535,
      "learning_rate": 2.4389169558572247e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43401944,
      "step": 74795
    },
    {
      "epoch": 11.140899612749479,
      "grad_norm": 0.005178909283131361,
      "learning_rate": 2.4385921112353978e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 43404888,
      "step": 74800
    },
    {
      "epoch": 11.141644325290438,
      "grad_norm": 0.0038311034440994263,
      "learning_rate": 2.438267267650995e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 43407768,
      "step": 74805
    },
    {
      "epoch": 11.142389037831396,
      "grad_norm": 0.0016836731228977442,
      "learning_rate": 2.4379424251095034e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 43410680,
      "step": 74810
    },
    {
      "epoch": 11.143133750372357,
      "grad_norm": 0.008761619217693806,
      "learning_rate": 2.4376175836164122e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43413528,
      "step": 74815
    },
    {
      "epoch": 11.143878462913316,
      "grad_norm": 0.003391280071809888,
      "learning_rate": 2.4372927431772076e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43416184,
      "step": 74820
    },
    {
      "epoch": 11.144623175454274,
      "grad_norm": 0.003272815840318799,
      "learning_rate": 2.4369679037973792e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 43418968,
      "step": 74825
    },
    {
      "epoch": 11.145367887995233,
      "grad_norm": 0.013351724483072758,
      "learning_rate": 2.436643065482414e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43421720,
      "step": 74830
    },
    {
      "epoch": 11.146112600536194,
      "grad_norm": 0.5725886821746826,
      "learning_rate": 2.4363182282377994e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 43424792,
      "step": 74835
    },
    {
      "epoch": 11.146857313077152,
      "grad_norm": 0.00015532273391727358,
      "learning_rate": 2.4359933920690242e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43427736,
      "step": 74840
    },
    {
      "epoch": 11.147602025618111,
      "grad_norm": 0.00466779712587595,
      "learning_rate": 2.4356685569815742e-05,
      "loss": 0.1541,
      "num_input_tokens_seen": 43430712,
      "step": 74845
    },
    {
      "epoch": 11.14834673815907,
      "grad_norm": 15.932591438293457,
      "learning_rate": 2.43534372298094e-05,
      "loss": 0.0623,
      "num_input_tokens_seen": 43433624,
      "step": 74850
    },
    {
      "epoch": 11.14909145070003,
      "grad_norm": 0.000803806004114449,
      "learning_rate": 2.4350188900726068e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43436984,
      "step": 74855
    },
    {
      "epoch": 11.14983616324099,
      "grad_norm": 0.0016228256281465292,
      "learning_rate": 2.4346940582620644e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 43439608,
      "step": 74860
    },
    {
      "epoch": 11.150580875781948,
      "grad_norm": 0.0022858993615955114,
      "learning_rate": 2.4343692275547993e-05,
      "loss": 0.022,
      "num_input_tokens_seen": 43442360,
      "step": 74865
    },
    {
      "epoch": 11.151325588322907,
      "grad_norm": 1.166268229484558,
      "learning_rate": 2.434044397956299e-05,
      "loss": 0.2262,
      "num_input_tokens_seen": 43445048,
      "step": 74870
    },
    {
      "epoch": 11.152070300863867,
      "grad_norm": 0.0003469587245490402,
      "learning_rate": 2.433719569472052e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43447736,
      "step": 74875
    },
    {
      "epoch": 11.152815013404826,
      "grad_norm": 0.0006558515015058219,
      "learning_rate": 2.433394742107545e-05,
      "loss": 0.1143,
      "num_input_tokens_seen": 43450936,
      "step": 74880
    },
    {
      "epoch": 11.153559725945785,
      "grad_norm": 0.0024817930534482002,
      "learning_rate": 2.4330699158682666e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 43454008,
      "step": 74885
    },
    {
      "epoch": 11.154304438486744,
      "grad_norm": 0.0022351716179400682,
      "learning_rate": 2.432745090759703e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43457048,
      "step": 74890
    },
    {
      "epoch": 11.155049151027704,
      "grad_norm": 0.03173518553376198,
      "learning_rate": 2.432420266787344e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43459704,
      "step": 74895
    },
    {
      "epoch": 11.155793863568663,
      "grad_norm": 0.0022256295196712017,
      "learning_rate": 2.4320954439566752e-05,
      "loss": 0.0457,
      "num_input_tokens_seen": 43462552,
      "step": 74900
    },
    {
      "epoch": 11.156538576109622,
      "grad_norm": 0.0009994044667109847,
      "learning_rate": 2.4317706222731853e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43465560,
      "step": 74905
    },
    {
      "epoch": 11.15728328865058,
      "grad_norm": 0.010489732027053833,
      "learning_rate": 2.4314458017423618e-05,
      "loss": 0.0233,
      "num_input_tokens_seen": 43468568,
      "step": 74910
    },
    {
      "epoch": 11.158028001191541,
      "grad_norm": 0.00012491019151639193,
      "learning_rate": 2.43112098236969e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43471448,
      "step": 74915
    },
    {
      "epoch": 11.1587727137325,
      "grad_norm": 0.000404078746214509,
      "learning_rate": 2.430796164160661e-05,
      "loss": 0.0703,
      "num_input_tokens_seen": 43474264,
      "step": 74920
    },
    {
      "epoch": 11.159517426273458,
      "grad_norm": 0.020764874294400215,
      "learning_rate": 2.430471347120759e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43477304,
      "step": 74925
    },
    {
      "epoch": 11.160262138814417,
      "grad_norm": 0.01827629655599594,
      "learning_rate": 2.4301465312554743e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43480440,
      "step": 74930
    },
    {
      "epoch": 11.161006851355376,
      "grad_norm": 1.7575995922088623,
      "learning_rate": 2.429821716570292e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 43483384,
      "step": 74935
    },
    {
      "epoch": 11.161751563896336,
      "grad_norm": 0.002934330375865102,
      "learning_rate": 2.4294969030707013e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43486328,
      "step": 74940
    },
    {
      "epoch": 11.162496276437295,
      "grad_norm": 35.9714241027832,
      "learning_rate": 2.4291720907621886e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 43489080,
      "step": 74945
    },
    {
      "epoch": 11.163240988978254,
      "grad_norm": 0.003520095953717828,
      "learning_rate": 2.4288472796502407e-05,
      "loss": 0.1214,
      "num_input_tokens_seen": 43492152,
      "step": 74950
    },
    {
      "epoch": 11.163985701519213,
      "grad_norm": 0.14335617423057556,
      "learning_rate": 2.4285224697403464e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43494904,
      "step": 74955
    },
    {
      "epoch": 11.164730414060173,
      "grad_norm": 0.009783171117305756,
      "learning_rate": 2.4281976610379914e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43497592,
      "step": 74960
    },
    {
      "epoch": 11.165475126601132,
      "grad_norm": 393.2607727050781,
      "learning_rate": 2.427872853548665e-05,
      "loss": 0.0565,
      "num_input_tokens_seen": 43500440,
      "step": 74965
    },
    {
      "epoch": 11.16621983914209,
      "grad_norm": 0.014033948071300983,
      "learning_rate": 2.427548047277853e-05,
      "loss": 0.0382,
      "num_input_tokens_seen": 43503384,
      "step": 74970
    },
    {
      "epoch": 11.16696455168305,
      "grad_norm": 0.008997545577585697,
      "learning_rate": 2.4272232422310436e-05,
      "loss": 0.4407,
      "num_input_tokens_seen": 43506264,
      "step": 74975
    },
    {
      "epoch": 11.16770926422401,
      "grad_norm": 1.0375267267227173,
      "learning_rate": 2.4268984384137225e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43509336,
      "step": 74980
    },
    {
      "epoch": 11.168453976764969,
      "grad_norm": 0.0004824650241062045,
      "learning_rate": 2.426573635831379e-05,
      "loss": 0.0755,
      "num_input_tokens_seen": 43512248,
      "step": 74985
    },
    {
      "epoch": 11.169198689305928,
      "grad_norm": 1.5399025678634644,
      "learning_rate": 2.426248834489499e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 43515128,
      "step": 74990
    },
    {
      "epoch": 11.169943401846886,
      "grad_norm": 0.0007644093129783869,
      "learning_rate": 2.4259240343935695e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43517848,
      "step": 74995
    },
    {
      "epoch": 11.170688114387847,
      "grad_norm": 20.454940795898438,
      "learning_rate": 2.4255992355490788e-05,
      "loss": 0.0462,
      "num_input_tokens_seen": 43520888,
      "step": 75000
    },
    {
      "epoch": 11.171432826928806,
      "grad_norm": 0.003971657250076532,
      "learning_rate": 2.425274437961513e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43523896,
      "step": 75005
    },
    {
      "epoch": 11.172177539469764,
      "grad_norm": 0.001153095392510295,
      "learning_rate": 2.42494964163636e-05,
      "loss": 0.1478,
      "num_input_tokens_seen": 43526808,
      "step": 75010
    },
    {
      "epoch": 11.172922252010723,
      "grad_norm": 1.7173540592193604,
      "learning_rate": 2.4246248465791058e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 43529592,
      "step": 75015
    },
    {
      "epoch": 11.173666964551684,
      "grad_norm": 6.571686744689941,
      "learning_rate": 2.4243000527952388e-05,
      "loss": 0.0337,
      "num_input_tokens_seen": 43532472,
      "step": 75020
    },
    {
      "epoch": 11.174411677092642,
      "grad_norm": 0.003656647866591811,
      "learning_rate": 2.423975260290246e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43535096,
      "step": 75025
    },
    {
      "epoch": 11.175156389633601,
      "grad_norm": 0.010720466263592243,
      "learning_rate": 2.4236504690696125e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43538136,
      "step": 75030
    },
    {
      "epoch": 11.17590110217456,
      "grad_norm": 0.002338988007977605,
      "learning_rate": 2.423325679138828e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 43541016,
      "step": 75035
    },
    {
      "epoch": 11.17664581471552,
      "grad_norm": 0.2589421272277832,
      "learning_rate": 2.4230008905033774e-05,
      "loss": 0.1458,
      "num_input_tokens_seen": 43543832,
      "step": 75040
    },
    {
      "epoch": 11.17739052725648,
      "grad_norm": 0.015127505175769329,
      "learning_rate": 2.4226761031687496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43546360,
      "step": 75045
    },
    {
      "epoch": 11.178135239797438,
      "grad_norm": 0.0008057479280978441,
      "learning_rate": 2.4223513171404288e-05,
      "loss": 0.0698,
      "num_input_tokens_seen": 43549656,
      "step": 75050
    },
    {
      "epoch": 11.178879952338397,
      "grad_norm": 16.15135955810547,
      "learning_rate": 2.4220265324239045e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 43552856,
      "step": 75055
    },
    {
      "epoch": 11.179624664879357,
      "grad_norm": 0.07807277143001556,
      "learning_rate": 2.4217017490246626e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43555704,
      "step": 75060
    },
    {
      "epoch": 11.180369377420316,
      "grad_norm": 0.0006353011121973395,
      "learning_rate": 2.4213769669481906e-05,
      "loss": 0.1439,
      "num_input_tokens_seen": 43558552,
      "step": 75065
    },
    {
      "epoch": 11.181114089961275,
      "grad_norm": 0.004053868819028139,
      "learning_rate": 2.421052186199974e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 43561400,
      "step": 75070
    },
    {
      "epoch": 11.181858802502234,
      "grad_norm": 0.0027751894667744637,
      "learning_rate": 2.420727406785501e-05,
      "loss": 0.0356,
      "num_input_tokens_seen": 43564856,
      "step": 75075
    },
    {
      "epoch": 11.182603515043194,
      "grad_norm": 0.0011222728062421083,
      "learning_rate": 2.4204026287102578e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43567832,
      "step": 75080
    },
    {
      "epoch": 11.183348227584153,
      "grad_norm": 0.0013865592190995812,
      "learning_rate": 2.4200778519797306e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 43570968,
      "step": 75085
    },
    {
      "epoch": 11.184092940125112,
      "grad_norm": 0.00023144965234678239,
      "learning_rate": 2.4197530765994082e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43573720,
      "step": 75090
    },
    {
      "epoch": 11.18483765266607,
      "grad_norm": 0.036654435098171234,
      "learning_rate": 2.4194283025747748e-05,
      "loss": 0.1473,
      "num_input_tokens_seen": 43576472,
      "step": 75095
    },
    {
      "epoch": 11.18558236520703,
      "grad_norm": 0.10674455761909485,
      "learning_rate": 2.4191035299113194e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43579320,
      "step": 75100
    },
    {
      "epoch": 11.18632707774799,
      "grad_norm": 0.007882891222834587,
      "learning_rate": 2.418778758614526e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43582232,
      "step": 75105
    },
    {
      "epoch": 11.187071790288948,
      "grad_norm": 1.6662795543670654,
      "learning_rate": 2.4184539886898846e-05,
      "loss": 0.0057,
      "num_input_tokens_seen": 43585304,
      "step": 75110
    },
    {
      "epoch": 11.187816502829907,
      "grad_norm": 0.0015304238768294454,
      "learning_rate": 2.41812922014288e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 43587800,
      "step": 75115
    },
    {
      "epoch": 11.188561215370866,
      "grad_norm": 0.0009808645118027925,
      "learning_rate": 2.417804452978998e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43590776,
      "step": 75120
    },
    {
      "epoch": 11.189305927911827,
      "grad_norm": 0.02397031895816326,
      "learning_rate": 2.417479687203727e-05,
      "loss": 0.3173,
      "num_input_tokens_seen": 43593624,
      "step": 75125
    },
    {
      "epoch": 11.190050640452785,
      "grad_norm": 0.0003259655786678195,
      "learning_rate": 2.4171549228225524e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 43596984,
      "step": 75130
    },
    {
      "epoch": 11.190795352993744,
      "grad_norm": 0.0018523898907005787,
      "learning_rate": 2.4168301598409617e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 43599928,
      "step": 75135
    },
    {
      "epoch": 11.191540065534703,
      "grad_norm": 0.000577448692638427,
      "learning_rate": 2.41650539826444e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 43603384,
      "step": 75140
    },
    {
      "epoch": 11.192284778075663,
      "grad_norm": 0.0015480926958844066,
      "learning_rate": 2.416180638098476e-05,
      "loss": 0.2203,
      "num_input_tokens_seen": 43606104,
      "step": 75145
    },
    {
      "epoch": 11.193029490616622,
      "grad_norm": 0.01851888932287693,
      "learning_rate": 2.4158558793485545e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43609112,
      "step": 75150
    },
    {
      "epoch": 11.19377420315758,
      "grad_norm": 0.0007849708781577647,
      "learning_rate": 2.4155311220201616e-05,
      "loss": 0.0829,
      "num_input_tokens_seen": 43612376,
      "step": 75155
    },
    {
      "epoch": 11.19451891569854,
      "grad_norm": 0.0011423449032008648,
      "learning_rate": 2.4152063661187855e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43615320,
      "step": 75160
    },
    {
      "epoch": 11.1952636282395,
      "grad_norm": 0.08432497829198837,
      "learning_rate": 2.414881611649911e-05,
      "loss": 0.025,
      "num_input_tokens_seen": 43618072,
      "step": 75165
    },
    {
      "epoch": 11.196008340780459,
      "grad_norm": 0.006661752238869667,
      "learning_rate": 2.414556858619026e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 43621176,
      "step": 75170
    },
    {
      "epoch": 11.196753053321418,
      "grad_norm": 0.0005852311151102185,
      "learning_rate": 2.4142321070316147e-05,
      "loss": 0.2751,
      "num_input_tokens_seen": 43623992,
      "step": 75175
    },
    {
      "epoch": 11.197497765862376,
      "grad_norm": 0.004338793456554413,
      "learning_rate": 2.4139073568931658e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 43626712,
      "step": 75180
    },
    {
      "epoch": 11.198242478403337,
      "grad_norm": 0.0038693957030773163,
      "learning_rate": 2.4135826082091636e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43629752,
      "step": 75185
    },
    {
      "epoch": 11.198987190944296,
      "grad_norm": 0.007445536088198423,
      "learning_rate": 2.4132578609850966e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 43632568,
      "step": 75190
    },
    {
      "epoch": 11.199731903485254,
      "grad_norm": 0.0021535351406782866,
      "learning_rate": 2.41293311522645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43635576,
      "step": 75195
    },
    {
      "epoch": 11.200476616026213,
      "grad_norm": 0.002572249621152878,
      "learning_rate": 2.4126083709387094e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43638456,
      "step": 75200
    },
    {
      "epoch": 11.201221328567174,
      "grad_norm": 31.1756591796875,
      "learning_rate": 2.4122836281273618e-05,
      "loss": 0.1195,
      "num_input_tokens_seen": 43641208,
      "step": 75205
    },
    {
      "epoch": 11.201966041108133,
      "grad_norm": 22.21278953552246,
      "learning_rate": 2.411958886797892e-05,
      "loss": 0.2034,
      "num_input_tokens_seen": 43644088,
      "step": 75210
    },
    {
      "epoch": 11.202710753649091,
      "grad_norm": 0.005411296617239714,
      "learning_rate": 2.4116341469557888e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43646776,
      "step": 75215
    },
    {
      "epoch": 11.20345546619005,
      "grad_norm": 0.14127899706363678,
      "learning_rate": 2.4113094086065356e-05,
      "loss": 0.0979,
      "num_input_tokens_seen": 43649720,
      "step": 75220
    },
    {
      "epoch": 11.20420017873101,
      "grad_norm": 0.001844474347308278,
      "learning_rate": 2.4109846717556206e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43652568,
      "step": 75225
    },
    {
      "epoch": 11.20494489127197,
      "grad_norm": 0.12250833958387375,
      "learning_rate": 2.4106599364085296e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43655384,
      "step": 75230
    },
    {
      "epoch": 11.205689603812928,
      "grad_norm": 0.026655644178390503,
      "learning_rate": 2.4103352025707473e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43658104,
      "step": 75235
    },
    {
      "epoch": 11.206434316353887,
      "grad_norm": 0.0063555422239005566,
      "learning_rate": 2.4100104702477614e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43660696,
      "step": 75240
    },
    {
      "epoch": 11.207179028894847,
      "grad_norm": 0.0033018954563885927,
      "learning_rate": 2.4096857394450557e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43663608,
      "step": 75245
    },
    {
      "epoch": 11.207923741435806,
      "grad_norm": 0.00046314168139360845,
      "learning_rate": 2.4093610101681192e-05,
      "loss": 0.0293,
      "num_input_tokens_seen": 43666488,
      "step": 75250
    },
    {
      "epoch": 11.208668453976765,
      "grad_norm": 0.020349005237221718,
      "learning_rate": 2.4090362824224347e-05,
      "loss": 0.2407,
      "num_input_tokens_seen": 43669272,
      "step": 75255
    },
    {
      "epoch": 11.209413166517724,
      "grad_norm": 0.004393210168927908,
      "learning_rate": 2.4087115562134913e-05,
      "loss": 0.2282,
      "num_input_tokens_seen": 43672280,
      "step": 75260
    },
    {
      "epoch": 11.210157879058684,
      "grad_norm": 0.002378083299845457,
      "learning_rate": 2.4083868315467725e-05,
      "loss": 0.1256,
      "num_input_tokens_seen": 43675160,
      "step": 75265
    },
    {
      "epoch": 11.210902591599643,
      "grad_norm": 8.485105514526367,
      "learning_rate": 2.4080621084277656e-05,
      "loss": 0.0489,
      "num_input_tokens_seen": 43678200,
      "step": 75270
    },
    {
      "epoch": 11.211647304140602,
      "grad_norm": 0.001198005978949368,
      "learning_rate": 2.4077373868619562e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43681112,
      "step": 75275
    },
    {
      "epoch": 11.21239201668156,
      "grad_norm": 0.0009051792440004647,
      "learning_rate": 2.4074126668548287e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 43684056,
      "step": 75280
    },
    {
      "epoch": 11.21313672922252,
      "grad_norm": 4.4472832679748535,
      "learning_rate": 2.4070879484118712e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 43687064,
      "step": 75285
    },
    {
      "epoch": 11.21388144176348,
      "grad_norm": 0.018585167825222015,
      "learning_rate": 2.4067632315385675e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 43689752,
      "step": 75290
    },
    {
      "epoch": 11.214626154304439,
      "grad_norm": 4.106539249420166,
      "learning_rate": 2.4064385162404048e-05,
      "loss": 0.1476,
      "num_input_tokens_seen": 43692888,
      "step": 75295
    },
    {
      "epoch": 11.215370866845397,
      "grad_norm": 0.0029726235661655664,
      "learning_rate": 2.406113802522868e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43695608,
      "step": 75300
    },
    {
      "epoch": 11.216115579386356,
      "grad_norm": 0.004258094821125269,
      "learning_rate": 2.4057890903914437e-05,
      "loss": 0.0243,
      "num_input_tokens_seen": 43698264,
      "step": 75305
    },
    {
      "epoch": 11.216860291927317,
      "grad_norm": 0.00050399947213009,
      "learning_rate": 2.405464379851617e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43701080,
      "step": 75310
    },
    {
      "epoch": 11.217605004468275,
      "grad_norm": 0.002847878495231271,
      "learning_rate": 2.4051396709088726e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 43703832,
      "step": 75315
    },
    {
      "epoch": 11.218349717009234,
      "grad_norm": 0.0015012635849416256,
      "learning_rate": 2.4048149635686977e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43706616,
      "step": 75320
    },
    {
      "epoch": 11.219094429550193,
      "grad_norm": 0.0017524685245007277,
      "learning_rate": 2.4044902578365765e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43709464,
      "step": 75325
    },
    {
      "epoch": 11.219839142091153,
      "grad_norm": 0.0030851755291223526,
      "learning_rate": 2.404165553717996e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43712344,
      "step": 75330
    },
    {
      "epoch": 11.220583854632112,
      "grad_norm": 0.006836010608822107,
      "learning_rate": 2.4038408512184406e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 43715416,
      "step": 75335
    },
    {
      "epoch": 11.221328567173071,
      "grad_norm": 0.0032623414881527424,
      "learning_rate": 2.4035161503433974e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 43718328,
      "step": 75340
    },
    {
      "epoch": 11.22207327971403,
      "grad_norm": 0.000537752581294626,
      "learning_rate": 2.4031914510983492e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43721336,
      "step": 75345
    },
    {
      "epoch": 11.22281799225499,
      "grad_norm": 1.3662651777267456,
      "learning_rate": 2.402866753488784e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 43724216,
      "step": 75350
    },
    {
      "epoch": 11.223562704795949,
      "grad_norm": 0.9044378995895386,
      "learning_rate": 2.4025420575201867e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 43727160,
      "step": 75355
    },
    {
      "epoch": 11.224307417336908,
      "grad_norm": 0.007805608678609133,
      "learning_rate": 2.402217363198041e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43730136,
      "step": 75360
    },
    {
      "epoch": 11.225052129877866,
      "grad_norm": 0.0035327859222888947,
      "learning_rate": 2.4018926705278347e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43733016,
      "step": 75365
    },
    {
      "epoch": 11.225796842418827,
      "grad_norm": 46.062965393066406,
      "learning_rate": 2.4015679795150513e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 43735896,
      "step": 75370
    },
    {
      "epoch": 11.226541554959786,
      "grad_norm": 0.0036564527545124292,
      "learning_rate": 2.4012432901651778e-05,
      "loss": 0.0596,
      "num_input_tokens_seen": 43738808,
      "step": 75375
    },
    {
      "epoch": 11.227286267500745,
      "grad_norm": 9.883702296065167e-05,
      "learning_rate": 2.400918602483697e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43741784,
      "step": 75380
    },
    {
      "epoch": 11.228030980041703,
      "grad_norm": 0.003277515061199665,
      "learning_rate": 2.400593916476097e-05,
      "loss": 0.0179,
      "num_input_tokens_seen": 43744664,
      "step": 75385
    },
    {
      "epoch": 11.228775692582664,
      "grad_norm": 148.08070373535156,
      "learning_rate": 2.4002692321478617e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 43747640,
      "step": 75390
    },
    {
      "epoch": 11.229520405123623,
      "grad_norm": 0.18298526108264923,
      "learning_rate": 2.399944549504476e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43750584,
      "step": 75395
    },
    {
      "epoch": 11.230265117664581,
      "grad_norm": 94.11880493164062,
      "learning_rate": 2.399619868551425e-05,
      "loss": 0.2879,
      "num_input_tokens_seen": 43753336,
      "step": 75400
    },
    {
      "epoch": 11.23100983020554,
      "grad_norm": 0.0004072355222888291,
      "learning_rate": 2.3992951892941948e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 43756344,
      "step": 75405
    },
    {
      "epoch": 11.2317545427465,
      "grad_norm": 0.04304005950689316,
      "learning_rate": 2.3989705117382705e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43758872,
      "step": 75410
    },
    {
      "epoch": 11.23249925528746,
      "grad_norm": 0.35496288537979126,
      "learning_rate": 2.3986458358891353e-05,
      "loss": 0.2848,
      "num_input_tokens_seen": 43761720,
      "step": 75415
    },
    {
      "epoch": 11.233243967828418,
      "grad_norm": 58.43526840209961,
      "learning_rate": 2.3983211617522768e-05,
      "loss": 0.0713,
      "num_input_tokens_seen": 43764376,
      "step": 75420
    },
    {
      "epoch": 11.233988680369377,
      "grad_norm": 0.0021613389253616333,
      "learning_rate": 2.3979964893331787e-05,
      "loss": 0.1159,
      "num_input_tokens_seen": 43767416,
      "step": 75425
    },
    {
      "epoch": 11.234733392910337,
      "grad_norm": 59.26925277709961,
      "learning_rate": 2.397671818637327e-05,
      "loss": 0.1782,
      "num_input_tokens_seen": 43770360,
      "step": 75430
    },
    {
      "epoch": 11.235478105451296,
      "grad_norm": 6.236372470855713,
      "learning_rate": 2.3973471496702052e-05,
      "loss": 0.0933,
      "num_input_tokens_seen": 43773144,
      "step": 75435
    },
    {
      "epoch": 11.236222817992255,
      "grad_norm": 0.0016902991337701678,
      "learning_rate": 2.397022482437298e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43775864,
      "step": 75440
    },
    {
      "epoch": 11.236967530533214,
      "grad_norm": 0.004702331498265266,
      "learning_rate": 2.3966978169440927e-05,
      "loss": 0.2375,
      "num_input_tokens_seen": 43779416,
      "step": 75445
    },
    {
      "epoch": 11.237712243074174,
      "grad_norm": 0.5422875881195068,
      "learning_rate": 2.396373153196072e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 43782168,
      "step": 75450
    },
    {
      "epoch": 11.238456955615133,
      "grad_norm": 0.000513308506924659,
      "learning_rate": 2.3960484911987223e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 43785176,
      "step": 75455
    },
    {
      "epoch": 11.239201668156092,
      "grad_norm": 0.012099960818886757,
      "learning_rate": 2.395723830957527e-05,
      "loss": 0.2689,
      "num_input_tokens_seen": 43788184,
      "step": 75460
    },
    {
      "epoch": 11.23994638069705,
      "grad_norm": 0.4507448971271515,
      "learning_rate": 2.3953991724779723e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43790872,
      "step": 75465
    },
    {
      "epoch": 11.24069109323801,
      "grad_norm": 17.576690673828125,
      "learning_rate": 2.395074515765542e-05,
      "loss": 0.2828,
      "num_input_tokens_seen": 43793560,
      "step": 75470
    },
    {
      "epoch": 11.24143580577897,
      "grad_norm": 0.0010332096135243773,
      "learning_rate": 2.3947498608257204e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43796376,
      "step": 75475
    },
    {
      "epoch": 11.242180518319929,
      "grad_norm": 0.0858025923371315,
      "learning_rate": 2.394425207663994e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43799640,
      "step": 75480
    },
    {
      "epoch": 11.242925230860887,
      "grad_norm": 11.922645568847656,
      "learning_rate": 2.3941005562858452e-05,
      "loss": 0.0398,
      "num_input_tokens_seen": 43802392,
      "step": 75485
    },
    {
      "epoch": 11.243669943401846,
      "grad_norm": 0.01276532094925642,
      "learning_rate": 2.393775906696761e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43805976,
      "step": 75490
    },
    {
      "epoch": 11.244414655942807,
      "grad_norm": 0.003646440338343382,
      "learning_rate": 2.393451258902224e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 43808760,
      "step": 75495
    },
    {
      "epoch": 11.245159368483765,
      "grad_norm": 0.007687821052968502,
      "learning_rate": 2.3931266129077206e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 43811800,
      "step": 75500
    },
    {
      "epoch": 11.245904081024724,
      "grad_norm": 46.5322151184082,
      "learning_rate": 2.3928019687187338e-05,
      "loss": 0.1721,
      "num_input_tokens_seen": 43814808,
      "step": 75505
    },
    {
      "epoch": 11.246648793565683,
      "grad_norm": 0.0032561018597334623,
      "learning_rate": 2.392477326340749e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43817688,
      "step": 75510
    },
    {
      "epoch": 11.247393506106643,
      "grad_norm": 0.008562037721276283,
      "learning_rate": 2.3921526857792508e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43820888,
      "step": 75515
    },
    {
      "epoch": 11.248138218647602,
      "grad_norm": 0.004058854654431343,
      "learning_rate": 2.3918280470397226e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43823672,
      "step": 75520
    },
    {
      "epoch": 11.248882931188561,
      "grad_norm": 0.006843502167612314,
      "learning_rate": 2.3915034101276504e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43826744,
      "step": 75525
    },
    {
      "epoch": 11.24962764372952,
      "grad_norm": 0.003109375014901161,
      "learning_rate": 2.3911787750485172e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 43829720,
      "step": 75530
    },
    {
      "epoch": 11.25037235627048,
      "grad_norm": 0.011407498270273209,
      "learning_rate": 2.3908541418078087e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43832408,
      "step": 75535
    },
    {
      "epoch": 11.251117068811439,
      "grad_norm": 0.009056875482201576,
      "learning_rate": 2.3905295104110076e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 43835256,
      "step": 75540
    },
    {
      "epoch": 11.251861781352398,
      "grad_norm": 0.004782069940119982,
      "learning_rate": 2.3902048808636e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43837976,
      "step": 75545
    },
    {
      "epoch": 11.252606493893357,
      "grad_norm": 0.00841880589723587,
      "learning_rate": 2.3898802531710693e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43841048,
      "step": 75550
    },
    {
      "epoch": 11.253351206434317,
      "grad_norm": 0.7531316876411438,
      "learning_rate": 2.389555627338899e-05,
      "loss": 0.0565,
      "num_input_tokens_seen": 43843768,
      "step": 75555
    },
    {
      "epoch": 11.254095918975276,
      "grad_norm": 0.42937958240509033,
      "learning_rate": 2.3892310033725747e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 43846648,
      "step": 75560
    },
    {
      "epoch": 11.254840631516235,
      "grad_norm": 0.01063278317451477,
      "learning_rate": 2.38890638127758e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 43849528,
      "step": 75565
    },
    {
      "epoch": 11.255585344057193,
      "grad_norm": 0.0017116048838943243,
      "learning_rate": 2.3885817610593994e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43852152,
      "step": 75570
    },
    {
      "epoch": 11.256330056598154,
      "grad_norm": 0.007376162800937891,
      "learning_rate": 2.3882571427235156e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 43854936,
      "step": 75575
    },
    {
      "epoch": 11.257074769139113,
      "grad_norm": 0.0002737996110226959,
      "learning_rate": 2.3879325262754152e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43857656,
      "step": 75580
    },
    {
      "epoch": 11.257819481680071,
      "grad_norm": 0.009104176424443722,
      "learning_rate": 2.3876079117205795e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43860664,
      "step": 75585
    },
    {
      "epoch": 11.25856419422103,
      "grad_norm": 0.08999959379434586,
      "learning_rate": 2.387283299064495e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43863320,
      "step": 75590
    },
    {
      "epoch": 11.25930890676199,
      "grad_norm": 0.02505272626876831,
      "learning_rate": 2.3869586883126445e-05,
      "loss": 0.1715,
      "num_input_tokens_seen": 43866072,
      "step": 75595
    },
    {
      "epoch": 11.26005361930295,
      "grad_norm": 0.004865667317062616,
      "learning_rate": 2.3866340794705117e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43869016,
      "step": 75600
    },
    {
      "epoch": 11.260798331843908,
      "grad_norm": 0.03576066344976425,
      "learning_rate": 2.3863094725435813e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43871864,
      "step": 75605
    },
    {
      "epoch": 11.261543044384867,
      "grad_norm": 0.010156956501305103,
      "learning_rate": 2.3859848675373358e-05,
      "loss": 0.0571,
      "num_input_tokens_seen": 43874776,
      "step": 75610
    },
    {
      "epoch": 11.262287756925826,
      "grad_norm": 0.0006938963779248297,
      "learning_rate": 2.385660264457261e-05,
      "loss": 0.1232,
      "num_input_tokens_seen": 43877976,
      "step": 75615
    },
    {
      "epoch": 11.263032469466786,
      "grad_norm": 69.79136657714844,
      "learning_rate": 2.385335663308839e-05,
      "loss": 0.0322,
      "num_input_tokens_seen": 43880920,
      "step": 75620
    },
    {
      "epoch": 11.263777182007745,
      "grad_norm": 0.6368796825408936,
      "learning_rate": 2.3850110640975555e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 43883864,
      "step": 75625
    },
    {
      "epoch": 11.264521894548704,
      "grad_norm": 0.00038451285217888653,
      "learning_rate": 2.3846864668288933e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 43886840,
      "step": 75630
    },
    {
      "epoch": 11.265266607089663,
      "grad_norm": 0.009990032762289047,
      "learning_rate": 2.3843618715083353e-05,
      "loss": 0.0134,
      "num_input_tokens_seen": 43889880,
      "step": 75635
    },
    {
      "epoch": 11.266011319630623,
      "grad_norm": 0.0008854601765051484,
      "learning_rate": 2.3840372781413667e-05,
      "loss": 0.0466,
      "num_input_tokens_seen": 43892664,
      "step": 75640
    },
    {
      "epoch": 11.266756032171582,
      "grad_norm": 312.6837158203125,
      "learning_rate": 2.3837126867334687e-05,
      "loss": 0.3394,
      "num_input_tokens_seen": 43895576,
      "step": 75645
    },
    {
      "epoch": 11.26750074471254,
      "grad_norm": 0.0013000939507037401,
      "learning_rate": 2.3833880972901285e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43898456,
      "step": 75650
    },
    {
      "epoch": 11.2682454572535,
      "grad_norm": 0.0044338698498904705,
      "learning_rate": 2.3830635098168267e-05,
      "loss": 0.0868,
      "num_input_tokens_seen": 43901400,
      "step": 75655
    },
    {
      "epoch": 11.26899016979446,
      "grad_norm": 0.00038621260318905115,
      "learning_rate": 2.3827389243190486e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43904184,
      "step": 75660
    },
    {
      "epoch": 11.269734882335419,
      "grad_norm": 16.211387634277344,
      "learning_rate": 2.3824143408022773e-05,
      "loss": 0.107,
      "num_input_tokens_seen": 43907288,
      "step": 75665
    },
    {
      "epoch": 11.270479594876377,
      "grad_norm": 0.005400768015533686,
      "learning_rate": 2.3820897592719964e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 43910680,
      "step": 75670
    },
    {
      "epoch": 11.271224307417336,
      "grad_norm": 0.004098111297935247,
      "learning_rate": 2.3817651797336894e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 43913720,
      "step": 75675
    },
    {
      "epoch": 11.271969019958297,
      "grad_norm": 0.0005071119521744549,
      "learning_rate": 2.3814406021928382e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 43916632,
      "step": 75680
    },
    {
      "epoch": 11.272713732499255,
      "grad_norm": 0.0004595139471348375,
      "learning_rate": 2.381116026654929e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43919608,
      "step": 75685
    },
    {
      "epoch": 11.273458445040214,
      "grad_norm": 0.00791124813258648,
      "learning_rate": 2.3807914531254417e-05,
      "loss": 0.1529,
      "num_input_tokens_seen": 43922776,
      "step": 75690
    },
    {
      "epoch": 11.274203157581173,
      "grad_norm": 0.0007208424503915012,
      "learning_rate": 2.3804668816098635e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43925720,
      "step": 75695
    },
    {
      "epoch": 11.274947870122134,
      "grad_norm": 0.06487274169921875,
      "learning_rate": 2.3801423121136752e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 43928568,
      "step": 75700
    },
    {
      "epoch": 11.275692582663092,
      "grad_norm": 21.71919822692871,
      "learning_rate": 2.379817744642361e-05,
      "loss": 0.1536,
      "num_input_tokens_seen": 43931640,
      "step": 75705
    },
    {
      "epoch": 11.276437295204051,
      "grad_norm": 0.008035553619265556,
      "learning_rate": 2.379493179201403e-05,
      "loss": 0.0729,
      "num_input_tokens_seen": 43934648,
      "step": 75710
    },
    {
      "epoch": 11.27718200774501,
      "grad_norm": 0.003151660319417715,
      "learning_rate": 2.3791686157962866e-05,
      "loss": 0.1226,
      "num_input_tokens_seen": 43937528,
      "step": 75715
    },
    {
      "epoch": 11.27792672028597,
      "grad_norm": 0.006977986078709364,
      "learning_rate": 2.378844054432493e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43940472,
      "step": 75720
    },
    {
      "epoch": 11.278671432826929,
      "grad_norm": 0.0008793009328655899,
      "learning_rate": 2.378519495115506e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43943288,
      "step": 75725
    },
    {
      "epoch": 11.279416145367888,
      "grad_norm": 0.015862353146076202,
      "learning_rate": 2.3781949378508085e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 43946104,
      "step": 75730
    },
    {
      "epoch": 11.280160857908847,
      "grad_norm": 2.4139528274536133,
      "learning_rate": 2.3778703826438833e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 43949240,
      "step": 75735
    },
    {
      "epoch": 11.280905570449807,
      "grad_norm": 0.0472501702606678,
      "learning_rate": 2.377545829500215e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 43951960,
      "step": 75740
    },
    {
      "epoch": 11.281650282990766,
      "grad_norm": 0.0099676214158535,
      "learning_rate": 2.377221278425284e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43954840,
      "step": 75745
    },
    {
      "epoch": 11.282394995531725,
      "grad_norm": 18.020540237426758,
      "learning_rate": 2.376896729424576e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 43957752,
      "step": 75750
    },
    {
      "epoch": 11.283139708072683,
      "grad_norm": 0.6479326486587524,
      "learning_rate": 2.3765721825035724e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 43960344,
      "step": 75755
    },
    {
      "epoch": 11.283884420613644,
      "grad_norm": 5.546101093292236,
      "learning_rate": 2.376247637667756e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 43963512,
      "step": 75760
    },
    {
      "epoch": 11.284629133154603,
      "grad_norm": 0.0013365052873268723,
      "learning_rate": 2.3759230949226103e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 43966232,
      "step": 75765
    },
    {
      "epoch": 11.285373845695561,
      "grad_norm": 0.09353708475828171,
      "learning_rate": 2.375598554273617e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 43969400,
      "step": 75770
    },
    {
      "epoch": 11.28611855823652,
      "grad_norm": 146.84786987304688,
      "learning_rate": 2.3752740157262607e-05,
      "loss": 0.204,
      "num_input_tokens_seen": 43972280,
      "step": 75775
    },
    {
      "epoch": 11.28686327077748,
      "grad_norm": 0.005530971102416515,
      "learning_rate": 2.374949479286022e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 43975096,
      "step": 75780
    },
    {
      "epoch": 11.28760798331844,
      "grad_norm": 0.0017997859977185726,
      "learning_rate": 2.374624944958386e-05,
      "loss": 0.0249,
      "num_input_tokens_seen": 43978104,
      "step": 75785
    },
    {
      "epoch": 11.288352695859398,
      "grad_norm": 0.0024967635981738567,
      "learning_rate": 2.3743004127488332e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 43981176,
      "step": 75790
    },
    {
      "epoch": 11.289097408400357,
      "grad_norm": 0.00121059559751302,
      "learning_rate": 2.373975882662848e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 43983896,
      "step": 75795
    },
    {
      "epoch": 11.289842120941316,
      "grad_norm": 0.004372267983853817,
      "learning_rate": 2.3736513547059124e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 43986680,
      "step": 75800
    },
    {
      "epoch": 11.290586833482276,
      "grad_norm": 70.16111755371094,
      "learning_rate": 2.373326828883507e-05,
      "loss": 0.0228,
      "num_input_tokens_seen": 43989720,
      "step": 75805
    },
    {
      "epoch": 11.291331546023235,
      "grad_norm": 56.530052185058594,
      "learning_rate": 2.3730023052011178e-05,
      "loss": 0.0781,
      "num_input_tokens_seen": 43992632,
      "step": 75810
    },
    {
      "epoch": 11.292076258564194,
      "grad_norm": 1.1512044668197632,
      "learning_rate": 2.3726777836642243e-05,
      "loss": 0.1071,
      "num_input_tokens_seen": 43995256,
      "step": 75815
    },
    {
      "epoch": 11.292820971105153,
      "grad_norm": 0.004535711370408535,
      "learning_rate": 2.3723532642783114e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 43998168,
      "step": 75820
    },
    {
      "epoch": 11.293565683646113,
      "grad_norm": 0.21437782049179077,
      "learning_rate": 2.3720287470488596e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 44000920,
      "step": 75825
    },
    {
      "epoch": 11.294310396187072,
      "grad_norm": 0.02618717961013317,
      "learning_rate": 2.3717042319813527e-05,
      "loss": 0.0561,
      "num_input_tokens_seen": 44003640,
      "step": 75830
    },
    {
      "epoch": 11.29505510872803,
      "grad_norm": 18.51433753967285,
      "learning_rate": 2.3713797190812726e-05,
      "loss": 0.079,
      "num_input_tokens_seen": 44006552,
      "step": 75835
    },
    {
      "epoch": 11.29579982126899,
      "grad_norm": 0.0016598741058260202,
      "learning_rate": 2.3710552083540998e-05,
      "loss": 0.0175,
      "num_input_tokens_seen": 44009432,
      "step": 75840
    },
    {
      "epoch": 11.29654453380995,
      "grad_norm": 0.0012921378947794437,
      "learning_rate": 2.3707306998053198e-05,
      "loss": 0.0307,
      "num_input_tokens_seen": 44012376,
      "step": 75845
    },
    {
      "epoch": 11.297289246350909,
      "grad_norm": 26.24247932434082,
      "learning_rate": 2.370406193440412e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 44015224,
      "step": 75850
    },
    {
      "epoch": 11.298033958891867,
      "grad_norm": 124.70707702636719,
      "learning_rate": 2.3700816892648608e-05,
      "loss": 0.1846,
      "num_input_tokens_seen": 44018392,
      "step": 75855
    },
    {
      "epoch": 11.298778671432826,
      "grad_norm": 0.00409949105232954,
      "learning_rate": 2.369757187284147e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 44021752,
      "step": 75860
    },
    {
      "epoch": 11.299523383973787,
      "grad_norm": 0.000989792519249022,
      "learning_rate": 2.3694326875037536e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44024792,
      "step": 75865
    },
    {
      "epoch": 11.300268096514746,
      "grad_norm": 0.0027782691176980734,
      "learning_rate": 2.3691081899291613e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 44027672,
      "step": 75870
    },
    {
      "epoch": 11.301012809055704,
      "grad_norm": 0.016679711639881134,
      "learning_rate": 2.3687836945658542e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44030712,
      "step": 75875
    },
    {
      "epoch": 11.301757521596663,
      "grad_norm": 0.009689881466329098,
      "learning_rate": 2.3684592014193133e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 44033656,
      "step": 75880
    },
    {
      "epoch": 11.302502234137624,
      "grad_norm": 0.004106059204787016,
      "learning_rate": 2.3681347104950193e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44036504,
      "step": 75885
    },
    {
      "epoch": 11.303246946678582,
      "grad_norm": 0.005169107113033533,
      "learning_rate": 2.3678102217984564e-05,
      "loss": 0.1377,
      "num_input_tokens_seen": 44039416,
      "step": 75890
    },
    {
      "epoch": 11.303991659219541,
      "grad_norm": 0.00256507215090096,
      "learning_rate": 2.3674857353351048e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44042136,
      "step": 75895
    },
    {
      "epoch": 11.3047363717605,
      "grad_norm": 0.0032306162174791098,
      "learning_rate": 2.3671612511104476e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44044728,
      "step": 75900
    },
    {
      "epoch": 11.30548108430146,
      "grad_norm": 84.3180923461914,
      "learning_rate": 2.366836769129965e-05,
      "loss": 0.2563,
      "num_input_tokens_seen": 44047704,
      "step": 75905
    },
    {
      "epoch": 11.30622579684242,
      "grad_norm": 0.087744802236557,
      "learning_rate": 2.366512289399141e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44050424,
      "step": 75910
    },
    {
      "epoch": 11.306970509383378,
      "grad_norm": 0.002262790920212865,
      "learning_rate": 2.3661878119234562e-05,
      "loss": 0.0928,
      "num_input_tokens_seen": 44053752,
      "step": 75915
    },
    {
      "epoch": 11.307715221924337,
      "grad_norm": 1.160409927368164,
      "learning_rate": 2.3658633367083914e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44056696,
      "step": 75920
    },
    {
      "epoch": 11.308459934465297,
      "grad_norm": 0.0033336288761347532,
      "learning_rate": 2.3655388637594298e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44059800,
      "step": 75925
    },
    {
      "epoch": 11.309204647006256,
      "grad_norm": 0.004311967641115189,
      "learning_rate": 2.3652143930820523e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44062616,
      "step": 75930
    },
    {
      "epoch": 11.309949359547215,
      "grad_norm": 141.9879150390625,
      "learning_rate": 2.364889924681741e-05,
      "loss": 0.0534,
      "num_input_tokens_seen": 44065688,
      "step": 75935
    },
    {
      "epoch": 11.310694072088173,
      "grad_norm": 0.0031814652029424906,
      "learning_rate": 2.364565458563976e-05,
      "loss": 0.3094,
      "num_input_tokens_seen": 44068696,
      "step": 75940
    },
    {
      "epoch": 11.311438784629134,
      "grad_norm": 0.0025847989600151777,
      "learning_rate": 2.364240994734241e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 44071736,
      "step": 75945
    },
    {
      "epoch": 11.312183497170093,
      "grad_norm": 0.0025974393356591463,
      "learning_rate": 2.3639165331980157e-05,
      "loss": 0.0112,
      "num_input_tokens_seen": 44074488,
      "step": 75950
    },
    {
      "epoch": 11.312928209711052,
      "grad_norm": 0.0008919003885239363,
      "learning_rate": 2.3635920739607828e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44077144,
      "step": 75955
    },
    {
      "epoch": 11.31367292225201,
      "grad_norm": 0.026899661868810654,
      "learning_rate": 2.3632676170280235e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44080248,
      "step": 75960
    },
    {
      "epoch": 11.31441763479297,
      "grad_norm": 0.000674139941111207,
      "learning_rate": 2.362943162405218e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44083096,
      "step": 75965
    },
    {
      "epoch": 11.31516234733393,
      "grad_norm": 0.025709964334964752,
      "learning_rate": 2.3626187100978496e-05,
      "loss": 0.1877,
      "num_input_tokens_seen": 44085976,
      "step": 75970
    },
    {
      "epoch": 11.315907059874888,
      "grad_norm": 0.0006610324489884079,
      "learning_rate": 2.362294260111397e-05,
      "loss": 0.0545,
      "num_input_tokens_seen": 44088952,
      "step": 75975
    },
    {
      "epoch": 11.316651772415847,
      "grad_norm": 0.004822343122214079,
      "learning_rate": 2.3619698124513438e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44092056,
      "step": 75980
    },
    {
      "epoch": 11.317396484956806,
      "grad_norm": 0.004907527472823858,
      "learning_rate": 2.3616453671231694e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44094872,
      "step": 75985
    },
    {
      "epoch": 11.318141197497766,
      "grad_norm": 0.0023717819713056087,
      "learning_rate": 2.3613209241323574e-05,
      "loss": 0.2439,
      "num_input_tokens_seen": 44097624,
      "step": 75990
    },
    {
      "epoch": 11.318885910038725,
      "grad_norm": 0.01229073666036129,
      "learning_rate": 2.360996483484387e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44100376,
      "step": 75995
    },
    {
      "epoch": 11.319630622579684,
      "grad_norm": 0.0069920821115374565,
      "learning_rate": 2.360672045184739e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44103128,
      "step": 76000
    },
    {
      "epoch": 11.320375335120643,
      "grad_norm": 0.00041301455348730087,
      "learning_rate": 2.3603476092388963e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 44105880,
      "step": 76005
    },
    {
      "epoch": 11.321120047661603,
      "grad_norm": 0.09011423587799072,
      "learning_rate": 2.3600231756523373e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44108952,
      "step": 76010
    },
    {
      "epoch": 11.321864760202562,
      "grad_norm": 0.006089199334383011,
      "learning_rate": 2.3596987444305456e-05,
      "loss": 0.1315,
      "num_input_tokens_seen": 44111768,
      "step": 76015
    },
    {
      "epoch": 11.32260947274352,
      "grad_norm": 1.2501851320266724,
      "learning_rate": 2.359374315579e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 44114360,
      "step": 76020
    },
    {
      "epoch": 11.32335418528448,
      "grad_norm": 0.17084836959838867,
      "learning_rate": 2.3590498891031838e-05,
      "loss": 0.062,
      "num_input_tokens_seen": 44117144,
      "step": 76025
    },
    {
      "epoch": 11.32409889782544,
      "grad_norm": 0.003930291626602411,
      "learning_rate": 2.3587254650085757e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 44120056,
      "step": 76030
    },
    {
      "epoch": 11.324843610366399,
      "grad_norm": 0.02085002139210701,
      "learning_rate": 2.3584010433006577e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44123032,
      "step": 76035
    },
    {
      "epoch": 11.325588322907358,
      "grad_norm": 0.01185308676213026,
      "learning_rate": 2.3580766239849102e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44125688,
      "step": 76040
    },
    {
      "epoch": 11.326333035448316,
      "grad_norm": 0.03905279189348221,
      "learning_rate": 2.3577522070668128e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44128600,
      "step": 76045
    },
    {
      "epoch": 11.327077747989277,
      "grad_norm": 0.10027612000703812,
      "learning_rate": 2.3574277925518488e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44131288,
      "step": 76050
    },
    {
      "epoch": 11.327822460530236,
      "grad_norm": 0.04884805902838707,
      "learning_rate": 2.357103380445496e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 44134392,
      "step": 76055
    },
    {
      "epoch": 11.328567173071194,
      "grad_norm": 40.322959899902344,
      "learning_rate": 2.356778970753237e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 44137208,
      "step": 76060
    },
    {
      "epoch": 11.329311885612153,
      "grad_norm": 16.139850616455078,
      "learning_rate": 2.3564545634805516e-05,
      "loss": 0.2487,
      "num_input_tokens_seen": 44140280,
      "step": 76065
    },
    {
      "epoch": 11.330056598153114,
      "grad_norm": 0.0067862654104828835,
      "learning_rate": 2.356130158632921e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 44143320,
      "step": 76070
    },
    {
      "epoch": 11.330801310694072,
      "grad_norm": 0.04422112926840782,
      "learning_rate": 2.3558057562158247e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44146072,
      "step": 76075
    },
    {
      "epoch": 11.331546023235031,
      "grad_norm": 0.0028797537088394165,
      "learning_rate": 2.355481356234743e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44148856,
      "step": 76080
    },
    {
      "epoch": 11.33229073577599,
      "grad_norm": 25.32964515686035,
      "learning_rate": 2.355156958695158e-05,
      "loss": 0.2945,
      "num_input_tokens_seen": 44152088,
      "step": 76085
    },
    {
      "epoch": 11.33303544831695,
      "grad_norm": 0.011646410450339317,
      "learning_rate": 2.354832563602548e-05,
      "loss": 0.1956,
      "num_input_tokens_seen": 44155000,
      "step": 76090
    },
    {
      "epoch": 11.33378016085791,
      "grad_norm": 0.526399552822113,
      "learning_rate": 2.3545081709623953e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44158040,
      "step": 76095
    },
    {
      "epoch": 11.334524873398868,
      "grad_norm": 0.3985956311225891,
      "learning_rate": 2.354183780780178e-05,
      "loss": 0.1887,
      "num_input_tokens_seen": 44160760,
      "step": 76100
    },
    {
      "epoch": 11.335269585939827,
      "grad_norm": 0.004275242332369089,
      "learning_rate": 2.3538593930613784e-05,
      "loss": 0.0918,
      "num_input_tokens_seen": 44163544,
      "step": 76105
    },
    {
      "epoch": 11.336014298480787,
      "grad_norm": 4.6111249923706055,
      "learning_rate": 2.353535007811475e-05,
      "loss": 0.1342,
      "num_input_tokens_seen": 44166136,
      "step": 76110
    },
    {
      "epoch": 11.336759011021746,
      "grad_norm": 0.00850614719092846,
      "learning_rate": 2.3532106250359498e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 44168856,
      "step": 76115
    },
    {
      "epoch": 11.337503723562705,
      "grad_norm": 0.32406553626060486,
      "learning_rate": 2.3528862447402817e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 44171608,
      "step": 76120
    },
    {
      "epoch": 11.338248436103664,
      "grad_norm": 0.021865587681531906,
      "learning_rate": 2.3525618669299505e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44174488,
      "step": 76125
    },
    {
      "epoch": 11.338993148644622,
      "grad_norm": 26.22479248046875,
      "learning_rate": 2.3522374916104377e-05,
      "loss": 0.188,
      "num_input_tokens_seen": 44177304,
      "step": 76130
    },
    {
      "epoch": 11.339737861185583,
      "grad_norm": 0.01863710582256317,
      "learning_rate": 2.3519131187872207e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 44180056,
      "step": 76135
    },
    {
      "epoch": 11.340482573726542,
      "grad_norm": 0.051229704171419144,
      "learning_rate": 2.3515887484657823e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44182936,
      "step": 76140
    },
    {
      "epoch": 11.3412272862675,
      "grad_norm": 0.012874863110482693,
      "learning_rate": 2.3512643806516e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 44185848,
      "step": 76145
    },
    {
      "epoch": 11.341971998808459,
      "grad_norm": 70.83612060546875,
      "learning_rate": 2.3509400153501556e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 44188568,
      "step": 76150
    },
    {
      "epoch": 11.34271671134942,
      "grad_norm": 0.11782144010066986,
      "learning_rate": 2.3506156525669286e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 44191192,
      "step": 76155
    },
    {
      "epoch": 11.343461423890378,
      "grad_norm": 0.008618407882750034,
      "learning_rate": 2.3502912923073976e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 44193944,
      "step": 76160
    },
    {
      "epoch": 11.344206136431337,
      "grad_norm": 0.016524208709597588,
      "learning_rate": 2.349966934577044e-05,
      "loss": 0.1411,
      "num_input_tokens_seen": 44196952,
      "step": 76165
    },
    {
      "epoch": 11.344950848972296,
      "grad_norm": 0.14304329454898834,
      "learning_rate": 2.349642579381345e-05,
      "loss": 0.0568,
      "num_input_tokens_seen": 44200024,
      "step": 76170
    },
    {
      "epoch": 11.345695561513256,
      "grad_norm": 0.07291000336408615,
      "learning_rate": 2.349318226725783e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44202712,
      "step": 76175
    },
    {
      "epoch": 11.346440274054215,
      "grad_norm": 66.77050018310547,
      "learning_rate": 2.3489938766158354e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 44205528,
      "step": 76180
    },
    {
      "epoch": 11.347184986595174,
      "grad_norm": 0.9431014657020569,
      "learning_rate": 2.3486695290569838e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44208344,
      "step": 76185
    },
    {
      "epoch": 11.347929699136133,
      "grad_norm": 0.008512098342180252,
      "learning_rate": 2.348345184054706e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 44211256,
      "step": 76190
    },
    {
      "epoch": 11.348674411677093,
      "grad_norm": 0.10731766372919083,
      "learning_rate": 2.3480208416144832e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44214168,
      "step": 76195
    },
    {
      "epoch": 11.349419124218052,
      "grad_norm": 0.005156381521373987,
      "learning_rate": 2.3476965017417935e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44216952,
      "step": 76200
    },
    {
      "epoch": 11.35016383675901,
      "grad_norm": 0.17636792361736298,
      "learning_rate": 2.3473721644421155e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 44219864,
      "step": 76205
    },
    {
      "epoch": 11.35090854929997,
      "grad_norm": 0.007812803611159325,
      "learning_rate": 2.3470478297209307e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 44222680,
      "step": 76210
    },
    {
      "epoch": 11.35165326184093,
      "grad_norm": 0.025364190340042114,
      "learning_rate": 2.3467234975837162e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 44225720,
      "step": 76215
    },
    {
      "epoch": 11.352397974381889,
      "grad_norm": 0.07114090025424957,
      "learning_rate": 2.3463991680359536e-05,
      "loss": 0.1472,
      "num_input_tokens_seen": 44228696,
      "step": 76220
    },
    {
      "epoch": 11.353142686922848,
      "grad_norm": 126.54502868652344,
      "learning_rate": 2.346074841083121e-05,
      "loss": 0.3715,
      "num_input_tokens_seen": 44231192,
      "step": 76225
    },
    {
      "epoch": 11.353887399463806,
      "grad_norm": 0.0005353547749109566,
      "learning_rate": 2.345750516730697e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44233944,
      "step": 76230
    },
    {
      "epoch": 11.354632112004767,
      "grad_norm": 0.028199071064591408,
      "learning_rate": 2.3454261949841622e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44236664,
      "step": 76235
    },
    {
      "epoch": 11.355376824545726,
      "grad_norm": 0.02033359929919243,
      "learning_rate": 2.3451018758489932e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44239416,
      "step": 76240
    },
    {
      "epoch": 11.356121537086684,
      "grad_norm": 0.0010629626922309399,
      "learning_rate": 2.3447775593306716e-05,
      "loss": 0.0237,
      "num_input_tokens_seen": 44242488,
      "step": 76245
    },
    {
      "epoch": 11.356866249627643,
      "grad_norm": 0.05162246152758598,
      "learning_rate": 2.3444532454346745e-05,
      "loss": 0.0541,
      "num_input_tokens_seen": 44245400,
      "step": 76250
    },
    {
      "epoch": 11.357610962168604,
      "grad_norm": 0.009404092095792294,
      "learning_rate": 2.3441289341664822e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44248088,
      "step": 76255
    },
    {
      "epoch": 11.358355674709562,
      "grad_norm": 0.025213703513145447,
      "learning_rate": 2.3438046255315735e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 44251032,
      "step": 76260
    },
    {
      "epoch": 11.359100387250521,
      "grad_norm": 0.011988451704382896,
      "learning_rate": 2.3434803195354268e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44254168,
      "step": 76265
    },
    {
      "epoch": 11.35984509979148,
      "grad_norm": 0.015166323632001877,
      "learning_rate": 2.3431560161835204e-05,
      "loss": 0.1417,
      "num_input_tokens_seen": 44256984,
      "step": 76270
    },
    {
      "epoch": 11.36058981233244,
      "grad_norm": 134.57183837890625,
      "learning_rate": 2.3428317154813344e-05,
      "loss": 0.1814,
      "num_input_tokens_seen": 44259928,
      "step": 76275
    },
    {
      "epoch": 11.3613345248734,
      "grad_norm": 0.6267593502998352,
      "learning_rate": 2.342507417434347e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 44262936,
      "step": 76280
    },
    {
      "epoch": 11.362079237414358,
      "grad_norm": 0.01409979723393917,
      "learning_rate": 2.3421831220480357e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44266008,
      "step": 76285
    },
    {
      "epoch": 11.362823949955317,
      "grad_norm": 0.006367940455675125,
      "learning_rate": 2.341858829327881e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44269176,
      "step": 76290
    },
    {
      "epoch": 11.363568662496277,
      "grad_norm": 13.3668851852417,
      "learning_rate": 2.34153453927936e-05,
      "loss": 0.1396,
      "num_input_tokens_seen": 44272088,
      "step": 76295
    },
    {
      "epoch": 11.364313375037236,
      "grad_norm": 0.012068000622093678,
      "learning_rate": 2.341210251907953e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44274968,
      "step": 76300
    },
    {
      "epoch": 11.365058087578195,
      "grad_norm": 0.002590684685856104,
      "learning_rate": 2.340885967219136e-05,
      "loss": 0.1932,
      "num_input_tokens_seen": 44277688,
      "step": 76305
    },
    {
      "epoch": 11.365802800119154,
      "grad_norm": 0.0021403527352958918,
      "learning_rate": 2.3405616852183902e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 44280344,
      "step": 76310
    },
    {
      "epoch": 11.366547512660112,
      "grad_norm": 0.016615230590105057,
      "learning_rate": 2.3402374059111912e-05,
      "loss": 0.16,
      "num_input_tokens_seen": 44283128,
      "step": 76315
    },
    {
      "epoch": 11.367292225201073,
      "grad_norm": 0.011370280757546425,
      "learning_rate": 2.3399131293030204e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44286232,
      "step": 76320
    },
    {
      "epoch": 11.368036937742032,
      "grad_norm": 0.0003164377121720463,
      "learning_rate": 2.339588855399354e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44288984,
      "step": 76325
    },
    {
      "epoch": 11.36878165028299,
      "grad_norm": 0.0018788056913763285,
      "learning_rate": 2.3392645842056707e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44292248,
      "step": 76330
    },
    {
      "epoch": 11.36952636282395,
      "grad_norm": 14.571928024291992,
      "learning_rate": 2.338940315727449e-05,
      "loss": 0.2378,
      "num_input_tokens_seen": 44294936,
      "step": 76335
    },
    {
      "epoch": 11.37027107536491,
      "grad_norm": 0.0028852559626102448,
      "learning_rate": 2.3386160499701663e-05,
      "loss": 0.1199,
      "num_input_tokens_seen": 44297720,
      "step": 76340
    },
    {
      "epoch": 11.371015787905868,
      "grad_norm": 0.0069112032651901245,
      "learning_rate": 2.3382917869393027e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 44300664,
      "step": 76345
    },
    {
      "epoch": 11.371760500446827,
      "grad_norm": 5.833197593688965,
      "learning_rate": 2.3379675266403335e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 44303640,
      "step": 76350
    },
    {
      "epoch": 11.372505212987786,
      "grad_norm": 0.0055350568145513535,
      "learning_rate": 2.3376432690787396e-05,
      "loss": 0.0419,
      "num_input_tokens_seen": 44306616,
      "step": 76355
    },
    {
      "epoch": 11.373249925528746,
      "grad_norm": 0.007133980747312307,
      "learning_rate": 2.3373190142599973e-05,
      "loss": 0.046,
      "num_input_tokens_seen": 44309368,
      "step": 76360
    },
    {
      "epoch": 11.373994638069705,
      "grad_norm": 0.24214866757392883,
      "learning_rate": 2.3369947621895845e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 44312120,
      "step": 76365
    },
    {
      "epoch": 11.374739350610664,
      "grad_norm": 0.019423583522439003,
      "learning_rate": 2.3366705128729805e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44315256,
      "step": 76370
    },
    {
      "epoch": 11.375484063151623,
      "grad_norm": 0.0346442312002182,
      "learning_rate": 2.3363462663156606e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 44318232,
      "step": 76375
    },
    {
      "epoch": 11.376228775692583,
      "grad_norm": 0.06626978516578674,
      "learning_rate": 2.3360220225231057e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44321048,
      "step": 76380
    },
    {
      "epoch": 11.376973488233542,
      "grad_norm": 0.0036358179058879614,
      "learning_rate": 2.335697781500791e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44324056,
      "step": 76385
    },
    {
      "epoch": 11.3777182007745,
      "grad_norm": 0.005102933384478092,
      "learning_rate": 2.3353735432541957e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44326744,
      "step": 76390
    },
    {
      "epoch": 11.37846291331546,
      "grad_norm": 44.24576187133789,
      "learning_rate": 2.335049307788797e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 44329496,
      "step": 76395
    },
    {
      "epoch": 11.37920762585642,
      "grad_norm": 0.15565019845962524,
      "learning_rate": 2.334725075110073e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44332504,
      "step": 76400
    },
    {
      "epoch": 11.379952338397379,
      "grad_norm": 0.005214742850512266,
      "learning_rate": 2.3344008452235008e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44335352,
      "step": 76405
    },
    {
      "epoch": 11.380697050938338,
      "grad_norm": 0.0216838326305151,
      "learning_rate": 2.3340766181345572e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44338104,
      "step": 76410
    },
    {
      "epoch": 11.381441763479296,
      "grad_norm": 0.0009183721849694848,
      "learning_rate": 2.3337523938487214e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44340824,
      "step": 76415
    },
    {
      "epoch": 11.382186476020257,
      "grad_norm": 0.005897123366594315,
      "learning_rate": 2.3334281723714694e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 44343896,
      "step": 76420
    },
    {
      "epoch": 11.382931188561216,
      "grad_norm": 0.009314429946243763,
      "learning_rate": 2.3331039537082796e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44346808,
      "step": 76425
    },
    {
      "epoch": 11.383675901102174,
      "grad_norm": 137.14842224121094,
      "learning_rate": 2.332779737864628e-05,
      "loss": 0.0506,
      "num_input_tokens_seen": 44349656,
      "step": 76430
    },
    {
      "epoch": 11.384420613643133,
      "grad_norm": 3.1223487854003906,
      "learning_rate": 2.3324555248459938e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44352472,
      "step": 76435
    },
    {
      "epoch": 11.385165326184094,
      "grad_norm": 0.00020429017604328692,
      "learning_rate": 2.3321313146578532e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 44355224,
      "step": 76440
    },
    {
      "epoch": 11.385910038725052,
      "grad_norm": 8.658787727355957,
      "learning_rate": 2.3318071073056826e-05,
      "loss": 0.0607,
      "num_input_tokens_seen": 44358328,
      "step": 76445
    },
    {
      "epoch": 11.386654751266011,
      "grad_norm": 0.0008798521012067795,
      "learning_rate": 2.3314829027949606e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44361016,
      "step": 76450
    },
    {
      "epoch": 11.38739946380697,
      "grad_norm": 0.006659992039203644,
      "learning_rate": 2.3311587011311634e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44363864,
      "step": 76455
    },
    {
      "epoch": 11.38814417634793,
      "grad_norm": 0.6313521265983582,
      "learning_rate": 2.330834502319769e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 44367032,
      "step": 76460
    },
    {
      "epoch": 11.38888888888889,
      "grad_norm": 0.0030058887787163258,
      "learning_rate": 2.3305103063662522e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 44369720,
      "step": 76465
    },
    {
      "epoch": 11.389633601429848,
      "grad_norm": 0.004151744768023491,
      "learning_rate": 2.330186113276093e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44372568,
      "step": 76470
    },
    {
      "epoch": 11.390378313970807,
      "grad_norm": 0.02819061279296875,
      "learning_rate": 2.3298619230547656e-05,
      "loss": 0.0545,
      "num_input_tokens_seen": 44375352,
      "step": 76475
    },
    {
      "epoch": 11.391123026511767,
      "grad_norm": 0.14203311502933502,
      "learning_rate": 2.329537735707749e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 44378488,
      "step": 76480
    },
    {
      "epoch": 11.391867739052726,
      "grad_norm": 0.6391910910606384,
      "learning_rate": 2.3292135512405198e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44381496,
      "step": 76485
    },
    {
      "epoch": 11.392612451593685,
      "grad_norm": 0.0023821184877306223,
      "learning_rate": 2.3288893696585528e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 44384408,
      "step": 76490
    },
    {
      "epoch": 11.393357164134644,
      "grad_norm": 0.08723070472478867,
      "learning_rate": 2.328565190967327e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 44387288,
      "step": 76495
    },
    {
      "epoch": 11.394101876675602,
      "grad_norm": 0.02188418246805668,
      "learning_rate": 2.3282410151723167e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44390008,
      "step": 76500
    },
    {
      "epoch": 11.394846589216563,
      "grad_norm": 0.2370515912771225,
      "learning_rate": 2.327916842279001e-05,
      "loss": 0.2436,
      "num_input_tokens_seen": 44392920,
      "step": 76505
    },
    {
      "epoch": 11.395591301757522,
      "grad_norm": 0.01127550471574068,
      "learning_rate": 2.3275926722928542e-05,
      "loss": 0.2408,
      "num_input_tokens_seen": 44395704,
      "step": 76510
    },
    {
      "epoch": 11.39633601429848,
      "grad_norm": 0.10353662818670273,
      "learning_rate": 2.327268505219355e-05,
      "loss": 0.1378,
      "num_input_tokens_seen": 44398712,
      "step": 76515
    },
    {
      "epoch": 11.39708072683944,
      "grad_norm": 0.007284228224307299,
      "learning_rate": 2.326944341063979e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 44401560,
      "step": 76520
    },
    {
      "epoch": 11.3978254393804,
      "grad_norm": 0.047400277107954025,
      "learning_rate": 2.326620179832202e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 44404472,
      "step": 76525
    },
    {
      "epoch": 11.398570151921358,
      "grad_norm": 6.396868705749512,
      "learning_rate": 2.3262960215295014e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 44407224,
      "step": 76530
    },
    {
      "epoch": 11.399314864462317,
      "grad_norm": 0.23590722680091858,
      "learning_rate": 2.3259718661613518e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 44409976,
      "step": 76535
    },
    {
      "epoch": 11.400059577003276,
      "grad_norm": 0.004781225696206093,
      "learning_rate": 2.3256477137332315e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44412728,
      "step": 76540
    },
    {
      "epoch": 11.400804289544237,
      "grad_norm": 0.023782718926668167,
      "learning_rate": 2.325323564250615e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 44415896,
      "step": 76545
    },
    {
      "epoch": 11.401549002085195,
      "grad_norm": 0.019728712737560272,
      "learning_rate": 2.324999417718981e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44418456,
      "step": 76550
    },
    {
      "epoch": 11.402293714626154,
      "grad_norm": 0.0003221858059987426,
      "learning_rate": 2.3246752741438026e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44421112,
      "step": 76555
    },
    {
      "epoch": 11.403038427167113,
      "grad_norm": 58.99979782104492,
      "learning_rate": 2.324351133530558e-05,
      "loss": 0.0675,
      "num_input_tokens_seen": 44424344,
      "step": 76560
    },
    {
      "epoch": 11.403783139708073,
      "grad_norm": 0.010648957453668118,
      "learning_rate": 2.3240269958847226e-05,
      "loss": 0.019,
      "num_input_tokens_seen": 44426936,
      "step": 76565
    },
    {
      "epoch": 11.404527852249032,
      "grad_norm": 0.1132962629199028,
      "learning_rate": 2.3237028612117712e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44429592,
      "step": 76570
    },
    {
      "epoch": 11.40527256478999,
      "grad_norm": 0.026129024103283882,
      "learning_rate": 2.3233787295171818e-05,
      "loss": 0.0947,
      "num_input_tokens_seen": 44432472,
      "step": 76575
    },
    {
      "epoch": 11.40601727733095,
      "grad_norm": 0.01131901703774929,
      "learning_rate": 2.323054600806428e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44435704,
      "step": 76580
    },
    {
      "epoch": 11.40676198987191,
      "grad_norm": 0.0038984923157840967,
      "learning_rate": 2.322730475084988e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44438488,
      "step": 76585
    },
    {
      "epoch": 11.407506702412869,
      "grad_norm": 0.007473994046449661,
      "learning_rate": 2.3224063523583363e-05,
      "loss": 0.1441,
      "num_input_tokens_seen": 44441560,
      "step": 76590
    },
    {
      "epoch": 11.408251414953828,
      "grad_norm": 0.0015534062404185534,
      "learning_rate": 2.322082232631949e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44444376,
      "step": 76595
    },
    {
      "epoch": 11.408996127494786,
      "grad_norm": 160.70997619628906,
      "learning_rate": 2.3217581159113016e-05,
      "loss": 0.1364,
      "num_input_tokens_seen": 44447288,
      "step": 76600
    },
    {
      "epoch": 11.409740840035747,
      "grad_norm": 0.008770985528826714,
      "learning_rate": 2.3214340022018688e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44450360,
      "step": 76605
    },
    {
      "epoch": 11.410485552576706,
      "grad_norm": 0.07051008939743042,
      "learning_rate": 2.321109891509128e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44453144,
      "step": 76610
    },
    {
      "epoch": 11.411230265117664,
      "grad_norm": 0.00678731594234705,
      "learning_rate": 2.3207857838385524e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 44456024,
      "step": 76615
    },
    {
      "epoch": 11.411974977658623,
      "grad_norm": 0.0017655777046456933,
      "learning_rate": 2.32046167919562e-05,
      "loss": 0.1347,
      "num_input_tokens_seen": 44459128,
      "step": 76620
    },
    {
      "epoch": 11.412719690199584,
      "grad_norm": 0.30309924483299255,
      "learning_rate": 2.320137577585805e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 44462104,
      "step": 76625
    },
    {
      "epoch": 11.413464402740543,
      "grad_norm": 8.561341285705566,
      "learning_rate": 2.319813479014583e-05,
      "loss": 0.0657,
      "num_input_tokens_seen": 44465176,
      "step": 76630
    },
    {
      "epoch": 11.414209115281501,
      "grad_norm": 0.00015767230070196092,
      "learning_rate": 2.319489383487428e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44468536,
      "step": 76635
    },
    {
      "epoch": 11.41495382782246,
      "grad_norm": 0.014504125341773033,
      "learning_rate": 2.3191652910098174e-05,
      "loss": 0.1322,
      "num_input_tokens_seen": 44471288,
      "step": 76640
    },
    {
      "epoch": 11.41569854036342,
      "grad_norm": 0.007784648798406124,
      "learning_rate": 2.3188412015872258e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44474360,
      "step": 76645
    },
    {
      "epoch": 11.41644325290438,
      "grad_norm": 12.314301490783691,
      "learning_rate": 2.3185171152251265e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 44477240,
      "step": 76650
    },
    {
      "epoch": 11.417187965445338,
      "grad_norm": 0.008468212559819221,
      "learning_rate": 2.3181930319289975e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 44479992,
      "step": 76655
    },
    {
      "epoch": 11.417932677986297,
      "grad_norm": 0.16758935153484344,
      "learning_rate": 2.3178689517043116e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 44482840,
      "step": 76660
    },
    {
      "epoch": 11.418677390527257,
      "grad_norm": 0.026872100308537483,
      "learning_rate": 2.3175448745565454e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 44485848,
      "step": 76665
    },
    {
      "epoch": 11.419422103068216,
      "grad_norm": 0.0014616715488955379,
      "learning_rate": 2.317220800491172e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 44488984,
      "step": 76670
    },
    {
      "epoch": 11.420166815609175,
      "grad_norm": 0.0005596434348262846,
      "learning_rate": 2.3168967295136685e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44492120,
      "step": 76675
    },
    {
      "epoch": 11.420911528150134,
      "grad_norm": 25.10638427734375,
      "learning_rate": 2.3165726616295083e-05,
      "loss": 0.4595,
      "num_input_tokens_seen": 44494968,
      "step": 76680
    },
    {
      "epoch": 11.421656240691092,
      "grad_norm": 0.04545337334275246,
      "learning_rate": 2.316248596844166e-05,
      "loss": 0.2296,
      "num_input_tokens_seen": 44497816,
      "step": 76685
    },
    {
      "epoch": 11.422400953232053,
      "grad_norm": 10.788456916809082,
      "learning_rate": 2.3159245351631176e-05,
      "loss": 0.0491,
      "num_input_tokens_seen": 44500408,
      "step": 76690
    },
    {
      "epoch": 11.423145665773012,
      "grad_norm": 0.011357893235981464,
      "learning_rate": 2.315600476591837e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44503448,
      "step": 76695
    },
    {
      "epoch": 11.42389037831397,
      "grad_norm": 0.03791971504688263,
      "learning_rate": 2.3152764211357988e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44506328,
      "step": 76700
    },
    {
      "epoch": 11.42463509085493,
      "grad_norm": 0.020450908690690994,
      "learning_rate": 2.314952368800477e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44509048,
      "step": 76705
    },
    {
      "epoch": 11.42537980339589,
      "grad_norm": 0.003713316284120083,
      "learning_rate": 2.3146283195913482e-05,
      "loss": 0.187,
      "num_input_tokens_seen": 44511736,
      "step": 76710
    },
    {
      "epoch": 11.426124515936849,
      "grad_norm": 0.002505517564713955,
      "learning_rate": 2.3143042735138848e-05,
      "loss": 0.22,
      "num_input_tokens_seen": 44514680,
      "step": 76715
    },
    {
      "epoch": 11.426869228477807,
      "grad_norm": 0.03073178045451641,
      "learning_rate": 2.3139802305735618e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44517816,
      "step": 76720
    },
    {
      "epoch": 11.427613941018766,
      "grad_norm": 0.03151172026991844,
      "learning_rate": 2.3136561907758543e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 44520504,
      "step": 76725
    },
    {
      "epoch": 11.428358653559727,
      "grad_norm": 31.029300689697266,
      "learning_rate": 2.3133321541262356e-05,
      "loss": 0.1561,
      "num_input_tokens_seen": 44523416,
      "step": 76730
    },
    {
      "epoch": 11.429103366100685,
      "grad_norm": 0.009684366174042225,
      "learning_rate": 2.3130081206301812e-05,
      "loss": 0.0693,
      "num_input_tokens_seen": 44526648,
      "step": 76735
    },
    {
      "epoch": 11.429848078641644,
      "grad_norm": 0.001579883974045515,
      "learning_rate": 2.3126840902931633e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 44529528,
      "step": 76740
    },
    {
      "epoch": 11.430592791182603,
      "grad_norm": 0.0018557194853201509,
      "learning_rate": 2.312360063120658e-05,
      "loss": 0.0386,
      "num_input_tokens_seen": 44532216,
      "step": 76745
    },
    {
      "epoch": 11.431337503723563,
      "grad_norm": 0.00018793375056702644,
      "learning_rate": 2.3120360391181388e-05,
      "loss": 0.1472,
      "num_input_tokens_seen": 44535192,
      "step": 76750
    },
    {
      "epoch": 11.432082216264522,
      "grad_norm": 6.1205735206604,
      "learning_rate": 2.31171201829108e-05,
      "loss": 0.2044,
      "num_input_tokens_seen": 44538040,
      "step": 76755
    },
    {
      "epoch": 11.432826928805481,
      "grad_norm": 6.694271087646484,
      "learning_rate": 2.3113880006449547e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 44540984,
      "step": 76760
    },
    {
      "epoch": 11.43357164134644,
      "grad_norm": 0.00458098016679287,
      "learning_rate": 2.3110639861852373e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44543736,
      "step": 76765
    },
    {
      "epoch": 11.4343163538874,
      "grad_norm": 0.40528494119644165,
      "learning_rate": 2.3107399749174027e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 44546840,
      "step": 76770
    },
    {
      "epoch": 11.435061066428359,
      "grad_norm": 0.11750299483537674,
      "learning_rate": 2.3104159668469226e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 44549400,
      "step": 76775
    },
    {
      "epoch": 11.435805778969318,
      "grad_norm": 0.002030557719990611,
      "learning_rate": 2.3100919619792733e-05,
      "loss": 0.2125,
      "num_input_tokens_seen": 44552664,
      "step": 76780
    },
    {
      "epoch": 11.436550491510276,
      "grad_norm": 0.010950700379908085,
      "learning_rate": 2.3097679603199267e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 44555384,
      "step": 76785
    },
    {
      "epoch": 11.437295204051237,
      "grad_norm": 29.869712829589844,
      "learning_rate": 2.3094439618743572e-05,
      "loss": 0.1526,
      "num_input_tokens_seen": 44558264,
      "step": 76790
    },
    {
      "epoch": 11.438039916592196,
      "grad_norm": 0.0017854972975328565,
      "learning_rate": 2.3091199666480377e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44561144,
      "step": 76795
    },
    {
      "epoch": 11.438784629133155,
      "grad_norm": 128.8285369873047,
      "learning_rate": 2.3087959746464432e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 44563768,
      "step": 76800
    },
    {
      "epoch": 11.439529341674113,
      "grad_norm": 0.0015406800666823983,
      "learning_rate": 2.3084719858750464e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 44566552,
      "step": 76805
    },
    {
      "epoch": 11.440274054215074,
      "grad_norm": 0.00024824318825267255,
      "learning_rate": 2.3081480003393198e-05,
      "loss": 0.0885,
      "num_input_tokens_seen": 44569208,
      "step": 76810
    },
    {
      "epoch": 11.441018766756033,
      "grad_norm": 0.017051640897989273,
      "learning_rate": 2.3078240180447384e-05,
      "loss": 0.1537,
      "num_input_tokens_seen": 44572024,
      "step": 76815
    },
    {
      "epoch": 11.441763479296991,
      "grad_norm": 0.005600993521511555,
      "learning_rate": 2.307500038996775e-05,
      "loss": 0.0213,
      "num_input_tokens_seen": 44575000,
      "step": 76820
    },
    {
      "epoch": 11.44250819183795,
      "grad_norm": 0.010973172262310982,
      "learning_rate": 2.3071760632009028e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 44578104,
      "step": 76825
    },
    {
      "epoch": 11.443252904378909,
      "grad_norm": 0.23931804299354553,
      "learning_rate": 2.3068520906625943e-05,
      "loss": 0.0828,
      "num_input_tokens_seen": 44581048,
      "step": 76830
    },
    {
      "epoch": 11.44399761691987,
      "grad_norm": 0.010891953483223915,
      "learning_rate": 2.306528121387324e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 44583800,
      "step": 76835
    },
    {
      "epoch": 11.444742329460828,
      "grad_norm": 0.06742479652166367,
      "learning_rate": 2.306204155380565e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44586808,
      "step": 76840
    },
    {
      "epoch": 11.445487042001787,
      "grad_norm": 45.7489128112793,
      "learning_rate": 2.3058801926477885e-05,
      "loss": 0.1631,
      "num_input_tokens_seen": 44589560,
      "step": 76845
    },
    {
      "epoch": 11.446231754542746,
      "grad_norm": 0.00019884196808561683,
      "learning_rate": 2.3055562331944703e-05,
      "loss": 0.16,
      "num_input_tokens_seen": 44592504,
      "step": 76850
    },
    {
      "epoch": 11.446976467083706,
      "grad_norm": 0.052873000502586365,
      "learning_rate": 2.3052322770260808e-05,
      "loss": 0.1576,
      "num_input_tokens_seen": 44595256,
      "step": 76855
    },
    {
      "epoch": 11.447721179624665,
      "grad_norm": 0.024673450738191605,
      "learning_rate": 2.3049083241480948e-05,
      "loss": 0.0793,
      "num_input_tokens_seen": 44597848,
      "step": 76860
    },
    {
      "epoch": 11.448465892165624,
      "grad_norm": 0.036031175404787064,
      "learning_rate": 2.3045843745659834e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44600504,
      "step": 76865
    },
    {
      "epoch": 11.449210604706582,
      "grad_norm": 0.13854405283927917,
      "learning_rate": 2.3042604282852215e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44603224,
      "step": 76870
    },
    {
      "epoch": 11.449955317247543,
      "grad_norm": 0.004956917371600866,
      "learning_rate": 2.3039364853112794e-05,
      "loss": 0.0243,
      "num_input_tokens_seen": 44606072,
      "step": 76875
    },
    {
      "epoch": 11.450700029788502,
      "grad_norm": 22.154613494873047,
      "learning_rate": 2.3036125456496324e-05,
      "loss": 0.087,
      "num_input_tokens_seen": 44608824,
      "step": 76880
    },
    {
      "epoch": 11.45144474232946,
      "grad_norm": 0.12421572208404541,
      "learning_rate": 2.303288609305752e-05,
      "loss": 0.1009,
      "num_input_tokens_seen": 44611672,
      "step": 76885
    },
    {
      "epoch": 11.45218945487042,
      "grad_norm": 0.010310763493180275,
      "learning_rate": 2.3029646762851096e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44614552,
      "step": 76890
    },
    {
      "epoch": 11.45293416741138,
      "grad_norm": 0.07573571056127548,
      "learning_rate": 2.3026407465931797e-05,
      "loss": 0.2691,
      "num_input_tokens_seen": 44617496,
      "step": 76895
    },
    {
      "epoch": 11.453678879952339,
      "grad_norm": 0.0015803361311554909,
      "learning_rate": 2.3023168202354324e-05,
      "loss": 0.2073,
      "num_input_tokens_seen": 44620344,
      "step": 76900
    },
    {
      "epoch": 11.454423592493297,
      "grad_norm": 0.008449003100395203,
      "learning_rate": 2.301992897217343e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44623224,
      "step": 76905
    },
    {
      "epoch": 11.455168305034256,
      "grad_norm": 0.003999155480414629,
      "learning_rate": 2.3016689775443806e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44625944,
      "step": 76910
    },
    {
      "epoch": 11.455913017575217,
      "grad_norm": 0.002398028038442135,
      "learning_rate": 2.3013450612220207e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44628984,
      "step": 76915
    },
    {
      "epoch": 11.456657730116175,
      "grad_norm": 0.014825248159468174,
      "learning_rate": 2.3010211482557335e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44631800,
      "step": 76920
    },
    {
      "epoch": 11.457402442657134,
      "grad_norm": 0.0072870878502726555,
      "learning_rate": 2.3006972386509925e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44634584,
      "step": 76925
    },
    {
      "epoch": 11.458147155198093,
      "grad_norm": 0.04755131155252457,
      "learning_rate": 2.3003733324132693e-05,
      "loss": 0.1018,
      "num_input_tokens_seen": 44637432,
      "step": 76930
    },
    {
      "epoch": 11.458891867739053,
      "grad_norm": 0.0072997985407710075,
      "learning_rate": 2.300049429548034e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 44640440,
      "step": 76935
    },
    {
      "epoch": 11.459636580280012,
      "grad_norm": 0.0015920167788863182,
      "learning_rate": 2.299725530060762e-05,
      "loss": 0.0733,
      "num_input_tokens_seen": 44643288,
      "step": 76940
    },
    {
      "epoch": 11.460381292820971,
      "grad_norm": 0.0013004312058910728,
      "learning_rate": 2.2994016339569224e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44645976,
      "step": 76945
    },
    {
      "epoch": 11.46112600536193,
      "grad_norm": 65.17139434814453,
      "learning_rate": 2.2990777412419892e-05,
      "loss": 0.0324,
      "num_input_tokens_seen": 44648888,
      "step": 76950
    },
    {
      "epoch": 11.46187071790289,
      "grad_norm": 0.009836111217737198,
      "learning_rate": 2.298753851921433e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44651896,
      "step": 76955
    },
    {
      "epoch": 11.462615430443849,
      "grad_norm": 0.00012548199447337538,
      "learning_rate": 2.2984299660007263e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44654712,
      "step": 76960
    },
    {
      "epoch": 11.463360142984808,
      "grad_norm": 0.008859243243932724,
      "learning_rate": 2.2981060834853406e-05,
      "loss": 0.1129,
      "num_input_tokens_seen": 44657688,
      "step": 76965
    },
    {
      "epoch": 11.464104855525767,
      "grad_norm": 0.0013983496464788914,
      "learning_rate": 2.2977822043807466e-05,
      "loss": 0.0758,
      "num_input_tokens_seen": 44660728,
      "step": 76970
    },
    {
      "epoch": 11.464849568066727,
      "grad_norm": 111.62919616699219,
      "learning_rate": 2.2974583286924176e-05,
      "loss": 0.2038,
      "num_input_tokens_seen": 44663896,
      "step": 76975
    },
    {
      "epoch": 11.465594280607686,
      "grad_norm": 0.3558341860771179,
      "learning_rate": 2.297134456425823e-05,
      "loss": 0.062,
      "num_input_tokens_seen": 44667032,
      "step": 76980
    },
    {
      "epoch": 11.466338993148645,
      "grad_norm": 0.6374732255935669,
      "learning_rate": 2.2968105875864368e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44670040,
      "step": 76985
    },
    {
      "epoch": 11.467083705689603,
      "grad_norm": 0.021780870854854584,
      "learning_rate": 2.2964867221797286e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 44672824,
      "step": 76990
    },
    {
      "epoch": 11.467828418230564,
      "grad_norm": 0.2663249671459198,
      "learning_rate": 2.296162860211171e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44676024,
      "step": 76995
    },
    {
      "epoch": 11.468573130771523,
      "grad_norm": 0.003560948185622692,
      "learning_rate": 2.2958390016862335e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44679064,
      "step": 77000
    },
    {
      "epoch": 11.469317843312481,
      "grad_norm": 11.502862930297852,
      "learning_rate": 2.29551514661039e-05,
      "loss": 0.1172,
      "num_input_tokens_seen": 44681592,
      "step": 77005
    },
    {
      "epoch": 11.47006255585344,
      "grad_norm": 0.031295694410800934,
      "learning_rate": 2.2951912949891098e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 44684472,
      "step": 77010
    },
    {
      "epoch": 11.470807268394399,
      "grad_norm": 28.3477783203125,
      "learning_rate": 2.294867446827864e-05,
      "loss": 0.2157,
      "num_input_tokens_seen": 44687576,
      "step": 77015
    },
    {
      "epoch": 11.47155198093536,
      "grad_norm": 0.000418387062381953,
      "learning_rate": 2.294543602132125e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 44690456,
      "step": 77020
    },
    {
      "epoch": 11.472296693476318,
      "grad_norm": 0.0009970259852707386,
      "learning_rate": 2.2942197609073624e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44693240,
      "step": 77025
    },
    {
      "epoch": 11.473041406017277,
      "grad_norm": 0.001928656012751162,
      "learning_rate": 2.2938959231590483e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44696024,
      "step": 77030
    },
    {
      "epoch": 11.473786118558236,
      "grad_norm": 0.08455205708742142,
      "learning_rate": 2.2935720888926522e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44699064,
      "step": 77035
    },
    {
      "epoch": 11.474530831099196,
      "grad_norm": 11.241373062133789,
      "learning_rate": 2.2932482581136466e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 44701720,
      "step": 77040
    },
    {
      "epoch": 11.475275543640155,
      "grad_norm": 0.00094869255553931,
      "learning_rate": 2.292924430827502e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44704760,
      "step": 77045
    },
    {
      "epoch": 11.476020256181114,
      "grad_norm": 0.15943513810634613,
      "learning_rate": 2.292600607039687e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44708024,
      "step": 77050
    },
    {
      "epoch": 11.476764968722073,
      "grad_norm": 0.16494512557983398,
      "learning_rate": 2.2922767867556755e-05,
      "loss": 0.0753,
      "num_input_tokens_seen": 44710808,
      "step": 77055
    },
    {
      "epoch": 11.477509681263033,
      "grad_norm": 0.007100752554833889,
      "learning_rate": 2.291952969980936e-05,
      "loss": 0.1486,
      "num_input_tokens_seen": 44713688,
      "step": 77060
    },
    {
      "epoch": 11.478254393803992,
      "grad_norm": 2.596447467803955,
      "learning_rate": 2.29162915672094e-05,
      "loss": 0.024,
      "num_input_tokens_seen": 44716664,
      "step": 77065
    },
    {
      "epoch": 11.47899910634495,
      "grad_norm": 0.25067412853240967,
      "learning_rate": 2.2913053469811568e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 44719672,
      "step": 77070
    },
    {
      "epoch": 11.47974381888591,
      "grad_norm": 0.0019473290303722024,
      "learning_rate": 2.2909815407670584e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44722264,
      "step": 77075
    },
    {
      "epoch": 11.48048853142687,
      "grad_norm": 0.0010628850432112813,
      "learning_rate": 2.2906577380841143e-05,
      "loss": 0.0629,
      "num_input_tokens_seen": 44725240,
      "step": 77080
    },
    {
      "epoch": 11.481233243967829,
      "grad_norm": 0.010104401037096977,
      "learning_rate": 2.290333938937795e-05,
      "loss": 0.244,
      "num_input_tokens_seen": 44729208,
      "step": 77085
    },
    {
      "epoch": 11.481977956508787,
      "grad_norm": 0.07969743758440018,
      "learning_rate": 2.2900101433335704e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 44732024,
      "step": 77090
    },
    {
      "epoch": 11.482722669049746,
      "grad_norm": 0.07133249938488007,
      "learning_rate": 2.289686351276911e-05,
      "loss": 0.0818,
      "num_input_tokens_seen": 44735064,
      "step": 77095
    },
    {
      "epoch": 11.483467381590707,
      "grad_norm": 0.014976102858781815,
      "learning_rate": 2.2893625627732877e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44737688,
      "step": 77100
    },
    {
      "epoch": 11.484212094131665,
      "grad_norm": 0.0071069165132939816,
      "learning_rate": 2.2890387778281686e-05,
      "loss": 0.1012,
      "num_input_tokens_seen": 44740536,
      "step": 77105
    },
    {
      "epoch": 11.484956806672624,
      "grad_norm": 0.8194690346717834,
      "learning_rate": 2.2887149964470258e-05,
      "loss": 0.0094,
      "num_input_tokens_seen": 44743640,
      "step": 77110
    },
    {
      "epoch": 11.485701519213583,
      "grad_norm": 0.009042130783200264,
      "learning_rate": 2.2883912186353282e-05,
      "loss": 0.1745,
      "num_input_tokens_seen": 44746744,
      "step": 77115
    },
    {
      "epoch": 11.486446231754543,
      "grad_norm": 0.18623687326908112,
      "learning_rate": 2.288067444398546e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44749816,
      "step": 77120
    },
    {
      "epoch": 11.487190944295502,
      "grad_norm": 0.06220448762178421,
      "learning_rate": 2.2877436737421494e-05,
      "loss": 0.2531,
      "num_input_tokens_seen": 44752504,
      "step": 77125
    },
    {
      "epoch": 11.487935656836461,
      "grad_norm": 0.010374180972576141,
      "learning_rate": 2.287419906671606e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 44755480,
      "step": 77130
    },
    {
      "epoch": 11.48868036937742,
      "grad_norm": 0.02519604004919529,
      "learning_rate": 2.287096143192389e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44758232,
      "step": 77135
    },
    {
      "epoch": 11.48942508191838,
      "grad_norm": 0.0017928724410012364,
      "learning_rate": 2.286772383309965e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44761304,
      "step": 77140
    },
    {
      "epoch": 11.490169794459339,
      "grad_norm": 458.3214416503906,
      "learning_rate": 2.286448627029806e-05,
      "loss": 0.2394,
      "num_input_tokens_seen": 44764184,
      "step": 77145
    },
    {
      "epoch": 11.490914507000298,
      "grad_norm": 0.0028780782595276833,
      "learning_rate": 2.2861248743573794e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44766872,
      "step": 77150
    },
    {
      "epoch": 11.491659219541257,
      "grad_norm": 41.19268035888672,
      "learning_rate": 2.2858011252981566e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 44769624,
      "step": 77155
    },
    {
      "epoch": 11.492403932082217,
      "grad_norm": 0.036200184375047684,
      "learning_rate": 2.285477379857605e-05,
      "loss": 0.0452,
      "num_input_tokens_seen": 44772760,
      "step": 77160
    },
    {
      "epoch": 11.493148644623176,
      "grad_norm": 77.66207122802734,
      "learning_rate": 2.2851536380411958e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 44775864,
      "step": 77165
    },
    {
      "epoch": 11.493893357164135,
      "grad_norm": 0.784522294998169,
      "learning_rate": 2.284829899854398e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44778648,
      "step": 77170
    },
    {
      "epoch": 11.494638069705093,
      "grad_norm": 0.012380698695778847,
      "learning_rate": 2.284506165302679e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 44781368,
      "step": 77175
    },
    {
      "epoch": 11.495382782246054,
      "grad_norm": 0.02402520924806595,
      "learning_rate": 2.2841824343915103e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 44784376,
      "step": 77180
    },
    {
      "epoch": 11.496127494787013,
      "grad_norm": 0.02501245215535164,
      "learning_rate": 2.28385870712636e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 44787256,
      "step": 77185
    },
    {
      "epoch": 11.496872207327971,
      "grad_norm": 0.008814509958028793,
      "learning_rate": 2.283534983512697e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44790104,
      "step": 77190
    },
    {
      "epoch": 11.49761691986893,
      "grad_norm": 0.003444724716246128,
      "learning_rate": 2.2832112635559897e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 44793080,
      "step": 77195
    },
    {
      "epoch": 11.498361632409889,
      "grad_norm": 0.0016329128993675113,
      "learning_rate": 2.282887547261709e-05,
      "loss": 0.1325,
      "num_input_tokens_seen": 44795928,
      "step": 77200
    },
    {
      "epoch": 11.49910634495085,
      "grad_norm": 1.982351303100586,
      "learning_rate": 2.2825638346353223e-05,
      "loss": 0.2232,
      "num_input_tokens_seen": 44798744,
      "step": 77205
    },
    {
      "epoch": 11.499851057491808,
      "grad_norm": 0.005959644913673401,
      "learning_rate": 2.2822401256822974e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44801784,
      "step": 77210
    },
    {
      "epoch": 11.500595770032767,
      "grad_norm": 0.004773695487529039,
      "learning_rate": 2.2819164204081057e-05,
      "loss": 0.0805,
      "num_input_tokens_seen": 44804824,
      "step": 77215
    },
    {
      "epoch": 11.501340482573726,
      "grad_norm": 62.79085922241211,
      "learning_rate": 2.281592718818214e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 44807832,
      "step": 77220
    },
    {
      "epoch": 11.502085195114686,
      "grad_norm": 0.00552575197070837,
      "learning_rate": 2.2812690209180914e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 44810936,
      "step": 77225
    },
    {
      "epoch": 11.502829907655645,
      "grad_norm": 0.004714875482022762,
      "learning_rate": 2.2809453267132054e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44813528,
      "step": 77230
    },
    {
      "epoch": 11.503574620196604,
      "grad_norm": 0.032588232308626175,
      "learning_rate": 2.2806216362090267e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 44816664,
      "step": 77235
    },
    {
      "epoch": 11.504319332737563,
      "grad_norm": 0.011214321479201317,
      "learning_rate": 2.2802979494110213e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44819416,
      "step": 77240
    },
    {
      "epoch": 11.505064045278523,
      "grad_norm": 0.002671848051249981,
      "learning_rate": 2.27997426632466e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44822328,
      "step": 77245
    },
    {
      "epoch": 11.505808757819482,
      "grad_norm": 0.0007615794311277568,
      "learning_rate": 2.2796505869554098e-05,
      "loss": 0.1473,
      "num_input_tokens_seen": 44825048,
      "step": 77250
    },
    {
      "epoch": 11.50655347036044,
      "grad_norm": 0.0012420938583090901,
      "learning_rate": 2.2793269113087385e-05,
      "loss": 0.0855,
      "num_input_tokens_seen": 44827800,
      "step": 77255
    },
    {
      "epoch": 11.5072981829014,
      "grad_norm": 0.10703117400407791,
      "learning_rate": 2.279003239390115e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 44830488,
      "step": 77260
    },
    {
      "epoch": 11.50804289544236,
      "grad_norm": 0.03299251198768616,
      "learning_rate": 2.2786795712050065e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44833368,
      "step": 77265
    },
    {
      "epoch": 11.508787607983319,
      "grad_norm": 0.08354706317186356,
      "learning_rate": 2.2783559067588822e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44836120,
      "step": 77270
    },
    {
      "epoch": 11.509532320524277,
      "grad_norm": 0.0037480713799595833,
      "learning_rate": 2.278032246057209e-05,
      "loss": 0.1348,
      "num_input_tokens_seen": 44839128,
      "step": 77275
    },
    {
      "epoch": 11.510277033065236,
      "grad_norm": 0.03318712115287781,
      "learning_rate": 2.2777085891054566e-05,
      "loss": 0.2501,
      "num_input_tokens_seen": 44841976,
      "step": 77280
    },
    {
      "epoch": 11.511021745606197,
      "grad_norm": 43.07301330566406,
      "learning_rate": 2.277384935909091e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 44845048,
      "step": 77285
    },
    {
      "epoch": 11.511766458147155,
      "grad_norm": 0.06621143221855164,
      "learning_rate": 2.277061286473581e-05,
      "loss": 0.0723,
      "num_input_tokens_seen": 44848088,
      "step": 77290
    },
    {
      "epoch": 11.512511170688114,
      "grad_norm": 3.8654141426086426,
      "learning_rate": 2.2767376408043935e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 44851032,
      "step": 77295
    },
    {
      "epoch": 11.513255883229073,
      "grad_norm": 0.09005624800920486,
      "learning_rate": 2.2764139989069962e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44853944,
      "step": 77300
    },
    {
      "epoch": 11.514000595770034,
      "grad_norm": 0.002541477559134364,
      "learning_rate": 2.276090360786858e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 44856824,
      "step": 77305
    },
    {
      "epoch": 11.514745308310992,
      "grad_norm": 13.033365249633789,
      "learning_rate": 2.2757667264494448e-05,
      "loss": 0.1936,
      "num_input_tokens_seen": 44859864,
      "step": 77310
    },
    {
      "epoch": 11.515490020851951,
      "grad_norm": 0.16060379147529602,
      "learning_rate": 2.275443095900226e-05,
      "loss": 0.0577,
      "num_input_tokens_seen": 44862808,
      "step": 77315
    },
    {
      "epoch": 11.51623473339291,
      "grad_norm": 0.004211855586618185,
      "learning_rate": 2.2751194691446666e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44865592,
      "step": 77320
    },
    {
      "epoch": 11.51697944593387,
      "grad_norm": 0.026956330984830856,
      "learning_rate": 2.2747958461882365e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 44868280,
      "step": 77325
    },
    {
      "epoch": 11.517724158474829,
      "grad_norm": 0.006285096053034067,
      "learning_rate": 2.2744722270364012e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44870936,
      "step": 77330
    },
    {
      "epoch": 11.518468871015788,
      "grad_norm": 0.0019826367497444153,
      "learning_rate": 2.274148611694628e-05,
      "loss": 0.0395,
      "num_input_tokens_seen": 44873880,
      "step": 77335
    },
    {
      "epoch": 11.519213583556747,
      "grad_norm": 0.002493850653991103,
      "learning_rate": 2.2738250001683846e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44876856,
      "step": 77340
    },
    {
      "epoch": 11.519958296097705,
      "grad_norm": 0.002620365936309099,
      "learning_rate": 2.2735013924631378e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 44879704,
      "step": 77345
    },
    {
      "epoch": 11.520703008638666,
      "grad_norm": 0.000987417995929718,
      "learning_rate": 2.273177788584355e-05,
      "loss": 0.3156,
      "num_input_tokens_seen": 44882520,
      "step": 77350
    },
    {
      "epoch": 11.521447721179625,
      "grad_norm": 0.0013873762218281627,
      "learning_rate": 2.272854188537503e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 44885560,
      "step": 77355
    },
    {
      "epoch": 11.522192433720583,
      "grad_norm": 0.24448274075984955,
      "learning_rate": 2.272530592328049e-05,
      "loss": 0.0766,
      "num_input_tokens_seen": 44888184,
      "step": 77360
    },
    {
      "epoch": 11.522937146261544,
      "grad_norm": 0.0016521925572305918,
      "learning_rate": 2.272206999961459e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 44891160,
      "step": 77365
    },
    {
      "epoch": 11.523681858802503,
      "grad_norm": 0.015090948902070522,
      "learning_rate": 2.2718834114432e-05,
      "loss": 0.2261,
      "num_input_tokens_seen": 44893976,
      "step": 77370
    },
    {
      "epoch": 11.524426571343461,
      "grad_norm": 52.18509292602539,
      "learning_rate": 2.2715598267787394e-05,
      "loss": 0.0992,
      "num_input_tokens_seen": 44896888,
      "step": 77375
    },
    {
      "epoch": 11.52517128388442,
      "grad_norm": 0.006492913700640202,
      "learning_rate": 2.2712362459735425e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 44899544,
      "step": 77380
    },
    {
      "epoch": 11.525915996425379,
      "grad_norm": 0.0016155696939677,
      "learning_rate": 2.2709126690330778e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44902424,
      "step": 77385
    },
    {
      "epoch": 11.52666070896634,
      "grad_norm": 0.013704882934689522,
      "learning_rate": 2.27058909596281e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44905560,
      "step": 77390
    },
    {
      "epoch": 11.527405421507298,
      "grad_norm": 0.428106427192688,
      "learning_rate": 2.2702655267682068e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44908728,
      "step": 77395
    },
    {
      "epoch": 11.528150134048257,
      "grad_norm": 0.0016829685773700476,
      "learning_rate": 2.2699419614547333e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 44911768,
      "step": 77400
    },
    {
      "epoch": 11.528894846589216,
      "grad_norm": 0.002489463659003377,
      "learning_rate": 2.2696184000278573e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44914904,
      "step": 77405
    },
    {
      "epoch": 11.529639559130176,
      "grad_norm": 96.9527587890625,
      "learning_rate": 2.2692948424930445e-05,
      "loss": 0.0278,
      "num_input_tokens_seen": 44917944,
      "step": 77410
    },
    {
      "epoch": 11.530384271671135,
      "grad_norm": 0.03717249631881714,
      "learning_rate": 2.2689712888557603e-05,
      "loss": 0.0232,
      "num_input_tokens_seen": 44920600,
      "step": 77415
    },
    {
      "epoch": 11.531128984212094,
      "grad_norm": 0.015102988108992577,
      "learning_rate": 2.268647739121471e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44923416,
      "step": 77420
    },
    {
      "epoch": 11.531873696753053,
      "grad_norm": 0.05276666209101677,
      "learning_rate": 2.2683241932956432e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 44926680,
      "step": 77425
    },
    {
      "epoch": 11.532618409294013,
      "grad_norm": 0.00355506781488657,
      "learning_rate": 2.2680006513837436e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44929688,
      "step": 77430
    },
    {
      "epoch": 11.533363121834972,
      "grad_norm": 0.002653118222951889,
      "learning_rate": 2.2676771133912355e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44932792,
      "step": 77435
    },
    {
      "epoch": 11.53410783437593,
      "grad_norm": 0.006425430532544851,
      "learning_rate": 2.2673535793235877e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 44935576,
      "step": 77440
    },
    {
      "epoch": 11.53485254691689,
      "grad_norm": 0.059125866740942,
      "learning_rate": 2.2670300491862646e-05,
      "loss": 0.2023,
      "num_input_tokens_seen": 44938360,
      "step": 77445
    },
    {
      "epoch": 11.53559725945785,
      "grad_norm": 3.5913047790527344,
      "learning_rate": 2.2667065229847323e-05,
      "loss": 0.0167,
      "num_input_tokens_seen": 44941240,
      "step": 77450
    },
    {
      "epoch": 11.536341971998809,
      "grad_norm": 18.616689682006836,
      "learning_rate": 2.266383000724456e-05,
      "loss": 0.1377,
      "num_input_tokens_seen": 44944408,
      "step": 77455
    },
    {
      "epoch": 11.537086684539767,
      "grad_norm": 0.1219155564904213,
      "learning_rate": 2.2660594824109008e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 44947096,
      "step": 77460
    },
    {
      "epoch": 11.537831397080726,
      "grad_norm": 0.019563062116503716,
      "learning_rate": 2.2657359680495335e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 44949848,
      "step": 77465
    },
    {
      "epoch": 11.538576109621687,
      "grad_norm": 0.00026390256243757904,
      "learning_rate": 2.2654124576458182e-05,
      "loss": 0.1086,
      "num_input_tokens_seen": 44952728,
      "step": 77470
    },
    {
      "epoch": 11.539320822162646,
      "grad_norm": 0.004703536629676819,
      "learning_rate": 2.265088951205222e-05,
      "loss": 0.0697,
      "num_input_tokens_seen": 44955672,
      "step": 77475
    },
    {
      "epoch": 11.540065534703604,
      "grad_norm": 0.005369823891669512,
      "learning_rate": 2.2647654487332086e-05,
      "loss": 0.2563,
      "num_input_tokens_seen": 44958328,
      "step": 77480
    },
    {
      "epoch": 11.540810247244563,
      "grad_norm": 0.005101055838167667,
      "learning_rate": 2.2644419502352444e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44961016,
      "step": 77485
    },
    {
      "epoch": 11.541554959785524,
      "grad_norm": 0.0018517685821279883,
      "learning_rate": 2.264118455716794e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 44963928,
      "step": 77490
    },
    {
      "epoch": 11.542299672326482,
      "grad_norm": 0.0023841997608542442,
      "learning_rate": 2.2637949651833218e-05,
      "loss": 0.1215,
      "num_input_tokens_seen": 44967064,
      "step": 77495
    },
    {
      "epoch": 11.543044384867441,
      "grad_norm": 0.006397756282240152,
      "learning_rate": 2.2634714786402942e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44969688,
      "step": 77500
    },
    {
      "epoch": 11.5437890974084,
      "grad_norm": 0.002458104630932212,
      "learning_rate": 2.2631479960931747e-05,
      "loss": 0.0213,
      "num_input_tokens_seen": 44972728,
      "step": 77505
    },
    {
      "epoch": 11.54453380994936,
      "grad_norm": 0.028507420793175697,
      "learning_rate": 2.26282451754743e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 44975704,
      "step": 77510
    },
    {
      "epoch": 11.54527852249032,
      "grad_norm": 0.00827128067612648,
      "learning_rate": 2.262501043008524e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 44978456,
      "step": 77515
    },
    {
      "epoch": 11.546023235031278,
      "grad_norm": 0.0016419828170910478,
      "learning_rate": 2.2621775724819218e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 44981880,
      "step": 77520
    },
    {
      "epoch": 11.546767947572237,
      "grad_norm": 5.354859352111816,
      "learning_rate": 2.2618541059730862e-05,
      "loss": 0.1065,
      "num_input_tokens_seen": 44984696,
      "step": 77525
    },
    {
      "epoch": 11.547512660113195,
      "grad_norm": 0.014903934672474861,
      "learning_rate": 2.2615306434874853e-05,
      "loss": 0.0202,
      "num_input_tokens_seen": 44987800,
      "step": 77530
    },
    {
      "epoch": 11.548257372654156,
      "grad_norm": 110.47848510742188,
      "learning_rate": 2.2612071850305812e-05,
      "loss": 0.1015,
      "num_input_tokens_seen": 44990552,
      "step": 77535
    },
    {
      "epoch": 11.549002085195115,
      "grad_norm": 0.7482059597969055,
      "learning_rate": 2.2608837306078385e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 44993368,
      "step": 77540
    },
    {
      "epoch": 11.549746797736073,
      "grad_norm": 58.30662536621094,
      "learning_rate": 2.2605602802247227e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 44996408,
      "step": 77545
    },
    {
      "epoch": 11.550491510277032,
      "grad_norm": 1.2051845788955688,
      "learning_rate": 2.2602368338866974e-05,
      "loss": 0.1234,
      "num_input_tokens_seen": 44999288,
      "step": 77550
    },
    {
      "epoch": 11.551236222817993,
      "grad_norm": 17.23628807067871,
      "learning_rate": 2.2599133915992273e-05,
      "loss": 0.1036,
      "num_input_tokens_seen": 45002008,
      "step": 77555
    },
    {
      "epoch": 11.551980935358952,
      "grad_norm": 0.0004916900070384145,
      "learning_rate": 2.2595899533677756e-05,
      "loss": 0.026,
      "num_input_tokens_seen": 45004920,
      "step": 77560
    },
    {
      "epoch": 11.55272564789991,
      "grad_norm": 0.05419185385107994,
      "learning_rate": 2.2592665191978085e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45007928,
      "step": 77565
    },
    {
      "epoch": 11.553470360440869,
      "grad_norm": 91.88959503173828,
      "learning_rate": 2.2589430890947885e-05,
      "loss": 0.1346,
      "num_input_tokens_seen": 45011256,
      "step": 77570
    },
    {
      "epoch": 11.55421507298183,
      "grad_norm": 0.018019063398241997,
      "learning_rate": 2.2586196630641792e-05,
      "loss": 0.0751,
      "num_input_tokens_seen": 45014584,
      "step": 77575
    },
    {
      "epoch": 11.554959785522788,
      "grad_norm": 243.42298889160156,
      "learning_rate": 2.2582962411114464e-05,
      "loss": 0.0329,
      "num_input_tokens_seen": 45017656,
      "step": 77580
    },
    {
      "epoch": 11.555704498063747,
      "grad_norm": 0.027523187920451164,
      "learning_rate": 2.2579728232420525e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45020344,
      "step": 77585
    },
    {
      "epoch": 11.556449210604706,
      "grad_norm": 0.001822031568735838,
      "learning_rate": 2.2576494094614624e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 45023096,
      "step": 77590
    },
    {
      "epoch": 11.557193923145666,
      "grad_norm": 0.005603381432592869,
      "learning_rate": 2.257325999775138e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 45025784,
      "step": 77595
    },
    {
      "epoch": 11.557938635686625,
      "grad_norm": 0.003934614360332489,
      "learning_rate": 2.257002594188545e-05,
      "loss": 0.1006,
      "num_input_tokens_seen": 45028440,
      "step": 77600
    },
    {
      "epoch": 11.558683348227584,
      "grad_norm": 0.004132464062422514,
      "learning_rate": 2.2566791927071453e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45031320,
      "step": 77605
    },
    {
      "epoch": 11.559428060768543,
      "grad_norm": 0.0038540672976523638,
      "learning_rate": 2.2563557953364043e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45034136,
      "step": 77610
    },
    {
      "epoch": 11.560172773309503,
      "grad_norm": 0.004955001641064882,
      "learning_rate": 2.256032402081785e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45037240,
      "step": 77615
    },
    {
      "epoch": 11.560917485850462,
      "grad_norm": 37.22366714477539,
      "learning_rate": 2.2557090129487493e-05,
      "loss": 0.0251,
      "num_input_tokens_seen": 45041240,
      "step": 77620
    },
    {
      "epoch": 11.56166219839142,
      "grad_norm": 0.023678546771407127,
      "learning_rate": 2.2553856279427625e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 45044216,
      "step": 77625
    },
    {
      "epoch": 11.56240691093238,
      "grad_norm": 0.016621720045804977,
      "learning_rate": 2.2550622470692852e-05,
      "loss": 0.0099,
      "num_input_tokens_seen": 45047288,
      "step": 77630
    },
    {
      "epoch": 11.56315162347334,
      "grad_norm": 0.6001251935958862,
      "learning_rate": 2.2547388703337837e-05,
      "loss": 0.0929,
      "num_input_tokens_seen": 45050328,
      "step": 77635
    },
    {
      "epoch": 11.563896336014299,
      "grad_norm": 0.0023165137972682714,
      "learning_rate": 2.2544154977417187e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45053112,
      "step": 77640
    },
    {
      "epoch": 11.564641048555258,
      "grad_norm": 0.0013384009944275022,
      "learning_rate": 2.2540921292985553e-05,
      "loss": 0.2257,
      "num_input_tokens_seen": 45055992,
      "step": 77645
    },
    {
      "epoch": 11.565385761096216,
      "grad_norm": 0.010972791351377964,
      "learning_rate": 2.2537687650097554e-05,
      "loss": 0.1565,
      "num_input_tokens_seen": 45058648,
      "step": 77650
    },
    {
      "epoch": 11.566130473637177,
      "grad_norm": 43.987579345703125,
      "learning_rate": 2.2534454048807814e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 45061560,
      "step": 77655
    },
    {
      "epoch": 11.566875186178136,
      "grad_norm": 0.009912911802530289,
      "learning_rate": 2.2531220489170977e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45064504,
      "step": 77660
    },
    {
      "epoch": 11.567619898719094,
      "grad_norm": 0.009589817374944687,
      "learning_rate": 2.2527986971241642e-05,
      "loss": 0.0956,
      "num_input_tokens_seen": 45067448,
      "step": 77665
    },
    {
      "epoch": 11.568364611260053,
      "grad_norm": 0.010866406373679638,
      "learning_rate": 2.252475349507447e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45070328,
      "step": 77670
    },
    {
      "epoch": 11.569109323801012,
      "grad_norm": 0.004221871495246887,
      "learning_rate": 2.2521520060724062e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 45073592,
      "step": 77675
    },
    {
      "epoch": 11.569854036341972,
      "grad_norm": 0.0027410846669226885,
      "learning_rate": 2.251828666824506e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 45076472,
      "step": 77680
    },
    {
      "epoch": 11.570598748882931,
      "grad_norm": 1.1892424821853638,
      "learning_rate": 2.2515053317692082e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 45079608,
      "step": 77685
    },
    {
      "epoch": 11.57134346142389,
      "grad_norm": 0.008295555599033833,
      "learning_rate": 2.2511820009119755e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 45082392,
      "step": 77690
    },
    {
      "epoch": 11.57208817396485,
      "grad_norm": 0.004316171631217003,
      "learning_rate": 2.25085867425827e-05,
      "loss": 0.0884,
      "num_input_tokens_seen": 45085144,
      "step": 77695
    },
    {
      "epoch": 11.57283288650581,
      "grad_norm": 0.03133862465620041,
      "learning_rate": 2.2505353518135534e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45088312,
      "step": 77700
    },
    {
      "epoch": 11.573577599046768,
      "grad_norm": 0.0015468827914446592,
      "learning_rate": 2.250212033583289e-05,
      "loss": 0.0687,
      "num_input_tokens_seen": 45091160,
      "step": 77705
    },
    {
      "epoch": 11.574322311587727,
      "grad_norm": 0.03300132602453232,
      "learning_rate": 2.2498887195729375e-05,
      "loss": 0.0591,
      "num_input_tokens_seen": 45094392,
      "step": 77710
    },
    {
      "epoch": 11.575067024128685,
      "grad_norm": 5.658333778381348,
      "learning_rate": 2.2495654097879627e-05,
      "loss": 0.0069,
      "num_input_tokens_seen": 45097272,
      "step": 77715
    },
    {
      "epoch": 11.575811736669646,
      "grad_norm": 0.018114911392331123,
      "learning_rate": 2.2492421042338257e-05,
      "loss": 0.1506,
      "num_input_tokens_seen": 45099992,
      "step": 77720
    },
    {
      "epoch": 11.576556449210605,
      "grad_norm": 0.016181372106075287,
      "learning_rate": 2.2489188029159887e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 45102776,
      "step": 77725
    },
    {
      "epoch": 11.577301161751564,
      "grad_norm": 0.0009468903881497681,
      "learning_rate": 2.2485955058399135e-05,
      "loss": 0.0567,
      "num_input_tokens_seen": 45105592,
      "step": 77730
    },
    {
      "epoch": 11.578045874292522,
      "grad_norm": 0.00021681131329387426,
      "learning_rate": 2.2482722130110608e-05,
      "loss": 0.08,
      "num_input_tokens_seen": 45108664,
      "step": 77735
    },
    {
      "epoch": 11.578790586833483,
      "grad_norm": 0.028535673394799232,
      "learning_rate": 2.2479489244348938e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45111448,
      "step": 77740
    },
    {
      "epoch": 11.579535299374442,
      "grad_norm": 0.0008228913065977395,
      "learning_rate": 2.2476256401168736e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45114264,
      "step": 77745
    },
    {
      "epoch": 11.5802800119154,
      "grad_norm": 0.09254512935876846,
      "learning_rate": 2.247302360062461e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 45116792,
      "step": 77750
    },
    {
      "epoch": 11.581024724456359,
      "grad_norm": 1.1314175128936768,
      "learning_rate": 2.246979084277119e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45119608,
      "step": 77755
    },
    {
      "epoch": 11.58176943699732,
      "grad_norm": 11.749505043029785,
      "learning_rate": 2.2466558127663086e-05,
      "loss": 0.2295,
      "num_input_tokens_seen": 45122744,
      "step": 77760
    },
    {
      "epoch": 11.582514149538278,
      "grad_norm": 0.006540192291140556,
      "learning_rate": 2.246332545535489e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45125592,
      "step": 77765
    },
    {
      "epoch": 11.583258862079237,
      "grad_norm": 0.006606947164982557,
      "learning_rate": 2.246009282590125e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 45128344,
      "step": 77770
    },
    {
      "epoch": 11.584003574620196,
      "grad_norm": 0.011247632093727589,
      "learning_rate": 2.2456860239356755e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45131192,
      "step": 77775
    },
    {
      "epoch": 11.584748287161156,
      "grad_norm": 0.061082351952791214,
      "learning_rate": 2.245362769577602e-05,
      "loss": 0.2934,
      "num_input_tokens_seen": 45134104,
      "step": 77780
    },
    {
      "epoch": 11.585492999702115,
      "grad_norm": 77.32667541503906,
      "learning_rate": 2.245039519521366e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 45136920,
      "step": 77785
    },
    {
      "epoch": 11.586237712243074,
      "grad_norm": 19.441883087158203,
      "learning_rate": 2.2447162737724274e-05,
      "loss": 0.1842,
      "num_input_tokens_seen": 45139992,
      "step": 77790
    },
    {
      "epoch": 11.586982424784033,
      "grad_norm": 3.181107997894287,
      "learning_rate": 2.2443930323362487e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 45143192,
      "step": 77795
    },
    {
      "epoch": 11.587727137324993,
      "grad_norm": 3.1300199031829834,
      "learning_rate": 2.244069795218289e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 45145880,
      "step": 77800
    },
    {
      "epoch": 11.588471849865952,
      "grad_norm": 0.05225465074181557,
      "learning_rate": 2.243746562424011e-05,
      "loss": 0.0984,
      "num_input_tokens_seen": 45148920,
      "step": 77805
    },
    {
      "epoch": 11.58921656240691,
      "grad_norm": 0.05226438492536545,
      "learning_rate": 2.2434233339588746e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45152024,
      "step": 77810
    },
    {
      "epoch": 11.58996127494787,
      "grad_norm": 0.003259665099903941,
      "learning_rate": 2.2431001098283393e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45154712,
      "step": 77815
    },
    {
      "epoch": 11.59070598748883,
      "grad_norm": 0.011205053888261318,
      "learning_rate": 2.2427768900378674e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45157560,
      "step": 77820
    },
    {
      "epoch": 11.591450700029789,
      "grad_norm": 0.5375568866729736,
      "learning_rate": 2.2424536745929174e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45160568,
      "step": 77825
    },
    {
      "epoch": 11.592195412570748,
      "grad_norm": 0.10403863340616226,
      "learning_rate": 2.2421304634989517e-05,
      "loss": 0.0708,
      "num_input_tokens_seen": 45163544,
      "step": 77830
    },
    {
      "epoch": 11.592940125111706,
      "grad_norm": 0.017951708287000656,
      "learning_rate": 2.2418072567614286e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 45166424,
      "step": 77835
    },
    {
      "epoch": 11.593684837652667,
      "grad_norm": 0.08629084378480911,
      "learning_rate": 2.241484054385811e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 45169368,
      "step": 77840
    },
    {
      "epoch": 11.594429550193626,
      "grad_norm": 0.013094818219542503,
      "learning_rate": 2.2411608563775564e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45172504,
      "step": 77845
    },
    {
      "epoch": 11.595174262734584,
      "grad_norm": 1.6866471767425537,
      "learning_rate": 2.240837662742127e-05,
      "loss": 0.0439,
      "num_input_tokens_seen": 45175128,
      "step": 77850
    },
    {
      "epoch": 11.595918975275543,
      "grad_norm": 0.18390372395515442,
      "learning_rate": 2.240514473484982e-05,
      "loss": 0.068,
      "num_input_tokens_seen": 45177880,
      "step": 77855
    },
    {
      "epoch": 11.596663687816502,
      "grad_norm": 0.0062263100408017635,
      "learning_rate": 2.24019128861158e-05,
      "loss": 0.1036,
      "num_input_tokens_seen": 45180760,
      "step": 77860
    },
    {
      "epoch": 11.597408400357462,
      "grad_norm": 0.00026181357679888606,
      "learning_rate": 2.2398681081273832e-05,
      "loss": 0.1091,
      "num_input_tokens_seen": 45183736,
      "step": 77865
    },
    {
      "epoch": 11.598153112898421,
      "grad_norm": 0.01245367806404829,
      "learning_rate": 2.239544932037849e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45186392,
      "step": 77870
    },
    {
      "epoch": 11.59889782543938,
      "grad_norm": 103.45904541015625,
      "learning_rate": 2.2392217603484397e-05,
      "loss": 0.0972,
      "num_input_tokens_seen": 45189208,
      "step": 77875
    },
    {
      "epoch": 11.59964253798034,
      "grad_norm": 0.011405848897993565,
      "learning_rate": 2.2388985930646135e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 45191960,
      "step": 77880
    },
    {
      "epoch": 11.6003872505213,
      "grad_norm": 20.852039337158203,
      "learning_rate": 2.2385754301918303e-05,
      "loss": 0.5148,
      "num_input_tokens_seen": 45194776,
      "step": 77885
    },
    {
      "epoch": 11.601131963062258,
      "grad_norm": 0.08284393697977066,
      "learning_rate": 2.2382522717355498e-05,
      "loss": 0.1228,
      "num_input_tokens_seen": 45197560,
      "step": 77890
    },
    {
      "epoch": 11.601876675603217,
      "grad_norm": 0.0473334901034832,
      "learning_rate": 2.2379291177012295e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45200664,
      "step": 77895
    },
    {
      "epoch": 11.602621388144176,
      "grad_norm": 0.4259040057659149,
      "learning_rate": 2.2376059680943324e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45203416,
      "step": 77900
    },
    {
      "epoch": 11.603366100685136,
      "grad_norm": 0.0005063554854132235,
      "learning_rate": 2.237282822920314e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45206328,
      "step": 77905
    },
    {
      "epoch": 11.604110813226095,
      "grad_norm": 0.004199037328362465,
      "learning_rate": 2.2369596821846367e-05,
      "loss": 0.1944,
      "num_input_tokens_seen": 45209048,
      "step": 77910
    },
    {
      "epoch": 11.604855525767054,
      "grad_norm": 0.024650128558278084,
      "learning_rate": 2.2366365458927574e-05,
      "loss": 0.163,
      "num_input_tokens_seen": 45212024,
      "step": 77915
    },
    {
      "epoch": 11.605600238308012,
      "grad_norm": 0.001158656319603324,
      "learning_rate": 2.236313414050137e-05,
      "loss": 0.1815,
      "num_input_tokens_seen": 45214744,
      "step": 77920
    },
    {
      "epoch": 11.606344950848973,
      "grad_norm": 0.018881535157561302,
      "learning_rate": 2.2359902866622317e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45217688,
      "step": 77925
    },
    {
      "epoch": 11.607089663389932,
      "grad_norm": 0.011073501780629158,
      "learning_rate": 2.2356671637345038e-05,
      "loss": 0.3069,
      "num_input_tokens_seen": 45220472,
      "step": 77930
    },
    {
      "epoch": 11.60783437593089,
      "grad_norm": 0.25283220410346985,
      "learning_rate": 2.2353440452724102e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 45223352,
      "step": 77935
    },
    {
      "epoch": 11.60857908847185,
      "grad_norm": 0.029327765107154846,
      "learning_rate": 2.235020931281409e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45226424,
      "step": 77940
    },
    {
      "epoch": 11.60932380101281,
      "grad_norm": 0.002345407847315073,
      "learning_rate": 2.2346978217669613e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45229496,
      "step": 77945
    },
    {
      "epoch": 11.610068513553768,
      "grad_norm": 0.005411234218627214,
      "learning_rate": 2.2343747167345233e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 45232312,
      "step": 77950
    },
    {
      "epoch": 11.610813226094727,
      "grad_norm": 0.017159560695290565,
      "learning_rate": 2.2340516161895553e-05,
      "loss": 0.0304,
      "num_input_tokens_seen": 45235032,
      "step": 77955
    },
    {
      "epoch": 11.611557938635686,
      "grad_norm": 0.07559811323881149,
      "learning_rate": 2.2337285201375137e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45238008,
      "step": 77960
    },
    {
      "epoch": 11.612302651176647,
      "grad_norm": 1.8071762323379517,
      "learning_rate": 2.233405428583859e-05,
      "loss": 0.0187,
      "num_input_tokens_seen": 45240920,
      "step": 77965
    },
    {
      "epoch": 11.613047363717605,
      "grad_norm": 0.10438104718923569,
      "learning_rate": 2.233082341534049e-05,
      "loss": 0.03,
      "num_input_tokens_seen": 45243960,
      "step": 77970
    },
    {
      "epoch": 11.613792076258564,
      "grad_norm": 0.008684316650032997,
      "learning_rate": 2.2327592589935403e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45246936,
      "step": 77975
    },
    {
      "epoch": 11.614536788799523,
      "grad_norm": 0.006817157845944166,
      "learning_rate": 2.2324361809677933e-05,
      "loss": 0.0303,
      "num_input_tokens_seen": 45250008,
      "step": 77980
    },
    {
      "epoch": 11.615281501340483,
      "grad_norm": 0.028067216277122498,
      "learning_rate": 2.2321131074622647e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45253016,
      "step": 77985
    },
    {
      "epoch": 11.616026213881442,
      "grad_norm": 0.12891370058059692,
      "learning_rate": 2.2317900384824132e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45256056,
      "step": 77990
    },
    {
      "epoch": 11.6167709264224,
      "grad_norm": 0.020466584712266922,
      "learning_rate": 2.2314669740336957e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45259256,
      "step": 77995
    },
    {
      "epoch": 11.61751563896336,
      "grad_norm": 0.004990862682461739,
      "learning_rate": 2.2311439141215715e-05,
      "loss": 0.1563,
      "num_input_tokens_seen": 45262200,
      "step": 78000
    },
    {
      "epoch": 11.61826035150432,
      "grad_norm": 0.001009723637253046,
      "learning_rate": 2.2308208587514967e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45265080,
      "step": 78005
    },
    {
      "epoch": 11.619005064045279,
      "grad_norm": 0.003485827473923564,
      "learning_rate": 2.230497807928931e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45267992,
      "step": 78010
    },
    {
      "epoch": 11.619749776586238,
      "grad_norm": 0.22216935455799103,
      "learning_rate": 2.2301747616593306e-05,
      "loss": 0.0665,
      "num_input_tokens_seen": 45270552,
      "step": 78015
    },
    {
      "epoch": 11.620494489127196,
      "grad_norm": 0.004126820247620344,
      "learning_rate": 2.2298517199481534e-05,
      "loss": 0.1418,
      "num_input_tokens_seen": 45273656,
      "step": 78020
    },
    {
      "epoch": 11.621239201668157,
      "grad_norm": 0.02492528222501278,
      "learning_rate": 2.2295286828008572e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 45276696,
      "step": 78025
    },
    {
      "epoch": 11.621983914209116,
      "grad_norm": 0.006219850853085518,
      "learning_rate": 2.2292056502228975e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 45279736,
      "step": 78030
    },
    {
      "epoch": 11.622728626750074,
      "grad_norm": 0.00045821722596883774,
      "learning_rate": 2.2288826222197346e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45282808,
      "step": 78035
    },
    {
      "epoch": 11.623473339291033,
      "grad_norm": 1.564226508140564,
      "learning_rate": 2.228559598796823e-05,
      "loss": 0.1321,
      "num_input_tokens_seen": 45285720,
      "step": 78040
    },
    {
      "epoch": 11.624218051831992,
      "grad_norm": 7.562579154968262,
      "learning_rate": 2.2282365799596222e-05,
      "loss": 0.0782,
      "num_input_tokens_seen": 45288600,
      "step": 78045
    },
    {
      "epoch": 11.624962764372953,
      "grad_norm": 0.3125733435153961,
      "learning_rate": 2.2279135657135876e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45291352,
      "step": 78050
    },
    {
      "epoch": 11.625707476913911,
      "grad_norm": 0.0027594708371907473,
      "learning_rate": 2.2275905560641775e-05,
      "loss": 0.2945,
      "num_input_tokens_seen": 45294328,
      "step": 78055
    },
    {
      "epoch": 11.62645218945487,
      "grad_norm": 34.983211517333984,
      "learning_rate": 2.2272675510168482e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 45297144,
      "step": 78060
    },
    {
      "epoch": 11.627196901995829,
      "grad_norm": 0.005717381369322538,
      "learning_rate": 2.226944550577055e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45300344,
      "step": 78065
    },
    {
      "epoch": 11.62794161453679,
      "grad_norm": 0.04496247321367264,
      "learning_rate": 2.2266215547502573e-05,
      "loss": 0.2976,
      "num_input_tokens_seen": 45303192,
      "step": 78070
    },
    {
      "epoch": 11.628686327077748,
      "grad_norm": 54.93138885498047,
      "learning_rate": 2.22629856354191e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 45305880,
      "step": 78075
    },
    {
      "epoch": 11.629431039618707,
      "grad_norm": 0.17504402995109558,
      "learning_rate": 2.22597557695747e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45308568,
      "step": 78080
    },
    {
      "epoch": 11.630175752159666,
      "grad_norm": 3.1123335361480713,
      "learning_rate": 2.225652595002395e-05,
      "loss": 0.0571,
      "num_input_tokens_seen": 45311608,
      "step": 78085
    },
    {
      "epoch": 11.630920464700626,
      "grad_norm": 0.007184145040810108,
      "learning_rate": 2.2253296176821402e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45314424,
      "step": 78090
    },
    {
      "epoch": 11.631665177241585,
      "grad_norm": 0.3754529058933258,
      "learning_rate": 2.2250066450021628e-05,
      "loss": 0.2932,
      "num_input_tokens_seen": 45317112,
      "step": 78095
    },
    {
      "epoch": 11.632409889782544,
      "grad_norm": 0.01019288320094347,
      "learning_rate": 2.2246836769679175e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 45320088,
      "step": 78100
    },
    {
      "epoch": 11.633154602323502,
      "grad_norm": 0.0025551333092153072,
      "learning_rate": 2.2243607135848625e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45322744,
      "step": 78105
    },
    {
      "epoch": 11.633899314864463,
      "grad_norm": 1.3408372402191162,
      "learning_rate": 2.2240377548584532e-05,
      "loss": 0.0805,
      "num_input_tokens_seen": 45325624,
      "step": 78110
    },
    {
      "epoch": 11.634644027405422,
      "grad_norm": 46.67137145996094,
      "learning_rate": 2.2237148007941455e-05,
      "loss": 0.2661,
      "num_input_tokens_seen": 45328312,
      "step": 78115
    },
    {
      "epoch": 11.63538873994638,
      "grad_norm": 0.010835750959813595,
      "learning_rate": 2.2233918513973944e-05,
      "loss": 0.0577,
      "num_input_tokens_seen": 45331160,
      "step": 78120
    },
    {
      "epoch": 11.63613345248734,
      "grad_norm": 0.01057507935911417,
      "learning_rate": 2.223068906673658e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45334264,
      "step": 78125
    },
    {
      "epoch": 11.6368781650283,
      "grad_norm": 0.007152187637984753,
      "learning_rate": 2.22274596662839e-05,
      "loss": 0.0906,
      "num_input_tokens_seen": 45337304,
      "step": 78130
    },
    {
      "epoch": 11.637622877569259,
      "grad_norm": 0.0011634057154878974,
      "learning_rate": 2.222423031267048e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 45340248,
      "step": 78135
    },
    {
      "epoch": 11.638367590110217,
      "grad_norm": 0.026411976665258408,
      "learning_rate": 2.222100100595087e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45343128,
      "step": 78140
    },
    {
      "epoch": 11.639112302651176,
      "grad_norm": 0.0026551689952611923,
      "learning_rate": 2.221777174617962e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45346296,
      "step": 78145
    },
    {
      "epoch": 11.639857015192137,
      "grad_norm": 0.025574738159775734,
      "learning_rate": 2.221454253341129e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45349144,
      "step": 78150
    },
    {
      "epoch": 11.640601727733095,
      "grad_norm": 0.05056150630116463,
      "learning_rate": 2.2211313367700422e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45351992,
      "step": 78155
    },
    {
      "epoch": 11.641346440274054,
      "grad_norm": 0.8585777878761292,
      "learning_rate": 2.2208084249101593e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 45354904,
      "step": 78160
    },
    {
      "epoch": 11.642091152815013,
      "grad_norm": 0.006954905577003956,
      "learning_rate": 2.220485517766933e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 45357880,
      "step": 78165
    },
    {
      "epoch": 11.642835865355973,
      "grad_norm": 0.0019011462572962046,
      "learning_rate": 2.220162615345821e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45360696,
      "step": 78170
    },
    {
      "epoch": 11.643580577896932,
      "grad_norm": 0.02323930896818638,
      "learning_rate": 2.2198397176522773e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45363416,
      "step": 78175
    },
    {
      "epoch": 11.64432529043789,
      "grad_norm": 0.0009144333889707923,
      "learning_rate": 2.2195168246917564e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 45366296,
      "step": 78180
    },
    {
      "epoch": 11.64507000297885,
      "grad_norm": 0.011719844304025173,
      "learning_rate": 2.219193936469714e-05,
      "loss": 0.2159,
      "num_input_tokens_seen": 45369208,
      "step": 78185
    },
    {
      "epoch": 11.64581471551981,
      "grad_norm": 0.0963488221168518,
      "learning_rate": 2.2188710529916033e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45372280,
      "step": 78190
    },
    {
      "epoch": 11.646559428060769,
      "grad_norm": 0.0007487379480153322,
      "learning_rate": 2.218548174262882e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45375256,
      "step": 78195
    },
    {
      "epoch": 11.647304140601728,
      "grad_norm": 5.134202480316162,
      "learning_rate": 2.218225300289002e-05,
      "loss": 0.0217,
      "num_input_tokens_seen": 45378296,
      "step": 78200
    },
    {
      "epoch": 11.648048853142686,
      "grad_norm": 30.582447052001953,
      "learning_rate": 2.21790243107542e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 45380984,
      "step": 78205
    },
    {
      "epoch": 11.648793565683647,
      "grad_norm": 1.5620869398117065,
      "learning_rate": 2.2175795666275894e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 45383928,
      "step": 78210
    },
    {
      "epoch": 11.649538278224606,
      "grad_norm": 31.67266845703125,
      "learning_rate": 2.2172567069509656e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 45386872,
      "step": 78215
    },
    {
      "epoch": 11.650282990765565,
      "grad_norm": 0.6736463904380798,
      "learning_rate": 2.2169338520510025e-05,
      "loss": 0.0986,
      "num_input_tokens_seen": 45389880,
      "step": 78220
    },
    {
      "epoch": 11.651027703306523,
      "grad_norm": 0.024024443700909615,
      "learning_rate": 2.2166110019331526e-05,
      "loss": 0.0267,
      "num_input_tokens_seen": 45392984,
      "step": 78225
    },
    {
      "epoch": 11.651772415847482,
      "grad_norm": 0.00503417756408453,
      "learning_rate": 2.2162881566028736e-05,
      "loss": 0.2433,
      "num_input_tokens_seen": 45395928,
      "step": 78230
    },
    {
      "epoch": 11.652517128388443,
      "grad_norm": 0.000977701391093433,
      "learning_rate": 2.2159653160656162e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45398872,
      "step": 78235
    },
    {
      "epoch": 11.653261840929401,
      "grad_norm": 0.009689388796687126,
      "learning_rate": 2.2156424803268374e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45401848,
      "step": 78240
    },
    {
      "epoch": 11.65400655347036,
      "grad_norm": 0.02281610108911991,
      "learning_rate": 2.2153196493919896e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 45404888,
      "step": 78245
    },
    {
      "epoch": 11.654751266011319,
      "grad_norm": 0.007590848486870527,
      "learning_rate": 2.214996823266527e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45407736,
      "step": 78250
    },
    {
      "epoch": 11.65549597855228,
      "grad_norm": 0.007207007147371769,
      "learning_rate": 2.2146740019559036e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45410488,
      "step": 78255
    },
    {
      "epoch": 11.656240691093238,
      "grad_norm": 0.0023857976775616407,
      "learning_rate": 2.214351185465572e-05,
      "loss": 0.068,
      "num_input_tokens_seen": 45413304,
      "step": 78260
    },
    {
      "epoch": 11.656985403634197,
      "grad_norm": 0.0005641955649480224,
      "learning_rate": 2.214028373800988e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45416120,
      "step": 78265
    },
    {
      "epoch": 11.657730116175156,
      "grad_norm": 0.0021478289272636175,
      "learning_rate": 2.2137055669676027e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45419128,
      "step": 78270
    },
    {
      "epoch": 11.658474828716116,
      "grad_norm": 0.0015385403530672193,
      "learning_rate": 2.213382764970872e-05,
      "loss": 0.1909,
      "num_input_tokens_seen": 45421816,
      "step": 78275
    },
    {
      "epoch": 11.659219541257075,
      "grad_norm": 0.5232398509979248,
      "learning_rate": 2.2130599678162474e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 45425112,
      "step": 78280
    },
    {
      "epoch": 11.659964253798034,
      "grad_norm": 0.002379909623414278,
      "learning_rate": 2.212737175509184e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45427960,
      "step": 78285
    },
    {
      "epoch": 11.660708966338992,
      "grad_norm": 0.41382983326911926,
      "learning_rate": 2.2124143880551327e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45431288,
      "step": 78290
    },
    {
      "epoch": 11.661453678879953,
      "grad_norm": 0.14529888331890106,
      "learning_rate": 2.2120916054595492e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45433816,
      "step": 78295
    },
    {
      "epoch": 11.662198391420912,
      "grad_norm": 0.0021601628977805376,
      "learning_rate": 2.211768827727885e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45436664,
      "step": 78300
    },
    {
      "epoch": 11.66294310396187,
      "grad_norm": 0.008387451991438866,
      "learning_rate": 2.211446054865593e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45439416,
      "step": 78305
    },
    {
      "epoch": 11.66368781650283,
      "grad_norm": 0.008384711109101772,
      "learning_rate": 2.2111232868781277e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 45442168,
      "step": 78310
    },
    {
      "epoch": 11.66443252904379,
      "grad_norm": 56.480308532714844,
      "learning_rate": 2.21080052377094e-05,
      "loss": 0.0533,
      "num_input_tokens_seen": 45445112,
      "step": 78315
    },
    {
      "epoch": 11.665177241584749,
      "grad_norm": 0.011799846775829792,
      "learning_rate": 2.210477765549484e-05,
      "loss": 0.0354,
      "num_input_tokens_seen": 45448056,
      "step": 78320
    },
    {
      "epoch": 11.665921954125707,
      "grad_norm": 0.20621302723884583,
      "learning_rate": 2.210155012219211e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 45450968,
      "step": 78325
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.07317633926868439,
      "learning_rate": 2.2098322637855757e-05,
      "loss": 0.0488,
      "num_input_tokens_seen": 45454040,
      "step": 78330
    },
    {
      "epoch": 11.667411379207627,
      "grad_norm": 0.0016793794929981232,
      "learning_rate": 2.2095095202540293e-05,
      "loss": 0.0592,
      "num_input_tokens_seen": 45456824,
      "step": 78335
    },
    {
      "epoch": 11.668156091748585,
      "grad_norm": 0.08205194771289825,
      "learning_rate": 2.209186781630023e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 45459736,
      "step": 78340
    },
    {
      "epoch": 11.668900804289544,
      "grad_norm": 0.0012029113713651896,
      "learning_rate": 2.2088640479190116e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45462392,
      "step": 78345
    },
    {
      "epoch": 11.669645516830503,
      "grad_norm": 0.006003493443131447,
      "learning_rate": 2.208541319126446e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45465400,
      "step": 78350
    },
    {
      "epoch": 11.670390229371463,
      "grad_norm": 0.0080387769266963,
      "learning_rate": 2.2082185952577788e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45468152,
      "step": 78355
    },
    {
      "epoch": 11.671134941912422,
      "grad_norm": 0.028162667527794838,
      "learning_rate": 2.207895876318461e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45470904,
      "step": 78360
    },
    {
      "epoch": 11.671879654453381,
      "grad_norm": 435.5726318359375,
      "learning_rate": 2.2075731623139463e-05,
      "loss": 0.1968,
      "num_input_tokens_seen": 45474072,
      "step": 78365
    },
    {
      "epoch": 11.67262436699434,
      "grad_norm": 0.018649032339453697,
      "learning_rate": 2.207250453249685e-05,
      "loss": 0.0352,
      "num_input_tokens_seen": 45477048,
      "step": 78370
    },
    {
      "epoch": 11.673369079535298,
      "grad_norm": 0.025545869022607803,
      "learning_rate": 2.2069277491311306e-05,
      "loss": 0.2067,
      "num_input_tokens_seen": 45479768,
      "step": 78375
    },
    {
      "epoch": 11.674113792076259,
      "grad_norm": 0.002858314896002412,
      "learning_rate": 2.2066050499637344e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 45482456,
      "step": 78380
    },
    {
      "epoch": 11.674858504617218,
      "grad_norm": 0.0005091736675240099,
      "learning_rate": 2.2062823557529467e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45485336,
      "step": 78385
    },
    {
      "epoch": 11.675603217158177,
      "grad_norm": 0.0013165004784241319,
      "learning_rate": 2.2059596665042213e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45488024,
      "step": 78390
    },
    {
      "epoch": 11.676347929699137,
      "grad_norm": 13.006853103637695,
      "learning_rate": 2.2056369822230067e-05,
      "loss": 0.2602,
      "num_input_tokens_seen": 45491000,
      "step": 78395
    },
    {
      "epoch": 11.677092642240096,
      "grad_norm": 0.002256694482639432,
      "learning_rate": 2.2053143029147574e-05,
      "loss": 0.0315,
      "num_input_tokens_seen": 45493784,
      "step": 78400
    },
    {
      "epoch": 11.677837354781055,
      "grad_norm": 0.0061133550480008125,
      "learning_rate": 2.2049916285849233e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 45496664,
      "step": 78405
    },
    {
      "epoch": 11.678582067322013,
      "grad_norm": 0.028588198125362396,
      "learning_rate": 2.204668959238955e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 45499608,
      "step": 78410
    },
    {
      "epoch": 11.679326779862972,
      "grad_norm": 0.003644597018137574,
      "learning_rate": 2.2043462948823057e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 45502584,
      "step": 78415
    },
    {
      "epoch": 11.680071492403933,
      "grad_norm": 0.014469289220869541,
      "learning_rate": 2.2040236355204244e-05,
      "loss": 0.355,
      "num_input_tokens_seen": 45505528,
      "step": 78420
    },
    {
      "epoch": 11.680816204944891,
      "grad_norm": 0.5205190181732178,
      "learning_rate": 2.2037009811587638e-05,
      "loss": 0.0411,
      "num_input_tokens_seen": 45508184,
      "step": 78425
    },
    {
      "epoch": 11.68156091748585,
      "grad_norm": 0.04304533451795578,
      "learning_rate": 2.2033783318027725e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45511384,
      "step": 78430
    },
    {
      "epoch": 11.682305630026809,
      "grad_norm": 0.018702596426010132,
      "learning_rate": 2.203055687457904e-05,
      "loss": 0.0091,
      "num_input_tokens_seen": 45514456,
      "step": 78435
    },
    {
      "epoch": 11.68305034256777,
      "grad_norm": 0.0020332762505859137,
      "learning_rate": 2.2027330481296074e-05,
      "loss": 0.1475,
      "num_input_tokens_seen": 45517304,
      "step": 78440
    },
    {
      "epoch": 11.683795055108728,
      "grad_norm": 0.10778336971998215,
      "learning_rate": 2.2024104138233343e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45520248,
      "step": 78445
    },
    {
      "epoch": 11.684539767649687,
      "grad_norm": 0.010380550287663937,
      "learning_rate": 2.2020877845445338e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45523128,
      "step": 78450
    },
    {
      "epoch": 11.685284480190646,
      "grad_norm": 0.036743346601724625,
      "learning_rate": 2.2017651602986584e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45526200,
      "step": 78455
    },
    {
      "epoch": 11.686029192731606,
      "grad_norm": 0.1802206188440323,
      "learning_rate": 2.2014425410911575e-05,
      "loss": 0.0718,
      "num_input_tokens_seen": 45528984,
      "step": 78460
    },
    {
      "epoch": 11.686773905272565,
      "grad_norm": 0.1741124540567398,
      "learning_rate": 2.2011199269274804e-05,
      "loss": 0.095,
      "num_input_tokens_seen": 45532248,
      "step": 78465
    },
    {
      "epoch": 11.687518617813524,
      "grad_norm": 0.023706231266260147,
      "learning_rate": 2.2007973178130795e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45535256,
      "step": 78470
    },
    {
      "epoch": 11.688263330354483,
      "grad_norm": 0.010318387299776077,
      "learning_rate": 2.2004747137534032e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 45538200,
      "step": 78475
    },
    {
      "epoch": 11.689008042895443,
      "grad_norm": 0.00818147137761116,
      "learning_rate": 2.2001521147539028e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 45541304,
      "step": 78480
    },
    {
      "epoch": 11.689752755436402,
      "grad_norm": 0.0027698036283254623,
      "learning_rate": 2.1998295208200263e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 45544056,
      "step": 78485
    },
    {
      "epoch": 11.69049746797736,
      "grad_norm": 0.024225406348705292,
      "learning_rate": 2.1995069319572264e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45546872,
      "step": 78490
    },
    {
      "epoch": 11.69124218051832,
      "grad_norm": 179.38832092285156,
      "learning_rate": 2.1991843481709513e-05,
      "loss": 0.2455,
      "num_input_tokens_seen": 45549528,
      "step": 78495
    },
    {
      "epoch": 11.69198689305928,
      "grad_norm": 0.006243206560611725,
      "learning_rate": 2.19886176946665e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45552472,
      "step": 78500
    },
    {
      "epoch": 11.692731605600239,
      "grad_norm": 8.304333686828613,
      "learning_rate": 2.1985391958497743e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 45555160,
      "step": 78505
    },
    {
      "epoch": 11.693476318141197,
      "grad_norm": 0.004428853280842304,
      "learning_rate": 2.1982166273257716e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 45558008,
      "step": 78510
    },
    {
      "epoch": 11.694221030682156,
      "grad_norm": 10.853302001953125,
      "learning_rate": 2.1978940639000927e-05,
      "loss": 0.0965,
      "num_input_tokens_seen": 45561080,
      "step": 78515
    },
    {
      "epoch": 11.694965743223117,
      "grad_norm": 0.00736077968031168,
      "learning_rate": 2.1975715055781858e-05,
      "loss": 0.1715,
      "num_input_tokens_seen": 45564088,
      "step": 78520
    },
    {
      "epoch": 11.695710455764075,
      "grad_norm": 0.03773466497659683,
      "learning_rate": 2.1972489523655016e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45566840,
      "step": 78525
    },
    {
      "epoch": 11.696455168305034,
      "grad_norm": 15.342820167541504,
      "learning_rate": 2.1969264042674877e-05,
      "loss": 0.2128,
      "num_input_tokens_seen": 45569688,
      "step": 78530
    },
    {
      "epoch": 11.697199880845993,
      "grad_norm": 0.09794864803552628,
      "learning_rate": 2.1966038612895958e-05,
      "loss": 0.0676,
      "num_input_tokens_seen": 45572504,
      "step": 78535
    },
    {
      "epoch": 11.697944593386953,
      "grad_norm": 0.01139474380761385,
      "learning_rate": 2.1962813234372727e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45575704,
      "step": 78540
    },
    {
      "epoch": 11.698689305927912,
      "grad_norm": 0.008081560023128986,
      "learning_rate": 2.1959587907159673e-05,
      "loss": 0.0082,
      "num_input_tokens_seen": 45578616,
      "step": 78545
    },
    {
      "epoch": 11.699434018468871,
      "grad_norm": 61.81045150756836,
      "learning_rate": 2.19563626313113e-05,
      "loss": 0.1084,
      "num_input_tokens_seen": 45581720,
      "step": 78550
    },
    {
      "epoch": 11.70017873100983,
      "grad_norm": 0.005360861774533987,
      "learning_rate": 2.1953137406882078e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 45584600,
      "step": 78555
    },
    {
      "epoch": 11.700923443550789,
      "grad_norm": 0.004901539999991655,
      "learning_rate": 2.194991223392651e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 45587128,
      "step": 78560
    },
    {
      "epoch": 11.701668156091749,
      "grad_norm": 8.6746244430542,
      "learning_rate": 2.1946687112499066e-05,
      "loss": 0.1266,
      "num_input_tokens_seen": 45590072,
      "step": 78565
    },
    {
      "epoch": 11.702412868632708,
      "grad_norm": 0.04308466240763664,
      "learning_rate": 2.194346204265425e-05,
      "loss": 0.0387,
      "num_input_tokens_seen": 45593016,
      "step": 78570
    },
    {
      "epoch": 11.703157581173667,
      "grad_norm": 0.006251178681850433,
      "learning_rate": 2.1940237024446535e-05,
      "loss": 0.1409,
      "num_input_tokens_seen": 45595928,
      "step": 78575
    },
    {
      "epoch": 11.703902293714627,
      "grad_norm": 0.002388349501416087,
      "learning_rate": 2.19370120579304e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 45599192,
      "step": 78580
    },
    {
      "epoch": 11.704647006255586,
      "grad_norm": 0.09389238804578781,
      "learning_rate": 2.1933787143160343e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45601976,
      "step": 78585
    },
    {
      "epoch": 11.705391718796545,
      "grad_norm": 0.04643262177705765,
      "learning_rate": 2.193056228019082e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 45604888,
      "step": 78590
    },
    {
      "epoch": 11.706136431337503,
      "grad_norm": 0.007050506304949522,
      "learning_rate": 2.1927337469076343e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 45607736,
      "step": 78595
    },
    {
      "epoch": 11.706881143878462,
      "grad_norm": 0.004915185738354921,
      "learning_rate": 2.1924112709871362e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45610552,
      "step": 78600
    },
    {
      "epoch": 11.707625856419423,
      "grad_norm": 9.373513221740723,
      "learning_rate": 2.1920888002630382e-05,
      "loss": 0.0872,
      "num_input_tokens_seen": 45613304,
      "step": 78605
    },
    {
      "epoch": 11.708370568960381,
      "grad_norm": 0.016819018870592117,
      "learning_rate": 2.1917663347407867e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45615960,
      "step": 78610
    },
    {
      "epoch": 11.70911528150134,
      "grad_norm": 0.012617270462214947,
      "learning_rate": 2.1914438744258298e-05,
      "loss": 0.298,
      "num_input_tokens_seen": 45619096,
      "step": 78615
    },
    {
      "epoch": 11.709859994042299,
      "grad_norm": 0.003556684823706746,
      "learning_rate": 2.1911214193236153e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45621816,
      "step": 78620
    },
    {
      "epoch": 11.71060470658326,
      "grad_norm": 0.14293509721755981,
      "learning_rate": 2.1907989694395893e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 45624696,
      "step": 78625
    },
    {
      "epoch": 11.711349419124218,
      "grad_norm": 4.158965587615967,
      "learning_rate": 2.1904765247792016e-05,
      "loss": 0.0563,
      "num_input_tokens_seen": 45627448,
      "step": 78630
    },
    {
      "epoch": 11.712094131665177,
      "grad_norm": 0.04771115258336067,
      "learning_rate": 2.1901540853478976e-05,
      "loss": 0.0551,
      "num_input_tokens_seen": 45630296,
      "step": 78635
    },
    {
      "epoch": 11.712838844206136,
      "grad_norm": 0.012169485911726952,
      "learning_rate": 2.1898316511511264e-05,
      "loss": 0.2914,
      "num_input_tokens_seen": 45633144,
      "step": 78640
    },
    {
      "epoch": 11.713583556747096,
      "grad_norm": 0.020917052403092384,
      "learning_rate": 2.1895092221943335e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 45636216,
      "step": 78645
    },
    {
      "epoch": 11.714328269288055,
      "grad_norm": 0.0376347191631794,
      "learning_rate": 2.1891867984829672e-05,
      "loss": 0.0194,
      "num_input_tokens_seen": 45639128,
      "step": 78650
    },
    {
      "epoch": 11.715072981829014,
      "grad_norm": 0.03943786025047302,
      "learning_rate": 2.1888643800224728e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45641944,
      "step": 78655
    },
    {
      "epoch": 11.715817694369973,
      "grad_norm": 0.002296366496011615,
      "learning_rate": 2.1885419668183e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 45644984,
      "step": 78660
    },
    {
      "epoch": 11.716562406910933,
      "grad_norm": 0.0006216857582330704,
      "learning_rate": 2.188219558875894e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45648056,
      "step": 78665
    },
    {
      "epoch": 11.717307119451892,
      "grad_norm": 0.002477156464010477,
      "learning_rate": 2.1878971562007007e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 45651096,
      "step": 78670
    },
    {
      "epoch": 11.71805183199285,
      "grad_norm": 9.273062705993652,
      "learning_rate": 2.1875747587981686e-05,
      "loss": 0.0297,
      "num_input_tokens_seen": 45653848,
      "step": 78675
    },
    {
      "epoch": 11.71879654453381,
      "grad_norm": 76.70952606201172,
      "learning_rate": 2.1872523666737428e-05,
      "loss": 0.1945,
      "num_input_tokens_seen": 45656696,
      "step": 78680
    },
    {
      "epoch": 11.71954125707477,
      "grad_norm": 0.004545079544186592,
      "learning_rate": 2.186929979832871e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45659416,
      "step": 78685
    },
    {
      "epoch": 11.720285969615729,
      "grad_norm": 0.017962101846933365,
      "learning_rate": 2.186607598280998e-05,
      "loss": 0.2605,
      "num_input_tokens_seen": 45662424,
      "step": 78690
    },
    {
      "epoch": 11.721030682156687,
      "grad_norm": 0.0020985950250178576,
      "learning_rate": 2.186285222023572e-05,
      "loss": 0.1846,
      "num_input_tokens_seen": 45665144,
      "step": 78695
    },
    {
      "epoch": 11.721775394697646,
      "grad_norm": 0.029166828840970993,
      "learning_rate": 2.185962851066039e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 45667896,
      "step": 78700
    },
    {
      "epoch": 11.722520107238607,
      "grad_norm": 0.001109174219891429,
      "learning_rate": 2.1856404854138426e-05,
      "loss": 0.1108,
      "num_input_tokens_seen": 45671032,
      "step": 78705
    },
    {
      "epoch": 11.723264819779565,
      "grad_norm": 0.00940060056746006,
      "learning_rate": 2.1853181250724318e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45674104,
      "step": 78710
    },
    {
      "epoch": 11.724009532320524,
      "grad_norm": 62.065311431884766,
      "learning_rate": 2.1849957700472515e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 45676824,
      "step": 78715
    },
    {
      "epoch": 11.724754244861483,
      "grad_norm": 0.00047667924081906676,
      "learning_rate": 2.1846734203437478e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 45679736,
      "step": 78720
    },
    {
      "epoch": 11.725498957402444,
      "grad_norm": 0.0025515665765851736,
      "learning_rate": 2.1843510759673648e-05,
      "loss": 0.2238,
      "num_input_tokens_seen": 45683000,
      "step": 78725
    },
    {
      "epoch": 11.726243669943402,
      "grad_norm": 0.006126795895397663,
      "learning_rate": 2.184028736923551e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 45686008,
      "step": 78730
    },
    {
      "epoch": 11.726988382484361,
      "grad_norm": 0.0015063926111906767,
      "learning_rate": 2.1837064032177497e-05,
      "loss": 0.4163,
      "num_input_tokens_seen": 45688952,
      "step": 78735
    },
    {
      "epoch": 11.72773309502532,
      "grad_norm": 1.6687856912612915,
      "learning_rate": 2.1833840748554075e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 45691864,
      "step": 78740
    },
    {
      "epoch": 11.728477807566279,
      "grad_norm": 0.042736414819955826,
      "learning_rate": 2.18306175184197e-05,
      "loss": 0.0528,
      "num_input_tokens_seen": 45694840,
      "step": 78745
    },
    {
      "epoch": 11.729222520107239,
      "grad_norm": 0.0016812310786917806,
      "learning_rate": 2.1827394341828817e-05,
      "loss": 0.1215,
      "num_input_tokens_seen": 45697752,
      "step": 78750
    },
    {
      "epoch": 11.729967232648198,
      "grad_norm": 0.0011947443708777428,
      "learning_rate": 2.1824171218835886e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45700632,
      "step": 78755
    },
    {
      "epoch": 11.730711945189157,
      "grad_norm": 0.016503706574440002,
      "learning_rate": 2.1820948149495343e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45703512,
      "step": 78760
    },
    {
      "epoch": 11.731456657730115,
      "grad_norm": 0.10449590533971786,
      "learning_rate": 2.181772513386166e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45706040,
      "step": 78765
    },
    {
      "epoch": 11.732201370271076,
      "grad_norm": 0.01620725728571415,
      "learning_rate": 2.1814502171989276e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45709080,
      "step": 78770
    },
    {
      "epoch": 11.732946082812035,
      "grad_norm": 0.0012422286672517657,
      "learning_rate": 2.1811279263932642e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45711960,
      "step": 78775
    },
    {
      "epoch": 11.733690795352993,
      "grad_norm": 0.14316080510616302,
      "learning_rate": 2.1808056409746196e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45715096,
      "step": 78780
    },
    {
      "epoch": 11.734435507893952,
      "grad_norm": 0.049876078963279724,
      "learning_rate": 2.18048336094844e-05,
      "loss": 0.1513,
      "num_input_tokens_seen": 45717912,
      "step": 78785
    },
    {
      "epoch": 11.735180220434913,
      "grad_norm": 0.01282095443457365,
      "learning_rate": 2.180161086320169e-05,
      "loss": 0.2345,
      "num_input_tokens_seen": 45720536,
      "step": 78790
    },
    {
      "epoch": 11.735924932975871,
      "grad_norm": 17.452341079711914,
      "learning_rate": 2.1798388170952508e-05,
      "loss": 0.0129,
      "num_input_tokens_seen": 45723576,
      "step": 78795
    },
    {
      "epoch": 11.73666964551683,
      "grad_norm": 0.006788667757064104,
      "learning_rate": 2.1795165532791315e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45726744,
      "step": 78800
    },
    {
      "epoch": 11.737414358057789,
      "grad_norm": 101.76830291748047,
      "learning_rate": 2.1791942948772533e-05,
      "loss": 0.2509,
      "num_input_tokens_seen": 45729720,
      "step": 78805
    },
    {
      "epoch": 11.73815907059875,
      "grad_norm": 0.07027248293161392,
      "learning_rate": 2.1788720418950626e-05,
      "loss": 0.07,
      "num_input_tokens_seen": 45732696,
      "step": 78810
    },
    {
      "epoch": 11.738903783139708,
      "grad_norm": 0.006353113800287247,
      "learning_rate": 2.178549794338001e-05,
      "loss": 0.1722,
      "num_input_tokens_seen": 45735608,
      "step": 78815
    },
    {
      "epoch": 11.739648495680667,
      "grad_norm": 0.0003530472458805889,
      "learning_rate": 2.178227552211515e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45738360,
      "step": 78820
    },
    {
      "epoch": 11.740393208221626,
      "grad_norm": 0.017915448173880577,
      "learning_rate": 2.1779053155210474e-05,
      "loss": 0.0197,
      "num_input_tokens_seen": 45741144,
      "step": 78825
    },
    {
      "epoch": 11.741137920762586,
      "grad_norm": 0.011834362521767616,
      "learning_rate": 2.177583084272041e-05,
      "loss": 0.1253,
      "num_input_tokens_seen": 45744024,
      "step": 78830
    },
    {
      "epoch": 11.741882633303545,
      "grad_norm": 0.018039163202047348,
      "learning_rate": 2.177260858469942e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45746840,
      "step": 78835
    },
    {
      "epoch": 11.742627345844504,
      "grad_norm": 0.011137757450342178,
      "learning_rate": 2.176938638120192e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45749528,
      "step": 78840
    },
    {
      "epoch": 11.743372058385463,
      "grad_norm": 20.58570098876953,
      "learning_rate": 2.176616423228236e-05,
      "loss": 0.0606,
      "num_input_tokens_seen": 45752568,
      "step": 78845
    },
    {
      "epoch": 11.744116770926423,
      "grad_norm": 169.3321990966797,
      "learning_rate": 2.1762942137995158e-05,
      "loss": 0.1158,
      "num_input_tokens_seen": 45755384,
      "step": 78850
    },
    {
      "epoch": 11.744861483467382,
      "grad_norm": 0.020692620426416397,
      "learning_rate": 2.175972009839477e-05,
      "loss": 0.122,
      "num_input_tokens_seen": 45758200,
      "step": 78855
    },
    {
      "epoch": 11.74560619600834,
      "grad_norm": 0.0020682259928435087,
      "learning_rate": 2.1756498113535617e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45761272,
      "step": 78860
    },
    {
      "epoch": 11.7463509085493,
      "grad_norm": 103.16521453857422,
      "learning_rate": 2.1753276183472122e-05,
      "loss": 0.2121,
      "num_input_tokens_seen": 45764088,
      "step": 78865
    },
    {
      "epoch": 11.74709562109026,
      "grad_norm": 0.012686322443187237,
      "learning_rate": 2.1750054308258737e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45767256,
      "step": 78870
    },
    {
      "epoch": 11.747840333631219,
      "grad_norm": 1.6218489408493042,
      "learning_rate": 2.1746832487949874e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 45770136,
      "step": 78875
    },
    {
      "epoch": 11.748585046172177,
      "grad_norm": 0.004515737295150757,
      "learning_rate": 2.174361072259998e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45773240,
      "step": 78880
    },
    {
      "epoch": 11.749329758713136,
      "grad_norm": 0.023160353302955627,
      "learning_rate": 2.1740389012263454e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45776184,
      "step": 78885
    },
    {
      "epoch": 11.750074471254095,
      "grad_norm": 0.006976425182074308,
      "learning_rate": 2.173716735699476e-05,
      "loss": 0.093,
      "num_input_tokens_seen": 45779448,
      "step": 78890
    },
    {
      "epoch": 11.750819183795056,
      "grad_norm": 0.0065196664072573185,
      "learning_rate": 2.173394575684829e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 45782200,
      "step": 78895
    },
    {
      "epoch": 11.751563896336014,
      "grad_norm": 107.76544189453125,
      "learning_rate": 2.1730724211878506e-05,
      "loss": 0.2621,
      "num_input_tokens_seen": 45785016,
      "step": 78900
    },
    {
      "epoch": 11.752308608876973,
      "grad_norm": 0.020274966955184937,
      "learning_rate": 2.172750272213981e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45787768,
      "step": 78905
    },
    {
      "epoch": 11.753053321417934,
      "grad_norm": 0.024682210758328438,
      "learning_rate": 2.1724281287686622e-05,
      "loss": 0.2066,
      "num_input_tokens_seen": 45791000,
      "step": 78910
    },
    {
      "epoch": 11.753798033958892,
      "grad_norm": 0.018656015396118164,
      "learning_rate": 2.1721059908573383e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45793752,
      "step": 78915
    },
    {
      "epoch": 11.754542746499851,
      "grad_norm": 0.0025509551633149385,
      "learning_rate": 2.171783858485449e-05,
      "loss": 0.0338,
      "num_input_tokens_seen": 45796568,
      "step": 78920
    },
    {
      "epoch": 11.75528745904081,
      "grad_norm": 0.0610925629734993,
      "learning_rate": 2.171461731658439e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45799384,
      "step": 78925
    },
    {
      "epoch": 11.756032171581769,
      "grad_norm": 0.14986038208007812,
      "learning_rate": 2.1711396103817477e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 45802360,
      "step": 78930
    },
    {
      "epoch": 11.75677688412273,
      "grad_norm": 0.004267545882612467,
      "learning_rate": 2.17081749466082e-05,
      "loss": 0.0203,
      "num_input_tokens_seen": 45805368,
      "step": 78935
    },
    {
      "epoch": 11.757521596663688,
      "grad_norm": 0.017887959256768227,
      "learning_rate": 2.170495384501096e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45808344,
      "step": 78940
    },
    {
      "epoch": 11.758266309204647,
      "grad_norm": 0.0008261857437901199,
      "learning_rate": 2.1701732799080173e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 45811704,
      "step": 78945
    },
    {
      "epoch": 11.759011021745605,
      "grad_norm": 0.0023685593623667955,
      "learning_rate": 2.169851180887026e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45814552,
      "step": 78950
    },
    {
      "epoch": 11.759755734286566,
      "grad_norm": 49.56857681274414,
      "learning_rate": 2.1695290874435623e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 45817720,
      "step": 78955
    },
    {
      "epoch": 11.760500446827525,
      "grad_norm": 0.04080400615930557,
      "learning_rate": 2.16920699958307e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 45820728,
      "step": 78960
    },
    {
      "epoch": 11.761245159368483,
      "grad_norm": 0.012872437946498394,
      "learning_rate": 2.168884917310988e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45823480,
      "step": 78965
    },
    {
      "epoch": 11.761989871909442,
      "grad_norm": 0.006101634353399277,
      "learning_rate": 2.16856284063276e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 45826392,
      "step": 78970
    },
    {
      "epoch": 11.762734584450403,
      "grad_norm": 0.0006966301007196307,
      "learning_rate": 2.1682407695538255e-05,
      "loss": 0.1006,
      "num_input_tokens_seen": 45829400,
      "step": 78975
    },
    {
      "epoch": 11.763479296991362,
      "grad_norm": 0.03919141739606857,
      "learning_rate": 2.1679187040796266e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 45832216,
      "step": 78980
    },
    {
      "epoch": 11.76422400953232,
      "grad_norm": 0.014329750090837479,
      "learning_rate": 2.1675966442156038e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45835096,
      "step": 78985
    },
    {
      "epoch": 11.764968722073279,
      "grad_norm": 0.031157420948147774,
      "learning_rate": 2.1672745899671965e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 45837880,
      "step": 78990
    },
    {
      "epoch": 11.76571343461424,
      "grad_norm": 0.03563797101378441,
      "learning_rate": 2.1669525413398477e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45840504,
      "step": 78995
    },
    {
      "epoch": 11.766458147155198,
      "grad_norm": 0.07830079644918442,
      "learning_rate": 2.166630498338997e-05,
      "loss": 0.0772,
      "num_input_tokens_seen": 45843192,
      "step": 79000
    },
    {
      "epoch": 11.767202859696157,
      "grad_norm": 0.03604714944958687,
      "learning_rate": 2.1663084609700853e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45846136,
      "step": 79005
    },
    {
      "epoch": 11.767947572237116,
      "grad_norm": 0.0034206192940473557,
      "learning_rate": 2.1659864292385528e-05,
      "loss": 0.0308,
      "num_input_tokens_seen": 45848920,
      "step": 79010
    },
    {
      "epoch": 11.768692284778076,
      "grad_norm": 0.0030328030698001385,
      "learning_rate": 2.1656644031498407e-05,
      "loss": 0.128,
      "num_input_tokens_seen": 45851928,
      "step": 79015
    },
    {
      "epoch": 11.769436997319035,
      "grad_norm": 0.002499858383089304,
      "learning_rate": 2.1653423827093888e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45855160,
      "step": 79020
    },
    {
      "epoch": 11.770181709859994,
      "grad_norm": 0.053590450435876846,
      "learning_rate": 2.1650203679226362e-05,
      "loss": 0.1493,
      "num_input_tokens_seen": 45857976,
      "step": 79025
    },
    {
      "epoch": 11.770926422400953,
      "grad_norm": 0.11741647124290466,
      "learning_rate": 2.164698358795025e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45861112,
      "step": 79030
    },
    {
      "epoch": 11.771671134941913,
      "grad_norm": 0.004805991891771555,
      "learning_rate": 2.164376355331993e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45863640,
      "step": 79035
    },
    {
      "epoch": 11.772415847482872,
      "grad_norm": 0.010231263935565948,
      "learning_rate": 2.1640543575389828e-05,
      "loss": 0.0293,
      "num_input_tokens_seen": 45866680,
      "step": 79040
    },
    {
      "epoch": 11.77316056002383,
      "grad_norm": 14.233440399169922,
      "learning_rate": 2.163732365421432e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 45870296,
      "step": 79045
    },
    {
      "epoch": 11.77390527256479,
      "grad_norm": 0.3800041973590851,
      "learning_rate": 2.1634103789847813e-05,
      "loss": 0.0869,
      "num_input_tokens_seen": 45873048,
      "step": 79050
    },
    {
      "epoch": 11.77464998510575,
      "grad_norm": 0.004918823949992657,
      "learning_rate": 2.1630883982344695e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 45875928,
      "step": 79055
    },
    {
      "epoch": 11.775394697646709,
      "grad_norm": 0.0024900215212255716,
      "learning_rate": 2.1627664231759383e-05,
      "loss": 0.1008,
      "num_input_tokens_seen": 45879032,
      "step": 79060
    },
    {
      "epoch": 11.776139410187668,
      "grad_norm": 0.014615689404308796,
      "learning_rate": 2.1624444538146248e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45882104,
      "step": 79065
    },
    {
      "epoch": 11.776884122728626,
      "grad_norm": 0.001453396282158792,
      "learning_rate": 2.1621224901559685e-05,
      "loss": 0.1597,
      "num_input_tokens_seen": 45884920,
      "step": 79070
    },
    {
      "epoch": 11.777628835269585,
      "grad_norm": 0.18068495392799377,
      "learning_rate": 2.1618005322054103e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45887640,
      "step": 79075
    },
    {
      "epoch": 11.778373547810546,
      "grad_norm": 25.886146545410156,
      "learning_rate": 2.1614785799683877e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 45890712,
      "step": 79080
    },
    {
      "epoch": 11.779118260351504,
      "grad_norm": 8.176167488098145,
      "learning_rate": 2.1611566334503413e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 45894584,
      "step": 79085
    },
    {
      "epoch": 11.779862972892463,
      "grad_norm": 0.03814387694001198,
      "learning_rate": 2.160834692656708e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 45897688,
      "step": 79090
    },
    {
      "epoch": 11.780607685433424,
      "grad_norm": 3.236643075942993,
      "learning_rate": 2.160512757592929e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 45900568,
      "step": 79095
    },
    {
      "epoch": 11.781352397974382,
      "grad_norm": 0.0019490547711029649,
      "learning_rate": 2.1601908282644418e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45903384,
      "step": 79100
    },
    {
      "epoch": 11.782097110515341,
      "grad_norm": 0.0020826170220971107,
      "learning_rate": 2.1598689046766848e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45906200,
      "step": 79105
    },
    {
      "epoch": 11.7828418230563,
      "grad_norm": 3.7908732891082764,
      "learning_rate": 2.1595469868350966e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 45908856,
      "step": 79110
    },
    {
      "epoch": 11.783586535597259,
      "grad_norm": 0.001516448799520731,
      "learning_rate": 2.1592250747451166e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 45911704,
      "step": 79115
    },
    {
      "epoch": 11.78433124813822,
      "grad_norm": 136.1159210205078,
      "learning_rate": 2.1589031684121828e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 45914584,
      "step": 79120
    },
    {
      "epoch": 11.785075960679178,
      "grad_norm": 0.04502924904227257,
      "learning_rate": 2.1585812678417323e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 45917560,
      "step": 79125
    },
    {
      "epoch": 11.785820673220137,
      "grad_norm": 0.0006644264212809503,
      "learning_rate": 2.1582593730392055e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 45920408,
      "step": 79130
    },
    {
      "epoch": 11.786565385761095,
      "grad_norm": 1.0471036434173584,
      "learning_rate": 2.1579374840100383e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45923416,
      "step": 79135
    },
    {
      "epoch": 11.787310098302056,
      "grad_norm": 0.004699348006397486,
      "learning_rate": 2.1576156007596705e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45926296,
      "step": 79140
    },
    {
      "epoch": 11.788054810843015,
      "grad_norm": 0.023634672164916992,
      "learning_rate": 2.1572937232935385e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 45929208,
      "step": 79145
    },
    {
      "epoch": 11.788799523383974,
      "grad_norm": 0.08350013941526413,
      "learning_rate": 2.1569718516170806e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45932248,
      "step": 79150
    },
    {
      "epoch": 11.789544235924932,
      "grad_norm": 0.0006175732123665512,
      "learning_rate": 2.1566499857357352e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 45935128,
      "step": 79155
    },
    {
      "epoch": 11.790288948465893,
      "grad_norm": 0.004316405858844519,
      "learning_rate": 2.1563281256549385e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 45938136,
      "step": 79160
    },
    {
      "epoch": 11.791033661006852,
      "grad_norm": 0.031185535714030266,
      "learning_rate": 2.15600627138013e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 45941016,
      "step": 79165
    },
    {
      "epoch": 11.79177837354781,
      "grad_norm": 0.004115927964448929,
      "learning_rate": 2.155684422916745e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45944248,
      "step": 79170
    },
    {
      "epoch": 11.792523086088769,
      "grad_norm": 0.005604552570730448,
      "learning_rate": 2.1553625802702226e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 45947064,
      "step": 79175
    },
    {
      "epoch": 11.79326779862973,
      "grad_norm": 0.002231621416285634,
      "learning_rate": 2.155040743445999e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 45949976,
      "step": 79180
    },
    {
      "epoch": 11.794012511170688,
      "grad_norm": 0.015421036630868912,
      "learning_rate": 2.1547189124495103e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45952888,
      "step": 79185
    },
    {
      "epoch": 11.794757223711647,
      "grad_norm": 0.004567453637719154,
      "learning_rate": 2.1543970872861957e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 45955864,
      "step": 79190
    },
    {
      "epoch": 11.795501936252606,
      "grad_norm": 0.0023204656317830086,
      "learning_rate": 2.15407526796149e-05,
      "loss": 0.3938,
      "num_input_tokens_seen": 45958904,
      "step": 79195
    },
    {
      "epoch": 11.796246648793566,
      "grad_norm": 0.4011426270008087,
      "learning_rate": 2.153753454480832e-05,
      "loss": 0.0378,
      "num_input_tokens_seen": 45961400,
      "step": 79200
    },
    {
      "epoch": 11.796991361334525,
      "grad_norm": 0.0012783820275217295,
      "learning_rate": 2.1534316468496575e-05,
      "loss": 0.1508,
      "num_input_tokens_seen": 45964216,
      "step": 79205
    },
    {
      "epoch": 11.797736073875484,
      "grad_norm": 0.000986639759503305,
      "learning_rate": 2.153109845073403e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45966936,
      "step": 79210
    },
    {
      "epoch": 11.798480786416443,
      "grad_norm": 0.0030650519765913486,
      "learning_rate": 2.1527880491575042e-05,
      "loss": 0.1567,
      "num_input_tokens_seen": 45969816,
      "step": 79215
    },
    {
      "epoch": 11.799225498957403,
      "grad_norm": 0.007521411404013634,
      "learning_rate": 2.1524662591073997e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 45972888,
      "step": 79220
    },
    {
      "epoch": 11.799970211498362,
      "grad_norm": 0.0075780353508889675,
      "learning_rate": 2.1521444749285244e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45975992,
      "step": 79225
    },
    {
      "epoch": 11.80071492403932,
      "grad_norm": 0.0003274650953244418,
      "learning_rate": 2.1518226966263136e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 45978904,
      "step": 79230
    },
    {
      "epoch": 11.80145963658028,
      "grad_norm": 0.3014921247959137,
      "learning_rate": 2.1515009242062055e-05,
      "loss": 0.1872,
      "num_input_tokens_seen": 45981656,
      "step": 79235
    },
    {
      "epoch": 11.80220434912124,
      "grad_norm": 0.0048226420767605305,
      "learning_rate": 2.1511791576736346e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45985016,
      "step": 79240
    },
    {
      "epoch": 11.802949061662199,
      "grad_norm": 0.5292934775352478,
      "learning_rate": 2.1508573970340377e-05,
      "loss": 0.0957,
      "num_input_tokens_seen": 45987992,
      "step": 79245
    },
    {
      "epoch": 11.803693774203158,
      "grad_norm": 0.0020300389733165503,
      "learning_rate": 2.1505356422928493e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 45991064,
      "step": 79250
    },
    {
      "epoch": 11.804438486744116,
      "grad_norm": 0.018194742500782013,
      "learning_rate": 2.1502138934555072e-05,
      "loss": 0.0434,
      "num_input_tokens_seen": 45994008,
      "step": 79255
    },
    {
      "epoch": 11.805183199285075,
      "grad_norm": 0.013138892129063606,
      "learning_rate": 2.1498921505274444e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 45996856,
      "step": 79260
    },
    {
      "epoch": 11.805927911826036,
      "grad_norm": 1.6255853176116943,
      "learning_rate": 2.1495704135140992e-05,
      "loss": 0.3475,
      "num_input_tokens_seen": 45999608,
      "step": 79265
    },
    {
      "epoch": 11.806672624366994,
      "grad_norm": 0.0021686628460884094,
      "learning_rate": 2.1492486824209058e-05,
      "loss": 0.0894,
      "num_input_tokens_seen": 46002680,
      "step": 79270
    },
    {
      "epoch": 11.807417336907953,
      "grad_norm": 1.3452019691467285,
      "learning_rate": 2.1489269572532987e-05,
      "loss": 0.0102,
      "num_input_tokens_seen": 46006040,
      "step": 79275
    },
    {
      "epoch": 11.808162049448912,
      "grad_norm": 0.004463351797312498,
      "learning_rate": 2.1486052380167146e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46008984,
      "step": 79280
    },
    {
      "epoch": 11.808906761989872,
      "grad_norm": 0.518406331539154,
      "learning_rate": 2.1482835247165867e-05,
      "loss": 0.2105,
      "num_input_tokens_seen": 46011672,
      "step": 79285
    },
    {
      "epoch": 11.809651474530831,
      "grad_norm": 0.003059715498238802,
      "learning_rate": 2.1479618173583522e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46014424,
      "step": 79290
    },
    {
      "epoch": 11.81039618707179,
      "grad_norm": 0.0015487184282392263,
      "learning_rate": 2.147640115947444e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46017112,
      "step": 79295
    },
    {
      "epoch": 11.811140899612749,
      "grad_norm": 0.008100386708974838,
      "learning_rate": 2.147318420489299e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 46019992,
      "step": 79300
    },
    {
      "epoch": 11.81188561215371,
      "grad_norm": 0.010126315988600254,
      "learning_rate": 2.1469967309893508e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46023032,
      "step": 79305
    },
    {
      "epoch": 11.812630324694668,
      "grad_norm": 0.40954843163490295,
      "learning_rate": 2.1466750474530333e-05,
      "loss": 0.1259,
      "num_input_tokens_seen": 46025976,
      "step": 79310
    },
    {
      "epoch": 11.813375037235627,
      "grad_norm": 0.16814343631267548,
      "learning_rate": 2.1463533698857827e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46028824,
      "step": 79315
    },
    {
      "epoch": 11.814119749776586,
      "grad_norm": 0.0015671922592446208,
      "learning_rate": 2.1460316982930313e-05,
      "loss": 0.0195,
      "num_input_tokens_seen": 46031640,
      "step": 79320
    },
    {
      "epoch": 11.814864462317546,
      "grad_norm": 0.22592271864414215,
      "learning_rate": 2.1457100326802155e-05,
      "loss": 0.3004,
      "num_input_tokens_seen": 46034232,
      "step": 79325
    },
    {
      "epoch": 11.815609174858505,
      "grad_norm": 0.016086315736174583,
      "learning_rate": 2.1453883730527677e-05,
      "loss": 0.0314,
      "num_input_tokens_seen": 46036984,
      "step": 79330
    },
    {
      "epoch": 11.816353887399464,
      "grad_norm": 40.9968376159668,
      "learning_rate": 2.145066719416124e-05,
      "loss": 0.0442,
      "num_input_tokens_seen": 46040024,
      "step": 79335
    },
    {
      "epoch": 11.817098599940422,
      "grad_norm": 0.002699055476114154,
      "learning_rate": 2.1447450717757167e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46042744,
      "step": 79340
    },
    {
      "epoch": 11.817843312481383,
      "grad_norm": 0.002647322602570057,
      "learning_rate": 2.144423430136981e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 46045304,
      "step": 79345
    },
    {
      "epoch": 11.818588025022342,
      "grad_norm": 0.06158703938126564,
      "learning_rate": 2.1441017945053497e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46048248,
      "step": 79350
    },
    {
      "epoch": 11.8193327375633,
      "grad_norm": 0.6350087523460388,
      "learning_rate": 2.143780164886256e-05,
      "loss": 0.1893,
      "num_input_tokens_seen": 46051064,
      "step": 79355
    },
    {
      "epoch": 11.82007745010426,
      "grad_norm": 0.00733809033408761,
      "learning_rate": 2.143458541285136e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46054200,
      "step": 79360
    },
    {
      "epoch": 11.82082216264522,
      "grad_norm": 51.02717971801758,
      "learning_rate": 2.1431369237074196e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 46056920,
      "step": 79365
    },
    {
      "epoch": 11.821566875186178,
      "grad_norm": 0.010248030535876751,
      "learning_rate": 2.1428153121585438e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46059640,
      "step": 79370
    },
    {
      "epoch": 11.822311587727137,
      "grad_norm": 0.0004607037699315697,
      "learning_rate": 2.1424937066439398e-05,
      "loss": 0.2557,
      "num_input_tokens_seen": 46062360,
      "step": 79375
    },
    {
      "epoch": 11.823056300268096,
      "grad_norm": 12.083606719970703,
      "learning_rate": 2.1421721071690415e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 46065272,
      "step": 79380
    },
    {
      "epoch": 11.823801012809056,
      "grad_norm": 0.0030855555087327957,
      "learning_rate": 2.141850513739282e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46068056,
      "step": 79385
    },
    {
      "epoch": 11.824545725350015,
      "grad_norm": 0.06259425729513168,
      "learning_rate": 2.1415289263600927e-05,
      "loss": 0.1164,
      "num_input_tokens_seen": 46070936,
      "step": 79390
    },
    {
      "epoch": 11.825290437890974,
      "grad_norm": 0.0027776937931776047,
      "learning_rate": 2.1412073450369092e-05,
      "loss": 0.1783,
      "num_input_tokens_seen": 46073720,
      "step": 79395
    },
    {
      "epoch": 11.826035150431933,
      "grad_norm": 0.012514941394329071,
      "learning_rate": 2.1408857697751617e-05,
      "loss": 0.1384,
      "num_input_tokens_seen": 46076888,
      "step": 79400
    },
    {
      "epoch": 11.826779862972892,
      "grad_norm": 0.0032030411530286074,
      "learning_rate": 2.1405642005802852e-05,
      "loss": 0.0796,
      "num_input_tokens_seen": 46079672,
      "step": 79405
    },
    {
      "epoch": 11.827524575513852,
      "grad_norm": 0.2248229682445526,
      "learning_rate": 2.1402426374577107e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 46082648,
      "step": 79410
    },
    {
      "epoch": 11.82826928805481,
      "grad_norm": 0.013778628781437874,
      "learning_rate": 2.139921080412872e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46085368,
      "step": 79415
    },
    {
      "epoch": 11.82901400059577,
      "grad_norm": 0.008154637180268764,
      "learning_rate": 2.1395995294511993e-05,
      "loss": 0.1732,
      "num_input_tokens_seen": 46088056,
      "step": 79420
    },
    {
      "epoch": 11.82975871313673,
      "grad_norm": 1.9687994718551636,
      "learning_rate": 2.1392779845781275e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 46091224,
      "step": 79425
    },
    {
      "epoch": 11.830503425677689,
      "grad_norm": 0.06904743611812592,
      "learning_rate": 2.1389564457990875e-05,
      "loss": 0.2484,
      "num_input_tokens_seen": 46094072,
      "step": 79430
    },
    {
      "epoch": 11.831248138218648,
      "grad_norm": 11.689443588256836,
      "learning_rate": 2.1386349131195103e-05,
      "loss": 0.16,
      "num_input_tokens_seen": 46096856,
      "step": 79435
    },
    {
      "epoch": 11.831992850759606,
      "grad_norm": 0.0009296539356000721,
      "learning_rate": 2.13831338654483e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46099704,
      "step": 79440
    },
    {
      "epoch": 11.832737563300565,
      "grad_norm": 0.014635608531534672,
      "learning_rate": 2.1379918660804766e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 46102744,
      "step": 79445
    },
    {
      "epoch": 11.833482275841526,
      "grad_norm": 0.006670080125331879,
      "learning_rate": 2.1376703517318837e-05,
      "loss": 0.2159,
      "num_input_tokens_seen": 46105976,
      "step": 79450
    },
    {
      "epoch": 11.834226988382484,
      "grad_norm": 0.005383856128901243,
      "learning_rate": 2.1373488435044804e-05,
      "loss": 0.0341,
      "num_input_tokens_seen": 46109176,
      "step": 79455
    },
    {
      "epoch": 11.834971700923443,
      "grad_norm": 0.00374456774443388,
      "learning_rate": 2.1370273414037013e-05,
      "loss": 0.3478,
      "num_input_tokens_seen": 46111864,
      "step": 79460
    },
    {
      "epoch": 11.835716413464402,
      "grad_norm": 0.010572206228971481,
      "learning_rate": 2.1367058454349763e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 46114808,
      "step": 79465
    },
    {
      "epoch": 11.836461126005362,
      "grad_norm": 0.014647363685071468,
      "learning_rate": 2.1363843556037365e-05,
      "loss": 0.188,
      "num_input_tokens_seen": 46117976,
      "step": 79470
    },
    {
      "epoch": 11.837205838546321,
      "grad_norm": 0.002366497879847884,
      "learning_rate": 2.136062871915413e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 46121464,
      "step": 79475
    },
    {
      "epoch": 11.83795055108728,
      "grad_norm": 0.13037173449993134,
      "learning_rate": 2.1357413943754374e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 46124280,
      "step": 79480
    },
    {
      "epoch": 11.838695263628239,
      "grad_norm": 0.023352211341261864,
      "learning_rate": 2.1354199229892416e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46127384,
      "step": 79485
    },
    {
      "epoch": 11.8394399761692,
      "grad_norm": 0.09760717302560806,
      "learning_rate": 2.1350984577622547e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46130392,
      "step": 79490
    },
    {
      "epoch": 11.840184688710158,
      "grad_norm": 0.0030618023592978716,
      "learning_rate": 2.1347769986999088e-05,
      "loss": 0.1162,
      "num_input_tokens_seen": 46133272,
      "step": 79495
    },
    {
      "epoch": 11.840929401251117,
      "grad_norm": 0.0016228815075010061,
      "learning_rate": 2.1344555458076345e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46136056,
      "step": 79500
    },
    {
      "epoch": 11.841674113792076,
      "grad_norm": 0.06524054706096649,
      "learning_rate": 2.1341340990908627e-05,
      "loss": 0.1752,
      "num_input_tokens_seen": 46139096,
      "step": 79505
    },
    {
      "epoch": 11.842418826333036,
      "grad_norm": 0.00467600766569376,
      "learning_rate": 2.133812658555023e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 46142040,
      "step": 79510
    },
    {
      "epoch": 11.843163538873995,
      "grad_norm": 0.005164835136383772,
      "learning_rate": 2.1334912242055454e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46144952,
      "step": 79515
    },
    {
      "epoch": 11.843908251414954,
      "grad_norm": 0.012143411673605442,
      "learning_rate": 2.1331697960478624e-05,
      "loss": 0.214,
      "num_input_tokens_seen": 46147928,
      "step": 79520
    },
    {
      "epoch": 11.844652963955912,
      "grad_norm": 0.004521480295807123,
      "learning_rate": 2.1328483740874014e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46150968,
      "step": 79525
    },
    {
      "epoch": 11.845397676496873,
      "grad_norm": 0.0028374132234603167,
      "learning_rate": 2.1325269583295953e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46153560,
      "step": 79530
    },
    {
      "epoch": 11.846142389037832,
      "grad_norm": 0.03295213729143143,
      "learning_rate": 2.132205548779872e-05,
      "loss": 0.0239,
      "num_input_tokens_seen": 46156504,
      "step": 79535
    },
    {
      "epoch": 11.84688710157879,
      "grad_norm": 35.32046890258789,
      "learning_rate": 2.131884145443663e-05,
      "loss": 0.273,
      "num_input_tokens_seen": 46159416,
      "step": 79540
    },
    {
      "epoch": 11.84763181411975,
      "grad_norm": 0.003949496429413557,
      "learning_rate": 2.131562748326397e-05,
      "loss": 0.0972,
      "num_input_tokens_seen": 46162360,
      "step": 79545
    },
    {
      "epoch": 11.84837652666071,
      "grad_norm": 16.468286514282227,
      "learning_rate": 2.131241357433503e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 46165304,
      "step": 79550
    },
    {
      "epoch": 11.849121239201668,
      "grad_norm": 5.331356525421143,
      "learning_rate": 2.1309199727704125e-05,
      "loss": 0.1423,
      "num_input_tokens_seen": 46168280,
      "step": 79555
    },
    {
      "epoch": 11.849865951742627,
      "grad_norm": 1.1215711832046509,
      "learning_rate": 2.130598594342553e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 46171064,
      "step": 79560
    },
    {
      "epoch": 11.850610664283586,
      "grad_norm": 0.0053695677779614925,
      "learning_rate": 2.130277222155355e-05,
      "loss": 0.2941,
      "num_input_tokens_seen": 46174200,
      "step": 79565
    },
    {
      "epoch": 11.851355376824547,
      "grad_norm": 0.041477352380752563,
      "learning_rate": 2.129955856214248e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46177272,
      "step": 79570
    },
    {
      "epoch": 11.852100089365505,
      "grad_norm": 115.92034912109375,
      "learning_rate": 2.129634496524661e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 46179928,
      "step": 79575
    },
    {
      "epoch": 11.852844801906464,
      "grad_norm": 0.0032962835393846035,
      "learning_rate": 2.1293131430920215e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46183160,
      "step": 79580
    },
    {
      "epoch": 11.853589514447423,
      "grad_norm": 0.007178452331572771,
      "learning_rate": 2.128991795921761e-05,
      "loss": 0.0561,
      "num_input_tokens_seen": 46186360,
      "step": 79585
    },
    {
      "epoch": 11.854334226988382,
      "grad_norm": 0.0020006250124424696,
      "learning_rate": 2.128670455019307e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 46189432,
      "step": 79590
    },
    {
      "epoch": 11.855078939529342,
      "grad_norm": 28.84718894958496,
      "learning_rate": 2.128349120390087e-05,
      "loss": 0.0946,
      "num_input_tokens_seen": 46192440,
      "step": 79595
    },
    {
      "epoch": 11.8558236520703,
      "grad_norm": 0.005977706518024206,
      "learning_rate": 2.1280277920395322e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 46195480,
      "step": 79600
    },
    {
      "epoch": 11.85656836461126,
      "grad_norm": 0.0055238972418010235,
      "learning_rate": 2.1277064699730694e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 46198328,
      "step": 79605
    },
    {
      "epoch": 11.85731307715222,
      "grad_norm": 0.05202070251107216,
      "learning_rate": 2.1273851541961274e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46201400,
      "step": 79610
    },
    {
      "epoch": 11.858057789693179,
      "grad_norm": 0.05467892065644264,
      "learning_rate": 2.1270638447141337e-05,
      "loss": 0.0283,
      "num_input_tokens_seen": 46204216,
      "step": 79615
    },
    {
      "epoch": 11.858802502234138,
      "grad_norm": 0.004419626668095589,
      "learning_rate": 2.1267425415325185e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46206840,
      "step": 79620
    },
    {
      "epoch": 11.859547214775096,
      "grad_norm": 0.0032619433477520943,
      "learning_rate": 2.1264212446567084e-05,
      "loss": 0.0211,
      "num_input_tokens_seen": 46209688,
      "step": 79625
    },
    {
      "epoch": 11.860291927316055,
      "grad_norm": 0.13454604148864746,
      "learning_rate": 2.1260999540921307e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46212568,
      "step": 79630
    },
    {
      "epoch": 11.861036639857016,
      "grad_norm": 0.06409472227096558,
      "learning_rate": 2.1257786698442155e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46215320,
      "step": 79635
    },
    {
      "epoch": 11.861781352397974,
      "grad_norm": 0.05065728351473808,
      "learning_rate": 2.125457391918389e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 46218296,
      "step": 79640
    },
    {
      "epoch": 11.862526064938933,
      "grad_norm": 0.00350801064632833,
      "learning_rate": 2.1251361203200793e-05,
      "loss": 0.0337,
      "num_input_tokens_seen": 46221336,
      "step": 79645
    },
    {
      "epoch": 11.863270777479892,
      "grad_norm": 22.24445152282715,
      "learning_rate": 2.124814855054713e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 46224408,
      "step": 79650
    },
    {
      "epoch": 11.864015490020853,
      "grad_norm": 0.008624202571809292,
      "learning_rate": 2.1244935961277197e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 46226968,
      "step": 79655
    },
    {
      "epoch": 11.864760202561811,
      "grad_norm": 0.006210753694176674,
      "learning_rate": 2.124172343544524e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46229976,
      "step": 79660
    },
    {
      "epoch": 11.86550491510277,
      "grad_norm": 0.006544203031808138,
      "learning_rate": 2.123851097310556e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46232728,
      "step": 79665
    },
    {
      "epoch": 11.866249627643729,
      "grad_norm": 0.036656703799963,
      "learning_rate": 2.1235298574312405e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46235416,
      "step": 79670
    },
    {
      "epoch": 11.86699434018469,
      "grad_norm": 0.004797184374183416,
      "learning_rate": 2.123208623912006e-05,
      "loss": 0.007,
      "num_input_tokens_seen": 46238296,
      "step": 79675
    },
    {
      "epoch": 11.867739052725648,
      "grad_norm": 0.03268593177199364,
      "learning_rate": 2.1228873967582787e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46241368,
      "step": 79680
    },
    {
      "epoch": 11.868483765266607,
      "grad_norm": 0.006389270536601543,
      "learning_rate": 2.1225661759754848e-05,
      "loss": 0.0706,
      "num_input_tokens_seen": 46244248,
      "step": 79685
    },
    {
      "epoch": 11.869228477807566,
      "grad_norm": 0.012979329563677311,
      "learning_rate": 2.1222449615690525e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46247640,
      "step": 79690
    },
    {
      "epoch": 11.869973190348526,
      "grad_norm": 0.018005719408392906,
      "learning_rate": 2.121923753544407e-05,
      "loss": 0.1994,
      "num_input_tokens_seen": 46250360,
      "step": 79695
    },
    {
      "epoch": 11.870717902889485,
      "grad_norm": 0.003652758663520217,
      "learning_rate": 2.1216025519069766e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46253272,
      "step": 79700
    },
    {
      "epoch": 11.871462615430444,
      "grad_norm": 81.3683853149414,
      "learning_rate": 2.121281356662186e-05,
      "loss": 0.2346,
      "num_input_tokens_seen": 46256152,
      "step": 79705
    },
    {
      "epoch": 11.872207327971402,
      "grad_norm": 0.012512301094830036,
      "learning_rate": 2.1209601678154615e-05,
      "loss": 0.1141,
      "num_input_tokens_seen": 46259224,
      "step": 79710
    },
    {
      "epoch": 11.872952040512363,
      "grad_norm": 0.0062246173620224,
      "learning_rate": 2.1206389853722306e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46262104,
      "step": 79715
    },
    {
      "epoch": 11.873696753053322,
      "grad_norm": 0.0013275019591674209,
      "learning_rate": 2.1203178093379172e-05,
      "loss": 0.157,
      "num_input_tokens_seen": 46265016,
      "step": 79720
    },
    {
      "epoch": 11.87444146559428,
      "grad_norm": 0.0029818592593073845,
      "learning_rate": 2.1199966397179492e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46268216,
      "step": 79725
    },
    {
      "epoch": 11.87518617813524,
      "grad_norm": 9.716691970825195,
      "learning_rate": 2.1196754765177514e-05,
      "loss": 0.1046,
      "num_input_tokens_seen": 46271352,
      "step": 79730
    },
    {
      "epoch": 11.8759308906762,
      "grad_norm": 0.011260930448770523,
      "learning_rate": 2.1193543197427507e-05,
      "loss": 0.2813,
      "num_input_tokens_seen": 46274328,
      "step": 79735
    },
    {
      "epoch": 11.876675603217159,
      "grad_norm": 32.2878303527832,
      "learning_rate": 2.119033169398371e-05,
      "loss": 0.0432,
      "num_input_tokens_seen": 46277080,
      "step": 79740
    },
    {
      "epoch": 11.877420315758117,
      "grad_norm": 0.004516663961112499,
      "learning_rate": 2.1187120254900397e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 46279896,
      "step": 79745
    },
    {
      "epoch": 11.878165028299076,
      "grad_norm": 0.0027653691358864307,
      "learning_rate": 2.118390888023181e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 46282808,
      "step": 79750
    },
    {
      "epoch": 11.878909740840037,
      "grad_norm": 29.252485275268555,
      "learning_rate": 2.1180697570032195e-05,
      "loss": 0.0415,
      "num_input_tokens_seen": 46285432,
      "step": 79755
    },
    {
      "epoch": 11.879654453380995,
      "grad_norm": 0.03851213678717613,
      "learning_rate": 2.117748632435582e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 46288216,
      "step": 79760
    },
    {
      "epoch": 11.880399165921954,
      "grad_norm": 0.2649061977863312,
      "learning_rate": 2.1174275143256927e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 46291096,
      "step": 79765
    },
    {
      "epoch": 11.881143878462913,
      "grad_norm": 0.03116614930331707,
      "learning_rate": 2.1171064026789768e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46293720,
      "step": 79770
    },
    {
      "epoch": 11.881888591003872,
      "grad_norm": 0.00971289910376072,
      "learning_rate": 2.1167852975008587e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46296376,
      "step": 79775
    },
    {
      "epoch": 11.882633303544832,
      "grad_norm": 0.012853668071329594,
      "learning_rate": 2.1164641987967638e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 46299864,
      "step": 79780
    },
    {
      "epoch": 11.883378016085791,
      "grad_norm": 19.02117156982422,
      "learning_rate": 2.116143106572117e-05,
      "loss": 0.2268,
      "num_input_tokens_seen": 46302552,
      "step": 79785
    },
    {
      "epoch": 11.88412272862675,
      "grad_norm": 0.026562990620732307,
      "learning_rate": 2.115822020832341e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46305208,
      "step": 79790
    },
    {
      "epoch": 11.884867441167708,
      "grad_norm": 6.2658185958862305,
      "learning_rate": 2.1155009415828628e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 46307992,
      "step": 79795
    },
    {
      "epoch": 11.885612153708669,
      "grad_norm": 0.0011917483061552048,
      "learning_rate": 2.1151798688291046e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46310968,
      "step": 79800
    },
    {
      "epoch": 11.886356866249628,
      "grad_norm": 0.006042811553925276,
      "learning_rate": 2.1148588025764916e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46314008,
      "step": 79805
    },
    {
      "epoch": 11.887101578790586,
      "grad_norm": 0.01643245667219162,
      "learning_rate": 2.1145377428304476e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46317016,
      "step": 79810
    },
    {
      "epoch": 11.887846291331545,
      "grad_norm": 0.0018129547825083137,
      "learning_rate": 2.1142166895963973e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 46320088,
      "step": 79815
    },
    {
      "epoch": 11.888591003872506,
      "grad_norm": 29.2416934967041,
      "learning_rate": 2.1138956428797624e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 46322840,
      "step": 79820
    },
    {
      "epoch": 11.889335716413465,
      "grad_norm": 8.889561653137207,
      "learning_rate": 2.1135746026859697e-05,
      "loss": 0.0773,
      "num_input_tokens_seen": 46325880,
      "step": 79825
    },
    {
      "epoch": 11.890080428954423,
      "grad_norm": 0.001597106922417879,
      "learning_rate": 2.1132535690204415e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46329048,
      "step": 79830
    },
    {
      "epoch": 11.890825141495382,
      "grad_norm": 86.41130828857422,
      "learning_rate": 2.1129325418886e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 46332024,
      "step": 79835
    },
    {
      "epoch": 11.891569854036343,
      "grad_norm": 1.0035592317581177,
      "learning_rate": 2.1126115212958708e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 46335096,
      "step": 79840
    },
    {
      "epoch": 11.892314566577301,
      "grad_norm": 0.0029794489964842796,
      "learning_rate": 2.112290507247675e-05,
      "loss": 0.0437,
      "num_input_tokens_seen": 46338200,
      "step": 79845
    },
    {
      "epoch": 11.89305927911826,
      "grad_norm": 0.009946626611053944,
      "learning_rate": 2.1119694997494382e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46341080,
      "step": 79850
    },
    {
      "epoch": 11.893803991659219,
      "grad_norm": 0.005862655583769083,
      "learning_rate": 2.1116484988065813e-05,
      "loss": 0.0264,
      "num_input_tokens_seen": 46343736,
      "step": 79855
    },
    {
      "epoch": 11.89454870420018,
      "grad_norm": 0.007391166873276234,
      "learning_rate": 2.1113275044245293e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 46346488,
      "step": 79860
    },
    {
      "epoch": 11.895293416741138,
      "grad_norm": 4.91156530380249,
      "learning_rate": 2.1110065166087037e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 46349464,
      "step": 79865
    },
    {
      "epoch": 11.896038129282097,
      "grad_norm": 2.2995669841766357,
      "learning_rate": 2.110685535364528e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 46352152,
      "step": 79870
    },
    {
      "epoch": 11.896782841823056,
      "grad_norm": 0.017280470579862595,
      "learning_rate": 2.1103645606974244e-05,
      "loss": 0.2848,
      "num_input_tokens_seen": 46354872,
      "step": 79875
    },
    {
      "epoch": 11.897527554364016,
      "grad_norm": 0.001834642724134028,
      "learning_rate": 2.1100435926128146e-05,
      "loss": 0.0042,
      "num_input_tokens_seen": 46357784,
      "step": 79880
    },
    {
      "epoch": 11.898272266904975,
      "grad_norm": 0.0007254428346641362,
      "learning_rate": 2.1097226311161232e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 46360952,
      "step": 79885
    },
    {
      "epoch": 11.899016979445934,
      "grad_norm": 0.000521252688486129,
      "learning_rate": 2.1094016762127698e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 46363864,
      "step": 79890
    },
    {
      "epoch": 11.899761691986892,
      "grad_norm": 0.008667725138366222,
      "learning_rate": 2.10908072790818e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46366808,
      "step": 79895
    },
    {
      "epoch": 11.900506404527853,
      "grad_norm": 0.0034627073910087347,
      "learning_rate": 2.1087597862077726e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46370008,
      "step": 79900
    },
    {
      "epoch": 11.901251117068812,
      "grad_norm": 0.18899720907211304,
      "learning_rate": 2.1084388511169718e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46373080,
      "step": 79905
    },
    {
      "epoch": 11.90199582960977,
      "grad_norm": 0.1323208510875702,
      "learning_rate": 2.1081179226411985e-05,
      "loss": 0.08,
      "num_input_tokens_seen": 46376024,
      "step": 79910
    },
    {
      "epoch": 11.90274054215073,
      "grad_norm": 0.014206646010279655,
      "learning_rate": 2.107797000785874e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 46379224,
      "step": 79915
    },
    {
      "epoch": 11.90348525469169,
      "grad_norm": 0.003089210717007518,
      "learning_rate": 2.107476085556421e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46382136,
      "step": 79920
    },
    {
      "epoch": 11.904229967232649,
      "grad_norm": 0.01565130241215229,
      "learning_rate": 2.10715517695826e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46384920,
      "step": 79925
    },
    {
      "epoch": 11.904974679773607,
      "grad_norm": 0.0015646354295313358,
      "learning_rate": 2.106834274996814e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46387992,
      "step": 79930
    },
    {
      "epoch": 11.905719392314566,
      "grad_norm": 0.11445075273513794,
      "learning_rate": 2.1065133796775026e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 46390840,
      "step": 79935
    },
    {
      "epoch": 11.906464104855527,
      "grad_norm": 0.13070762157440186,
      "learning_rate": 2.1061924910057485e-05,
      "loss": 0.093,
      "num_input_tokens_seen": 46393752,
      "step": 79940
    },
    {
      "epoch": 11.907208817396485,
      "grad_norm": 0.0027142988983541727,
      "learning_rate": 2.1058716089869707e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46396504,
      "step": 79945
    },
    {
      "epoch": 11.907953529937444,
      "grad_norm": 0.002425919519737363,
      "learning_rate": 2.1055507336265925e-05,
      "loss": 0.0947,
      "num_input_tokens_seen": 46399512,
      "step": 79950
    },
    {
      "epoch": 11.908698242478403,
      "grad_norm": 0.1950746774673462,
      "learning_rate": 2.105229864930034e-05,
      "loss": 0.0699,
      "num_input_tokens_seen": 46402712,
      "step": 79955
    },
    {
      "epoch": 11.909442955019362,
      "grad_norm": 0.0035249278880655766,
      "learning_rate": 2.1049090029027146e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 46405496,
      "step": 79960
    },
    {
      "epoch": 11.910187667560322,
      "grad_norm": 1.69606614112854,
      "learning_rate": 2.104588147550057e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46408632,
      "step": 79965
    },
    {
      "epoch": 11.910932380101281,
      "grad_norm": 0.018924307078123093,
      "learning_rate": 2.1042672988774805e-05,
      "loss": 0.11,
      "num_input_tokens_seen": 46411448,
      "step": 79970
    },
    {
      "epoch": 11.91167709264224,
      "grad_norm": 0.0015910647343844175,
      "learning_rate": 2.103946456890406e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46414008,
      "step": 79975
    },
    {
      "epoch": 11.912421805183198,
      "grad_norm": 0.0008958181133493781,
      "learning_rate": 2.1036256215942526e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46416696,
      "step": 79980
    },
    {
      "epoch": 11.913166517724159,
      "grad_norm": 18.195011138916016,
      "learning_rate": 2.1033047929944427e-05,
      "loss": 0.0135,
      "num_input_tokens_seen": 46419480,
      "step": 79985
    },
    {
      "epoch": 11.913911230265118,
      "grad_norm": 0.005605373065918684,
      "learning_rate": 2.102983971096395e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46422776,
      "step": 79990
    },
    {
      "epoch": 11.914655942806077,
      "grad_norm": 22.525081634521484,
      "learning_rate": 2.1026631559055285e-05,
      "loss": 0.147,
      "num_input_tokens_seen": 46425752,
      "step": 79995
    },
    {
      "epoch": 11.915400655347035,
      "grad_norm": 0.0006628780975006521,
      "learning_rate": 2.1023423474272652e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46428568,
      "step": 80000
    },
    {
      "epoch": 11.916145367887996,
      "grad_norm": 5.778558731079102,
      "learning_rate": 2.1020215456670234e-05,
      "loss": 0.0359,
      "num_input_tokens_seen": 46431096,
      "step": 80005
    },
    {
      "epoch": 11.916890080428955,
      "grad_norm": 0.09149759262800217,
      "learning_rate": 2.1017007506302233e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46434008,
      "step": 80010
    },
    {
      "epoch": 11.917634792969913,
      "grad_norm": 0.007712346967309713,
      "learning_rate": 2.1013799623222833e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46437112,
      "step": 80015
    },
    {
      "epoch": 11.918379505510872,
      "grad_norm": 22.62374496459961,
      "learning_rate": 2.1010591807486253e-05,
      "loss": 0.2839,
      "num_input_tokens_seen": 46439896,
      "step": 80020
    },
    {
      "epoch": 11.919124218051833,
      "grad_norm": 0.0005837348871864378,
      "learning_rate": 2.100738405914665e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 46442872,
      "step": 80025
    },
    {
      "epoch": 11.919868930592791,
      "grad_norm": 0.050452250987291336,
      "learning_rate": 2.1004176378258252e-05,
      "loss": 0.068,
      "num_input_tokens_seen": 46446040,
      "step": 80030
    },
    {
      "epoch": 11.92061364313375,
      "grad_norm": 0.0001976941857719794,
      "learning_rate": 2.100096876487523e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 46448824,
      "step": 80035
    },
    {
      "epoch": 11.921358355674709,
      "grad_norm": 0.007039145100861788,
      "learning_rate": 2.0997761219051777e-05,
      "loss": 0.0133,
      "num_input_tokens_seen": 46451576,
      "step": 80040
    },
    {
      "epoch": 11.92210306821567,
      "grad_norm": 0.010990985669195652,
      "learning_rate": 2.099455374084208e-05,
      "loss": 0.0506,
      "num_input_tokens_seen": 46454328,
      "step": 80045
    },
    {
      "epoch": 11.922847780756628,
      "grad_norm": 81.95048522949219,
      "learning_rate": 2.0991346330300314e-05,
      "loss": 0.2915,
      "num_input_tokens_seen": 46457624,
      "step": 80050
    },
    {
      "epoch": 11.923592493297587,
      "grad_norm": 0.010094884783029556,
      "learning_rate": 2.0988138987480694e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46460504,
      "step": 80055
    },
    {
      "epoch": 11.924337205838546,
      "grad_norm": 0.00046852207742631435,
      "learning_rate": 2.0984931712437377e-05,
      "loss": 0.0464,
      "num_input_tokens_seen": 46463640,
      "step": 80060
    },
    {
      "epoch": 11.925081918379506,
      "grad_norm": 1.7616420984268188,
      "learning_rate": 2.0981724505224563e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46466744,
      "step": 80065
    },
    {
      "epoch": 11.925826630920465,
      "grad_norm": 0.009859289042651653,
      "learning_rate": 2.0978517365896433e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46469368,
      "step": 80070
    },
    {
      "epoch": 11.926571343461424,
      "grad_norm": 0.020890317857265472,
      "learning_rate": 2.0975310294507162e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 46472248,
      "step": 80075
    },
    {
      "epoch": 11.927316056002383,
      "grad_norm": 0.012202318757772446,
      "learning_rate": 2.0972103291110933e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 46475000,
      "step": 80080
    },
    {
      "epoch": 11.928060768543343,
      "grad_norm": 7.137801647186279,
      "learning_rate": 2.096889635576192e-05,
      "loss": 0.1948,
      "num_input_tokens_seen": 46477560,
      "step": 80085
    },
    {
      "epoch": 11.928805481084302,
      "grad_norm": 0.007504506967961788,
      "learning_rate": 2.0965689488514314e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46480600,
      "step": 80090
    },
    {
      "epoch": 11.92955019362526,
      "grad_norm": 9.61616325378418,
      "learning_rate": 2.0962482689422276e-05,
      "loss": 0.0556,
      "num_input_tokens_seen": 46483704,
      "step": 80095
    },
    {
      "epoch": 11.93029490616622,
      "grad_norm": 0.135575070977211,
      "learning_rate": 2.0959275958539996e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 46486840,
      "step": 80100
    },
    {
      "epoch": 11.931039618707178,
      "grad_norm": 0.06752576678991318,
      "learning_rate": 2.095606929592164e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46489624,
      "step": 80105
    },
    {
      "epoch": 11.931784331248139,
      "grad_norm": 0.006079016253352165,
      "learning_rate": 2.0952862701621385e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46492664,
      "step": 80110
    },
    {
      "epoch": 11.932529043789097,
      "grad_norm": 0.004209807608276606,
      "learning_rate": 2.09496561756934e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 46495928,
      "step": 80115
    },
    {
      "epoch": 11.933273756330056,
      "grad_norm": 0.020840225741267204,
      "learning_rate": 2.094644971819185e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 46498808,
      "step": 80120
    },
    {
      "epoch": 11.934018468871017,
      "grad_norm": 0.008882394060492516,
      "learning_rate": 2.0943243329170922e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46501720,
      "step": 80125
    },
    {
      "epoch": 11.934763181411975,
      "grad_norm": 0.10971040278673172,
      "learning_rate": 2.0940037008684772e-05,
      "loss": 0.1911,
      "num_input_tokens_seen": 46504888,
      "step": 80130
    },
    {
      "epoch": 11.935507893952934,
      "grad_norm": 0.0045410399325191975,
      "learning_rate": 2.0936830756787568e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46507672,
      "step": 80135
    },
    {
      "epoch": 11.936252606493893,
      "grad_norm": 0.016034791246056557,
      "learning_rate": 2.0933624573533477e-05,
      "loss": 0.0226,
      "num_input_tokens_seen": 46510424,
      "step": 80140
    },
    {
      "epoch": 11.936997319034852,
      "grad_norm": 0.0029007045086473227,
      "learning_rate": 2.0930418458976676e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 46513112,
      "step": 80145
    },
    {
      "epoch": 11.937742031575812,
      "grad_norm": 0.011061448603868484,
      "learning_rate": 2.0927212413171316e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46516024,
      "step": 80150
    },
    {
      "epoch": 11.938486744116771,
      "grad_norm": 0.008319812826812267,
      "learning_rate": 2.092400643617155e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46519192,
      "step": 80155
    },
    {
      "epoch": 11.93923145665773,
      "grad_norm": 1.025268316268921,
      "learning_rate": 2.092080052803157e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 46522008,
      "step": 80160
    },
    {
      "epoch": 11.939976169198689,
      "grad_norm": 0.00624476931989193,
      "learning_rate": 2.0917594688805507e-05,
      "loss": 0.1977,
      "num_input_tokens_seen": 46524728,
      "step": 80165
    },
    {
      "epoch": 11.940720881739649,
      "grad_norm": 0.00034471345134079456,
      "learning_rate": 2.091438891854754e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46527448,
      "step": 80170
    },
    {
      "epoch": 11.941465594280608,
      "grad_norm": 0.032817382365465164,
      "learning_rate": 2.091118321731181e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46530680,
      "step": 80175
    },
    {
      "epoch": 11.942210306821567,
      "grad_norm": 0.0034290540497750044,
      "learning_rate": 2.0907977585152495e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46533240,
      "step": 80180
    },
    {
      "epoch": 11.942955019362525,
      "grad_norm": 0.0004086383560206741,
      "learning_rate": 2.0904772022123725e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46536056,
      "step": 80185
    },
    {
      "epoch": 11.943699731903486,
      "grad_norm": 0.002526037162169814,
      "learning_rate": 2.0901566528279687e-05,
      "loss": 0.1248,
      "num_input_tokens_seen": 46538936,
      "step": 80190
    },
    {
      "epoch": 11.944444444444445,
      "grad_norm": 0.003461497835814953,
      "learning_rate": 2.089836110367451e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 46541848,
      "step": 80195
    },
    {
      "epoch": 11.945189156985403,
      "grad_norm": 0.0014594229869544506,
      "learning_rate": 2.0895155748362353e-05,
      "loss": 0.1348,
      "num_input_tokens_seen": 46544536,
      "step": 80200
    },
    {
      "epoch": 11.945933869526362,
      "grad_norm": 0.0021694903261959553,
      "learning_rate": 2.0891950462397372e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 46547544,
      "step": 80205
    },
    {
      "epoch": 11.946678582067323,
      "grad_norm": 0.008473007939755917,
      "learning_rate": 2.0888745245833703e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46550232,
      "step": 80210
    },
    {
      "epoch": 11.947423294608281,
      "grad_norm": 0.001125662587583065,
      "learning_rate": 2.0885540098725513e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46553112,
      "step": 80215
    },
    {
      "epoch": 11.94816800714924,
      "grad_norm": 0.01908762753009796,
      "learning_rate": 2.088233502112693e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 46555928,
      "step": 80220
    },
    {
      "epoch": 11.948912719690199,
      "grad_norm": 0.026939058676362038,
      "learning_rate": 2.0879130013092124e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46558872,
      "step": 80225
    },
    {
      "epoch": 11.94965743223116,
      "grad_norm": 0.0008858221117407084,
      "learning_rate": 2.087592507467523e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46561720,
      "step": 80230
    },
    {
      "epoch": 11.950402144772118,
      "grad_norm": 0.01127269584685564,
      "learning_rate": 2.087272020593038e-05,
      "loss": 0.1002,
      "num_input_tokens_seen": 46564696,
      "step": 80235
    },
    {
      "epoch": 11.951146857313077,
      "grad_norm": 0.028603805229067802,
      "learning_rate": 2.086951540691174e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46567448,
      "step": 80240
    },
    {
      "epoch": 11.951891569854036,
      "grad_norm": 0.007983001880347729,
      "learning_rate": 2.086631067767342e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 46570456,
      "step": 80245
    },
    {
      "epoch": 11.952636282394996,
      "grad_norm": 0.005526278167963028,
      "learning_rate": 2.0863106018269596e-05,
      "loss": 0.0674,
      "num_input_tokens_seen": 46573400,
      "step": 80250
    },
    {
      "epoch": 11.953380994935955,
      "grad_norm": 0.0002908579772338271,
      "learning_rate": 2.085990142875438e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 46576344,
      "step": 80255
    },
    {
      "epoch": 11.954125707476914,
      "grad_norm": 0.00804832298308611,
      "learning_rate": 2.0856696909181932e-05,
      "loss": 0.0542,
      "num_input_tokens_seen": 46579512,
      "step": 80260
    },
    {
      "epoch": 11.954870420017873,
      "grad_norm": 0.0017164204036816955,
      "learning_rate": 2.0853492459606373e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46582392,
      "step": 80265
    },
    {
      "epoch": 11.955615132558833,
      "grad_norm": 0.05927658826112747,
      "learning_rate": 2.085028808008185e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 46585720,
      "step": 80270
    },
    {
      "epoch": 11.956359845099792,
      "grad_norm": 0.00617740023881197,
      "learning_rate": 2.084708377066249e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 46588504,
      "step": 80275
    },
    {
      "epoch": 11.95710455764075,
      "grad_norm": 269.0493469238281,
      "learning_rate": 2.084387953140242e-05,
      "loss": 0.1823,
      "num_input_tokens_seen": 46591448,
      "step": 80280
    },
    {
      "epoch": 11.95784927018171,
      "grad_norm": 0.0022195298224687576,
      "learning_rate": 2.0840675362355792e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46594104,
      "step": 80285
    },
    {
      "epoch": 11.958593982722668,
      "grad_norm": 110.06597137451172,
      "learning_rate": 2.0837471263576716e-05,
      "loss": 0.1219,
      "num_input_tokens_seen": 46596984,
      "step": 80290
    },
    {
      "epoch": 11.959338695263629,
      "grad_norm": 0.009186329320073128,
      "learning_rate": 2.0834267235119342e-05,
      "loss": 0.1438,
      "num_input_tokens_seen": 46600024,
      "step": 80295
    },
    {
      "epoch": 11.960083407804587,
      "grad_norm": 0.006572776474058628,
      "learning_rate": 2.083106327703779e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 46603096,
      "step": 80300
    },
    {
      "epoch": 11.960828120345546,
      "grad_norm": 4.79521369934082,
      "learning_rate": 2.0827859389386184e-05,
      "loss": 0.1589,
      "num_input_tokens_seen": 46605720,
      "step": 80305
    },
    {
      "epoch": 11.961572832886507,
      "grad_norm": 0.003976810723543167,
      "learning_rate": 2.0824655572218655e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46608536,
      "step": 80310
    },
    {
      "epoch": 11.962317545427466,
      "grad_norm": 0.007694517262279987,
      "learning_rate": 2.0821451825589315e-05,
      "loss": 0.0508,
      "num_input_tokens_seen": 46611352,
      "step": 80315
    },
    {
      "epoch": 11.963062257968424,
      "grad_norm": 0.007451020646840334,
      "learning_rate": 2.0818248149552315e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 46614040,
      "step": 80320
    },
    {
      "epoch": 11.963806970509383,
      "grad_norm": 0.0006928005022928119,
      "learning_rate": 2.0815044544161748e-05,
      "loss": 0.0396,
      "num_input_tokens_seen": 46617208,
      "step": 80325
    },
    {
      "epoch": 11.964551683050342,
      "grad_norm": 23.857112884521484,
      "learning_rate": 2.081184100947176e-05,
      "loss": 0.2584,
      "num_input_tokens_seen": 46620184,
      "step": 80330
    },
    {
      "epoch": 11.965296395591302,
      "grad_norm": 0.005551499780267477,
      "learning_rate": 2.080863754553646e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 46622936,
      "step": 80335
    },
    {
      "epoch": 11.966041108132261,
      "grad_norm": 0.00835343822836876,
      "learning_rate": 2.080543415240997e-05,
      "loss": 0.1417,
      "num_input_tokens_seen": 46625496,
      "step": 80340
    },
    {
      "epoch": 11.96678582067322,
      "grad_norm": 0.005486595444381237,
      "learning_rate": 2.0802230830146398e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 46628312,
      "step": 80345
    },
    {
      "epoch": 11.967530533214179,
      "grad_norm": 0.1170613169670105,
      "learning_rate": 2.0799027578799882e-05,
      "loss": 0.2679,
      "num_input_tokens_seen": 46631096,
      "step": 80350
    },
    {
      "epoch": 11.96827524575514,
      "grad_norm": 0.02853490598499775,
      "learning_rate": 2.0795824398424523e-05,
      "loss": 0.01,
      "num_input_tokens_seen": 46633784,
      "step": 80355
    },
    {
      "epoch": 11.969019958296098,
      "grad_norm": 0.0031758113764226437,
      "learning_rate": 2.079262128907443e-05,
      "loss": 0.2221,
      "num_input_tokens_seen": 46636824,
      "step": 80360
    },
    {
      "epoch": 11.969764670837057,
      "grad_norm": 0.042182788252830505,
      "learning_rate": 2.0789418250803732e-05,
      "loss": 0.074,
      "num_input_tokens_seen": 46639576,
      "step": 80365
    },
    {
      "epoch": 11.970509383378015,
      "grad_norm": 0.18228493630886078,
      "learning_rate": 2.078621528366653e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 46642488,
      "step": 80370
    },
    {
      "epoch": 11.971254095918976,
      "grad_norm": 0.07789096981287003,
      "learning_rate": 2.078301238771694e-05,
      "loss": 0.1164,
      "num_input_tokens_seen": 46645208,
      "step": 80375
    },
    {
      "epoch": 11.971998808459935,
      "grad_norm": 0.02203396148979664,
      "learning_rate": 2.0779809563009063e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46647928,
      "step": 80380
    },
    {
      "epoch": 11.972743521000893,
      "grad_norm": 0.04962936416268349,
      "learning_rate": 2.0776606809597022e-05,
      "loss": 0.0956,
      "num_input_tokens_seen": 46650712,
      "step": 80385
    },
    {
      "epoch": 11.973488233541852,
      "grad_norm": 0.024174543097615242,
      "learning_rate": 2.077340412753492e-05,
      "loss": 0.201,
      "num_input_tokens_seen": 46653528,
      "step": 80390
    },
    {
      "epoch": 11.974232946082813,
      "grad_norm": 0.012355741113424301,
      "learning_rate": 2.077020151687684e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 46656376,
      "step": 80395
    },
    {
      "epoch": 11.974977658623772,
      "grad_norm": 0.0007511384901590645,
      "learning_rate": 2.0766998977676928e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 46659256,
      "step": 80400
    },
    {
      "epoch": 11.97572237116473,
      "grad_norm": 12.779817581176758,
      "learning_rate": 2.0763796509989252e-05,
      "loss": 0.252,
      "num_input_tokens_seen": 46662744,
      "step": 80405
    },
    {
      "epoch": 11.976467083705689,
      "grad_norm": 0.004162860102951527,
      "learning_rate": 2.076059411386794e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46665464,
      "step": 80410
    },
    {
      "epoch": 11.97721179624665,
      "grad_norm": 0.012491388246417046,
      "learning_rate": 2.075739178936707e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46668120,
      "step": 80415
    },
    {
      "epoch": 11.977956508787608,
      "grad_norm": 0.14844627678394318,
      "learning_rate": 2.0754189536540764e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 46670872,
      "step": 80420
    },
    {
      "epoch": 11.978701221328567,
      "grad_norm": 0.013349094428122044,
      "learning_rate": 2.07509873554431e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 46673560,
      "step": 80425
    },
    {
      "epoch": 11.979445933869526,
      "grad_norm": 0.004045725334435701,
      "learning_rate": 2.074778524612819e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 46676280,
      "step": 80430
    },
    {
      "epoch": 11.980190646410486,
      "grad_norm": 0.0029005971737205982,
      "learning_rate": 2.0744583208650136e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 46679032,
      "step": 80435
    },
    {
      "epoch": 11.980935358951445,
      "grad_norm": 0.007912756875157356,
      "learning_rate": 2.0741381243063015e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46681720,
      "step": 80440
    },
    {
      "epoch": 11.981680071492404,
      "grad_norm": 17.8520450592041,
      "learning_rate": 2.0738179349420935e-05,
      "loss": 0.0375,
      "num_input_tokens_seen": 46684472,
      "step": 80445
    },
    {
      "epoch": 11.982424784033363,
      "grad_norm": 0.02316463179886341,
      "learning_rate": 2.0734977527777974e-05,
      "loss": 0.0455,
      "num_input_tokens_seen": 46687448,
      "step": 80450
    },
    {
      "epoch": 11.983169496574323,
      "grad_norm": 0.7544479966163635,
      "learning_rate": 2.0731775778188242e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 46690200,
      "step": 80455
    },
    {
      "epoch": 11.983914209115282,
      "grad_norm": 0.029808543622493744,
      "learning_rate": 2.0728574100705813e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46693240,
      "step": 80460
    },
    {
      "epoch": 11.98465892165624,
      "grad_norm": 0.008134391158819199,
      "learning_rate": 2.0725372495384786e-05,
      "loss": 0.0455,
      "num_input_tokens_seen": 46696248,
      "step": 80465
    },
    {
      "epoch": 11.9854036341972,
      "grad_norm": 0.019613225013017654,
      "learning_rate": 2.0722170962279248e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 46699096,
      "step": 80470
    },
    {
      "epoch": 11.986148346738158,
      "grad_norm": 0.015878451988101006,
      "learning_rate": 2.0718969501443286e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 46702008,
      "step": 80475
    },
    {
      "epoch": 11.986893059279119,
      "grad_norm": 0.014061608351767063,
      "learning_rate": 2.0715768112930984e-05,
      "loss": 0.1099,
      "num_input_tokens_seen": 46704664,
      "step": 80480
    },
    {
      "epoch": 11.987637771820078,
      "grad_norm": 0.057987287640571594,
      "learning_rate": 2.071256679679641e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46707608,
      "step": 80485
    },
    {
      "epoch": 11.988382484361036,
      "grad_norm": 59.26834487915039,
      "learning_rate": 2.070936555309368e-05,
      "loss": 0.1248,
      "num_input_tokens_seen": 46710552,
      "step": 80490
    },
    {
      "epoch": 11.989127196901995,
      "grad_norm": 1.911561369895935,
      "learning_rate": 2.0706164381876852e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 46713336,
      "step": 80495
    },
    {
      "epoch": 11.989871909442956,
      "grad_norm": 0.0034360941499471664,
      "learning_rate": 2.0702963283200018e-05,
      "loss": 0.2284,
      "num_input_tokens_seen": 46716120,
      "step": 80500
    },
    {
      "epoch": 11.990616621983914,
      "grad_norm": 0.02335331216454506,
      "learning_rate": 2.0699762257117235e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46718776,
      "step": 80505
    },
    {
      "epoch": 11.991361334524873,
      "grad_norm": 0.002149356761947274,
      "learning_rate": 2.0696561303682617e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46721912,
      "step": 80510
    },
    {
      "epoch": 11.992106047065832,
      "grad_norm": 19.528444290161133,
      "learning_rate": 2.0693360422950217e-05,
      "loss": 0.0172,
      "num_input_tokens_seen": 46724504,
      "step": 80515
    },
    {
      "epoch": 11.992850759606792,
      "grad_norm": 0.0007051305146887898,
      "learning_rate": 2.0690159614974107e-05,
      "loss": 0.2979,
      "num_input_tokens_seen": 46727480,
      "step": 80520
    },
    {
      "epoch": 11.993595472147751,
      "grad_norm": 0.001465615234337747,
      "learning_rate": 2.068695887980838e-05,
      "loss": 0.1167,
      "num_input_tokens_seen": 46730232,
      "step": 80525
    },
    {
      "epoch": 11.99434018468871,
      "grad_norm": 0.5027062296867371,
      "learning_rate": 2.0683758217507092e-05,
      "loss": 0.053,
      "num_input_tokens_seen": 46733208,
      "step": 80530
    },
    {
      "epoch": 11.995084897229669,
      "grad_norm": 0.020072834566235542,
      "learning_rate": 2.068055762812433e-05,
      "loss": 0.3084,
      "num_input_tokens_seen": 46735992,
      "step": 80535
    },
    {
      "epoch": 11.99582960977063,
      "grad_norm": 0.0037036435678601265,
      "learning_rate": 2.0677357111714147e-05,
      "loss": 0.0469,
      "num_input_tokens_seen": 46739288,
      "step": 80540
    },
    {
      "epoch": 11.996574322311588,
      "grad_norm": 4.6735944747924805,
      "learning_rate": 2.067415666833063e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 46742168,
      "step": 80545
    },
    {
      "epoch": 11.997319034852547,
      "grad_norm": 0.031108440831303596,
      "learning_rate": 2.0670956298027833e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46745112,
      "step": 80550
    },
    {
      "epoch": 11.998063747393505,
      "grad_norm": 0.0043645757250487804,
      "learning_rate": 2.0667756000859835e-05,
      "loss": 0.2177,
      "num_input_tokens_seen": 46747800,
      "step": 80555
    },
    {
      "epoch": 11.998808459934466,
      "grad_norm": 0.0008478433592244983,
      "learning_rate": 2.06645557768807e-05,
      "loss": 0.2108,
      "num_input_tokens_seen": 46750552,
      "step": 80560
    },
    {
      "epoch": 11.999553172475425,
      "grad_norm": 0.0012773819034919143,
      "learning_rate": 2.0661355626144483e-05,
      "loss": 0.0919,
      "num_input_tokens_seen": 46753176,
      "step": 80565
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.7859282493591309,
      "eval_runtime": 49.2151,
      "eval_samples_per_second": 60.632,
      "eval_steps_per_second": 15.158,
      "num_input_tokens_seen": 46754376,
      "step": 80568
    },
    {
      "epoch": 12.000297885016384,
      "grad_norm": 0.10296936333179474,
      "learning_rate": 2.0658155548705258e-05,
      "loss": 0.1856,
      "num_input_tokens_seen": 46755464,
      "step": 80570
    },
    {
      "epoch": 12.001042597557342,
      "grad_norm": 0.003472290001809597,
      "learning_rate": 2.065495554461707e-05,
      "loss": 0.0248,
      "num_input_tokens_seen": 46758600,
      "step": 80575
    },
    {
      "epoch": 12.001787310098303,
      "grad_norm": 0.01865488477051258,
      "learning_rate": 2.0651755613934005e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46761672,
      "step": 80580
    },
    {
      "epoch": 12.002532022639262,
      "grad_norm": 0.003035434056073427,
      "learning_rate": 2.0648555756710098e-05,
      "loss": 0.135,
      "num_input_tokens_seen": 46764712,
      "step": 80585
    },
    {
      "epoch": 12.00327673518022,
      "grad_norm": 0.34187889099121094,
      "learning_rate": 2.064535597299943e-05,
      "loss": 0.2129,
      "num_input_tokens_seen": 46767880,
      "step": 80590
    },
    {
      "epoch": 12.004021447721179,
      "grad_norm": 7.748103141784668,
      "learning_rate": 2.0642156262856045e-05,
      "loss": 0.3004,
      "num_input_tokens_seen": 46771176,
      "step": 80595
    },
    {
      "epoch": 12.00476616026214,
      "grad_norm": 0.013044829480350018,
      "learning_rate": 2.0638956626333993e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 46774248,
      "step": 80600
    },
    {
      "epoch": 12.005510872803098,
      "grad_norm": 0.43043220043182373,
      "learning_rate": 2.0635757063487348e-05,
      "loss": 0.1322,
      "num_input_tokens_seen": 46777128,
      "step": 80605
    },
    {
      "epoch": 12.006255585344057,
      "grad_norm": 0.013587910681962967,
      "learning_rate": 2.0632557574370137e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46779912,
      "step": 80610
    },
    {
      "epoch": 12.007000297885016,
      "grad_norm": 0.005556625314056873,
      "learning_rate": 2.0629358159036437e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46782504,
      "step": 80615
    },
    {
      "epoch": 12.007745010425976,
      "grad_norm": 0.23551219701766968,
      "learning_rate": 2.0626158817540284e-05,
      "loss": 0.1168,
      "num_input_tokens_seen": 46785608,
      "step": 80620
    },
    {
      "epoch": 12.008489722966935,
      "grad_norm": 29.664220809936523,
      "learning_rate": 2.0622959549935738e-05,
      "loss": 0.2013,
      "num_input_tokens_seen": 46788296,
      "step": 80625
    },
    {
      "epoch": 12.009234435507894,
      "grad_norm": 0.004934821277856827,
      "learning_rate": 2.061976035627684e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 46791592,
      "step": 80630
    },
    {
      "epoch": 12.009979148048853,
      "grad_norm": 0.04155198112130165,
      "learning_rate": 2.061656123661764e-05,
      "loss": 0.0951,
      "num_input_tokens_seen": 46794312,
      "step": 80635
    },
    {
      "epoch": 12.010723860589811,
      "grad_norm": 11.281782150268555,
      "learning_rate": 2.0613362191012185e-05,
      "loss": 0.2801,
      "num_input_tokens_seen": 46797032,
      "step": 80640
    },
    {
      "epoch": 12.011468573130772,
      "grad_norm": 0.0797993466258049,
      "learning_rate": 2.0610163219514504e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46799880,
      "step": 80645
    },
    {
      "epoch": 12.01221328567173,
      "grad_norm": 79.60885620117188,
      "learning_rate": 2.0606964322178667e-05,
      "loss": 0.2119,
      "num_input_tokens_seen": 46802824,
      "step": 80650
    },
    {
      "epoch": 12.01295799821269,
      "grad_norm": 0.0064786807633936405,
      "learning_rate": 2.0603765499058695e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46805992,
      "step": 80655
    },
    {
      "epoch": 12.013702710753648,
      "grad_norm": 0.0056641194969415665,
      "learning_rate": 2.0600566750208642e-05,
      "loss": 0.0511,
      "num_input_tokens_seen": 46809032,
      "step": 80660
    },
    {
      "epoch": 12.014447423294609,
      "grad_norm": 0.0048634884878993034,
      "learning_rate": 2.0597368075682542e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 46812040,
      "step": 80665
    },
    {
      "epoch": 12.015192135835568,
      "grad_norm": 0.017867792397737503,
      "learning_rate": 2.0594169475534436e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46814984,
      "step": 80670
    },
    {
      "epoch": 12.015936848376526,
      "grad_norm": 0.01635141298174858,
      "learning_rate": 2.0590970949818357e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 46817736,
      "step": 80675
    },
    {
      "epoch": 12.016681560917485,
      "grad_norm": 2.2437903881073,
      "learning_rate": 2.0587772498588336e-05,
      "loss": 0.015,
      "num_input_tokens_seen": 46820584,
      "step": 80680
    },
    {
      "epoch": 12.017426273458446,
      "grad_norm": 0.004453458357602358,
      "learning_rate": 2.0584574121898424e-05,
      "loss": 0.2114,
      "num_input_tokens_seen": 46823400,
      "step": 80685
    },
    {
      "epoch": 12.018170985999404,
      "grad_norm": 0.003473707940429449,
      "learning_rate": 2.0581375819802635e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 46826280,
      "step": 80690
    },
    {
      "epoch": 12.018915698540363,
      "grad_norm": 58.020267486572266,
      "learning_rate": 2.057817759235502e-05,
      "loss": 0.1297,
      "num_input_tokens_seen": 46829192,
      "step": 80695
    },
    {
      "epoch": 12.019660411081322,
      "grad_norm": 0.013697689399123192,
      "learning_rate": 2.0574979439609593e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46831912,
      "step": 80700
    },
    {
      "epoch": 12.020405123622282,
      "grad_norm": 0.042826320976018906,
      "learning_rate": 2.0571781361620398e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46834632,
      "step": 80705
    },
    {
      "epoch": 12.021149836163241,
      "grad_norm": 0.059382639825344086,
      "learning_rate": 2.0568583358441445e-05,
      "loss": 0.0173,
      "num_input_tokens_seen": 46837736,
      "step": 80710
    },
    {
      "epoch": 12.0218945487042,
      "grad_norm": 0.04430679976940155,
      "learning_rate": 2.0565385430126783e-05,
      "loss": 0.0683,
      "num_input_tokens_seen": 46840584,
      "step": 80715
    },
    {
      "epoch": 12.022639261245159,
      "grad_norm": 0.019709186628460884,
      "learning_rate": 2.0562187576730428e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46843368,
      "step": 80720
    },
    {
      "epoch": 12.02338397378612,
      "grad_norm": 0.0004915580502711236,
      "learning_rate": 2.0558989798306395e-05,
      "loss": 0.0518,
      "num_input_tokens_seen": 46846312,
      "step": 80725
    },
    {
      "epoch": 12.024128686327078,
      "grad_norm": 0.0009581397753208876,
      "learning_rate": 2.0555792094908722e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 46849416,
      "step": 80730
    },
    {
      "epoch": 12.024873398868037,
      "grad_norm": 0.08438758552074432,
      "learning_rate": 2.055259446659142e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46852488,
      "step": 80735
    },
    {
      "epoch": 12.025618111408996,
      "grad_norm": 590.4545288085938,
      "learning_rate": 2.0549396913408522e-05,
      "loss": 0.031,
      "num_input_tokens_seen": 46855304,
      "step": 80740
    },
    {
      "epoch": 12.026362823949956,
      "grad_norm": 0.004304856993257999,
      "learning_rate": 2.0546199435414028e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46858056,
      "step": 80745
    },
    {
      "epoch": 12.027107536490915,
      "grad_norm": 0.0019684587605297565,
      "learning_rate": 2.054300203266198e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46861032,
      "step": 80750
    },
    {
      "epoch": 12.027852249031874,
      "grad_norm": 0.1286521703004837,
      "learning_rate": 2.0539804705206378e-05,
      "loss": 0.0677,
      "num_input_tokens_seen": 46864040,
      "step": 80755
    },
    {
      "epoch": 12.028596961572832,
      "grad_norm": 0.003658072557300329,
      "learning_rate": 2.0536607453101236e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 46866856,
      "step": 80760
    },
    {
      "epoch": 12.029341674113793,
      "grad_norm": 0.0002981837897095829,
      "learning_rate": 2.0533410276400582e-05,
      "loss": 0.1815,
      "num_input_tokens_seen": 46869704,
      "step": 80765
    },
    {
      "epoch": 12.030086386654752,
      "grad_norm": 16.256093978881836,
      "learning_rate": 2.053021317515842e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 46872936,
      "step": 80770
    },
    {
      "epoch": 12.03083109919571,
      "grad_norm": 0.04194233566522598,
      "learning_rate": 2.0527016149428767e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 46875848,
      "step": 80775
    },
    {
      "epoch": 12.03157581173667,
      "grad_norm": 0.0056680841371417046,
      "learning_rate": 2.052381919926562e-05,
      "loss": 0.0505,
      "num_input_tokens_seen": 46878856,
      "step": 80780
    },
    {
      "epoch": 12.03232052427763,
      "grad_norm": 0.027540991082787514,
      "learning_rate": 2.052062232472301e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46881768,
      "step": 80785
    },
    {
      "epoch": 12.033065236818588,
      "grad_norm": 0.010994123294949532,
      "learning_rate": 2.0517425525854926e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 46884488,
      "step": 80790
    },
    {
      "epoch": 12.033809949359547,
      "grad_norm": 0.00029993843054398894,
      "learning_rate": 2.051422880271538e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46887464,
      "step": 80795
    },
    {
      "epoch": 12.034554661900506,
      "grad_norm": 0.27363690733909607,
      "learning_rate": 2.051103215535839e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 46890472,
      "step": 80800
    },
    {
      "epoch": 12.035299374441466,
      "grad_norm": 0.0006055484409444034,
      "learning_rate": 2.0507835583837943e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46893256,
      "step": 80805
    },
    {
      "epoch": 12.036044086982425,
      "grad_norm": 253.49533081054688,
      "learning_rate": 2.050463908820805e-05,
      "loss": 0.2754,
      "num_input_tokens_seen": 46896104,
      "step": 80810
    },
    {
      "epoch": 12.036788799523384,
      "grad_norm": 0.03487750142812729,
      "learning_rate": 2.0501442668522703e-05,
      "loss": 0.2813,
      "num_input_tokens_seen": 46898792,
      "step": 80815
    },
    {
      "epoch": 12.037533512064343,
      "grad_norm": 0.04935134947299957,
      "learning_rate": 2.0498246324835918e-05,
      "loss": 0.0775,
      "num_input_tokens_seen": 46902216,
      "step": 80820
    },
    {
      "epoch": 12.038278224605302,
      "grad_norm": 0.0009109008242376149,
      "learning_rate": 2.0495050057201683e-05,
      "loss": 0.2208,
      "num_input_tokens_seen": 46905064,
      "step": 80825
    },
    {
      "epoch": 12.039022937146262,
      "grad_norm": 0.013963831588625908,
      "learning_rate": 2.0491853865674002e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46908168,
      "step": 80830
    },
    {
      "epoch": 12.03976764968722,
      "grad_norm": 0.0304570272564888,
      "learning_rate": 2.0488657750306865e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 46910856,
      "step": 80835
    },
    {
      "epoch": 12.04051236222818,
      "grad_norm": 0.009282085113227367,
      "learning_rate": 2.0485461711154265e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46913704,
      "step": 80840
    },
    {
      "epoch": 12.041257074769138,
      "grad_norm": 0.2306363582611084,
      "learning_rate": 2.0482265748270213e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 46916712,
      "step": 80845
    },
    {
      "epoch": 12.042001787310099,
      "grad_norm": 0.10240427404642105,
      "learning_rate": 2.0479069861708674e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 46919272,
      "step": 80850
    },
    {
      "epoch": 12.042746499851058,
      "grad_norm": 0.0037699383683502674,
      "learning_rate": 2.047587405152367e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46921992,
      "step": 80855
    },
    {
      "epoch": 12.043491212392016,
      "grad_norm": 0.024610452353954315,
      "learning_rate": 2.0472678317769168e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46924744,
      "step": 80860
    },
    {
      "epoch": 12.044235924932975,
      "grad_norm": 0.002350986236706376,
      "learning_rate": 2.0469482660499167e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46927560,
      "step": 80865
    },
    {
      "epoch": 12.044980637473936,
      "grad_norm": 0.01031538937240839,
      "learning_rate": 2.0466287079767646e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 46931080,
      "step": 80870
    },
    {
      "epoch": 12.045725350014894,
      "grad_norm": 18.258983612060547,
      "learning_rate": 2.0463091575628608e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 46934088,
      "step": 80875
    },
    {
      "epoch": 12.046470062555853,
      "grad_norm": 0.1285490095615387,
      "learning_rate": 2.045989614813602e-05,
      "loss": 0.2296,
      "num_input_tokens_seen": 46936808,
      "step": 80880
    },
    {
      "epoch": 12.047214775096812,
      "grad_norm": 0.005022091791033745,
      "learning_rate": 2.0456700797343867e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46939688,
      "step": 80885
    },
    {
      "epoch": 12.047959487637772,
      "grad_norm": 0.009512615390121937,
      "learning_rate": 2.0453505523306147e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 46942600,
      "step": 80890
    },
    {
      "epoch": 12.048704200178731,
      "grad_norm": 0.002985616447404027,
      "learning_rate": 2.0450310326076823e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46945320,
      "step": 80895
    },
    {
      "epoch": 12.04944891271969,
      "grad_norm": 0.0050751022063195705,
      "learning_rate": 2.0447115205709887e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46948424,
      "step": 80900
    },
    {
      "epoch": 12.050193625260649,
      "grad_norm": 0.0062067885883152485,
      "learning_rate": 2.0443920162259306e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46951208,
      "step": 80905
    },
    {
      "epoch": 12.05093833780161,
      "grad_norm": 0.14100435376167297,
      "learning_rate": 2.044072519577907e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46954472,
      "step": 80910
    },
    {
      "epoch": 12.051683050342568,
      "grad_norm": 0.0008293926366604865,
      "learning_rate": 2.043753030632315e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46957288,
      "step": 80915
    },
    {
      "epoch": 12.052427762883527,
      "grad_norm": 5.085044860839844,
      "learning_rate": 2.0434335493945506e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 46959976,
      "step": 80920
    },
    {
      "epoch": 12.053172475424486,
      "grad_norm": 0.002196792745962739,
      "learning_rate": 2.043114075870013e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46962632,
      "step": 80925
    },
    {
      "epoch": 12.053917187965446,
      "grad_norm": 0.00917618814855814,
      "learning_rate": 2.042794610064099e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 46965480,
      "step": 80930
    },
    {
      "epoch": 12.054661900506405,
      "grad_norm": 0.02046705037355423,
      "learning_rate": 2.0424751519822054e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46968296,
      "step": 80935
    },
    {
      "epoch": 12.055406613047364,
      "grad_norm": 0.0044306982308626175,
      "learning_rate": 2.0421557016297283e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 46970984,
      "step": 80940
    },
    {
      "epoch": 12.056151325588322,
      "grad_norm": 0.0009978918824344873,
      "learning_rate": 2.041836259012066e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46973768,
      "step": 80945
    },
    {
      "epoch": 12.056896038129283,
      "grad_norm": 0.0011997497640550137,
      "learning_rate": 2.0415168241346138e-05,
      "loss": 0.1563,
      "num_input_tokens_seen": 46976456,
      "step": 80950
    },
    {
      "epoch": 12.057640750670242,
      "grad_norm": 0.008707205764949322,
      "learning_rate": 2.0411973970027698e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46979528,
      "step": 80955
    },
    {
      "epoch": 12.0583854632112,
      "grad_norm": 0.006061960943043232,
      "learning_rate": 2.0408779776219295e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46982568,
      "step": 80960
    },
    {
      "epoch": 12.05913017575216,
      "grad_norm": 0.2917833626270294,
      "learning_rate": 2.0405585659974885e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 46985512,
      "step": 80965
    },
    {
      "epoch": 12.05987488829312,
      "grad_norm": 0.009591298177838326,
      "learning_rate": 2.0402391621348444e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46988456,
      "step": 80970
    },
    {
      "epoch": 12.060619600834078,
      "grad_norm": 0.0005644187331199646,
      "learning_rate": 2.039919766039391e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46991400,
      "step": 80975
    },
    {
      "epoch": 12.061364313375037,
      "grad_norm": 0.0007974774925969541,
      "learning_rate": 2.0396003777165266e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46994120,
      "step": 80980
    },
    {
      "epoch": 12.062109025915996,
      "grad_norm": 0.5122398138046265,
      "learning_rate": 2.0392809971716448e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 46997128,
      "step": 80985
    },
    {
      "epoch": 12.062853738456955,
      "grad_norm": 0.00011614867980824783,
      "learning_rate": 2.0389616244101437e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 46999976,
      "step": 80990
    },
    {
      "epoch": 12.063598450997915,
      "grad_norm": 0.008332905359566212,
      "learning_rate": 2.038642259437417e-05,
      "loss": 0.1608,
      "num_input_tokens_seen": 47002792,
      "step": 80995
    },
    {
      "epoch": 12.064343163538874,
      "grad_norm": 0.0007972155581228435,
      "learning_rate": 2.03832290225886e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47005896,
      "step": 81000
    },
    {
      "epoch": 12.065087876079833,
      "grad_norm": 0.0006860095309093595,
      "learning_rate": 2.0380035528798692e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47008744,
      "step": 81005
    },
    {
      "epoch": 12.065832588620792,
      "grad_norm": 0.00034069130197167397,
      "learning_rate": 2.0376842113058372e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47011752,
      "step": 81010
    },
    {
      "epoch": 12.066577301161752,
      "grad_norm": 0.4543394148349762,
      "learning_rate": 2.037364877542162e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47014696,
      "step": 81015
    },
    {
      "epoch": 12.06732201370271,
      "grad_norm": 0.003220141865313053,
      "learning_rate": 2.037045551594236e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47017992,
      "step": 81020
    },
    {
      "epoch": 12.06806672624367,
      "grad_norm": 0.0038740334566682577,
      "learning_rate": 2.0367262334674556e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47020872,
      "step": 81025
    },
    {
      "epoch": 12.068811438784628,
      "grad_norm": 0.001858669682405889,
      "learning_rate": 2.0364069231672143e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47023752,
      "step": 81030
    },
    {
      "epoch": 12.069556151325589,
      "grad_norm": 0.0019646338187158108,
      "learning_rate": 2.0360876206989073e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47026600,
      "step": 81035
    },
    {
      "epoch": 12.070300863866548,
      "grad_norm": 12.59669303894043,
      "learning_rate": 2.0357683260679285e-05,
      "loss": 0.008,
      "num_input_tokens_seen": 47029448,
      "step": 81040
    },
    {
      "epoch": 12.071045576407506,
      "grad_norm": 0.23139697313308716,
      "learning_rate": 2.035449039279671e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47032552,
      "step": 81045
    },
    {
      "epoch": 12.071790288948465,
      "grad_norm": 0.008750764653086662,
      "learning_rate": 2.035129760339531e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47035336,
      "step": 81050
    },
    {
      "epoch": 12.072535001489426,
      "grad_norm": 2.063600540161133,
      "learning_rate": 2.0348104892528998e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 47038152,
      "step": 81055
    },
    {
      "epoch": 12.073279714030384,
      "grad_norm": 0.22606147825717926,
      "learning_rate": 2.0344912260251742e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47040712,
      "step": 81060
    },
    {
      "epoch": 12.074024426571343,
      "grad_norm": 92.70352172851562,
      "learning_rate": 2.034171970661745e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 47043720,
      "step": 81065
    },
    {
      "epoch": 12.074769139112302,
      "grad_norm": 3.57183744199574e-05,
      "learning_rate": 2.0338527231680078e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47046568,
      "step": 81070
    },
    {
      "epoch": 12.075513851653263,
      "grad_norm": 0.0011372881708666682,
      "learning_rate": 2.033533483549354e-05,
      "loss": 0.1813,
      "num_input_tokens_seen": 47049640,
      "step": 81075
    },
    {
      "epoch": 12.076258564194221,
      "grad_norm": 0.00037877284921705723,
      "learning_rate": 2.033214251811179e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 47052456,
      "step": 81080
    },
    {
      "epoch": 12.07700327673518,
      "grad_norm": 5.982233051327057e-05,
      "learning_rate": 2.0328950279588748e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 47055240,
      "step": 81085
    },
    {
      "epoch": 12.077747989276139,
      "grad_norm": 0.0008251744438894093,
      "learning_rate": 2.0325758119978334e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47058184,
      "step": 81090
    },
    {
      "epoch": 12.0784927018171,
      "grad_norm": 0.0028209039010107517,
      "learning_rate": 2.0322566039334497e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47060936,
      "step": 81095
    },
    {
      "epoch": 12.079237414358058,
      "grad_norm": 4.392226219177246,
      "learning_rate": 2.0319374037711143e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 47063784,
      "step": 81100
    },
    {
      "epoch": 12.079982126899017,
      "grad_norm": 0.0017361879581585526,
      "learning_rate": 2.0316182115162218e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47066568,
      "step": 81105
    },
    {
      "epoch": 12.080726839439976,
      "grad_norm": 0.0002205478958785534,
      "learning_rate": 2.031299027174162e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47069544,
      "step": 81110
    },
    {
      "epoch": 12.081471551980936,
      "grad_norm": 0.008448497392237186,
      "learning_rate": 2.03097985075033e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47072520,
      "step": 81115
    },
    {
      "epoch": 12.082216264521895,
      "grad_norm": 0.03580888733267784,
      "learning_rate": 2.030660682250117e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47075240,
      "step": 81120
    },
    {
      "epoch": 12.082960977062854,
      "grad_norm": 0.06525891274213791,
      "learning_rate": 2.0303415216789135e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 47078344,
      "step": 81125
    },
    {
      "epoch": 12.083705689603812,
      "grad_norm": 0.0010873894207179546,
      "learning_rate": 2.0300223690421135e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47081000,
      "step": 81130
    },
    {
      "epoch": 12.084450402144773,
      "grad_norm": 0.01437206007540226,
      "learning_rate": 2.029703224345108e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47083880,
      "step": 81135
    },
    {
      "epoch": 12.085195114685732,
      "grad_norm": 0.001608857186511159,
      "learning_rate": 2.0293840875932886e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 47087144,
      "step": 81140
    },
    {
      "epoch": 12.08593982722669,
      "grad_norm": 0.0006444313330575824,
      "learning_rate": 2.029064958792046e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47089928,
      "step": 81145
    },
    {
      "epoch": 12.08668453976765,
      "grad_norm": 0.043447308242321014,
      "learning_rate": 2.0287458379467728e-05,
      "loss": 0.2429,
      "num_input_tokens_seen": 47092616,
      "step": 81150
    },
    {
      "epoch": 12.08742925230861,
      "grad_norm": 0.021092712879180908,
      "learning_rate": 2.028426725062859e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47095528,
      "step": 81155
    },
    {
      "epoch": 12.088173964849569,
      "grad_norm": 0.012835226953029633,
      "learning_rate": 2.0281076201456977e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47098280,
      "step": 81160
    },
    {
      "epoch": 12.088918677390527,
      "grad_norm": 0.004374746698886156,
      "learning_rate": 2.0277885232006776e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 47101160,
      "step": 81165
    },
    {
      "epoch": 12.089663389931486,
      "grad_norm": 0.002064676256850362,
      "learning_rate": 2.0274694342331907e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47104232,
      "step": 81170
    },
    {
      "epoch": 12.090408102472445,
      "grad_norm": 2.5905041694641113,
      "learning_rate": 2.027150353248628e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 47106792,
      "step": 81175
    },
    {
      "epoch": 12.091152815013405,
      "grad_norm": 0.000494752952363342,
      "learning_rate": 2.026831280252378e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47109576,
      "step": 81180
    },
    {
      "epoch": 12.091897527554364,
      "grad_norm": 0.0012299915542826056,
      "learning_rate": 2.026512215249834e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47112680,
      "step": 81185
    },
    {
      "epoch": 12.092642240095323,
      "grad_norm": 0.010379357263445854,
      "learning_rate": 2.0261931582463844e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47115912,
      "step": 81190
    },
    {
      "epoch": 12.093386952636282,
      "grad_norm": 0.0016316294204443693,
      "learning_rate": 2.0258741092474204e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47118600,
      "step": 81195
    },
    {
      "epoch": 12.094131665177242,
      "grad_norm": 0.00034337572287768126,
      "learning_rate": 2.0255550682583313e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47121224,
      "step": 81200
    },
    {
      "epoch": 12.094876377718201,
      "grad_norm": 0.0007657888345420361,
      "learning_rate": 2.025236035284506e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47124200,
      "step": 81205
    },
    {
      "epoch": 12.09562109025916,
      "grad_norm": 0.011343722231686115,
      "learning_rate": 2.0249170103313365e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47126824,
      "step": 81210
    },
    {
      "epoch": 12.096365802800118,
      "grad_norm": 0.0013548850547522306,
      "learning_rate": 2.0245979934042104e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 47129672,
      "step": 81215
    },
    {
      "epoch": 12.097110515341079,
      "grad_norm": 0.003001841250807047,
      "learning_rate": 2.0242789845085187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47132840,
      "step": 81220
    },
    {
      "epoch": 12.097855227882038,
      "grad_norm": 18.50278091430664,
      "learning_rate": 2.0239599836496497e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 47135720,
      "step": 81225
    },
    {
      "epoch": 12.098599940422996,
      "grad_norm": 0.039945125579833984,
      "learning_rate": 2.0236409908329933e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47138760,
      "step": 81230
    },
    {
      "epoch": 12.099344652963955,
      "grad_norm": 0.0005149435019120574,
      "learning_rate": 2.0233220060639373e-05,
      "loss": 0.0356,
      "num_input_tokens_seen": 47141864,
      "step": 81235
    },
    {
      "epoch": 12.100089365504916,
      "grad_norm": 0.028710240498185158,
      "learning_rate": 2.023003029347873e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47144968,
      "step": 81240
    },
    {
      "epoch": 12.100834078045875,
      "grad_norm": 0.07621856033802032,
      "learning_rate": 2.0226840606901872e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 47147816,
      "step": 81245
    },
    {
      "epoch": 12.101578790586833,
      "grad_norm": 0.0085289953276515,
      "learning_rate": 2.022365100096268e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47150824,
      "step": 81250
    },
    {
      "epoch": 12.102323503127792,
      "grad_norm": 0.0012098911684006453,
      "learning_rate": 2.0220461475715063e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47153768,
      "step": 81255
    },
    {
      "epoch": 12.103068215668753,
      "grad_norm": 0.005105588585138321,
      "learning_rate": 2.0217272031212887e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47156296,
      "step": 81260
    },
    {
      "epoch": 12.103812928209711,
      "grad_norm": 0.0011620064033195376,
      "learning_rate": 2.021408266751004e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47158984,
      "step": 81265
    },
    {
      "epoch": 12.10455764075067,
      "grad_norm": 7.251556396484375,
      "learning_rate": 2.0210893384660396e-05,
      "loss": 0.2718,
      "num_input_tokens_seen": 47161800,
      "step": 81270
    },
    {
      "epoch": 12.105302353291629,
      "grad_norm": 0.001080961781553924,
      "learning_rate": 2.0207704182717852e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47164680,
      "step": 81275
    },
    {
      "epoch": 12.10604706583259,
      "grad_norm": 1.0749943256378174,
      "learning_rate": 2.0204515061736275e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47167464,
      "step": 81280
    },
    {
      "epoch": 12.106791778373548,
      "grad_norm": 13.387591361999512,
      "learning_rate": 2.0201326021769526e-05,
      "loss": 0.0177,
      "num_input_tokens_seen": 47170152,
      "step": 81285
    },
    {
      "epoch": 12.107536490914507,
      "grad_norm": 0.005326445214450359,
      "learning_rate": 2.0198137062871512e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47173160,
      "step": 81290
    },
    {
      "epoch": 12.108281203455466,
      "grad_norm": 0.01586657017469406,
      "learning_rate": 2.0194948185096086e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 47176136,
      "step": 81295
    },
    {
      "epoch": 12.109025915996426,
      "grad_norm": 0.005077152978628874,
      "learning_rate": 2.019175938849713e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47178888,
      "step": 81300
    },
    {
      "epoch": 12.109770628537385,
      "grad_norm": 0.0013392399996519089,
      "learning_rate": 2.0188570673128504e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47181768,
      "step": 81305
    },
    {
      "epoch": 12.110515341078344,
      "grad_norm": 0.04908737167716026,
      "learning_rate": 2.0185382039044094e-05,
      "loss": 0.1439,
      "num_input_tokens_seen": 47184808,
      "step": 81310
    },
    {
      "epoch": 12.111260053619302,
      "grad_norm": 0.0012659190688282251,
      "learning_rate": 2.0182193486297755e-05,
      "loss": 0.1132,
      "num_input_tokens_seen": 47187752,
      "step": 81315
    },
    {
      "epoch": 12.112004766160263,
      "grad_norm": 0.0004429575928952545,
      "learning_rate": 2.017900501494337e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47190632,
      "step": 81320
    },
    {
      "epoch": 12.112749478701222,
      "grad_norm": 0.010217313654720783,
      "learning_rate": 2.0175816625034795e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47193736,
      "step": 81325
    },
    {
      "epoch": 12.11349419124218,
      "grad_norm": 0.00248635932803154,
      "learning_rate": 2.0172628316625887e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 47196840,
      "step": 81330
    },
    {
      "epoch": 12.11423890378314,
      "grad_norm": 0.019098574295639992,
      "learning_rate": 2.0169440089770523e-05,
      "loss": 0.0534,
      "num_input_tokens_seen": 47199976,
      "step": 81335
    },
    {
      "epoch": 12.114983616324098,
      "grad_norm": 0.0027784244157373905,
      "learning_rate": 2.0166251944522553e-05,
      "loss": 0.0754,
      "num_input_tokens_seen": 47202824,
      "step": 81340
    },
    {
      "epoch": 12.115728328865059,
      "grad_norm": 0.0015014567179605365,
      "learning_rate": 2.016306388093585e-05,
      "loss": 0.1844,
      "num_input_tokens_seen": 47205992,
      "step": 81345
    },
    {
      "epoch": 12.116473041406017,
      "grad_norm": 0.002740149851888418,
      "learning_rate": 2.0159875899064258e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47208904,
      "step": 81350
    },
    {
      "epoch": 12.117217753946976,
      "grad_norm": 0.020978309214115143,
      "learning_rate": 2.0156687998961653e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47211976,
      "step": 81355
    },
    {
      "epoch": 12.117962466487935,
      "grad_norm": 0.008831242099404335,
      "learning_rate": 2.015350018068188e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47215080,
      "step": 81360
    },
    {
      "epoch": 12.118707179028895,
      "grad_norm": 0.007292312104254961,
      "learning_rate": 2.0150312444278795e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47217736,
      "step": 81365
    },
    {
      "epoch": 12.119451891569854,
      "grad_norm": 0.0028994802851229906,
      "learning_rate": 2.0147124789806254e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47220680,
      "step": 81370
    },
    {
      "epoch": 12.120196604110813,
      "grad_norm": 0.01590052619576454,
      "learning_rate": 2.01439372173181e-05,
      "loss": 0.1162,
      "num_input_tokens_seen": 47223688,
      "step": 81375
    },
    {
      "epoch": 12.120941316651772,
      "grad_norm": 0.04102248325943947,
      "learning_rate": 2.0140749726868197e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47226696,
      "step": 81380
    },
    {
      "epoch": 12.121686029192732,
      "grad_norm": 0.0009239765931852162,
      "learning_rate": 2.013756231851038e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47229896,
      "step": 81385
    },
    {
      "epoch": 12.122430741733691,
      "grad_norm": 0.0018402701243758202,
      "learning_rate": 2.0134374992298515e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47232936,
      "step": 81390
    },
    {
      "epoch": 12.12317545427465,
      "grad_norm": 0.0011032067704945803,
      "learning_rate": 2.0131187748286438e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47235752,
      "step": 81395
    },
    {
      "epoch": 12.123920166815608,
      "grad_norm": 0.0010984535329043865,
      "learning_rate": 2.0128000586528e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 47238696,
      "step": 81400
    },
    {
      "epoch": 12.124664879356569,
      "grad_norm": 0.009148885495960712,
      "learning_rate": 2.012481350707704e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47241864,
      "step": 81405
    },
    {
      "epoch": 12.125409591897528,
      "grad_norm": 1.6675238609313965,
      "learning_rate": 2.012162650998739e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47244584,
      "step": 81410
    },
    {
      "epoch": 12.126154304438487,
      "grad_norm": 0.0010952393058687449,
      "learning_rate": 2.011843959531291e-05,
      "loss": 0.2907,
      "num_input_tokens_seen": 47247272,
      "step": 81415
    },
    {
      "epoch": 12.126899016979445,
      "grad_norm": 0.00011572064977372065,
      "learning_rate": 2.0115252763107424e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 47250312,
      "step": 81420
    },
    {
      "epoch": 12.127643729520406,
      "grad_norm": 0.007851500064134598,
      "learning_rate": 2.0112066013424785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47253288,
      "step": 81425
    },
    {
      "epoch": 12.128388442061365,
      "grad_norm": 0.0019700226839631796,
      "learning_rate": 2.010887934631882e-05,
      "loss": 0.0307,
      "num_input_tokens_seen": 47256328,
      "step": 81430
    },
    {
      "epoch": 12.129133154602323,
      "grad_norm": 0.0015076472191140056,
      "learning_rate": 2.0105692761843375e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47259016,
      "step": 81435
    },
    {
      "epoch": 12.129877867143282,
      "grad_norm": 0.014087880030274391,
      "learning_rate": 2.0102506260052273e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47261864,
      "step": 81440
    },
    {
      "epoch": 12.130622579684243,
      "grad_norm": 0.005062177777290344,
      "learning_rate": 2.0099319840999343e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47264520,
      "step": 81445
    },
    {
      "epoch": 12.131367292225201,
      "grad_norm": 0.019052591174840927,
      "learning_rate": 2.0096133504738428e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47267784,
      "step": 81450
    },
    {
      "epoch": 12.13211200476616,
      "grad_norm": 0.025984328240156174,
      "learning_rate": 2.009294725132335e-05,
      "loss": 0.0177,
      "num_input_tokens_seen": 47270664,
      "step": 81455
    },
    {
      "epoch": 12.132856717307119,
      "grad_norm": 208.3721160888672,
      "learning_rate": 2.0089761080807945e-05,
      "loss": 0.0532,
      "num_input_tokens_seen": 47273448,
      "step": 81460
    },
    {
      "epoch": 12.13360142984808,
      "grad_norm": 0.001665611402131617,
      "learning_rate": 2.0086574993246034e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47276136,
      "step": 81465
    },
    {
      "epoch": 12.134346142389038,
      "grad_norm": 0.052732083946466446,
      "learning_rate": 2.008338898869145e-05,
      "loss": 0.1166,
      "num_input_tokens_seen": 47279176,
      "step": 81470
    },
    {
      "epoch": 12.135090854929997,
      "grad_norm": 0.01785232499241829,
      "learning_rate": 2.0080203067198003e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47281736,
      "step": 81475
    },
    {
      "epoch": 12.135835567470956,
      "grad_norm": 0.037544529885053635,
      "learning_rate": 2.0077017228819534e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47284680,
      "step": 81480
    },
    {
      "epoch": 12.136580280011916,
      "grad_norm": 0.00039567932253703475,
      "learning_rate": 2.0073831473609855e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47287464,
      "step": 81485
    },
    {
      "epoch": 12.137324992552875,
      "grad_norm": 0.003321858821436763,
      "learning_rate": 2.007064580162278e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47290472,
      "step": 81490
    },
    {
      "epoch": 12.138069705093834,
      "grad_norm": 0.002763420110568404,
      "learning_rate": 2.0067460212912137e-05,
      "loss": 0.2969,
      "num_input_tokens_seen": 47293448,
      "step": 81495
    },
    {
      "epoch": 12.138814417634793,
      "grad_norm": 0.0021698942873626947,
      "learning_rate": 2.006427470753174e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47296136,
      "step": 81500
    },
    {
      "epoch": 12.139559130175751,
      "grad_norm": 0.0005356153706088662,
      "learning_rate": 2.006108928553541e-05,
      "loss": 0.0818,
      "num_input_tokens_seen": 47298856,
      "step": 81505
    },
    {
      "epoch": 12.140303842716712,
      "grad_norm": 0.21512946486473083,
      "learning_rate": 2.0057903946976944e-05,
      "loss": 0.2567,
      "num_input_tokens_seen": 47301736,
      "step": 81510
    },
    {
      "epoch": 12.14104855525767,
      "grad_norm": 0.07753586024045944,
      "learning_rate": 2.0054718691910178e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47304712,
      "step": 81515
    },
    {
      "epoch": 12.14179326779863,
      "grad_norm": 0.000985198887065053,
      "learning_rate": 2.0051533520388918e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47307528,
      "step": 81520
    },
    {
      "epoch": 12.142537980339588,
      "grad_norm": 0.006277032662183046,
      "learning_rate": 2.0048348432466963e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47310536,
      "step": 81525
    },
    {
      "epoch": 12.143282692880549,
      "grad_norm": 0.00045072706416249275,
      "learning_rate": 2.004516342819813e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 47313288,
      "step": 81530
    },
    {
      "epoch": 12.144027405421507,
      "grad_norm": 0.0001367375662084669,
      "learning_rate": 2.0041978507636222e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47316232,
      "step": 81535
    },
    {
      "epoch": 12.144772117962466,
      "grad_norm": 0.01825014129281044,
      "learning_rate": 2.0038793670835054e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47319144,
      "step": 81540
    },
    {
      "epoch": 12.145516830503425,
      "grad_norm": 0.005152715370059013,
      "learning_rate": 2.0035608917848415e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47321800,
      "step": 81545
    },
    {
      "epoch": 12.146261543044385,
      "grad_norm": 0.0014296139124780893,
      "learning_rate": 2.0032424248730124e-05,
      "loss": 0.2251,
      "num_input_tokens_seen": 47324712,
      "step": 81550
    },
    {
      "epoch": 12.147006255585344,
      "grad_norm": 0.00017750548431649804,
      "learning_rate": 2.0029239663533977e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47327464,
      "step": 81555
    },
    {
      "epoch": 12.147750968126303,
      "grad_norm": 0.004189881030470133,
      "learning_rate": 2.0026055162313778e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47330248,
      "step": 81560
    },
    {
      "epoch": 12.148495680667262,
      "grad_norm": 0.0074415733106434345,
      "learning_rate": 2.002287074512332e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47333000,
      "step": 81565
    },
    {
      "epoch": 12.149240393208222,
      "grad_norm": 0.0074210693128407,
      "learning_rate": 2.001968641201639e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47336040,
      "step": 81570
    },
    {
      "epoch": 12.149985105749181,
      "grad_norm": 0.005301554221659899,
      "learning_rate": 2.0016502163046815e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 47338856,
      "step": 81575
    },
    {
      "epoch": 12.15072981829014,
      "grad_norm": 0.0024341668467968702,
      "learning_rate": 2.0013317998268352e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47341768,
      "step": 81580
    },
    {
      "epoch": 12.151474530831099,
      "grad_norm": 0.007278239354491234,
      "learning_rate": 2.0010133917734825e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47344872,
      "step": 81585
    },
    {
      "epoch": 12.152219243372059,
      "grad_norm": 0.022888392210006714,
      "learning_rate": 2.0006949921500012e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47347720,
      "step": 81590
    },
    {
      "epoch": 12.152963955913018,
      "grad_norm": 0.2387976199388504,
      "learning_rate": 2.0003766009617707e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47350344,
      "step": 81595
    },
    {
      "epoch": 12.153708668453977,
      "grad_norm": 0.00776101928204298,
      "learning_rate": 2.00005821821417e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47353448,
      "step": 81600
    },
    {
      "epoch": 12.154453380994935,
      "grad_norm": 0.012615291401743889,
      "learning_rate": 1.9997398439125763e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47356200,
      "step": 81605
    },
    {
      "epoch": 12.155198093535896,
      "grad_norm": 0.0013160413363948464,
      "learning_rate": 1.999421478062371e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47358856,
      "step": 81610
    },
    {
      "epoch": 12.155942806076855,
      "grad_norm": 0.01643521711230278,
      "learning_rate": 1.9991031206689294e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47361704,
      "step": 81615
    },
    {
      "epoch": 12.156687518617813,
      "grad_norm": 0.004764338955283165,
      "learning_rate": 1.998784771737633e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47364488,
      "step": 81620
    },
    {
      "epoch": 12.157432231158772,
      "grad_norm": 0.0014588349731639028,
      "learning_rate": 1.9984664312738578e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47367496,
      "step": 81625
    },
    {
      "epoch": 12.158176943699733,
      "grad_norm": 0.017086921259760857,
      "learning_rate": 1.9981480992829832e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47370344,
      "step": 81630
    },
    {
      "epoch": 12.158921656240691,
      "grad_norm": 1.1426092386245728,
      "learning_rate": 1.997829775770385e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47373160,
      "step": 81635
    },
    {
      "epoch": 12.15966636878165,
      "grad_norm": 0.004224523901939392,
      "learning_rate": 1.9975114607414434e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47376200,
      "step": 81640
    },
    {
      "epoch": 12.160411081322609,
      "grad_norm": 0.029118837788701057,
      "learning_rate": 1.9971931542015355e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 47379272,
      "step": 81645
    },
    {
      "epoch": 12.16115579386357,
      "grad_norm": 0.004787568002939224,
      "learning_rate": 1.9968748561560366e-05,
      "loss": 0.0915,
      "num_input_tokens_seen": 47382088,
      "step": 81650
    },
    {
      "epoch": 12.161900506404528,
      "grad_norm": 0.0028539085760712624,
      "learning_rate": 1.996556566610327e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 47384968,
      "step": 81655
    },
    {
      "epoch": 12.162645218945487,
      "grad_norm": 59.521358489990234,
      "learning_rate": 1.996238285569782e-05,
      "loss": 0.0325,
      "num_input_tokens_seen": 47387848,
      "step": 81660
    },
    {
      "epoch": 12.163389931486446,
      "grad_norm": 0.006307197734713554,
      "learning_rate": 1.9959200130397795e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47390856,
      "step": 81665
    },
    {
      "epoch": 12.164134644027406,
      "grad_norm": 0.0019501002971082926,
      "learning_rate": 1.995601749025695e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47393832,
      "step": 81670
    },
    {
      "epoch": 12.164879356568365,
      "grad_norm": 0.004699557088315487,
      "learning_rate": 1.9952834935329077e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47396904,
      "step": 81675
    },
    {
      "epoch": 12.165624069109324,
      "grad_norm": 0.0012223445810377598,
      "learning_rate": 1.9949652465667915e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 47399624,
      "step": 81680
    },
    {
      "epoch": 12.166368781650283,
      "grad_norm": 0.0013435438740998507,
      "learning_rate": 1.9946470081327253e-05,
      "loss": 0.2127,
      "num_input_tokens_seen": 47402568,
      "step": 81685
    },
    {
      "epoch": 12.167113494191241,
      "grad_norm": 1.5375005006790161,
      "learning_rate": 1.9943287782360844e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47405640,
      "step": 81690
    },
    {
      "epoch": 12.167858206732202,
      "grad_norm": 0.35967710614204407,
      "learning_rate": 1.9940105568822437e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47408616,
      "step": 81695
    },
    {
      "epoch": 12.16860291927316,
      "grad_norm": 0.03761455789208412,
      "learning_rate": 1.9936923440765813e-05,
      "loss": 0.0077,
      "num_input_tokens_seen": 47411464,
      "step": 81700
    },
    {
      "epoch": 12.16934763181412,
      "grad_norm": 0.001391584170050919,
      "learning_rate": 1.9933741398244714e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47414120,
      "step": 81705
    },
    {
      "epoch": 12.170092344355078,
      "grad_norm": 0.002764645265415311,
      "learning_rate": 1.9930559441312913e-05,
      "loss": 0.011,
      "num_input_tokens_seen": 47417128,
      "step": 81710
    },
    {
      "epoch": 12.170837056896039,
      "grad_norm": 0.0010392677504569292,
      "learning_rate": 1.9927377570024146e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47419848,
      "step": 81715
    },
    {
      "epoch": 12.171581769436997,
      "grad_norm": 0.007297837641090155,
      "learning_rate": 1.9924195784432192e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47422664,
      "step": 81720
    },
    {
      "epoch": 12.172326481977956,
      "grad_norm": 0.0030853517819195986,
      "learning_rate": 1.992101408459079e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47425576,
      "step": 81725
    },
    {
      "epoch": 12.173071194518915,
      "grad_norm": 0.0023246118798851967,
      "learning_rate": 1.9917832470553692e-05,
      "loss": 0.0316,
      "num_input_tokens_seen": 47428584,
      "step": 81730
    },
    {
      "epoch": 12.173815907059875,
      "grad_norm": 41.08270263671875,
      "learning_rate": 1.9914650942374648e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 47431528,
      "step": 81735
    },
    {
      "epoch": 12.174560619600834,
      "grad_norm": 84.51351165771484,
      "learning_rate": 1.9911469500107398e-05,
      "loss": 0.0633,
      "num_input_tokens_seen": 47434280,
      "step": 81740
    },
    {
      "epoch": 12.175305332141793,
      "grad_norm": 0.004096033982932568,
      "learning_rate": 1.9908288143805714e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47437576,
      "step": 81745
    },
    {
      "epoch": 12.176050044682752,
      "grad_norm": 14.607580184936523,
      "learning_rate": 1.9905106873523316e-05,
      "loss": 0.0439,
      "num_input_tokens_seen": 47440168,
      "step": 81750
    },
    {
      "epoch": 12.176794757223712,
      "grad_norm": 0.004170444793999195,
      "learning_rate": 1.9901925689313967e-05,
      "loss": 0.0566,
      "num_input_tokens_seen": 47443304,
      "step": 81755
    },
    {
      "epoch": 12.177539469764671,
      "grad_norm": 0.0014838023344054818,
      "learning_rate": 1.9898744591231396e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 47446120,
      "step": 81760
    },
    {
      "epoch": 12.17828418230563,
      "grad_norm": 0.0052994112484157085,
      "learning_rate": 1.989556357932936e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47448840,
      "step": 81765
    },
    {
      "epoch": 12.179028894846589,
      "grad_norm": 0.03968013823032379,
      "learning_rate": 1.9892382653661584e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 47451880,
      "step": 81770
    },
    {
      "epoch": 12.179773607387549,
      "grad_norm": 0.04500164836645126,
      "learning_rate": 1.9889201814281804e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 47454760,
      "step": 81775
    },
    {
      "epoch": 12.180518319928508,
      "grad_norm": 0.023858973756432533,
      "learning_rate": 1.9886021061243775e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 47457544,
      "step": 81780
    },
    {
      "epoch": 12.181263032469467,
      "grad_norm": 0.052123770117759705,
      "learning_rate": 1.9882840394601213e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47460456,
      "step": 81785
    },
    {
      "epoch": 12.182007745010425,
      "grad_norm": 0.018235549330711365,
      "learning_rate": 1.987965981440787e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47463432,
      "step": 81790
    },
    {
      "epoch": 12.182752457551386,
      "grad_norm": 0.000409409316489473,
      "learning_rate": 1.987647932071747e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47466312,
      "step": 81795
    },
    {
      "epoch": 12.183497170092345,
      "grad_norm": 0.0096749784424901,
      "learning_rate": 1.9873298913583746e-05,
      "loss": 0.1204,
      "num_input_tokens_seen": 47469384,
      "step": 81800
    },
    {
      "epoch": 12.184241882633303,
      "grad_norm": 0.003076683497056365,
      "learning_rate": 1.987011859306043e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47472136,
      "step": 81805
    },
    {
      "epoch": 12.184986595174262,
      "grad_norm": 0.02443651668727398,
      "learning_rate": 1.986693835920123e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47474920,
      "step": 81810
    },
    {
      "epoch": 12.185731307715223,
      "grad_norm": 0.016828231513500214,
      "learning_rate": 1.9863758212059902e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47477800,
      "step": 81815
    },
    {
      "epoch": 12.186476020256181,
      "grad_norm": 0.00044151974725537,
      "learning_rate": 1.9860578151690154e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 47480968,
      "step": 81820
    },
    {
      "epoch": 12.18722073279714,
      "grad_norm": 0.0025915063451975584,
      "learning_rate": 1.9857398178145718e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47483752,
      "step": 81825
    },
    {
      "epoch": 12.187965445338099,
      "grad_norm": 0.0010330110089853406,
      "learning_rate": 1.985421829148031e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47486664,
      "step": 81830
    },
    {
      "epoch": 12.18871015787906,
      "grad_norm": 0.39777952432632446,
      "learning_rate": 1.985103849174766e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47489672,
      "step": 81835
    },
    {
      "epoch": 12.189454870420018,
      "grad_norm": 0.00029980429098941386,
      "learning_rate": 1.984785877900147e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 47492424,
      "step": 81840
    },
    {
      "epoch": 12.190199582960977,
      "grad_norm": 2.3091471195220947,
      "learning_rate": 1.984467915329548e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 47495496,
      "step": 81845
    },
    {
      "epoch": 12.190944295501936,
      "grad_norm": 0.0031857071444392204,
      "learning_rate": 1.9841499614683394e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47498504,
      "step": 81850
    },
    {
      "epoch": 12.191689008042895,
      "grad_norm": 0.000715255388058722,
      "learning_rate": 1.9838320163218927e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 47501224,
      "step": 81855
    },
    {
      "epoch": 12.192433720583855,
      "grad_norm": 0.03475969284772873,
      "learning_rate": 1.98351407989558e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47504040,
      "step": 81860
    },
    {
      "epoch": 12.193178433124814,
      "grad_norm": 0.003374628722667694,
      "learning_rate": 1.983196152194771e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47507176,
      "step": 81865
    },
    {
      "epoch": 12.193923145665773,
      "grad_norm": 0.007195835467427969,
      "learning_rate": 1.9828782332248385e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 47510056,
      "step": 81870
    },
    {
      "epoch": 12.194667858206731,
      "grad_norm": 0.0020642036106437445,
      "learning_rate": 1.982560322991152e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47512744,
      "step": 81875
    },
    {
      "epoch": 12.195412570747692,
      "grad_norm": 0.07527495920658112,
      "learning_rate": 1.9822424214990837e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47515432,
      "step": 81880
    },
    {
      "epoch": 12.19615728328865,
      "grad_norm": 0.002712363377213478,
      "learning_rate": 1.9819245287540036e-05,
      "loss": 0.0104,
      "num_input_tokens_seen": 47518504,
      "step": 81885
    },
    {
      "epoch": 12.19690199582961,
      "grad_norm": 0.0018568107625469565,
      "learning_rate": 1.9816066447612815e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 47521160,
      "step": 81890
    },
    {
      "epoch": 12.197646708370568,
      "grad_norm": 0.003376581007614732,
      "learning_rate": 1.9812887695262887e-05,
      "loss": 0.0242,
      "num_input_tokens_seen": 47524104,
      "step": 81895
    },
    {
      "epoch": 12.198391420911529,
      "grad_norm": 0.00023212243104353547,
      "learning_rate": 1.980970903054394e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47527208,
      "step": 81900
    },
    {
      "epoch": 12.199136133452487,
      "grad_norm": 0.00176241563167423,
      "learning_rate": 1.9806530453509693e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47530120,
      "step": 81905
    },
    {
      "epoch": 12.199880845993446,
      "grad_norm": 0.002785572549328208,
      "learning_rate": 1.9803351964213827e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47532904,
      "step": 81910
    },
    {
      "epoch": 12.200625558534405,
      "grad_norm": 0.0007021667552180588,
      "learning_rate": 1.9800173562710055e-05,
      "loss": 0.0415,
      "num_input_tokens_seen": 47535656,
      "step": 81915
    },
    {
      "epoch": 12.201370271075366,
      "grad_norm": 1.578317403793335,
      "learning_rate": 1.9796995249052064e-05,
      "loss": 0.023,
      "num_input_tokens_seen": 47538280,
      "step": 81920
    },
    {
      "epoch": 12.202114983616324,
      "grad_norm": 0.002778870053589344,
      "learning_rate": 1.9793817023293555e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47541096,
      "step": 81925
    },
    {
      "epoch": 12.202859696157283,
      "grad_norm": 0.008842019364237785,
      "learning_rate": 1.9790638885488216e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47543784,
      "step": 81930
    },
    {
      "epoch": 12.203604408698242,
      "grad_norm": 8.019929885864258,
      "learning_rate": 1.9787460835689726e-05,
      "loss": 0.0309,
      "num_input_tokens_seen": 47546728,
      "step": 81935
    },
    {
      "epoch": 12.204349121239202,
      "grad_norm": 0.000388424436096102,
      "learning_rate": 1.9784282873951797e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47549576,
      "step": 81940
    },
    {
      "epoch": 12.205093833780161,
      "grad_norm": 0.0022244334686547518,
      "learning_rate": 1.97811050003281e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47552392,
      "step": 81945
    },
    {
      "epoch": 12.20583854632112,
      "grad_norm": 0.0038853702135384083,
      "learning_rate": 1.977792721487234e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47555240,
      "step": 81950
    },
    {
      "epoch": 12.206583258862079,
      "grad_norm": 0.0007323898025788367,
      "learning_rate": 1.9774749517638188e-05,
      "loss": 0.3407,
      "num_input_tokens_seen": 47558024,
      "step": 81955
    },
    {
      "epoch": 12.20732797140304,
      "grad_norm": 0.0644177570939064,
      "learning_rate": 1.9771571908679337e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 47560840,
      "step": 81960
    },
    {
      "epoch": 12.208072683943998,
      "grad_norm": 0.0036606709472835064,
      "learning_rate": 1.976839438804946e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47563560,
      "step": 81965
    },
    {
      "epoch": 12.208817396484957,
      "grad_norm": 0.012814238667488098,
      "learning_rate": 1.976521695580224e-05,
      "loss": 0.1007,
      "num_input_tokens_seen": 47566504,
      "step": 81970
    },
    {
      "epoch": 12.209562109025915,
      "grad_norm": 0.0022456077858805656,
      "learning_rate": 1.9762039611991365e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 47569320,
      "step": 81975
    },
    {
      "epoch": 12.210306821566876,
      "grad_norm": 0.028987983241677284,
      "learning_rate": 1.9758862356670498e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47572328,
      "step": 81980
    },
    {
      "epoch": 12.211051534107835,
      "grad_norm": 0.015282166190445423,
      "learning_rate": 1.9755685189893332e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47575080,
      "step": 81985
    },
    {
      "epoch": 12.211796246648793,
      "grad_norm": 0.021139880642294884,
      "learning_rate": 1.9752508111713532e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 47577832,
      "step": 81990
    },
    {
      "epoch": 12.212540959189752,
      "grad_norm": 0.004021298605948687,
      "learning_rate": 1.974933112218478e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47580520,
      "step": 81995
    },
    {
      "epoch": 12.213285671730713,
      "grad_norm": 0.0020819753408432007,
      "learning_rate": 1.9746154221360732e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 47583688,
      "step": 82000
    },
    {
      "epoch": 12.214030384271672,
      "grad_norm": 0.0009222528897225857,
      "learning_rate": 1.9742977409295076e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47586728,
      "step": 82005
    },
    {
      "epoch": 12.21477509681263,
      "grad_norm": 0.0007275753887370229,
      "learning_rate": 1.9739800686041478e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47589288,
      "step": 82010
    },
    {
      "epoch": 12.215519809353589,
      "grad_norm": 0.0038618887774646282,
      "learning_rate": 1.973662405165359e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47592296,
      "step": 82015
    },
    {
      "epoch": 12.216264521894548,
      "grad_norm": 0.02974652498960495,
      "learning_rate": 1.9733447506185095e-05,
      "loss": 0.2221,
      "num_input_tokens_seen": 47594920,
      "step": 82020
    },
    {
      "epoch": 12.217009234435508,
      "grad_norm": 0.006903563626110554,
      "learning_rate": 1.973027104968965e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47598088,
      "step": 82025
    },
    {
      "epoch": 12.217753946976467,
      "grad_norm": 0.003896452719345689,
      "learning_rate": 1.9727094682220925e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47600808,
      "step": 82030
    },
    {
      "epoch": 12.218498659517426,
      "grad_norm": 0.015143821947276592,
      "learning_rate": 1.9723918403832565e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47603752,
      "step": 82035
    },
    {
      "epoch": 12.219243372058385,
      "grad_norm": 0.00018882384756579995,
      "learning_rate": 1.9720742214578254e-05,
      "loss": 0.0578,
      "num_input_tokens_seen": 47606920,
      "step": 82040
    },
    {
      "epoch": 12.219988084599345,
      "grad_norm": 0.0002639075100887567,
      "learning_rate": 1.9717566114511634e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47609832,
      "step": 82045
    },
    {
      "epoch": 12.220732797140304,
      "grad_norm": 0.004503775853663683,
      "learning_rate": 1.9714390103686355e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47612552,
      "step": 82050
    },
    {
      "epoch": 12.221477509681263,
      "grad_norm": 0.001449758536182344,
      "learning_rate": 1.9711214182156096e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 47615400,
      "step": 82055
    },
    {
      "epoch": 12.222222222222221,
      "grad_norm": 0.0010977319907397032,
      "learning_rate": 1.9708038349974494e-05,
      "loss": 0.0745,
      "num_input_tokens_seen": 47618440,
      "step": 82060
    },
    {
      "epoch": 12.222966934763182,
      "grad_norm": 0.056213654577732086,
      "learning_rate": 1.9704862607195207e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47621384,
      "step": 82065
    },
    {
      "epoch": 12.22371164730414,
      "grad_norm": 0.0022182653192430735,
      "learning_rate": 1.970168695387188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47623880,
      "step": 82070
    },
    {
      "epoch": 12.2244563598451,
      "grad_norm": 0.01727611944079399,
      "learning_rate": 1.9698511390058172e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47626888,
      "step": 82075
    },
    {
      "epoch": 12.225201072386058,
      "grad_norm": 0.9394667744636536,
      "learning_rate": 1.9695335915807716e-05,
      "loss": 0.056,
      "num_input_tokens_seen": 47629832,
      "step": 82080
    },
    {
      "epoch": 12.225945784927019,
      "grad_norm": 121.99024200439453,
      "learning_rate": 1.969216053117418e-05,
      "loss": 0.0228,
      "num_input_tokens_seen": 47633032,
      "step": 82085
    },
    {
      "epoch": 12.226690497467978,
      "grad_norm": 0.001921878196299076,
      "learning_rate": 1.9688985236211197e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47635848,
      "step": 82090
    },
    {
      "epoch": 12.227435210008936,
      "grad_norm": 0.003273702459409833,
      "learning_rate": 1.9685810030972405e-05,
      "loss": 0.0259,
      "num_input_tokens_seen": 47638664,
      "step": 82095
    },
    {
      "epoch": 12.228179922549895,
      "grad_norm": 0.00517803942784667,
      "learning_rate": 1.9682634915511455e-05,
      "loss": 0.1989,
      "num_input_tokens_seen": 47641896,
      "step": 82100
    },
    {
      "epoch": 12.228924635090856,
      "grad_norm": 0.003889216110110283,
      "learning_rate": 1.9679459889881977e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47644616,
      "step": 82105
    },
    {
      "epoch": 12.229669347631814,
      "grad_norm": 0.008816340938210487,
      "learning_rate": 1.9676284954137624e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 47647688,
      "step": 82110
    },
    {
      "epoch": 12.230414060172773,
      "grad_norm": 0.0055169034749269485,
      "learning_rate": 1.9673110108332014e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 47650536,
      "step": 82115
    },
    {
      "epoch": 12.231158772713732,
      "grad_norm": 0.0044878278858959675,
      "learning_rate": 1.966993535251881e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47653256,
      "step": 82120
    },
    {
      "epoch": 12.231903485254692,
      "grad_norm": 0.030391979962587357,
      "learning_rate": 1.966676068675163e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47656328,
      "step": 82125
    },
    {
      "epoch": 12.232648197795651,
      "grad_norm": 0.05910496413707733,
      "learning_rate": 1.96635861110841e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47659208,
      "step": 82130
    },
    {
      "epoch": 12.23339291033661,
      "grad_norm": 2.3006038665771484,
      "learning_rate": 1.9660411625569867e-05,
      "loss": 0.0272,
      "num_input_tokens_seen": 47662216,
      "step": 82135
    },
    {
      "epoch": 12.234137622877569,
      "grad_norm": 0.0023116297088563442,
      "learning_rate": 1.965723723026254e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47665192,
      "step": 82140
    },
    {
      "epoch": 12.23488233541853,
      "grad_norm": 0.003899975912645459,
      "learning_rate": 1.965406292521577e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47668040,
      "step": 82145
    },
    {
      "epoch": 12.235627047959488,
      "grad_norm": 17.585681915283203,
      "learning_rate": 1.965088871048317e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 47671112,
      "step": 82150
    },
    {
      "epoch": 12.236371760500447,
      "grad_norm": 0.0021398833487182856,
      "learning_rate": 1.964771458611837e-05,
      "loss": 0.0073,
      "num_input_tokens_seen": 47673896,
      "step": 82155
    },
    {
      "epoch": 12.237116473041405,
      "grad_norm": 0.03376830369234085,
      "learning_rate": 1.964454055217499e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47676616,
      "step": 82160
    },
    {
      "epoch": 12.237861185582366,
      "grad_norm": 0.0011088514002040029,
      "learning_rate": 1.9641366608706656e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47679720,
      "step": 82165
    },
    {
      "epoch": 12.238605898123325,
      "grad_norm": 0.0013928100233897567,
      "learning_rate": 1.9638192755766993e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47682696,
      "step": 82170
    },
    {
      "epoch": 12.239350610664284,
      "grad_norm": 0.0035023840609937906,
      "learning_rate": 1.9635018993409602e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47685544,
      "step": 82175
    },
    {
      "epoch": 12.240095323205242,
      "grad_norm": 0.00019086910469923168,
      "learning_rate": 1.963184532168812e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47688200,
      "step": 82180
    },
    {
      "epoch": 12.240840035746203,
      "grad_norm": 0.09311305731534958,
      "learning_rate": 1.9628671740656154e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 47691048,
      "step": 82185
    },
    {
      "epoch": 12.241584748287162,
      "grad_norm": 0.02629724144935608,
      "learning_rate": 1.962549825036732e-05,
      "loss": 0.0715,
      "num_input_tokens_seen": 47693896,
      "step": 82190
    },
    {
      "epoch": 12.24232946082812,
      "grad_norm": 0.00016426034562755376,
      "learning_rate": 1.9622324850875227e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 47696552,
      "step": 82195
    },
    {
      "epoch": 12.243074173369079,
      "grad_norm": 0.016738662496209145,
      "learning_rate": 1.9619151542233494e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47699432,
      "step": 82200
    },
    {
      "epoch": 12.243818885910038,
      "grad_norm": 0.002149055013433099,
      "learning_rate": 1.9615978324495733e-05,
      "loss": 0.1194,
      "num_input_tokens_seen": 47702344,
      "step": 82205
    },
    {
      "epoch": 12.244563598450998,
      "grad_norm": 0.003832320449873805,
      "learning_rate": 1.961280519771553e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47705288,
      "step": 82210
    },
    {
      "epoch": 12.245308310991957,
      "grad_norm": 0.011155838146805763,
      "learning_rate": 1.960963216194652e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47707976,
      "step": 82215
    },
    {
      "epoch": 12.246053023532916,
      "grad_norm": 0.0033594209235161543,
      "learning_rate": 1.960645921724229e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 47710920,
      "step": 82220
    },
    {
      "epoch": 12.246797736073875,
      "grad_norm": 39.71564483642578,
      "learning_rate": 1.960328636365646e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 47713736,
      "step": 82225
    },
    {
      "epoch": 12.247542448614835,
      "grad_norm": 0.03232507035136223,
      "learning_rate": 1.9600113601242605e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47716872,
      "step": 82230
    },
    {
      "epoch": 12.248287161155794,
      "grad_norm": 0.006488071288913488,
      "learning_rate": 1.9596940930054358e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47719496,
      "step": 82235
    },
    {
      "epoch": 12.249031873696753,
      "grad_norm": 0.014941693283617496,
      "learning_rate": 1.9593768350145288e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 47722472,
      "step": 82240
    },
    {
      "epoch": 12.249776586237711,
      "grad_norm": 0.0010594063205644488,
      "learning_rate": 1.9590595861569023e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47725512,
      "step": 82245
    },
    {
      "epoch": 12.250521298778672,
      "grad_norm": 0.0037364279851317406,
      "learning_rate": 1.9587423464379136e-05,
      "loss": 0.027,
      "num_input_tokens_seen": 47728360,
      "step": 82250
    },
    {
      "epoch": 12.25126601131963,
      "grad_norm": 0.023070337250828743,
      "learning_rate": 1.9584251158629228e-05,
      "loss": 0.0975,
      "num_input_tokens_seen": 47731144,
      "step": 82255
    },
    {
      "epoch": 12.25201072386059,
      "grad_norm": 0.0003295908682048321,
      "learning_rate": 1.9581078944372897e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47734312,
      "step": 82260
    },
    {
      "epoch": 12.252755436401548,
      "grad_norm": 0.0008917480008676648,
      "learning_rate": 1.957790682166372e-05,
      "loss": 0.2025,
      "num_input_tokens_seen": 47737256,
      "step": 82265
    },
    {
      "epoch": 12.253500148942509,
      "grad_norm": 0.0002284131187479943,
      "learning_rate": 1.9574734790555305e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 47740136,
      "step": 82270
    },
    {
      "epoch": 12.254244861483468,
      "grad_norm": 0.000265089503955096,
      "learning_rate": 1.9571562851101223e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47743336,
      "step": 82275
    },
    {
      "epoch": 12.254989574024426,
      "grad_norm": 0.02451465092599392,
      "learning_rate": 1.9568391003355073e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47746184,
      "step": 82280
    },
    {
      "epoch": 12.255734286565385,
      "grad_norm": 0.0018775128992274404,
      "learning_rate": 1.956521924737044e-05,
      "loss": 0.053,
      "num_input_tokens_seen": 47749096,
      "step": 82285
    },
    {
      "epoch": 12.256478999106346,
      "grad_norm": 0.5151494741439819,
      "learning_rate": 1.9562047583200906e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 47752200,
      "step": 82290
    },
    {
      "epoch": 12.257223711647304,
      "grad_norm": 0.00034169480204582214,
      "learning_rate": 1.955887601090005e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47755016,
      "step": 82295
    },
    {
      "epoch": 12.257968424188263,
      "grad_norm": 0.47010546922683716,
      "learning_rate": 1.9555704530521445e-05,
      "loss": 0.1692,
      "num_input_tokens_seen": 47757832,
      "step": 82300
    },
    {
      "epoch": 12.258713136729222,
      "grad_norm": 0.024083301424980164,
      "learning_rate": 1.955253314211869e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47760968,
      "step": 82305
    },
    {
      "epoch": 12.259457849270182,
      "grad_norm": 0.00032623065635561943,
      "learning_rate": 1.9549361845745338e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47764008,
      "step": 82310
    },
    {
      "epoch": 12.260202561811141,
      "grad_norm": 0.5128740072250366,
      "learning_rate": 1.9546190641454993e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47766568,
      "step": 82315
    },
    {
      "epoch": 12.2609472743521,
      "grad_norm": 0.0004165364953223616,
      "learning_rate": 1.9543019529301203e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47769576,
      "step": 82320
    },
    {
      "epoch": 12.261691986893059,
      "grad_norm": 0.0012656807666644454,
      "learning_rate": 1.953984850933756e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 47772584,
      "step": 82325
    },
    {
      "epoch": 12.26243669943402,
      "grad_norm": 0.0037059462629258633,
      "learning_rate": 1.953667758161763e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47775272,
      "step": 82330
    },
    {
      "epoch": 12.263181411974978,
      "grad_norm": 0.04348224774003029,
      "learning_rate": 1.9533506746194964e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47778120,
      "step": 82335
    },
    {
      "epoch": 12.263926124515937,
      "grad_norm": 0.00011444724805187434,
      "learning_rate": 1.9530336003123156e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47781096,
      "step": 82340
    },
    {
      "epoch": 12.264670837056896,
      "grad_norm": 0.0011708153178915381,
      "learning_rate": 1.9527165352455755e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47783976,
      "step": 82345
    },
    {
      "epoch": 12.265415549597856,
      "grad_norm": 0.28467103838920593,
      "learning_rate": 1.9523994794246344e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47786760,
      "step": 82350
    },
    {
      "epoch": 12.266160262138815,
      "grad_norm": 0.0011472569312900305,
      "learning_rate": 1.9520824328548465e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47790760,
      "step": 82355
    },
    {
      "epoch": 12.266904974679774,
      "grad_norm": 0.049401622265577316,
      "learning_rate": 1.9517653955415698e-05,
      "loss": 0.1427,
      "num_input_tokens_seen": 47794088,
      "step": 82360
    },
    {
      "epoch": 12.267649687220732,
      "grad_norm": 3.669900894165039,
      "learning_rate": 1.9514483674901586e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47796840,
      "step": 82365
    },
    {
      "epoch": 12.268394399761693,
      "grad_norm": 0.0005400942754931748,
      "learning_rate": 1.9511313487059706e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47800104,
      "step": 82370
    },
    {
      "epoch": 12.269139112302652,
      "grad_norm": 0.006032680626958609,
      "learning_rate": 1.950814339194361e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47802920,
      "step": 82375
    },
    {
      "epoch": 12.26988382484361,
      "grad_norm": 4.750164031982422,
      "learning_rate": 1.9504973389606834e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 47805576,
      "step": 82380
    },
    {
      "epoch": 12.27062853738457,
      "grad_norm": 0.04002639651298523,
      "learning_rate": 1.9501803480102962e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47808488,
      "step": 82385
    },
    {
      "epoch": 12.271373249925528,
      "grad_norm": 0.0006201307405717671,
      "learning_rate": 1.9498633663485526e-05,
      "loss": 0.3621,
      "num_input_tokens_seen": 47811528,
      "step": 82390
    },
    {
      "epoch": 12.272117962466488,
      "grad_norm": 0.000232525504543446,
      "learning_rate": 1.9495463939808085e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47814664,
      "step": 82395
    },
    {
      "epoch": 12.272862675007447,
      "grad_norm": 0.0007278480334207416,
      "learning_rate": 1.9492294309124183e-05,
      "loss": 0.1969,
      "num_input_tokens_seen": 47817448,
      "step": 82400
    },
    {
      "epoch": 12.273607387548406,
      "grad_norm": 0.00037315700319595635,
      "learning_rate": 1.9489124771487375e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47820200,
      "step": 82405
    },
    {
      "epoch": 12.274352100089365,
      "grad_norm": 0.000536502746399492,
      "learning_rate": 1.9485955326951204e-05,
      "loss": 0.2473,
      "num_input_tokens_seen": 47822920,
      "step": 82410
    },
    {
      "epoch": 12.275096812630325,
      "grad_norm": 0.0005092396750114858,
      "learning_rate": 1.9482785975569202e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47826056,
      "step": 82415
    },
    {
      "epoch": 12.275841525171284,
      "grad_norm": 2.1929636001586914,
      "learning_rate": 1.9479616717394937e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 47828872,
      "step": 82420
    },
    {
      "epoch": 12.276586237712243,
      "grad_norm": 0.006866275332868099,
      "learning_rate": 1.947644755248193e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47832072,
      "step": 82425
    },
    {
      "epoch": 12.277330950253202,
      "grad_norm": 0.020545529201626778,
      "learning_rate": 1.9473278480883733e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47834952,
      "step": 82430
    },
    {
      "epoch": 12.278075662794162,
      "grad_norm": 0.0015421813586726785,
      "learning_rate": 1.947010950265387e-05,
      "loss": 0.1409,
      "num_input_tokens_seen": 47837768,
      "step": 82435
    },
    {
      "epoch": 12.27882037533512,
      "grad_norm": 0.00028826232301071286,
      "learning_rate": 1.9466940617845897e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 47841192,
      "step": 82440
    },
    {
      "epoch": 12.27956508787608,
      "grad_norm": 46.54825210571289,
      "learning_rate": 1.9463771826513326e-05,
      "loss": 0.0828,
      "num_input_tokens_seen": 47844200,
      "step": 82445
    },
    {
      "epoch": 12.280309800417038,
      "grad_norm": 0.006127392873167992,
      "learning_rate": 1.9460603128709715e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 47847496,
      "step": 82450
    },
    {
      "epoch": 12.281054512957999,
      "grad_norm": 0.00010224820289295167,
      "learning_rate": 1.9457434524488582e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47850280,
      "step": 82455
    },
    {
      "epoch": 12.281799225498958,
      "grad_norm": 0.009054477326571941,
      "learning_rate": 1.9454266013903458e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 47852936,
      "step": 82460
    },
    {
      "epoch": 12.282543938039916,
      "grad_norm": 147.9215087890625,
      "learning_rate": 1.945109759700788e-05,
      "loss": 0.0538,
      "num_input_tokens_seen": 47855752,
      "step": 82465
    },
    {
      "epoch": 12.283288650580875,
      "grad_norm": 0.0038696066476404667,
      "learning_rate": 1.9447929273855354e-05,
      "loss": 0.0296,
      "num_input_tokens_seen": 47858472,
      "step": 82470
    },
    {
      "epoch": 12.284033363121836,
      "grad_norm": 0.0016019599279388785,
      "learning_rate": 1.944476104449943e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47861448,
      "step": 82475
    },
    {
      "epoch": 12.284778075662794,
      "grad_norm": 81.27131652832031,
      "learning_rate": 1.9441592908993616e-05,
      "loss": 0.0217,
      "num_input_tokens_seen": 47864104,
      "step": 82480
    },
    {
      "epoch": 12.285522788203753,
      "grad_norm": 0.03143327683210373,
      "learning_rate": 1.9438424867391444e-05,
      "loss": 0.0528,
      "num_input_tokens_seen": 47867240,
      "step": 82485
    },
    {
      "epoch": 12.286267500744712,
      "grad_norm": 0.006090989802032709,
      "learning_rate": 1.9435256919746436e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47870312,
      "step": 82490
    },
    {
      "epoch": 12.287012213285673,
      "grad_norm": 0.008101576007902622,
      "learning_rate": 1.94320890661121e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47873128,
      "step": 82495
    },
    {
      "epoch": 12.287756925826631,
      "grad_norm": 0.0022397886496037245,
      "learning_rate": 1.9428921306541963e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47876136,
      "step": 82500
    },
    {
      "epoch": 12.28850163836759,
      "grad_norm": 0.002518072258681059,
      "learning_rate": 1.9425753641089535e-05,
      "loss": 0.0112,
      "num_input_tokens_seen": 47878856,
      "step": 82505
    },
    {
      "epoch": 12.289246350908549,
      "grad_norm": 0.002452652435749769,
      "learning_rate": 1.9422586069808337e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47881736,
      "step": 82510
    },
    {
      "epoch": 12.28999106344951,
      "grad_norm": 0.13484036922454834,
      "learning_rate": 1.941941859275188e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47884520,
      "step": 82515
    },
    {
      "epoch": 12.290735775990468,
      "grad_norm": 0.001956903375685215,
      "learning_rate": 1.9416251209973672e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47887272,
      "step": 82520
    },
    {
      "epoch": 12.291480488531427,
      "grad_norm": 0.0047593810595571995,
      "learning_rate": 1.941308392152722e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 47890184,
      "step": 82525
    },
    {
      "epoch": 12.292225201072386,
      "grad_norm": 0.0007305472972802818,
      "learning_rate": 1.9409916727466047e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47893096,
      "step": 82530
    },
    {
      "epoch": 12.292969913613344,
      "grad_norm": 0.13173797726631165,
      "learning_rate": 1.9406749627843645e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 47895912,
      "step": 82535
    },
    {
      "epoch": 12.293714626154305,
      "grad_norm": 0.0003374609223101288,
      "learning_rate": 1.940358262271352e-05,
      "loss": 0.0703,
      "num_input_tokens_seen": 47898280,
      "step": 82540
    },
    {
      "epoch": 12.294459338695264,
      "grad_norm": 110.0904541015625,
      "learning_rate": 1.9400415712129184e-05,
      "loss": 0.1314,
      "num_input_tokens_seen": 47901512,
      "step": 82545
    },
    {
      "epoch": 12.295204051236222,
      "grad_norm": 0.005853853654116392,
      "learning_rate": 1.9397248896144127e-05,
      "loss": 0.147,
      "num_input_tokens_seen": 47904136,
      "step": 82550
    },
    {
      "epoch": 12.295948763777181,
      "grad_norm": 0.04785441234707832,
      "learning_rate": 1.939408217481186e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47907656,
      "step": 82555
    },
    {
      "epoch": 12.296693476318142,
      "grad_norm": 0.0014946827432140708,
      "learning_rate": 1.939091554818587e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47910472,
      "step": 82560
    },
    {
      "epoch": 12.2974381888591,
      "grad_norm": 0.017589779570698738,
      "learning_rate": 1.9387749016319673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47913192,
      "step": 82565
    },
    {
      "epoch": 12.29818290140006,
      "grad_norm": 0.0019494910957291722,
      "learning_rate": 1.938458257926675e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 47916008,
      "step": 82570
    },
    {
      "epoch": 12.298927613941018,
      "grad_norm": 0.031255174428224564,
      "learning_rate": 1.9381416237080586e-05,
      "loss": 0.4004,
      "num_input_tokens_seen": 47919208,
      "step": 82575
    },
    {
      "epoch": 12.299672326481979,
      "grad_norm": 0.0015494129620492458,
      "learning_rate": 1.9378249989814697e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47921992,
      "step": 82580
    },
    {
      "epoch": 12.300417039022937,
      "grad_norm": 0.009073592722415924,
      "learning_rate": 1.937508383752255e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 47925064,
      "step": 82585
    },
    {
      "epoch": 12.301161751563896,
      "grad_norm": 0.0018194967415183783,
      "learning_rate": 1.9371917780257657e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 47927688,
      "step": 82590
    },
    {
      "epoch": 12.301906464104855,
      "grad_norm": 0.0033262723591178656,
      "learning_rate": 1.9368751818073476e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47930632,
      "step": 82595
    },
    {
      "epoch": 12.302651176645815,
      "grad_norm": 0.001580809592269361,
      "learning_rate": 1.9365585951023523e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 47933480,
      "step": 82600
    },
    {
      "epoch": 12.303395889186774,
      "grad_norm": 0.0003843624726869166,
      "learning_rate": 1.9362420179161262e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47936168,
      "step": 82605
    },
    {
      "epoch": 12.304140601727733,
      "grad_norm": 0.049146391451358795,
      "learning_rate": 1.935925450254019e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47938760,
      "step": 82610
    },
    {
      "epoch": 12.304885314268692,
      "grad_norm": 7.686717987060547,
      "learning_rate": 1.935608892121378e-05,
      "loss": 0.2923,
      "num_input_tokens_seen": 47941576,
      "step": 82615
    },
    {
      "epoch": 12.305630026809652,
      "grad_norm": 0.03335186466574669,
      "learning_rate": 1.9352923435235505e-05,
      "loss": 0.0445,
      "num_input_tokens_seen": 47944456,
      "step": 82620
    },
    {
      "epoch": 12.30637473935061,
      "grad_norm": 0.0026189982891082764,
      "learning_rate": 1.9349758044658854e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47947336,
      "step": 82625
    },
    {
      "epoch": 12.30711945189157,
      "grad_norm": 0.0035514405462890863,
      "learning_rate": 1.934659274953729e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 47950632,
      "step": 82630
    },
    {
      "epoch": 12.307864164432528,
      "grad_norm": 0.002159561961889267,
      "learning_rate": 1.9343427549924302e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47953800,
      "step": 82635
    },
    {
      "epoch": 12.308608876973489,
      "grad_norm": 0.016887417063117027,
      "learning_rate": 1.9340262445873354e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47956680,
      "step": 82640
    },
    {
      "epoch": 12.309353589514448,
      "grad_norm": 0.007779543288052082,
      "learning_rate": 1.9337097437437924e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47959976,
      "step": 82645
    },
    {
      "epoch": 12.310098302055406,
      "grad_norm": 0.045016974210739136,
      "learning_rate": 1.9333932524671478e-05,
      "loss": 0.0265,
      "num_input_tokens_seen": 47962920,
      "step": 82650
    },
    {
      "epoch": 12.310843014596365,
      "grad_norm": 0.0017819437198340893,
      "learning_rate": 1.933076770762748e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47965768,
      "step": 82655
    },
    {
      "epoch": 12.311587727137326,
      "grad_norm": 0.0005010346649214625,
      "learning_rate": 1.93276029863594e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47968872,
      "step": 82660
    },
    {
      "epoch": 12.312332439678285,
      "grad_norm": 0.0002659283927641809,
      "learning_rate": 1.9324438360920696e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 47971816,
      "step": 82665
    },
    {
      "epoch": 12.313077152219243,
      "grad_norm": 0.003330822102725506,
      "learning_rate": 1.9321273831364847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47974696,
      "step": 82670
    },
    {
      "epoch": 12.313821864760202,
      "grad_norm": 0.004680049605667591,
      "learning_rate": 1.9318109397745295e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 47977608,
      "step": 82675
    },
    {
      "epoch": 12.314566577301163,
      "grad_norm": 97.91854095458984,
      "learning_rate": 1.9314945060115517e-05,
      "loss": 0.2313,
      "num_input_tokens_seen": 47980520,
      "step": 82680
    },
    {
      "epoch": 12.315311289842121,
      "grad_norm": 0.011760548688471317,
      "learning_rate": 1.9311780818528966e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 47983176,
      "step": 82685
    },
    {
      "epoch": 12.31605600238308,
      "grad_norm": 0.0036310218274593353,
      "learning_rate": 1.93086166730391e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47985800,
      "step": 82690
    },
    {
      "epoch": 12.316800714924039,
      "grad_norm": 0.0011749929981306195,
      "learning_rate": 1.9305452623699367e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47988552,
      "step": 82695
    },
    {
      "epoch": 12.317545427465,
      "grad_norm": 0.0035498610232025385,
      "learning_rate": 1.9302288670563215e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47991752,
      "step": 82700
    },
    {
      "epoch": 12.318290140005958,
      "grad_norm": 0.0007194154895842075,
      "learning_rate": 1.9299124813684117e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 47994376,
      "step": 82705
    },
    {
      "epoch": 12.319034852546917,
      "grad_norm": 0.0016891694394871593,
      "learning_rate": 1.92959610531155e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 47997128,
      "step": 82710
    },
    {
      "epoch": 12.319779565087876,
      "grad_norm": 0.0072944615967571735,
      "learning_rate": 1.9292797388910832e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48000136,
      "step": 82715
    },
    {
      "epoch": 12.320524277628834,
      "grad_norm": 0.024252288043498993,
      "learning_rate": 1.928963382112355e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48003112,
      "step": 82720
    },
    {
      "epoch": 12.321268990169795,
      "grad_norm": 0.0002535281528253108,
      "learning_rate": 1.9286470349807108e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48005768,
      "step": 82725
    },
    {
      "epoch": 12.322013702710754,
      "grad_norm": 0.0014684968627989292,
      "learning_rate": 1.9283306975014935e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48008648,
      "step": 82730
    },
    {
      "epoch": 12.322758415251712,
      "grad_norm": 0.00045802482054568827,
      "learning_rate": 1.9280143696800473e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48011400,
      "step": 82735
    },
    {
      "epoch": 12.323503127792671,
      "grad_norm": 0.014851757325232029,
      "learning_rate": 1.9276980515217183e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 48014408,
      "step": 82740
    },
    {
      "epoch": 12.324247840333632,
      "grad_norm": 0.0025645820423960686,
      "learning_rate": 1.927381743031848e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 48017288,
      "step": 82745
    },
    {
      "epoch": 12.32499255287459,
      "grad_norm": 0.005923082120716572,
      "learning_rate": 1.927065444215782e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 48020360,
      "step": 82750
    },
    {
      "epoch": 12.32573726541555,
      "grad_norm": 0.009188218973577023,
      "learning_rate": 1.9267491550788626e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48023144,
      "step": 82755
    },
    {
      "epoch": 12.326481977956508,
      "grad_norm": 0.055028025060892105,
      "learning_rate": 1.926432875626434e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48025928,
      "step": 82760
    },
    {
      "epoch": 12.327226690497469,
      "grad_norm": 0.003760876599699259,
      "learning_rate": 1.926116605863838e-05,
      "loss": 0.0929,
      "num_input_tokens_seen": 48028840,
      "step": 82765
    },
    {
      "epoch": 12.327971403038427,
      "grad_norm": 0.0035489953588694334,
      "learning_rate": 1.9258003457964198e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48031752,
      "step": 82770
    },
    {
      "epoch": 12.328716115579386,
      "grad_norm": 0.003628023434430361,
      "learning_rate": 1.925484095429521e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48034344,
      "step": 82775
    },
    {
      "epoch": 12.329460828120345,
      "grad_norm": 0.02688806876540184,
      "learning_rate": 1.9251678547684836e-05,
      "loss": 0.0241,
      "num_input_tokens_seen": 48037672,
      "step": 82780
    },
    {
      "epoch": 12.330205540661305,
      "grad_norm": 0.0007974645122885704,
      "learning_rate": 1.924851623818652e-05,
      "loss": 0.0163,
      "num_input_tokens_seen": 48040520,
      "step": 82785
    },
    {
      "epoch": 12.330950253202264,
      "grad_norm": 0.006509581580758095,
      "learning_rate": 1.9245354025853673e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48043464,
      "step": 82790
    },
    {
      "epoch": 12.331694965743223,
      "grad_norm": 0.0070649730041623116,
      "learning_rate": 1.9242191910739727e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48046280,
      "step": 82795
    },
    {
      "epoch": 12.332439678284182,
      "grad_norm": 0.0024874135851860046,
      "learning_rate": 1.9239029892898083e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 48049224,
      "step": 82800
    },
    {
      "epoch": 12.333184390825142,
      "grad_norm": 5.776797843282111e-05,
      "learning_rate": 1.9235867972382188e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48052008,
      "step": 82805
    },
    {
      "epoch": 12.333929103366101,
      "grad_norm": 0.0015486006159335375,
      "learning_rate": 1.9232706149245443e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48054888,
      "step": 82810
    },
    {
      "epoch": 12.33467381590706,
      "grad_norm": 0.0064449249766767025,
      "learning_rate": 1.9229544423541254e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 48058216,
      "step": 82815
    },
    {
      "epoch": 12.335418528448018,
      "grad_norm": 0.0017150997882708907,
      "learning_rate": 1.922638279532306e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48060936,
      "step": 82820
    },
    {
      "epoch": 12.336163240988979,
      "grad_norm": 0.007391945458948612,
      "learning_rate": 1.9223221264644253e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 48063976,
      "step": 82825
    },
    {
      "epoch": 12.336907953529938,
      "grad_norm": 0.03486870229244232,
      "learning_rate": 1.922005983155826e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 48066792,
      "step": 82830
    },
    {
      "epoch": 12.337652666070897,
      "grad_norm": 0.00013930948625784367,
      "learning_rate": 1.921689849611847e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 48069608,
      "step": 82835
    },
    {
      "epoch": 12.338397378611855,
      "grad_norm": 0.000791024649515748,
      "learning_rate": 1.921373725837831e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 48072520,
      "step": 82840
    },
    {
      "epoch": 12.339142091152816,
      "grad_norm": 0.0014650748344138265,
      "learning_rate": 1.9210576118391177e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 48075368,
      "step": 82845
    },
    {
      "epoch": 12.339886803693775,
      "grad_norm": 0.004203065764158964,
      "learning_rate": 1.920741507621048e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 48078376,
      "step": 82850
    },
    {
      "epoch": 12.340631516234733,
      "grad_norm": 0.05329665541648865,
      "learning_rate": 1.9204254131889612e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 48081352,
      "step": 82855
    },
    {
      "epoch": 12.341376228775692,
      "grad_norm": 0.00035653833765536547,
      "learning_rate": 1.920109328548198e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48084488,
      "step": 82860
    },
    {
      "epoch": 12.342120941316653,
      "grad_norm": 0.004866714123636484,
      "learning_rate": 1.919793253704099e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48087560,
      "step": 82865
    },
    {
      "epoch": 12.342865653857611,
      "grad_norm": 12.289029121398926,
      "learning_rate": 1.9194771886620023e-05,
      "loss": 0.2532,
      "num_input_tokens_seen": 48090696,
      "step": 82870
    },
    {
      "epoch": 12.34361036639857,
      "grad_norm": 0.002625964814797044,
      "learning_rate": 1.919161133427249e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48093448,
      "step": 82875
    },
    {
      "epoch": 12.344355078939529,
      "grad_norm": 0.00011495608487166464,
      "learning_rate": 1.918845088005178e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48096200,
      "step": 82880
    },
    {
      "epoch": 12.34509979148049,
      "grad_norm": 0.023987948894500732,
      "learning_rate": 1.918529052401129e-05,
      "loss": 0.3286,
      "num_input_tokens_seen": 48099208,
      "step": 82885
    },
    {
      "epoch": 12.345844504021448,
      "grad_norm": 0.007648118771612644,
      "learning_rate": 1.9182130266204396e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48102248,
      "step": 82890
    },
    {
      "epoch": 12.346589216562407,
      "grad_norm": 0.013434548862278461,
      "learning_rate": 1.9178970106684506e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 48104936,
      "step": 82895
    },
    {
      "epoch": 12.347333929103366,
      "grad_norm": 0.0022896658629179,
      "learning_rate": 1.9175810045505006e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 48107592,
      "step": 82900
    },
    {
      "epoch": 12.348078641644324,
      "grad_norm": 0.2051577866077423,
      "learning_rate": 1.917265008271926e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48110504,
      "step": 82905
    },
    {
      "epoch": 12.348823354185285,
      "grad_norm": 0.0004905957612209022,
      "learning_rate": 1.916949021838068e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48113384,
      "step": 82910
    },
    {
      "epoch": 12.349568066726244,
      "grad_norm": 0.08156806230545044,
      "learning_rate": 1.916633045254263e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 48116744,
      "step": 82915
    },
    {
      "epoch": 12.350312779267203,
      "grad_norm": 0.0001585928985150531,
      "learning_rate": 1.9163170785258507e-05,
      "loss": 0.2157,
      "num_input_tokens_seen": 48119560,
      "step": 82920
    },
    {
      "epoch": 12.351057491808161,
      "grad_norm": 0.0021373098716139793,
      "learning_rate": 1.916001121658167e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48122600,
      "step": 82925
    },
    {
      "epoch": 12.351802204349122,
      "grad_norm": 0.003823591163381934,
      "learning_rate": 1.9156851746565514e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48125256,
      "step": 82930
    },
    {
      "epoch": 12.35254691689008,
      "grad_norm": 0.0053857360035181046,
      "learning_rate": 1.9153692375263413e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48127976,
      "step": 82935
    },
    {
      "epoch": 12.35329162943104,
      "grad_norm": 0.008277300745248795,
      "learning_rate": 1.9150533102728728e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48130824,
      "step": 82940
    },
    {
      "epoch": 12.354036341971998,
      "grad_norm": 0.0015874416567385197,
      "learning_rate": 1.914737392901485e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48134056,
      "step": 82945
    },
    {
      "epoch": 12.354781054512959,
      "grad_norm": 0.0005483617424033582,
      "learning_rate": 1.9144214854175136e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48136776,
      "step": 82950
    },
    {
      "epoch": 12.355525767053917,
      "grad_norm": 0.004172442480921745,
      "learning_rate": 1.9141055878262963e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48139464,
      "step": 82955
    },
    {
      "epoch": 12.356270479594876,
      "grad_norm": 0.007470965385437012,
      "learning_rate": 1.913789700133169e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48142408,
      "step": 82960
    },
    {
      "epoch": 12.357015192135835,
      "grad_norm": 0.00015583050844725221,
      "learning_rate": 1.9134738223434697e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48145512,
      "step": 82965
    },
    {
      "epoch": 12.357759904676795,
      "grad_norm": 0.000865254900418222,
      "learning_rate": 1.913157954462533e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48148648,
      "step": 82970
    },
    {
      "epoch": 12.358504617217754,
      "grad_norm": 0.0029003743547946215,
      "learning_rate": 1.9128420964956972e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 48151624,
      "step": 82975
    },
    {
      "epoch": 12.359249329758713,
      "grad_norm": 0.0008522585267201066,
      "learning_rate": 1.912526248448298e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48154568,
      "step": 82980
    },
    {
      "epoch": 12.359994042299672,
      "grad_norm": 0.0037552593275904655,
      "learning_rate": 1.9122104103256693e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 48157416,
      "step": 82985
    },
    {
      "epoch": 12.360738754840632,
      "grad_norm": 15.491630554199219,
      "learning_rate": 1.9118945821331495e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 48160392,
      "step": 82990
    },
    {
      "epoch": 12.361483467381591,
      "grad_norm": 127.31449127197266,
      "learning_rate": 1.9115787638760717e-05,
      "loss": 0.1987,
      "num_input_tokens_seen": 48163208,
      "step": 82995
    },
    {
      "epoch": 12.36222817992255,
      "grad_norm": 0.0004762284515891224,
      "learning_rate": 1.911262955559774e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 48166184,
      "step": 83000
    },
    {
      "epoch": 12.362972892463509,
      "grad_norm": 39.85913848876953,
      "learning_rate": 1.910947157189589e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 48169064,
      "step": 83005
    },
    {
      "epoch": 12.363717605004469,
      "grad_norm": 0.0025884986389428377,
      "learning_rate": 1.9106313687708543e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48171624,
      "step": 83010
    },
    {
      "epoch": 12.364462317545428,
      "grad_norm": 0.0004958658828400075,
      "learning_rate": 1.9103155903089036e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48174408,
      "step": 83015
    },
    {
      "epoch": 12.365207030086387,
      "grad_norm": 0.0025934656150639057,
      "learning_rate": 1.9099998218090707e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48177160,
      "step": 83020
    },
    {
      "epoch": 12.365951742627345,
      "grad_norm": 0.0022311017382889986,
      "learning_rate": 1.9096840632766923e-05,
      "loss": 0.0532,
      "num_input_tokens_seen": 48179880,
      "step": 83025
    },
    {
      "epoch": 12.366696455168306,
      "grad_norm": 104.0426254272461,
      "learning_rate": 1.9093683147171002e-05,
      "loss": 0.0734,
      "num_input_tokens_seen": 48182856,
      "step": 83030
    },
    {
      "epoch": 12.367441167709265,
      "grad_norm": 0.001693808357231319,
      "learning_rate": 1.9090525761356315e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48185832,
      "step": 83035
    },
    {
      "epoch": 12.368185880250223,
      "grad_norm": 0.0025022844783961773,
      "learning_rate": 1.9087368475376176e-05,
      "loss": 0.0705,
      "num_input_tokens_seen": 48188648,
      "step": 83040
    },
    {
      "epoch": 12.368930592791182,
      "grad_norm": 0.003904632292687893,
      "learning_rate": 1.908421128928395e-05,
      "loss": 0.1021,
      "num_input_tokens_seen": 48191560,
      "step": 83045
    },
    {
      "epoch": 12.36967530533214,
      "grad_norm": 0.0006784932338632643,
      "learning_rate": 1.9081054203132955e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48194728,
      "step": 83050
    },
    {
      "epoch": 12.370420017873101,
      "grad_norm": 0.01967073418200016,
      "learning_rate": 1.9077897216976537e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48197448,
      "step": 83055
    },
    {
      "epoch": 12.37116473041406,
      "grad_norm": 0.06311750411987305,
      "learning_rate": 1.907474033086803e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48200136,
      "step": 83060
    },
    {
      "epoch": 12.371909442955019,
      "grad_norm": 0.00040075858123600483,
      "learning_rate": 1.907158354486075e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48202984,
      "step": 83065
    },
    {
      "epoch": 12.37265415549598,
      "grad_norm": 0.0072013153694570065,
      "learning_rate": 1.9068426859008055e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48205896,
      "step": 83070
    },
    {
      "epoch": 12.373398868036938,
      "grad_norm": 0.004983102437108755,
      "learning_rate": 1.9065270273363244e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 48208552,
      "step": 83075
    },
    {
      "epoch": 12.374143580577897,
      "grad_norm": 0.0017918044468387961,
      "learning_rate": 1.9062113787979674e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48211560,
      "step": 83080
    },
    {
      "epoch": 12.374888293118856,
      "grad_norm": 0.002970872214064002,
      "learning_rate": 1.905895740291065e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48214280,
      "step": 83085
    },
    {
      "epoch": 12.375633005659815,
      "grad_norm": 0.0069783651269972324,
      "learning_rate": 1.9055801118209507e-05,
      "loss": 0.2376,
      "num_input_tokens_seen": 48217224,
      "step": 83090
    },
    {
      "epoch": 12.376377718200775,
      "grad_norm": 0.007429416757076979,
      "learning_rate": 1.9052644933929564e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48220168,
      "step": 83095
    },
    {
      "epoch": 12.377122430741734,
      "grad_norm": 0.012527694925665855,
      "learning_rate": 1.9049488850124128e-05,
      "loss": 0.1086,
      "num_input_tokens_seen": 48223080,
      "step": 83100
    },
    {
      "epoch": 12.377867143282693,
      "grad_norm": 0.00048213894478976727,
      "learning_rate": 1.9046332866846544e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48225800,
      "step": 83105
    },
    {
      "epoch": 12.378611855823651,
      "grad_norm": 0.00014019872469361871,
      "learning_rate": 1.90431769841501e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48228680,
      "step": 83110
    },
    {
      "epoch": 12.379356568364612,
      "grad_norm": 0.0033431323245167732,
      "learning_rate": 1.904002120208814e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48231784,
      "step": 83115
    },
    {
      "epoch": 12.38010128090557,
      "grad_norm": 0.0015187814133241773,
      "learning_rate": 1.903686552071396e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48234696,
      "step": 83120
    },
    {
      "epoch": 12.38084599344653,
      "grad_norm": 0.010209925472736359,
      "learning_rate": 1.903370994008088e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48237448,
      "step": 83125
    },
    {
      "epoch": 12.381590705987488,
      "grad_norm": 0.0032169765327125788,
      "learning_rate": 1.9030554460242194e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48240328,
      "step": 83130
    },
    {
      "epoch": 12.382335418528449,
      "grad_norm": 0.006609402596950531,
      "learning_rate": 1.902739908125124e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48242920,
      "step": 83135
    },
    {
      "epoch": 12.383080131069407,
      "grad_norm": 0.000499929185025394,
      "learning_rate": 1.9024243803161304e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48245928,
      "step": 83140
    },
    {
      "epoch": 12.383824843610366,
      "grad_norm": 0.00039540461148135364,
      "learning_rate": 1.9021088626025684e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48248520,
      "step": 83145
    },
    {
      "epoch": 12.384569556151325,
      "grad_norm": 0.003744228044524789,
      "learning_rate": 1.9017933549897706e-05,
      "loss": 0.0772,
      "num_input_tokens_seen": 48251336,
      "step": 83150
    },
    {
      "epoch": 12.385314268692285,
      "grad_norm": 0.0002380364021519199,
      "learning_rate": 1.901477857483066e-05,
      "loss": 0.0511,
      "num_input_tokens_seen": 48254216,
      "step": 83155
    },
    {
      "epoch": 12.386058981233244,
      "grad_norm": 0.008531231433153152,
      "learning_rate": 1.9011623700877845e-05,
      "loss": 0.1318,
      "num_input_tokens_seen": 48257480,
      "step": 83160
    },
    {
      "epoch": 12.386803693774203,
      "grad_norm": 0.0016242278506979346,
      "learning_rate": 1.9008468928092555e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48260424,
      "step": 83165
    },
    {
      "epoch": 12.387548406315162,
      "grad_norm": 0.002831373130902648,
      "learning_rate": 1.9005314256528103e-05,
      "loss": 0.1314,
      "num_input_tokens_seen": 48263336,
      "step": 83170
    },
    {
      "epoch": 12.388293118856122,
      "grad_norm": 0.002202513162046671,
      "learning_rate": 1.9002159686237776e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48266120,
      "step": 83175
    },
    {
      "epoch": 12.389037831397081,
      "grad_norm": 0.013620513491332531,
      "learning_rate": 1.8999005217274857e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48268936,
      "step": 83180
    },
    {
      "epoch": 12.38978254393804,
      "grad_norm": 0.01681232452392578,
      "learning_rate": 1.8995850849692646e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48271592,
      "step": 83185
    },
    {
      "epoch": 12.390527256478999,
      "grad_norm": 0.0031039146706461906,
      "learning_rate": 1.8992696583544434e-05,
      "loss": 0.1573,
      "num_input_tokens_seen": 48274728,
      "step": 83190
    },
    {
      "epoch": 12.391271969019959,
      "grad_norm": 0.0003888665814884007,
      "learning_rate": 1.898954241888351e-05,
      "loss": 0.0268,
      "num_input_tokens_seen": 48277992,
      "step": 83195
    },
    {
      "epoch": 12.392016681560918,
      "grad_norm": 0.0003702167305164039,
      "learning_rate": 1.8986388355763147e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 48280616,
      "step": 83200
    },
    {
      "epoch": 12.392761394101877,
      "grad_norm": 0.0015638276236131787,
      "learning_rate": 1.8983234394236657e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 48283784,
      "step": 83205
    },
    {
      "epoch": 12.393506106642835,
      "grad_norm": 109.67828369140625,
      "learning_rate": 1.8980080534357298e-05,
      "loss": 0.0243,
      "num_input_tokens_seen": 48286632,
      "step": 83210
    },
    {
      "epoch": 12.394250819183796,
      "grad_norm": 0.0038389989640563726,
      "learning_rate": 1.8976926776178366e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48289416,
      "step": 83215
    },
    {
      "epoch": 12.394995531724755,
      "grad_norm": 0.0003652735031209886,
      "learning_rate": 1.8973773119753132e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48292328,
      "step": 83220
    },
    {
      "epoch": 12.395740244265713,
      "grad_norm": 0.0010359588777646422,
      "learning_rate": 1.8970619565134866e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48295016,
      "step": 83225
    },
    {
      "epoch": 12.396484956806672,
      "grad_norm": 0.003438830841332674,
      "learning_rate": 1.896746611237687e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 48298344,
      "step": 83230
    },
    {
      "epoch": 12.397229669347631,
      "grad_norm": 0.039902180433273315,
      "learning_rate": 1.8964312761532388e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48301192,
      "step": 83235
    },
    {
      "epoch": 12.397974381888591,
      "grad_norm": 0.001142806955613196,
      "learning_rate": 1.896115951265472e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48304456,
      "step": 83240
    },
    {
      "epoch": 12.39871909442955,
      "grad_norm": 0.038363099098205566,
      "learning_rate": 1.8958006365797118e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 48307368,
      "step": 83245
    },
    {
      "epoch": 12.399463806970509,
      "grad_norm": 0.020526845008134842,
      "learning_rate": 1.8954853321012865e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48310344,
      "step": 83250
    },
    {
      "epoch": 12.400208519511468,
      "grad_norm": 0.013099110685288906,
      "learning_rate": 1.8951700378355218e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48313128,
      "step": 83255
    },
    {
      "epoch": 12.400953232052428,
      "grad_norm": 0.00025471820845268667,
      "learning_rate": 1.8948547537877436e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48316040,
      "step": 83260
    },
    {
      "epoch": 12.401697944593387,
      "grad_norm": 3.3593673706054688,
      "learning_rate": 1.8945394799632804e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 48318984,
      "step": 83265
    },
    {
      "epoch": 12.402442657134346,
      "grad_norm": 0.0006968915113247931,
      "learning_rate": 1.8942242163674563e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48322088,
      "step": 83270
    },
    {
      "epoch": 12.403187369675305,
      "grad_norm": 0.0048263659700751305,
      "learning_rate": 1.8939089630055994e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48325064,
      "step": 83275
    },
    {
      "epoch": 12.403932082216265,
      "grad_norm": 2.8752970695495605,
      "learning_rate": 1.8935937198830343e-05,
      "loss": 0.2576,
      "num_input_tokens_seen": 48328040,
      "step": 83280
    },
    {
      "epoch": 12.404676794757224,
      "grad_norm": 0.007085728459060192,
      "learning_rate": 1.893278487005087e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48331048,
      "step": 83285
    },
    {
      "epoch": 12.405421507298183,
      "grad_norm": 0.00019124468963127583,
      "learning_rate": 1.8929632643770824e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48334056,
      "step": 83290
    },
    {
      "epoch": 12.406166219839141,
      "grad_norm": 0.0019416653085500002,
      "learning_rate": 1.8926480520043472e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 48336744,
      "step": 83295
    },
    {
      "epoch": 12.406910932380102,
      "grad_norm": 0.0003310469619464129,
      "learning_rate": 1.892332849892206e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 48339400,
      "step": 83300
    },
    {
      "epoch": 12.40765564492106,
      "grad_norm": 0.002708092099055648,
      "learning_rate": 1.8920176580459827e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 48342536,
      "step": 83305
    },
    {
      "epoch": 12.40840035746202,
      "grad_norm": 0.708231508731842,
      "learning_rate": 1.8917024764710043e-05,
      "loss": 0.0384,
      "num_input_tokens_seen": 48345416,
      "step": 83310
    },
    {
      "epoch": 12.409145070002978,
      "grad_norm": 39.52511978149414,
      "learning_rate": 1.8913873051725935e-05,
      "loss": 0.7469,
      "num_input_tokens_seen": 48348392,
      "step": 83315
    },
    {
      "epoch": 12.409889782543939,
      "grad_norm": 44.723289489746094,
      "learning_rate": 1.8910721441560765e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 48351144,
      "step": 83320
    },
    {
      "epoch": 12.410634495084897,
      "grad_norm": 0.0003536437579896301,
      "learning_rate": 1.8907569934267756e-05,
      "loss": 0.1314,
      "num_input_tokens_seen": 48353672,
      "step": 83325
    },
    {
      "epoch": 12.411379207625856,
      "grad_norm": 0.007451576180756092,
      "learning_rate": 1.890441852990017e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48356552,
      "step": 83330
    },
    {
      "epoch": 12.412123920166815,
      "grad_norm": 0.0024327924475073814,
      "learning_rate": 1.890126722851124e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48359720,
      "step": 83335
    },
    {
      "epoch": 12.412868632707776,
      "grad_norm": 0.0010318525601178408,
      "learning_rate": 1.8898116030154185e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 48362728,
      "step": 83340
    },
    {
      "epoch": 12.413613345248734,
      "grad_norm": 0.0030971341766417027,
      "learning_rate": 1.8894964934882274e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48365576,
      "step": 83345
    },
    {
      "epoch": 12.414358057789693,
      "grad_norm": 0.007523199077695608,
      "learning_rate": 1.8891813942748717e-05,
      "loss": 0.2094,
      "num_input_tokens_seen": 48368520,
      "step": 83350
    },
    {
      "epoch": 12.415102770330652,
      "grad_norm": 146.7873992919922,
      "learning_rate": 1.8888663053806765e-05,
      "loss": 0.0995,
      "num_input_tokens_seen": 48371368,
      "step": 83355
    },
    {
      "epoch": 12.415847482871612,
      "grad_norm": 0.0032975932117551565,
      "learning_rate": 1.8885512268109625e-05,
      "loss": 0.0793,
      "num_input_tokens_seen": 48374536,
      "step": 83360
    },
    {
      "epoch": 12.416592195412571,
      "grad_norm": 0.0029834650922566652,
      "learning_rate": 1.8882361585710554e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48377512,
      "step": 83365
    },
    {
      "epoch": 12.41733690795353,
      "grad_norm": 0.0034945583902299404,
      "learning_rate": 1.887921100666275e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 48380328,
      "step": 83370
    },
    {
      "epoch": 12.418081620494489,
      "grad_norm": 0.1537514477968216,
      "learning_rate": 1.8876060531019474e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48383304,
      "step": 83375
    },
    {
      "epoch": 12.41882633303545,
      "grad_norm": 0.03065166063606739,
      "learning_rate": 1.887291015883393e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48386152,
      "step": 83380
    },
    {
      "epoch": 12.419571045576408,
      "grad_norm": 0.006551932077854872,
      "learning_rate": 1.8869759890159333e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48388776,
      "step": 83385
    },
    {
      "epoch": 12.420315758117367,
      "grad_norm": 0.0044295648112893105,
      "learning_rate": 1.8866609725048918e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 48391336,
      "step": 83390
    },
    {
      "epoch": 12.421060470658325,
      "grad_norm": 82.57355499267578,
      "learning_rate": 1.8863459663555885e-05,
      "loss": 0.1376,
      "num_input_tokens_seen": 48394056,
      "step": 83395
    },
    {
      "epoch": 12.421805183199286,
      "grad_norm": 0.010778396390378475,
      "learning_rate": 1.8860309705733477e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48397256,
      "step": 83400
    },
    {
      "epoch": 12.422549895740245,
      "grad_norm": 0.003751276293769479,
      "learning_rate": 1.8857159851634888e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48400296,
      "step": 83405
    },
    {
      "epoch": 12.423294608281203,
      "grad_norm": 0.0065123653039336205,
      "learning_rate": 1.885401010131335e-05,
      "loss": 0.0854,
      "num_input_tokens_seen": 48403304,
      "step": 83410
    },
    {
      "epoch": 12.424039320822162,
      "grad_norm": 0.0032414651941508055,
      "learning_rate": 1.8850860454822056e-05,
      "loss": 0.2438,
      "num_input_tokens_seen": 48406216,
      "step": 83415
    },
    {
      "epoch": 12.424784033363121,
      "grad_norm": 0.4597235321998596,
      "learning_rate": 1.8847710912214233e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48409224,
      "step": 83420
    },
    {
      "epoch": 12.425528745904082,
      "grad_norm": 1.7731125354766846,
      "learning_rate": 1.8844561473543082e-05,
      "loss": 0.1821,
      "num_input_tokens_seen": 48411976,
      "step": 83425
    },
    {
      "epoch": 12.42627345844504,
      "grad_norm": 0.00769629655405879,
      "learning_rate": 1.8841412138861797e-05,
      "loss": 0.1155,
      "num_input_tokens_seen": 48414952,
      "step": 83430
    },
    {
      "epoch": 12.427018170985999,
      "grad_norm": 140.44393920898438,
      "learning_rate": 1.8838262908223602e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 48417736,
      "step": 83435
    },
    {
      "epoch": 12.427762883526958,
      "grad_norm": 0.003912042826414108,
      "learning_rate": 1.8835113781681686e-05,
      "loss": 0.0213,
      "num_input_tokens_seen": 48420456,
      "step": 83440
    },
    {
      "epoch": 12.428507596067918,
      "grad_norm": 1.2305454015731812,
      "learning_rate": 1.8831964759289265e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48423144,
      "step": 83445
    },
    {
      "epoch": 12.429252308608877,
      "grad_norm": 0.013763281516730785,
      "learning_rate": 1.8828815841099528e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48426056,
      "step": 83450
    },
    {
      "epoch": 12.429997021149836,
      "grad_norm": 0.002249406883493066,
      "learning_rate": 1.882566702716568e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48428872,
      "step": 83455
    },
    {
      "epoch": 12.430741733690795,
      "grad_norm": 0.01961040496826172,
      "learning_rate": 1.8822518317540913e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48432040,
      "step": 83460
    },
    {
      "epoch": 12.431486446231755,
      "grad_norm": 108.44232177734375,
      "learning_rate": 1.8819369712278408e-05,
      "loss": 0.0311,
      "num_input_tokens_seen": 48434920,
      "step": 83465
    },
    {
      "epoch": 12.432231158772714,
      "grad_norm": 0.005545824766159058,
      "learning_rate": 1.8816221211431382e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48437928,
      "step": 83470
    },
    {
      "epoch": 12.432975871313673,
      "grad_norm": 0.0075868577696383,
      "learning_rate": 1.8813072815053003e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48441224,
      "step": 83475
    },
    {
      "epoch": 12.433720583854631,
      "grad_norm": 0.0018323148833587766,
      "learning_rate": 1.880992452319648e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48443880,
      "step": 83480
    },
    {
      "epoch": 12.434465296395592,
      "grad_norm": 0.016933614388108253,
      "learning_rate": 1.8806776335914986e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48446856,
      "step": 83485
    },
    {
      "epoch": 12.43521000893655,
      "grad_norm": 0.0034889287780970335,
      "learning_rate": 1.8803628253261717e-05,
      "loss": 0.0505,
      "num_input_tokens_seen": 48449576,
      "step": 83490
    },
    {
      "epoch": 12.43595472147751,
      "grad_norm": 0.0024939528666436672,
      "learning_rate": 1.880048027528984e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48452392,
      "step": 83495
    },
    {
      "epoch": 12.436699434018468,
      "grad_norm": 0.00209970586001873,
      "learning_rate": 1.879733240205256e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 48455304,
      "step": 83500
    },
    {
      "epoch": 12.437444146559429,
      "grad_norm": 0.0003725689311977476,
      "learning_rate": 1.879418463360304e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48458120,
      "step": 83505
    },
    {
      "epoch": 12.438188859100388,
      "grad_norm": 0.0002405190753052011,
      "learning_rate": 1.8791036969994462e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48460680,
      "step": 83510
    },
    {
      "epoch": 12.438933571641346,
      "grad_norm": 0.008974513970315456,
      "learning_rate": 1.8787889411280005e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48463624,
      "step": 83515
    },
    {
      "epoch": 12.439678284182305,
      "grad_norm": 0.0031742171850055456,
      "learning_rate": 1.8784741957512842e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48466600,
      "step": 83520
    },
    {
      "epoch": 12.440422996723266,
      "grad_norm": 0.07008470594882965,
      "learning_rate": 1.878159460874615e-05,
      "loss": 0.136,
      "num_input_tokens_seen": 48469544,
      "step": 83525
    },
    {
      "epoch": 12.441167709264224,
      "grad_norm": 39.26056671142578,
      "learning_rate": 1.8778447365033085e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 48472744,
      "step": 83530
    },
    {
      "epoch": 12.441912421805183,
      "grad_norm": 0.005653333384543657,
      "learning_rate": 1.877530022642684e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48475720,
      "step": 83535
    },
    {
      "epoch": 12.442657134346142,
      "grad_norm": 0.003142205299809575,
      "learning_rate": 1.8772153192980578e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 48478600,
      "step": 83540
    },
    {
      "epoch": 12.443401846887102,
      "grad_norm": 0.08567117154598236,
      "learning_rate": 1.8769006264747445e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48481416,
      "step": 83545
    },
    {
      "epoch": 12.444146559428061,
      "grad_norm": 0.012195638380944729,
      "learning_rate": 1.8765859441780625e-05,
      "loss": 0.0454,
      "num_input_tokens_seen": 48484328,
      "step": 83550
    },
    {
      "epoch": 12.44489127196902,
      "grad_norm": 0.3191283643245697,
      "learning_rate": 1.8762712724133266e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 48487144,
      "step": 83555
    },
    {
      "epoch": 12.445635984509979,
      "grad_norm": 0.001712026190944016,
      "learning_rate": 1.8759566111858544e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48489960,
      "step": 83560
    },
    {
      "epoch": 12.44638069705094,
      "grad_norm": 0.000900073500815779,
      "learning_rate": 1.87564196050096e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48493576,
      "step": 83565
    },
    {
      "epoch": 12.447125409591898,
      "grad_norm": 0.005244923289865255,
      "learning_rate": 1.8753273203639614e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48496296,
      "step": 83570
    },
    {
      "epoch": 12.447870122132857,
      "grad_norm": 0.41266265511512756,
      "learning_rate": 1.875012690780172e-05,
      "loss": 0.1915,
      "num_input_tokens_seen": 48498984,
      "step": 83575
    },
    {
      "epoch": 12.448614834673815,
      "grad_norm": 0.0001487482659285888,
      "learning_rate": 1.8746980717549088e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48502280,
      "step": 83580
    },
    {
      "epoch": 12.449359547214776,
      "grad_norm": 0.005454394035041332,
      "learning_rate": 1.8743834632934858e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48505096,
      "step": 83585
    },
    {
      "epoch": 12.450104259755735,
      "grad_norm": 0.001859965268522501,
      "learning_rate": 1.8740688654012172e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48507944,
      "step": 83590
    },
    {
      "epoch": 12.450848972296694,
      "grad_norm": 0.004705550614744425,
      "learning_rate": 1.8737542780834205e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48510888,
      "step": 83595
    },
    {
      "epoch": 12.451593684837652,
      "grad_norm": 0.0004569084558170289,
      "learning_rate": 1.8734397013454075e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 48513640,
      "step": 83600
    },
    {
      "epoch": 12.452338397378611,
      "grad_norm": 19.98135757446289,
      "learning_rate": 1.873125135192495e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 48516552,
      "step": 83605
    },
    {
      "epoch": 12.453083109919572,
      "grad_norm": 0.011505787260830402,
      "learning_rate": 1.8728105796299954e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48519304,
      "step": 83610
    },
    {
      "epoch": 12.45382782246053,
      "grad_norm": 0.007409479469060898,
      "learning_rate": 1.8724960346632247e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48522056,
      "step": 83615
    },
    {
      "epoch": 12.454572535001489,
      "grad_norm": 0.008103941567242146,
      "learning_rate": 1.8721815002974954e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48524776,
      "step": 83620
    },
    {
      "epoch": 12.455317247542448,
      "grad_norm": 0.032015882432460785,
      "learning_rate": 1.8718669765381207e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 48527784,
      "step": 83625
    },
    {
      "epoch": 12.456061960083408,
      "grad_norm": 0.0016419906169176102,
      "learning_rate": 1.8715524633904157e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48530696,
      "step": 83630
    },
    {
      "epoch": 12.456806672624367,
      "grad_norm": 0.0033474601805210114,
      "learning_rate": 1.8712379608596926e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48533800,
      "step": 83635
    },
    {
      "epoch": 12.457551385165326,
      "grad_norm": 0.00022070006525609642,
      "learning_rate": 1.8709234689512656e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48536744,
      "step": 83640
    },
    {
      "epoch": 12.458296097706285,
      "grad_norm": 0.2816358804702759,
      "learning_rate": 1.8706089876704468e-05,
      "loss": 0.0546,
      "num_input_tokens_seen": 48539496,
      "step": 83645
    },
    {
      "epoch": 12.459040810247245,
      "grad_norm": 0.009681117720901966,
      "learning_rate": 1.8702945170225504e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48542152,
      "step": 83650
    },
    {
      "epoch": 12.459785522788204,
      "grad_norm": 0.33388081192970276,
      "learning_rate": 1.8699800570128868e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48545032,
      "step": 83655
    },
    {
      "epoch": 12.460530235329163,
      "grad_norm": 2.767784595489502,
      "learning_rate": 1.8696656076467705e-05,
      "loss": 0.2139,
      "num_input_tokens_seen": 48547912,
      "step": 83660
    },
    {
      "epoch": 12.461274947870121,
      "grad_norm": 0.002751011634245515,
      "learning_rate": 1.8693511689295138e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 48550888,
      "step": 83665
    },
    {
      "epoch": 12.462019660411082,
      "grad_norm": 44.54401779174805,
      "learning_rate": 1.8690367408664265e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 48553768,
      "step": 83670
    },
    {
      "epoch": 12.46276437295204,
      "grad_norm": 0.0009822803549468517,
      "learning_rate": 1.8687223234628237e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48556648,
      "step": 83675
    },
    {
      "epoch": 12.463509085493,
      "grad_norm": 0.0042040529660880566,
      "learning_rate": 1.868407916724015e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48559656,
      "step": 83680
    },
    {
      "epoch": 12.464253798033958,
      "grad_norm": 124.28813934326172,
      "learning_rate": 1.868093520655313e-05,
      "loss": 0.4552,
      "num_input_tokens_seen": 48562664,
      "step": 83685
    },
    {
      "epoch": 12.464998510574919,
      "grad_norm": 0.2123078554868698,
      "learning_rate": 1.8677791352620278e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 48565736,
      "step": 83690
    },
    {
      "epoch": 12.465743223115878,
      "grad_norm": 0.0729583129286766,
      "learning_rate": 1.8674647605494727e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48568584,
      "step": 83695
    },
    {
      "epoch": 12.466487935656836,
      "grad_norm": 0.00599982775747776,
      "learning_rate": 1.8671503965229572e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 48571368,
      "step": 83700
    },
    {
      "epoch": 12.467232648197795,
      "grad_norm": 0.014973802492022514,
      "learning_rate": 1.8668360431877918e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 48574216,
      "step": 83705
    },
    {
      "epoch": 12.467977360738756,
      "grad_norm": 2.5075466632843018,
      "learning_rate": 1.8665217005492892e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 48577448,
      "step": 83710
    },
    {
      "epoch": 12.468722073279714,
      "grad_norm": 0.00326565676368773,
      "learning_rate": 1.8662073686127575e-05,
      "loss": 0.0608,
      "num_input_tokens_seen": 48580488,
      "step": 83715
    },
    {
      "epoch": 12.469466785820673,
      "grad_norm": 36.955631256103516,
      "learning_rate": 1.865893047383509e-05,
      "loss": 0.1237,
      "num_input_tokens_seen": 48583368,
      "step": 83720
    },
    {
      "epoch": 12.470211498361632,
      "grad_norm": 49.745967864990234,
      "learning_rate": 1.865578736866852e-05,
      "loss": 0.0311,
      "num_input_tokens_seen": 48586248,
      "step": 83725
    },
    {
      "epoch": 12.470956210902592,
      "grad_norm": 0.02555592730641365,
      "learning_rate": 1.8652644370680986e-05,
      "loss": 0.0855,
      "num_input_tokens_seen": 48589384,
      "step": 83730
    },
    {
      "epoch": 12.471700923443551,
      "grad_norm": 0.3571699261665344,
      "learning_rate": 1.8649501479925562e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48592200,
      "step": 83735
    },
    {
      "epoch": 12.47244563598451,
      "grad_norm": 0.0037796201650053263,
      "learning_rate": 1.8646358696455365e-05,
      "loss": 0.2033,
      "num_input_tokens_seen": 48595144,
      "step": 83740
    },
    {
      "epoch": 12.473190348525469,
      "grad_norm": 0.014756097458302975,
      "learning_rate": 1.8643216020323483e-05,
      "loss": 0.2002,
      "num_input_tokens_seen": 48597736,
      "step": 83745
    },
    {
      "epoch": 12.473935061066427,
      "grad_norm": 0.0008086846210062504,
      "learning_rate": 1.8640073451583003e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48600456,
      "step": 83750
    },
    {
      "epoch": 12.474679773607388,
      "grad_norm": 0.004768986254930496,
      "learning_rate": 1.8636930990287015e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48603496,
      "step": 83755
    },
    {
      "epoch": 12.475424486148347,
      "grad_norm": 0.0021720994263887405,
      "learning_rate": 1.8633788636488605e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48606280,
      "step": 83760
    },
    {
      "epoch": 12.476169198689306,
      "grad_norm": 0.0002781495568342507,
      "learning_rate": 1.8630646390240876e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48608872,
      "step": 83765
    },
    {
      "epoch": 12.476913911230264,
      "grad_norm": 0.006283820606768131,
      "learning_rate": 1.8627504251596895e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48611816,
      "step": 83770
    },
    {
      "epoch": 12.477658623771225,
      "grad_norm": 0.003017753828316927,
      "learning_rate": 1.862436222060976e-05,
      "loss": 0.0289,
      "num_input_tokens_seen": 48614888,
      "step": 83775
    },
    {
      "epoch": 12.478403336312184,
      "grad_norm": 3.757343053817749,
      "learning_rate": 1.8621220297332544e-05,
      "loss": 0.1495,
      "num_input_tokens_seen": 48617736,
      "step": 83780
    },
    {
      "epoch": 12.479148048853142,
      "grad_norm": 0.06252852082252502,
      "learning_rate": 1.8618078481818324e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48620584,
      "step": 83785
    },
    {
      "epoch": 12.479892761394101,
      "grad_norm": 0.0013061880599707365,
      "learning_rate": 1.861493677412019e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48623304,
      "step": 83790
    },
    {
      "epoch": 12.480637473935062,
      "grad_norm": 0.008744856342673302,
      "learning_rate": 1.8611795174291198e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48626440,
      "step": 83795
    },
    {
      "epoch": 12.48138218647602,
      "grad_norm": 0.0033859892282634974,
      "learning_rate": 1.8608653682384442e-05,
      "loss": 0.0068,
      "num_input_tokens_seen": 48629256,
      "step": 83800
    },
    {
      "epoch": 12.48212689901698,
      "grad_norm": 0.022153040394186974,
      "learning_rate": 1.8605512298452977e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48632200,
      "step": 83805
    },
    {
      "epoch": 12.482871611557938,
      "grad_norm": 0.000665043480694294,
      "learning_rate": 1.8602371022549895e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48634792,
      "step": 83810
    },
    {
      "epoch": 12.483616324098898,
      "grad_norm": 0.0009607524261809886,
      "learning_rate": 1.8599229854728244e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48637736,
      "step": 83815
    },
    {
      "epoch": 12.484361036639857,
      "grad_norm": 10.386728286743164,
      "learning_rate": 1.8596088795041106e-05,
      "loss": 0.261,
      "num_input_tokens_seen": 48640552,
      "step": 83820
    },
    {
      "epoch": 12.485105749180816,
      "grad_norm": 0.02759651467204094,
      "learning_rate": 1.859294784354154e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48643592,
      "step": 83825
    },
    {
      "epoch": 12.485850461721775,
      "grad_norm": 0.024923834949731827,
      "learning_rate": 1.8589807000282592e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 48646632,
      "step": 83830
    },
    {
      "epoch": 12.486595174262735,
      "grad_norm": 0.007619320880621672,
      "learning_rate": 1.858666626531736e-05,
      "loss": 0.049,
      "num_input_tokens_seen": 48649736,
      "step": 83835
    },
    {
      "epoch": 12.487339886803694,
      "grad_norm": 0.03039472922682762,
      "learning_rate": 1.8583525638698873e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48652808,
      "step": 83840
    },
    {
      "epoch": 12.488084599344653,
      "grad_norm": 0.0010102036176249385,
      "learning_rate": 1.85803851204802e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48655720,
      "step": 83845
    },
    {
      "epoch": 12.488829311885612,
      "grad_norm": 0.001731306198053062,
      "learning_rate": 1.857724471071439e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48658408,
      "step": 83850
    },
    {
      "epoch": 12.489574024426572,
      "grad_norm": 0.0075433519668877125,
      "learning_rate": 1.8574104409454514e-05,
      "loss": 0.019,
      "num_input_tokens_seen": 48661160,
      "step": 83855
    },
    {
      "epoch": 12.49031873696753,
      "grad_norm": 0.02399393543601036,
      "learning_rate": 1.857096421675361e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48664040,
      "step": 83860
    },
    {
      "epoch": 12.49106344950849,
      "grad_norm": 0.0009066755883395672,
      "learning_rate": 1.8567824132664724e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48666952,
      "step": 83865
    },
    {
      "epoch": 12.491808162049448,
      "grad_norm": 58.23407745361328,
      "learning_rate": 1.856468415724092e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 48670248,
      "step": 83870
    },
    {
      "epoch": 12.492552874590409,
      "grad_norm": 137.36375427246094,
      "learning_rate": 1.8561544290535234e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 48673224,
      "step": 83875
    },
    {
      "epoch": 12.493297587131368,
      "grad_norm": 0.00177279906347394,
      "learning_rate": 1.8558404532600717e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48676104,
      "step": 83880
    },
    {
      "epoch": 12.494042299672326,
      "grad_norm": 0.001239824341610074,
      "learning_rate": 1.8555264883490397e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48678920,
      "step": 83885
    },
    {
      "epoch": 12.494787012213285,
      "grad_norm": 0.022260989993810654,
      "learning_rate": 1.8552125343257337e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48681704,
      "step": 83890
    },
    {
      "epoch": 12.495531724754246,
      "grad_norm": 0.00265337061136961,
      "learning_rate": 1.8548985911954557e-05,
      "loss": 0.2251,
      "num_input_tokens_seen": 48684456,
      "step": 83895
    },
    {
      "epoch": 12.496276437295204,
      "grad_norm": 0.007038947194814682,
      "learning_rate": 1.8545846589635115e-05,
      "loss": 0.1539,
      "num_input_tokens_seen": 48687240,
      "step": 83900
    },
    {
      "epoch": 12.497021149836163,
      "grad_norm": 0.002594209276139736,
      "learning_rate": 1.8542707376352033e-05,
      "loss": 0.2321,
      "num_input_tokens_seen": 48690344,
      "step": 83905
    },
    {
      "epoch": 12.497765862377122,
      "grad_norm": 0.03276251256465912,
      "learning_rate": 1.853956827215834e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48693224,
      "step": 83910
    },
    {
      "epoch": 12.498510574918082,
      "grad_norm": 0.0010681134881451726,
      "learning_rate": 1.8536429277107086e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48695976,
      "step": 83915
    },
    {
      "epoch": 12.499255287459041,
      "grad_norm": 0.2444799840450287,
      "learning_rate": 1.8533290391251278e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48698984,
      "step": 83920
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.002377868164330721,
      "learning_rate": 1.8530151614643966e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 48701800,
      "step": 83925
    },
    {
      "epoch": 12.500744712540959,
      "grad_norm": 0.0011638690484687686,
      "learning_rate": 1.8527012947338155e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48704648,
      "step": 83930
    },
    {
      "epoch": 12.501489425081918,
      "grad_norm": 0.0009998561581596732,
      "learning_rate": 1.852387438938689e-05,
      "loss": 0.2755,
      "num_input_tokens_seen": 48707144,
      "step": 83935
    },
    {
      "epoch": 12.502234137622878,
      "grad_norm": 0.013973353430628777,
      "learning_rate": 1.8520735940843187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48709864,
      "step": 83940
    },
    {
      "epoch": 12.502978850163837,
      "grad_norm": 0.0211954228579998,
      "learning_rate": 1.8517597601760062e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48712744,
      "step": 83945
    },
    {
      "epoch": 12.503723562704796,
      "grad_norm": 0.005876930430531502,
      "learning_rate": 1.851445937219054e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48715368,
      "step": 83950
    },
    {
      "epoch": 12.504468275245754,
      "grad_norm": 0.004226400516927242,
      "learning_rate": 1.8511321252187625e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48718376,
      "step": 83955
    },
    {
      "epoch": 12.505212987786715,
      "grad_norm": 44.21851348876953,
      "learning_rate": 1.8508183241804356e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 48721352,
      "step": 83960
    },
    {
      "epoch": 12.505957700327674,
      "grad_norm": 0.020160946995019913,
      "learning_rate": 1.850504534109372e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 48724104,
      "step": 83965
    },
    {
      "epoch": 12.506702412868632,
      "grad_norm": 0.009157304652035236,
      "learning_rate": 1.8501907550108752e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48726952,
      "step": 83970
    },
    {
      "epoch": 12.507447125409591,
      "grad_norm": 0.002782706171274185,
      "learning_rate": 1.8498769868902445e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48729896,
      "step": 83975
    },
    {
      "epoch": 12.508191837950552,
      "grad_norm": 0.426145076751709,
      "learning_rate": 1.849563229752782e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 48732584,
      "step": 83980
    },
    {
      "epoch": 12.50893655049151,
      "grad_norm": 0.08417263627052307,
      "learning_rate": 1.849249483603788e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48735400,
      "step": 83985
    },
    {
      "epoch": 12.50968126303247,
      "grad_norm": 5.296656608581543,
      "learning_rate": 1.8489357484485616e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48738280,
      "step": 83990
    },
    {
      "epoch": 12.510425975573428,
      "grad_norm": 66.71478271484375,
      "learning_rate": 1.8486220242924042e-05,
      "loss": 0.3176,
      "num_input_tokens_seen": 48741160,
      "step": 83995
    },
    {
      "epoch": 12.511170688114388,
      "grad_norm": 0.0023834032472223043,
      "learning_rate": 1.8483083111406154e-05,
      "loss": 0.1078,
      "num_input_tokens_seen": 48744040,
      "step": 84000
    },
    {
      "epoch": 12.511915400655347,
      "grad_norm": 0.10937456786632538,
      "learning_rate": 1.8479946089984963e-05,
      "loss": 0.3282,
      "num_input_tokens_seen": 48746600,
      "step": 84005
    },
    {
      "epoch": 12.512660113196306,
      "grad_norm": 0.0009553353302180767,
      "learning_rate": 1.8476809178713446e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48749128,
      "step": 84010
    },
    {
      "epoch": 12.513404825737265,
      "grad_norm": 0.0019289423944428563,
      "learning_rate": 1.8473672377644617e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 48752072,
      "step": 84015
    },
    {
      "epoch": 12.514149538278225,
      "grad_norm": 0.007600047159940004,
      "learning_rate": 1.8470535686831446e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48754632,
      "step": 84020
    },
    {
      "epoch": 12.514894250819184,
      "grad_norm": 0.02272656373679638,
      "learning_rate": 1.8467399106326954e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 48757608,
      "step": 84025
    },
    {
      "epoch": 12.515638963360143,
      "grad_norm": 0.007192113436758518,
      "learning_rate": 1.8464262636184117e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 48760584,
      "step": 84030
    },
    {
      "epoch": 12.516383675901102,
      "grad_norm": 0.002614652505144477,
      "learning_rate": 1.8461126276455904e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48763496,
      "step": 84035
    },
    {
      "epoch": 12.517128388442062,
      "grad_norm": 0.005173861514776945,
      "learning_rate": 1.8457990027195325e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48766600,
      "step": 84040
    },
    {
      "epoch": 12.51787310098302,
      "grad_norm": 0.00236849975772202,
      "learning_rate": 1.8454853888455352e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 48769416,
      "step": 84045
    },
    {
      "epoch": 12.51861781352398,
      "grad_norm": 0.031299665570259094,
      "learning_rate": 1.845171786028898e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48772520,
      "step": 84050
    },
    {
      "epoch": 12.519362526064938,
      "grad_norm": 0.018429482355713844,
      "learning_rate": 1.8448581942749167e-05,
      "loss": 0.0318,
      "num_input_tokens_seen": 48775688,
      "step": 84055
    },
    {
      "epoch": 12.520107238605899,
      "grad_norm": 0.16868214309215546,
      "learning_rate": 1.844544613588891e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48778632,
      "step": 84060
    },
    {
      "epoch": 12.520851951146858,
      "grad_norm": 8.83303165435791,
      "learning_rate": 1.8442310439761185e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 48781544,
      "step": 84065
    },
    {
      "epoch": 12.521596663687816,
      "grad_norm": 0.03273327276110649,
      "learning_rate": 1.8439174854418946e-05,
      "loss": 0.0159,
      "num_input_tokens_seen": 48784328,
      "step": 84070
    },
    {
      "epoch": 12.522341376228775,
      "grad_norm": 0.025499295443296432,
      "learning_rate": 1.843603937991519e-05,
      "loss": 0.2749,
      "num_input_tokens_seen": 48786792,
      "step": 84075
    },
    {
      "epoch": 12.523086088769734,
      "grad_norm": 0.0014742769999429584,
      "learning_rate": 1.8432904016302872e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48789736,
      "step": 84080
    },
    {
      "epoch": 12.523830801310694,
      "grad_norm": 0.003146273083984852,
      "learning_rate": 1.8429768763634974e-05,
      "loss": 0.021,
      "num_input_tokens_seen": 48792840,
      "step": 84085
    },
    {
      "epoch": 12.524575513851653,
      "grad_norm": 0.005659828428179026,
      "learning_rate": 1.8426633621964443e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48795528,
      "step": 84090
    },
    {
      "epoch": 12.525320226392612,
      "grad_norm": 25.923736572265625,
      "learning_rate": 1.8423498591344267e-05,
      "loss": 0.2371,
      "num_input_tokens_seen": 48798184,
      "step": 84095
    },
    {
      "epoch": 12.526064938933573,
      "grad_norm": 0.016096195206046104,
      "learning_rate": 1.8420363671827387e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48801064,
      "step": 84100
    },
    {
      "epoch": 12.526809651474531,
      "grad_norm": 0.004283889662474394,
      "learning_rate": 1.8417228863466786e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48803848,
      "step": 84105
    },
    {
      "epoch": 12.52755436401549,
      "grad_norm": 13.8685884475708,
      "learning_rate": 1.841409416631541e-05,
      "loss": 0.0167,
      "num_input_tokens_seen": 48806696,
      "step": 84110
    },
    {
      "epoch": 12.528299076556449,
      "grad_norm": 0.008582169190049171,
      "learning_rate": 1.8410959580426222e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 48810152,
      "step": 84115
    },
    {
      "epoch": 12.529043789097408,
      "grad_norm": 31.18876838684082,
      "learning_rate": 1.8407825105852175e-05,
      "loss": 0.2064,
      "num_input_tokens_seen": 48813160,
      "step": 84120
    },
    {
      "epoch": 12.529788501638368,
      "grad_norm": 0.024082457646727562,
      "learning_rate": 1.8404690742646212e-05,
      "loss": 0.1315,
      "num_input_tokens_seen": 48816072,
      "step": 84125
    },
    {
      "epoch": 12.530533214179327,
      "grad_norm": 0.006255239248275757,
      "learning_rate": 1.840155649086131e-05,
      "loss": 0.1877,
      "num_input_tokens_seen": 48818792,
      "step": 84130
    },
    {
      "epoch": 12.531277926720286,
      "grad_norm": 12.650221824645996,
      "learning_rate": 1.8398422350550386e-05,
      "loss": 0.0998,
      "num_input_tokens_seen": 48821576,
      "step": 84135
    },
    {
      "epoch": 12.532022639261244,
      "grad_norm": 0.03299209475517273,
      "learning_rate": 1.8395288321766424e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48824392,
      "step": 84140
    },
    {
      "epoch": 12.532767351802205,
      "grad_norm": 0.018373969942331314,
      "learning_rate": 1.8392154404562354e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48827208,
      "step": 84145
    },
    {
      "epoch": 12.533512064343164,
      "grad_norm": 0.06102326139807701,
      "learning_rate": 1.8389020598991113e-05,
      "loss": 0.0204,
      "num_input_tokens_seen": 48830088,
      "step": 84150
    },
    {
      "epoch": 12.534256776884122,
      "grad_norm": 0.026814371347427368,
      "learning_rate": 1.8385886905105653e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48833192,
      "step": 84155
    },
    {
      "epoch": 12.535001489425081,
      "grad_norm": 0.012759979814291,
      "learning_rate": 1.8382753322958902e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48836168,
      "step": 84160
    },
    {
      "epoch": 12.535746201966042,
      "grad_norm": 0.008173540234565735,
      "learning_rate": 1.837961985260382e-05,
      "loss": 0.1146,
      "num_input_tokens_seen": 48839656,
      "step": 84165
    },
    {
      "epoch": 12.536490914507,
      "grad_norm": 48.55184555053711,
      "learning_rate": 1.8376486494093327e-05,
      "loss": 0.0628,
      "num_input_tokens_seen": 48842248,
      "step": 84170
    },
    {
      "epoch": 12.53723562704796,
      "grad_norm": 77.39794158935547,
      "learning_rate": 1.837335324748036e-05,
      "loss": 0.0738,
      "num_input_tokens_seen": 48845128,
      "step": 84175
    },
    {
      "epoch": 12.537980339588918,
      "grad_norm": 0.006782518699765205,
      "learning_rate": 1.8370220112817854e-05,
      "loss": 0.0355,
      "num_input_tokens_seen": 48847976,
      "step": 84180
    },
    {
      "epoch": 12.538725052129879,
      "grad_norm": 0.015335063450038433,
      "learning_rate": 1.836708709015875e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48850600,
      "step": 84185
    },
    {
      "epoch": 12.539469764670837,
      "grad_norm": 0.0008939160034060478,
      "learning_rate": 1.836395417955597e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48854024,
      "step": 84190
    },
    {
      "epoch": 12.540214477211796,
      "grad_norm": 0.005318956449627876,
      "learning_rate": 1.836082138106242e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 48856872,
      "step": 84195
    },
    {
      "epoch": 12.540959189752755,
      "grad_norm": 0.012419442646205425,
      "learning_rate": 1.8357688694731063e-05,
      "loss": 0.0564,
      "num_input_tokens_seen": 48859688,
      "step": 84200
    },
    {
      "epoch": 12.541703902293715,
      "grad_norm": 0.05873507633805275,
      "learning_rate": 1.8354556120614796e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48862504,
      "step": 84205
    },
    {
      "epoch": 12.542448614834674,
      "grad_norm": 0.032977182418107986,
      "learning_rate": 1.8351423658766557e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48865320,
      "step": 84210
    },
    {
      "epoch": 12.543193327375633,
      "grad_norm": 0.007229268085211515,
      "learning_rate": 1.8348291309239248e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 48867912,
      "step": 84215
    },
    {
      "epoch": 12.543938039916592,
      "grad_norm": 0.0013069906271994114,
      "learning_rate": 1.8345159072085803e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48870952,
      "step": 84220
    },
    {
      "epoch": 12.544682752457552,
      "grad_norm": 0.0021051387302577496,
      "learning_rate": 1.8342026947359137e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48873832,
      "step": 84225
    },
    {
      "epoch": 12.545427464998511,
      "grad_norm": 0.004867667332291603,
      "learning_rate": 1.8338894935112144e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 48876776,
      "step": 84230
    },
    {
      "epoch": 12.54617217753947,
      "grad_norm": 174.40811157226562,
      "learning_rate": 1.8335763035397765e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 48879592,
      "step": 84235
    },
    {
      "epoch": 12.546916890080428,
      "grad_norm": 0.0018154793651774526,
      "learning_rate": 1.833263124826889e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 48882600,
      "step": 84240
    },
    {
      "epoch": 12.547661602621389,
      "grad_norm": 0.000583965505938977,
      "learning_rate": 1.832949957377844e-05,
      "loss": 0.0076,
      "num_input_tokens_seen": 48885704,
      "step": 84245
    },
    {
      "epoch": 12.548406315162348,
      "grad_norm": 0.026933182030916214,
      "learning_rate": 1.83263680119793e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48888616,
      "step": 84250
    },
    {
      "epoch": 12.549151027703306,
      "grad_norm": 0.015958884730935097,
      "learning_rate": 1.8323236562924405e-05,
      "loss": 0.0758,
      "num_input_tokens_seen": 48891432,
      "step": 84255
    },
    {
      "epoch": 12.549895740244265,
      "grad_norm": 0.002684883074834943,
      "learning_rate": 1.8320105226666628e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48894248,
      "step": 84260
    },
    {
      "epoch": 12.550640452785224,
      "grad_norm": 0.0004159935633651912,
      "learning_rate": 1.8316974003258898e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 48896872,
      "step": 84265
    },
    {
      "epoch": 12.551385165326185,
      "grad_norm": 0.4432215392589569,
      "learning_rate": 1.8313842892754097e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48899688,
      "step": 84270
    },
    {
      "epoch": 12.552129877867143,
      "grad_norm": 0.012744981795549393,
      "learning_rate": 1.8310711895205125e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48903176,
      "step": 84275
    },
    {
      "epoch": 12.552874590408102,
      "grad_norm": 46.88187789916992,
      "learning_rate": 1.8307581010664875e-05,
      "loss": 0.0145,
      "num_input_tokens_seen": 48905928,
      "step": 84280
    },
    {
      "epoch": 12.553619302949063,
      "grad_norm": 0.0045661902986466885,
      "learning_rate": 1.8304450239186235e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 48908488,
      "step": 84285
    },
    {
      "epoch": 12.554364015490021,
      "grad_norm": 0.003393634222447872,
      "learning_rate": 1.8301319580822112e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48911400,
      "step": 84290
    },
    {
      "epoch": 12.55510872803098,
      "grad_norm": 0.009096289053559303,
      "learning_rate": 1.829818903562538e-05,
      "loss": 0.0439,
      "num_input_tokens_seen": 48914152,
      "step": 84295
    },
    {
      "epoch": 12.555853440571939,
      "grad_norm": 0.00225494964979589,
      "learning_rate": 1.8295058603648942e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48916936,
      "step": 84300
    },
    {
      "epoch": 12.556598153112898,
      "grad_norm": 0.002459275536239147,
      "learning_rate": 1.8291928284945668e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48919624,
      "step": 84305
    },
    {
      "epoch": 12.557342865653858,
      "grad_norm": 0.0028213858604431152,
      "learning_rate": 1.828879807956845e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48922440,
      "step": 84310
    },
    {
      "epoch": 12.558087578194817,
      "grad_norm": 0.00208850484341383,
      "learning_rate": 1.828566798757017e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48925320,
      "step": 84315
    },
    {
      "epoch": 12.558832290735776,
      "grad_norm": 0.001828424516133964,
      "learning_rate": 1.8282538009003696e-05,
      "loss": 0.0764,
      "num_input_tokens_seen": 48928424,
      "step": 84320
    },
    {
      "epoch": 12.559577003276734,
      "grad_norm": 0.03344573453068733,
      "learning_rate": 1.827940814392192e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48931656,
      "step": 84325
    },
    {
      "epoch": 12.560321715817695,
      "grad_norm": 2.9310526847839355,
      "learning_rate": 1.827627839237771e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 48934632,
      "step": 84330
    },
    {
      "epoch": 12.561066428358654,
      "grad_norm": 0.0015683737583458424,
      "learning_rate": 1.8273148754423953e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 48937512,
      "step": 84335
    },
    {
      "epoch": 12.561811140899612,
      "grad_norm": 0.03183901682496071,
      "learning_rate": 1.82700192301135e-05,
      "loss": 0.0952,
      "num_input_tokens_seen": 48940488,
      "step": 84340
    },
    {
      "epoch": 12.562555853440571,
      "grad_norm": 0.002886093221604824,
      "learning_rate": 1.826688981949924e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 48943464,
      "step": 84345
    },
    {
      "epoch": 12.563300565981532,
      "grad_norm": 0.03310037776827812,
      "learning_rate": 1.8263760522634033e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48946504,
      "step": 84350
    },
    {
      "epoch": 12.56404527852249,
      "grad_norm": 0.019095178693532944,
      "learning_rate": 1.826063133957074e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48949256,
      "step": 84355
    },
    {
      "epoch": 12.56478999106345,
      "grad_norm": 30.105854034423828,
      "learning_rate": 1.8257502270362235e-05,
      "loss": 0.1533,
      "num_input_tokens_seen": 48952200,
      "step": 84360
    },
    {
      "epoch": 12.565534703604408,
      "grad_norm": 0.008368001319468021,
      "learning_rate": 1.8254373315061364e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48955240,
      "step": 84365
    },
    {
      "epoch": 12.566279416145369,
      "grad_norm": 0.0006176227470859885,
      "learning_rate": 1.8251244473721017e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48958472,
      "step": 84370
    },
    {
      "epoch": 12.567024128686327,
      "grad_norm": 0.023261597380042076,
      "learning_rate": 1.8248115746394025e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 48961160,
      "step": 84375
    },
    {
      "epoch": 12.567768841227286,
      "grad_norm": 0.0064068944193422794,
      "learning_rate": 1.8244987133133264e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 48964040,
      "step": 84380
    },
    {
      "epoch": 12.568513553768245,
      "grad_norm": 0.011526370421051979,
      "learning_rate": 1.8241858633991578e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 48966632,
      "step": 84385
    },
    {
      "epoch": 12.569258266309205,
      "grad_norm": 0.013778830878436565,
      "learning_rate": 1.8238730249021812e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 48969224,
      "step": 84390
    },
    {
      "epoch": 12.570002978850164,
      "grad_norm": 18.8170166015625,
      "learning_rate": 1.8235601978276838e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 48972072,
      "step": 84395
    },
    {
      "epoch": 12.570747691391123,
      "grad_norm": 0.00142158311791718,
      "learning_rate": 1.823247382180948e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48974824,
      "step": 84400
    },
    {
      "epoch": 12.571492403932082,
      "grad_norm": 0.007839486934244633,
      "learning_rate": 1.8229345779672613e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 48977608,
      "step": 84405
    },
    {
      "epoch": 12.572237116473042,
      "grad_norm": 0.016262417659163475,
      "learning_rate": 1.8226217851919062e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48980520,
      "step": 84410
    },
    {
      "epoch": 12.572981829014001,
      "grad_norm": 0.0024154449347406626,
      "learning_rate": 1.8223090038601678e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 48983304,
      "step": 84415
    },
    {
      "epoch": 12.57372654155496,
      "grad_norm": 0.0005639264709316194,
      "learning_rate": 1.8219962339773292e-05,
      "loss": 0.0405,
      "num_input_tokens_seen": 48986088,
      "step": 84420
    },
    {
      "epoch": 12.574471254095918,
      "grad_norm": 0.004891040734946728,
      "learning_rate": 1.8216834755486763e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 48988968,
      "step": 84425
    },
    {
      "epoch": 12.575215966636879,
      "grad_norm": 0.001472106552682817,
      "learning_rate": 1.821370728579491e-05,
      "loss": 0.0554,
      "num_input_tokens_seen": 48991912,
      "step": 84430
    },
    {
      "epoch": 12.575960679177838,
      "grad_norm": 0.015628892928361893,
      "learning_rate": 1.821057993075057e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48994856,
      "step": 84435
    },
    {
      "epoch": 12.576705391718797,
      "grad_norm": 0.001691650366410613,
      "learning_rate": 1.8207452690406594e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 48997992,
      "step": 84440
    },
    {
      "epoch": 12.577450104259755,
      "grad_norm": 0.0011309446999803185,
      "learning_rate": 1.8204325564815796e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49000968,
      "step": 84445
    },
    {
      "epoch": 12.578194816800714,
      "grad_norm": 0.0008297112653963268,
      "learning_rate": 1.820119855403101e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49003976,
      "step": 84450
    },
    {
      "epoch": 12.578939529341675,
      "grad_norm": 0.001227760105393827,
      "learning_rate": 1.819807165810506e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49006792,
      "step": 84455
    },
    {
      "epoch": 12.579684241882633,
      "grad_norm": 0.0020528892055153847,
      "learning_rate": 1.819494487709078e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49009672,
      "step": 84460
    },
    {
      "epoch": 12.580428954423592,
      "grad_norm": 0.03192682936787605,
      "learning_rate": 1.8191818211040997e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 49012456,
      "step": 84465
    },
    {
      "epoch": 12.58117366696455,
      "grad_norm": 0.0017579805571585894,
      "learning_rate": 1.8188691660008513e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49015144,
      "step": 84470
    },
    {
      "epoch": 12.581918379505511,
      "grad_norm": 249.76388549804688,
      "learning_rate": 1.818556522404617e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 49017928,
      "step": 84475
    },
    {
      "epoch": 12.58266309204647,
      "grad_norm": 0.6702826023101807,
      "learning_rate": 1.818243890320677e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49020744,
      "step": 84480
    },
    {
      "epoch": 12.583407804587429,
      "grad_norm": 0.0006325528956949711,
      "learning_rate": 1.8179312697543145e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 49023496,
      "step": 84485
    },
    {
      "epoch": 12.584152517128388,
      "grad_norm": 0.06752873957157135,
      "learning_rate": 1.8176186607108086e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 49026184,
      "step": 84490
    },
    {
      "epoch": 12.584897229669348,
      "grad_norm": 0.0007561654201708734,
      "learning_rate": 1.817306063195443e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49028840,
      "step": 84495
    },
    {
      "epoch": 12.585641942210307,
      "grad_norm": 0.00116605288349092,
      "learning_rate": 1.8169934772134974e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49031752,
      "step": 84500
    },
    {
      "epoch": 12.586386654751266,
      "grad_norm": 0.12869875133037567,
      "learning_rate": 1.8166809027702522e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49034376,
      "step": 84505
    },
    {
      "epoch": 12.587131367292224,
      "grad_norm": 0.005756372585892677,
      "learning_rate": 1.8163683398709898e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49037544,
      "step": 84510
    },
    {
      "epoch": 12.587876079833185,
      "grad_norm": 0.0073315659537911415,
      "learning_rate": 1.8160557885209884e-05,
      "loss": 0.113,
      "num_input_tokens_seen": 49040520,
      "step": 84515
    },
    {
      "epoch": 12.588620792374144,
      "grad_norm": 0.002647115383297205,
      "learning_rate": 1.81574324872553e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49043400,
      "step": 84520
    },
    {
      "epoch": 12.589365504915103,
      "grad_norm": 152.0087127685547,
      "learning_rate": 1.8154307204898933e-05,
      "loss": 0.1099,
      "num_input_tokens_seen": 49046280,
      "step": 84525
    },
    {
      "epoch": 12.590110217456061,
      "grad_norm": 0.01561017706990242,
      "learning_rate": 1.8151182038193594e-05,
      "loss": 0.1908,
      "num_input_tokens_seen": 49049352,
      "step": 84530
    },
    {
      "epoch": 12.590854929997022,
      "grad_norm": 0.01818714290857315,
      "learning_rate": 1.814805698719207e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49052136,
      "step": 84535
    },
    {
      "epoch": 12.59159964253798,
      "grad_norm": 0.006334110163152218,
      "learning_rate": 1.8144932051947166e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49054920,
      "step": 84540
    },
    {
      "epoch": 12.59234435507894,
      "grad_norm": 0.0012776931980624795,
      "learning_rate": 1.814180723251166e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49058024,
      "step": 84545
    },
    {
      "epoch": 12.593089067619898,
      "grad_norm": 0.007356276270002127,
      "learning_rate": 1.8138682528938354e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49060840,
      "step": 84550
    },
    {
      "epoch": 12.593833780160859,
      "grad_norm": 0.016324063763022423,
      "learning_rate": 1.8135557941280035e-05,
      "loss": 0.1037,
      "num_input_tokens_seen": 49063656,
      "step": 84555
    },
    {
      "epoch": 12.594578492701817,
      "grad_norm": 0.008461087942123413,
      "learning_rate": 1.813243346958948e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49066440,
      "step": 84560
    },
    {
      "epoch": 12.595323205242776,
      "grad_norm": 0.032287243753671646,
      "learning_rate": 1.812930911391949e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49069544,
      "step": 84565
    },
    {
      "epoch": 12.596067917783735,
      "grad_norm": 0.0014221591409295797,
      "learning_rate": 1.8126184874322837e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49072552,
      "step": 84570
    },
    {
      "epoch": 12.596812630324695,
      "grad_norm": 0.018199410289525986,
      "learning_rate": 1.8123060750852305e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49075560,
      "step": 84575
    },
    {
      "epoch": 12.597557342865654,
      "grad_norm": 0.0012758501106873155,
      "learning_rate": 1.8119936743560667e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 49078472,
      "step": 84580
    },
    {
      "epoch": 12.598302055406613,
      "grad_norm": 0.0190906822681427,
      "learning_rate": 1.8116812852500713e-05,
      "loss": 0.0493,
      "num_input_tokens_seen": 49081352,
      "step": 84585
    },
    {
      "epoch": 12.599046767947572,
      "grad_norm": 0.060042496770620346,
      "learning_rate": 1.811368907772521e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49084072,
      "step": 84590
    },
    {
      "epoch": 12.599791480488532,
      "grad_norm": 0.0013507325202226639,
      "learning_rate": 1.8110565419286916e-05,
      "loss": 0.1197,
      "num_input_tokens_seen": 49086760,
      "step": 84595
    },
    {
      "epoch": 12.600536193029491,
      "grad_norm": 0.0027096406556665897,
      "learning_rate": 1.8107441877238634e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49089320,
      "step": 84600
    },
    {
      "epoch": 12.60128090557045,
      "grad_norm": 0.06627889722585678,
      "learning_rate": 1.8104318451633114e-05,
      "loss": 0.2388,
      "num_input_tokens_seen": 49092232,
      "step": 84605
    },
    {
      "epoch": 12.602025618111409,
      "grad_norm": 13.403992652893066,
      "learning_rate": 1.810119514252312e-05,
      "loss": 0.2001,
      "num_input_tokens_seen": 49095176,
      "step": 84610
    },
    {
      "epoch": 12.602770330652369,
      "grad_norm": 2.797002077102661,
      "learning_rate": 1.809807194996142e-05,
      "loss": 0.0449,
      "num_input_tokens_seen": 49097832,
      "step": 84615
    },
    {
      "epoch": 12.603515043193328,
      "grad_norm": 0.011682075448334217,
      "learning_rate": 1.809494887400079e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49100872,
      "step": 84620
    },
    {
      "epoch": 12.604259755734287,
      "grad_norm": 0.002885676920413971,
      "learning_rate": 1.8091825914693966e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49103912,
      "step": 84625
    },
    {
      "epoch": 12.605004468275245,
      "grad_norm": 0.0004318356513977051,
      "learning_rate": 1.8088703072093735e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49106856,
      "step": 84630
    },
    {
      "epoch": 12.605749180816204,
      "grad_norm": 0.02064482681453228,
      "learning_rate": 1.808558034625284e-05,
      "loss": 0.0103,
      "num_input_tokens_seen": 49109704,
      "step": 84635
    },
    {
      "epoch": 12.606493893357165,
      "grad_norm": 0.306968092918396,
      "learning_rate": 1.8082457737224034e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49112584,
      "step": 84640
    },
    {
      "epoch": 12.607238605898123,
      "grad_norm": 0.01008738111704588,
      "learning_rate": 1.8079335245060076e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 49115688,
      "step": 84645
    },
    {
      "epoch": 12.607983318439082,
      "grad_norm": 0.012726185843348503,
      "learning_rate": 1.8076212869813706e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49118440,
      "step": 84650
    },
    {
      "epoch": 12.608728030980041,
      "grad_norm": 82.53424835205078,
      "learning_rate": 1.8073090611537697e-05,
      "loss": 0.1972,
      "num_input_tokens_seen": 49121384,
      "step": 84655
    },
    {
      "epoch": 12.609472743521001,
      "grad_norm": 0.0012392534408718348,
      "learning_rate": 1.8069968470284768e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49124296,
      "step": 84660
    },
    {
      "epoch": 12.61021745606196,
      "grad_norm": 0.03646741434931755,
      "learning_rate": 1.806684644610769e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49126920,
      "step": 84665
    },
    {
      "epoch": 12.610962168602919,
      "grad_norm": 0.020509231835603714,
      "learning_rate": 1.8063724539059195e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49129832,
      "step": 84670
    },
    {
      "epoch": 12.611706881143878,
      "grad_norm": 0.004667101427912712,
      "learning_rate": 1.806060274919202e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49132776,
      "step": 84675
    },
    {
      "epoch": 12.612451593684838,
      "grad_norm": 0.0027356494683772326,
      "learning_rate": 1.8057481076558906e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 49135464,
      "step": 84680
    },
    {
      "epoch": 12.613196306225797,
      "grad_norm": 0.005361723713576794,
      "learning_rate": 1.8054359521212592e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49138344,
      "step": 84685
    },
    {
      "epoch": 12.613941018766756,
      "grad_norm": 0.14829029142856598,
      "learning_rate": 1.805123808320582e-05,
      "loss": 0.0454,
      "num_input_tokens_seen": 49141192,
      "step": 84690
    },
    {
      "epoch": 12.614685731307715,
      "grad_norm": 0.14446823298931122,
      "learning_rate": 1.804811676259131e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49143944,
      "step": 84695
    },
    {
      "epoch": 12.615430443848675,
      "grad_norm": 0.0026418352499604225,
      "learning_rate": 1.8044995559421813e-05,
      "loss": 0.1293,
      "num_input_tokens_seen": 49146888,
      "step": 84700
    },
    {
      "epoch": 12.616175156389634,
      "grad_norm": 0.00808781385421753,
      "learning_rate": 1.804187447375004e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 49149544,
      "step": 84705
    },
    {
      "epoch": 12.616919868930593,
      "grad_norm": 0.0020271893590688705,
      "learning_rate": 1.803875350562873e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49152424,
      "step": 84710
    },
    {
      "epoch": 12.617664581471551,
      "grad_norm": 0.029290007427334785,
      "learning_rate": 1.8035632655110607e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49155528,
      "step": 84715
    },
    {
      "epoch": 12.618409294012512,
      "grad_norm": 0.011286325752735138,
      "learning_rate": 1.803251192224838e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49158312,
      "step": 84720
    },
    {
      "epoch": 12.61915400655347,
      "grad_norm": 34.932796478271484,
      "learning_rate": 1.8029391307094796e-05,
      "loss": 0.0555,
      "num_input_tokens_seen": 49161288,
      "step": 84725
    },
    {
      "epoch": 12.61989871909443,
      "grad_norm": 0.0052497657015919685,
      "learning_rate": 1.8026270809702547e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49163912,
      "step": 84730
    },
    {
      "epoch": 12.620643431635388,
      "grad_norm": 0.005263449624180794,
      "learning_rate": 1.8023150430124375e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49166568,
      "step": 84735
    },
    {
      "epoch": 12.621388144176349,
      "grad_norm": 0.044379811733961105,
      "learning_rate": 1.802003016841298e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 49169640,
      "step": 84740
    },
    {
      "epoch": 12.622132856717307,
      "grad_norm": 0.014379353262484074,
      "learning_rate": 1.801691002462109e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49172328,
      "step": 84745
    },
    {
      "epoch": 12.622877569258266,
      "grad_norm": 0.10479023307561874,
      "learning_rate": 1.8013789998801407e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 49175176,
      "step": 84750
    },
    {
      "epoch": 12.623622281799225,
      "grad_norm": 0.001974180806428194,
      "learning_rate": 1.801067009100663e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49178152,
      "step": 84755
    },
    {
      "epoch": 12.624366994340185,
      "grad_norm": 0.0006748344167135656,
      "learning_rate": 1.800755030128949e-05,
      "loss": 0.2917,
      "num_input_tokens_seen": 49180872,
      "step": 84760
    },
    {
      "epoch": 12.625111706881144,
      "grad_norm": 0.0016263058641925454,
      "learning_rate": 1.800443062970267e-05,
      "loss": 0.0147,
      "num_input_tokens_seen": 49183816,
      "step": 84765
    },
    {
      "epoch": 12.625856419422103,
      "grad_norm": 0.9639855623245239,
      "learning_rate": 1.8001311076298895e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49186536,
      "step": 84770
    },
    {
      "epoch": 12.626601131963062,
      "grad_norm": 0.09678462892770767,
      "learning_rate": 1.799819164113085e-05,
      "loss": 0.141,
      "num_input_tokens_seen": 49189416,
      "step": 84775
    },
    {
      "epoch": 12.62734584450402,
      "grad_norm": 0.007065124809741974,
      "learning_rate": 1.799507232425125e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49192232,
      "step": 84780
    },
    {
      "epoch": 12.628090557044981,
      "grad_norm": 0.002010143594816327,
      "learning_rate": 1.799195312571277e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49195464,
      "step": 84785
    },
    {
      "epoch": 12.62883526958594,
      "grad_norm": 0.008565115742385387,
      "learning_rate": 1.7988834045568126e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49198216,
      "step": 84790
    },
    {
      "epoch": 12.629579982126899,
      "grad_norm": 0.012631593272089958,
      "learning_rate": 1.7985715083870008e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 49201448,
      "step": 84795
    },
    {
      "epoch": 12.63032469466786,
      "grad_norm": 0.019769111648201942,
      "learning_rate": 1.7982596240671095e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49205768,
      "step": 84800
    },
    {
      "epoch": 12.631069407208818,
      "grad_norm": 0.005274266470223665,
      "learning_rate": 1.7979477516024096e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49208456,
      "step": 84805
    },
    {
      "epoch": 12.631814119749777,
      "grad_norm": 0.006994279101490974,
      "learning_rate": 1.7976358909981686e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49211240,
      "step": 84810
    },
    {
      "epoch": 12.632558832290735,
      "grad_norm": 0.006490624509751797,
      "learning_rate": 1.7973240422596557e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 49214120,
      "step": 84815
    },
    {
      "epoch": 12.633303544831694,
      "grad_norm": 92.78134155273438,
      "learning_rate": 1.7970122053921378e-05,
      "loss": 0.0796,
      "num_input_tokens_seen": 49217128,
      "step": 84820
    },
    {
      "epoch": 12.634048257372655,
      "grad_norm": 0.0051345364190638065,
      "learning_rate": 1.7967003804008855e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 49220200,
      "step": 84825
    },
    {
      "epoch": 12.634792969913613,
      "grad_norm": 0.06974199414253235,
      "learning_rate": 1.7963885672911655e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49222984,
      "step": 84830
    },
    {
      "epoch": 12.635537682454572,
      "grad_norm": 0.005516371224075556,
      "learning_rate": 1.7960767660682442e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49225800,
      "step": 84835
    },
    {
      "epoch": 12.636282394995531,
      "grad_norm": 0.014443716034293175,
      "learning_rate": 1.7957649767373916e-05,
      "loss": 0.0476,
      "num_input_tokens_seen": 49228680,
      "step": 84840
    },
    {
      "epoch": 12.637027107536491,
      "grad_norm": 0.0009065972408279777,
      "learning_rate": 1.7954531993038737e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49231624,
      "step": 84845
    },
    {
      "epoch": 12.63777182007745,
      "grad_norm": 6.449145317077637,
      "learning_rate": 1.7951414337729584e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 49234632,
      "step": 84850
    },
    {
      "epoch": 12.638516532618409,
      "grad_norm": 0.002295884769409895,
      "learning_rate": 1.794829680149911e-05,
      "loss": 0.0507,
      "num_input_tokens_seen": 49237832,
      "step": 84855
    },
    {
      "epoch": 12.639261245159368,
      "grad_norm": 0.0063051083125174046,
      "learning_rate": 1.7945179384400002e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49240872,
      "step": 84860
    },
    {
      "epoch": 12.640005957700328,
      "grad_norm": 0.0011045793071389198,
      "learning_rate": 1.794206208648492e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49243528,
      "step": 84865
    },
    {
      "epoch": 12.640750670241287,
      "grad_norm": 0.031935643404722214,
      "learning_rate": 1.7938944907806523e-05,
      "loss": 0.0093,
      "num_input_tokens_seen": 49246312,
      "step": 84870
    },
    {
      "epoch": 12.641495382782246,
      "grad_norm": 0.010279076173901558,
      "learning_rate": 1.7935827848417476e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49249096,
      "step": 84875
    },
    {
      "epoch": 12.642240095323205,
      "grad_norm": 0.014537665992975235,
      "learning_rate": 1.7932710908370434e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49252072,
      "step": 84880
    },
    {
      "epoch": 12.642984807864165,
      "grad_norm": 0.0019300509011372924,
      "learning_rate": 1.7929594087718067e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 49254664,
      "step": 84885
    },
    {
      "epoch": 12.643729520405124,
      "grad_norm": 0.007914704270660877,
      "learning_rate": 1.7926477386513008e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 49257576,
      "step": 84890
    },
    {
      "epoch": 12.644474232946083,
      "grad_norm": 0.00022357200214173645,
      "learning_rate": 1.7923360804807937e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49260168,
      "step": 84895
    },
    {
      "epoch": 12.645218945487041,
      "grad_norm": 0.0006942127947695553,
      "learning_rate": 1.7920244342655485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49263272,
      "step": 84900
    },
    {
      "epoch": 12.645963658028002,
      "grad_norm": 35.81732177734375,
      "learning_rate": 1.791712800010832e-05,
      "loss": 0.0832,
      "num_input_tokens_seen": 49266504,
      "step": 84905
    },
    {
      "epoch": 12.64670837056896,
      "grad_norm": 0.001783768879249692,
      "learning_rate": 1.7914011777219074e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49269416,
      "step": 84910
    },
    {
      "epoch": 12.64745308310992,
      "grad_norm": 0.015923062339425087,
      "learning_rate": 1.7910895674040387e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49272904,
      "step": 84915
    },
    {
      "epoch": 12.648197795650878,
      "grad_norm": 0.010339321568608284,
      "learning_rate": 1.7907779690624923e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49275880,
      "step": 84920
    },
    {
      "epoch": 12.648942508191839,
      "grad_norm": 6.557163238525391,
      "learning_rate": 1.7904663827025304e-05,
      "loss": 0.1131,
      "num_input_tokens_seen": 49278696,
      "step": 84925
    },
    {
      "epoch": 12.649687220732797,
      "grad_norm": 0.20005126297473907,
      "learning_rate": 1.790154808329419e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 49281352,
      "step": 84930
    },
    {
      "epoch": 12.650431933273756,
      "grad_norm": 0.15532658994197845,
      "learning_rate": 1.78984324594842e-05,
      "loss": 0.0297,
      "num_input_tokens_seen": 49284136,
      "step": 84935
    },
    {
      "epoch": 12.651176645814715,
      "grad_norm": 0.025530800223350525,
      "learning_rate": 1.7895316955647977e-05,
      "loss": 0.0065,
      "num_input_tokens_seen": 49287176,
      "step": 84940
    },
    {
      "epoch": 12.651921358355676,
      "grad_norm": 0.007724490482360125,
      "learning_rate": 1.7892201571838147e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49290248,
      "step": 84945
    },
    {
      "epoch": 12.652666070896634,
      "grad_norm": 0.004657546058297157,
      "learning_rate": 1.788908630810736e-05,
      "loss": 0.0948,
      "num_input_tokens_seen": 49293032,
      "step": 84950
    },
    {
      "epoch": 12.653410783437593,
      "grad_norm": 0.010633435100317001,
      "learning_rate": 1.7885971164508227e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 49296040,
      "step": 84955
    },
    {
      "epoch": 12.654155495978552,
      "grad_norm": 203.472900390625,
      "learning_rate": 1.7882856141093372e-05,
      "loss": 0.0913,
      "num_input_tokens_seen": 49298888,
      "step": 84960
    },
    {
      "epoch": 12.65490020851951,
      "grad_norm": 0.0010815521236509085,
      "learning_rate": 1.7879741237915444e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49301704,
      "step": 84965
    },
    {
      "epoch": 12.655644921060471,
      "grad_norm": 0.0023758222814649343,
      "learning_rate": 1.787662645502704e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49304264,
      "step": 84970
    },
    {
      "epoch": 12.65638963360143,
      "grad_norm": 0.0012862896546721458,
      "learning_rate": 1.78735117924808e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49307656,
      "step": 84975
    },
    {
      "epoch": 12.657134346142389,
      "grad_norm": 109.90956115722656,
      "learning_rate": 1.7870397250329325e-05,
      "loss": 0.149,
      "num_input_tokens_seen": 49310184,
      "step": 84980
    },
    {
      "epoch": 12.657879058683347,
      "grad_norm": 0.0005820180522277951,
      "learning_rate": 1.7867282828625253e-05,
      "loss": 0.0647,
      "num_input_tokens_seen": 49313032,
      "step": 84985
    },
    {
      "epoch": 12.658623771224308,
      "grad_norm": 19.053800582885742,
      "learning_rate": 1.786416852742119e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 49315784,
      "step": 84990
    },
    {
      "epoch": 12.659368483765267,
      "grad_norm": 0.017986100167036057,
      "learning_rate": 1.786105434676973e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49318536,
      "step": 84995
    },
    {
      "epoch": 12.660113196306225,
      "grad_norm": 0.00043867339263670146,
      "learning_rate": 1.785794028672352e-05,
      "loss": 0.2065,
      "num_input_tokens_seen": 49321640,
      "step": 85000
    },
    {
      "epoch": 12.660857908847184,
      "grad_norm": 0.001340012066066265,
      "learning_rate": 1.785482634733514e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49324968,
      "step": 85005
    },
    {
      "epoch": 12.661602621388145,
      "grad_norm": 1.1731674671173096,
      "learning_rate": 1.785171252865721e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 49327944,
      "step": 85010
    },
    {
      "epoch": 12.662347333929103,
      "grad_norm": 0.0029739150777459145,
      "learning_rate": 1.7848598830742323e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 49330824,
      "step": 85015
    },
    {
      "epoch": 12.663092046470062,
      "grad_norm": 0.00619934219866991,
      "learning_rate": 1.78454852536431e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49333448,
      "step": 85020
    },
    {
      "epoch": 12.663836759011021,
      "grad_norm": 0.005733599420636892,
      "learning_rate": 1.784237179741213e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 49336168,
      "step": 85025
    },
    {
      "epoch": 12.664581471551982,
      "grad_norm": 0.004001424182206392,
      "learning_rate": 1.7839258462102015e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49338696,
      "step": 85030
    },
    {
      "epoch": 12.66532618409294,
      "grad_norm": 0.0017255265265703201,
      "learning_rate": 1.783614524776535e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 49341928,
      "step": 85035
    },
    {
      "epoch": 12.666070896633899,
      "grad_norm": 0.005716011393815279,
      "learning_rate": 1.783303215445473e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49345000,
      "step": 85040
    },
    {
      "epoch": 12.666815609174858,
      "grad_norm": 0.003908013459295034,
      "learning_rate": 1.7829919182222752e-05,
      "loss": 0.1815,
      "num_input_tokens_seen": 49348136,
      "step": 85045
    },
    {
      "epoch": 12.667560321715818,
      "grad_norm": 1.4959452152252197,
      "learning_rate": 1.7826806331121987e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 49351048,
      "step": 85050
    },
    {
      "epoch": 12.668305034256777,
      "grad_norm": 80.08438873291016,
      "learning_rate": 1.7823693601205054e-05,
      "loss": 0.1355,
      "num_input_tokens_seen": 49353992,
      "step": 85055
    },
    {
      "epoch": 12.669049746797736,
      "grad_norm": 0.007751609664410353,
      "learning_rate": 1.782058099252451e-05,
      "loss": 0.1222,
      "num_input_tokens_seen": 49356680,
      "step": 85060
    },
    {
      "epoch": 12.669794459338695,
      "grad_norm": 0.0205991193652153,
      "learning_rate": 1.7817468505132966e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49359496,
      "step": 85065
    },
    {
      "epoch": 12.670539171879655,
      "grad_norm": 0.018945476040244102,
      "learning_rate": 1.7814356139082993e-05,
      "loss": 0.2421,
      "num_input_tokens_seen": 49362152,
      "step": 85070
    },
    {
      "epoch": 12.671283884420614,
      "grad_norm": 0.021708687767386436,
      "learning_rate": 1.781124389442716e-05,
      "loss": 0.0371,
      "num_input_tokens_seen": 49364936,
      "step": 85075
    },
    {
      "epoch": 12.672028596961573,
      "grad_norm": 0.267483651638031,
      "learning_rate": 1.7808131771218065e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 49367688,
      "step": 85080
    },
    {
      "epoch": 12.672773309502531,
      "grad_norm": 0.08838704973459244,
      "learning_rate": 1.7805019769508262e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49370376,
      "step": 85085
    },
    {
      "epoch": 12.673518022043492,
      "grad_norm": 0.00372510589659214,
      "learning_rate": 1.7801907889350346e-05,
      "loss": 0.0353,
      "num_input_tokens_seen": 49372904,
      "step": 85090
    },
    {
      "epoch": 12.67426273458445,
      "grad_norm": 0.02381480112671852,
      "learning_rate": 1.7798796130796875e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 49375592,
      "step": 85095
    },
    {
      "epoch": 12.67500744712541,
      "grad_norm": 0.04746714606881142,
      "learning_rate": 1.779568449390043e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49378472,
      "step": 85100
    },
    {
      "epoch": 12.675752159666368,
      "grad_norm": 0.006163448560982943,
      "learning_rate": 1.7792572978713567e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49381224,
      "step": 85105
    },
    {
      "epoch": 12.676496872207329,
      "grad_norm": 0.027408497408032417,
      "learning_rate": 1.778946158528887e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 49384488,
      "step": 85110
    },
    {
      "epoch": 12.677241584748288,
      "grad_norm": 0.4047853350639343,
      "learning_rate": 1.7786350313678885e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 49388008,
      "step": 85115
    },
    {
      "epoch": 12.677986297289246,
      "grad_norm": 0.00273827719502151,
      "learning_rate": 1.7783239163936172e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49391176,
      "step": 85120
    },
    {
      "epoch": 12.678731009830205,
      "grad_norm": 0.07916121929883957,
      "learning_rate": 1.7780128136113305e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49394024,
      "step": 85125
    },
    {
      "epoch": 12.679475722371166,
      "grad_norm": 22.214162826538086,
      "learning_rate": 1.777701723026283e-05,
      "loss": 0.3649,
      "num_input_tokens_seen": 49397000,
      "step": 85130
    },
    {
      "epoch": 12.680220434912124,
      "grad_norm": 13.095549583435059,
      "learning_rate": 1.7773906446437316e-05,
      "loss": 0.071,
      "num_input_tokens_seen": 49399816,
      "step": 85135
    },
    {
      "epoch": 12.680965147453083,
      "grad_norm": 0.011974337510764599,
      "learning_rate": 1.7770795784689302e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49402920,
      "step": 85140
    },
    {
      "epoch": 12.681709859994042,
      "grad_norm": 0.01061327289789915,
      "learning_rate": 1.7767685245071353e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49406216,
      "step": 85145
    },
    {
      "epoch": 12.682454572535,
      "grad_norm": 0.014112374745309353,
      "learning_rate": 1.776457482763601e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49409384,
      "step": 85150
    },
    {
      "epoch": 12.683199285075961,
      "grad_norm": 3.1375598907470703,
      "learning_rate": 1.776146453243581e-05,
      "loss": 0.1262,
      "num_input_tokens_seen": 49412168,
      "step": 85155
    },
    {
      "epoch": 12.68394399761692,
      "grad_norm": 0.009067445993423462,
      "learning_rate": 1.7758354359523328e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49415112,
      "step": 85160
    },
    {
      "epoch": 12.684688710157879,
      "grad_norm": 0.001911447267048061,
      "learning_rate": 1.775524430895107e-05,
      "loss": 0.2689,
      "num_input_tokens_seen": 49418248,
      "step": 85165
    },
    {
      "epoch": 12.685433422698837,
      "grad_norm": 0.003558039665222168,
      "learning_rate": 1.775213438077161e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49421128,
      "step": 85170
    },
    {
      "epoch": 12.686178135239798,
      "grad_norm": 0.004318008199334145,
      "learning_rate": 1.7749024575037466e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49423752,
      "step": 85175
    },
    {
      "epoch": 12.686922847780757,
      "grad_norm": 14.335716247558594,
      "learning_rate": 1.774591489180119e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 49426568,
      "step": 85180
    },
    {
      "epoch": 12.687667560321715,
      "grad_norm": 33.75339126586914,
      "learning_rate": 1.77428053311153e-05,
      "loss": 0.2438,
      "num_input_tokens_seen": 49429480,
      "step": 85185
    },
    {
      "epoch": 12.688412272862674,
      "grad_norm": 14.721356391906738,
      "learning_rate": 1.7739695893032344e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 49432584,
      "step": 85190
    },
    {
      "epoch": 12.689156985403635,
      "grad_norm": 0.008260220289230347,
      "learning_rate": 1.7736586577604846e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 49435688,
      "step": 85195
    },
    {
      "epoch": 12.689901697944594,
      "grad_norm": 3.9653172492980957,
      "learning_rate": 1.7733477384885333e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 49438312,
      "step": 85200
    },
    {
      "epoch": 12.690646410485552,
      "grad_norm": 0.0019015689613297582,
      "learning_rate": 1.7730368314926336e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49441064,
      "step": 85205
    },
    {
      "epoch": 12.691391123026511,
      "grad_norm": 0.0004931794828735292,
      "learning_rate": 1.7727259367780374e-05,
      "loss": 0.0716,
      "num_input_tokens_seen": 49444392,
      "step": 85210
    },
    {
      "epoch": 12.692135835567472,
      "grad_norm": 0.017525970935821533,
      "learning_rate": 1.772415054349998e-05,
      "loss": 0.1283,
      "num_input_tokens_seen": 49447176,
      "step": 85215
    },
    {
      "epoch": 12.69288054810843,
      "grad_norm": 0.043623968958854675,
      "learning_rate": 1.772104184213766e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 49449928,
      "step": 85220
    },
    {
      "epoch": 12.69362526064939,
      "grad_norm": 0.0011289222165942192,
      "learning_rate": 1.7717933263745947e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49453032,
      "step": 85225
    },
    {
      "epoch": 12.694369973190348,
      "grad_norm": 0.01172728557139635,
      "learning_rate": 1.7714824808377346e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 49455976,
      "step": 85230
    },
    {
      "epoch": 12.695114685731308,
      "grad_norm": 0.0031812768429517746,
      "learning_rate": 1.7711716476084384e-05,
      "loss": 0.0775,
      "num_input_tokens_seen": 49458760,
      "step": 85235
    },
    {
      "epoch": 12.695859398272267,
      "grad_norm": 0.24446381628513336,
      "learning_rate": 1.770860826691956e-05,
      "loss": 0.0453,
      "num_input_tokens_seen": 49461640,
      "step": 85240
    },
    {
      "epoch": 12.696604110813226,
      "grad_norm": 68.26726531982422,
      "learning_rate": 1.770550018093538e-05,
      "loss": 0.0289,
      "num_input_tokens_seen": 49464328,
      "step": 85245
    },
    {
      "epoch": 12.697348823354185,
      "grad_norm": 0.037141215056180954,
      "learning_rate": 1.770239221818437e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49467720,
      "step": 85250
    },
    {
      "epoch": 12.698093535895145,
      "grad_norm": 0.0012768872547894716,
      "learning_rate": 1.7699284378719017e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49470952,
      "step": 85255
    },
    {
      "epoch": 12.698838248436104,
      "grad_norm": 0.034209951758384705,
      "learning_rate": 1.7696176662591844e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49473928,
      "step": 85260
    },
    {
      "epoch": 12.699582960977063,
      "grad_norm": 0.08604453504085541,
      "learning_rate": 1.7693069069855343e-05,
      "loss": 0.0534,
      "num_input_tokens_seen": 49476872,
      "step": 85265
    },
    {
      "epoch": 12.700327673518021,
      "grad_norm": 0.022197119891643524,
      "learning_rate": 1.7689961600562014e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49479784,
      "step": 85270
    },
    {
      "epoch": 12.701072386058982,
      "grad_norm": 0.0012910321820527315,
      "learning_rate": 1.7686854254764355e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49482984,
      "step": 85275
    },
    {
      "epoch": 12.70181709859994,
      "grad_norm": 0.017492959275841713,
      "learning_rate": 1.768374703251485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49485768,
      "step": 85280
    },
    {
      "epoch": 12.7025618111409,
      "grad_norm": 0.21309038996696472,
      "learning_rate": 1.768063993386601e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 49488808,
      "step": 85285
    },
    {
      "epoch": 12.703306523681858,
      "grad_norm": 0.002935986500233412,
      "learning_rate": 1.7677532958870315e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49491848,
      "step": 85290
    },
    {
      "epoch": 12.704051236222817,
      "grad_norm": 0.03760341927409172,
      "learning_rate": 1.7674426107580268e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49494696,
      "step": 85295
    },
    {
      "epoch": 12.704795948763778,
      "grad_norm": 0.007256620097905397,
      "learning_rate": 1.767131938004834e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49497512,
      "step": 85300
    },
    {
      "epoch": 12.705540661304736,
      "grad_norm": 0.00901044998317957,
      "learning_rate": 1.7668212776327025e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49500552,
      "step": 85305
    },
    {
      "epoch": 12.706285373845695,
      "grad_norm": 0.0005772847798652947,
      "learning_rate": 1.7665106296468793e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 49503240,
      "step": 85310
    },
    {
      "epoch": 12.707030086386656,
      "grad_norm": 9.006122589111328,
      "learning_rate": 1.766199994052615e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 49506248,
      "step": 85315
    },
    {
      "epoch": 12.707774798927614,
      "grad_norm": 0.0037642105016857386,
      "learning_rate": 1.7658893708551557e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49508872,
      "step": 85320
    },
    {
      "epoch": 12.708519511468573,
      "grad_norm": 88.9583511352539,
      "learning_rate": 1.7655787600597486e-05,
      "loss": 0.2563,
      "num_input_tokens_seen": 49511784,
      "step": 85325
    },
    {
      "epoch": 12.709264224009532,
      "grad_norm": 0.0028295270167291164,
      "learning_rate": 1.7652681616716428e-05,
      "loss": 0.0167,
      "num_input_tokens_seen": 49514472,
      "step": 85330
    },
    {
      "epoch": 12.71000893655049,
      "grad_norm": 0.5796805024147034,
      "learning_rate": 1.764957575696084e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49517096,
      "step": 85335
    },
    {
      "epoch": 12.710753649091451,
      "grad_norm": 0.0036218794994056225,
      "learning_rate": 1.7646470021383204e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 49520040,
      "step": 85340
    },
    {
      "epoch": 12.71149836163241,
      "grad_norm": 0.22589455544948578,
      "learning_rate": 1.7643364410035974e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49522888,
      "step": 85345
    },
    {
      "epoch": 12.712243074173369,
      "grad_norm": 94.37646484375,
      "learning_rate": 1.7640258922971636e-05,
      "loss": 0.0569,
      "num_input_tokens_seen": 49525576,
      "step": 85350
    },
    {
      "epoch": 12.712987786714327,
      "grad_norm": 0.003370223566889763,
      "learning_rate": 1.763715356024264e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49528200,
      "step": 85355
    },
    {
      "epoch": 12.713732499255288,
      "grad_norm": 0.0016078371554613113,
      "learning_rate": 1.7634048321901447e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49531272,
      "step": 85360
    },
    {
      "epoch": 12.714477211796247,
      "grad_norm": 0.003573255380615592,
      "learning_rate": 1.7630943208000526e-05,
      "loss": 0.0795,
      "num_input_tokens_seen": 49534056,
      "step": 85365
    },
    {
      "epoch": 12.715221924337206,
      "grad_norm": 0.0030607441440224648,
      "learning_rate": 1.762783821859233e-05,
      "loss": 0.3657,
      "num_input_tokens_seen": 49537192,
      "step": 85370
    },
    {
      "epoch": 12.715966636878164,
      "grad_norm": 0.00040921277832239866,
      "learning_rate": 1.762473335372932e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49540680,
      "step": 85375
    },
    {
      "epoch": 12.716711349419125,
      "grad_norm": 0.016692383214831352,
      "learning_rate": 1.7621628613463928e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49543656,
      "step": 85380
    },
    {
      "epoch": 12.717456061960084,
      "grad_norm": 0.001845412771217525,
      "learning_rate": 1.7618523997848634e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49546824,
      "step": 85385
    },
    {
      "epoch": 12.718200774501042,
      "grad_norm": 0.005772277247160673,
      "learning_rate": 1.7615419506935866e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49549544,
      "step": 85390
    },
    {
      "epoch": 12.718945487042001,
      "grad_norm": 0.0009206001996062696,
      "learning_rate": 1.761231514077809e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49552360,
      "step": 85395
    },
    {
      "epoch": 12.719690199582962,
      "grad_norm": 0.004908950533717871,
      "learning_rate": 1.760921089942774e-05,
      "loss": 0.2189,
      "num_input_tokens_seen": 49555368,
      "step": 85400
    },
    {
      "epoch": 12.72043491212392,
      "grad_norm": 0.02240612357854843,
      "learning_rate": 1.7606106782937256e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49558184,
      "step": 85405
    },
    {
      "epoch": 12.72117962466488,
      "grad_norm": 0.001356054563075304,
      "learning_rate": 1.760300279135909e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 49560872,
      "step": 85410
    },
    {
      "epoch": 12.721924337205838,
      "grad_norm": 0.0021328898146748543,
      "learning_rate": 1.759989892474566e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49563656,
      "step": 85415
    },
    {
      "epoch": 12.722669049746798,
      "grad_norm": 0.0017081964761018753,
      "learning_rate": 1.7596795183149428e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49566632,
      "step": 85420
    },
    {
      "epoch": 12.723413762287757,
      "grad_norm": 0.1785087287425995,
      "learning_rate": 1.759369156662281e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 49569800,
      "step": 85425
    },
    {
      "epoch": 12.724158474828716,
      "grad_norm": 0.00458671385422349,
      "learning_rate": 1.759058807521825e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49573192,
      "step": 85430
    },
    {
      "epoch": 12.724903187369675,
      "grad_norm": 0.0009068338549695909,
      "learning_rate": 1.7587484708988176e-05,
      "loss": 0.2851,
      "num_input_tokens_seen": 49576232,
      "step": 85435
    },
    {
      "epoch": 12.725647899910635,
      "grad_norm": 0.6331667900085449,
      "learning_rate": 1.758438146798501e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49579048,
      "step": 85440
    },
    {
      "epoch": 12.726392612451594,
      "grad_norm": 0.28624430298805237,
      "learning_rate": 1.758127835226119e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49581736,
      "step": 85445
    },
    {
      "epoch": 12.727137324992553,
      "grad_norm": 0.002446256810799241,
      "learning_rate": 1.757817536186912e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49584808,
      "step": 85450
    },
    {
      "epoch": 12.727882037533512,
      "grad_norm": 0.0007785151246935129,
      "learning_rate": 1.7575072496861243e-05,
      "loss": 0.0129,
      "num_input_tokens_seen": 49587464,
      "step": 85455
    },
    {
      "epoch": 12.728626750074472,
      "grad_norm": 0.002440176671370864,
      "learning_rate": 1.757196975728996e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49590568,
      "step": 85460
    },
    {
      "epoch": 12.72937146261543,
      "grad_norm": 0.00021294823091011494,
      "learning_rate": 1.7568867143207708e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49593192,
      "step": 85465
    },
    {
      "epoch": 12.73011617515639,
      "grad_norm": 0.027023104950785637,
      "learning_rate": 1.7565764654666888e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49596200,
      "step": 85470
    },
    {
      "epoch": 12.730860887697348,
      "grad_norm": 0.002714873757213354,
      "learning_rate": 1.756266229171993e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49599016,
      "step": 85475
    },
    {
      "epoch": 12.731605600238307,
      "grad_norm": 10.206588745117188,
      "learning_rate": 1.7559560054419225e-05,
      "loss": 0.147,
      "num_input_tokens_seen": 49601768,
      "step": 85480
    },
    {
      "epoch": 12.732350312779268,
      "grad_norm": 0.001488603767938912,
      "learning_rate": 1.7556457942817184e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49604744,
      "step": 85485
    },
    {
      "epoch": 12.733095025320226,
      "grad_norm": 0.0011008003493770957,
      "learning_rate": 1.7553355956966227e-05,
      "loss": 0.0505,
      "num_input_tokens_seen": 49607496,
      "step": 85490
    },
    {
      "epoch": 12.733839737861185,
      "grad_norm": 0.003683953545987606,
      "learning_rate": 1.7550254096918748e-05,
      "loss": 0.2157,
      "num_input_tokens_seen": 49610408,
      "step": 85495
    },
    {
      "epoch": 12.734584450402146,
      "grad_norm": 0.0071058147586882114,
      "learning_rate": 1.754715236272716e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49613128,
      "step": 85500
    },
    {
      "epoch": 12.735329162943104,
      "grad_norm": 0.002573625184595585,
      "learning_rate": 1.7544050754443857e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49616232,
      "step": 85505
    },
    {
      "epoch": 12.736073875484063,
      "grad_norm": 0.0015679585048928857,
      "learning_rate": 1.7540949272121244e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49618792,
      "step": 85510
    },
    {
      "epoch": 12.736818588025022,
      "grad_norm": 48.4932861328125,
      "learning_rate": 1.753784791581171e-05,
      "loss": 0.0953,
      "num_input_tokens_seen": 49621544,
      "step": 85515
    },
    {
      "epoch": 12.73756330056598,
      "grad_norm": 11.035700798034668,
      "learning_rate": 1.753474668556764e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 49624584,
      "step": 85520
    },
    {
      "epoch": 12.738308013106941,
      "grad_norm": 0.007351173087954521,
      "learning_rate": 1.7531645581441447e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 49627336,
      "step": 85525
    },
    {
      "epoch": 12.7390527256479,
      "grad_norm": 0.03797909989953041,
      "learning_rate": 1.7528544603485507e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49630344,
      "step": 85530
    },
    {
      "epoch": 12.739797438188859,
      "grad_norm": 0.004187440499663353,
      "learning_rate": 1.7525443751752218e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49633064,
      "step": 85535
    },
    {
      "epoch": 12.740542150729818,
      "grad_norm": 40.394718170166016,
      "learning_rate": 1.7522343026293953e-05,
      "loss": 0.2302,
      "num_input_tokens_seen": 49635912,
      "step": 85540
    },
    {
      "epoch": 12.741286863270778,
      "grad_norm": 0.004994398448616266,
      "learning_rate": 1.751924242716311e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49638504,
      "step": 85545
    },
    {
      "epoch": 12.742031575811737,
      "grad_norm": 0.1719011664390564,
      "learning_rate": 1.751614195441205e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49641224,
      "step": 85550
    },
    {
      "epoch": 12.742776288352696,
      "grad_norm": 0.02538434974849224,
      "learning_rate": 1.7513041608093185e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49644200,
      "step": 85555
    },
    {
      "epoch": 12.743521000893654,
      "grad_norm": 0.009150778874754906,
      "learning_rate": 1.7509941388258865e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49646920,
      "step": 85560
    },
    {
      "epoch": 12.744265713434615,
      "grad_norm": 0.0600925013422966,
      "learning_rate": 1.750684129496147e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 49649896,
      "step": 85565
    },
    {
      "epoch": 12.745010425975574,
      "grad_norm": 0.007252496667206287,
      "learning_rate": 1.7503741328253377e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49652904,
      "step": 85570
    },
    {
      "epoch": 12.745755138516532,
      "grad_norm": 0.0005860585952177644,
      "learning_rate": 1.7500641488186946e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49655976,
      "step": 85575
    },
    {
      "epoch": 12.746499851057491,
      "grad_norm": 9.86843204498291,
      "learning_rate": 1.7497541774814568e-05,
      "loss": 0.1162,
      "num_input_tokens_seen": 49659016,
      "step": 85580
    },
    {
      "epoch": 12.747244563598452,
      "grad_norm": 24.809589385986328,
      "learning_rate": 1.7494442188188588e-05,
      "loss": 0.1321,
      "num_input_tokens_seen": 49661704,
      "step": 85585
    },
    {
      "epoch": 12.74798927613941,
      "grad_norm": 0.01073446124792099,
      "learning_rate": 1.7491342728361383e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49664840,
      "step": 85590
    },
    {
      "epoch": 12.74873398868037,
      "grad_norm": 0.14880770444869995,
      "learning_rate": 1.7488243395385317e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 49667848,
      "step": 85595
    },
    {
      "epoch": 12.749478701221328,
      "grad_norm": 0.23398159444332123,
      "learning_rate": 1.7485144189312735e-05,
      "loss": 0.0251,
      "num_input_tokens_seen": 49670792,
      "step": 85600
    },
    {
      "epoch": 12.750223413762289,
      "grad_norm": 0.000900487822946161,
      "learning_rate": 1.7482045110196014e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49674184,
      "step": 85605
    },
    {
      "epoch": 12.750968126303247,
      "grad_norm": 0.2789866328239441,
      "learning_rate": 1.7478946158087484e-05,
      "loss": 0.1061,
      "num_input_tokens_seen": 49677480,
      "step": 85610
    },
    {
      "epoch": 12.751712838844206,
      "grad_norm": 0.009189522825181484,
      "learning_rate": 1.747584733303953e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49680104,
      "step": 85615
    },
    {
      "epoch": 12.752457551385165,
      "grad_norm": 0.0017520671244710684,
      "learning_rate": 1.7472748635104475e-05,
      "loss": 0.1347,
      "num_input_tokens_seen": 49683144,
      "step": 85620
    },
    {
      "epoch": 12.753202263926125,
      "grad_norm": 0.002758805174380541,
      "learning_rate": 1.7469650064334693e-05,
      "loss": 0.0564,
      "num_input_tokens_seen": 49686216,
      "step": 85625
    },
    {
      "epoch": 12.753946976467084,
      "grad_norm": 0.03727464750409126,
      "learning_rate": 1.746655162078251e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 49689192,
      "step": 85630
    },
    {
      "epoch": 12.754691689008043,
      "grad_norm": 0.005234781187027693,
      "learning_rate": 1.7463453304500292e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 49691912,
      "step": 85635
    },
    {
      "epoch": 12.755436401549002,
      "grad_norm": 0.001748373731970787,
      "learning_rate": 1.7460355115540366e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49694536,
      "step": 85640
    },
    {
      "epoch": 12.756181114089962,
      "grad_norm": 0.0576603077352047,
      "learning_rate": 1.7457257053955073e-05,
      "loss": 0.0405,
      "num_input_tokens_seen": 49697288,
      "step": 85645
    },
    {
      "epoch": 12.756925826630921,
      "grad_norm": 0.0009440607391297817,
      "learning_rate": 1.7454159119796758e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49699816,
      "step": 85650
    },
    {
      "epoch": 12.75767053917188,
      "grad_norm": 0.0001408819225616753,
      "learning_rate": 1.745106131311775e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49702472,
      "step": 85655
    },
    {
      "epoch": 12.758415251712838,
      "grad_norm": 0.006672492250800133,
      "learning_rate": 1.74479636339704e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49705096,
      "step": 85660
    },
    {
      "epoch": 12.759159964253797,
      "grad_norm": 1.3012596368789673,
      "learning_rate": 1.7444866082407026e-05,
      "loss": 0.1357,
      "num_input_tokens_seen": 49707944,
      "step": 85665
    },
    {
      "epoch": 12.759904676794758,
      "grad_norm": 34.30036544799805,
      "learning_rate": 1.744176865847996e-05,
      "loss": 0.0736,
      "num_input_tokens_seen": 49710664,
      "step": 85670
    },
    {
      "epoch": 12.760649389335716,
      "grad_norm": 0.011621681973338127,
      "learning_rate": 1.743867136224153e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49713256,
      "step": 85675
    },
    {
      "epoch": 12.761394101876675,
      "grad_norm": 0.4993090331554413,
      "learning_rate": 1.743557419374406e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49716264,
      "step": 85680
    },
    {
      "epoch": 12.762138814417634,
      "grad_norm": 1.1655102968215942,
      "learning_rate": 1.7432477153039877e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 49718952,
      "step": 85685
    },
    {
      "epoch": 12.762883526958595,
      "grad_norm": 0.014638612046837807,
      "learning_rate": 1.7429380240181296e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49721704,
      "step": 85690
    },
    {
      "epoch": 12.763628239499553,
      "grad_norm": 0.006683072540909052,
      "learning_rate": 1.7426283455220652e-05,
      "loss": 0.0026,
      "num_input_tokens_seen": 49724584,
      "step": 85695
    },
    {
      "epoch": 12.764372952040512,
      "grad_norm": 0.006129187531769276,
      "learning_rate": 1.7423186798210244e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49727400,
      "step": 85700
    },
    {
      "epoch": 12.76511766458147,
      "grad_norm": 18.914560317993164,
      "learning_rate": 1.74200902692024e-05,
      "loss": 0.1536,
      "num_input_tokens_seen": 49730184,
      "step": 85705
    },
    {
      "epoch": 12.765862377122431,
      "grad_norm": 0.001015238813124597,
      "learning_rate": 1.7416993868249422e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 49733160,
      "step": 85710
    },
    {
      "epoch": 12.76660708966339,
      "grad_norm": 0.006064096465706825,
      "learning_rate": 1.7413897595403627e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49736136,
      "step": 85715
    },
    {
      "epoch": 12.767351802204349,
      "grad_norm": 0.00730032566934824,
      "learning_rate": 1.741080145071733e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 49739144,
      "step": 85720
    },
    {
      "epoch": 12.768096514745308,
      "grad_norm": 0.0009826634777709842,
      "learning_rate": 1.740770543424281e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 49741896,
      "step": 85725
    },
    {
      "epoch": 12.768841227286268,
      "grad_norm": 0.0011390717700123787,
      "learning_rate": 1.7404609546032407e-05,
      "loss": 0.1223,
      "num_input_tokens_seen": 49745064,
      "step": 85730
    },
    {
      "epoch": 12.769585939827227,
      "grad_norm": 0.00012300618982408196,
      "learning_rate": 1.7401513786138402e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 49747816,
      "step": 85735
    },
    {
      "epoch": 12.770330652368186,
      "grad_norm": 1.37235426902771,
      "learning_rate": 1.73984181546131e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 49750952,
      "step": 85740
    },
    {
      "epoch": 12.771075364909144,
      "grad_norm": 0.0009762257686816156,
      "learning_rate": 1.7395322651508788e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49753960,
      "step": 85745
    },
    {
      "epoch": 12.771820077450105,
      "grad_norm": 47.89569091796875,
      "learning_rate": 1.739222727687778e-05,
      "loss": 0.2263,
      "num_input_tokens_seen": 49757032,
      "step": 85750
    },
    {
      "epoch": 12.772564789991064,
      "grad_norm": 0.0016294348752126098,
      "learning_rate": 1.7389132030772365e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49759944,
      "step": 85755
    },
    {
      "epoch": 12.773309502532022,
      "grad_norm": 0.002642733510583639,
      "learning_rate": 1.7386036913244812e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 49762984,
      "step": 85760
    },
    {
      "epoch": 12.774054215072981,
      "grad_norm": 0.005585290025919676,
      "learning_rate": 1.7382941924347443e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49766088,
      "step": 85765
    },
    {
      "epoch": 12.774798927613942,
      "grad_norm": 0.0012435733806341887,
      "learning_rate": 1.737984706413252e-05,
      "loss": 0.3095,
      "num_input_tokens_seen": 49768968,
      "step": 85770
    },
    {
      "epoch": 12.7755436401549,
      "grad_norm": 0.00925416499376297,
      "learning_rate": 1.737675233265234e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49771752,
      "step": 85775
    },
    {
      "epoch": 12.77628835269586,
      "grad_norm": 0.0047667548060417175,
      "learning_rate": 1.7373657729959176e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49774568,
      "step": 85780
    },
    {
      "epoch": 12.777033065236818,
      "grad_norm": 0.0004403212806209922,
      "learning_rate": 1.7370563256105322e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49777352,
      "step": 85785
    },
    {
      "epoch": 12.777777777777779,
      "grad_norm": 0.001012840191833675,
      "learning_rate": 1.7367468911143036e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49780232,
      "step": 85790
    },
    {
      "epoch": 12.778522490318737,
      "grad_norm": 18.38106346130371,
      "learning_rate": 1.7364374695124613e-05,
      "loss": 0.2308,
      "num_input_tokens_seen": 49783624,
      "step": 85795
    },
    {
      "epoch": 12.779267202859696,
      "grad_norm": 0.0038849576376378536,
      "learning_rate": 1.7361280608102325e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49786312,
      "step": 85800
    },
    {
      "epoch": 12.780011915400655,
      "grad_norm": 0.00010448471584822983,
      "learning_rate": 1.7358186650128427e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49789128,
      "step": 85805
    },
    {
      "epoch": 12.780756627941614,
      "grad_norm": 16.51906394958496,
      "learning_rate": 1.7355092821255208e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 49792392,
      "step": 85810
    },
    {
      "epoch": 12.781501340482574,
      "grad_norm": 0.0003250965673942119,
      "learning_rate": 1.7351999121534913e-05,
      "loss": 0.1074,
      "num_input_tokens_seen": 49795528,
      "step": 85815
    },
    {
      "epoch": 12.782246053023533,
      "grad_norm": 0.002071030903607607,
      "learning_rate": 1.734890555101983e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49799368,
      "step": 85820
    },
    {
      "epoch": 12.782990765564492,
      "grad_norm": 0.0024151417892426252,
      "learning_rate": 1.7345812109762204e-05,
      "loss": 0.0086,
      "num_input_tokens_seen": 49802056,
      "step": 85825
    },
    {
      "epoch": 12.783735478105452,
      "grad_norm": 0.00881650485098362,
      "learning_rate": 1.734271879781431e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49805192,
      "step": 85830
    },
    {
      "epoch": 12.784480190646411,
      "grad_norm": 0.24934937059879303,
      "learning_rate": 1.7339625615228396e-05,
      "loss": 0.272,
      "num_input_tokens_seen": 49807976,
      "step": 85835
    },
    {
      "epoch": 12.78522490318737,
      "grad_norm": 0.012955710291862488,
      "learning_rate": 1.733653256205673e-05,
      "loss": 0.0577,
      "num_input_tokens_seen": 49810888,
      "step": 85840
    },
    {
      "epoch": 12.785969615728328,
      "grad_norm": 0.0741247907280922,
      "learning_rate": 1.733343963835155e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49813576,
      "step": 85845
    },
    {
      "epoch": 12.786714328269287,
      "grad_norm": 0.0019495576852932572,
      "learning_rate": 1.733034684416511e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49816296,
      "step": 85850
    },
    {
      "epoch": 12.787459040810248,
      "grad_norm": 8.905799865722656,
      "learning_rate": 1.7327254179549674e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 49819336,
      "step": 85855
    },
    {
      "epoch": 12.788203753351207,
      "grad_norm": 0.007200423628091812,
      "learning_rate": 1.7324161644557472e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49822248,
      "step": 85860
    },
    {
      "epoch": 12.788948465892165,
      "grad_norm": 0.002365785650908947,
      "learning_rate": 1.7321069239240767e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 49825064,
      "step": 85865
    },
    {
      "epoch": 12.789693178433124,
      "grad_norm": 0.04613224416971207,
      "learning_rate": 1.7317976963651783e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49828040,
      "step": 85870
    },
    {
      "epoch": 12.790437890974085,
      "grad_norm": 0.0071772919036448,
      "learning_rate": 1.731488481784278e-05,
      "loss": 0.172,
      "num_input_tokens_seen": 49830824,
      "step": 85875
    },
    {
      "epoch": 12.791182603515043,
      "grad_norm": 0.04386036470532417,
      "learning_rate": 1.731179280186599e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49833352,
      "step": 85880
    },
    {
      "epoch": 12.791927316056002,
      "grad_norm": 0.00025033362908288836,
      "learning_rate": 1.730870091577363e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 49836104,
      "step": 85885
    },
    {
      "epoch": 12.79267202859696,
      "grad_norm": 0.03709648549556732,
      "learning_rate": 1.7305609159617965e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 49839144,
      "step": 85890
    },
    {
      "epoch": 12.793416741137921,
      "grad_norm": 0.0008497511153109372,
      "learning_rate": 1.730251753345121e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49841992,
      "step": 85895
    },
    {
      "epoch": 12.79416145367888,
      "grad_norm": 0.04270146042108536,
      "learning_rate": 1.72994260373256e-05,
      "loss": 0.021,
      "num_input_tokens_seen": 49845000,
      "step": 85900
    },
    {
      "epoch": 12.794906166219839,
      "grad_norm": 0.022689424455165863,
      "learning_rate": 1.729633467129335e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 49847624,
      "step": 85905
    },
    {
      "epoch": 12.795650878760798,
      "grad_norm": 6.814088821411133,
      "learning_rate": 1.7293243435406705e-05,
      "loss": 0.017,
      "num_input_tokens_seen": 49850504,
      "step": 85910
    },
    {
      "epoch": 12.796395591301758,
      "grad_norm": 0.026605229824781418,
      "learning_rate": 1.7290152329717873e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 49853160,
      "step": 85915
    },
    {
      "epoch": 12.797140303842717,
      "grad_norm": 0.01801992952823639,
      "learning_rate": 1.7287061354279088e-05,
      "loss": 0.0154,
      "num_input_tokens_seen": 49856200,
      "step": 85920
    },
    {
      "epoch": 12.797885016383676,
      "grad_norm": 0.006099491845816374,
      "learning_rate": 1.7283970509142567e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49858984,
      "step": 85925
    },
    {
      "epoch": 12.798629728924634,
      "grad_norm": 0.0017317120218649507,
      "learning_rate": 1.728087979436051e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 49862056,
      "step": 85930
    },
    {
      "epoch": 12.799374441465595,
      "grad_norm": 0.0011824555695056915,
      "learning_rate": 1.7277789209985155e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49864872,
      "step": 85935
    },
    {
      "epoch": 12.800119154006554,
      "grad_norm": 49.937381744384766,
      "learning_rate": 1.727469875606869e-05,
      "loss": 0.2565,
      "num_input_tokens_seen": 49867624,
      "step": 85940
    },
    {
      "epoch": 12.800863866547513,
      "grad_norm": 0.0016645158175379038,
      "learning_rate": 1.727160843266335e-05,
      "loss": 0.0096,
      "num_input_tokens_seen": 49870632,
      "step": 85945
    },
    {
      "epoch": 12.801608579088471,
      "grad_norm": 0.005951110739260912,
      "learning_rate": 1.7268518239821318e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49873320,
      "step": 85950
    },
    {
      "epoch": 12.802353291629432,
      "grad_norm": 0.013022961094975471,
      "learning_rate": 1.7265428177594822e-05,
      "loss": 0.1847,
      "num_input_tokens_seen": 49876072,
      "step": 85955
    },
    {
      "epoch": 12.80309800417039,
      "grad_norm": 0.119065061211586,
      "learning_rate": 1.7262338246036057e-05,
      "loss": 0.0198,
      "num_input_tokens_seen": 49878856,
      "step": 85960
    },
    {
      "epoch": 12.80384271671135,
      "grad_norm": 0.00018323470430914313,
      "learning_rate": 1.7259248445197217e-05,
      "loss": 0.0499,
      "num_input_tokens_seen": 49881864,
      "step": 85965
    },
    {
      "epoch": 12.804587429252308,
      "grad_norm": 0.09722508490085602,
      "learning_rate": 1.7256158775130517e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 49884616,
      "step": 85970
    },
    {
      "epoch": 12.805332141793269,
      "grad_norm": 0.001256395597010851,
      "learning_rate": 1.725306923588813e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49887656,
      "step": 85975
    },
    {
      "epoch": 12.806076854334227,
      "grad_norm": 230.7549285888672,
      "learning_rate": 1.7249979827522274e-05,
      "loss": 0.1067,
      "num_input_tokens_seen": 49890696,
      "step": 85980
    },
    {
      "epoch": 12.806821566875186,
      "grad_norm": 80.88711547851562,
      "learning_rate": 1.7246890550085122e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 49893416,
      "step": 85985
    },
    {
      "epoch": 12.807566279416145,
      "grad_norm": 0.00483110873028636,
      "learning_rate": 1.7243801403628887e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49896296,
      "step": 85990
    },
    {
      "epoch": 12.808310991957104,
      "grad_norm": 0.00378028373233974,
      "learning_rate": 1.724071238820574e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49899272,
      "step": 85995
    },
    {
      "epoch": 12.809055704498064,
      "grad_norm": 0.0004955708864144981,
      "learning_rate": 1.723762350386787e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49902440,
      "step": 86000
    },
    {
      "epoch": 12.809800417039023,
      "grad_norm": 153.06930541992188,
      "learning_rate": 1.7234534750667468e-05,
      "loss": 0.0332,
      "num_input_tokens_seen": 49905448,
      "step": 86005
    },
    {
      "epoch": 12.810545129579982,
      "grad_norm": 0.00922479573637247,
      "learning_rate": 1.7231446128656693e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49908456,
      "step": 86010
    },
    {
      "epoch": 12.811289842120942,
      "grad_norm": 0.006008633878082037,
      "learning_rate": 1.7228357637887755e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49911304,
      "step": 86015
    },
    {
      "epoch": 12.812034554661901,
      "grad_norm": 0.2837230861186981,
      "learning_rate": 1.7225269278412802e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 49914120,
      "step": 86020
    },
    {
      "epoch": 12.81277926720286,
      "grad_norm": 0.9178295135498047,
      "learning_rate": 1.7222181050284037e-05,
      "loss": 0.0978,
      "num_input_tokens_seen": 49917128,
      "step": 86025
    },
    {
      "epoch": 12.813523979743819,
      "grad_norm": 9.826861059991643e-05,
      "learning_rate": 1.7219092953553612e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49920392,
      "step": 86030
    },
    {
      "epoch": 12.814268692284777,
      "grad_norm": 9.388774196850136e-05,
      "learning_rate": 1.7216004988273706e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49923112,
      "step": 86035
    },
    {
      "epoch": 12.815013404825738,
      "grad_norm": 0.001240232726559043,
      "learning_rate": 1.7212917154496488e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49925768,
      "step": 86040
    },
    {
      "epoch": 12.815758117366697,
      "grad_norm": 0.00502936914563179,
      "learning_rate": 1.7209829452274108e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 49928712,
      "step": 86045
    },
    {
      "epoch": 12.816502829907655,
      "grad_norm": 3.2001092433929443,
      "learning_rate": 1.720674188165875e-05,
      "loss": 0.0195,
      "num_input_tokens_seen": 49931656,
      "step": 86050
    },
    {
      "epoch": 12.817247542448614,
      "grad_norm": 0.033334456384181976,
      "learning_rate": 1.720365444270256e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49934472,
      "step": 86055
    },
    {
      "epoch": 12.817992254989575,
      "grad_norm": 0.012524768710136414,
      "learning_rate": 1.720056713545771e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 49937352,
      "step": 86060
    },
    {
      "epoch": 12.818736967530533,
      "grad_norm": 0.0002067453897325322,
      "learning_rate": 1.7197479959976353e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49940424,
      "step": 86065
    },
    {
      "epoch": 12.819481680071492,
      "grad_norm": 0.10693121701478958,
      "learning_rate": 1.719439291631064e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49942952,
      "step": 86070
    },
    {
      "epoch": 12.820226392612451,
      "grad_norm": 0.0027208710089325905,
      "learning_rate": 1.7191306004512723e-05,
      "loss": 0.1907,
      "num_input_tokens_seen": 49945736,
      "step": 86075
    },
    {
      "epoch": 12.820971105153411,
      "grad_norm": 0.09101233631372452,
      "learning_rate": 1.7188219224634762e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49948552,
      "step": 86080
    },
    {
      "epoch": 12.82171581769437,
      "grad_norm": 57.85213088989258,
      "learning_rate": 1.7185132576728898e-05,
      "loss": 0.4313,
      "num_input_tokens_seen": 49951432,
      "step": 86085
    },
    {
      "epoch": 12.822460530235329,
      "grad_norm": 0.10212627798318863,
      "learning_rate": 1.718204606084726e-05,
      "loss": 0.2346,
      "num_input_tokens_seen": 49954472,
      "step": 86090
    },
    {
      "epoch": 12.823205242776288,
      "grad_norm": 0.0014771997230127454,
      "learning_rate": 1.717895967704202e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 49957320,
      "step": 86095
    },
    {
      "epoch": 12.823949955317248,
      "grad_norm": 0.00482377503067255,
      "learning_rate": 1.7175873425365308e-05,
      "loss": 0.0345,
      "num_input_tokens_seen": 49960264,
      "step": 86100
    },
    {
      "epoch": 12.824694667858207,
      "grad_norm": 0.007233985234051943,
      "learning_rate": 1.7172787305869266e-05,
      "loss": 0.2662,
      "num_input_tokens_seen": 49963176,
      "step": 86105
    },
    {
      "epoch": 12.825439380399166,
      "grad_norm": 0.004093596246093512,
      "learning_rate": 1.7169701318606014e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49966024,
      "step": 86110
    },
    {
      "epoch": 12.826184092940125,
      "grad_norm": 10.93901538848877,
      "learning_rate": 1.7166615463627712e-05,
      "loss": 0.0689,
      "num_input_tokens_seen": 49969032,
      "step": 86115
    },
    {
      "epoch": 12.826928805481085,
      "grad_norm": 0.017470357939600945,
      "learning_rate": 1.716352974098648e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 49972168,
      "step": 86120
    },
    {
      "epoch": 12.827673518022044,
      "grad_norm": 0.06853864341974258,
      "learning_rate": 1.716044415073444e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 49974856,
      "step": 86125
    },
    {
      "epoch": 12.828418230563003,
      "grad_norm": 0.007072886917740107,
      "learning_rate": 1.7157358692923737e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 49977992,
      "step": 86130
    },
    {
      "epoch": 12.829162943103961,
      "grad_norm": 0.0034338568802922964,
      "learning_rate": 1.7154273367606484e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 49981288,
      "step": 86135
    },
    {
      "epoch": 12.829907655644922,
      "grad_norm": 0.010928726755082607,
      "learning_rate": 1.715118817483481e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49984392,
      "step": 86140
    },
    {
      "epoch": 12.83065236818588,
      "grad_norm": 0.007300604600459337,
      "learning_rate": 1.7148103114660825e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 49987112,
      "step": 86145
    },
    {
      "epoch": 12.83139708072684,
      "grad_norm": 0.0024756065104156733,
      "learning_rate": 1.7145018187136668e-05,
      "loss": 0.219,
      "num_input_tokens_seen": 49989832,
      "step": 86150
    },
    {
      "epoch": 12.832141793267798,
      "grad_norm": 0.2511807084083557,
      "learning_rate": 1.7141933392314436e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 49992616,
      "step": 86155
    },
    {
      "epoch": 12.832886505808759,
      "grad_norm": 0.12823553383350372,
      "learning_rate": 1.7138848730246264e-05,
      "loss": 0.1832,
      "num_input_tokens_seen": 49995496,
      "step": 86160
    },
    {
      "epoch": 12.833631218349717,
      "grad_norm": 0.001311312080360949,
      "learning_rate": 1.7135764200984253e-05,
      "loss": 0.2834,
      "num_input_tokens_seen": 49998376,
      "step": 86165
    },
    {
      "epoch": 12.834375930890676,
      "grad_norm": 0.0024212056305259466,
      "learning_rate": 1.7132679804580505e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50000904,
      "step": 86170
    },
    {
      "epoch": 12.835120643431635,
      "grad_norm": 0.02498857118189335,
      "learning_rate": 1.7129595541087146e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50004104,
      "step": 86175
    },
    {
      "epoch": 12.835865355972594,
      "grad_norm": 0.0749933272600174,
      "learning_rate": 1.7126511410556256e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 50007144,
      "step": 86180
    },
    {
      "epoch": 12.836610068513554,
      "grad_norm": 0.0011866599088534713,
      "learning_rate": 1.7123427413039967e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50010280,
      "step": 86185
    },
    {
      "epoch": 12.837354781054513,
      "grad_norm": 0.0018238775664940476,
      "learning_rate": 1.712034354859036e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50012808,
      "step": 86190
    },
    {
      "epoch": 12.838099493595472,
      "grad_norm": 0.03784217685461044,
      "learning_rate": 1.711725981725954e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50015592,
      "step": 86195
    },
    {
      "epoch": 12.83884420613643,
      "grad_norm": 0.0034344415180385113,
      "learning_rate": 1.7114176219099607e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50018408,
      "step": 86200
    },
    {
      "epoch": 12.839588918677391,
      "grad_norm": 0.01965375430881977,
      "learning_rate": 1.711109275416265e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50021096,
      "step": 86205
    },
    {
      "epoch": 12.84033363121835,
      "grad_norm": 27.786577224731445,
      "learning_rate": 1.7108009422500767e-05,
      "loss": 0.2356,
      "num_input_tokens_seen": 50024104,
      "step": 86210
    },
    {
      "epoch": 12.841078343759309,
      "grad_norm": 0.007039076182991266,
      "learning_rate": 1.7104926224166033e-05,
      "loss": 0.0459,
      "num_input_tokens_seen": 50026952,
      "step": 86215
    },
    {
      "epoch": 12.841823056300267,
      "grad_norm": 0.014220036566257477,
      "learning_rate": 1.7101843159210556e-05,
      "loss": 0.1022,
      "num_input_tokens_seen": 50029640,
      "step": 86220
    },
    {
      "epoch": 12.842567768841228,
      "grad_norm": 68.02247619628906,
      "learning_rate": 1.709876022768641e-05,
      "loss": 0.6298,
      "num_input_tokens_seen": 50032520,
      "step": 86225
    },
    {
      "epoch": 12.843312481382187,
      "grad_norm": 0.2617398500442505,
      "learning_rate": 1.7095677429645682e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 50035432,
      "step": 86230
    },
    {
      "epoch": 12.844057193923145,
      "grad_norm": 0.002088585402816534,
      "learning_rate": 1.709259476514044e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50038120,
      "step": 86235
    },
    {
      "epoch": 12.844801906464104,
      "grad_norm": 0.014629744924604893,
      "learning_rate": 1.7089512234222783e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 50041064,
      "step": 86240
    },
    {
      "epoch": 12.845546619005065,
      "grad_norm": 0.007887794636189938,
      "learning_rate": 1.7086429836944777e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50044232,
      "step": 86245
    },
    {
      "epoch": 12.846291331546023,
      "grad_norm": 10.935017585754395,
      "learning_rate": 1.7083347573358484e-05,
      "loss": 0.0397,
      "num_input_tokens_seen": 50047496,
      "step": 86250
    },
    {
      "epoch": 12.847036044086982,
      "grad_norm": 0.12644322216510773,
      "learning_rate": 1.7080265443516e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50050408,
      "step": 86255
    },
    {
      "epoch": 12.847780756627941,
      "grad_norm": 0.0035421771463006735,
      "learning_rate": 1.7077183447469376e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 50053160,
      "step": 86260
    },
    {
      "epoch": 12.848525469168901,
      "grad_norm": 0.0020738141611218452,
      "learning_rate": 1.7074101585270692e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 50056008,
      "step": 86265
    },
    {
      "epoch": 12.84927018170986,
      "grad_norm": 0.0012176433810964227,
      "learning_rate": 1.7071019856971993e-05,
      "loss": 0.1163,
      "num_input_tokens_seen": 50058792,
      "step": 86270
    },
    {
      "epoch": 12.850014894250819,
      "grad_norm": 0.006826157681643963,
      "learning_rate": 1.7067938262625364e-05,
      "loss": 0.0627,
      "num_input_tokens_seen": 50061832,
      "step": 86275
    },
    {
      "epoch": 12.850759606791778,
      "grad_norm": 0.007395946886390448,
      "learning_rate": 1.7064856802282865e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50064488,
      "step": 86280
    },
    {
      "epoch": 12.851504319332738,
      "grad_norm": 0.05645047873258591,
      "learning_rate": 1.706177547599653e-05,
      "loss": 0.1379,
      "num_input_tokens_seen": 50067496,
      "step": 86285
    },
    {
      "epoch": 12.852249031873697,
      "grad_norm": 0.0029509433079510927,
      "learning_rate": 1.7058694283818437e-05,
      "loss": 0.0736,
      "num_input_tokens_seen": 50070408,
      "step": 86290
    },
    {
      "epoch": 12.852993744414656,
      "grad_norm": 0.012600388377904892,
      "learning_rate": 1.705561322580063e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 50073224,
      "step": 86295
    },
    {
      "epoch": 12.853738456955615,
      "grad_norm": 3.950110673904419,
      "learning_rate": 1.7052532301995168e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 50076328,
      "step": 86300
    },
    {
      "epoch": 12.854483169496575,
      "grad_norm": 0.10185321420431137,
      "learning_rate": 1.7049451512454085e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50079080,
      "step": 86305
    },
    {
      "epoch": 12.855227882037534,
      "grad_norm": 0.002916630357503891,
      "learning_rate": 1.704637085722945e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50081992,
      "step": 86310
    },
    {
      "epoch": 12.855972594578493,
      "grad_norm": 0.0012045747134834528,
      "learning_rate": 1.7043290336373286e-05,
      "loss": 0.0884,
      "num_input_tokens_seen": 50084712,
      "step": 86315
    },
    {
      "epoch": 12.856717307119451,
      "grad_norm": 0.019029701128602028,
      "learning_rate": 1.7040209949937653e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50087304,
      "step": 86320
    },
    {
      "epoch": 12.857462019660412,
      "grad_norm": 0.048420604318380356,
      "learning_rate": 1.7037129697974585e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 50090120,
      "step": 86325
    },
    {
      "epoch": 12.85820673220137,
      "grad_norm": 2.0291757583618164,
      "learning_rate": 1.703404958053611e-05,
      "loss": 0.0064,
      "num_input_tokens_seen": 50092968,
      "step": 86330
    },
    {
      "epoch": 12.85895144474233,
      "grad_norm": 0.0327225923538208,
      "learning_rate": 1.703096959767428e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 50095720,
      "step": 86335
    },
    {
      "epoch": 12.859696157283288,
      "grad_norm": 0.0031573723535984755,
      "learning_rate": 1.7027889749441108e-05,
      "loss": 0.0111,
      "num_input_tokens_seen": 50098984,
      "step": 86340
    },
    {
      "epoch": 12.860440869824249,
      "grad_norm": 0.0036704745143651962,
      "learning_rate": 1.702481003588864e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50101832,
      "step": 86345
    },
    {
      "epoch": 12.861185582365207,
      "grad_norm": 0.008529769256711006,
      "learning_rate": 1.7021730457068898e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50104872,
      "step": 86350
    },
    {
      "epoch": 12.861930294906166,
      "grad_norm": 42.211524963378906,
      "learning_rate": 1.701865101303392e-05,
      "loss": 0.0694,
      "num_input_tokens_seen": 50107976,
      "step": 86355
    },
    {
      "epoch": 12.862675007447125,
      "grad_norm": 0.18314635753631592,
      "learning_rate": 1.701557170383572e-05,
      "loss": 0.1037,
      "num_input_tokens_seen": 50110952,
      "step": 86360
    },
    {
      "epoch": 12.863419719988084,
      "grad_norm": 0.00016793179383967072,
      "learning_rate": 1.7012492529526315e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50114088,
      "step": 86365
    },
    {
      "epoch": 12.864164432529044,
      "grad_norm": 1.9830600023269653,
      "learning_rate": 1.700941349015774e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 50117224,
      "step": 86370
    },
    {
      "epoch": 12.864909145070003,
      "grad_norm": 0.0028770407661795616,
      "learning_rate": 1.7006334585781986e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50120264,
      "step": 86375
    },
    {
      "epoch": 12.865653857610962,
      "grad_norm": 0.0035424456000328064,
      "learning_rate": 1.7003255816451098e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50122984,
      "step": 86380
    },
    {
      "epoch": 12.86639857015192,
      "grad_norm": 0.0106508182361722,
      "learning_rate": 1.7000177182217066e-05,
      "loss": 0.0625,
      "num_input_tokens_seen": 50125928,
      "step": 86385
    },
    {
      "epoch": 12.867143282692881,
      "grad_norm": 0.0025823365431278944,
      "learning_rate": 1.6997098683131918e-05,
      "loss": 0.1388,
      "num_input_tokens_seen": 50128680,
      "step": 86390
    },
    {
      "epoch": 12.86788799523384,
      "grad_norm": 0.0015631236601620913,
      "learning_rate": 1.699402031924765e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50131272,
      "step": 86395
    },
    {
      "epoch": 12.868632707774799,
      "grad_norm": 0.0022922975476831198,
      "learning_rate": 1.699094209061628e-05,
      "loss": 0.2861,
      "num_input_tokens_seen": 50134632,
      "step": 86400
    },
    {
      "epoch": 12.869377420315757,
      "grad_norm": 0.002426766324788332,
      "learning_rate": 1.69878639972898e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50137384,
      "step": 86405
    },
    {
      "epoch": 12.870122132856718,
      "grad_norm": 0.0062148855067789555,
      "learning_rate": 1.6984786039320207e-05,
      "loss": 0.0776,
      "num_input_tokens_seen": 50140520,
      "step": 86410
    },
    {
      "epoch": 12.870866845397677,
      "grad_norm": 0.03178859129548073,
      "learning_rate": 1.6981708216759515e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50143496,
      "step": 86415
    },
    {
      "epoch": 12.871611557938635,
      "grad_norm": 0.5115147829055786,
      "learning_rate": 1.6978630529659706e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50146344,
      "step": 86420
    },
    {
      "epoch": 12.872356270479594,
      "grad_norm": 0.006729934364557266,
      "learning_rate": 1.697555297807279e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50149064,
      "step": 86425
    },
    {
      "epoch": 12.873100983020555,
      "grad_norm": 0.013009896501898766,
      "learning_rate": 1.6972475562050744e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50151912,
      "step": 86430
    },
    {
      "epoch": 12.873845695561513,
      "grad_norm": 0.8423597812652588,
      "learning_rate": 1.6969398281645572e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 50154824,
      "step": 86435
    },
    {
      "epoch": 12.874590408102472,
      "grad_norm": 0.007329519838094711,
      "learning_rate": 1.696632113690924e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50157704,
      "step": 86440
    },
    {
      "epoch": 12.875335120643431,
      "grad_norm": 43.89861297607422,
      "learning_rate": 1.6963244127893763e-05,
      "loss": 0.2362,
      "num_input_tokens_seen": 50160488,
      "step": 86445
    },
    {
      "epoch": 12.876079833184392,
      "grad_norm": 0.08033279329538345,
      "learning_rate": 1.6960167254651105e-05,
      "loss": 0.1886,
      "num_input_tokens_seen": 50163464,
      "step": 86450
    },
    {
      "epoch": 12.87682454572535,
      "grad_norm": 0.0004154015041422099,
      "learning_rate": 1.6957090517233242e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50166632,
      "step": 86455
    },
    {
      "epoch": 12.877569258266309,
      "grad_norm": 0.13318409025669098,
      "learning_rate": 1.6954013915692167e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50170024,
      "step": 86460
    },
    {
      "epoch": 12.878313970807268,
      "grad_norm": 17.40793228149414,
      "learning_rate": 1.695093745007985e-05,
      "loss": 0.0276,
      "num_input_tokens_seen": 50172712,
      "step": 86465
    },
    {
      "epoch": 12.879058683348228,
      "grad_norm": 0.007676674518734217,
      "learning_rate": 1.6947861120448262e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 50175624,
      "step": 86470
    },
    {
      "epoch": 12.879803395889187,
      "grad_norm": 0.029099948704242706,
      "learning_rate": 1.694478492684937e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50178280,
      "step": 86475
    },
    {
      "epoch": 12.880548108430146,
      "grad_norm": 25.629535675048828,
      "learning_rate": 1.694170886933516e-05,
      "loss": 0.0299,
      "num_input_tokens_seen": 50180840,
      "step": 86480
    },
    {
      "epoch": 12.881292820971105,
      "grad_norm": 0.154216930270195,
      "learning_rate": 1.693863294795759e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50183880,
      "step": 86485
    },
    {
      "epoch": 12.882037533512065,
      "grad_norm": 0.0537724532186985,
      "learning_rate": 1.6935557162768612e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50186600,
      "step": 86490
    },
    {
      "epoch": 12.882782246053024,
      "grad_norm": 0.5507469177246094,
      "learning_rate": 1.693248151382021e-05,
      "loss": 0.1286,
      "num_input_tokens_seen": 50189480,
      "step": 86495
    },
    {
      "epoch": 12.883526958593983,
      "grad_norm": 0.007830795831978321,
      "learning_rate": 1.6929406001164325e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50192136,
      "step": 86500
    },
    {
      "epoch": 12.884271671134941,
      "grad_norm": 0.0042371065355837345,
      "learning_rate": 1.6926330624852932e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50194888,
      "step": 86505
    },
    {
      "epoch": 12.8850163836759,
      "grad_norm": 0.015869194641709328,
      "learning_rate": 1.6923255384937963e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50197672,
      "step": 86510
    },
    {
      "epoch": 12.88576109621686,
      "grad_norm": 0.004749146290123463,
      "learning_rate": 1.69201802814714e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50200424,
      "step": 86515
    },
    {
      "epoch": 12.88650580875782,
      "grad_norm": 0.0006002438021823764,
      "learning_rate": 1.691710531450517e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50203304,
      "step": 86520
    },
    {
      "epoch": 12.887250521298778,
      "grad_norm": 0.0012200886849313974,
      "learning_rate": 1.6914030484091235e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50206312,
      "step": 86525
    },
    {
      "epoch": 12.887995233839739,
      "grad_norm": 0.000121206438052468,
      "learning_rate": 1.6910955790281538e-05,
      "loss": 0.0129,
      "num_input_tokens_seen": 50209224,
      "step": 86530
    },
    {
      "epoch": 12.888739946380698,
      "grad_norm": 0.053944237530231476,
      "learning_rate": 1.690788123312802e-05,
      "loss": 0.0266,
      "num_input_tokens_seen": 50212232,
      "step": 86535
    },
    {
      "epoch": 12.889484658921656,
      "grad_norm": 0.04895535483956337,
      "learning_rate": 1.6904806812682628e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50214920,
      "step": 86540
    },
    {
      "epoch": 12.890229371462615,
      "grad_norm": 0.0017494100611656904,
      "learning_rate": 1.6901732528997282e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 50217736,
      "step": 86545
    },
    {
      "epoch": 12.890974084003574,
      "grad_norm": 0.003255198011174798,
      "learning_rate": 1.689865838212395e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50220680,
      "step": 86550
    },
    {
      "epoch": 12.891718796544534,
      "grad_norm": 0.0123568931594491,
      "learning_rate": 1.6895584372114544e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50223464,
      "step": 86555
    },
    {
      "epoch": 12.892463509085493,
      "grad_norm": 10.633702278137207,
      "learning_rate": 1.689251049902101e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 50226312,
      "step": 86560
    },
    {
      "epoch": 12.893208221626452,
      "grad_norm": 0.0011273175477981567,
      "learning_rate": 1.6889436762895267e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50229160,
      "step": 86565
    },
    {
      "epoch": 12.89395293416741,
      "grad_norm": 0.007748921401798725,
      "learning_rate": 1.6886363163789243e-05,
      "loss": 0.4211,
      "num_input_tokens_seen": 50231912,
      "step": 86570
    },
    {
      "epoch": 12.894697646708371,
      "grad_norm": 0.006958744954317808,
      "learning_rate": 1.6883289701754872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50234920,
      "step": 86575
    },
    {
      "epoch": 12.89544235924933,
      "grad_norm": 0.0005128435441292822,
      "learning_rate": 1.6880216376844066e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50237768,
      "step": 86580
    },
    {
      "epoch": 12.896187071790289,
      "grad_norm": 0.0013547636335715652,
      "learning_rate": 1.6877143189108758e-05,
      "loss": 0.0427,
      "num_input_tokens_seen": 50240488,
      "step": 86585
    },
    {
      "epoch": 12.896931784331247,
      "grad_norm": 0.08840435743331909,
      "learning_rate": 1.6874070138600855e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50243272,
      "step": 86590
    },
    {
      "epoch": 12.897676496872208,
      "grad_norm": 0.000361681537469849,
      "learning_rate": 1.6870997225372286e-05,
      "loss": 0.1751,
      "num_input_tokens_seen": 50246056,
      "step": 86595
    },
    {
      "epoch": 12.898421209413167,
      "grad_norm": 0.011697440408170223,
      "learning_rate": 1.686792444947494e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 50248936,
      "step": 86600
    },
    {
      "epoch": 12.899165921954125,
      "grad_norm": 0.010391353629529476,
      "learning_rate": 1.6864851810960763e-05,
      "loss": 0.1285,
      "num_input_tokens_seen": 50251848,
      "step": 86605
    },
    {
      "epoch": 12.899910634495084,
      "grad_norm": 150.33285522460938,
      "learning_rate": 1.6861779309881648e-05,
      "loss": 0.0387,
      "num_input_tokens_seen": 50254856,
      "step": 86610
    },
    {
      "epoch": 12.900655347036045,
      "grad_norm": 0.02093256637454033,
      "learning_rate": 1.6858706946289486e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50258024,
      "step": 86615
    },
    {
      "epoch": 12.901400059577004,
      "grad_norm": 0.00026398315094411373,
      "learning_rate": 1.6855634720236206e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50260680,
      "step": 86620
    },
    {
      "epoch": 12.902144772117962,
      "grad_norm": 0.022578923031687737,
      "learning_rate": 1.6852562631773694e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 50263752,
      "step": 86625
    },
    {
      "epoch": 12.902889484658921,
      "grad_norm": 0.0004434601869434118,
      "learning_rate": 1.684949068095386e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50266728,
      "step": 86630
    },
    {
      "epoch": 12.903634197199882,
      "grad_norm": 0.04281598702073097,
      "learning_rate": 1.684641886782859e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50269512,
      "step": 86635
    },
    {
      "epoch": 12.90437890974084,
      "grad_norm": 0.002519595203921199,
      "learning_rate": 1.6843347192449793e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50272680,
      "step": 86640
    },
    {
      "epoch": 12.905123622281799,
      "grad_norm": 30.066587448120117,
      "learning_rate": 1.6840275654869358e-05,
      "loss": 0.0273,
      "num_input_tokens_seen": 50275720,
      "step": 86645
    },
    {
      "epoch": 12.905868334822758,
      "grad_norm": 0.005914322566241026,
      "learning_rate": 1.6837204255139164e-05,
      "loss": 0.0915,
      "num_input_tokens_seen": 50278504,
      "step": 86650
    },
    {
      "epoch": 12.906613047363718,
      "grad_norm": 0.05736080929636955,
      "learning_rate": 1.6834132993311115e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50281320,
      "step": 86655
    },
    {
      "epoch": 12.907357759904677,
      "grad_norm": 0.0034309944603592157,
      "learning_rate": 1.6831061869437086e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 50284264,
      "step": 86660
    },
    {
      "epoch": 12.908102472445636,
      "grad_norm": 0.0003907220670953393,
      "learning_rate": 1.6827990883568966e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 50287144,
      "step": 86665
    },
    {
      "epoch": 12.908847184986595,
      "grad_norm": 0.02957124449312687,
      "learning_rate": 1.6824920035758628e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50289960,
      "step": 86670
    },
    {
      "epoch": 12.909591897527555,
      "grad_norm": 0.03809047490358353,
      "learning_rate": 1.6821849326057963e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50292872,
      "step": 86675
    },
    {
      "epoch": 12.910336610068514,
      "grad_norm": 2.2993485927581787,
      "learning_rate": 1.681877875451884e-05,
      "loss": 0.0351,
      "num_input_tokens_seen": 50295816,
      "step": 86680
    },
    {
      "epoch": 12.911081322609473,
      "grad_norm": 0.007487273309379816,
      "learning_rate": 1.681570832119314e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 50299144,
      "step": 86685
    },
    {
      "epoch": 12.911826035150431,
      "grad_norm": 8.369502067565918,
      "learning_rate": 1.6812638026132728e-05,
      "loss": 0.0153,
      "num_input_tokens_seen": 50302216,
      "step": 86690
    },
    {
      "epoch": 12.91257074769139,
      "grad_norm": 0.003300424199551344,
      "learning_rate": 1.680956786938947e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50305096,
      "step": 86695
    },
    {
      "epoch": 12.91331546023235,
      "grad_norm": 0.008892511017620564,
      "learning_rate": 1.6806497851015246e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 50307784,
      "step": 86700
    },
    {
      "epoch": 12.91406017277331,
      "grad_norm": 5.146772673469968e-05,
      "learning_rate": 1.68034279710619e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50310568,
      "step": 86705
    },
    {
      "epoch": 12.914804885314268,
      "grad_norm": 0.003733758581802249,
      "learning_rate": 1.6800358229581326e-05,
      "loss": 0.13,
      "num_input_tokens_seen": 50313736,
      "step": 86710
    },
    {
      "epoch": 12.915549597855229,
      "grad_norm": 17.97358512878418,
      "learning_rate": 1.6797288626625345e-05,
      "loss": 0.0315,
      "num_input_tokens_seen": 50316840,
      "step": 86715
    },
    {
      "epoch": 12.916294310396188,
      "grad_norm": 0.00019394211994949728,
      "learning_rate": 1.6794219162245855e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 50319560,
      "step": 86720
    },
    {
      "epoch": 12.917039022937146,
      "grad_norm": 0.0005365990800783038,
      "learning_rate": 1.679114983649469e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50322376,
      "step": 86725
    },
    {
      "epoch": 12.917783735478105,
      "grad_norm": 0.0014580338029190898,
      "learning_rate": 1.6788080649423696e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50325192,
      "step": 86730
    },
    {
      "epoch": 12.918528448019064,
      "grad_norm": 0.0005964463343843818,
      "learning_rate": 1.678501160108474e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50328392,
      "step": 86735
    },
    {
      "epoch": 12.919273160560024,
      "grad_norm": 0.00040739966789260507,
      "learning_rate": 1.6781942691529656e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50331560,
      "step": 86740
    },
    {
      "epoch": 12.920017873100983,
      "grad_norm": 0.0007318115094676614,
      "learning_rate": 1.6778873920810305e-05,
      "loss": 0.1231,
      "num_input_tokens_seen": 50334728,
      "step": 86745
    },
    {
      "epoch": 12.920762585641942,
      "grad_norm": 7.692453384399414,
      "learning_rate": 1.6775805288978517e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 50337480,
      "step": 86750
    },
    {
      "epoch": 12.9215072981829,
      "grad_norm": 0.0013162588002160192,
      "learning_rate": 1.6772736796086146e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50340232,
      "step": 86755
    },
    {
      "epoch": 12.922252010723861,
      "grad_norm": 0.009034848771989346,
      "learning_rate": 1.676966844218502e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50343176,
      "step": 86760
    },
    {
      "epoch": 12.92299672326482,
      "grad_norm": 0.002884331624954939,
      "learning_rate": 1.676660022732699e-05,
      "loss": 0.0854,
      "num_input_tokens_seen": 50346152,
      "step": 86765
    },
    {
      "epoch": 12.923741435805779,
      "grad_norm": 0.002367202425375581,
      "learning_rate": 1.6763532151563878e-05,
      "loss": 0.03,
      "num_input_tokens_seen": 50349096,
      "step": 86770
    },
    {
      "epoch": 12.924486148346737,
      "grad_norm": 20.84907341003418,
      "learning_rate": 1.676046421494751e-05,
      "loss": 0.0663,
      "num_input_tokens_seen": 50352040,
      "step": 86775
    },
    {
      "epoch": 12.925230860887698,
      "grad_norm": 0.002586682327091694,
      "learning_rate": 1.6757396417529735e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50354728,
      "step": 86780
    },
    {
      "epoch": 12.925975573428657,
      "grad_norm": 0.0032648053020238876,
      "learning_rate": 1.675432875936236e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50357480,
      "step": 86785
    },
    {
      "epoch": 12.926720285969616,
      "grad_norm": 0.16368664801120758,
      "learning_rate": 1.6751261240497228e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50360296,
      "step": 86790
    },
    {
      "epoch": 12.927464998510574,
      "grad_norm": 0.0007721894653514028,
      "learning_rate": 1.6748193860986152e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 50363304,
      "step": 86795
    },
    {
      "epoch": 12.928209711051535,
      "grad_norm": 0.00038754180422984064,
      "learning_rate": 1.674512662088096e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50366248,
      "step": 86800
    },
    {
      "epoch": 12.928954423592494,
      "grad_norm": 0.0003202405059710145,
      "learning_rate": 1.674205952023346e-05,
      "loss": 0.3003,
      "num_input_tokens_seen": 50369352,
      "step": 86805
    },
    {
      "epoch": 12.929699136133452,
      "grad_norm": 0.0014399350620806217,
      "learning_rate": 1.6738992559095462e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50372168,
      "step": 86810
    },
    {
      "epoch": 12.930443848674411,
      "grad_norm": 0.0005170802469365299,
      "learning_rate": 1.67359257375188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50375112,
      "step": 86815
    },
    {
      "epoch": 12.931188561215372,
      "grad_norm": 0.016229839995503426,
      "learning_rate": 1.673285905555526e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 50378344,
      "step": 86820
    },
    {
      "epoch": 12.93193327375633,
      "grad_norm": 0.016374621540308,
      "learning_rate": 1.6729792513256682e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50381128,
      "step": 86825
    },
    {
      "epoch": 12.93267798629729,
      "grad_norm": 0.1052948459982872,
      "learning_rate": 1.672672611067484e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50384168,
      "step": 86830
    },
    {
      "epoch": 12.933422698838248,
      "grad_norm": 0.0034058052115142345,
      "learning_rate": 1.672365984786156e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50387144,
      "step": 86835
    },
    {
      "epoch": 12.934167411379208,
      "grad_norm": 0.0009384853765368462,
      "learning_rate": 1.6720593724868626e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50389992,
      "step": 86840
    },
    {
      "epoch": 12.934912123920167,
      "grad_norm": 2.0256760120391846,
      "learning_rate": 1.6717527741747857e-05,
      "loss": 0.1914,
      "num_input_tokens_seen": 50393096,
      "step": 86845
    },
    {
      "epoch": 12.935656836461126,
      "grad_norm": 0.00034838501596823335,
      "learning_rate": 1.6714461898551037e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50396008,
      "step": 86850
    },
    {
      "epoch": 12.936401549002085,
      "grad_norm": 0.01912972889840603,
      "learning_rate": 1.6711396195329955e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 50399016,
      "step": 86855
    },
    {
      "epoch": 12.937146261543045,
      "grad_norm": 43.91427993774414,
      "learning_rate": 1.670833063213642e-05,
      "loss": 0.2657,
      "num_input_tokens_seen": 50401608,
      "step": 86860
    },
    {
      "epoch": 12.937890974084004,
      "grad_norm": 0.001187579589895904,
      "learning_rate": 1.6705265209022204e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 50404456,
      "step": 86865
    },
    {
      "epoch": 12.938635686624963,
      "grad_norm": 0.001116995350457728,
      "learning_rate": 1.6702199926039107e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50407432,
      "step": 86870
    },
    {
      "epoch": 12.939380399165922,
      "grad_norm": 0.7513989806175232,
      "learning_rate": 1.66991347832389e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 50410248,
      "step": 86875
    },
    {
      "epoch": 12.94012511170688,
      "grad_norm": 0.010243561118841171,
      "learning_rate": 1.669606978067338e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50413224,
      "step": 86880
    },
    {
      "epoch": 12.94086982424784,
      "grad_norm": 0.0001283993769902736,
      "learning_rate": 1.669300491839433e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50415816,
      "step": 86885
    },
    {
      "epoch": 12.9416145367888,
      "grad_norm": 0.007703812327235937,
      "learning_rate": 1.6689940196453507e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50418696,
      "step": 86890
    },
    {
      "epoch": 12.942359249329758,
      "grad_norm": 0.025709891691803932,
      "learning_rate": 1.66868756149027e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 50421672,
      "step": 86895
    },
    {
      "epoch": 12.943103961870717,
      "grad_norm": 0.013256820850074291,
      "learning_rate": 1.668381117379368e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50425288,
      "step": 86900
    },
    {
      "epoch": 12.943848674411678,
      "grad_norm": 0.057119179517030716,
      "learning_rate": 1.6680746873178225e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 50428680,
      "step": 86905
    },
    {
      "epoch": 12.944593386952636,
      "grad_norm": 0.005583684425801039,
      "learning_rate": 1.6677682713108082e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50431624,
      "step": 86910
    },
    {
      "epoch": 12.945338099493595,
      "grad_norm": 0.0006137223681434989,
      "learning_rate": 1.6674618693635047e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 50434440,
      "step": 86915
    },
    {
      "epoch": 12.946082812034554,
      "grad_norm": 16.93777847290039,
      "learning_rate": 1.6671554814810857e-05,
      "loss": 0.1363,
      "num_input_tokens_seen": 50437416,
      "step": 86920
    },
    {
      "epoch": 12.946827524575514,
      "grad_norm": 0.0017784039955586195,
      "learning_rate": 1.6668491076687294e-05,
      "loss": 0.2344,
      "num_input_tokens_seen": 50439944,
      "step": 86925
    },
    {
      "epoch": 12.947572237116473,
      "grad_norm": 0.0037333036307245493,
      "learning_rate": 1.66654274793161e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50442760,
      "step": 86930
    },
    {
      "epoch": 12.948316949657432,
      "grad_norm": 0.0015258239582180977,
      "learning_rate": 1.6662364022749035e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50445576,
      "step": 86935
    },
    {
      "epoch": 12.94906166219839,
      "grad_norm": 0.0032431173603981733,
      "learning_rate": 1.6659300707037864e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50448584,
      "step": 86940
    },
    {
      "epoch": 12.949806374739351,
      "grad_norm": 0.00046334179933182895,
      "learning_rate": 1.665623753223432e-05,
      "loss": 0.0166,
      "num_input_tokens_seen": 50451560,
      "step": 86945
    },
    {
      "epoch": 12.95055108728031,
      "grad_norm": 0.0007886132807470858,
      "learning_rate": 1.6653174498390172e-05,
      "loss": 0.2188,
      "num_input_tokens_seen": 50454632,
      "step": 86950
    },
    {
      "epoch": 12.951295799821269,
      "grad_norm": 0.0007595079950988293,
      "learning_rate": 1.665011160555715e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50457512,
      "step": 86955
    },
    {
      "epoch": 12.952040512362228,
      "grad_norm": 0.03743361309170723,
      "learning_rate": 1.6647048853787018e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 50460904,
      "step": 86960
    },
    {
      "epoch": 12.952785224903188,
      "grad_norm": 0.0008139795972965658,
      "learning_rate": 1.6643986243131497e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 50463816,
      "step": 86965
    },
    {
      "epoch": 12.953529937444147,
      "grad_norm": 0.002567398827522993,
      "learning_rate": 1.664092377364233e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50466440,
      "step": 86970
    },
    {
      "epoch": 12.954274649985106,
      "grad_norm": 0.2697044312953949,
      "learning_rate": 1.663786144537127e-05,
      "loss": 0.2479,
      "num_input_tokens_seen": 50469256,
      "step": 86975
    },
    {
      "epoch": 12.955019362526064,
      "grad_norm": 282.236083984375,
      "learning_rate": 1.6634799258370036e-05,
      "loss": 0.0856,
      "num_input_tokens_seen": 50471944,
      "step": 86980
    },
    {
      "epoch": 12.955764075067025,
      "grad_norm": 0.006765460595488548,
      "learning_rate": 1.6631737212690373e-05,
      "loss": 0.0736,
      "num_input_tokens_seen": 50474792,
      "step": 86985
    },
    {
      "epoch": 12.956508787607984,
      "grad_norm": 0.02399439364671707,
      "learning_rate": 1.6628675308384e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50477672,
      "step": 86990
    },
    {
      "epoch": 12.957253500148942,
      "grad_norm": 0.006458830554038286,
      "learning_rate": 1.6625613545502653e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50480712,
      "step": 86995
    },
    {
      "epoch": 12.957998212689901,
      "grad_norm": 7.510081768035889,
      "learning_rate": 1.6622551924098046e-05,
      "loss": 0.0057,
      "num_input_tokens_seen": 50483432,
      "step": 87000
    },
    {
      "epoch": 12.958742925230862,
      "grad_norm": 28.487001419067383,
      "learning_rate": 1.6619490444221918e-05,
      "loss": 0.0821,
      "num_input_tokens_seen": 50486440,
      "step": 87005
    },
    {
      "epoch": 12.95948763777182,
      "grad_norm": 0.01670864410698414,
      "learning_rate": 1.6616429105925978e-05,
      "loss": 0.1324,
      "num_input_tokens_seen": 50489224,
      "step": 87010
    },
    {
      "epoch": 12.96023235031278,
      "grad_norm": 0.011856134049594402,
      "learning_rate": 1.6613367909261946e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50491976,
      "step": 87015
    },
    {
      "epoch": 12.960977062853738,
      "grad_norm": 0.002155124209821224,
      "learning_rate": 1.6610306854281542e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50494888,
      "step": 87020
    },
    {
      "epoch": 12.961721775394697,
      "grad_norm": 0.0949225202202797,
      "learning_rate": 1.6607245941036476e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 50497768,
      "step": 87025
    },
    {
      "epoch": 12.962466487935657,
      "grad_norm": 0.032434865832328796,
      "learning_rate": 1.660418516957846e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 50500552,
      "step": 87030
    },
    {
      "epoch": 12.963211200476616,
      "grad_norm": 0.007119503803551197,
      "learning_rate": 1.66011245399592e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50503528,
      "step": 87035
    },
    {
      "epoch": 12.963955913017575,
      "grad_norm": 0.014996265061199665,
      "learning_rate": 1.6598064052230407e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 50506312,
      "step": 87040
    },
    {
      "epoch": 12.964700625558535,
      "grad_norm": 0.01979748159646988,
      "learning_rate": 1.659500370644378e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50509064,
      "step": 87045
    },
    {
      "epoch": 12.965445338099494,
      "grad_norm": 0.0008866839925758541,
      "learning_rate": 1.6591943502651025e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50512136,
      "step": 87050
    },
    {
      "epoch": 12.966190050640453,
      "grad_norm": 0.0022836250718683004,
      "learning_rate": 1.6588883440903847e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50514792,
      "step": 87055
    },
    {
      "epoch": 12.966934763181412,
      "grad_norm": 0.0038359409663826227,
      "learning_rate": 1.6585823521253924e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 50517800,
      "step": 87060
    },
    {
      "epoch": 12.96767947572237,
      "grad_norm": 0.011217253282666206,
      "learning_rate": 1.6582763743752965e-05,
      "loss": 0.0062,
      "num_input_tokens_seen": 50520680,
      "step": 87065
    },
    {
      "epoch": 12.96842418826333,
      "grad_norm": 0.005472112447023392,
      "learning_rate": 1.6579704108452653e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 50523432,
      "step": 87070
    },
    {
      "epoch": 12.96916890080429,
      "grad_norm": 0.0008329516858793795,
      "learning_rate": 1.6576644615404686e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50526568,
      "step": 87075
    },
    {
      "epoch": 12.969913613345248,
      "grad_norm": 0.05785011127591133,
      "learning_rate": 1.657358526466074e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50529480,
      "step": 87080
    },
    {
      "epoch": 12.970658325886207,
      "grad_norm": 0.0007148641161620617,
      "learning_rate": 1.6570526056272516e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50532296,
      "step": 87085
    },
    {
      "epoch": 12.971403038427168,
      "grad_norm": 0.0002170216030208394,
      "learning_rate": 1.656746699029169e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 50535144,
      "step": 87090
    },
    {
      "epoch": 12.972147750968126,
      "grad_norm": 0.00010323546302970499,
      "learning_rate": 1.6564408066769932e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50537928,
      "step": 87095
    },
    {
      "epoch": 12.972892463509085,
      "grad_norm": 400.6730651855469,
      "learning_rate": 1.6561349285758932e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 50540808,
      "step": 87100
    },
    {
      "epoch": 12.973637176050044,
      "grad_norm": 0.00023735815193504095,
      "learning_rate": 1.6558290647310347e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50543912,
      "step": 87105
    },
    {
      "epoch": 12.974381888591004,
      "grad_norm": 0.002431710483506322,
      "learning_rate": 1.6555232151475872e-05,
      "loss": 0.2331,
      "num_input_tokens_seen": 50546696,
      "step": 87110
    },
    {
      "epoch": 12.975126601131963,
      "grad_norm": 0.008068998344242573,
      "learning_rate": 1.6552173798307157e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50549800,
      "step": 87115
    },
    {
      "epoch": 12.975871313672922,
      "grad_norm": 0.0032590157352387905,
      "learning_rate": 1.654911558785589e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50552520,
      "step": 87120
    },
    {
      "epoch": 12.97661602621388,
      "grad_norm": 0.0954202264547348,
      "learning_rate": 1.654605752017372e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50555272,
      "step": 87125
    },
    {
      "epoch": 12.977360738754841,
      "grad_norm": 0.002039179904386401,
      "learning_rate": 1.6542999595312324e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50558248,
      "step": 87130
    },
    {
      "epoch": 12.9781054512958,
      "grad_norm": 0.19568999111652374,
      "learning_rate": 1.6539941813323353e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50561000,
      "step": 87135
    },
    {
      "epoch": 12.978850163836759,
      "grad_norm": 0.0001794526760932058,
      "learning_rate": 1.653688417425846e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50563720,
      "step": 87140
    },
    {
      "epoch": 12.979594876377718,
      "grad_norm": 0.0036676947493106127,
      "learning_rate": 1.653382667816931e-05,
      "loss": 0.1434,
      "num_input_tokens_seen": 50566728,
      "step": 87145
    },
    {
      "epoch": 12.980339588918678,
      "grad_norm": 0.1871349960565567,
      "learning_rate": 1.653076932510755e-05,
      "loss": 0.1986,
      "num_input_tokens_seen": 50569256,
      "step": 87150
    },
    {
      "epoch": 12.981084301459637,
      "grad_norm": 0.0015852658543735743,
      "learning_rate": 1.652771211512484e-05,
      "loss": 0.1565,
      "num_input_tokens_seen": 50572072,
      "step": 87155
    },
    {
      "epoch": 12.981829014000596,
      "grad_norm": 3.8230178356170654,
      "learning_rate": 1.652465504827282e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50574824,
      "step": 87160
    },
    {
      "epoch": 12.982573726541554,
      "grad_norm": 0.0008270867401733994,
      "learning_rate": 1.6521598124603143e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50577832,
      "step": 87165
    },
    {
      "epoch": 12.983318439082515,
      "grad_norm": 0.0039719692431390285,
      "learning_rate": 1.651854134416745e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50580808,
      "step": 87170
    },
    {
      "epoch": 12.984063151623474,
      "grad_norm": 0.020296750590205193,
      "learning_rate": 1.651548470701737e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 50583848,
      "step": 87175
    },
    {
      "epoch": 12.984807864164432,
      "grad_norm": 0.0007932763546705246,
      "learning_rate": 1.6512428213204564e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50586472,
      "step": 87180
    },
    {
      "epoch": 12.985552576705391,
      "grad_norm": 0.0015894761309027672,
      "learning_rate": 1.6509371862780644e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50589672,
      "step": 87185
    },
    {
      "epoch": 12.986297289246352,
      "grad_norm": 4.239656925201416,
      "learning_rate": 1.650631565579727e-05,
      "loss": 0.0044,
      "num_input_tokens_seen": 50592712,
      "step": 87190
    },
    {
      "epoch": 12.98704200178731,
      "grad_norm": 1.2587276697158813,
      "learning_rate": 1.6503259592306053e-05,
      "loss": 0.0035,
      "num_input_tokens_seen": 50595720,
      "step": 87195
    },
    {
      "epoch": 12.98778671432827,
      "grad_norm": 0.002013508463278413,
      "learning_rate": 1.650020367235864e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 50598664,
      "step": 87200
    },
    {
      "epoch": 12.988531426869228,
      "grad_norm": 0.002250525401905179,
      "learning_rate": 1.649714789600663e-05,
      "loss": 0.0048,
      "num_input_tokens_seen": 50601768,
      "step": 87205
    },
    {
      "epoch": 12.989276139410187,
      "grad_norm": 0.013303784653544426,
      "learning_rate": 1.649409226330168e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50604520,
      "step": 87210
    },
    {
      "epoch": 12.990020851951147,
      "grad_norm": 0.17897161841392517,
      "learning_rate": 1.6491036774295393e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 50607560,
      "step": 87215
    },
    {
      "epoch": 12.990765564492106,
      "grad_norm": 0.0011511752381920815,
      "learning_rate": 1.6487981429039383e-05,
      "loss": 0.0566,
      "num_input_tokens_seen": 50610376,
      "step": 87220
    },
    {
      "epoch": 12.991510277033065,
      "grad_norm": 0.0067373001947999,
      "learning_rate": 1.648492622758528e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50613160,
      "step": 87225
    },
    {
      "epoch": 12.992254989574025,
      "grad_norm": 0.000676270923577249,
      "learning_rate": 1.6481871169984696e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 50616072,
      "step": 87230
    },
    {
      "epoch": 12.992999702114984,
      "grad_norm": 0.003945283126085997,
      "learning_rate": 1.647881625628924e-05,
      "loss": 0.0553,
      "num_input_tokens_seen": 50618824,
      "step": 87235
    },
    {
      "epoch": 12.993744414655943,
      "grad_norm": 0.014208516106009483,
      "learning_rate": 1.6475761486550516e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50621768,
      "step": 87240
    },
    {
      "epoch": 12.994489127196902,
      "grad_norm": 0.0018472003284841776,
      "learning_rate": 1.6472706860820152e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50624840,
      "step": 87245
    },
    {
      "epoch": 12.99523383973786,
      "grad_norm": 0.005327035207301378,
      "learning_rate": 1.6469652379149736e-05,
      "loss": 0.0884,
      "num_input_tokens_seen": 50627880,
      "step": 87250
    },
    {
      "epoch": 12.995978552278821,
      "grad_norm": 0.0012409003684297204,
      "learning_rate": 1.6466598041590866e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 50630664,
      "step": 87255
    },
    {
      "epoch": 12.99672326481978,
      "grad_norm": 0.0007826000219210982,
      "learning_rate": 1.646354384819515e-05,
      "loss": 0.0509,
      "num_input_tokens_seen": 50634024,
      "step": 87260
    },
    {
      "epoch": 12.997467977360738,
      "grad_norm": 0.19367381930351257,
      "learning_rate": 1.6460489799014188e-05,
      "loss": 0.1106,
      "num_input_tokens_seen": 50637384,
      "step": 87265
    },
    {
      "epoch": 12.998212689901697,
      "grad_norm": 0.004086409229785204,
      "learning_rate": 1.6457435894099575e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50640232,
      "step": 87270
    },
    {
      "epoch": 12.998957402442658,
      "grad_norm": 0.0015186291420832276,
      "learning_rate": 1.645438213350289e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50643400,
      "step": 87275
    },
    {
      "epoch": 12.999702114983616,
      "grad_norm": 0.0025774992536753416,
      "learning_rate": 1.645132851727574e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50646632,
      "step": 87280
    },
    {
      "epoch": 13.0,
      "eval_loss": 2.055079221725464,
      "eval_runtime": 49.1694,
      "eval_samples_per_second": 60.688,
      "eval_steps_per_second": 15.172,
      "num_input_tokens_seen": 50647376,
      "step": 87282
    },
    {
      "epoch": 13.000446827524575,
      "grad_norm": 0.000684573664329946,
      "learning_rate": 1.6448275045469702e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50649040,
      "step": 87285
    },
    {
      "epoch": 13.001191540065534,
      "grad_norm": 8.111495018005371,
      "learning_rate": 1.6445221718136376e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 50652048,
      "step": 87290
    },
    {
      "epoch": 13.001936252606495,
      "grad_norm": 0.0017053063493221998,
      "learning_rate": 1.644216853532733e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 50654928,
      "step": 87295
    },
    {
      "epoch": 13.002680965147453,
      "grad_norm": 0.005064812954515219,
      "learning_rate": 1.6439115497094137e-05,
      "loss": 0.014,
      "num_input_tokens_seen": 50657744,
      "step": 87300
    },
    {
      "epoch": 13.003425677688412,
      "grad_norm": 0.0004974502371624112,
      "learning_rate": 1.64360626034884e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50660848,
      "step": 87305
    },
    {
      "epoch": 13.00417039022937,
      "grad_norm": 0.007387541700154543,
      "learning_rate": 1.6433009854561672e-05,
      "loss": 0.1345,
      "num_input_tokens_seen": 50663856,
      "step": 87310
    },
    {
      "epoch": 13.004915102770331,
      "grad_norm": 0.0004549259028863162,
      "learning_rate": 1.6429957250365547e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 50666768,
      "step": 87315
    },
    {
      "epoch": 13.00565981531129,
      "grad_norm": 145.4618377685547,
      "learning_rate": 1.6426904790951575e-05,
      "loss": 0.0215,
      "num_input_tokens_seen": 50669488,
      "step": 87320
    },
    {
      "epoch": 13.006404527852249,
      "grad_norm": 0.03714708983898163,
      "learning_rate": 1.642385247637134e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50672112,
      "step": 87325
    },
    {
      "epoch": 13.007149240393208,
      "grad_norm": 0.01751658134162426,
      "learning_rate": 1.6420800306676397e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50675056,
      "step": 87330
    },
    {
      "epoch": 13.007893952934168,
      "grad_norm": 0.0023723947815597057,
      "learning_rate": 1.641774828191831e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50678032,
      "step": 87335
    },
    {
      "epoch": 13.008638665475127,
      "grad_norm": 0.018344497308135033,
      "learning_rate": 1.641469640214865e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50680720,
      "step": 87340
    },
    {
      "epoch": 13.009383378016086,
      "grad_norm": 0.004218675196170807,
      "learning_rate": 1.6411644667418958e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50683536,
      "step": 87345
    },
    {
      "epoch": 13.010128090557044,
      "grad_norm": 0.00946685392409563,
      "learning_rate": 1.6408593077780808e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50686320,
      "step": 87350
    },
    {
      "epoch": 13.010872803098005,
      "grad_norm": 0.005178924649953842,
      "learning_rate": 1.6405541633285748e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50689008,
      "step": 87355
    },
    {
      "epoch": 13.011617515638964,
      "grad_norm": 0.011379933916032314,
      "learning_rate": 1.6402490333985325e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50691728,
      "step": 87360
    },
    {
      "epoch": 13.012362228179922,
      "grad_norm": 0.33879855275154114,
      "learning_rate": 1.6399439179931087e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 50694672,
      "step": 87365
    },
    {
      "epoch": 13.013106940720881,
      "grad_norm": 0.0011528274044394493,
      "learning_rate": 1.6396388171174586e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 50697584,
      "step": 87370
    },
    {
      "epoch": 13.013851653261842,
      "grad_norm": 0.0003481509629637003,
      "learning_rate": 1.6393337307767364e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50700208,
      "step": 87375
    },
    {
      "epoch": 13.0145963658028,
      "grad_norm": 0.022181205451488495,
      "learning_rate": 1.6390286589760957e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50703472,
      "step": 87380
    },
    {
      "epoch": 13.01534107834376,
      "grad_norm": 0.0016108916606754065,
      "learning_rate": 1.6387236017206908e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50706192,
      "step": 87385
    },
    {
      "epoch": 13.016085790884718,
      "grad_norm": 0.005761295091360807,
      "learning_rate": 1.6384185590156752e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50708944,
      "step": 87390
    },
    {
      "epoch": 13.016830503425677,
      "grad_norm": 0.0009618853218853474,
      "learning_rate": 1.6381135308662032e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50711952,
      "step": 87395
    },
    {
      "epoch": 13.017575215966637,
      "grad_norm": 0.01774466596543789,
      "learning_rate": 1.6378085172774258e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50714544,
      "step": 87400
    },
    {
      "epoch": 13.018319928507596,
      "grad_norm": 0.00018009413906838745,
      "learning_rate": 1.6375035182544983e-05,
      "loss": 0.0328,
      "num_input_tokens_seen": 50717552,
      "step": 87405
    },
    {
      "epoch": 13.019064641048555,
      "grad_norm": 0.006432952359318733,
      "learning_rate": 1.637198533802572e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 50720304,
      "step": 87410
    },
    {
      "epoch": 13.019809353589514,
      "grad_norm": 0.0017822564113885164,
      "learning_rate": 1.636893563926799e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50723184,
      "step": 87415
    },
    {
      "epoch": 13.020554066130474,
      "grad_norm": 0.0013174718478694558,
      "learning_rate": 1.6365886086323327e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50726096,
      "step": 87420
    },
    {
      "epoch": 13.021298778671433,
      "grad_norm": 0.0005838625365868211,
      "learning_rate": 1.636283667924324e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 50728752,
      "step": 87425
    },
    {
      "epoch": 13.022043491212392,
      "grad_norm": 0.0041574882343411446,
      "learning_rate": 1.6359787418079254e-05,
      "loss": 0.3063,
      "num_input_tokens_seen": 50731344,
      "step": 87430
    },
    {
      "epoch": 13.02278820375335,
      "grad_norm": 0.0016292489599436522,
      "learning_rate": 1.6356738302882864e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50734928,
      "step": 87435
    },
    {
      "epoch": 13.023532916294311,
      "grad_norm": 0.0013578657526522875,
      "learning_rate": 1.6353689333705606e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50737648,
      "step": 87440
    },
    {
      "epoch": 13.02427762883527,
      "grad_norm": 11.220894813537598,
      "learning_rate": 1.6350640510598974e-05,
      "loss": 0.0408,
      "num_input_tokens_seen": 50740752,
      "step": 87445
    },
    {
      "epoch": 13.025022341376228,
      "grad_norm": 0.013295686803758144,
      "learning_rate": 1.634759183361449e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50743664,
      "step": 87450
    },
    {
      "epoch": 13.025767053917187,
      "grad_norm": 0.03267277777194977,
      "learning_rate": 1.6344543302803643e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50746384,
      "step": 87455
    },
    {
      "epoch": 13.026511766458148,
      "grad_norm": 0.00013594425399787724,
      "learning_rate": 1.6341494918217938e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50749200,
      "step": 87460
    },
    {
      "epoch": 13.027256478999107,
      "grad_norm": 0.18713906407356262,
      "learning_rate": 1.633844667990888e-05,
      "loss": 0.1393,
      "num_input_tokens_seen": 50752240,
      "step": 87465
    },
    {
      "epoch": 13.028001191540065,
      "grad_norm": 0.0021780841052532196,
      "learning_rate": 1.633539858792795e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50755088,
      "step": 87470
    },
    {
      "epoch": 13.028745904081024,
      "grad_norm": 0.002800637623295188,
      "learning_rate": 1.6332350642326673e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50757968,
      "step": 87475
    },
    {
      "epoch": 13.029490616621985,
      "grad_norm": 0.008254792541265488,
      "learning_rate": 1.6329302843156503e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50760784,
      "step": 87480
    },
    {
      "epoch": 13.030235329162943,
      "grad_norm": 0.0009615234448574483,
      "learning_rate": 1.6326255190468965e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50763504,
      "step": 87485
    },
    {
      "epoch": 13.030980041703902,
      "grad_norm": 0.10745614767074585,
      "learning_rate": 1.632320768431553e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50766032,
      "step": 87490
    },
    {
      "epoch": 13.03172475424486,
      "grad_norm": 0.003554446157068014,
      "learning_rate": 1.6320160324747672e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50768848,
      "step": 87495
    },
    {
      "epoch": 13.032469466785821,
      "grad_norm": 0.001064852811396122,
      "learning_rate": 1.631711311181689e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50772016,
      "step": 87500
    },
    {
      "epoch": 13.03321417932678,
      "grad_norm": 0.004773698281496763,
      "learning_rate": 1.631406604557465e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50775472,
      "step": 87505
    },
    {
      "epoch": 13.033958891867739,
      "grad_norm": 0.001760617014952004,
      "learning_rate": 1.6311019126072447e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50778256,
      "step": 87510
    },
    {
      "epoch": 13.034703604408698,
      "grad_norm": 0.004282073583453894,
      "learning_rate": 1.630797235336173e-05,
      "loss": 0.012,
      "num_input_tokens_seen": 50781488,
      "step": 87515
    },
    {
      "epoch": 13.035448316949658,
      "grad_norm": 0.0013657915405929089,
      "learning_rate": 1.6304925727493998e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50784240,
      "step": 87520
    },
    {
      "epoch": 13.036193029490617,
      "grad_norm": 0.002194809727370739,
      "learning_rate": 1.6301879248520707e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50786896,
      "step": 87525
    },
    {
      "epoch": 13.036937742031576,
      "grad_norm": 0.12714536488056183,
      "learning_rate": 1.629883291649333e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50789712,
      "step": 87530
    },
    {
      "epoch": 13.037682454572534,
      "grad_norm": 0.021672818809747696,
      "learning_rate": 1.6295786731463324e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50792208,
      "step": 87535
    },
    {
      "epoch": 13.038427167113495,
      "grad_norm": 0.07749827206134796,
      "learning_rate": 1.6292740693482144e-05,
      "loss": 0.0482,
      "num_input_tokens_seen": 50795184,
      "step": 87540
    },
    {
      "epoch": 13.039171879654454,
      "grad_norm": 0.0072376923635602,
      "learning_rate": 1.6289694802601273e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50798224,
      "step": 87545
    },
    {
      "epoch": 13.039916592195413,
      "grad_norm": 0.033977292478084564,
      "learning_rate": 1.628664905887215e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50800848,
      "step": 87550
    },
    {
      "epoch": 13.040661304736371,
      "grad_norm": 83.01468658447266,
      "learning_rate": 1.6283603462346235e-05,
      "loss": 0.016,
      "num_input_tokens_seen": 50804048,
      "step": 87555
    },
    {
      "epoch": 13.041406017277332,
      "grad_norm": 0.001446576789021492,
      "learning_rate": 1.628055801307498e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50807024,
      "step": 87560
    },
    {
      "epoch": 13.04215072981829,
      "grad_norm": 0.004107329528778791,
      "learning_rate": 1.6277512711109842e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50810000,
      "step": 87565
    },
    {
      "epoch": 13.04289544235925,
      "grad_norm": 0.0009672218002378941,
      "learning_rate": 1.627446755650226e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50812720,
      "step": 87570
    },
    {
      "epoch": 13.043640154900208,
      "grad_norm": 0.4844938814640045,
      "learning_rate": 1.627142254930367e-05,
      "loss": 0.0692,
      "num_input_tokens_seen": 50815472,
      "step": 87575
    },
    {
      "epoch": 13.044384867441167,
      "grad_norm": 0.0007508709677495062,
      "learning_rate": 1.6268377689565533e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50818192,
      "step": 87580
    },
    {
      "epoch": 13.045129579982127,
      "grad_norm": 8.928619354264811e-05,
      "learning_rate": 1.6265332977339282e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50820912,
      "step": 87585
    },
    {
      "epoch": 13.045874292523086,
      "grad_norm": 0.0005628027720376849,
      "learning_rate": 1.6262288412676345e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50823984,
      "step": 87590
    },
    {
      "epoch": 13.046619005064045,
      "grad_norm": 0.0007476054597645998,
      "learning_rate": 1.625924399562817e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50826672,
      "step": 87595
    },
    {
      "epoch": 13.047363717605004,
      "grad_norm": 28.078227996826172,
      "learning_rate": 1.625619972624619e-05,
      "loss": 0.0311,
      "num_input_tokens_seen": 50829520,
      "step": 87600
    },
    {
      "epoch": 13.048108430145964,
      "grad_norm": 0.000554222147911787,
      "learning_rate": 1.6253155604581817e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50832432,
      "step": 87605
    },
    {
      "epoch": 13.048853142686923,
      "grad_norm": 0.002152817090973258,
      "learning_rate": 1.6250111630686498e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50835632,
      "step": 87610
    },
    {
      "epoch": 13.049597855227882,
      "grad_norm": 0.0001340545277344063,
      "learning_rate": 1.6247067804611652e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50838736,
      "step": 87615
    },
    {
      "epoch": 13.05034256776884,
      "grad_norm": 0.00021813334024045616,
      "learning_rate": 1.6244024126408695e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50841552,
      "step": 87620
    },
    {
      "epoch": 13.051087280309801,
      "grad_norm": 0.8432009220123291,
      "learning_rate": 1.6240980596129053e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50844496,
      "step": 87625
    },
    {
      "epoch": 13.05183199285076,
      "grad_norm": 0.006325199268758297,
      "learning_rate": 1.6237937213824134e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50847344,
      "step": 87630
    },
    {
      "epoch": 13.052576705391719,
      "grad_norm": 0.015075643546879292,
      "learning_rate": 1.623489397954537e-05,
      "loss": 0.0352,
      "num_input_tokens_seen": 50849968,
      "step": 87635
    },
    {
      "epoch": 13.053321417932677,
      "grad_norm": 0.00033946571056731045,
      "learning_rate": 1.623185089334415e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50852752,
      "step": 87640
    },
    {
      "epoch": 13.054066130473638,
      "grad_norm": 0.00021580078464467078,
      "learning_rate": 1.6228807955271915e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50855984,
      "step": 87645
    },
    {
      "epoch": 13.054810843014597,
      "grad_norm": 0.0025255652144551277,
      "learning_rate": 1.6225765165380046e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50858832,
      "step": 87650
    },
    {
      "epoch": 13.055555555555555,
      "grad_norm": 0.0009219166822731495,
      "learning_rate": 1.6222722523719963e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 50861776,
      "step": 87655
    },
    {
      "epoch": 13.056300268096514,
      "grad_norm": 0.0033218807075172663,
      "learning_rate": 1.6219680030343063e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50864720,
      "step": 87660
    },
    {
      "epoch": 13.057044980637475,
      "grad_norm": 0.007069125305861235,
      "learning_rate": 1.6216637685300735e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50867536,
      "step": 87665
    },
    {
      "epoch": 13.057789693178433,
      "grad_norm": 0.008825808763504028,
      "learning_rate": 1.6213595488644393e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 50870608,
      "step": 87670
    },
    {
      "epoch": 13.058534405719392,
      "grad_norm": 0.00028512251446954906,
      "learning_rate": 1.6210553440425415e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50873712,
      "step": 87675
    },
    {
      "epoch": 13.059279118260351,
      "grad_norm": 0.0038796383887529373,
      "learning_rate": 1.6207511540695215e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50877136,
      "step": 87680
    },
    {
      "epoch": 13.060023830801311,
      "grad_norm": 0.0019753382075577974,
      "learning_rate": 1.6204469789505165e-05,
      "loss": 0.0028,
      "num_input_tokens_seen": 50880304,
      "step": 87685
    },
    {
      "epoch": 13.06076854334227,
      "grad_norm": 0.0008023575646802783,
      "learning_rate": 1.620142818690667e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50882928,
      "step": 87690
    },
    {
      "epoch": 13.061513255883229,
      "grad_norm": 0.0016925998497754335,
      "learning_rate": 1.61983867329511e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50885616,
      "step": 87695
    },
    {
      "epoch": 13.062257968424188,
      "grad_norm": 0.00012327084550634027,
      "learning_rate": 1.6195345427689826e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50888400,
      "step": 87700
    },
    {
      "epoch": 13.063002680965148,
      "grad_norm": 0.00016379239968955517,
      "learning_rate": 1.6192304271174256e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50891344,
      "step": 87705
    },
    {
      "epoch": 13.063747393506107,
      "grad_norm": 0.001475317170843482,
      "learning_rate": 1.618926326345574e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50894384,
      "step": 87710
    },
    {
      "epoch": 13.064492106047066,
      "grad_norm": 0.0009437305852770805,
      "learning_rate": 1.618622240458568e-05,
      "loss": 0.077,
      "num_input_tokens_seen": 50897200,
      "step": 87715
    },
    {
      "epoch": 13.065236818588025,
      "grad_norm": 0.0004548459255602211,
      "learning_rate": 1.618318169461543e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50900400,
      "step": 87720
    },
    {
      "epoch": 13.065981531128985,
      "grad_norm": 0.002113738562911749,
      "learning_rate": 1.6180141133596367e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50903312,
      "step": 87725
    },
    {
      "epoch": 13.066726243669944,
      "grad_norm": 0.0001669679331826046,
      "learning_rate": 1.6177100721579847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50906224,
      "step": 87730
    },
    {
      "epoch": 13.067470956210903,
      "grad_norm": 19.44930076599121,
      "learning_rate": 1.617406045861725e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 50908944,
      "step": 87735
    },
    {
      "epoch": 13.068215668751861,
      "grad_norm": 0.001149787800386548,
      "learning_rate": 1.6171020344759936e-05,
      "loss": 0.0792,
      "num_input_tokens_seen": 50911920,
      "step": 87740
    },
    {
      "epoch": 13.06896038129282,
      "grad_norm": 0.002720787189900875,
      "learning_rate": 1.616798038005925e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 50915024,
      "step": 87745
    },
    {
      "epoch": 13.06970509383378,
      "grad_norm": 0.005498772952705622,
      "learning_rate": 1.6164940564566566e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50918096,
      "step": 87750
    },
    {
      "epoch": 13.07044980637474,
      "grad_norm": 0.0005927892634645104,
      "learning_rate": 1.6161900898333225e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50921008,
      "step": 87755
    },
    {
      "epoch": 13.071194518915698,
      "grad_norm": 0.01983560621738434,
      "learning_rate": 1.6158861381410593e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50923760,
      "step": 87760
    },
    {
      "epoch": 13.071939231456657,
      "grad_norm": 0.0014406245900318027,
      "learning_rate": 1.6155822013850004e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50926992,
      "step": 87765
    },
    {
      "epoch": 13.072683943997617,
      "grad_norm": 0.010595832020044327,
      "learning_rate": 1.615278279570282e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50929808,
      "step": 87770
    },
    {
      "epoch": 13.073428656538576,
      "grad_norm": 0.0014684316702187061,
      "learning_rate": 1.614974372702038e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50932496,
      "step": 87775
    },
    {
      "epoch": 13.074173369079535,
      "grad_norm": 0.10222352296113968,
      "learning_rate": 1.6146704807854014e-05,
      "loss": 0.1816,
      "num_input_tokens_seen": 50935312,
      "step": 87780
    },
    {
      "epoch": 13.074918081620494,
      "grad_norm": 0.0038372797425836325,
      "learning_rate": 1.6143666038255084e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50938224,
      "step": 87785
    },
    {
      "epoch": 13.075662794161454,
      "grad_norm": 0.05113457143306732,
      "learning_rate": 1.614062741827491e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 50941296,
      "step": 87790
    },
    {
      "epoch": 13.076407506702413,
      "grad_norm": 0.00028257386293262243,
      "learning_rate": 1.6137588947964838e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50944272,
      "step": 87795
    },
    {
      "epoch": 13.077152219243372,
      "grad_norm": 0.006111498456448317,
      "learning_rate": 1.613455062737618e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50947120,
      "step": 87800
    },
    {
      "epoch": 13.07789693178433,
      "grad_norm": 0.02393273636698723,
      "learning_rate": 1.613151245656029e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 50950064,
      "step": 87805
    },
    {
      "epoch": 13.078641644325291,
      "grad_norm": 0.0006261052913032472,
      "learning_rate": 1.612847443556847e-05,
      "loss": 0.1346,
      "num_input_tokens_seen": 50952912,
      "step": 87810
    },
    {
      "epoch": 13.07938635686625,
      "grad_norm": 0.0036915999371558428,
      "learning_rate": 1.6125436564452075e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50955888,
      "step": 87815
    },
    {
      "epoch": 13.080131069407209,
      "grad_norm": 0.010097822174429893,
      "learning_rate": 1.6122398843262405e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50958608,
      "step": 87820
    },
    {
      "epoch": 13.080875781948167,
      "grad_norm": 0.0030841331463307142,
      "learning_rate": 1.6119361272050777e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 50961456,
      "step": 87825
    },
    {
      "epoch": 13.081620494489128,
      "grad_norm": 0.0033439602702856064,
      "learning_rate": 1.6116323850868526e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50964304,
      "step": 87830
    },
    {
      "epoch": 13.082365207030087,
      "grad_norm": 0.0009405432501807809,
      "learning_rate": 1.611328657976694e-05,
      "loss": 0.1534,
      "num_input_tokens_seen": 50967248,
      "step": 87835
    },
    {
      "epoch": 13.083109919571045,
      "grad_norm": 0.003137015737593174,
      "learning_rate": 1.6110249458797355e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50970192,
      "step": 87840
    },
    {
      "epoch": 13.083854632112004,
      "grad_norm": 0.02930157259106636,
      "learning_rate": 1.610721248801106e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50973168,
      "step": 87845
    },
    {
      "epoch": 13.084599344652965,
      "grad_norm": 0.0026132625062018633,
      "learning_rate": 1.610417566745938e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50976144,
      "step": 87850
    },
    {
      "epoch": 13.085344057193923,
      "grad_norm": 158.53598022460938,
      "learning_rate": 1.6101138997193615e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 50978864,
      "step": 87855
    },
    {
      "epoch": 13.086088769734882,
      "grad_norm": 0.0016459963517263532,
      "learning_rate": 1.6098102477265057e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50981712,
      "step": 87860
    },
    {
      "epoch": 13.086833482275841,
      "grad_norm": 0.002903633052483201,
      "learning_rate": 1.6095066107725015e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50984400,
      "step": 87865
    },
    {
      "epoch": 13.087578194816802,
      "grad_norm": 0.00030593964038416743,
      "learning_rate": 1.609202988862477e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 50987216,
      "step": 87870
    },
    {
      "epoch": 13.08832290735776,
      "grad_norm": 0.00039501619176007807,
      "learning_rate": 1.6088993820015634e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 50989968,
      "step": 87875
    },
    {
      "epoch": 13.089067619898719,
      "grad_norm": 0.0002963402948807925,
      "learning_rate": 1.608595790194889e-05,
      "loss": 0.0476,
      "num_input_tokens_seen": 50992784,
      "step": 87880
    },
    {
      "epoch": 13.089812332439678,
      "grad_norm": 0.0018543771002441645,
      "learning_rate": 1.6082922134475823e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 50995536,
      "step": 87885
    },
    {
      "epoch": 13.090557044980638,
      "grad_norm": 0.005364959128201008,
      "learning_rate": 1.6079886517647723e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 50998864,
      "step": 87890
    },
    {
      "epoch": 13.091301757521597,
      "grad_norm": 0.04217691347002983,
      "learning_rate": 1.6076851051515884e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51001744,
      "step": 87895
    },
    {
      "epoch": 13.092046470062556,
      "grad_norm": 0.02723095566034317,
      "learning_rate": 1.6073815736131577e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 51004592,
      "step": 87900
    },
    {
      "epoch": 13.092791182603515,
      "grad_norm": 0.015563402324914932,
      "learning_rate": 1.6070780571546066e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 51007440,
      "step": 87905
    },
    {
      "epoch": 13.093535895144473,
      "grad_norm": 0.0014879998052492738,
      "learning_rate": 1.6067745557810656e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51010320,
      "step": 87910
    },
    {
      "epoch": 13.094280607685434,
      "grad_norm": 0.004799173679202795,
      "learning_rate": 1.60647106949766e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51013104,
      "step": 87915
    },
    {
      "epoch": 13.095025320226393,
      "grad_norm": 0.09126710146665573,
      "learning_rate": 1.6061675983095177e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51016144,
      "step": 87920
    },
    {
      "epoch": 13.095770032767351,
      "grad_norm": 0.0006945565110072494,
      "learning_rate": 1.605864142221765e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51018800,
      "step": 87925
    },
    {
      "epoch": 13.09651474530831,
      "grad_norm": 0.004540084395557642,
      "learning_rate": 1.60556070123953e-05,
      "loss": 0.25,
      "num_input_tokens_seen": 51021520,
      "step": 87930
    },
    {
      "epoch": 13.09725945784927,
      "grad_norm": 5.882759433006868e-05,
      "learning_rate": 1.6052572753679372e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 51024176,
      "step": 87935
    },
    {
      "epoch": 13.09800417039023,
      "grad_norm": 23.481765747070312,
      "learning_rate": 1.604953864612113e-05,
      "loss": 0.066,
      "num_input_tokens_seen": 51027152,
      "step": 87940
    },
    {
      "epoch": 13.098748882931188,
      "grad_norm": 0.001121930661611259,
      "learning_rate": 1.6046504689771842e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51030288,
      "step": 87945
    },
    {
      "epoch": 13.099493595472147,
      "grad_norm": 25.230876922607422,
      "learning_rate": 1.6043470884682753e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 51033136,
      "step": 87950
    },
    {
      "epoch": 13.100238308013108,
      "grad_norm": 0.000521486101206392,
      "learning_rate": 1.6040437230905126e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51035888,
      "step": 87955
    },
    {
      "epoch": 13.100983020554066,
      "grad_norm": 0.00482364185154438,
      "learning_rate": 1.6037403728490193e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51038608,
      "step": 87960
    },
    {
      "epoch": 13.101727733095025,
      "grad_norm": 0.002100449986755848,
      "learning_rate": 1.6034370377489227e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 51041936,
      "step": 87965
    },
    {
      "epoch": 13.102472445635984,
      "grad_norm": 0.0013215674553066492,
      "learning_rate": 1.6031337177953455e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51044848,
      "step": 87970
    },
    {
      "epoch": 13.103217158176944,
      "grad_norm": 0.0008583887247368693,
      "learning_rate": 1.602830412993413e-05,
      "loss": 0.2047,
      "num_input_tokens_seen": 51048080,
      "step": 87975
    },
    {
      "epoch": 13.103961870717903,
      "grad_norm": 0.0024485026951879263,
      "learning_rate": 1.6025271233482492e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51050768,
      "step": 87980
    },
    {
      "epoch": 13.104706583258862,
      "grad_norm": 4.199770450592041,
      "learning_rate": 1.6022238488649764e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 51053744,
      "step": 87985
    },
    {
      "epoch": 13.10545129579982,
      "grad_norm": 0.0002012365439441055,
      "learning_rate": 1.6019205895487204e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51056656,
      "step": 87990
    },
    {
      "epoch": 13.106196008340781,
      "grad_norm": 7.41416442906484e-05,
      "learning_rate": 1.6016173454046018e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51059568,
      "step": 87995
    },
    {
      "epoch": 13.10694072088174,
      "grad_norm": 0.09045691788196564,
      "learning_rate": 1.6013141164377467e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51062512,
      "step": 88000
    },
    {
      "epoch": 13.107685433422699,
      "grad_norm": 174.50021362304688,
      "learning_rate": 1.6010109026532747e-05,
      "loss": 0.0705,
      "num_input_tokens_seen": 51065424,
      "step": 88005
    },
    {
      "epoch": 13.108430145963657,
      "grad_norm": 0.004986479878425598,
      "learning_rate": 1.600707704056311e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51068432,
      "step": 88010
    },
    {
      "epoch": 13.109174858504618,
      "grad_norm": 0.016638651490211487,
      "learning_rate": 1.6004045206519763e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 51071376,
      "step": 88015
    },
    {
      "epoch": 13.109919571045577,
      "grad_norm": 0.0020258340518921614,
      "learning_rate": 1.6001013524453928e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51074352,
      "step": 88020
    },
    {
      "epoch": 13.110664283586535,
      "grad_norm": 0.0009668994462117553,
      "learning_rate": 1.599798199441683e-05,
      "loss": 0.1909,
      "num_input_tokens_seen": 51077072,
      "step": 88025
    },
    {
      "epoch": 13.111408996127494,
      "grad_norm": 16.681678771972656,
      "learning_rate": 1.5994950616459664e-05,
      "loss": 0.1766,
      "num_input_tokens_seen": 51079568,
      "step": 88030
    },
    {
      "epoch": 13.112153708668455,
      "grad_norm": 0.0025192450266331434,
      "learning_rate": 1.5991919390633662e-05,
      "loss": 0.0455,
      "num_input_tokens_seen": 51082640,
      "step": 88035
    },
    {
      "epoch": 13.112898421209414,
      "grad_norm": 0.001019016490317881,
      "learning_rate": 1.5988888316990018e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 51086032,
      "step": 88040
    },
    {
      "epoch": 13.113643133750372,
      "grad_norm": 0.000733168562874198,
      "learning_rate": 1.5985857395579963e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51088592,
      "step": 88045
    },
    {
      "epoch": 13.114387846291331,
      "grad_norm": 0.0001992250618059188,
      "learning_rate": 1.5982826626454678e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51091440,
      "step": 88050
    },
    {
      "epoch": 13.115132558832292,
      "grad_norm": 0.000281112443190068,
      "learning_rate": 1.5979796009665376e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51094288,
      "step": 88055
    },
    {
      "epoch": 13.11587727137325,
      "grad_norm": 0.0026068463921546936,
      "learning_rate": 1.5976765545263254e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51097328,
      "step": 88060
    },
    {
      "epoch": 13.116621983914209,
      "grad_norm": 0.0024656804744154215,
      "learning_rate": 1.5973735233299496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51100336,
      "step": 88065
    },
    {
      "epoch": 13.117366696455168,
      "grad_norm": 0.0038697540294378996,
      "learning_rate": 1.5970705073825315e-05,
      "loss": 0.1438,
      "num_input_tokens_seen": 51103536,
      "step": 88070
    },
    {
      "epoch": 13.118111408996128,
      "grad_norm": 0.027148321270942688,
      "learning_rate": 1.596767506689189e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51106448,
      "step": 88075
    },
    {
      "epoch": 13.118856121537087,
      "grad_norm": 0.0008954446529969573,
      "learning_rate": 1.5964645212550422e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51109424,
      "step": 88080
    },
    {
      "epoch": 13.119600834078046,
      "grad_norm": 0.00017777204629965127,
      "learning_rate": 1.5961615510852083e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51112368,
      "step": 88085
    },
    {
      "epoch": 13.120345546619005,
      "grad_norm": 0.0006955302669666708,
      "learning_rate": 1.5958585961848072e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51115088,
      "step": 88090
    },
    {
      "epoch": 13.121090259159963,
      "grad_norm": 0.003795888274908066,
      "learning_rate": 1.5955556565589564e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51117968,
      "step": 88095
    },
    {
      "epoch": 13.121834971700924,
      "grad_norm": 0.12282034754753113,
      "learning_rate": 1.5952527322127718e-05,
      "loss": 0.0958,
      "num_input_tokens_seen": 51120624,
      "step": 88100
    },
    {
      "epoch": 13.122579684241883,
      "grad_norm": 5.338239134289324e-05,
      "learning_rate": 1.5949498231513744e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51123536,
      "step": 88105
    },
    {
      "epoch": 13.123324396782841,
      "grad_norm": 0.0006000237772241235,
      "learning_rate": 1.5946469293798788e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 51126320,
      "step": 88110
    },
    {
      "epoch": 13.1240691093238,
      "grad_norm": 0.0020426351111382246,
      "learning_rate": 1.5943440509034038e-05,
      "loss": 0.0822,
      "num_input_tokens_seen": 51129168,
      "step": 88115
    },
    {
      "epoch": 13.12481382186476,
      "grad_norm": 0.00042009082972072065,
      "learning_rate": 1.5940411877270655e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51132272,
      "step": 88120
    },
    {
      "epoch": 13.12555853440572,
      "grad_norm": 0.0004403945931699127,
      "learning_rate": 1.5937383398559808e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51135152,
      "step": 88125
    },
    {
      "epoch": 13.126303246946678,
      "grad_norm": 0.0070076435804367065,
      "learning_rate": 1.593435507295265e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51138000,
      "step": 88130
    },
    {
      "epoch": 13.127047959487637,
      "grad_norm": 8.17402105894871e-05,
      "learning_rate": 1.5931326900500353e-05,
      "loss": 0.0136,
      "num_input_tokens_seen": 51140784,
      "step": 88135
    },
    {
      "epoch": 13.127792672028598,
      "grad_norm": 0.00037752999924123287,
      "learning_rate": 1.5928298881254077e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51143856,
      "step": 88140
    },
    {
      "epoch": 13.128537384569556,
      "grad_norm": 0.0009236026671715081,
      "learning_rate": 1.5925271015264962e-05,
      "loss": 0.1391,
      "num_input_tokens_seen": 51146352,
      "step": 88145
    },
    {
      "epoch": 13.129282097110515,
      "grad_norm": 36.16397476196289,
      "learning_rate": 1.5922243302584176e-05,
      "loss": 0.2406,
      "num_input_tokens_seen": 51149232,
      "step": 88150
    },
    {
      "epoch": 13.130026809651474,
      "grad_norm": 0.00039905347512103617,
      "learning_rate": 1.5919215743262862e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51152112,
      "step": 88155
    },
    {
      "epoch": 13.130771522192434,
      "grad_norm": 0.000629046349786222,
      "learning_rate": 1.591618833735217e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51155088,
      "step": 88160
    },
    {
      "epoch": 13.131516234733393,
      "grad_norm": 0.028347758576273918,
      "learning_rate": 1.5913161084903237e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51158128,
      "step": 88165
    },
    {
      "epoch": 13.132260947274352,
      "grad_norm": 0.014000709168612957,
      "learning_rate": 1.591013398596722e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51160912,
      "step": 88170
    },
    {
      "epoch": 13.13300565981531,
      "grad_norm": 0.0006881431327201426,
      "learning_rate": 1.5907107040595255e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51163600,
      "step": 88175
    },
    {
      "epoch": 13.133750372356271,
      "grad_norm": 0.0006707110442221165,
      "learning_rate": 1.590408024883846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51166288,
      "step": 88180
    },
    {
      "epoch": 13.13449508489723,
      "grad_norm": 0.0007292859372682869,
      "learning_rate": 1.5901053610747995e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51168944,
      "step": 88185
    },
    {
      "epoch": 13.135239797438189,
      "grad_norm": 0.0006390654016286135,
      "learning_rate": 1.5898027126374974e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51171824,
      "step": 88190
    },
    {
      "epoch": 13.135984509979147,
      "grad_norm": 0.001941312337294221,
      "learning_rate": 1.5895000795770547e-05,
      "loss": 0.0617,
      "num_input_tokens_seen": 51174992,
      "step": 88195
    },
    {
      "epoch": 13.136729222520108,
      "grad_norm": 0.007952790707349777,
      "learning_rate": 1.589197461898581e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51177872,
      "step": 88200
    },
    {
      "epoch": 13.137473935061067,
      "grad_norm": 0.004190403968095779,
      "learning_rate": 1.588894859607192e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51180432,
      "step": 88205
    },
    {
      "epoch": 13.138218647602026,
      "grad_norm": 0.0013692245120182633,
      "learning_rate": 1.5885922727079977e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51183120,
      "step": 88210
    },
    {
      "epoch": 13.138963360142984,
      "grad_norm": 0.0008013407932594419,
      "learning_rate": 1.5882897012061104e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51185744,
      "step": 88215
    },
    {
      "epoch": 13.139708072683945,
      "grad_norm": 0.0026923834811896086,
      "learning_rate": 1.5879871451066424e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51188816,
      "step": 88220
    },
    {
      "epoch": 13.140452785224904,
      "grad_norm": 0.0039255693554878235,
      "learning_rate": 1.5876846044147048e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51191696,
      "step": 88225
    },
    {
      "epoch": 13.141197497765862,
      "grad_norm": 0.019710784777998924,
      "learning_rate": 1.5873820791354085e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51194864,
      "step": 88230
    },
    {
      "epoch": 13.141942210306821,
      "grad_norm": 0.004256442189216614,
      "learning_rate": 1.5870795692738635e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51197552,
      "step": 88235
    },
    {
      "epoch": 13.142686922847782,
      "grad_norm": 0.0004070053400937468,
      "learning_rate": 1.5867770748351822e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51200464,
      "step": 88240
    },
    {
      "epoch": 13.14343163538874,
      "grad_norm": 0.000684386701323092,
      "learning_rate": 1.586474595824474e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51203120,
      "step": 88245
    },
    {
      "epoch": 13.1441763479297,
      "grad_norm": 0.003979036584496498,
      "learning_rate": 1.5861721322468487e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51205968,
      "step": 88250
    },
    {
      "epoch": 13.144921060470658,
      "grad_norm": 0.0024038520641624928,
      "learning_rate": 1.5858696841074166e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 51209328,
      "step": 88255
    },
    {
      "epoch": 13.145665773011617,
      "grad_norm": 0.015445205383002758,
      "learning_rate": 1.5855672514112876e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51212336,
      "step": 88260
    },
    {
      "epoch": 13.146410485552577,
      "grad_norm": 0.0028372667729854584,
      "learning_rate": 1.5852648341635705e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51215312,
      "step": 88265
    },
    {
      "epoch": 13.147155198093536,
      "grad_norm": 0.005974962376058102,
      "learning_rate": 1.5849624323693736e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51218224,
      "step": 88270
    },
    {
      "epoch": 13.147899910634495,
      "grad_norm": 0.007020347286015749,
      "learning_rate": 1.5846600460338068e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51221360,
      "step": 88275
    },
    {
      "epoch": 13.148644623175453,
      "grad_norm": 0.0006637033075094223,
      "learning_rate": 1.584357675161978e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51224144,
      "step": 88280
    },
    {
      "epoch": 13.149389335716414,
      "grad_norm": 0.01696363463997841,
      "learning_rate": 1.5840553197589964e-05,
      "loss": 0.4253,
      "num_input_tokens_seen": 51227440,
      "step": 88285
    },
    {
      "epoch": 13.150134048257373,
      "grad_norm": 0.010560724884271622,
      "learning_rate": 1.5837529798299677e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 51230448,
      "step": 88290
    },
    {
      "epoch": 13.150878760798332,
      "grad_norm": 0.0006321196560747921,
      "learning_rate": 1.5834506553800026e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51233072,
      "step": 88295
    },
    {
      "epoch": 13.15162347333929,
      "grad_norm": 0.062291938811540604,
      "learning_rate": 1.583148346414207e-05,
      "loss": 0.1971,
      "num_input_tokens_seen": 51235984,
      "step": 88300
    },
    {
      "epoch": 13.15236818588025,
      "grad_norm": 0.00018964233458973467,
      "learning_rate": 1.5828460529376876e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51238608,
      "step": 88305
    },
    {
      "epoch": 13.15311289842121,
      "grad_norm": 0.01665090024471283,
      "learning_rate": 1.5825437749555525e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51241840,
      "step": 88310
    },
    {
      "epoch": 13.153857610962168,
      "grad_norm": 0.021090557798743248,
      "learning_rate": 1.582241512472907e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51244848,
      "step": 88315
    },
    {
      "epoch": 13.154602323503127,
      "grad_norm": 0.0011040109675377607,
      "learning_rate": 1.58193926549486e-05,
      "loss": 0.0401,
      "num_input_tokens_seen": 51247728,
      "step": 88320
    },
    {
      "epoch": 13.155347036044088,
      "grad_norm": 0.0023829806596040726,
      "learning_rate": 1.5816370340265144e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51250608,
      "step": 88325
    },
    {
      "epoch": 13.156091748585046,
      "grad_norm": 0.0004125766863580793,
      "learning_rate": 1.5813348180729788e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 51253456,
      "step": 88330
    },
    {
      "epoch": 13.156836461126005,
      "grad_norm": 0.008456602692604065,
      "learning_rate": 1.5810326176393566e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51256208,
      "step": 88335
    },
    {
      "epoch": 13.157581173666964,
      "grad_norm": 0.0023943758569657803,
      "learning_rate": 1.5807304327307556e-05,
      "loss": 0.1014,
      "num_input_tokens_seen": 51259024,
      "step": 88340
    },
    {
      "epoch": 13.158325886207924,
      "grad_norm": 0.006154554896056652,
      "learning_rate": 1.5804282633522793e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 51262128,
      "step": 88345
    },
    {
      "epoch": 13.159070598748883,
      "grad_norm": 0.002169936429709196,
      "learning_rate": 1.5801261095090325e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51265072,
      "step": 88350
    },
    {
      "epoch": 13.159815311289842,
      "grad_norm": 0.0151052912697196,
      "learning_rate": 1.579823971206121e-05,
      "loss": 0.003,
      "num_input_tokens_seen": 51268176,
      "step": 88355
    },
    {
      "epoch": 13.1605600238308,
      "grad_norm": 0.004215525928884745,
      "learning_rate": 1.5795218484486468e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51270960,
      "step": 88360
    },
    {
      "epoch": 13.161304736371761,
      "grad_norm": 0.0008761821081861854,
      "learning_rate": 1.5792197412417167e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51274000,
      "step": 88365
    },
    {
      "epoch": 13.16204944891272,
      "grad_norm": 0.007206643000245094,
      "learning_rate": 1.578917649590432e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51276880,
      "step": 88370
    },
    {
      "epoch": 13.162794161453679,
      "grad_norm": 0.0022136252373456955,
      "learning_rate": 1.5786155734998988e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51279504,
      "step": 88375
    },
    {
      "epoch": 13.163538873994638,
      "grad_norm": 0.0012054996332153678,
      "learning_rate": 1.578313512975219e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51282320,
      "step": 88380
    },
    {
      "epoch": 13.164283586535598,
      "grad_norm": 0.0022149875294417143,
      "learning_rate": 1.5780114680214948e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51285040,
      "step": 88385
    },
    {
      "epoch": 13.165028299076557,
      "grad_norm": 0.004153660964220762,
      "learning_rate": 1.5777094386438306e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51287856,
      "step": 88390
    },
    {
      "epoch": 13.165773011617516,
      "grad_norm": 0.010620654560625553,
      "learning_rate": 1.577407424847327e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 51290960,
      "step": 88395
    },
    {
      "epoch": 13.166517724158474,
      "grad_norm": 0.010781967081129551,
      "learning_rate": 1.5771054266370882e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51294192,
      "step": 88400
    },
    {
      "epoch": 13.167262436699435,
      "grad_norm": 0.003949004225432873,
      "learning_rate": 1.5768034440182143e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51296656,
      "step": 88405
    },
    {
      "epoch": 13.168007149240394,
      "grad_norm": 0.008851476944983006,
      "learning_rate": 1.576501476995809e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 51299504,
      "step": 88410
    },
    {
      "epoch": 13.168751861781352,
      "grad_norm": 0.04270630329847336,
      "learning_rate": 1.576199525574972e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51302416,
      "step": 88415
    },
    {
      "epoch": 13.169496574322311,
      "grad_norm": 0.0026393430307507515,
      "learning_rate": 1.5758975897608056e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51304976,
      "step": 88420
    },
    {
      "epoch": 13.17024128686327,
      "grad_norm": 0.00400505680590868,
      "learning_rate": 1.57559566955841e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51307920,
      "step": 88425
    },
    {
      "epoch": 13.17098599940423,
      "grad_norm": 0.004494881723076105,
      "learning_rate": 1.5752937649728854e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51310640,
      "step": 88430
    },
    {
      "epoch": 13.17173071194519,
      "grad_norm": 0.001068107201717794,
      "learning_rate": 1.574991876009334e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51313584,
      "step": 88435
    },
    {
      "epoch": 13.172475424486148,
      "grad_norm": 0.004112473223358393,
      "learning_rate": 1.574690002672853e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 51316400,
      "step": 88440
    },
    {
      "epoch": 13.173220137027107,
      "grad_norm": 8.3030424118042,
      "learning_rate": 1.5743881449685456e-05,
      "loss": 0.0461,
      "num_input_tokens_seen": 51319184,
      "step": 88445
    },
    {
      "epoch": 13.173964849568067,
      "grad_norm": 0.0015285225817933679,
      "learning_rate": 1.574086302901509e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51322032,
      "step": 88450
    },
    {
      "epoch": 13.174709562109026,
      "grad_norm": 0.0029726005159318447,
      "learning_rate": 1.5737844764768437e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51324688,
      "step": 88455
    },
    {
      "epoch": 13.175454274649985,
      "grad_norm": 0.00027655725716613233,
      "learning_rate": 1.5734826656996482e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51327408,
      "step": 88460
    },
    {
      "epoch": 13.176198987190944,
      "grad_norm": 0.011078376322984695,
      "learning_rate": 1.5731808705750206e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51330288,
      "step": 88465
    },
    {
      "epoch": 13.176943699731904,
      "grad_norm": 0.17801862955093384,
      "learning_rate": 1.5728790911080612e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51333424,
      "step": 88470
    },
    {
      "epoch": 13.177688412272863,
      "grad_norm": 0.001448171678930521,
      "learning_rate": 1.5725773273038662e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51336656,
      "step": 88475
    },
    {
      "epoch": 13.178433124813822,
      "grad_norm": 0.0212120171636343,
      "learning_rate": 1.5722755791675358e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 51339408,
      "step": 88480
    },
    {
      "epoch": 13.17917783735478,
      "grad_norm": 0.00048713418073020875,
      "learning_rate": 1.571973846704166e-05,
      "loss": 0.0285,
      "num_input_tokens_seen": 51342256,
      "step": 88485
    },
    {
      "epoch": 13.17992254989574,
      "grad_norm": 0.0007517304620705545,
      "learning_rate": 1.5716721299188553e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51345200,
      "step": 88490
    },
    {
      "epoch": 13.1806672624367,
      "grad_norm": 0.0021833577193319798,
      "learning_rate": 1.5713704288166998e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 51348432,
      "step": 88495
    },
    {
      "epoch": 13.181411974977658,
      "grad_norm": 0.1318761557340622,
      "learning_rate": 1.5710687434027976e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51351056,
      "step": 88500
    },
    {
      "epoch": 13.182156687518617,
      "grad_norm": 0.000592049618717283,
      "learning_rate": 1.5707670736822448e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51353904,
      "step": 88505
    },
    {
      "epoch": 13.182901400059578,
      "grad_norm": 0.028254078701138496,
      "learning_rate": 1.5704654196601375e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51357008,
      "step": 88510
    },
    {
      "epoch": 13.183646112600536,
      "grad_norm": 0.0006494325934909284,
      "learning_rate": 1.5701637813415728e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51359728,
      "step": 88515
    },
    {
      "epoch": 13.184390825141495,
      "grad_norm": 0.00013150849554222077,
      "learning_rate": 1.5698621587316454e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51362608,
      "step": 88520
    },
    {
      "epoch": 13.185135537682454,
      "grad_norm": 0.003603086108341813,
      "learning_rate": 1.5695605518354524e-05,
      "loss": 0.175,
      "num_input_tokens_seen": 51365232,
      "step": 88525
    },
    {
      "epoch": 13.185880250223414,
      "grad_norm": 0.0017726562218740582,
      "learning_rate": 1.5692589606580866e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51367920,
      "step": 88530
    },
    {
      "epoch": 13.186624962764373,
      "grad_norm": 0.0003747153386939317,
      "learning_rate": 1.568957385204646e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51370672,
      "step": 88535
    },
    {
      "epoch": 13.187369675305332,
      "grad_norm": 0.0024294115137308836,
      "learning_rate": 1.568655825480224e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51373232,
      "step": 88540
    },
    {
      "epoch": 13.18811438784629,
      "grad_norm": 0.00011850658484036103,
      "learning_rate": 1.5683542814899144e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51376336,
      "step": 88545
    },
    {
      "epoch": 13.188859100387251,
      "grad_norm": 0.0006873917300254107,
      "learning_rate": 1.5680527532388133e-05,
      "loss": 0.0039,
      "num_input_tokens_seen": 51379312,
      "step": 88550
    },
    {
      "epoch": 13.18960381292821,
      "grad_norm": 0.0017143687000498176,
      "learning_rate": 1.5677512407320133e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51382256,
      "step": 88555
    },
    {
      "epoch": 13.190348525469169,
      "grad_norm": 0.00430508004501462,
      "learning_rate": 1.5674497439746088e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51385168,
      "step": 88560
    },
    {
      "epoch": 13.191093238010128,
      "grad_norm": 0.004793378058820963,
      "learning_rate": 1.5671482629716926e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51388176,
      "step": 88565
    },
    {
      "epoch": 13.191837950551088,
      "grad_norm": 0.003693674923852086,
      "learning_rate": 1.566846797728359e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51391024,
      "step": 88570
    },
    {
      "epoch": 13.192582663092047,
      "grad_norm": 0.00020502577535808086,
      "learning_rate": 1.5665453482497e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51394256,
      "step": 88575
    },
    {
      "epoch": 13.193327375633006,
      "grad_norm": 0.0010132690658792853,
      "learning_rate": 1.5662439145408084e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51397360,
      "step": 88580
    },
    {
      "epoch": 13.194072088173964,
      "grad_norm": 0.0013767476193606853,
      "learning_rate": 1.5659424966067775e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51400176,
      "step": 88585
    },
    {
      "epoch": 13.194816800714925,
      "grad_norm": 0.0014033172046765685,
      "learning_rate": 1.5656410944526984e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 51402864,
      "step": 88590
    },
    {
      "epoch": 13.195561513255884,
      "grad_norm": 0.0002029925090027973,
      "learning_rate": 1.5653397080836633e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51405936,
      "step": 88595
    },
    {
      "epoch": 13.196306225796842,
      "grad_norm": 0.006969348061829805,
      "learning_rate": 1.5650383375047634e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51408880,
      "step": 88600
    },
    {
      "epoch": 13.197050938337801,
      "grad_norm": 0.00020650688384193927,
      "learning_rate": 1.5647369827210917e-05,
      "loss": 0.2355,
      "num_input_tokens_seen": 51411440,
      "step": 88605
    },
    {
      "epoch": 13.19779565087876,
      "grad_norm": 0.0018903883174061775,
      "learning_rate": 1.5644356437377373e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51414480,
      "step": 88610
    },
    {
      "epoch": 13.19854036341972,
      "grad_norm": 0.0011526801390573382,
      "learning_rate": 1.5641343205597925e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51417360,
      "step": 88615
    },
    {
      "epoch": 13.19928507596068,
      "grad_norm": 0.003032991662621498,
      "learning_rate": 1.5638330131923465e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51420592,
      "step": 88620
    },
    {
      "epoch": 13.200029788501638,
      "grad_norm": 0.0004288111813366413,
      "learning_rate": 1.5635317216404906e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51423504,
      "step": 88625
    },
    {
      "epoch": 13.200774501042597,
      "grad_norm": 0.0010864906944334507,
      "learning_rate": 1.5632304459093145e-05,
      "loss": 0.1376,
      "num_input_tokens_seen": 51426480,
      "step": 88630
    },
    {
      "epoch": 13.201519213583557,
      "grad_norm": 0.00035109795862808824,
      "learning_rate": 1.562929186003907e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 51429168,
      "step": 88635
    },
    {
      "epoch": 13.202263926124516,
      "grad_norm": 0.003341357922181487,
      "learning_rate": 1.56262794192936e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51431984,
      "step": 88640
    },
    {
      "epoch": 13.203008638665475,
      "grad_norm": 0.013950265944004059,
      "learning_rate": 1.5623267136907602e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51434768,
      "step": 88645
    },
    {
      "epoch": 13.203753351206434,
      "grad_norm": 0.00020758647588081658,
      "learning_rate": 1.5620255012931984e-05,
      "loss": 0.0207,
      "num_input_tokens_seen": 51437488,
      "step": 88650
    },
    {
      "epoch": 13.204498063747394,
      "grad_norm": 0.001245790277607739,
      "learning_rate": 1.5617243047417614e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51440176,
      "step": 88655
    },
    {
      "epoch": 13.205242776288353,
      "grad_norm": 0.000541256507858634,
      "learning_rate": 1.5614231240415393e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51442992,
      "step": 88660
    },
    {
      "epoch": 13.205987488829312,
      "grad_norm": 0.006527458317577839,
      "learning_rate": 1.5611219591976198e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51445488,
      "step": 88665
    },
    {
      "epoch": 13.20673220137027,
      "grad_norm": 0.0015613451832905412,
      "learning_rate": 1.5608208102150895e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51448144,
      "step": 88670
    },
    {
      "epoch": 13.207476913911231,
      "grad_norm": 0.001288043800741434,
      "learning_rate": 1.560519677099038e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51451088,
      "step": 88675
    },
    {
      "epoch": 13.20822162645219,
      "grad_norm": 7.813002594048157e-05,
      "learning_rate": 1.5602185598545515e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51454128,
      "step": 88680
    },
    {
      "epoch": 13.208966338993148,
      "grad_norm": 0.005756000056862831,
      "learning_rate": 1.5599174584867177e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51457072,
      "step": 88685
    },
    {
      "epoch": 13.209711051534107,
      "grad_norm": 0.006134250201284885,
      "learning_rate": 1.5596163730006218e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51460080,
      "step": 88690
    },
    {
      "epoch": 13.210455764075068,
      "grad_norm": 0.1865466833114624,
      "learning_rate": 1.5593153034013526e-05,
      "loss": 0.1159,
      "num_input_tokens_seen": 51463408,
      "step": 88695
    },
    {
      "epoch": 13.211200476616026,
      "grad_norm": 0.00035927374847233295,
      "learning_rate": 1.5590142496939956e-05,
      "loss": 0.3408,
      "num_input_tokens_seen": 51466352,
      "step": 88700
    },
    {
      "epoch": 13.211945189156985,
      "grad_norm": 0.0015121294418349862,
      "learning_rate": 1.558713211883635e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51469424,
      "step": 88705
    },
    {
      "epoch": 13.212689901697944,
      "grad_norm": 0.0007136035710573196,
      "learning_rate": 1.5584121899753595e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51472368,
      "step": 88710
    },
    {
      "epoch": 13.213434614238905,
      "grad_norm": 0.0006533985142596066,
      "learning_rate": 1.558111183974252e-05,
      "loss": 0.0041,
      "num_input_tokens_seen": 51474832,
      "step": 88715
    },
    {
      "epoch": 13.214179326779863,
      "grad_norm": 0.48463672399520874,
      "learning_rate": 1.5578101938853994e-05,
      "loss": 0.0264,
      "num_input_tokens_seen": 51477840,
      "step": 88720
    },
    {
      "epoch": 13.214924039320822,
      "grad_norm": 0.0011445600539445877,
      "learning_rate": 1.5575092197138852e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51480720,
      "step": 88725
    },
    {
      "epoch": 13.21566875186178,
      "grad_norm": 0.0007744829636067152,
      "learning_rate": 1.557208261464796e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51483600,
      "step": 88730
    },
    {
      "epoch": 13.216413464402741,
      "grad_norm": 0.001807075459510088,
      "learning_rate": 1.556907319143214e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51486544,
      "step": 88735
    },
    {
      "epoch": 13.2171581769437,
      "grad_norm": 0.004463799297809601,
      "learning_rate": 1.5566063927542245e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51489392,
      "step": 88740
    },
    {
      "epoch": 13.217902889484659,
      "grad_norm": 0.005331024527549744,
      "learning_rate": 1.5563054823029122e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51492208,
      "step": 88745
    },
    {
      "epoch": 13.218647602025618,
      "grad_norm": 0.0007126253331080079,
      "learning_rate": 1.5560045877943585e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51494960,
      "step": 88750
    },
    {
      "epoch": 13.219392314566578,
      "grad_norm": 0.0017379069468006492,
      "learning_rate": 1.5557037092336486e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51498032,
      "step": 88755
    },
    {
      "epoch": 13.220137027107537,
      "grad_norm": 0.0005919749964959919,
      "learning_rate": 1.5554028466258634e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 51501360,
      "step": 88760
    },
    {
      "epoch": 13.220881739648496,
      "grad_norm": 0.0007662560092285275,
      "learning_rate": 1.5551019999760885e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 51504240,
      "step": 88765
    },
    {
      "epoch": 13.221626452189454,
      "grad_norm": 0.0027691207360476255,
      "learning_rate": 1.554801169289404e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51507440,
      "step": 88770
    },
    {
      "epoch": 13.222371164730415,
      "grad_norm": 0.0013379835290834308,
      "learning_rate": 1.554500354570894e-05,
      "loss": 0.0061,
      "num_input_tokens_seen": 51510672,
      "step": 88775
    },
    {
      "epoch": 13.223115877271374,
      "grad_norm": 0.0012228618143126369,
      "learning_rate": 1.5541995558256394e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51513648,
      "step": 88780
    },
    {
      "epoch": 13.223860589812332,
      "grad_norm": 0.003224215703085065,
      "learning_rate": 1.5538987730587217e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51516656,
      "step": 88785
    },
    {
      "epoch": 13.224605302353291,
      "grad_norm": 0.00039041333366185427,
      "learning_rate": 1.553598006275223e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51519216,
      "step": 88790
    },
    {
      "epoch": 13.22535001489425,
      "grad_norm": 0.005381088238209486,
      "learning_rate": 1.5532972554802232e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51522224,
      "step": 88795
    },
    {
      "epoch": 13.22609472743521,
      "grad_norm": 8.893064659787342e-05,
      "learning_rate": 1.552996520678805e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51525008,
      "step": 88800
    },
    {
      "epoch": 13.22683943997617,
      "grad_norm": 0.0033136652782559395,
      "learning_rate": 1.5526958018760473e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51527728,
      "step": 88805
    },
    {
      "epoch": 13.227584152517128,
      "grad_norm": 0.007662270218133926,
      "learning_rate": 1.552395099077032e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 51530672,
      "step": 88810
    },
    {
      "epoch": 13.228328865058087,
      "grad_norm": 0.0020597761031240225,
      "learning_rate": 1.552094412286838e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51533488,
      "step": 88815
    },
    {
      "epoch": 13.229073577599047,
      "grad_norm": 0.004913883749395609,
      "learning_rate": 1.551793741510546e-05,
      "loss": 0.0523,
      "num_input_tokens_seen": 51536336,
      "step": 88820
    },
    {
      "epoch": 13.229818290140006,
      "grad_norm": 0.006127112079411745,
      "learning_rate": 1.5514930867532352e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51539120,
      "step": 88825
    },
    {
      "epoch": 13.230563002680965,
      "grad_norm": 0.0003028803621418774,
      "learning_rate": 1.5511924480199836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51542160,
      "step": 88830
    },
    {
      "epoch": 13.231307715221924,
      "grad_norm": 0.0004494312743190676,
      "learning_rate": 1.550891825315872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51545392,
      "step": 88835
    },
    {
      "epoch": 13.232052427762884,
      "grad_norm": 0.0008202961180359125,
      "learning_rate": 1.5505912186459775e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51548464,
      "step": 88840
    },
    {
      "epoch": 13.232797140303843,
      "grad_norm": 0.011268455535173416,
      "learning_rate": 1.5502906280153806e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51551440,
      "step": 88845
    },
    {
      "epoch": 13.233541852844802,
      "grad_norm": 0.0004860815533902496,
      "learning_rate": 1.5499900534291575e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51554160,
      "step": 88850
    },
    {
      "epoch": 13.23428656538576,
      "grad_norm": 0.00036245648516342044,
      "learning_rate": 1.5496894948923873e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51556784,
      "step": 88855
    },
    {
      "epoch": 13.235031277926721,
      "grad_norm": 0.0009579125908203423,
      "learning_rate": 1.5493889524101467e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51559856,
      "step": 88860
    },
    {
      "epoch": 13.23577599046768,
      "grad_norm": 0.005965874530375004,
      "learning_rate": 1.5490884259875143e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51562832,
      "step": 88865
    },
    {
      "epoch": 13.236520703008638,
      "grad_norm": 0.0005718659958802164,
      "learning_rate": 1.5487879156295665e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 51565808,
      "step": 88870
    },
    {
      "epoch": 13.237265415549597,
      "grad_norm": 0.004067196045070887,
      "learning_rate": 1.548487421341379e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51568880,
      "step": 88875
    },
    {
      "epoch": 13.238010128090558,
      "grad_norm": 0.007897449657320976,
      "learning_rate": 1.548186943128031e-05,
      "loss": 0.1502,
      "num_input_tokens_seen": 51571824,
      "step": 88880
    },
    {
      "epoch": 13.238754840631517,
      "grad_norm": 0.0012035059044137597,
      "learning_rate": 1.5478864809945965e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51574448,
      "step": 88885
    },
    {
      "epoch": 13.239499553172475,
      "grad_norm": 0.0028429264202713966,
      "learning_rate": 1.5475860349461524e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51577296,
      "step": 88890
    },
    {
      "epoch": 13.240244265713434,
      "grad_norm": 0.00016269588377326727,
      "learning_rate": 1.5472856049877733e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51580080,
      "step": 88895
    },
    {
      "epoch": 13.240988978254395,
      "grad_norm": 0.0012246257392689586,
      "learning_rate": 1.5469851911245368e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51582640,
      "step": 88900
    },
    {
      "epoch": 13.241733690795353,
      "grad_norm": 0.006749414838850498,
      "learning_rate": 1.5466847933615165e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51585616,
      "step": 88905
    },
    {
      "epoch": 13.242478403336312,
      "grad_norm": 0.00041381127084605396,
      "learning_rate": 1.5463844117037872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51588528,
      "step": 88910
    },
    {
      "epoch": 13.24322311587727,
      "grad_norm": 0.0016984421527013183,
      "learning_rate": 1.5460840461564247e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51591216,
      "step": 88915
    },
    {
      "epoch": 13.243967828418231,
      "grad_norm": 0.004537483211606741,
      "learning_rate": 1.5457836967245027e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 51594160,
      "step": 88920
    },
    {
      "epoch": 13.24471254095919,
      "grad_norm": 0.0031792111694812775,
      "learning_rate": 1.5454833634130955e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51597360,
      "step": 88925
    },
    {
      "epoch": 13.245457253500149,
      "grad_norm": 0.016814375296235085,
      "learning_rate": 1.5451830462272753e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51600144,
      "step": 88930
    },
    {
      "epoch": 13.246201966041108,
      "grad_norm": 0.002823615912348032,
      "learning_rate": 1.5448827451721188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51603120,
      "step": 88935
    },
    {
      "epoch": 13.246946678582066,
      "grad_norm": 0.0006597579340450466,
      "learning_rate": 1.5445824602526966e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51605840,
      "step": 88940
    },
    {
      "epoch": 13.247691391123027,
      "grad_norm": 0.0009340911055915058,
      "learning_rate": 1.5442821914740836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51608432,
      "step": 88945
    },
    {
      "epoch": 13.248436103663986,
      "grad_norm": 0.004288573283702135,
      "learning_rate": 1.543981938841351e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51611120,
      "step": 88950
    },
    {
      "epoch": 13.249180816204944,
      "grad_norm": 0.002846788614988327,
      "learning_rate": 1.5436817023595716e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51614224,
      "step": 88955
    },
    {
      "epoch": 13.249925528745903,
      "grad_norm": 0.0006661156076006591,
      "learning_rate": 1.543381482033819e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51617136,
      "step": 88960
    },
    {
      "epoch": 13.250670241286864,
      "grad_norm": 0.0010090323630720377,
      "learning_rate": 1.5430812778691626e-05,
      "loss": 0.0067,
      "num_input_tokens_seen": 51620016,
      "step": 88965
    },
    {
      "epoch": 13.251414953827823,
      "grad_norm": 0.005355909001082182,
      "learning_rate": 1.5427810898706764e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 51623024,
      "step": 88970
    },
    {
      "epoch": 13.252159666368781,
      "grad_norm": 0.0015531983226537704,
      "learning_rate": 1.54248091804343e-05,
      "loss": 0.0426,
      "num_input_tokens_seen": 51625776,
      "step": 88975
    },
    {
      "epoch": 13.25290437890974,
      "grad_norm": 0.00011058703967137262,
      "learning_rate": 1.5421807623924968e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51629072,
      "step": 88980
    },
    {
      "epoch": 13.2536490914507,
      "grad_norm": 0.04430101811885834,
      "learning_rate": 1.5418806229229452e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51631856,
      "step": 88985
    },
    {
      "epoch": 13.25439380399166,
      "grad_norm": 0.002313565229997039,
      "learning_rate": 1.541580499639846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51634864,
      "step": 88990
    },
    {
      "epoch": 13.255138516532618,
      "grad_norm": 0.0009686770499683917,
      "learning_rate": 1.541280392548271e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51638352,
      "step": 88995
    },
    {
      "epoch": 13.255883229073577,
      "grad_norm": 0.0042033386416733265,
      "learning_rate": 1.5409803016532888e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51641776,
      "step": 89000
    },
    {
      "epoch": 13.256627941614537,
      "grad_norm": 0.002019943203777075,
      "learning_rate": 1.5406802269599703e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 51644528,
      "step": 89005
    },
    {
      "epoch": 13.257372654155496,
      "grad_norm": 0.009068571031093597,
      "learning_rate": 1.540380168473384e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51647408,
      "step": 89010
    },
    {
      "epoch": 13.258117366696455,
      "grad_norm": 0.0013248731847852468,
      "learning_rate": 1.5400801261986e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 51650224,
      "step": 89015
    },
    {
      "epoch": 13.258862079237414,
      "grad_norm": 0.0034477910958230495,
      "learning_rate": 1.5397801001406857e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51653296,
      "step": 89020
    },
    {
      "epoch": 13.259606791778374,
      "grad_norm": 0.004991748370230198,
      "learning_rate": 1.5394800903047114e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51656368,
      "step": 89025
    },
    {
      "epoch": 13.260351504319333,
      "grad_norm": 0.00024059609859250486,
      "learning_rate": 1.5391800966957448e-05,
      "loss": 0.2238,
      "num_input_tokens_seen": 51659184,
      "step": 89030
    },
    {
      "epoch": 13.261096216860292,
      "grad_norm": 0.004357920028269291,
      "learning_rate": 1.538880119318853e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51662128,
      "step": 89035
    },
    {
      "epoch": 13.26184092940125,
      "grad_norm": 0.003299733391031623,
      "learning_rate": 1.538580158179106e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51665008,
      "step": 89040
    },
    {
      "epoch": 13.262585641942211,
      "grad_norm": 0.01093499455600977,
      "learning_rate": 1.5382802132815694e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51667824,
      "step": 89045
    },
    {
      "epoch": 13.26333035448317,
      "grad_norm": 0.006765902508050203,
      "learning_rate": 1.5379802846313115e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51670448,
      "step": 89050
    },
    {
      "epoch": 13.264075067024129,
      "grad_norm": 0.0008125467575155199,
      "learning_rate": 1.5376803722333983e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51673104,
      "step": 89055
    },
    {
      "epoch": 13.264819779565087,
      "grad_norm": 0.0032279372680932283,
      "learning_rate": 1.5373804760928978e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51675888,
      "step": 89060
    },
    {
      "epoch": 13.265564492106048,
      "grad_norm": 0.003545208601281047,
      "learning_rate": 1.537080596214876e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51679056,
      "step": 89065
    },
    {
      "epoch": 13.266309204647007,
      "grad_norm": 0.000263459631241858,
      "learning_rate": 1.5367807326043976e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51681872,
      "step": 89070
    },
    {
      "epoch": 13.267053917187965,
      "grad_norm": 0.009350678883492947,
      "learning_rate": 1.5364808852665307e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51684656,
      "step": 89075
    },
    {
      "epoch": 13.267798629728924,
      "grad_norm": 0.00044884468661621213,
      "learning_rate": 1.53618105420634e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51687216,
      "step": 89080
    },
    {
      "epoch": 13.268543342269885,
      "grad_norm": 0.0003398768894840032,
      "learning_rate": 1.5358812394288906e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 51689936,
      "step": 89085
    },
    {
      "epoch": 13.269288054810843,
      "grad_norm": 11.575274467468262,
      "learning_rate": 1.5355814409392475e-05,
      "loss": 0.0135,
      "num_input_tokens_seen": 51692688,
      "step": 89090
    },
    {
      "epoch": 13.270032767351802,
      "grad_norm": 0.03522677347064018,
      "learning_rate": 1.5352816587424762e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51695824,
      "step": 89095
    },
    {
      "epoch": 13.270777479892761,
      "grad_norm": 0.00046094023855403066,
      "learning_rate": 1.53498189284364e-05,
      "loss": 0.1041,
      "num_input_tokens_seen": 51698736,
      "step": 89100
    },
    {
      "epoch": 13.271522192433721,
      "grad_norm": 0.00265842629596591,
      "learning_rate": 1.534682143247805e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51701744,
      "step": 89105
    },
    {
      "epoch": 13.27226690497468,
      "grad_norm": 0.0009745002607814968,
      "learning_rate": 1.534382409960034e-05,
      "loss": 0.0075,
      "num_input_tokens_seen": 51704464,
      "step": 89110
    },
    {
      "epoch": 13.273011617515639,
      "grad_norm": 0.0003198134363628924,
      "learning_rate": 1.5340826929853903e-05,
      "loss": 0.225,
      "num_input_tokens_seen": 51707280,
      "step": 89115
    },
    {
      "epoch": 13.273756330056598,
      "grad_norm": 0.002045086584985256,
      "learning_rate": 1.5337829923289382e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51710448,
      "step": 89120
    },
    {
      "epoch": 13.274501042597556,
      "grad_norm": 0.0011787281837314367,
      "learning_rate": 1.5334833079957394e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51713264,
      "step": 89125
    },
    {
      "epoch": 13.275245755138517,
      "grad_norm": 0.00393072422593832,
      "learning_rate": 1.5331836399908588e-05,
      "loss": 0.0588,
      "num_input_tokens_seen": 51716048,
      "step": 89130
    },
    {
      "epoch": 13.275990467679476,
      "grad_norm": 0.0010069074342027307,
      "learning_rate": 1.5328839883193575e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 51718928,
      "step": 89135
    },
    {
      "epoch": 13.276735180220435,
      "grad_norm": 0.0007538473000749946,
      "learning_rate": 1.5325843529862987e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51722096,
      "step": 89140
    },
    {
      "epoch": 13.277479892761393,
      "grad_norm": 0.00030738688656128943,
      "learning_rate": 1.532284733996744e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 51724784,
      "step": 89145
    },
    {
      "epoch": 13.278224605302354,
      "grad_norm": 0.0010539888171479106,
      "learning_rate": 1.5319851313557548e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51727632,
      "step": 89150
    },
    {
      "epoch": 13.278969317843313,
      "grad_norm": 0.0003197571204509586,
      "learning_rate": 1.5316855450683937e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51730448,
      "step": 89155
    },
    {
      "epoch": 13.279714030384271,
      "grad_norm": 0.0020675864070653915,
      "learning_rate": 1.53138597513972e-05,
      "loss": 0.0945,
      "num_input_tokens_seen": 51733232,
      "step": 89160
    },
    {
      "epoch": 13.28045874292523,
      "grad_norm": 561.0004272460938,
      "learning_rate": 1.5310864215747966e-05,
      "loss": 0.1796,
      "num_input_tokens_seen": 51736272,
      "step": 89165
    },
    {
      "epoch": 13.28120345546619,
      "grad_norm": 0.007932997308671474,
      "learning_rate": 1.5307868843786828e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51739376,
      "step": 89170
    },
    {
      "epoch": 13.28194816800715,
      "grad_norm": 0.006655675359070301,
      "learning_rate": 1.53048736355644e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51742032,
      "step": 89175
    },
    {
      "epoch": 13.282692880548108,
      "grad_norm": 0.0011604564497247338,
      "learning_rate": 1.5301878591131273e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51745040,
      "step": 89180
    },
    {
      "epoch": 13.283437593089067,
      "grad_norm": 0.0003019198775291443,
      "learning_rate": 1.529888371053806e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51747792,
      "step": 89185
    },
    {
      "epoch": 13.284182305630027,
      "grad_norm": 0.0004353616095613688,
      "learning_rate": 1.5295888993835345e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51750832,
      "step": 89190
    },
    {
      "epoch": 13.284927018170986,
      "grad_norm": 0.0004599330422934145,
      "learning_rate": 1.5292894441073712e-05,
      "loss": 0.0794,
      "num_input_tokens_seen": 51753936,
      "step": 89195
    },
    {
      "epoch": 13.285671730711945,
      "grad_norm": 0.0019463201751932502,
      "learning_rate": 1.5289900052303774e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51756656,
      "step": 89200
    },
    {
      "epoch": 13.286416443252904,
      "grad_norm": 0.0015797130763530731,
      "learning_rate": 1.5286905827576094e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51759664,
      "step": 89205
    },
    {
      "epoch": 13.287161155793864,
      "grad_norm": 0.008318966254591942,
      "learning_rate": 1.5283911766941277e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51762448,
      "step": 89210
    },
    {
      "epoch": 13.287905868334823,
      "grad_norm": 0.00010488089901627973,
      "learning_rate": 1.528091787044989e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51765232,
      "step": 89215
    },
    {
      "epoch": 13.288650580875782,
      "grad_norm": 0.001582641969434917,
      "learning_rate": 1.5277924138152528e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51768240,
      "step": 89220
    },
    {
      "epoch": 13.28939529341674,
      "grad_norm": 0.0025180524680763483,
      "learning_rate": 1.527493057009975e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51771088,
      "step": 89225
    },
    {
      "epoch": 13.290140005957701,
      "grad_norm": 53.224403381347656,
      "learning_rate": 1.5271937166342132e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 51774160,
      "step": 89230
    },
    {
      "epoch": 13.29088471849866,
      "grad_norm": 0.005236512050032616,
      "learning_rate": 1.526894392693025e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51777456,
      "step": 89235
    },
    {
      "epoch": 13.291629431039619,
      "grad_norm": 0.09586571156978607,
      "learning_rate": 1.5265950851914668e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 51780272,
      "step": 89240
    },
    {
      "epoch": 13.292374143580577,
      "grad_norm": 0.001263864804059267,
      "learning_rate": 1.526295794134596e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 51783024,
      "step": 89245
    },
    {
      "epoch": 13.293118856121538,
      "grad_norm": 0.008700786158442497,
      "learning_rate": 1.5259965195274678e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51786224,
      "step": 89250
    },
    {
      "epoch": 13.293863568662497,
      "grad_norm": 0.023004265502095222,
      "learning_rate": 1.5256972613751386e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51789296,
      "step": 89255
    },
    {
      "epoch": 13.294608281203455,
      "grad_norm": 0.06737443059682846,
      "learning_rate": 1.5253980196826634e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51792144,
      "step": 89260
    },
    {
      "epoch": 13.295352993744414,
      "grad_norm": 0.000366437976481393,
      "learning_rate": 1.5250987944550988e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51795088,
      "step": 89265
    },
    {
      "epoch": 13.296097706285375,
      "grad_norm": 0.017788145691156387,
      "learning_rate": 1.5247995856974995e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 51798320,
      "step": 89270
    },
    {
      "epoch": 13.296842418826333,
      "grad_norm": 0.0006721275858581066,
      "learning_rate": 1.5245003934149194e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51801008,
      "step": 89275
    },
    {
      "epoch": 13.297587131367292,
      "grad_norm": 0.0013233869103714824,
      "learning_rate": 1.5242012176124135e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51803920,
      "step": 89280
    },
    {
      "epoch": 13.298331843908251,
      "grad_norm": 3.1537716388702393,
      "learning_rate": 1.5239020582950364e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 51806736,
      "step": 89285
    },
    {
      "epoch": 13.299076556449211,
      "grad_norm": 0.000892390962690115,
      "learning_rate": 1.5236029154678425e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51809744,
      "step": 89290
    },
    {
      "epoch": 13.29982126899017,
      "grad_norm": 0.4791122078895569,
      "learning_rate": 1.523303789135884e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 51812880,
      "step": 89295
    },
    {
      "epoch": 13.300565981531129,
      "grad_norm": 0.005324670113623142,
      "learning_rate": 1.5230046793042163e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51815536,
      "step": 89300
    },
    {
      "epoch": 13.301310694072088,
      "grad_norm": 0.029198363423347473,
      "learning_rate": 1.5227055859778917e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51818192,
      "step": 89305
    },
    {
      "epoch": 13.302055406613047,
      "grad_norm": 0.0011698019225150347,
      "learning_rate": 1.5224065091619622e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51820944,
      "step": 89310
    },
    {
      "epoch": 13.302800119154007,
      "grad_norm": 3.1277693778974935e-05,
      "learning_rate": 1.5221074488614818e-05,
      "loss": 0.1068,
      "num_input_tokens_seen": 51824112,
      "step": 89315
    },
    {
      "epoch": 13.303544831694966,
      "grad_norm": 0.0003156843886245042,
      "learning_rate": 1.521808405081501e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51826864,
      "step": 89320
    },
    {
      "epoch": 13.304289544235925,
      "grad_norm": 0.003951722290366888,
      "learning_rate": 1.521509377827074e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51829872,
      "step": 89325
    },
    {
      "epoch": 13.305034256776883,
      "grad_norm": 0.00038031680742278695,
      "learning_rate": 1.5212103671032507e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 51832880,
      "step": 89330
    },
    {
      "epoch": 13.305778969317844,
      "grad_norm": 0.0005744958762079477,
      "learning_rate": 1.5209113729150845e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51835536,
      "step": 89335
    },
    {
      "epoch": 13.306523681858803,
      "grad_norm": 6.0950515035074204e-05,
      "learning_rate": 1.520612395267625e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51838288,
      "step": 89340
    },
    {
      "epoch": 13.307268394399761,
      "grad_norm": 0.0001102965252357535,
      "learning_rate": 1.5203134341659242e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51841232,
      "step": 89345
    },
    {
      "epoch": 13.30801310694072,
      "grad_norm": 0.00022498186444863677,
      "learning_rate": 1.520014489615032e-05,
      "loss": 0.0264,
      "num_input_tokens_seen": 51844112,
      "step": 89350
    },
    {
      "epoch": 13.30875781948168,
      "grad_norm": 0.0007071206346154213,
      "learning_rate": 1.5197155616199982e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51847024,
      "step": 89355
    },
    {
      "epoch": 13.30950253202264,
      "grad_norm": 0.0004292575758881867,
      "learning_rate": 1.5194166501858747e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51849904,
      "step": 89360
    },
    {
      "epoch": 13.310247244563598,
      "grad_norm": 8.713393617654219e-05,
      "learning_rate": 1.5191177553177094e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51852816,
      "step": 89365
    },
    {
      "epoch": 13.310991957104557,
      "grad_norm": 0.0002824569819495082,
      "learning_rate": 1.5188188770205533e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51855920,
      "step": 89370
    },
    {
      "epoch": 13.311736669645517,
      "grad_norm": 0.052782684564590454,
      "learning_rate": 1.518520015299455e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51858512,
      "step": 89375
    },
    {
      "epoch": 13.312481382186476,
      "grad_norm": 0.00056887959362939,
      "learning_rate": 1.5182211701594634e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51861584,
      "step": 89380
    },
    {
      "epoch": 13.313226094727435,
      "grad_norm": 0.0003237944038119167,
      "learning_rate": 1.5179223416056268e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51864208,
      "step": 89385
    },
    {
      "epoch": 13.313970807268394,
      "grad_norm": 0.011791213415563107,
      "learning_rate": 1.517623529642995e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51867376,
      "step": 89390
    },
    {
      "epoch": 13.314715519809354,
      "grad_norm": 0.0010843992931768298,
      "learning_rate": 1.517324734276615e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51870320,
      "step": 89395
    },
    {
      "epoch": 13.315460232350313,
      "grad_norm": 0.0005557799595408142,
      "learning_rate": 1.5170259555115343e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51873200,
      "step": 89400
    },
    {
      "epoch": 13.316204944891272,
      "grad_norm": 0.03593424707651138,
      "learning_rate": 1.5167271933528015e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51876048,
      "step": 89405
    },
    {
      "epoch": 13.31694965743223,
      "grad_norm": 0.0019489607075229287,
      "learning_rate": 1.5164284478054636e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51878736,
      "step": 89410
    },
    {
      "epoch": 13.317694369973191,
      "grad_norm": 0.0005403195973485708,
      "learning_rate": 1.5161297188745673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51881616,
      "step": 89415
    },
    {
      "epoch": 13.31843908251415,
      "grad_norm": 0.00016500505444128066,
      "learning_rate": 1.5158310065651588e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51884432,
      "step": 89420
    },
    {
      "epoch": 13.319183795055109,
      "grad_norm": 0.002264935290440917,
      "learning_rate": 1.5155323108822861e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51887440,
      "step": 89425
    },
    {
      "epoch": 13.319928507596067,
      "grad_norm": 0.007412138860672712,
      "learning_rate": 1.5152336318309942e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51890192,
      "step": 89430
    },
    {
      "epoch": 13.320673220137028,
      "grad_norm": 0.0014549688203260303,
      "learning_rate": 1.5149349694163283e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51892848,
      "step": 89435
    },
    {
      "epoch": 13.321417932677987,
      "grad_norm": 0.001872002030722797,
      "learning_rate": 1.5146363236433362e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51895792,
      "step": 89440
    },
    {
      "epoch": 13.322162645218945,
      "grad_norm": 4.2120591388083994e-05,
      "learning_rate": 1.5143376945170612e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51898608,
      "step": 89445
    },
    {
      "epoch": 13.322907357759904,
      "grad_norm": 3.6922210711054504e-05,
      "learning_rate": 1.5140390820425495e-05,
      "loss": 0.1253,
      "num_input_tokens_seen": 51901552,
      "step": 89450
    },
    {
      "epoch": 13.323652070300863,
      "grad_norm": 0.0011810261057689786,
      "learning_rate": 1.5137404862248447e-05,
      "loss": 0.3002,
      "num_input_tokens_seen": 51904560,
      "step": 89455
    },
    {
      "epoch": 13.324396782841823,
      "grad_norm": 0.0004799739981535822,
      "learning_rate": 1.5134419070689926e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 51907184,
      "step": 89460
    },
    {
      "epoch": 13.325141495382782,
      "grad_norm": 0.002953808754682541,
      "learning_rate": 1.5131433445800363e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51910160,
      "step": 89465
    },
    {
      "epoch": 13.325886207923741,
      "grad_norm": 0.0035552734043449163,
      "learning_rate": 1.5128447987630207e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51913072,
      "step": 89470
    },
    {
      "epoch": 13.3266309204647,
      "grad_norm": 0.010807354934513569,
      "learning_rate": 1.5125462696229892e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51916048,
      "step": 89475
    },
    {
      "epoch": 13.32737563300566,
      "grad_norm": 0.000986250233836472,
      "learning_rate": 1.5122477571649846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51918896,
      "step": 89480
    },
    {
      "epoch": 13.328120345546619,
      "grad_norm": 14.412497520446777,
      "learning_rate": 1.5119492613940503e-05,
      "loss": 0.196,
      "num_input_tokens_seen": 51922064,
      "step": 89485
    },
    {
      "epoch": 13.328865058087578,
      "grad_norm": 0.006811326835304499,
      "learning_rate": 1.5116507823152282e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51925232,
      "step": 89490
    },
    {
      "epoch": 13.329609770628537,
      "grad_norm": 0.0021488317288458347,
      "learning_rate": 1.5113523199335624e-05,
      "loss": 0.0822,
      "num_input_tokens_seen": 51928080,
      "step": 89495
    },
    {
      "epoch": 13.330354483169497,
      "grad_norm": 0.009642613120377064,
      "learning_rate": 1.5110538742540936e-05,
      "loss": 0.098,
      "num_input_tokens_seen": 51931120,
      "step": 89500
    },
    {
      "epoch": 13.331099195710456,
      "grad_norm": 0.0006776942173019052,
      "learning_rate": 1.5107554452818653e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 51934128,
      "step": 89505
    },
    {
      "epoch": 13.331843908251415,
      "grad_norm": 0.002726383972913027,
      "learning_rate": 1.5104570330219187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51936912,
      "step": 89510
    },
    {
      "epoch": 13.332588620792373,
      "grad_norm": 0.0005922756972722709,
      "learning_rate": 1.510158637479294e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51940592,
      "step": 89515
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.000340324331773445,
      "learning_rate": 1.5098602586590335e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51943376,
      "step": 89520
    },
    {
      "epoch": 13.334078045874293,
      "grad_norm": 42.001373291015625,
      "learning_rate": 1.5095618965661767e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 51946160,
      "step": 89525
    },
    {
      "epoch": 13.334822758415251,
      "grad_norm": 0.00016617303481325507,
      "learning_rate": 1.5092635512057662e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51948944,
      "step": 89530
    },
    {
      "epoch": 13.33556747095621,
      "grad_norm": 0.0019445728976279497,
      "learning_rate": 1.5089652225828399e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 51951728,
      "step": 89535
    },
    {
      "epoch": 13.33631218349717,
      "grad_norm": 0.0016836181748658419,
      "learning_rate": 1.5086669107024398e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51954672,
      "step": 89540
    },
    {
      "epoch": 13.33705689603813,
      "grad_norm": 0.0004365521890576929,
      "learning_rate": 1.5083686155696043e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 51957296,
      "step": 89545
    },
    {
      "epoch": 13.337801608579088,
      "grad_norm": 0.004699063953012228,
      "learning_rate": 1.5080703371893737e-05,
      "loss": 0.0144,
      "num_input_tokens_seen": 51960080,
      "step": 89550
    },
    {
      "epoch": 13.338546321120047,
      "grad_norm": 0.00021354704222176224,
      "learning_rate": 1.5077720755667868e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51963024,
      "step": 89555
    },
    {
      "epoch": 13.339291033661008,
      "grad_norm": 0.003726082155480981,
      "learning_rate": 1.5074738307068809e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 51966000,
      "step": 89560
    },
    {
      "epoch": 13.340035746201966,
      "grad_norm": 0.0007268986664712429,
      "learning_rate": 1.5071756026146972e-05,
      "loss": 0.2844,
      "num_input_tokens_seen": 51968784,
      "step": 89565
    },
    {
      "epoch": 13.340780458742925,
      "grad_norm": 0.0035790065303444862,
      "learning_rate": 1.506877391295271e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51972112,
      "step": 89570
    },
    {
      "epoch": 13.341525171283884,
      "grad_norm": 0.0010967880953103304,
      "learning_rate": 1.5065791967536436e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51974992,
      "step": 89575
    },
    {
      "epoch": 13.342269883824844,
      "grad_norm": 0.0015093229012563825,
      "learning_rate": 1.50628101899485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51977840,
      "step": 89580
    },
    {
      "epoch": 13.343014596365803,
      "grad_norm": 0.003834689501672983,
      "learning_rate": 1.5059828580239296e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 51980688,
      "step": 89585
    },
    {
      "epoch": 13.343759308906762,
      "grad_norm": 0.001010450767353177,
      "learning_rate": 1.5056847138459185e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51983536,
      "step": 89590
    },
    {
      "epoch": 13.34450402144772,
      "grad_norm": 0.00663408450782299,
      "learning_rate": 1.5053865864658523e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 51986768,
      "step": 89595
    },
    {
      "epoch": 13.345248733988681,
      "grad_norm": 0.0032701250165700912,
      "learning_rate": 1.5050884758887698e-05,
      "loss": 0.0074,
      "num_input_tokens_seen": 51989520,
      "step": 89600
    },
    {
      "epoch": 13.34599344652964,
      "grad_norm": 0.009402611292898655,
      "learning_rate": 1.504790382119706e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 51992432,
      "step": 89605
    },
    {
      "epoch": 13.346738159070599,
      "grad_norm": 0.2691642940044403,
      "learning_rate": 1.5044923051636972e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 51995184,
      "step": 89610
    },
    {
      "epoch": 13.347482871611557,
      "grad_norm": 16.77346420288086,
      "learning_rate": 1.504194245025779e-05,
      "loss": 0.2756,
      "num_input_tokens_seen": 51997968,
      "step": 89615
    },
    {
      "epoch": 13.348227584152518,
      "grad_norm": 4.917673110961914,
      "learning_rate": 1.5038962017109875e-05,
      "loss": 0.0013,
      "num_input_tokens_seen": 52000816,
      "step": 89620
    },
    {
      "epoch": 13.348972296693477,
      "grad_norm": 0.0013092560693621635,
      "learning_rate": 1.5035981752243561e-05,
      "loss": 0.0329,
      "num_input_tokens_seen": 52003632,
      "step": 89625
    },
    {
      "epoch": 13.349717009234435,
      "grad_norm": 0.0006669603753834963,
      "learning_rate": 1.5033001655709222e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52006640,
      "step": 89630
    },
    {
      "epoch": 13.350461721775394,
      "grad_norm": 0.011133063584566116,
      "learning_rate": 1.5030021727557189e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52009360,
      "step": 89635
    },
    {
      "epoch": 13.351206434316353,
      "grad_norm": 0.003963632509112358,
      "learning_rate": 1.5027041967837802e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52012240,
      "step": 89640
    },
    {
      "epoch": 13.351951146857314,
      "grad_norm": 0.0008831630693748593,
      "learning_rate": 1.5024062376601406e-05,
      "loss": 0.0768,
      "num_input_tokens_seen": 52015344,
      "step": 89645
    },
    {
      "epoch": 13.352695859398272,
      "grad_norm": 0.022210994735360146,
      "learning_rate": 1.502108295389833e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52018256,
      "step": 89650
    },
    {
      "epoch": 13.353440571939231,
      "grad_norm": 6.374847725965083e-05,
      "learning_rate": 1.5018103699778923e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52021264,
      "step": 89655
    },
    {
      "epoch": 13.35418528448019,
      "grad_norm": 0.0010289434576407075,
      "learning_rate": 1.5015124614293501e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52024080,
      "step": 89660
    },
    {
      "epoch": 13.35492999702115,
      "grad_norm": 0.010030457749962807,
      "learning_rate": 1.5012145697492407e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52026864,
      "step": 89665
    },
    {
      "epoch": 13.35567470956211,
      "grad_norm": 0.027487406507134438,
      "learning_rate": 1.5009166949425965e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52029584,
      "step": 89670
    },
    {
      "epoch": 13.356419422103068,
      "grad_norm": 0.007023556157946587,
      "learning_rate": 1.5006188370144486e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52032304,
      "step": 89675
    },
    {
      "epoch": 13.357164134644027,
      "grad_norm": 0.0005045527359470725,
      "learning_rate": 1.5003209959698302e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52035312,
      "step": 89680
    },
    {
      "epoch": 13.357908847184987,
      "grad_norm": 0.004553014878183603,
      "learning_rate": 1.5000231718137717e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52038256,
      "step": 89685
    },
    {
      "epoch": 13.358653559725946,
      "grad_norm": 0.10363846272230148,
      "learning_rate": 1.4997253645513063e-05,
      "loss": 0.1379,
      "num_input_tokens_seen": 52041168,
      "step": 89690
    },
    {
      "epoch": 13.359398272266905,
      "grad_norm": 0.0002030060422839597,
      "learning_rate": 1.499427574187463e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52044272,
      "step": 89695
    },
    {
      "epoch": 13.360142984807863,
      "grad_norm": 0.0005469126044772565,
      "learning_rate": 1.4991298007272753e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52047440,
      "step": 89700
    },
    {
      "epoch": 13.360887697348824,
      "grad_norm": 0.0001811437396099791,
      "learning_rate": 1.4988320441757714e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 52050768,
      "step": 89705
    },
    {
      "epoch": 13.361632409889783,
      "grad_norm": 0.000453481130534783,
      "learning_rate": 1.4985343045379836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52053488,
      "step": 89710
    },
    {
      "epoch": 13.362377122430741,
      "grad_norm": 0.00015857318066991866,
      "learning_rate": 1.4982365818189407e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52056272,
      "step": 89715
    },
    {
      "epoch": 13.3631218349717,
      "grad_norm": 0.00025237296358682215,
      "learning_rate": 1.4979388760236712e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52059088,
      "step": 89720
    },
    {
      "epoch": 13.36386654751266,
      "grad_norm": 0.0024427599273622036,
      "learning_rate": 1.4976411871572074e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52061904,
      "step": 89725
    },
    {
      "epoch": 13.36461126005362,
      "grad_norm": 0.0003106630756519735,
      "learning_rate": 1.4973435152245757e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 52064848,
      "step": 89730
    },
    {
      "epoch": 13.365355972594578,
      "grad_norm": 0.0005465036374516785,
      "learning_rate": 1.4970458602308077e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52067408,
      "step": 89735
    },
    {
      "epoch": 13.366100685135537,
      "grad_norm": 0.0007049235282465816,
      "learning_rate": 1.4967482221809299e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52070512,
      "step": 89740
    },
    {
      "epoch": 13.366845397676498,
      "grad_norm": 0.004141643177717924,
      "learning_rate": 1.4964506010799711e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52073264,
      "step": 89745
    },
    {
      "epoch": 13.367590110217456,
      "grad_norm": 0.006759785581380129,
      "learning_rate": 1.4961529969329602e-05,
      "loss": 0.0116,
      "num_input_tokens_seen": 52075920,
      "step": 89750
    },
    {
      "epoch": 13.368334822758415,
      "grad_norm": 0.006626110058277845,
      "learning_rate": 1.4958554097449228e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52078832,
      "step": 89755
    },
    {
      "epoch": 13.369079535299374,
      "grad_norm": 0.0003823661245405674,
      "learning_rate": 1.4955578395208886e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52081552,
      "step": 89760
    },
    {
      "epoch": 13.369824247840334,
      "grad_norm": 0.0003831953217741102,
      "learning_rate": 1.4952602862658832e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52084240,
      "step": 89765
    },
    {
      "epoch": 13.370568960381293,
      "grad_norm": 0.004327984992414713,
      "learning_rate": 1.494962749984935e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52086832,
      "step": 89770
    },
    {
      "epoch": 13.371313672922252,
      "grad_norm": 0.0296279639005661,
      "learning_rate": 1.4946652306830688e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52089680,
      "step": 89775
    },
    {
      "epoch": 13.37205838546321,
      "grad_norm": 0.00017564688459970057,
      "learning_rate": 1.4943677283653124e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52092592,
      "step": 89780
    },
    {
      "epoch": 13.372803098004171,
      "grad_norm": 0.011265124194324017,
      "learning_rate": 1.4940702430366905e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52095728,
      "step": 89785
    },
    {
      "epoch": 13.37354781054513,
      "grad_norm": 0.00032720898161642253,
      "learning_rate": 1.4937727747022302e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52098640,
      "step": 89790
    },
    {
      "epoch": 13.374292523086089,
      "grad_norm": 0.006495860405266285,
      "learning_rate": 1.493475323366956e-05,
      "loss": 0.004,
      "num_input_tokens_seen": 52101712,
      "step": 89795
    },
    {
      "epoch": 13.375037235627047,
      "grad_norm": 0.0008773697772994637,
      "learning_rate": 1.4931778890358924e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52104208,
      "step": 89800
    },
    {
      "epoch": 13.375781948168008,
      "grad_norm": 0.0013528919080272317,
      "learning_rate": 1.492880471714066e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52107248,
      "step": 89805
    },
    {
      "epoch": 13.376526660708967,
      "grad_norm": 0.0005043897544965148,
      "learning_rate": 1.4925830714065003e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52109872,
      "step": 89810
    },
    {
      "epoch": 13.377271373249926,
      "grad_norm": 0.003987329080700874,
      "learning_rate": 1.4922856881182199e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52112752,
      "step": 89815
    },
    {
      "epoch": 13.378016085790884,
      "grad_norm": 0.00039042060961946845,
      "learning_rate": 1.4919883218542474e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52115472,
      "step": 89820
    },
    {
      "epoch": 13.378760798331843,
      "grad_norm": 0.0015768109587952495,
      "learning_rate": 1.4916909726196093e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 52118384,
      "step": 89825
    },
    {
      "epoch": 13.379505510872804,
      "grad_norm": 0.0025220492389053106,
      "learning_rate": 1.4913936404193268e-05,
      "loss": 0.1203,
      "num_input_tokens_seen": 52121200,
      "step": 89830
    },
    {
      "epoch": 13.380250223413762,
      "grad_norm": 0.27743422985076904,
      "learning_rate": 1.4910963252584231e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 52123984,
      "step": 89835
    },
    {
      "epoch": 13.380994935954721,
      "grad_norm": 0.0024321232922375202,
      "learning_rate": 1.4907990271419222e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52126832,
      "step": 89840
    },
    {
      "epoch": 13.38173964849568,
      "grad_norm": 0.0002073127106996253,
      "learning_rate": 1.4905017460748458e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52130160,
      "step": 89845
    },
    {
      "epoch": 13.38248436103664,
      "grad_norm": 0.0001075967084034346,
      "learning_rate": 1.4902044820622168e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52133136,
      "step": 89850
    },
    {
      "epoch": 13.3832290735776,
      "grad_norm": 0.0035680567380040884,
      "learning_rate": 1.489907235109056e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52135952,
      "step": 89855
    },
    {
      "epoch": 13.383973786118558,
      "grad_norm": 0.001313989982008934,
      "learning_rate": 1.4896100052203865e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52138544,
      "step": 89860
    },
    {
      "epoch": 13.384718498659517,
      "grad_norm": 0.0041435169987380505,
      "learning_rate": 1.4893127924012281e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 52141392,
      "step": 89865
    },
    {
      "epoch": 13.385463211200477,
      "grad_norm": 0.0030674804002046585,
      "learning_rate": 1.4890155966566039e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52144304,
      "step": 89870
    },
    {
      "epoch": 13.386207923741436,
      "grad_norm": 0.20583312213420868,
      "learning_rate": 1.4887184179915336e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52147088,
      "step": 89875
    },
    {
      "epoch": 13.386952636282395,
      "grad_norm": 0.004280935041606426,
      "learning_rate": 1.4884212564110379e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52150096,
      "step": 89880
    },
    {
      "epoch": 13.387697348823353,
      "grad_norm": 0.0025902974884957075,
      "learning_rate": 1.4881241119201367e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52153008,
      "step": 89885
    },
    {
      "epoch": 13.388442061364314,
      "grad_norm": 0.00043106937664560974,
      "learning_rate": 1.4878269845238496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52155824,
      "step": 89890
    },
    {
      "epoch": 13.389186773905273,
      "grad_norm": 0.006776819936931133,
      "learning_rate": 1.4875298742271976e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 52159024,
      "step": 89895
    },
    {
      "epoch": 13.389931486446232,
      "grad_norm": 0.00021974713308736682,
      "learning_rate": 1.4872327810351986e-05,
      "loss": 0.0081,
      "num_input_tokens_seen": 52162416,
      "step": 89900
    },
    {
      "epoch": 13.39067619898719,
      "grad_norm": 0.0008056680089794099,
      "learning_rate": 1.4869357049528731e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52165424,
      "step": 89905
    },
    {
      "epoch": 13.39142091152815,
      "grad_norm": 0.0015801406698301435,
      "learning_rate": 1.4866386459852394e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52168496,
      "step": 89910
    },
    {
      "epoch": 13.39216562406911,
      "grad_norm": 0.006052397191524506,
      "learning_rate": 1.4863416041373158e-05,
      "loss": 0.0206,
      "num_input_tokens_seen": 52171536,
      "step": 89915
    },
    {
      "epoch": 13.392910336610068,
      "grad_norm": 0.00045316238538362086,
      "learning_rate": 1.4860445794141204e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52174352,
      "step": 89920
    },
    {
      "epoch": 13.393655049151027,
      "grad_norm": 0.0014555907109752297,
      "learning_rate": 1.4857475718206706e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 52177200,
      "step": 89925
    },
    {
      "epoch": 13.394399761691988,
      "grad_norm": 0.004567055031657219,
      "learning_rate": 1.4854505813619857e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52179888,
      "step": 89930
    },
    {
      "epoch": 13.395144474232946,
      "grad_norm": 0.00016927129763644189,
      "learning_rate": 1.4851536080430817e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52182640,
      "step": 89935
    },
    {
      "epoch": 13.395889186773905,
      "grad_norm": 0.00016031677660066634,
      "learning_rate": 1.4848566518689757e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52185584,
      "step": 89940
    },
    {
      "epoch": 13.396633899314864,
      "grad_norm": 0.0002449367311783135,
      "learning_rate": 1.4845597128446853e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52188176,
      "step": 89945
    },
    {
      "epoch": 13.397378611855824,
      "grad_norm": 3.925800323486328,
      "learning_rate": 1.4842627909752266e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 52191088,
      "step": 89950
    },
    {
      "epoch": 13.398123324396783,
      "grad_norm": 0.0003882356104440987,
      "learning_rate": 1.4839658862656158e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52193872,
      "step": 89955
    },
    {
      "epoch": 13.398868036937742,
      "grad_norm": 0.0017122525023296475,
      "learning_rate": 1.4836689987208677e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52196944,
      "step": 89960
    },
    {
      "epoch": 13.3996127494787,
      "grad_norm": 0.031268153339624405,
      "learning_rate": 1.483372128346e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52199728,
      "step": 89965
    },
    {
      "epoch": 13.400357462019661,
      "grad_norm": 6.908215436851606e-05,
      "learning_rate": 1.4830752751460264e-05,
      "loss": 0.0645,
      "num_input_tokens_seen": 52202640,
      "step": 89970
    },
    {
      "epoch": 13.40110217456062,
      "grad_norm": 0.023176688700914383,
      "learning_rate": 1.482778439125963e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52205360,
      "step": 89975
    },
    {
      "epoch": 13.401846887101579,
      "grad_norm": 0.0038175617810338736,
      "learning_rate": 1.482481620290823e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 52208432,
      "step": 89980
    },
    {
      "epoch": 13.402591599642538,
      "grad_norm": 0.013448514975607395,
      "learning_rate": 1.4821848186456228e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52211536,
      "step": 89985
    },
    {
      "epoch": 13.403336312183498,
      "grad_norm": 0.0014617868000641465,
      "learning_rate": 1.4818880341953745e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52214320,
      "step": 89990
    },
    {
      "epoch": 13.404081024724457,
      "grad_norm": 0.0008222144097089767,
      "learning_rate": 1.4815912669450943e-05,
      "loss": 0.1689,
      "num_input_tokens_seen": 52217040,
      "step": 89995
    },
    {
      "epoch": 13.404825737265416,
      "grad_norm": 89.23220825195312,
      "learning_rate": 1.4812945168997947e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 52219952,
      "step": 90000
    },
    {
      "epoch": 13.405570449806374,
      "grad_norm": 2.64147347479593e-05,
      "learning_rate": 1.4809977840644881e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52223152,
      "step": 90005
    },
    {
      "epoch": 13.406315162347333,
      "grad_norm": 0.00012026154581690207,
      "learning_rate": 1.4807010684441891e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52225904,
      "step": 90010
    },
    {
      "epoch": 13.407059874888294,
      "grad_norm": 0.0002369327994529158,
      "learning_rate": 1.4804043700439083e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52228656,
      "step": 90015
    },
    {
      "epoch": 13.407804587429252,
      "grad_norm": 0.0015573796117678285,
      "learning_rate": 1.4801076888686605e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52231472,
      "step": 90020
    },
    {
      "epoch": 13.408549299970211,
      "grad_norm": 21.1169376373291,
      "learning_rate": 1.4798110249234556e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 52234448,
      "step": 90025
    },
    {
      "epoch": 13.40929401251117,
      "grad_norm": 0.001626771641895175,
      "learning_rate": 1.4795143782133075e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52237296,
      "step": 90030
    },
    {
      "epoch": 13.41003872505213,
      "grad_norm": 0.0004897260805591941,
      "learning_rate": 1.4792177487432271e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52240144,
      "step": 90035
    },
    {
      "epoch": 13.41078343759309,
      "grad_norm": 0.0042135631665587425,
      "learning_rate": 1.4789211365182249e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52242960,
      "step": 90040
    },
    {
      "epoch": 13.411528150134048,
      "grad_norm": 0.000761836243327707,
      "learning_rate": 1.4786245415433125e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52246032,
      "step": 90045
    },
    {
      "epoch": 13.412272862675007,
      "grad_norm": 0.0008799646748229861,
      "learning_rate": 1.4783279638234994e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52248752,
      "step": 90050
    },
    {
      "epoch": 13.413017575215967,
      "grad_norm": 0.0012048677308484912,
      "learning_rate": 1.4780314033637982e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52251888,
      "step": 90055
    },
    {
      "epoch": 13.413762287756926,
      "grad_norm": 24.340978622436523,
      "learning_rate": 1.4777348601692168e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 52254704,
      "step": 90060
    },
    {
      "epoch": 13.414507000297885,
      "grad_norm": 0.002444470301270485,
      "learning_rate": 1.4774383342447667e-05,
      "loss": 0.2319,
      "num_input_tokens_seen": 52257520,
      "step": 90065
    },
    {
      "epoch": 13.415251712838844,
      "grad_norm": 0.14012452960014343,
      "learning_rate": 1.477141825595456e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52260304,
      "step": 90070
    },
    {
      "epoch": 13.415996425379804,
      "grad_norm": 0.0007797036087140441,
      "learning_rate": 1.4768453342262955e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52262960,
      "step": 90075
    },
    {
      "epoch": 13.416741137920763,
      "grad_norm": 0.001309813349507749,
      "learning_rate": 1.4765488601422934e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52266224,
      "step": 90080
    },
    {
      "epoch": 13.417485850461722,
      "grad_norm": 0.0020580152049660683,
      "learning_rate": 1.4762524033484565e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52269200,
      "step": 90085
    },
    {
      "epoch": 13.41823056300268,
      "grad_norm": 0.00799060333520174,
      "learning_rate": 1.475955963849796e-05,
      "loss": 0.0929,
      "num_input_tokens_seen": 52272240,
      "step": 90090
    },
    {
      "epoch": 13.418975275543641,
      "grad_norm": 0.0003800700360443443,
      "learning_rate": 1.4756595416513175e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52274960,
      "step": 90095
    },
    {
      "epoch": 13.4197199880846,
      "grad_norm": 18.61802101135254,
      "learning_rate": 1.4753631367580312e-05,
      "loss": 0.0652,
      "num_input_tokens_seen": 52278096,
      "step": 90100
    },
    {
      "epoch": 13.420464700625558,
      "grad_norm": 0.00037303598946891725,
      "learning_rate": 1.4750667491749428e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52280848,
      "step": 90105
    },
    {
      "epoch": 13.421209413166517,
      "grad_norm": 0.00021653174189850688,
      "learning_rate": 1.4747703789070606e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52283632,
      "step": 90110
    },
    {
      "epoch": 13.421954125707478,
      "grad_norm": 0.010380139574408531,
      "learning_rate": 1.4744740259593907e-05,
      "loss": 0.1384,
      "num_input_tokens_seen": 52287152,
      "step": 90115
    },
    {
      "epoch": 13.422698838248436,
      "grad_norm": 9.150456025963649e-05,
      "learning_rate": 1.4741776903369386e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52290288,
      "step": 90120
    },
    {
      "epoch": 13.423443550789395,
      "grad_norm": 0.44771093130111694,
      "learning_rate": 1.4738813720447132e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 52293360,
      "step": 90125
    },
    {
      "epoch": 13.424188263330354,
      "grad_norm": 0.0001222484715981409,
      "learning_rate": 1.473585071087718e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 52296336,
      "step": 90130
    },
    {
      "epoch": 13.424932975871315,
      "grad_norm": 0.04177068546414375,
      "learning_rate": 1.4732887874709605e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52299184,
      "step": 90135
    },
    {
      "epoch": 13.425677688412273,
      "grad_norm": 0.0007831928669475019,
      "learning_rate": 1.4729925211994455e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52302256,
      "step": 90140
    },
    {
      "epoch": 13.426422400953232,
      "grad_norm": 0.0005339471390470862,
      "learning_rate": 1.4726962722781783e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52305392,
      "step": 90145
    },
    {
      "epoch": 13.42716711349419,
      "grad_norm": 4.974501644028351e-05,
      "learning_rate": 1.4724000407121624e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52308240,
      "step": 90150
    },
    {
      "epoch": 13.42791182603515,
      "grad_norm": 0.003332866821438074,
      "learning_rate": 1.4721038265064044e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52310928,
      "step": 90155
    },
    {
      "epoch": 13.42865653857611,
      "grad_norm": 8.636422717245296e-05,
      "learning_rate": 1.4718076296659078e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52313776,
      "step": 90160
    },
    {
      "epoch": 13.429401251117069,
      "grad_norm": 0.0002048659953288734,
      "learning_rate": 1.471511450195675e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52316624,
      "step": 90165
    },
    {
      "epoch": 13.430145963658028,
      "grad_norm": 0.003098266664892435,
      "learning_rate": 1.4712152881007118e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52319664,
      "step": 90170
    },
    {
      "epoch": 13.430890676198986,
      "grad_norm": 0.0005560582503676414,
      "learning_rate": 1.4709191433860206e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 52322704,
      "step": 90175
    },
    {
      "epoch": 13.431635388739947,
      "grad_norm": 0.00019871532276738435,
      "learning_rate": 1.4706230160566048e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52325744,
      "step": 90180
    },
    {
      "epoch": 13.432380101280906,
      "grad_norm": 0.0008338300394825637,
      "learning_rate": 1.4703269061174663e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52328816,
      "step": 90185
    },
    {
      "epoch": 13.433124813821864,
      "grad_norm": 0.00032198408734984696,
      "learning_rate": 1.4700308135736085e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52332976,
      "step": 90190
    },
    {
      "epoch": 13.433869526362823,
      "grad_norm": 0.00048097793478518724,
      "learning_rate": 1.4697347384300338e-05,
      "loss": 0.1005,
      "num_input_tokens_seen": 52336208,
      "step": 90195
    },
    {
      "epoch": 13.434614238903784,
      "grad_norm": 0.000870692019816488,
      "learning_rate": 1.4694386806917426e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52338992,
      "step": 90200
    },
    {
      "epoch": 13.435358951444742,
      "grad_norm": 0.0036310353316366673,
      "learning_rate": 1.4691426403637382e-05,
      "loss": 0.1252,
      "num_input_tokens_seen": 52341872,
      "step": 90205
    },
    {
      "epoch": 13.436103663985701,
      "grad_norm": 0.00022087858815211803,
      "learning_rate": 1.4688466174510209e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52344912,
      "step": 90210
    },
    {
      "epoch": 13.43684837652666,
      "grad_norm": 42.12904357910156,
      "learning_rate": 1.4685506119585924e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 52347920,
      "step": 90215
    },
    {
      "epoch": 13.43759308906762,
      "grad_norm": 0.10858912765979767,
      "learning_rate": 1.4682546238914521e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52351248,
      "step": 90220
    },
    {
      "epoch": 13.43833780160858,
      "grad_norm": 0.0019043001811951399,
      "learning_rate": 1.4679586532546025e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52354256,
      "step": 90225
    },
    {
      "epoch": 13.439082514149538,
      "grad_norm": 0.00014169081987347454,
      "learning_rate": 1.467662700053041e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52357136,
      "step": 90230
    },
    {
      "epoch": 13.439827226690497,
      "grad_norm": 0.0011533277574926615,
      "learning_rate": 1.4673667642917705e-05,
      "loss": 0.1368,
      "num_input_tokens_seen": 52360400,
      "step": 90235
    },
    {
      "epoch": 13.440571939231457,
      "grad_norm": 0.6048445701599121,
      "learning_rate": 1.4670708459757885e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52363248,
      "step": 90240
    },
    {
      "epoch": 13.441316651772416,
      "grad_norm": 0.0002835653140209615,
      "learning_rate": 1.4667749451100943e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52366128,
      "step": 90245
    },
    {
      "epoch": 13.442061364313375,
      "grad_norm": 0.16869120299816132,
      "learning_rate": 1.4664790616996881e-05,
      "loss": 0.1192,
      "num_input_tokens_seen": 52369008,
      "step": 90250
    },
    {
      "epoch": 13.442806076854334,
      "grad_norm": 0.0025672561023384333,
      "learning_rate": 1.4661831957495665e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52371792,
      "step": 90255
    },
    {
      "epoch": 13.443550789395294,
      "grad_norm": 0.005050093866884708,
      "learning_rate": 1.4658873472647299e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52374640,
      "step": 90260
    },
    {
      "epoch": 13.444295501936253,
      "grad_norm": 0.010045677423477173,
      "learning_rate": 1.4655915162501754e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 52378064,
      "step": 90265
    },
    {
      "epoch": 13.445040214477212,
      "grad_norm": 0.008288243785500526,
      "learning_rate": 1.4652957027109009e-05,
      "loss": 0.0485,
      "num_input_tokens_seen": 52381136,
      "step": 90270
    },
    {
      "epoch": 13.44578492701817,
      "grad_norm": 0.00020991414203308523,
      "learning_rate": 1.4649999066519043e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52384112,
      "step": 90275
    },
    {
      "epoch": 13.446529639559131,
      "grad_norm": 18.243614196777344,
      "learning_rate": 1.4647041280781821e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 52387408,
      "step": 90280
    },
    {
      "epoch": 13.44727435210009,
      "grad_norm": 0.0026178047992289066,
      "learning_rate": 1.4644083669947314e-05,
      "loss": 0.0452,
      "num_input_tokens_seen": 52390384,
      "step": 90285
    },
    {
      "epoch": 13.448019064641048,
      "grad_norm": 0.0032058311626315117,
      "learning_rate": 1.464112623406548e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 52393200,
      "step": 90290
    },
    {
      "epoch": 13.448763777182007,
      "grad_norm": 0.0017606087494641542,
      "learning_rate": 1.46381689731863e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52395920,
      "step": 90295
    },
    {
      "epoch": 13.449508489722968,
      "grad_norm": 0.00019279900880064815,
      "learning_rate": 1.463521188735972e-05,
      "loss": 0.0304,
      "num_input_tokens_seen": 52398960,
      "step": 90300
    },
    {
      "epoch": 13.450253202263927,
      "grad_norm": 16.869558334350586,
      "learning_rate": 1.4632254976635706e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 52401648,
      "step": 90305
    },
    {
      "epoch": 13.450997914804885,
      "grad_norm": 0.007759917993098497,
      "learning_rate": 1.4629298241064196e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52404400,
      "step": 90310
    },
    {
      "epoch": 13.451742627345844,
      "grad_norm": 0.02217707596719265,
      "learning_rate": 1.462634168069516e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 52407376,
      "step": 90315
    },
    {
      "epoch": 13.452487339886805,
      "grad_norm": 0.03644682466983795,
      "learning_rate": 1.4623385295578542e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52410672,
      "step": 90320
    },
    {
      "epoch": 13.453232052427763,
      "grad_norm": 0.007808807771652937,
      "learning_rate": 1.462042908576427e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52413520,
      "step": 90325
    },
    {
      "epoch": 13.453976764968722,
      "grad_norm": 0.0022795621771365404,
      "learning_rate": 1.461747305130231e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52416656,
      "step": 90330
    },
    {
      "epoch": 13.45472147750968,
      "grad_norm": 0.001026983023621142,
      "learning_rate": 1.4614517192242588e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52419568,
      "step": 90335
    },
    {
      "epoch": 13.45546619005064,
      "grad_norm": 0.00029860137146897614,
      "learning_rate": 1.4611561508635047e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52422640,
      "step": 90340
    },
    {
      "epoch": 13.4562109025916,
      "grad_norm": 0.0059883445501327515,
      "learning_rate": 1.4608606000529601e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52425392,
      "step": 90345
    },
    {
      "epoch": 13.456955615132559,
      "grad_norm": 0.0002578799321781844,
      "learning_rate": 1.4605650667976211e-05,
      "loss": 0.0343,
      "num_input_tokens_seen": 52428112,
      "step": 90350
    },
    {
      "epoch": 13.457700327673518,
      "grad_norm": 0.003645423799753189,
      "learning_rate": 1.4602695511024785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52431088,
      "step": 90355
    },
    {
      "epoch": 13.458445040214476,
      "grad_norm": 0.009488292038440704,
      "learning_rate": 1.4599740529725242e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52434224,
      "step": 90360
    },
    {
      "epoch": 13.459189752755437,
      "grad_norm": 0.0017447005957365036,
      "learning_rate": 1.4596785724127526e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52437040,
      "step": 90365
    },
    {
      "epoch": 13.459934465296396,
      "grad_norm": 0.03703797981142998,
      "learning_rate": 1.4593831094281529e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52439888,
      "step": 90370
    },
    {
      "epoch": 13.460679177837354,
      "grad_norm": 0.004921012558043003,
      "learning_rate": 1.4590876640237189e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52443120,
      "step": 90375
    },
    {
      "epoch": 13.461423890378313,
      "grad_norm": 0.0011028922162950039,
      "learning_rate": 1.4587922362044399e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52446096,
      "step": 90380
    },
    {
      "epoch": 13.462168602919274,
      "grad_norm": 0.008782695047557354,
      "learning_rate": 1.4584968259753088e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52448880,
      "step": 90385
    },
    {
      "epoch": 13.462913315460233,
      "grad_norm": 0.08958791196346283,
      "learning_rate": 1.4582014333413153e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52451888,
      "step": 90390
    },
    {
      "epoch": 13.463658028001191,
      "grad_norm": 3.1518655305262655e-05,
      "learning_rate": 1.4579060583074497e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52454640,
      "step": 90395
    },
    {
      "epoch": 13.46440274054215,
      "grad_norm": 2.31321120262146,
      "learning_rate": 1.4576107008787022e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 52457456,
      "step": 90400
    },
    {
      "epoch": 13.46514745308311,
      "grad_norm": 0.0013323762686923146,
      "learning_rate": 1.4573153610600615e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52460208,
      "step": 90405
    },
    {
      "epoch": 13.46589216562407,
      "grad_norm": 0.004152745008468628,
      "learning_rate": 1.4570200388565189e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52463120,
      "step": 90410
    },
    {
      "epoch": 13.466636878165028,
      "grad_norm": 0.0008990562055259943,
      "learning_rate": 1.4567247342730617e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52466000,
      "step": 90415
    },
    {
      "epoch": 13.467381590705987,
      "grad_norm": 79.65061950683594,
      "learning_rate": 1.4564294473146808e-05,
      "loss": 0.1005,
      "num_input_tokens_seen": 52469040,
      "step": 90420
    },
    {
      "epoch": 13.468126303246947,
      "grad_norm": 1.0343735218048096,
      "learning_rate": 1.456134177986363e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 52471888,
      "step": 90425
    },
    {
      "epoch": 13.468871015787906,
      "grad_norm": 0.0006333260098472238,
      "learning_rate": 1.455838926293098e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52474480,
      "step": 90430
    },
    {
      "epoch": 13.469615728328865,
      "grad_norm": 0.0004583634145092219,
      "learning_rate": 1.4555436922398732e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52477456,
      "step": 90435
    },
    {
      "epoch": 13.470360440869824,
      "grad_norm": 0.01695232093334198,
      "learning_rate": 1.4552484758316754e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52480656,
      "step": 90440
    },
    {
      "epoch": 13.471105153410784,
      "grad_norm": 0.00042435870273038745,
      "learning_rate": 1.4549532770734936e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52483280,
      "step": 90445
    },
    {
      "epoch": 13.471849865951743,
      "grad_norm": 0.0003404224989935756,
      "learning_rate": 1.4546580959703138e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52486064,
      "step": 90450
    },
    {
      "epoch": 13.472594578492702,
      "grad_norm": 0.0062682596035301685,
      "learning_rate": 1.4543629325271225e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52488816,
      "step": 90455
    },
    {
      "epoch": 13.47333929103366,
      "grad_norm": 0.0005137070547789335,
      "learning_rate": 1.4540677867489072e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 52491600,
      "step": 90460
    },
    {
      "epoch": 13.474084003574621,
      "grad_norm": 0.0032648765482008457,
      "learning_rate": 1.4537726586406538e-05,
      "loss": 0.0019,
      "num_input_tokens_seen": 52494448,
      "step": 90465
    },
    {
      "epoch": 13.47482871611558,
      "grad_norm": 0.002223535906523466,
      "learning_rate": 1.453477548207347e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52497200,
      "step": 90470
    },
    {
      "epoch": 13.475573428656539,
      "grad_norm": 0.0004910796415060759,
      "learning_rate": 1.4531824554539747e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52500144,
      "step": 90475
    },
    {
      "epoch": 13.476318141197497,
      "grad_norm": 0.00019095436437055469,
      "learning_rate": 1.4528873803855206e-05,
      "loss": 0.0066,
      "num_input_tokens_seen": 52503184,
      "step": 90480
    },
    {
      "epoch": 13.477062853738458,
      "grad_norm": 0.00018607985111884773,
      "learning_rate": 1.4525923230069689e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52505904,
      "step": 90485
    },
    {
      "epoch": 13.477807566279417,
      "grad_norm": 0.01416719052940607,
      "learning_rate": 1.4522972833233068e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 52508720,
      "step": 90490
    },
    {
      "epoch": 13.478552278820375,
      "grad_norm": 0.0007278651464730501,
      "learning_rate": 1.4520022613395157e-05,
      "loss": 0.0483,
      "num_input_tokens_seen": 52511920,
      "step": 90495
    },
    {
      "epoch": 13.479296991361334,
      "grad_norm": 0.004265707451850176,
      "learning_rate": 1.4517072570605824e-05,
      "loss": 0.0822,
      "num_input_tokens_seen": 52514992,
      "step": 90500
    },
    {
      "epoch": 13.480041703902295,
      "grad_norm": 0.0019644254352897406,
      "learning_rate": 1.4514122704914887e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52518160,
      "step": 90505
    },
    {
      "epoch": 13.480786416443253,
      "grad_norm": 0.001055257860571146,
      "learning_rate": 1.4511173016372199e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52520976,
      "step": 90510
    },
    {
      "epoch": 13.481531128984212,
      "grad_norm": 0.0008916658698581159,
      "learning_rate": 1.4508223505027581e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52523664,
      "step": 90515
    },
    {
      "epoch": 13.482275841525171,
      "grad_norm": 0.0007508480339311063,
      "learning_rate": 1.4505274170930866e-05,
      "loss": 0.0038,
      "num_input_tokens_seen": 52526608,
      "step": 90520
    },
    {
      "epoch": 13.48302055406613,
      "grad_norm": 0.0004308507777750492,
      "learning_rate": 1.450232501413188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52529680,
      "step": 90525
    },
    {
      "epoch": 13.48376526660709,
      "grad_norm": 0.1319994330406189,
      "learning_rate": 1.4499376034680429e-05,
      "loss": 0.26,
      "num_input_tokens_seen": 52532784,
      "step": 90530
    },
    {
      "epoch": 13.484509979148049,
      "grad_norm": 0.006211159285157919,
      "learning_rate": 1.4496427232626358e-05,
      "loss": 0.059,
      "num_input_tokens_seen": 52535664,
      "step": 90535
    },
    {
      "epoch": 13.485254691689008,
      "grad_norm": 0.0003329636238049716,
      "learning_rate": 1.4493478608019461e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52538480,
      "step": 90540
    },
    {
      "epoch": 13.485999404229966,
      "grad_norm": 0.03205582872033119,
      "learning_rate": 1.449053016090958e-05,
      "loss": 0.0121,
      "num_input_tokens_seen": 52541296,
      "step": 90545
    },
    {
      "epoch": 13.486744116770927,
      "grad_norm": 1.357742190361023,
      "learning_rate": 1.4487581891346497e-05,
      "loss": 0.0143,
      "num_input_tokens_seen": 52544176,
      "step": 90550
    },
    {
      "epoch": 13.487488829311886,
      "grad_norm": 0.0037141237407922745,
      "learning_rate": 1.4484633799380046e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52546864,
      "step": 90555
    },
    {
      "epoch": 13.488233541852845,
      "grad_norm": 0.002329637296497822,
      "learning_rate": 1.4481685885060017e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52549872,
      "step": 90560
    },
    {
      "epoch": 13.488978254393803,
      "grad_norm": 3.222973828087561e-05,
      "learning_rate": 1.4478738148436205e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52552432,
      "step": 90565
    },
    {
      "epoch": 13.489722966934764,
      "grad_norm": 0.08076456934213638,
      "learning_rate": 1.447579058955843e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52556496,
      "step": 90570
    },
    {
      "epoch": 13.490467679475723,
      "grad_norm": 9.590069385012612e-05,
      "learning_rate": 1.4472843208476466e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52559696,
      "step": 90575
    },
    {
      "epoch": 13.491212392016681,
      "grad_norm": 0.17706480622291565,
      "learning_rate": 1.446989600524013e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52562608,
      "step": 90580
    },
    {
      "epoch": 13.49195710455764,
      "grad_norm": 0.0038065314292907715,
      "learning_rate": 1.4466948979899194e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52565456,
      "step": 90585
    },
    {
      "epoch": 13.4927018170986,
      "grad_norm": 5.1055376388831064e-05,
      "learning_rate": 1.446400213250345e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52568048,
      "step": 90590
    },
    {
      "epoch": 13.49344652963956,
      "grad_norm": 0.0006169535918161273,
      "learning_rate": 1.4461055463102673e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 52570800,
      "step": 90595
    },
    {
      "epoch": 13.494191242180518,
      "grad_norm": 0.0005502012791112065,
      "learning_rate": 1.4458108971746665e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52573584,
      "step": 90600
    },
    {
      "epoch": 13.494935954721477,
      "grad_norm": 0.024977976456284523,
      "learning_rate": 1.4455162658485188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52576720,
      "step": 90605
    },
    {
      "epoch": 13.495680667262437,
      "grad_norm": 0.00018581032054498792,
      "learning_rate": 1.4452216523368011e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52579600,
      "step": 90610
    },
    {
      "epoch": 13.496425379803396,
      "grad_norm": 0.00048015551874414086,
      "learning_rate": 1.4449270566444929e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52582640,
      "step": 90615
    },
    {
      "epoch": 13.497170092344355,
      "grad_norm": 0.00011496333172544837,
      "learning_rate": 1.4446324787765686e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52585520,
      "step": 90620
    },
    {
      "epoch": 13.497914804885314,
      "grad_norm": 0.00044069922296330333,
      "learning_rate": 1.4443379187380068e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52588304,
      "step": 90625
    },
    {
      "epoch": 13.498659517426274,
      "grad_norm": 0.005897956900298595,
      "learning_rate": 1.4440433765337819e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52591216,
      "step": 90630
    },
    {
      "epoch": 13.499404229967233,
      "grad_norm": 0.014499938115477562,
      "learning_rate": 1.443748852168872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52593872,
      "step": 90635
    },
    {
      "epoch": 13.500148942508192,
      "grad_norm": 2.2317259208648466e-05,
      "learning_rate": 1.443454345648252e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52597040,
      "step": 90640
    },
    {
      "epoch": 13.50089365504915,
      "grad_norm": 0.0005357159534469247,
      "learning_rate": 1.4431598569768955e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52600240,
      "step": 90645
    },
    {
      "epoch": 13.501638367590111,
      "grad_norm": 0.02244572341442108,
      "learning_rate": 1.4428653861597802e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52603056,
      "step": 90650
    },
    {
      "epoch": 13.50238308013107,
      "grad_norm": 0.0026025064289569855,
      "learning_rate": 1.44257093320188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52605872,
      "step": 90655
    },
    {
      "epoch": 13.503127792672029,
      "grad_norm": 3.561373159755021e-05,
      "learning_rate": 1.4422764981081691e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52608848,
      "step": 90660
    },
    {
      "epoch": 13.503872505212987,
      "grad_norm": 0.0013087294064462185,
      "learning_rate": 1.4419820808836207e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52611696,
      "step": 90665
    },
    {
      "epoch": 13.504617217753946,
      "grad_norm": 0.00015527938376180828,
      "learning_rate": 1.441687681533211e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52614672,
      "step": 90670
    },
    {
      "epoch": 13.505361930294907,
      "grad_norm": 0.00010257584654027596,
      "learning_rate": 1.4413933000619106e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52617488,
      "step": 90675
    },
    {
      "epoch": 13.506106642835865,
      "grad_norm": 0.017303254455327988,
      "learning_rate": 1.441098936474696e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52620176,
      "step": 90680
    },
    {
      "epoch": 13.506851355376824,
      "grad_norm": 0.002855089493095875,
      "learning_rate": 1.4408045907765385e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52623696,
      "step": 90685
    },
    {
      "epoch": 13.507596067917785,
      "grad_norm": 21.043718338012695,
      "learning_rate": 1.44051026297241e-05,
      "loss": 0.029,
      "num_input_tokens_seen": 52626384,
      "step": 90690
    },
    {
      "epoch": 13.508340780458743,
      "grad_norm": 5.695626532542519e-05,
      "learning_rate": 1.4402159530672849e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52629040,
      "step": 90695
    },
    {
      "epoch": 13.509085492999702,
      "grad_norm": 6.02514628553763e-05,
      "learning_rate": 1.4399216610661329e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52631664,
      "step": 90700
    },
    {
      "epoch": 13.509830205540661,
      "grad_norm": 0.001956804422661662,
      "learning_rate": 1.4396273869739279e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 52634704,
      "step": 90705
    },
    {
      "epoch": 13.51057491808162,
      "grad_norm": 21.782838821411133,
      "learning_rate": 1.4393331307956399e-05,
      "loss": 0.2001,
      "num_input_tokens_seen": 52637840,
      "step": 90710
    },
    {
      "epoch": 13.51131963062258,
      "grad_norm": 0.0010987112764269114,
      "learning_rate": 1.4390388925362413e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52641008,
      "step": 90715
    },
    {
      "epoch": 13.512064343163539,
      "grad_norm": 0.0019098569173365831,
      "learning_rate": 1.4387446722007025e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52643888,
      "step": 90720
    },
    {
      "epoch": 13.512809055704498,
      "grad_norm": 0.0007180596585385501,
      "learning_rate": 1.4384504697939938e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52646736,
      "step": 90725
    },
    {
      "epoch": 13.513553768245457,
      "grad_norm": 8.371672447538003e-05,
      "learning_rate": 1.4381562853210856e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52649744,
      "step": 90730
    },
    {
      "epoch": 13.514298480786417,
      "grad_norm": 0.0001246453175554052,
      "learning_rate": 1.4378621187869467e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52652688,
      "step": 90735
    },
    {
      "epoch": 13.515043193327376,
      "grad_norm": 0.1179395467042923,
      "learning_rate": 1.4375679701965488e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52655568,
      "step": 90740
    },
    {
      "epoch": 13.515787905868335,
      "grad_norm": 0.00650057103484869,
      "learning_rate": 1.437273839554859e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52658544,
      "step": 90745
    },
    {
      "epoch": 13.516532618409293,
      "grad_norm": 0.0002648711088113487,
      "learning_rate": 1.436979726866849e-05,
      "loss": 0.1813,
      "num_input_tokens_seen": 52661424,
      "step": 90750
    },
    {
      "epoch": 13.517277330950254,
      "grad_norm": 5.0294402171857655e-05,
      "learning_rate": 1.436685632137485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52664112,
      "step": 90755
    },
    {
      "epoch": 13.518022043491213,
      "grad_norm": 0.002070350805297494,
      "learning_rate": 1.4363915553717371e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52667344,
      "step": 90760
    },
    {
      "epoch": 13.518766756032171,
      "grad_norm": 0.0021218874026089907,
      "learning_rate": 1.4360974965745732e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 52670448,
      "step": 90765
    },
    {
      "epoch": 13.51951146857313,
      "grad_norm": 4.0808721678331494e-05,
      "learning_rate": 1.4358034557509598e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52673456,
      "step": 90770
    },
    {
      "epoch": 13.52025618111409,
      "grad_norm": 0.0029584565199911594,
      "learning_rate": 1.4355094329058666e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 52676272,
      "step": 90775
    },
    {
      "epoch": 13.52100089365505,
      "grad_norm": 0.00105093396268785,
      "learning_rate": 1.4352154280442592e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52679216,
      "step": 90780
    },
    {
      "epoch": 13.521745606196008,
      "grad_norm": 0.00024976348504424095,
      "learning_rate": 1.4349214411711043e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52682096,
      "step": 90785
    },
    {
      "epoch": 13.522490318736967,
      "grad_norm": 0.00027236234745942056,
      "learning_rate": 1.43462747229137e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 52684944,
      "step": 90790
    },
    {
      "epoch": 13.523235031277927,
      "grad_norm": 0.171286940574646,
      "learning_rate": 1.4343335214100218e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 52688016,
      "step": 90795
    },
    {
      "epoch": 13.523979743818886,
      "grad_norm": 0.00910978764295578,
      "learning_rate": 1.4340395885320257e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52691152,
      "step": 90800
    },
    {
      "epoch": 13.524724456359845,
      "grad_norm": 0.0002804049872793257,
      "learning_rate": 1.4337456736623462e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52693904,
      "step": 90805
    },
    {
      "epoch": 13.525469168900804,
      "grad_norm": 0.0033312521409243345,
      "learning_rate": 1.433451776805951e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 52696912,
      "step": 90810
    },
    {
      "epoch": 13.526213881441764,
      "grad_norm": 0.0004020669439341873,
      "learning_rate": 1.4331578979678029e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52699728,
      "step": 90815
    },
    {
      "epoch": 13.526958593982723,
      "grad_norm": 0.1851646602153778,
      "learning_rate": 1.432864037152869e-05,
      "loss": 0.1124,
      "num_input_tokens_seen": 52702896,
      "step": 90820
    },
    {
      "epoch": 13.527703306523682,
      "grad_norm": 0.001114482874982059,
      "learning_rate": 1.4325701943661116e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52705904,
      "step": 90825
    },
    {
      "epoch": 13.52844801906464,
      "grad_norm": 0.0009488414507359266,
      "learning_rate": 1.432276369612497e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52708592,
      "step": 90830
    },
    {
      "epoch": 13.529192731605601,
      "grad_norm": 0.002935907570645213,
      "learning_rate": 1.4319825628969863e-05,
      "loss": 0.2971,
      "num_input_tokens_seen": 52711408,
      "step": 90835
    },
    {
      "epoch": 13.52993744414656,
      "grad_norm": 26.444149017333984,
      "learning_rate": 1.4316887742245464e-05,
      "loss": 0.0424,
      "num_input_tokens_seen": 52714512,
      "step": 90840
    },
    {
      "epoch": 13.530682156687519,
      "grad_norm": 0.000579110230319202,
      "learning_rate": 1.4313950036001384e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 52718000,
      "step": 90845
    },
    {
      "epoch": 13.531426869228477,
      "grad_norm": 0.00023984580184333026,
      "learning_rate": 1.431101251028726e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52720720,
      "step": 90850
    },
    {
      "epoch": 13.532171581769436,
      "grad_norm": 0.007596221286803484,
      "learning_rate": 1.4308075165152718e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52723536,
      "step": 90855
    },
    {
      "epoch": 13.532916294310397,
      "grad_norm": 0.00028207857394590974,
      "learning_rate": 1.4305138000647367e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52726288,
      "step": 90860
    },
    {
      "epoch": 13.533661006851355,
      "grad_norm": 0.006010307464748621,
      "learning_rate": 1.4302201016820849e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 52729104,
      "step": 90865
    },
    {
      "epoch": 13.534405719392314,
      "grad_norm": 0.0010137053905054927,
      "learning_rate": 1.4299264213722762e-05,
      "loss": 0.019,
      "num_input_tokens_seen": 52731856,
      "step": 90870
    },
    {
      "epoch": 13.535150431933273,
      "grad_norm": 0.0012372437631711364,
      "learning_rate": 1.4296327591402742e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52734736,
      "step": 90875
    },
    {
      "epoch": 13.535895144474233,
      "grad_norm": 0.05463268607854843,
      "learning_rate": 1.4293391149910384e-05,
      "loss": 0.2668,
      "num_input_tokens_seen": 52737712,
      "step": 90880
    },
    {
      "epoch": 13.536639857015192,
      "grad_norm": 0.0018046115292236209,
      "learning_rate": 1.4290454889295296e-05,
      "loss": 0.0268,
      "num_input_tokens_seen": 52740368,
      "step": 90885
    },
    {
      "epoch": 13.537384569556151,
      "grad_norm": 0.0012956936843693256,
      "learning_rate": 1.4287518809607097e-05,
      "loss": 0.2215,
      "num_input_tokens_seen": 52743152,
      "step": 90890
    },
    {
      "epoch": 13.53812928209711,
      "grad_norm": 0.0006589947734028101,
      "learning_rate": 1.428458291089537e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52745872,
      "step": 90895
    },
    {
      "epoch": 13.53887399463807,
      "grad_norm": 0.0003643359523266554,
      "learning_rate": 1.4281647193209732e-05,
      "loss": 0.0264,
      "num_input_tokens_seen": 52748624,
      "step": 90900
    },
    {
      "epoch": 13.539618707179029,
      "grad_norm": 0.000302751490380615,
      "learning_rate": 1.4278711656599764e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52751504,
      "step": 90905
    },
    {
      "epoch": 13.540363419719988,
      "grad_norm": 0.031661514192819595,
      "learning_rate": 1.4275776301115074e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52754640,
      "step": 90910
    },
    {
      "epoch": 13.541108132260947,
      "grad_norm": 0.001471754047088325,
      "learning_rate": 1.4272841126805242e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 52757392,
      "step": 90915
    },
    {
      "epoch": 13.541852844801907,
      "grad_norm": 0.00029729679226875305,
      "learning_rate": 1.4269906133719863e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52760432,
      "step": 90920
    },
    {
      "epoch": 13.542597557342866,
      "grad_norm": 0.00050506298430264,
      "learning_rate": 1.4266971321908507e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 52763504,
      "step": 90925
    },
    {
      "epoch": 13.543342269883825,
      "grad_norm": 0.001653959508985281,
      "learning_rate": 1.4264036691420756e-05,
      "loss": 0.136,
      "num_input_tokens_seen": 52766448,
      "step": 90930
    },
    {
      "epoch": 13.544086982424783,
      "grad_norm": 0.00020837571355514228,
      "learning_rate": 1.42611022423062e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52769392,
      "step": 90935
    },
    {
      "epoch": 13.544831694965744,
      "grad_norm": 0.0017569269984960556,
      "learning_rate": 1.42581679746144e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52772208,
      "step": 90940
    },
    {
      "epoch": 13.545576407506703,
      "grad_norm": 0.019615592435002327,
      "learning_rate": 1.4255233888394947e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52775408,
      "step": 90945
    },
    {
      "epoch": 13.546321120047661,
      "grad_norm": 0.001158541184850037,
      "learning_rate": 1.4252299983697381e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52778320,
      "step": 90950
    },
    {
      "epoch": 13.54706583258862,
      "grad_norm": 0.0010101341176778078,
      "learning_rate": 1.4249366260571299e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52781040,
      "step": 90955
    },
    {
      "epoch": 13.54781054512958,
      "grad_norm": 0.00015552582044620067,
      "learning_rate": 1.4246432719066244e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52783696,
      "step": 90960
    },
    {
      "epoch": 13.54855525767054,
      "grad_norm": 0.0003495267010293901,
      "learning_rate": 1.4243499359231771e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52786608,
      "step": 90965
    },
    {
      "epoch": 13.549299970211498,
      "grad_norm": 0.0004238394321873784,
      "learning_rate": 1.4240566181117451e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52789424,
      "step": 90970
    },
    {
      "epoch": 13.550044682752457,
      "grad_norm": 0.0013965783873572946,
      "learning_rate": 1.4237633184772822e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52792240,
      "step": 90975
    },
    {
      "epoch": 13.550789395293418,
      "grad_norm": 0.02833380177617073,
      "learning_rate": 1.423470037024745e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52795152,
      "step": 90980
    },
    {
      "epoch": 13.551534107834376,
      "grad_norm": 18.463930130004883,
      "learning_rate": 1.423176773759088e-05,
      "loss": 0.1191,
      "num_input_tokens_seen": 52798128,
      "step": 90985
    },
    {
      "epoch": 13.552278820375335,
      "grad_norm": 0.35215479135513306,
      "learning_rate": 1.4228835286852643e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 52800880,
      "step": 90990
    },
    {
      "epoch": 13.553023532916294,
      "grad_norm": 0.0016110112192109227,
      "learning_rate": 1.4225903018082278e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52803440,
      "step": 90995
    },
    {
      "epoch": 13.553768245457253,
      "grad_norm": 0.0012486871564760804,
      "learning_rate": 1.4222970931329343e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52806352,
      "step": 91000
    },
    {
      "epoch": 13.554512957998213,
      "grad_norm": 0.0036992067471146584,
      "learning_rate": 1.4220039026643361e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52809200,
      "step": 91005
    },
    {
      "epoch": 13.555257670539172,
      "grad_norm": 7.49224127503112e-05,
      "learning_rate": 1.4217107304073851e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 52812080,
      "step": 91010
    },
    {
      "epoch": 13.55600238308013,
      "grad_norm": 0.04286295175552368,
      "learning_rate": 1.4214175763670365e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52815216,
      "step": 91015
    },
    {
      "epoch": 13.556747095621091,
      "grad_norm": 0.0029472848400473595,
      "learning_rate": 1.4211244405482408e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 52817904,
      "step": 91020
    },
    {
      "epoch": 13.55749180816205,
      "grad_norm": 0.00023210285871755332,
      "learning_rate": 1.420831322955952e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52820816,
      "step": 91025
    },
    {
      "epoch": 13.558236520703009,
      "grad_norm": 0.00042426344589330256,
      "learning_rate": 1.4205382235951204e-05,
      "loss": 0.0225,
      "num_input_tokens_seen": 52823856,
      "step": 91030
    },
    {
      "epoch": 13.558981233243967,
      "grad_norm": 0.0008462706464342773,
      "learning_rate": 1.4202451424706991e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52826608,
      "step": 91035
    },
    {
      "epoch": 13.559725945784926,
      "grad_norm": 0.0020905816927552223,
      "learning_rate": 1.4199520795876387e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52829456,
      "step": 91040
    },
    {
      "epoch": 13.560470658325887,
      "grad_norm": 5.3531097364611924e-05,
      "learning_rate": 1.4196590349508896e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52832560,
      "step": 91045
    },
    {
      "epoch": 13.561215370866845,
      "grad_norm": 0.001564982463605702,
      "learning_rate": 1.4193660085654037e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52835568,
      "step": 91050
    },
    {
      "epoch": 13.561960083407804,
      "grad_norm": 0.002598136430606246,
      "learning_rate": 1.419073000436131e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52838640,
      "step": 91055
    },
    {
      "epoch": 13.562704795948763,
      "grad_norm": 0.021308310329914093,
      "learning_rate": 1.4187800105680213e-05,
      "loss": 0.1197,
      "num_input_tokens_seen": 52841360,
      "step": 91060
    },
    {
      "epoch": 13.563449508489724,
      "grad_norm": 0.00063572998624295,
      "learning_rate": 1.4184870389660235e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52844432,
      "step": 91065
    },
    {
      "epoch": 13.564194221030682,
      "grad_norm": 3.6350797017803416e-05,
      "learning_rate": 1.4181940856350889e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52847216,
      "step": 91070
    },
    {
      "epoch": 13.564938933571641,
      "grad_norm": 13.165793418884277,
      "learning_rate": 1.4179011505801648e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 52850288,
      "step": 91075
    },
    {
      "epoch": 13.5656836461126,
      "grad_norm": 0.005971994716674089,
      "learning_rate": 1.4176082338062019e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 52853072,
      "step": 91080
    },
    {
      "epoch": 13.56642835865356,
      "grad_norm": 0.00015602992789354175,
      "learning_rate": 1.4173153353181477e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52856208,
      "step": 91085
    },
    {
      "epoch": 13.567173071194519,
      "grad_norm": 0.0021061922889202833,
      "learning_rate": 1.4170224551209493e-05,
      "loss": 0.2345,
      "num_input_tokens_seen": 52859184,
      "step": 91090
    },
    {
      "epoch": 13.567917783735478,
      "grad_norm": 0.0004947223351337016,
      "learning_rate": 1.4167295932195573e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52861936,
      "step": 91095
    },
    {
      "epoch": 13.568662496276437,
      "grad_norm": 8.824832916259766,
      "learning_rate": 1.4164367496189169e-05,
      "loss": 0.1068,
      "num_input_tokens_seen": 52864848,
      "step": 91100
    },
    {
      "epoch": 13.569407208817397,
      "grad_norm": 0.11420870572328568,
      "learning_rate": 1.4161439243239768e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52867728,
      "step": 91105
    },
    {
      "epoch": 13.570151921358356,
      "grad_norm": 0.013971894048154354,
      "learning_rate": 1.4158511173396838e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52870832,
      "step": 91110
    },
    {
      "epoch": 13.570896633899315,
      "grad_norm": 0.01966739632189274,
      "learning_rate": 1.4155583286709833e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52873744,
      "step": 91115
    },
    {
      "epoch": 13.571641346440273,
      "grad_norm": 0.009739254601299763,
      "learning_rate": 1.4152655583228235e-05,
      "loss": 0.2375,
      "num_input_tokens_seen": 52876496,
      "step": 91120
    },
    {
      "epoch": 13.572386058981234,
      "grad_norm": 0.13360567390918732,
      "learning_rate": 1.41497280630015e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52879216,
      "step": 91125
    },
    {
      "epoch": 13.573130771522193,
      "grad_norm": 0.01832885853946209,
      "learning_rate": 1.414680072607908e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52882064,
      "step": 91130
    },
    {
      "epoch": 13.573875484063151,
      "grad_norm": 0.01963283307850361,
      "learning_rate": 1.414387357251042e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52885360,
      "step": 91135
    },
    {
      "epoch": 13.57462019660411,
      "grad_norm": 0.002517781453207135,
      "learning_rate": 1.4140946602344993e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52888112,
      "step": 91140
    },
    {
      "epoch": 13.57536490914507,
      "grad_norm": 0.30050069093704224,
      "learning_rate": 1.4138019815632226e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 52891024,
      "step": 91145
    },
    {
      "epoch": 13.57610962168603,
      "grad_norm": 0.9735347032546997,
      "learning_rate": 1.4135093212421584e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 52893712,
      "step": 91150
    },
    {
      "epoch": 13.576854334226988,
      "grad_norm": 0.014033962972462177,
      "learning_rate": 1.4132166792762491e-05,
      "loss": 0.0403,
      "num_input_tokens_seen": 52896720,
      "step": 91155
    },
    {
      "epoch": 13.577599046767947,
      "grad_norm": 0.0015757845249027014,
      "learning_rate": 1.4129240556704403e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52899568,
      "step": 91160
    },
    {
      "epoch": 13.578343759308908,
      "grad_norm": 0.006762688048183918,
      "learning_rate": 1.4126314504296751e-05,
      "loss": 0.0771,
      "num_input_tokens_seen": 52902512,
      "step": 91165
    },
    {
      "epoch": 13.579088471849866,
      "grad_norm": 0.0002359589998377487,
      "learning_rate": 1.412338863558895e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52905872,
      "step": 91170
    },
    {
      "epoch": 13.579833184390825,
      "grad_norm": 0.04773400351405144,
      "learning_rate": 1.4120462950630453e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52908976,
      "step": 91175
    },
    {
      "epoch": 13.580577896931784,
      "grad_norm": 0.004650557413697243,
      "learning_rate": 1.411753744947068e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 52912080,
      "step": 91180
    },
    {
      "epoch": 13.581322609472743,
      "grad_norm": 0.0003173173754476011,
      "learning_rate": 1.4114612132159049e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 52914928,
      "step": 91185
    },
    {
      "epoch": 13.582067322013703,
      "grad_norm": 0.0010186885483562946,
      "learning_rate": 1.4111686998744975e-05,
      "loss": 0.0244,
      "num_input_tokens_seen": 52917520,
      "step": 91190
    },
    {
      "epoch": 13.582812034554662,
      "grad_norm": 0.006809938699007034,
      "learning_rate": 1.410876204927789e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52920368,
      "step": 91195
    },
    {
      "epoch": 13.58355674709562,
      "grad_norm": 0.0012441048165783286,
      "learning_rate": 1.4105837283807194e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52923152,
      "step": 91200
    },
    {
      "epoch": 13.584301459636581,
      "grad_norm": 0.0028735820669680834,
      "learning_rate": 1.410291270238231e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52926256,
      "step": 91205
    },
    {
      "epoch": 13.58504617217754,
      "grad_norm": 0.0016759313875809312,
      "learning_rate": 1.4099988305052644e-05,
      "loss": 0.0114,
      "num_input_tokens_seen": 52928912,
      "step": 91210
    },
    {
      "epoch": 13.585790884718499,
      "grad_norm": 0.006752540823072195,
      "learning_rate": 1.4097064091867587e-05,
      "loss": 0.0885,
      "num_input_tokens_seen": 52931984,
      "step": 91215
    },
    {
      "epoch": 13.586535597259457,
      "grad_norm": 31.409692764282227,
      "learning_rate": 1.4094140062876559e-05,
      "loss": 0.3063,
      "num_input_tokens_seen": 52934704,
      "step": 91220
    },
    {
      "epoch": 13.587280309800416,
      "grad_norm": 7.298372268676758,
      "learning_rate": 1.4091216218128945e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 52937520,
      "step": 91225
    },
    {
      "epoch": 13.588025022341377,
      "grad_norm": 0.002396798925474286,
      "learning_rate": 1.4088292557674155e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52940336,
      "step": 91230
    },
    {
      "epoch": 13.588769734882336,
      "grad_norm": 0.0007833453710190952,
      "learning_rate": 1.4085369081561556e-05,
      "loss": 0.2143,
      "num_input_tokens_seen": 52943440,
      "step": 91235
    },
    {
      "epoch": 13.589514447423294,
      "grad_norm": 0.0034736304078251123,
      "learning_rate": 1.408244578984057e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52946288,
      "step": 91240
    },
    {
      "epoch": 13.590259159964253,
      "grad_norm": 0.01059216819703579,
      "learning_rate": 1.4079522682560563e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52949456,
      "step": 91245
    },
    {
      "epoch": 13.591003872505214,
      "grad_norm": 0.0009239218779839575,
      "learning_rate": 1.4076599759770919e-05,
      "loss": 0.2063,
      "num_input_tokens_seen": 52952240,
      "step": 91250
    },
    {
      "epoch": 13.591748585046172,
      "grad_norm": 0.0010617516236379743,
      "learning_rate": 1.4073677021521026e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52955184,
      "step": 91255
    },
    {
      "epoch": 13.592493297587131,
      "grad_norm": 0.0008136530523188412,
      "learning_rate": 1.407075446786024e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52958160,
      "step": 91260
    },
    {
      "epoch": 13.59323801012809,
      "grad_norm": 0.004259082023054361,
      "learning_rate": 1.406783209883796e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52961104,
      "step": 91265
    },
    {
      "epoch": 13.59398272266905,
      "grad_norm": 0.00510420324280858,
      "learning_rate": 1.4064909914503537e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52963760,
      "step": 91270
    },
    {
      "epoch": 13.59472743521001,
      "grad_norm": 0.003652260173112154,
      "learning_rate": 1.4061987914906354e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52966512,
      "step": 91275
    },
    {
      "epoch": 13.595472147750968,
      "grad_norm": 0.00269521726295352,
      "learning_rate": 1.4059066100095763e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52969168,
      "step": 91280
    },
    {
      "epoch": 13.596216860291927,
      "grad_norm": 0.0013008738169446588,
      "learning_rate": 1.4056144470121137e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 52971792,
      "step": 91285
    },
    {
      "epoch": 13.596961572832887,
      "grad_norm": 0.04316536709666252,
      "learning_rate": 1.405322302503183e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 52974416,
      "step": 91290
    },
    {
      "epoch": 13.597706285373846,
      "grad_norm": 0.002020427258685231,
      "learning_rate": 1.4050301764877183e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52977328,
      "step": 91295
    },
    {
      "epoch": 13.598450997914805,
      "grad_norm": 0.01285414770245552,
      "learning_rate": 1.4047380689706568e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52980304,
      "step": 91300
    },
    {
      "epoch": 13.599195710455763,
      "grad_norm": 0.00010855612345039845,
      "learning_rate": 1.4044459799569316e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 52983184,
      "step": 91305
    },
    {
      "epoch": 13.599940422996724,
      "grad_norm": 0.0016705921152606606,
      "learning_rate": 1.4041539094514788e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 52986192,
      "step": 91310
    },
    {
      "epoch": 13.600685135537683,
      "grad_norm": 0.0003487749199848622,
      "learning_rate": 1.4038618574592322e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 52989072,
      "step": 91315
    },
    {
      "epoch": 13.601429848078642,
      "grad_norm": 0.0011182036250829697,
      "learning_rate": 1.4035698239851253e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 52991792,
      "step": 91320
    },
    {
      "epoch": 13.6021745606196,
      "grad_norm": 0.0031741303391754627,
      "learning_rate": 1.403277809034092e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 52994832,
      "step": 91325
    },
    {
      "epoch": 13.60291927316056,
      "grad_norm": 0.00020437469356693327,
      "learning_rate": 1.4029858126110645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 52997808,
      "step": 91330
    },
    {
      "epoch": 13.60366398570152,
      "grad_norm": 0.00017283385386690497,
      "learning_rate": 1.4026938347209778e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53000944,
      "step": 91335
    },
    {
      "epoch": 13.604408698242478,
      "grad_norm": 118.17982482910156,
      "learning_rate": 1.4024018753687624e-05,
      "loss": 0.0389,
      "num_input_tokens_seen": 53003760,
      "step": 91340
    },
    {
      "epoch": 13.605153410783437,
      "grad_norm": 0.02023642137646675,
      "learning_rate": 1.4021099345593524e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53006960,
      "step": 91345
    },
    {
      "epoch": 13.605898123324398,
      "grad_norm": 0.00043318496318534017,
      "learning_rate": 1.4018180122976788e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53010160,
      "step": 91350
    },
    {
      "epoch": 13.606642835865356,
      "grad_norm": 0.0033260725904256105,
      "learning_rate": 1.4015261085886743e-05,
      "loss": 0.3219,
      "num_input_tokens_seen": 53013168,
      "step": 91355
    },
    {
      "epoch": 13.607387548406315,
      "grad_norm": 0.0010433358838781714,
      "learning_rate": 1.4012342234372688e-05,
      "loss": 0.0063,
      "num_input_tokens_seen": 53015760,
      "step": 91360
    },
    {
      "epoch": 13.608132260947274,
      "grad_norm": 172.37991333007812,
      "learning_rate": 1.4009423568483957e-05,
      "loss": 0.119,
      "num_input_tokens_seen": 53018928,
      "step": 91365
    },
    {
      "epoch": 13.608876973488233,
      "grad_norm": 0.0008976674871519208,
      "learning_rate": 1.4006505088269841e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53021616,
      "step": 91370
    },
    {
      "epoch": 13.609621686029193,
      "grad_norm": 0.00015896429249551147,
      "learning_rate": 1.4003586793779641e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53024432,
      "step": 91375
    },
    {
      "epoch": 13.610366398570152,
      "grad_norm": 5.5822056310717016e-05,
      "learning_rate": 1.4000668685062674e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53027216,
      "step": 91380
    },
    {
      "epoch": 13.61111111111111,
      "grad_norm": 0.5344411134719849,
      "learning_rate": 1.3997750762168232e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53030192,
      "step": 91385
    },
    {
      "epoch": 13.61185582365207,
      "grad_norm": 0.10087025910615921,
      "learning_rate": 1.3994833025145607e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 53033040,
      "step": 91390
    },
    {
      "epoch": 13.61260053619303,
      "grad_norm": 0.005529619287699461,
      "learning_rate": 1.3991915474044081e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53035984,
      "step": 91395
    },
    {
      "epoch": 13.613345248733989,
      "grad_norm": 0.0004411603731568903,
      "learning_rate": 1.398899810891297e-05,
      "loss": 0.0733,
      "num_input_tokens_seen": 53038992,
      "step": 91400
    },
    {
      "epoch": 13.614089961274948,
      "grad_norm": 2.8179898262023926,
      "learning_rate": 1.3986080929801543e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 53041680,
      "step": 91405
    },
    {
      "epoch": 13.614834673815906,
      "grad_norm": 0.034008245915174484,
      "learning_rate": 1.3983163936759072e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53044624,
      "step": 91410
    },
    {
      "epoch": 13.615579386356867,
      "grad_norm": 0.0006010470679029822,
      "learning_rate": 1.398024712983486e-05,
      "loss": 0.0593,
      "num_input_tokens_seen": 53047856,
      "step": 91415
    },
    {
      "epoch": 13.616324098897826,
      "grad_norm": 0.0007964316755533218,
      "learning_rate": 1.3977330509078165e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53050512,
      "step": 91420
    },
    {
      "epoch": 13.617068811438784,
      "grad_norm": 0.006731074303388596,
      "learning_rate": 1.3974414074538277e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53053488,
      "step": 91425
    },
    {
      "epoch": 13.617813523979743,
      "grad_norm": 0.001436975202523172,
      "learning_rate": 1.3971497826264448e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53056336,
      "step": 91430
    },
    {
      "epoch": 13.618558236520704,
      "grad_norm": 0.002345617860555649,
      "learning_rate": 1.3968581764305965e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53058928,
      "step": 91435
    },
    {
      "epoch": 13.619302949061662,
      "grad_norm": 0.0001728295028442517,
      "learning_rate": 1.396566588871208e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53061552,
      "step": 91440
    },
    {
      "epoch": 13.620047661602621,
      "grad_norm": 0.009412662126123905,
      "learning_rate": 1.3962750199532042e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53064240,
      "step": 91445
    },
    {
      "epoch": 13.62079237414358,
      "grad_norm": 0.01496139820665121,
      "learning_rate": 1.3959834696815138e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53066960,
      "step": 91450
    },
    {
      "epoch": 13.62153708668454,
      "grad_norm": 0.0635073259472847,
      "learning_rate": 1.39569193806106e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53069648,
      "step": 91455
    },
    {
      "epoch": 13.6222817992255,
      "grad_norm": 0.00653251213952899,
      "learning_rate": 1.395400425096769e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53072720,
      "step": 91460
    },
    {
      "epoch": 13.623026511766458,
      "grad_norm": 0.0006009886274114251,
      "learning_rate": 1.3951089307935639e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53075792,
      "step": 91465
    },
    {
      "epoch": 13.623771224307417,
      "grad_norm": 0.005922421813011169,
      "learning_rate": 1.3948174551563713e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53078864,
      "step": 91470
    },
    {
      "epoch": 13.624515936848377,
      "grad_norm": 0.002334530930966139,
      "learning_rate": 1.3945259981901138e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53082000,
      "step": 91475
    },
    {
      "epoch": 13.625260649389336,
      "grad_norm": 6.051745891571045,
      "learning_rate": 1.394234559899717e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 53084816,
      "step": 91480
    },
    {
      "epoch": 13.626005361930295,
      "grad_norm": 0.00045028963359072804,
      "learning_rate": 1.3939431402901034e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53087536,
      "step": 91485
    },
    {
      "epoch": 13.626750074471254,
      "grad_norm": 0.00020540323748718947,
      "learning_rate": 1.3936517393661955e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53090480,
      "step": 91490
    },
    {
      "epoch": 13.627494787012214,
      "grad_norm": 0.03859971463680267,
      "learning_rate": 1.393360357132918e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53093296,
      "step": 91495
    },
    {
      "epoch": 13.628239499553173,
      "grad_norm": 0.00010749957436928526,
      "learning_rate": 1.3930689935951913e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53096112,
      "step": 91500
    },
    {
      "epoch": 13.628984212094132,
      "grad_norm": 0.0005741384229622781,
      "learning_rate": 1.3927776487579397e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53099120,
      "step": 91505
    },
    {
      "epoch": 13.62972892463509,
      "grad_norm": 0.014583020471036434,
      "learning_rate": 1.3924863226260849e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53102128,
      "step": 91510
    },
    {
      "epoch": 13.63047363717605,
      "grad_norm": 0.0001364153140457347,
      "learning_rate": 1.3921950152045477e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53104720,
      "step": 91515
    },
    {
      "epoch": 13.63121834971701,
      "grad_norm": 0.0007816838333383203,
      "learning_rate": 1.391903726498249e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 53107344,
      "step": 91520
    },
    {
      "epoch": 13.631963062257968,
      "grad_norm": 0.003951166290789843,
      "learning_rate": 1.3916124565121114e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53110256,
      "step": 91525
    },
    {
      "epoch": 13.632707774798927,
      "grad_norm": 0.00038466075784526765,
      "learning_rate": 1.391321205251055e-05,
      "loss": 0.0842,
      "num_input_tokens_seen": 53113104,
      "step": 91530
    },
    {
      "epoch": 13.633452487339888,
      "grad_norm": 0.001015114481560886,
      "learning_rate": 1.3910299727199991e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53115632,
      "step": 91535
    },
    {
      "epoch": 13.634197199880846,
      "grad_norm": 0.0010325455805286765,
      "learning_rate": 1.3907387589238657e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53118448,
      "step": 91540
    },
    {
      "epoch": 13.634941912421805,
      "grad_norm": 0.001209992915391922,
      "learning_rate": 1.3904475638675724e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53121456,
      "step": 91545
    },
    {
      "epoch": 13.635686624962764,
      "grad_norm": 0.04436682164669037,
      "learning_rate": 1.3901563875560408e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53124656,
      "step": 91550
    },
    {
      "epoch": 13.636431337503723,
      "grad_norm": 0.03755556419491768,
      "learning_rate": 1.3898652299941883e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53127664,
      "step": 91555
    },
    {
      "epoch": 13.637176050044683,
      "grad_norm": 0.0012594563886523247,
      "learning_rate": 1.3895740911869351e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 53130704,
      "step": 91560
    },
    {
      "epoch": 13.637920762585642,
      "grad_norm": 0.0031727063469588757,
      "learning_rate": 1.389282971139199e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53133680,
      "step": 91565
    },
    {
      "epoch": 13.6386654751266,
      "grad_norm": 0.0008498221868649125,
      "learning_rate": 1.3889918698558976e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53136592,
      "step": 91570
    },
    {
      "epoch": 13.63941018766756,
      "grad_norm": 0.00022984377574175596,
      "learning_rate": 1.3887007873419503e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 53139792,
      "step": 91575
    },
    {
      "epoch": 13.64015490020852,
      "grad_norm": 0.0005477346130646765,
      "learning_rate": 1.3884097236022736e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53143056,
      "step": 91580
    },
    {
      "epoch": 13.640899612749479,
      "grad_norm": 5.989716373733245e-05,
      "learning_rate": 1.3881186786417848e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53146096,
      "step": 91585
    },
    {
      "epoch": 13.641644325290438,
      "grad_norm": 0.003950066864490509,
      "learning_rate": 1.3878276524654e-05,
      "loss": 0.036,
      "num_input_tokens_seen": 53148880,
      "step": 91590
    },
    {
      "epoch": 13.642389037831396,
      "grad_norm": 0.0021722810342907906,
      "learning_rate": 1.3875366450780375e-05,
      "loss": 0.1564,
      "num_input_tokens_seen": 53151600,
      "step": 91595
    },
    {
      "epoch": 13.643133750372357,
      "grad_norm": 0.0009107717196457088,
      "learning_rate": 1.387245656484612e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53154640,
      "step": 91600
    },
    {
      "epoch": 13.643878462913316,
      "grad_norm": 0.0012244186364114285,
      "learning_rate": 1.3869546866900409e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53157488,
      "step": 91605
    },
    {
      "epoch": 13.644623175454274,
      "grad_norm": 0.0010637864470481873,
      "learning_rate": 1.3866637356992393e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53160400,
      "step": 91610
    },
    {
      "epoch": 13.645367887995233,
      "grad_norm": 0.0031714909709990025,
      "learning_rate": 1.3863728035171214e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53162992,
      "step": 91615
    },
    {
      "epoch": 13.646112600536194,
      "grad_norm": 0.0013297752011567354,
      "learning_rate": 1.386081890148604e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53166000,
      "step": 91620
    },
    {
      "epoch": 13.646857313077152,
      "grad_norm": 0.02403399348258972,
      "learning_rate": 1.3857909955985999e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53169136,
      "step": 91625
    },
    {
      "epoch": 13.647602025618111,
      "grad_norm": 0.0008939063409343362,
      "learning_rate": 1.3855001198720255e-05,
      "loss": 0.0975,
      "num_input_tokens_seen": 53171920,
      "step": 91630
    },
    {
      "epoch": 13.64834673815907,
      "grad_norm": 0.010342300869524479,
      "learning_rate": 1.3852092629737928e-05,
      "loss": 0.0946,
      "num_input_tokens_seen": 53174896,
      "step": 91635
    },
    {
      "epoch": 13.64909145070003,
      "grad_norm": 0.0035032625310122967,
      "learning_rate": 1.3849184249088176e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53177872,
      "step": 91640
    },
    {
      "epoch": 13.64983616324099,
      "grad_norm": 0.0001872698776423931,
      "learning_rate": 1.3846276056820123e-05,
      "loss": 0.0646,
      "num_input_tokens_seen": 53180528,
      "step": 91645
    },
    {
      "epoch": 13.650580875781948,
      "grad_norm": 0.0013026997912675142,
      "learning_rate": 1.3843368052982903e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53183344,
      "step": 91650
    },
    {
      "epoch": 13.651325588322907,
      "grad_norm": 0.0006094608106650412,
      "learning_rate": 1.3840460237625635e-05,
      "loss": 0.1721,
      "num_input_tokens_seen": 53186160,
      "step": 91655
    },
    {
      "epoch": 13.652070300863867,
      "grad_norm": 0.0004985049599781632,
      "learning_rate": 1.3837552610797444e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53189232,
      "step": 91660
    },
    {
      "epoch": 13.652815013404826,
      "grad_norm": 0.9916138052940369,
      "learning_rate": 1.3834645172547467e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 53192144,
      "step": 91665
    },
    {
      "epoch": 13.653559725945785,
      "grad_norm": 0.0002252664417028427,
      "learning_rate": 1.3831737922924798e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53195120,
      "step": 91670
    },
    {
      "epoch": 13.654304438486744,
      "grad_norm": 0.004219125024974346,
      "learning_rate": 1.3828830861978579e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53198000,
      "step": 91675
    },
    {
      "epoch": 13.655049151027704,
      "grad_norm": 0.6775664687156677,
      "learning_rate": 1.3825923989757896e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 53201200,
      "step": 91680
    },
    {
      "epoch": 13.655793863568663,
      "grad_norm": 196.38265991210938,
      "learning_rate": 1.382301730631188e-05,
      "loss": 0.0244,
      "num_input_tokens_seen": 53204144,
      "step": 91685
    },
    {
      "epoch": 13.656538576109622,
      "grad_norm": 0.0006340830004774034,
      "learning_rate": 1.382011081168963e-05,
      "loss": 0.1625,
      "num_input_tokens_seen": 53206960,
      "step": 91690
    },
    {
      "epoch": 13.65728328865058,
      "grad_norm": 0.00020402242080308497,
      "learning_rate": 1.3817204505940235e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53209616,
      "step": 91695
    },
    {
      "epoch": 13.65802800119154,
      "grad_norm": 0.0003046879719477147,
      "learning_rate": 1.3814298389112811e-05,
      "loss": 0.2852,
      "num_input_tokens_seen": 53212528,
      "step": 91700
    },
    {
      "epoch": 13.6587727137325,
      "grad_norm": 0.0030779822263866663,
      "learning_rate": 1.381139246125644e-05,
      "loss": 0.1823,
      "num_input_tokens_seen": 53215472,
      "step": 91705
    },
    {
      "epoch": 13.659517426273458,
      "grad_norm": 0.0004624606226570904,
      "learning_rate": 1.3808486722420233e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53218128,
      "step": 91710
    },
    {
      "epoch": 13.660262138814417,
      "grad_norm": 0.0034372934605926275,
      "learning_rate": 1.3805581172653265e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53220880,
      "step": 91715
    },
    {
      "epoch": 13.661006851355378,
      "grad_norm": 0.033686913549900055,
      "learning_rate": 1.3802675812004626e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53223760,
      "step": 91720
    },
    {
      "epoch": 13.661751563896336,
      "grad_norm": 0.010078441351652145,
      "learning_rate": 1.3799770640523398e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53226608,
      "step": 91725
    },
    {
      "epoch": 13.662496276437295,
      "grad_norm": 0.0035446016117930412,
      "learning_rate": 1.3796865658258654e-05,
      "loss": 0.1193,
      "num_input_tokens_seen": 53229392,
      "step": 91730
    },
    {
      "epoch": 13.663240988978254,
      "grad_norm": 18.489234924316406,
      "learning_rate": 1.3793960865259486e-05,
      "loss": 0.0031,
      "num_input_tokens_seen": 53232432,
      "step": 91735
    },
    {
      "epoch": 13.663985701519213,
      "grad_norm": 0.003043792210519314,
      "learning_rate": 1.3791056261574952e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53235184,
      "step": 91740
    },
    {
      "epoch": 13.664730414060173,
      "grad_norm": 0.05845923349261284,
      "learning_rate": 1.3788151847254139e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53237936,
      "step": 91745
    },
    {
      "epoch": 13.665475126601132,
      "grad_norm": 0.12850308418273926,
      "learning_rate": 1.3785247622346098e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53240912,
      "step": 91750
    },
    {
      "epoch": 13.66621983914209,
      "grad_norm": 0.0029695765115320683,
      "learning_rate": 1.3782343586899906e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53243600,
      "step": 91755
    },
    {
      "epoch": 13.66696455168305,
      "grad_norm": 0.008804664015769958,
      "learning_rate": 1.377943974096461e-05,
      "loss": 0.026,
      "num_input_tokens_seen": 53246352,
      "step": 91760
    },
    {
      "epoch": 13.66770926422401,
      "grad_norm": 0.0007709237979725003,
      "learning_rate": 1.3776536084589287e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53249008,
      "step": 91765
    },
    {
      "epoch": 13.668453976764969,
      "grad_norm": 0.0057852561585605145,
      "learning_rate": 1.377363261782298e-05,
      "loss": 0.1119,
      "num_input_tokens_seen": 53251760,
      "step": 91770
    },
    {
      "epoch": 13.669198689305928,
      "grad_norm": 189.07371520996094,
      "learning_rate": 1.3770729340714728e-05,
      "loss": 0.0207,
      "num_input_tokens_seen": 53254736,
      "step": 91775
    },
    {
      "epoch": 13.669943401846886,
      "grad_norm": 0.3868584930896759,
      "learning_rate": 1.3767826253313599e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 53257648,
      "step": 91780
    },
    {
      "epoch": 13.670688114387847,
      "grad_norm": 0.0017417072085663676,
      "learning_rate": 1.376492335566863e-05,
      "loss": 0.0832,
      "num_input_tokens_seen": 53260912,
      "step": 91785
    },
    {
      "epoch": 13.671432826928806,
      "grad_norm": 0.0019596379715949297,
      "learning_rate": 1.3762020647828866e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53263664,
      "step": 91790
    },
    {
      "epoch": 13.672177539469764,
      "grad_norm": 0.05979936197400093,
      "learning_rate": 1.375911812984333e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53266544,
      "step": 91795
    },
    {
      "epoch": 13.672922252010723,
      "grad_norm": 0.002179301343858242,
      "learning_rate": 1.3756215801761074e-05,
      "loss": 0.2542,
      "num_input_tokens_seen": 53269392,
      "step": 91800
    },
    {
      "epoch": 13.673666964551684,
      "grad_norm": 0.000342913088388741,
      "learning_rate": 1.3753313663631119e-05,
      "loss": 0.2221,
      "num_input_tokens_seen": 53272016,
      "step": 91805
    },
    {
      "epoch": 13.674411677092642,
      "grad_norm": 0.026813730597496033,
      "learning_rate": 1.375041171550251e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 53274736,
      "step": 91810
    },
    {
      "epoch": 13.675156389633601,
      "grad_norm": 0.004566072952002287,
      "learning_rate": 1.3747509957424259e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 53277520,
      "step": 91815
    },
    {
      "epoch": 13.67590110217456,
      "grad_norm": 0.00059128348948434,
      "learning_rate": 1.3744608389445379e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 53280336,
      "step": 91820
    },
    {
      "epoch": 13.67664581471552,
      "grad_norm": 0.0035197255201637745,
      "learning_rate": 1.3741707011614912e-05,
      "loss": 0.0029,
      "num_input_tokens_seen": 53283408,
      "step": 91825
    },
    {
      "epoch": 13.67739052725648,
      "grad_norm": 0.000408229447202757,
      "learning_rate": 1.3738805823981857e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53286448,
      "step": 91830
    },
    {
      "epoch": 13.678135239797438,
      "grad_norm": 0.000831961166113615,
      "learning_rate": 1.3735904826595236e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53289488,
      "step": 91835
    },
    {
      "epoch": 13.678879952338397,
      "grad_norm": 0.003681186819449067,
      "learning_rate": 1.3733004019504058e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53292400,
      "step": 91840
    },
    {
      "epoch": 13.679624664879357,
      "grad_norm": 0.007871491834521294,
      "learning_rate": 1.3730103402757327e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53295280,
      "step": 91845
    },
    {
      "epoch": 13.680369377420316,
      "grad_norm": 0.8454830050468445,
      "learning_rate": 1.3727202976404033e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 53298064,
      "step": 91850
    },
    {
      "epoch": 13.681114089961275,
      "grad_norm": 8.32568645477295,
      "learning_rate": 1.3724302740493198e-05,
      "loss": 0.1577,
      "num_input_tokens_seen": 53301232,
      "step": 91855
    },
    {
      "epoch": 13.681858802502234,
      "grad_norm": 0.00437373761087656,
      "learning_rate": 1.372140269507381e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53304080,
      "step": 91860
    },
    {
      "epoch": 13.682603515043194,
      "grad_norm": 0.00017599944840185344,
      "learning_rate": 1.3718502840194847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53307152,
      "step": 91865
    },
    {
      "epoch": 13.683348227584153,
      "grad_norm": 0.0005913939676247537,
      "learning_rate": 1.3715603175905322e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 53310160,
      "step": 91870
    },
    {
      "epoch": 13.684092940125112,
      "grad_norm": 0.0031941605266183615,
      "learning_rate": 1.3712703702254203e-05,
      "loss": 0.0193,
      "num_input_tokens_seen": 53313104,
      "step": 91875
    },
    {
      "epoch": 13.68483765266607,
      "grad_norm": 0.003195240395143628,
      "learning_rate": 1.3709804419290496e-05,
      "loss": 0.1241,
      "num_input_tokens_seen": 53315888,
      "step": 91880
    },
    {
      "epoch": 13.68558236520703,
      "grad_norm": 0.0008636469719931483,
      "learning_rate": 1.3706905327063158e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53318800,
      "step": 91885
    },
    {
      "epoch": 13.68632707774799,
      "grad_norm": 0.006448890548199415,
      "learning_rate": 1.3704006425621185e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53321552,
      "step": 91890
    },
    {
      "epoch": 13.687071790288948,
      "grad_norm": 0.005396256223320961,
      "learning_rate": 1.3701107715013542e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53324368,
      "step": 91895
    },
    {
      "epoch": 13.687816502829907,
      "grad_norm": 0.00035406462848186493,
      "learning_rate": 1.369820919528919e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53327248,
      "step": 91900
    },
    {
      "epoch": 13.688561215370868,
      "grad_norm": 4.607551097869873,
      "learning_rate": 1.3695310866497119e-05,
      "loss": 0.1437,
      "num_input_tokens_seen": 53329968,
      "step": 91905
    },
    {
      "epoch": 13.689305927911827,
      "grad_norm": 382.4936218261719,
      "learning_rate": 1.3692412728686282e-05,
      "loss": 0.0208,
      "num_input_tokens_seen": 53332848,
      "step": 91910
    },
    {
      "epoch": 13.690050640452785,
      "grad_norm": 0.001024705939926207,
      "learning_rate": 1.3689514781905638e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53335632,
      "step": 91915
    },
    {
      "epoch": 13.690795352993744,
      "grad_norm": 54.00617218017578,
      "learning_rate": 1.3686617026204138e-05,
      "loss": 0.018,
      "num_input_tokens_seen": 53338608,
      "step": 91920
    },
    {
      "epoch": 13.691540065534703,
      "grad_norm": 0.3076075613498688,
      "learning_rate": 1.368371946163075e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 53341424,
      "step": 91925
    },
    {
      "epoch": 13.692284778075663,
      "grad_norm": 0.0012055314145982265,
      "learning_rate": 1.3680822088234427e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 53344368,
      "step": 91930
    },
    {
      "epoch": 13.693029490616622,
      "grad_norm": 0.0021920206490904093,
      "learning_rate": 1.3677924906064097e-05,
      "loss": 0.0148,
      "num_input_tokens_seen": 53347152,
      "step": 91935
    },
    {
      "epoch": 13.69377420315758,
      "grad_norm": 188.42608642578125,
      "learning_rate": 1.3675027915168729e-05,
      "loss": 0.0824,
      "num_input_tokens_seen": 53350128,
      "step": 91940
    },
    {
      "epoch": 13.69451891569854,
      "grad_norm": 0.0006881251465529203,
      "learning_rate": 1.3672131115597241e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53352912,
      "step": 91945
    },
    {
      "epoch": 13.6952636282395,
      "grad_norm": 0.11321371048688889,
      "learning_rate": 1.3669234507398601e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53355984,
      "step": 91950
    },
    {
      "epoch": 13.696008340780459,
      "grad_norm": 0.0001693641534075141,
      "learning_rate": 1.3666338090621716e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53358672,
      "step": 91955
    },
    {
      "epoch": 13.696753053321418,
      "grad_norm": 0.15698321163654327,
      "learning_rate": 1.3663441865315538e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53361392,
      "step": 91960
    },
    {
      "epoch": 13.697497765862376,
      "grad_norm": 0.12309539318084717,
      "learning_rate": 1.3660545831528975e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53364720,
      "step": 91965
    },
    {
      "epoch": 13.698242478403337,
      "grad_norm": 0.00041806360241025686,
      "learning_rate": 1.365764998931098e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53367632,
      "step": 91970
    },
    {
      "epoch": 13.698987190944296,
      "grad_norm": 0.02414510026574135,
      "learning_rate": 1.365475433871046e-05,
      "loss": 0.1408,
      "num_input_tokens_seen": 53370320,
      "step": 91975
    },
    {
      "epoch": 13.699731903485254,
      "grad_norm": 0.0021852755453437567,
      "learning_rate": 1.3651858879776336e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53373200,
      "step": 91980
    },
    {
      "epoch": 13.700476616026213,
      "grad_norm": 0.009765270166099072,
      "learning_rate": 1.3648963612557519e-05,
      "loss": 0.2035,
      "num_input_tokens_seen": 53376080,
      "step": 91985
    },
    {
      "epoch": 13.701221328567174,
      "grad_norm": 0.0003877220442518592,
      "learning_rate": 1.3646068537102916e-05,
      "loss": 0.0352,
      "num_input_tokens_seen": 53378928,
      "step": 91990
    },
    {
      "epoch": 13.701966041108133,
      "grad_norm": 0.0015801099361851811,
      "learning_rate": 1.3643173653461454e-05,
      "loss": 0.1323,
      "num_input_tokens_seen": 53381872,
      "step": 91995
    },
    {
      "epoch": 13.702710753649091,
      "grad_norm": 0.006659257225692272,
      "learning_rate": 1.3640278961682023e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53384912,
      "step": 92000
    },
    {
      "epoch": 13.70345546619005,
      "grad_norm": 0.031350210309028625,
      "learning_rate": 1.3637384461813546e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53387824,
      "step": 92005
    },
    {
      "epoch": 13.70420017873101,
      "grad_norm": 0.007124635856598616,
      "learning_rate": 1.3634490153904905e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53390416,
      "step": 92010
    },
    {
      "epoch": 13.70494489127197,
      "grad_norm": 0.12557560205459595,
      "learning_rate": 1.3631596038004994e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53393392,
      "step": 92015
    },
    {
      "epoch": 13.705689603812928,
      "grad_norm": 0.05507752299308777,
      "learning_rate": 1.3628702114162722e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53396176,
      "step": 92020
    },
    {
      "epoch": 13.706434316353887,
      "grad_norm": 0.2647739052772522,
      "learning_rate": 1.3625808382426964e-05,
      "loss": 0.2068,
      "num_input_tokens_seen": 53399248,
      "step": 92025
    },
    {
      "epoch": 13.707179028894847,
      "grad_norm": 0.0014324894873425364,
      "learning_rate": 1.3622914842846619e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53402000,
      "step": 92030
    },
    {
      "epoch": 13.707923741435806,
      "grad_norm": 3.1295828819274902,
      "learning_rate": 1.3620021495470556e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 53404880,
      "step": 92035
    },
    {
      "epoch": 13.708668453976765,
      "grad_norm": 0.000771279155742377,
      "learning_rate": 1.3617128340347673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53407504,
      "step": 92040
    },
    {
      "epoch": 13.709413166517724,
      "grad_norm": 3.988058597315103e-05,
      "learning_rate": 1.361423537752684e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53410128,
      "step": 92045
    },
    {
      "epoch": 13.710157879058684,
      "grad_norm": 0.05097430571913719,
      "learning_rate": 1.3611342607056925e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53413008,
      "step": 92050
    },
    {
      "epoch": 13.710902591599643,
      "grad_norm": 0.0039044185541570187,
      "learning_rate": 1.3608450028986804e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53415824,
      "step": 92055
    },
    {
      "epoch": 13.711647304140602,
      "grad_norm": 0.0006150511326268315,
      "learning_rate": 1.3605557643365333e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53418448,
      "step": 92060
    },
    {
      "epoch": 13.71239201668156,
      "grad_norm": 42.224884033203125,
      "learning_rate": 1.3602665450241392e-05,
      "loss": 0.0108,
      "num_input_tokens_seen": 53421296,
      "step": 92065
    },
    {
      "epoch": 13.71313672922252,
      "grad_norm": 0.009333972819149494,
      "learning_rate": 1.3599773449663828e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 53424400,
      "step": 92070
    },
    {
      "epoch": 13.71388144176348,
      "grad_norm": 0.07227333635091782,
      "learning_rate": 1.3596881641681513e-05,
      "loss": 0.009,
      "num_input_tokens_seen": 53427536,
      "step": 92075
    },
    {
      "epoch": 13.714626154304439,
      "grad_norm": 0.002006438560783863,
      "learning_rate": 1.3593990026343284e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53430160,
      "step": 92080
    },
    {
      "epoch": 13.715370866845397,
      "grad_norm": 0.001138066640123725,
      "learning_rate": 1.3591098603698007e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53433136,
      "step": 92085
    },
    {
      "epoch": 13.716115579386356,
      "grad_norm": 0.0028768989723175764,
      "learning_rate": 1.3588207373794526e-05,
      "loss": 0.0795,
      "num_input_tokens_seen": 53436016,
      "step": 92090
    },
    {
      "epoch": 13.716860291927317,
      "grad_norm": 0.005144513677805662,
      "learning_rate": 1.3585316336681675e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53439024,
      "step": 92095
    },
    {
      "epoch": 13.717605004468275,
      "grad_norm": 0.0011180074652656913,
      "learning_rate": 1.3582425492408313e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53441808,
      "step": 92100
    },
    {
      "epoch": 13.718349717009234,
      "grad_norm": 0.0006563079077750444,
      "learning_rate": 1.3579534841023256e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53444560,
      "step": 92105
    },
    {
      "epoch": 13.719094429550193,
      "grad_norm": 0.0052754939533770084,
      "learning_rate": 1.357664438257536e-05,
      "loss": 0.0506,
      "num_input_tokens_seen": 53447600,
      "step": 92110
    },
    {
      "epoch": 13.719839142091153,
      "grad_norm": 0.22398337721824646,
      "learning_rate": 1.3573754117113446e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53450608,
      "step": 92115
    },
    {
      "epoch": 13.720583854632112,
      "grad_norm": 2.592622995376587,
      "learning_rate": 1.3570864044686349e-05,
      "loss": 0.0034,
      "num_input_tokens_seen": 53453712,
      "step": 92120
    },
    {
      "epoch": 13.721328567173071,
      "grad_norm": 6.932114047231153e-05,
      "learning_rate": 1.3567974165342873e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 53456464,
      "step": 92125
    },
    {
      "epoch": 13.72207327971403,
      "grad_norm": 0.00012322240218054503,
      "learning_rate": 1.3565084479131865e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53459312,
      "step": 92130
    },
    {
      "epoch": 13.72281799225499,
      "grad_norm": 0.0020196966361254454,
      "learning_rate": 1.3562194986102134e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53462576,
      "step": 92135
    },
    {
      "epoch": 13.723562704795949,
      "grad_norm": 0.042201247066259384,
      "learning_rate": 1.3559305686302482e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53465488,
      "step": 92140
    },
    {
      "epoch": 13.724307417336908,
      "grad_norm": 0.00018338640802539885,
      "learning_rate": 1.3556416579781745e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 53468240,
      "step": 92145
    },
    {
      "epoch": 13.725052129877866,
      "grad_norm": 0.0003014802932739258,
      "learning_rate": 1.355352766658871e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53470896,
      "step": 92150
    },
    {
      "epoch": 13.725796842418827,
      "grad_norm": 0.005743152461946011,
      "learning_rate": 1.3550638946772198e-05,
      "loss": 0.2531,
      "num_input_tokens_seen": 53473968,
      "step": 92155
    },
    {
      "epoch": 13.726541554959786,
      "grad_norm": 0.0021519300062209368,
      "learning_rate": 1.3547750420380994e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53476912,
      "step": 92160
    },
    {
      "epoch": 13.727286267500745,
      "grad_norm": 0.001338514150120318,
      "learning_rate": 1.3544862087463922e-05,
      "loss": 0.1132,
      "num_input_tokens_seen": 53480016,
      "step": 92165
    },
    {
      "epoch": 13.728030980041703,
      "grad_norm": 0.00038684476749040186,
      "learning_rate": 1.3541973948069757e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53482768,
      "step": 92170
    },
    {
      "epoch": 13.728775692582664,
      "grad_norm": 0.01625335030257702,
      "learning_rate": 1.3539086002247301e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53485424,
      "step": 92175
    },
    {
      "epoch": 13.729520405123623,
      "grad_norm": 0.020238889381289482,
      "learning_rate": 1.3536198250045326e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53488496,
      "step": 92180
    },
    {
      "epoch": 13.730265117664581,
      "grad_norm": 0.006173045374453068,
      "learning_rate": 1.353331069151264e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53491056,
      "step": 92185
    },
    {
      "epoch": 13.73100983020554,
      "grad_norm": 0.0009243239182978868,
      "learning_rate": 1.3530423326698015e-05,
      "loss": 0.0379,
      "num_input_tokens_seen": 53494000,
      "step": 92190
    },
    {
      "epoch": 13.7317545427465,
      "grad_norm": 0.00881952978670597,
      "learning_rate": 1.3527536155650224e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53497040,
      "step": 92195
    },
    {
      "epoch": 13.73249925528746,
      "grad_norm": 0.0008894357015378773,
      "learning_rate": 1.3524649178418058e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53500080,
      "step": 92200
    },
    {
      "epoch": 13.733243967828418,
      "grad_norm": 0.0007841004407964647,
      "learning_rate": 1.3521762395050272e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53503184,
      "step": 92205
    },
    {
      "epoch": 13.733988680369377,
      "grad_norm": 0.0039183637127280235,
      "learning_rate": 1.3518875805595654e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53505936,
      "step": 92210
    },
    {
      "epoch": 13.734733392910336,
      "grad_norm": 0.0004211307968944311,
      "learning_rate": 1.3515989410102959e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 53509264,
      "step": 92215
    },
    {
      "epoch": 13.735478105451296,
      "grad_norm": 0.00281253713183105,
      "learning_rate": 1.3513103208620941e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53512016,
      "step": 92220
    },
    {
      "epoch": 13.736222817992255,
      "grad_norm": 0.006308249197900295,
      "learning_rate": 1.3510217201198383e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53514576,
      "step": 92225
    },
    {
      "epoch": 13.736967530533214,
      "grad_norm": 0.03531310707330704,
      "learning_rate": 1.3507331387884015e-05,
      "loss": 0.1159,
      "num_input_tokens_seen": 53517424,
      "step": 92230
    },
    {
      "epoch": 13.737712243074174,
      "grad_norm": 0.0007044228841550648,
      "learning_rate": 1.3504445768726612e-05,
      "loss": 0.0827,
      "num_input_tokens_seen": 53520272,
      "step": 92235
    },
    {
      "epoch": 13.738456955615133,
      "grad_norm": 115.4637451171875,
      "learning_rate": 1.3501560343774917e-05,
      "loss": 0.1533,
      "num_input_tokens_seen": 53523024,
      "step": 92240
    },
    {
      "epoch": 13.739201668156092,
      "grad_norm": 0.1463162899017334,
      "learning_rate": 1.3498675113077669e-05,
      "loss": 0.0655,
      "num_input_tokens_seen": 53526096,
      "step": 92245
    },
    {
      "epoch": 13.73994638069705,
      "grad_norm": 0.0008047732408158481,
      "learning_rate": 1.3495790076683617e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 53529008,
      "step": 92250
    },
    {
      "epoch": 13.74069109323801,
      "grad_norm": 0.001867833430878818,
      "learning_rate": 1.3492905234641492e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 53531696,
      "step": 92255
    },
    {
      "epoch": 13.74143580577897,
      "grad_norm": 0.00182000279892236,
      "learning_rate": 1.3490020587000046e-05,
      "loss": 0.0955,
      "num_input_tokens_seen": 53534800,
      "step": 92260
    },
    {
      "epoch": 13.742180518319929,
      "grad_norm": 0.0027041048742830753,
      "learning_rate": 1.3487136133807992e-05,
      "loss": 0.0087,
      "num_input_tokens_seen": 53537520,
      "step": 92265
    },
    {
      "epoch": 13.742925230860887,
      "grad_norm": 0.00107489840593189,
      "learning_rate": 1.3484251875114085e-05,
      "loss": 0.0288,
      "num_input_tokens_seen": 53540400,
      "step": 92270
    },
    {
      "epoch": 13.743669943401846,
      "grad_norm": 0.002253597369417548,
      "learning_rate": 1.3481367810967027e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53543152,
      "step": 92275
    },
    {
      "epoch": 13.744414655942807,
      "grad_norm": 0.001336327870376408,
      "learning_rate": 1.3478483941415565e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53545808,
      "step": 92280
    },
    {
      "epoch": 13.745159368483765,
      "grad_norm": 0.014813588932156563,
      "learning_rate": 1.3475600266508395e-05,
      "loss": 0.0337,
      "num_input_tokens_seen": 53548624,
      "step": 92285
    },
    {
      "epoch": 13.745904081024724,
      "grad_norm": 4.64340877532959,
      "learning_rate": 1.3472716786294254e-05,
      "loss": 0.0358,
      "num_input_tokens_seen": 53551504,
      "step": 92290
    },
    {
      "epoch": 13.746648793565683,
      "grad_norm": 0.0108656520023942,
      "learning_rate": 1.3469833500821848e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53554384,
      "step": 92295
    },
    {
      "epoch": 13.747393506106643,
      "grad_norm": 0.0038636832032352686,
      "learning_rate": 1.3466950410139878e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 53557200,
      "step": 92300
    },
    {
      "epoch": 13.748138218647602,
      "grad_norm": 0.00048562741721980274,
      "learning_rate": 1.3464067514297069e-05,
      "loss": 0.3569,
      "num_input_tokens_seen": 53559824,
      "step": 92305
    },
    {
      "epoch": 13.748882931188561,
      "grad_norm": 0.0008421557140536606,
      "learning_rate": 1.3461184813342116e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53562704,
      "step": 92310
    },
    {
      "epoch": 13.74962764372952,
      "grad_norm": 0.000144328543683514,
      "learning_rate": 1.3458302307323714e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 53565296,
      "step": 92315
    },
    {
      "epoch": 13.75037235627048,
      "grad_norm": 0.013672711327672005,
      "learning_rate": 1.3455419996290558e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53568016,
      "step": 92320
    },
    {
      "epoch": 13.751117068811439,
      "grad_norm": 0.014771776273846626,
      "learning_rate": 1.3452537880291355e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53571024,
      "step": 92325
    },
    {
      "epoch": 13.751861781352398,
      "grad_norm": 0.037502143532037735,
      "learning_rate": 1.3449655959374791e-05,
      "loss": 0.0047,
      "num_input_tokens_seen": 53573808,
      "step": 92330
    },
    {
      "epoch": 13.752606493893357,
      "grad_norm": 0.00017060330719687045,
      "learning_rate": 1.3446774233589537e-05,
      "loss": 0.0493,
      "num_input_tokens_seen": 53576592,
      "step": 92335
    },
    {
      "epoch": 13.753351206434317,
      "grad_norm": 0.0007203260320238769,
      "learning_rate": 1.3443892702984302e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53579472,
      "step": 92340
    },
    {
      "epoch": 13.754095918975276,
      "grad_norm": 0.001664143754169345,
      "learning_rate": 1.3441011367607743e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53582224,
      "step": 92345
    },
    {
      "epoch": 13.754840631516235,
      "grad_norm": 0.06591840088367462,
      "learning_rate": 1.343813022750856e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53585232,
      "step": 92350
    },
    {
      "epoch": 13.755585344057193,
      "grad_norm": 3.193371958332136e-05,
      "learning_rate": 1.3435249282735407e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53588048,
      "step": 92355
    },
    {
      "epoch": 13.756330056598154,
      "grad_norm": 0.0007539830403402448,
      "learning_rate": 1.343236853333697e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53590928,
      "step": 92360
    },
    {
      "epoch": 13.757074769139113,
      "grad_norm": 0.06666265428066254,
      "learning_rate": 1.3429487979361905e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53593776,
      "step": 92365
    },
    {
      "epoch": 13.757819481680071,
      "grad_norm": 0.0009747508447617292,
      "learning_rate": 1.342660762085889e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53596816,
      "step": 92370
    },
    {
      "epoch": 13.75856419422103,
      "grad_norm": 8.85483455657959,
      "learning_rate": 1.3423727457876572e-05,
      "loss": 0.1301,
      "num_input_tokens_seen": 53599760,
      "step": 92375
    },
    {
      "epoch": 13.75930890676199,
      "grad_norm": 0.006592146586626768,
      "learning_rate": 1.3420847490463614e-05,
      "loss": 0.1347,
      "num_input_tokens_seen": 53602640,
      "step": 92380
    },
    {
      "epoch": 13.76005361930295,
      "grad_norm": 0.0013433888088911772,
      "learning_rate": 1.3417967718668672e-05,
      "loss": 0.1121,
      "num_input_tokens_seen": 53605584,
      "step": 92385
    },
    {
      "epoch": 13.760798331843908,
      "grad_norm": 0.002120616380125284,
      "learning_rate": 1.3415088142540383e-05,
      "loss": 0.0557,
      "num_input_tokens_seen": 53608368,
      "step": 92390
    },
    {
      "epoch": 13.761543044384867,
      "grad_norm": 0.0021024378947913647,
      "learning_rate": 1.3412208762127415e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53611376,
      "step": 92395
    },
    {
      "epoch": 13.762287756925826,
      "grad_norm": 0.005504627246409655,
      "learning_rate": 1.3409329577478391e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53614128,
      "step": 92400
    },
    {
      "epoch": 13.763032469466786,
      "grad_norm": 0.008732469752430916,
      "learning_rate": 1.3406450588641978e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53616880,
      "step": 92405
    },
    {
      "epoch": 13.763777182007745,
      "grad_norm": 0.04926271736621857,
      "learning_rate": 1.3403571795666786e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53619856,
      "step": 92410
    },
    {
      "epoch": 13.764521894548704,
      "grad_norm": 0.000329791713738814,
      "learning_rate": 1.3400693198601472e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53622736,
      "step": 92415
    },
    {
      "epoch": 13.765266607089664,
      "grad_norm": 0.21234868466854095,
      "learning_rate": 1.339781479749466e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53625808,
      "step": 92420
    },
    {
      "epoch": 13.766011319630623,
      "grad_norm": 0.0009591391426511109,
      "learning_rate": 1.3394936592394963e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53628688,
      "step": 92425
    },
    {
      "epoch": 13.766756032171582,
      "grad_norm": 0.024863911792635918,
      "learning_rate": 1.3392058583351027e-05,
      "loss": 0.0046,
      "num_input_tokens_seen": 53631440,
      "step": 92430
    },
    {
      "epoch": 13.76750074471254,
      "grad_norm": 0.0015788349555805326,
      "learning_rate": 1.3389180770411456e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53634352,
      "step": 92435
    },
    {
      "epoch": 13.7682454572535,
      "grad_norm": 0.0019670873880386353,
      "learning_rate": 1.3386303153624882e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53637360,
      "step": 92440
    },
    {
      "epoch": 13.76899016979446,
      "grad_norm": 0.018865123391151428,
      "learning_rate": 1.3383425733039914e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53640240,
      "step": 92445
    },
    {
      "epoch": 13.769734882335419,
      "grad_norm": 0.004686498083174229,
      "learning_rate": 1.3380548508705162e-05,
      "loss": 0.038,
      "num_input_tokens_seen": 53643152,
      "step": 92450
    },
    {
      "epoch": 13.770479594876377,
      "grad_norm": 0.043771445751190186,
      "learning_rate": 1.3377671480669235e-05,
      "loss": 0.0072,
      "num_input_tokens_seen": 53645968,
      "step": 92455
    },
    {
      "epoch": 13.771224307417336,
      "grad_norm": 0.004955842159688473,
      "learning_rate": 1.3374794648980721e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53649232,
      "step": 92460
    },
    {
      "epoch": 13.771969019958297,
      "grad_norm": 0.0014197011478245258,
      "learning_rate": 1.337191801368825e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53652400,
      "step": 92465
    },
    {
      "epoch": 13.772713732499255,
      "grad_norm": 0.0019432944245636463,
      "learning_rate": 1.3369041574840396e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 53655248,
      "step": 92470
    },
    {
      "epoch": 13.773458445040214,
      "grad_norm": 0.0003270416345912963,
      "learning_rate": 1.3366165332485772e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53658256,
      "step": 92475
    },
    {
      "epoch": 13.774203157581173,
      "grad_norm": 0.0031288727186620235,
      "learning_rate": 1.3363289286672952e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53661200,
      "step": 92480
    },
    {
      "epoch": 13.774947870122134,
      "grad_norm": 0.0061844997107982635,
      "learning_rate": 1.3360413437450542e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53664208,
      "step": 92485
    },
    {
      "epoch": 13.775692582663092,
      "grad_norm": 0.0017489335732534528,
      "learning_rate": 1.3357537784867105e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53667472,
      "step": 92490
    },
    {
      "epoch": 13.776437295204051,
      "grad_norm": 0.00022956477187108248,
      "learning_rate": 1.3354662328971246e-05,
      "loss": 0.2125,
      "num_input_tokens_seen": 53670128,
      "step": 92495
    },
    {
      "epoch": 13.77718200774501,
      "grad_norm": 0.07134854793548584,
      "learning_rate": 1.3351787069811533e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53673296,
      "step": 92500
    },
    {
      "epoch": 13.77792672028597,
      "grad_norm": 0.5804251432418823,
      "learning_rate": 1.3348912007436537e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 53676144,
      "step": 92505
    },
    {
      "epoch": 13.778671432826929,
      "grad_norm": 0.00028202321846038103,
      "learning_rate": 1.3346037141894829e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 53679376,
      "step": 92510
    },
    {
      "epoch": 13.779416145367888,
      "grad_norm": 0.12371240556240082,
      "learning_rate": 1.3343162473234972e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53682096,
      "step": 92515
    },
    {
      "epoch": 13.780160857908847,
      "grad_norm": 0.0013043269282206893,
      "learning_rate": 1.3340288001505546e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53685072,
      "step": 92520
    },
    {
      "epoch": 13.780905570449807,
      "grad_norm": 0.01007849257439375,
      "learning_rate": 1.3337413726755093e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53688080,
      "step": 92525
    },
    {
      "epoch": 13.781650282990766,
      "grad_norm": 0.00021111476235091686,
      "learning_rate": 1.3334539649032193e-05,
      "loss": 0.3875,
      "num_input_tokens_seen": 53690800,
      "step": 92530
    },
    {
      "epoch": 13.782394995531725,
      "grad_norm": 0.06725947558879852,
      "learning_rate": 1.3331665768385387e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53693776,
      "step": 92535
    },
    {
      "epoch": 13.783139708072683,
      "grad_norm": 0.03274894505739212,
      "learning_rate": 1.3328792084863223e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53696624,
      "step": 92540
    },
    {
      "epoch": 13.783884420613644,
      "grad_norm": 0.0015612379647791386,
      "learning_rate": 1.3325918598514265e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53699536,
      "step": 92545
    },
    {
      "epoch": 13.784629133154603,
      "grad_norm": 0.0004924494423903525,
      "learning_rate": 1.3323045309387033e-05,
      "loss": 0.0867,
      "num_input_tokens_seen": 53702352,
      "step": 92550
    },
    {
      "epoch": 13.785373845695561,
      "grad_norm": 0.533384382724762,
      "learning_rate": 1.3320172217530094e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53705136,
      "step": 92555
    },
    {
      "epoch": 13.78611855823652,
      "grad_norm": 0.01362654473632574,
      "learning_rate": 1.3317299322991966e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 53707952,
      "step": 92560
    },
    {
      "epoch": 13.78686327077748,
      "grad_norm": 0.0014622359303757548,
      "learning_rate": 1.33144266258212e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53710736,
      "step": 92565
    },
    {
      "epoch": 13.78760798331844,
      "grad_norm": 0.0015441812574863434,
      "learning_rate": 1.3311554126066323e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53713776,
      "step": 92570
    },
    {
      "epoch": 13.788352695859398,
      "grad_norm": 49.65245819091797,
      "learning_rate": 1.3308681823775853e-05,
      "loss": 0.1362,
      "num_input_tokens_seen": 53717168,
      "step": 92575
    },
    {
      "epoch": 13.789097408400357,
      "grad_norm": 0.0013380764285102487,
      "learning_rate": 1.3305809718998324e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53719920,
      "step": 92580
    },
    {
      "epoch": 13.789842120941316,
      "grad_norm": 0.0058367690071463585,
      "learning_rate": 1.3302937811782249e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53722896,
      "step": 92585
    },
    {
      "epoch": 13.790586833482276,
      "grad_norm": 0.0005189609946683049,
      "learning_rate": 1.3300066102176157e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53725776,
      "step": 92590
    },
    {
      "epoch": 13.791331546023235,
      "grad_norm": 0.0002454723871778697,
      "learning_rate": 1.3297194590228545e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53728528,
      "step": 92595
    },
    {
      "epoch": 13.792076258564194,
      "grad_norm": 0.15377585589885712,
      "learning_rate": 1.3294323275987953e-05,
      "loss": 0.0704,
      "num_input_tokens_seen": 53731632,
      "step": 92600
    },
    {
      "epoch": 13.792820971105153,
      "grad_norm": 0.0018222470534965396,
      "learning_rate": 1.3291452159502853e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53734672,
      "step": 92605
    },
    {
      "epoch": 13.793565683646113,
      "grad_norm": 0.04082323983311653,
      "learning_rate": 1.3288581240821785e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53737616,
      "step": 92610
    },
    {
      "epoch": 13.794310396187072,
      "grad_norm": 0.021677562966942787,
      "learning_rate": 1.3285710519993233e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53740208,
      "step": 92615
    },
    {
      "epoch": 13.79505510872803,
      "grad_norm": 0.06604321300983429,
      "learning_rate": 1.3282839997065689e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53742992,
      "step": 92620
    },
    {
      "epoch": 13.79579982126899,
      "grad_norm": 73.40580749511719,
      "learning_rate": 1.327996967208766e-05,
      "loss": 0.0618,
      "num_input_tokens_seen": 53745936,
      "step": 92625
    },
    {
      "epoch": 13.79654453380995,
      "grad_norm": 0.001614994602277875,
      "learning_rate": 1.3277099545107622e-05,
      "loss": 0.0808,
      "num_input_tokens_seen": 53748784,
      "step": 92630
    },
    {
      "epoch": 13.797289246350909,
      "grad_norm": 0.0018786767031997442,
      "learning_rate": 1.3274229616174084e-05,
      "loss": 0.0225,
      "num_input_tokens_seen": 53751568,
      "step": 92635
    },
    {
      "epoch": 13.798033958891867,
      "grad_norm": 0.00917905755341053,
      "learning_rate": 1.3271359885335515e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53754416,
      "step": 92640
    },
    {
      "epoch": 13.798778671432826,
      "grad_norm": 0.0009395004017278552,
      "learning_rate": 1.3268490352640405e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53757456,
      "step": 92645
    },
    {
      "epoch": 13.799523383973787,
      "grad_norm": 0.006144161801785231,
      "learning_rate": 1.3265621018137216e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53760208,
      "step": 92650
    },
    {
      "epoch": 13.800268096514746,
      "grad_norm": 0.016032826155424118,
      "learning_rate": 1.3262751881874443e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53762800,
      "step": 92655
    },
    {
      "epoch": 13.801012809055704,
      "grad_norm": 0.0024154391139745712,
      "learning_rate": 1.3259882943900547e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 53765904,
      "step": 92660
    },
    {
      "epoch": 13.801757521596663,
      "grad_norm": 0.0001330905215581879,
      "learning_rate": 1.325701420426399e-05,
      "loss": 0.0796,
      "num_input_tokens_seen": 53768784,
      "step": 92665
    },
    {
      "epoch": 13.802502234137624,
      "grad_norm": 0.000506104901432991,
      "learning_rate": 1.3254145663013251e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53771696,
      "step": 92670
    },
    {
      "epoch": 13.803246946678582,
      "grad_norm": 0.0024801718536764383,
      "learning_rate": 1.3251277320196772e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53774384,
      "step": 92675
    },
    {
      "epoch": 13.803991659219541,
      "grad_norm": 0.004883704241365194,
      "learning_rate": 1.3248409175863033e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 53777264,
      "step": 92680
    },
    {
      "epoch": 13.8047363717605,
      "grad_norm": 0.014725870452821255,
      "learning_rate": 1.3245541230060465e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53780272,
      "step": 92685
    },
    {
      "epoch": 13.80548108430146,
      "grad_norm": 0.0252494215965271,
      "learning_rate": 1.3242673482837544e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53783248,
      "step": 92690
    },
    {
      "epoch": 13.80622579684242,
      "grad_norm": 0.04291713237762451,
      "learning_rate": 1.3239805934242704e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53786192,
      "step": 92695
    },
    {
      "epoch": 13.806970509383378,
      "grad_norm": 0.000815933512058109,
      "learning_rate": 1.3236938584324382e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 53789136,
      "step": 92700
    },
    {
      "epoch": 13.807715221924337,
      "grad_norm": 0.00027261569630354643,
      "learning_rate": 1.3234071433131034e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 53792080,
      "step": 92705
    },
    {
      "epoch": 13.808459934465297,
      "grad_norm": 0.0005185666959732771,
      "learning_rate": 1.323120448071109e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53795216,
      "step": 92710
    },
    {
      "epoch": 13.809204647006256,
      "grad_norm": 0.0007201905827969313,
      "learning_rate": 1.3228337727112988e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53797936,
      "step": 92715
    },
    {
      "epoch": 13.809949359547215,
      "grad_norm": 0.0011712382547557354,
      "learning_rate": 1.3225471172385145e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53800752,
      "step": 92720
    },
    {
      "epoch": 13.810694072088173,
      "grad_norm": 0.0004389462119434029,
      "learning_rate": 1.3222604816576011e-05,
      "loss": 0.0266,
      "num_input_tokens_seen": 53803856,
      "step": 92725
    },
    {
      "epoch": 13.811438784629132,
      "grad_norm": 0.0020659216679632664,
      "learning_rate": 1.3219738659733988e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53806672,
      "step": 92730
    },
    {
      "epoch": 13.812183497170093,
      "grad_norm": 0.0003714074846357107,
      "learning_rate": 1.3216872701907515e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53809264,
      "step": 92735
    },
    {
      "epoch": 13.812928209711052,
      "grad_norm": 0.0008610705262981355,
      "learning_rate": 1.3214006943145002e-05,
      "loss": 0.0229,
      "num_input_tokens_seen": 53811984,
      "step": 92740
    },
    {
      "epoch": 13.81367292225201,
      "grad_norm": 0.0001349687809124589,
      "learning_rate": 1.3211141383494856e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53815024,
      "step": 92745
    },
    {
      "epoch": 13.81441763479297,
      "grad_norm": 0.003179855877533555,
      "learning_rate": 1.32082760230055e-05,
      "loss": 0.0746,
      "num_input_tokens_seen": 53818160,
      "step": 92750
    },
    {
      "epoch": 13.81516234733393,
      "grad_norm": 71.62713623046875,
      "learning_rate": 1.3205410861725331e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 53821008,
      "step": 92755
    },
    {
      "epoch": 13.815907059874888,
      "grad_norm": 23.30352783203125,
      "learning_rate": 1.3202545899702768e-05,
      "loss": 0.0292,
      "num_input_tokens_seen": 53823984,
      "step": 92760
    },
    {
      "epoch": 13.816651772415847,
      "grad_norm": 0.6586676239967346,
      "learning_rate": 1.3199681136986186e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53826768,
      "step": 92765
    },
    {
      "epoch": 13.817396484956806,
      "grad_norm": 0.0026607534382492304,
      "learning_rate": 1.3196816573624013e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53829488,
      "step": 92770
    },
    {
      "epoch": 13.818141197497766,
      "grad_norm": 0.002143543679267168,
      "learning_rate": 1.3193952209664625e-05,
      "loss": 0.0272,
      "num_input_tokens_seen": 53832528,
      "step": 92775
    },
    {
      "epoch": 13.818885910038725,
      "grad_norm": 0.000945459702052176,
      "learning_rate": 1.319108804515642e-05,
      "loss": 0.0209,
      "num_input_tokens_seen": 53835280,
      "step": 92780
    },
    {
      "epoch": 13.819630622579684,
      "grad_norm": 0.0068847606889903545,
      "learning_rate": 1.3188224080147776e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53838096,
      "step": 92785
    },
    {
      "epoch": 13.820375335120643,
      "grad_norm": 0.0028302092105150223,
      "learning_rate": 1.318536031468707e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53841232,
      "step": 92790
    },
    {
      "epoch": 13.821120047661603,
      "grad_norm": 0.000709101848769933,
      "learning_rate": 1.3182496748822706e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53843824,
      "step": 92795
    },
    {
      "epoch": 13.821864760202562,
      "grad_norm": 0.000184823467861861,
      "learning_rate": 1.3179633382603041e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53846800,
      "step": 92800
    },
    {
      "epoch": 13.82260947274352,
      "grad_norm": 0.0007532705785706639,
      "learning_rate": 1.3176770216076462e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53849584,
      "step": 92805
    },
    {
      "epoch": 13.82335418528448,
      "grad_norm": 0.006743629928678274,
      "learning_rate": 1.3173907249291326e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 53852496,
      "step": 92810
    },
    {
      "epoch": 13.82409889782544,
      "grad_norm": 0.010742400772869587,
      "learning_rate": 1.3171044482296017e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53855568,
      "step": 92815
    },
    {
      "epoch": 13.824843610366399,
      "grad_norm": 12.070616722106934,
      "learning_rate": 1.3168181915138889e-05,
      "loss": 0.2814,
      "num_input_tokens_seen": 53858384,
      "step": 92820
    },
    {
      "epoch": 13.825588322907358,
      "grad_norm": 0.0004829710233025253,
      "learning_rate": 1.316531954786829e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53861232,
      "step": 92825
    },
    {
      "epoch": 13.826333035448316,
      "grad_norm": 0.003094898769631982,
      "learning_rate": 1.31624573805326e-05,
      "loss": 0.0161,
      "num_input_tokens_seen": 53864176,
      "step": 92830
    },
    {
      "epoch": 13.827077747989277,
      "grad_norm": 0.0032647917978465557,
      "learning_rate": 1.3159595413180164e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53867376,
      "step": 92835
    },
    {
      "epoch": 13.827822460530236,
      "grad_norm": 0.00666428916156292,
      "learning_rate": 1.3156733645859328e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53870160,
      "step": 92840
    },
    {
      "epoch": 13.828567173071194,
      "grad_norm": 0.004013130906969309,
      "learning_rate": 1.3153872078618428e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53873264,
      "step": 92845
    },
    {
      "epoch": 13.829311885612153,
      "grad_norm": 0.00088283367222175,
      "learning_rate": 1.3151010711505835e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53876144,
      "step": 92850
    },
    {
      "epoch": 13.830056598153114,
      "grad_norm": 0.0011674787383526564,
      "learning_rate": 1.3148149544569868e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 53879088,
      "step": 92855
    },
    {
      "epoch": 13.830801310694072,
      "grad_norm": 0.0008077254751697183,
      "learning_rate": 1.3145288577858861e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53882352,
      "step": 92860
    },
    {
      "epoch": 13.831546023235031,
      "grad_norm": 0.004758650902658701,
      "learning_rate": 1.3142427811421165e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53885264,
      "step": 92865
    },
    {
      "epoch": 13.83229073577599,
      "grad_norm": 0.02516387775540352,
      "learning_rate": 1.313956724530509e-05,
      "loss": 0.2594,
      "num_input_tokens_seen": 53888144,
      "step": 92870
    },
    {
      "epoch": 13.83303544831695,
      "grad_norm": 0.011071264743804932,
      "learning_rate": 1.3136706879558979e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53890832,
      "step": 92875
    },
    {
      "epoch": 13.83378016085791,
      "grad_norm": 0.009519200772047043,
      "learning_rate": 1.3133846714231141e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53893712,
      "step": 92880
    },
    {
      "epoch": 13.834524873398868,
      "grad_norm": 0.1914711445569992,
      "learning_rate": 1.3130986749369911e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53896688,
      "step": 92885
    },
    {
      "epoch": 13.835269585939827,
      "grad_norm": 0.004077679943293333,
      "learning_rate": 1.3128126985023586e-05,
      "loss": 0.022,
      "num_input_tokens_seen": 53899344,
      "step": 92890
    },
    {
      "epoch": 13.836014298480787,
      "grad_norm": 0.0036804291885346174,
      "learning_rate": 1.3125267421240504e-05,
      "loss": 0.0763,
      "num_input_tokens_seen": 53902032,
      "step": 92895
    },
    {
      "epoch": 13.836759011021746,
      "grad_norm": 0.028205551207065582,
      "learning_rate": 1.3122408058068955e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53904816,
      "step": 92900
    },
    {
      "epoch": 13.837503723562705,
      "grad_norm": 0.018641291186213493,
      "learning_rate": 1.3119548895557252e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53907920,
      "step": 92905
    },
    {
      "epoch": 13.838248436103664,
      "grad_norm": 0.0016830980312079191,
      "learning_rate": 1.3116689933753696e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53910736,
      "step": 92910
    },
    {
      "epoch": 13.838993148644622,
      "grad_norm": 0.03102707676589489,
      "learning_rate": 1.3113831172706575e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53913520,
      "step": 92915
    },
    {
      "epoch": 13.839737861185583,
      "grad_norm": 0.0011101202107965946,
      "learning_rate": 1.3110972612464207e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 53916112,
      "step": 92920
    },
    {
      "epoch": 13.840482573726542,
      "grad_norm": 0.0006803059950470924,
      "learning_rate": 1.310811425307486e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53918928,
      "step": 92925
    },
    {
      "epoch": 13.8412272862675,
      "grad_norm": 0.0007336380076594651,
      "learning_rate": 1.3105256094586849e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53921680,
      "step": 92930
    },
    {
      "epoch": 13.84197199880846,
      "grad_norm": 0.0014566516038030386,
      "learning_rate": 1.310239813704845e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53924688,
      "step": 92935
    },
    {
      "epoch": 13.84271671134942,
      "grad_norm": 0.006252900697290897,
      "learning_rate": 1.3099540380507927e-05,
      "loss": 0.0182,
      "num_input_tokens_seen": 53927632,
      "step": 92940
    },
    {
      "epoch": 13.843461423890378,
      "grad_norm": 0.0024358530063182116,
      "learning_rate": 1.3096682825013584e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53930608,
      "step": 92945
    },
    {
      "epoch": 13.844206136431337,
      "grad_norm": 0.0002114112867275253,
      "learning_rate": 1.309382547061368e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53933712,
      "step": 92950
    },
    {
      "epoch": 13.844950848972296,
      "grad_norm": 9.104018681682646e-05,
      "learning_rate": 1.3090968317356502e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53936656,
      "step": 92955
    },
    {
      "epoch": 13.845695561513256,
      "grad_norm": 0.00017842752276919782,
      "learning_rate": 1.3088111365290302e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53939600,
      "step": 92960
    },
    {
      "epoch": 13.846440274054215,
      "grad_norm": 0.0019319491693750024,
      "learning_rate": 1.3085254614463362e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53942192,
      "step": 92965
    },
    {
      "epoch": 13.847184986595174,
      "grad_norm": 4.426865780260414e-05,
      "learning_rate": 1.308239806492394e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53944976,
      "step": 92970
    },
    {
      "epoch": 13.847929699136133,
      "grad_norm": 0.0007805040222592652,
      "learning_rate": 1.3079541716720284e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53948112,
      "step": 92975
    },
    {
      "epoch": 13.848674411677093,
      "grad_norm": 0.0004982972168363631,
      "learning_rate": 1.307668556990066e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53951312,
      "step": 92980
    },
    {
      "epoch": 13.849419124218052,
      "grad_norm": 0.00034185798722319305,
      "learning_rate": 1.30738296245133e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 53954224,
      "step": 92985
    },
    {
      "epoch": 13.85016383675901,
      "grad_norm": 0.0011831241426989436,
      "learning_rate": 1.3070973880606482e-05,
      "loss": 0.139,
      "num_input_tokens_seen": 53956976,
      "step": 92990
    },
    {
      "epoch": 13.85090854929997,
      "grad_norm": 0.00046449463116005063,
      "learning_rate": 1.3068118338228425e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53959600,
      "step": 92995
    },
    {
      "epoch": 13.85165326184093,
      "grad_norm": 0.0008787371916696429,
      "learning_rate": 1.306526299742739e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53962736,
      "step": 93000
    },
    {
      "epoch": 13.852397974381889,
      "grad_norm": 0.0009063466568477452,
      "learning_rate": 1.3062407858251598e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53965520,
      "step": 93005
    },
    {
      "epoch": 13.853142686922848,
      "grad_norm": 0.006973900366574526,
      "learning_rate": 1.3059552920749301e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53968496,
      "step": 93010
    },
    {
      "epoch": 13.853887399463806,
      "grad_norm": 0.000636779295746237,
      "learning_rate": 1.3056698184968714e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 53971408,
      "step": 93015
    },
    {
      "epoch": 13.854632112004767,
      "grad_norm": 0.0006170790293253958,
      "learning_rate": 1.305384365095808e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53974672,
      "step": 93020
    },
    {
      "epoch": 13.855376824545726,
      "grad_norm": 0.0004939206410199404,
      "learning_rate": 1.305098931876562e-05,
      "loss": 0.0209,
      "num_input_tokens_seen": 53977808,
      "step": 93025
    },
    {
      "epoch": 13.856121537086684,
      "grad_norm": 31.911773681640625,
      "learning_rate": 1.3048135188439537e-05,
      "loss": 0.1076,
      "num_input_tokens_seen": 53981040,
      "step": 93030
    },
    {
      "epoch": 13.856866249627643,
      "grad_norm": 0.00033649554825387895,
      "learning_rate": 1.3045281260028075e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53983760,
      "step": 93035
    },
    {
      "epoch": 13.857610962168604,
      "grad_norm": 0.00013867966481484473,
      "learning_rate": 1.3042427533579435e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53986768,
      "step": 93040
    },
    {
      "epoch": 13.858355674709562,
      "grad_norm": 0.00010575072519714013,
      "learning_rate": 1.303957400914183e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 53989680,
      "step": 93045
    },
    {
      "epoch": 13.859100387250521,
      "grad_norm": 0.0075415619648993015,
      "learning_rate": 1.3036720686763454e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53993808,
      "step": 93050
    },
    {
      "epoch": 13.85984509979148,
      "grad_norm": 0.6103153228759766,
      "learning_rate": 1.3033867566492534e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 53996528,
      "step": 93055
    },
    {
      "epoch": 13.86058981233244,
      "grad_norm": 0.00017934877541847527,
      "learning_rate": 1.303101464837726e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 53999216,
      "step": 93060
    },
    {
      "epoch": 13.8613345248734,
      "grad_norm": 0.00023639203573111445,
      "learning_rate": 1.3028161932465815e-05,
      "loss": 0.0025,
      "num_input_tokens_seen": 54002128,
      "step": 93065
    },
    {
      "epoch": 13.862079237414358,
      "grad_norm": 0.0014738246100023389,
      "learning_rate": 1.3025309418806422e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54005200,
      "step": 93070
    },
    {
      "epoch": 13.862823949955317,
      "grad_norm": 0.09840459376573563,
      "learning_rate": 1.3022457107447244e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54007888,
      "step": 93075
    },
    {
      "epoch": 13.863568662496277,
      "grad_norm": 0.006842740345746279,
      "learning_rate": 1.3019604998436491e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54010736,
      "step": 93080
    },
    {
      "epoch": 13.864313375037236,
      "grad_norm": 0.0003225835971534252,
      "learning_rate": 1.301675309182232e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54013840,
      "step": 93085
    },
    {
      "epoch": 13.865058087578195,
      "grad_norm": 0.00011649846419459209,
      "learning_rate": 1.3013901387652941e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54016688,
      "step": 93090
    },
    {
      "epoch": 13.865802800119154,
      "grad_norm": 0.0003336239024065435,
      "learning_rate": 1.3011049885976505e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54019600,
      "step": 93095
    },
    {
      "epoch": 13.866547512660112,
      "grad_norm": 0.002605112735182047,
      "learning_rate": 1.3008198586841209e-05,
      "loss": 0.0803,
      "num_input_tokens_seen": 54022672,
      "step": 93100
    },
    {
      "epoch": 13.867292225201073,
      "grad_norm": 3.941087197745219e-05,
      "learning_rate": 1.3005347490295205e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54025712,
      "step": 93105
    },
    {
      "epoch": 13.868036937742032,
      "grad_norm": 0.03039015457034111,
      "learning_rate": 1.3002496596386666e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54028752,
      "step": 93110
    },
    {
      "epoch": 13.86878165028299,
      "grad_norm": 6.519346061395481e-05,
      "learning_rate": 1.2999645905163754e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54031440,
      "step": 93115
    },
    {
      "epoch": 13.86952636282395,
      "grad_norm": 0.00018928313511423767,
      "learning_rate": 1.2996795416674618e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54034416,
      "step": 93120
    },
    {
      "epoch": 13.87027107536491,
      "grad_norm": 0.003986450843513012,
      "learning_rate": 1.2993945130967434e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54037328,
      "step": 93125
    },
    {
      "epoch": 13.871015787905868,
      "grad_norm": 9.755976676940918,
      "learning_rate": 1.2991095048090333e-05,
      "loss": 0.0911,
      "num_input_tokens_seen": 54040080,
      "step": 93130
    },
    {
      "epoch": 13.871760500446827,
      "grad_norm": 0.007512661628425121,
      "learning_rate": 1.2988245168091485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54043216,
      "step": 93135
    },
    {
      "epoch": 13.872505212987786,
      "grad_norm": 0.001040301169268787,
      "learning_rate": 1.2985395491019029e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54046160,
      "step": 93140
    },
    {
      "epoch": 13.873249925528746,
      "grad_norm": 0.05153431370854378,
      "learning_rate": 1.2982546016921093e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54048784,
      "step": 93145
    },
    {
      "epoch": 13.873994638069705,
      "grad_norm": 0.0009645435493439436,
      "learning_rate": 1.297969674584584e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54051536,
      "step": 93150
    },
    {
      "epoch": 13.874739350610664,
      "grad_norm": 0.001914997585117817,
      "learning_rate": 1.2976847677841383e-05,
      "loss": 0.3188,
      "num_input_tokens_seen": 54054416,
      "step": 93155
    },
    {
      "epoch": 13.875484063151623,
      "grad_norm": 0.0018422615248709917,
      "learning_rate": 1.2973998812955876e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54057104,
      "step": 93160
    },
    {
      "epoch": 13.876228775692583,
      "grad_norm": 4.8601021262584254e-05,
      "learning_rate": 1.2971150151237435e-05,
      "loss": 0.2406,
      "num_input_tokens_seen": 54059792,
      "step": 93165
    },
    {
      "epoch": 13.876973488233542,
      "grad_norm": 0.015456202439963818,
      "learning_rate": 1.2968301692734187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54062512,
      "step": 93170
    },
    {
      "epoch": 13.8777182007745,
      "grad_norm": 0.02258664183318615,
      "learning_rate": 1.2965453437494243e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54065904,
      "step": 93175
    },
    {
      "epoch": 13.87846291331546,
      "grad_norm": 5.80746891500894e-05,
      "learning_rate": 1.296260538556574e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54068560,
      "step": 93180
    },
    {
      "epoch": 13.87920762585642,
      "grad_norm": 0.000184123549843207,
      "learning_rate": 1.295975753699679e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54071536,
      "step": 93185
    },
    {
      "epoch": 13.879952338397379,
      "grad_norm": 28.350929260253906,
      "learning_rate": 1.2956909891835484e-05,
      "loss": 0.0333,
      "num_input_tokens_seen": 54074448,
      "step": 93190
    },
    {
      "epoch": 13.880697050938338,
      "grad_norm": 0.002938875462859869,
      "learning_rate": 1.2954062450129959e-05,
      "loss": 0.0944,
      "num_input_tokens_seen": 54077520,
      "step": 93195
    },
    {
      "epoch": 13.881441763479296,
      "grad_norm": 41.690433502197266,
      "learning_rate": 1.2951215211928292e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 54080624,
      "step": 93200
    },
    {
      "epoch": 13.882186476020257,
      "grad_norm": 0.06286637485027313,
      "learning_rate": 1.2948368177278614e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 54083248,
      "step": 93205
    },
    {
      "epoch": 13.882931188561216,
      "grad_norm": 0.00016611428873147815,
      "learning_rate": 1.2945521346228989e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54086160,
      "step": 93210
    },
    {
      "epoch": 13.883675901102174,
      "grad_norm": 3.3652048110961914,
      "learning_rate": 1.2942674718827546e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 54089136,
      "step": 93215
    },
    {
      "epoch": 13.884420613643133,
      "grad_norm": 0.7961217761039734,
      "learning_rate": 1.2939828295122358e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54092400,
      "step": 93220
    },
    {
      "epoch": 13.885165326184094,
      "grad_norm": 0.00044111927854828537,
      "learning_rate": 1.2936982075161502e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54095472,
      "step": 93225
    },
    {
      "epoch": 13.885910038725052,
      "grad_norm": 0.0006006964831613004,
      "learning_rate": 1.2934136058993082e-05,
      "loss": 0.1131,
      "num_input_tokens_seen": 54098192,
      "step": 93230
    },
    {
      "epoch": 13.886654751266011,
      "grad_norm": 0.00134515471290797,
      "learning_rate": 1.2931290246665173e-05,
      "loss": 0.059,
      "num_input_tokens_seen": 54101008,
      "step": 93235
    },
    {
      "epoch": 13.88739946380697,
      "grad_norm": 0.0024260254576802254,
      "learning_rate": 1.2928444638225848e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54103792,
      "step": 93240
    },
    {
      "epoch": 13.88814417634793,
      "grad_norm": 0.0035746926441788673,
      "learning_rate": 1.2925599233723174e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 54106832,
      "step": 93245
    },
    {
      "epoch": 13.88888888888889,
      "grad_norm": 0.0021062809973955154,
      "learning_rate": 1.2922754033205237e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 54109840,
      "step": 93250
    },
    {
      "epoch": 13.889633601429848,
      "grad_norm": 4.43619501311332e-05,
      "learning_rate": 1.2919909036720085e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54112624,
      "step": 93255
    },
    {
      "epoch": 13.890378313970807,
      "grad_norm": 0.0018169182585552335,
      "learning_rate": 1.2917064244315802e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54115376,
      "step": 93260
    },
    {
      "epoch": 13.891123026511767,
      "grad_norm": 0.0001277243427466601,
      "learning_rate": 1.2914219656040437e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 54118096,
      "step": 93265
    },
    {
      "epoch": 13.891867739052726,
      "grad_norm": 0.007389124948531389,
      "learning_rate": 1.2911375271942042e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54121104,
      "step": 93270
    },
    {
      "epoch": 13.892612451593685,
      "grad_norm": 0.00019601223175413907,
      "learning_rate": 1.2908531092068682e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 54124016,
      "step": 93275
    },
    {
      "epoch": 13.893357164134644,
      "grad_norm": 0.0069257053546607494,
      "learning_rate": 1.290568711646839e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54126992,
      "step": 93280
    },
    {
      "epoch": 13.894101876675602,
      "grad_norm": 0.00019871952827088535,
      "learning_rate": 1.2902843345189237e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54130096,
      "step": 93285
    },
    {
      "epoch": 13.894846589216563,
      "grad_norm": 0.00042834103805944324,
      "learning_rate": 1.2899999778279235e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54132784,
      "step": 93290
    },
    {
      "epoch": 13.895591301757522,
      "grad_norm": 0.00011684254423016682,
      "learning_rate": 1.289715641578645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54135824,
      "step": 93295
    },
    {
      "epoch": 13.89633601429848,
      "grad_norm": 0.0015393689973279834,
      "learning_rate": 1.2894313257758906e-05,
      "loss": 0.0645,
      "num_input_tokens_seen": 54138992,
      "step": 93300
    },
    {
      "epoch": 13.89708072683944,
      "grad_norm": 0.0004767647187691182,
      "learning_rate": 1.2891470304244638e-05,
      "loss": 0.0109,
      "num_input_tokens_seen": 54141648,
      "step": 93305
    },
    {
      "epoch": 13.8978254393804,
      "grad_norm": 10.181825637817383,
      "learning_rate": 1.288862755529167e-05,
      "loss": 0.0299,
      "num_input_tokens_seen": 54144688,
      "step": 93310
    },
    {
      "epoch": 13.898570151921358,
      "grad_norm": 0.0003505665226839483,
      "learning_rate": 1.2885785010948023e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54147408,
      "step": 93315
    },
    {
      "epoch": 13.899314864462317,
      "grad_norm": 0.04836154356598854,
      "learning_rate": 1.2882942671261733e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54150160,
      "step": 93320
    },
    {
      "epoch": 13.900059577003276,
      "grad_norm": 12.918007850646973,
      "learning_rate": 1.2880100536280803e-05,
      "loss": 0.1253,
      "num_input_tokens_seen": 54153072,
      "step": 93325
    },
    {
      "epoch": 13.900804289544237,
      "grad_norm": 4.703045845031738,
      "learning_rate": 1.2877258606053266e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 54155792,
      "step": 93330
    },
    {
      "epoch": 13.901549002085195,
      "grad_norm": 0.0002471205370966345,
      "learning_rate": 1.2874416880627116e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54158640,
      "step": 93335
    },
    {
      "epoch": 13.902293714626154,
      "grad_norm": 0.0007691145874559879,
      "learning_rate": 1.2871575360050376e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54161456,
      "step": 93340
    },
    {
      "epoch": 13.903038427167113,
      "grad_norm": 69.86534881591797,
      "learning_rate": 1.2868734044371044e-05,
      "loss": 0.0146,
      "num_input_tokens_seen": 54164528,
      "step": 93345
    },
    {
      "epoch": 13.903783139708073,
      "grad_norm": 0.00044786313083022833,
      "learning_rate": 1.2865892933637114e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54167440,
      "step": 93350
    },
    {
      "epoch": 13.904527852249032,
      "grad_norm": 0.001177536672912538,
      "learning_rate": 1.2863052027896597e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 54170320,
      "step": 93355
    },
    {
      "epoch": 13.90527256478999,
      "grad_norm": 0.027103669941425323,
      "learning_rate": 1.2860211327197468e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54173232,
      "step": 93360
    },
    {
      "epoch": 13.90601727733095,
      "grad_norm": 0.00043328411993570626,
      "learning_rate": 1.2857370831587745e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54176432,
      "step": 93365
    },
    {
      "epoch": 13.90676198987191,
      "grad_norm": 0.0011894885683432221,
      "learning_rate": 1.28545305411154e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54179024,
      "step": 93370
    },
    {
      "epoch": 13.907506702412869,
      "grad_norm": 0.0027068443596363068,
      "learning_rate": 1.2851690455828414e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54181936,
      "step": 93375
    },
    {
      "epoch": 13.908251414953828,
      "grad_norm": 0.003501398954540491,
      "learning_rate": 1.2848850575774774e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54184848,
      "step": 93380
    },
    {
      "epoch": 13.908996127494786,
      "grad_norm": 0.0027375402860343456,
      "learning_rate": 1.2846010901002442e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 54187920,
      "step": 93385
    },
    {
      "epoch": 13.909740840035747,
      "grad_norm": 0.021170858293771744,
      "learning_rate": 1.2843171431559414e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54190736,
      "step": 93390
    },
    {
      "epoch": 13.910485552576706,
      "grad_norm": 0.0006739450618624687,
      "learning_rate": 1.284033216749364e-05,
      "loss": 0.1098,
      "num_input_tokens_seen": 54193424,
      "step": 93395
    },
    {
      "epoch": 13.911230265117664,
      "grad_norm": 0.00010864248179132119,
      "learning_rate": 1.2837493108853105e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54196272,
      "step": 93400
    },
    {
      "epoch": 13.911974977658623,
      "grad_norm": 0.00040632582386024296,
      "learning_rate": 1.2834654255685752e-05,
      "loss": 0.0053,
      "num_input_tokens_seen": 54199216,
      "step": 93405
    },
    {
      "epoch": 13.912719690199584,
      "grad_norm": 0.005514718126505613,
      "learning_rate": 1.283181560803956e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54202032,
      "step": 93410
    },
    {
      "epoch": 13.913464402740543,
      "grad_norm": 0.10695859044790268,
      "learning_rate": 1.282897716596247e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54204752,
      "step": 93415
    },
    {
      "epoch": 13.914209115281501,
      "grad_norm": 0.0011903797276318073,
      "learning_rate": 1.2826138929502446e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54207696,
      "step": 93420
    },
    {
      "epoch": 13.91495382782246,
      "grad_norm": 0.0010875173611566424,
      "learning_rate": 1.2823300898707432e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 54210640,
      "step": 93425
    },
    {
      "epoch": 13.915698540363419,
      "grad_norm": 0.001314926310442388,
      "learning_rate": 1.2820463073625367e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54213616,
      "step": 93430
    },
    {
      "epoch": 13.91644325290438,
      "grad_norm": 0.0002865763381123543,
      "learning_rate": 1.2817625454304204e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54216336,
      "step": 93435
    },
    {
      "epoch": 13.917187965445338,
      "grad_norm": 0.002534843748435378,
      "learning_rate": 1.281478804079188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54219408,
      "step": 93440
    },
    {
      "epoch": 13.917932677986297,
      "grad_norm": 0.0013585910201072693,
      "learning_rate": 1.2811950833136332e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54222320,
      "step": 93445
    },
    {
      "epoch": 13.918677390527257,
      "grad_norm": 0.00021391546761151403,
      "learning_rate": 1.2809113831385472e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 54225520,
      "step": 93450
    },
    {
      "epoch": 13.919422103068216,
      "grad_norm": 0.0030427766032516956,
      "learning_rate": 1.2806277035587256e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54228720,
      "step": 93455
    },
    {
      "epoch": 13.920166815609175,
      "grad_norm": 0.0050892275758087635,
      "learning_rate": 1.2803440445789594e-05,
      "loss": 0.0883,
      "num_input_tokens_seen": 54231472,
      "step": 93460
    },
    {
      "epoch": 13.920911528150134,
      "grad_norm": 0.3842320442199707,
      "learning_rate": 1.2800604062040403e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54234160,
      "step": 93465
    },
    {
      "epoch": 13.921656240691092,
      "grad_norm": 0.0017963965656235814,
      "learning_rate": 1.2797767884387615e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54237296,
      "step": 93470
    },
    {
      "epoch": 13.922400953232053,
      "grad_norm": 0.002841751091182232,
      "learning_rate": 1.2794931912879127e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54240112,
      "step": 93475
    },
    {
      "epoch": 13.923145665773012,
      "grad_norm": 7.6273512840271,
      "learning_rate": 1.2792096147562872e-05,
      "loss": 0.095,
      "num_input_tokens_seen": 54243056,
      "step": 93480
    },
    {
      "epoch": 13.92389037831397,
      "grad_norm": 0.19906938076019287,
      "learning_rate": 1.2789260588486735e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 54246032,
      "step": 93485
    },
    {
      "epoch": 13.92463509085493,
      "grad_norm": 0.0006895759725011885,
      "learning_rate": 1.2786425235698634e-05,
      "loss": 0.0649,
      "num_input_tokens_seen": 54249104,
      "step": 93490
    },
    {
      "epoch": 13.92537980339589,
      "grad_norm": 0.0032803183421492577,
      "learning_rate": 1.2783590089246473e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54251856,
      "step": 93495
    },
    {
      "epoch": 13.926124515936849,
      "grad_norm": 0.0012062775203958154,
      "learning_rate": 1.2780755149178136e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54254640,
      "step": 93500
    },
    {
      "epoch": 13.926869228477807,
      "grad_norm": 0.00023014858015812933,
      "learning_rate": 1.2777920415541514e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 54257648,
      "step": 93505
    },
    {
      "epoch": 13.927613941018766,
      "grad_norm": 0.03295520693063736,
      "learning_rate": 1.2775085888384514e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54260784,
      "step": 93510
    },
    {
      "epoch": 13.928358653559727,
      "grad_norm": 2.3810443963157013e-05,
      "learning_rate": 1.2772251567755011e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 54263504,
      "step": 93515
    },
    {
      "epoch": 13.929103366100685,
      "grad_norm": 0.0016645867144688964,
      "learning_rate": 1.2769417453700882e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 54266416,
      "step": 93520
    },
    {
      "epoch": 13.929848078641644,
      "grad_norm": 0.13222594559192657,
      "learning_rate": 1.2766583546270027e-05,
      "loss": 0.0307,
      "num_input_tokens_seen": 54269584,
      "step": 93525
    },
    {
      "epoch": 13.930592791182603,
      "grad_norm": 0.00036631643888540566,
      "learning_rate": 1.2763749845510297e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54272208,
      "step": 93530
    },
    {
      "epoch": 13.931337503723563,
      "grad_norm": 0.0005828485009260476,
      "learning_rate": 1.2760916351469588e-05,
      "loss": 0.1442,
      "num_input_tokens_seen": 54275088,
      "step": 93535
    },
    {
      "epoch": 13.932082216264522,
      "grad_norm": 0.005863303784281015,
      "learning_rate": 1.2758083064195756e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54277840,
      "step": 93540
    },
    {
      "epoch": 13.932826928805481,
      "grad_norm": 0.003245924599468708,
      "learning_rate": 1.2755249983736662e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54280816,
      "step": 93545
    },
    {
      "epoch": 13.93357164134644,
      "grad_norm": 0.002002463908866048,
      "learning_rate": 1.275241711014018e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 54283760,
      "step": 93550
    },
    {
      "epoch": 13.9343163538874,
      "grad_norm": 0.0007354693952947855,
      "learning_rate": 1.2749584443454154e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54286960,
      "step": 93555
    },
    {
      "epoch": 13.935061066428359,
      "grad_norm": 0.006735955830663443,
      "learning_rate": 1.2746751983726459e-05,
      "loss": 0.0132,
      "num_input_tokens_seen": 54290064,
      "step": 93560
    },
    {
      "epoch": 13.935805778969318,
      "grad_norm": 0.00011433136387495324,
      "learning_rate": 1.2743919731004938e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54292720,
      "step": 93565
    },
    {
      "epoch": 13.936550491510276,
      "grad_norm": 0.010065348818898201,
      "learning_rate": 1.2741087685337432e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54295664,
      "step": 93570
    },
    {
      "epoch": 13.937295204051237,
      "grad_norm": 0.002207273617386818,
      "learning_rate": 1.2738255846771785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54298672,
      "step": 93575
    },
    {
      "epoch": 13.938039916592196,
      "grad_norm": 0.002144038677215576,
      "learning_rate": 1.273542421535585e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54301840,
      "step": 93580
    },
    {
      "epoch": 13.938784629133155,
      "grad_norm": 0.005982554983347654,
      "learning_rate": 1.273259279113746e-05,
      "loss": 0.2,
      "num_input_tokens_seen": 54304656,
      "step": 93585
    },
    {
      "epoch": 13.939529341674113,
      "grad_norm": 418.8013916015625,
      "learning_rate": 1.2729761574164434e-05,
      "loss": 0.0452,
      "num_input_tokens_seen": 54307664,
      "step": 93590
    },
    {
      "epoch": 13.940274054215074,
      "grad_norm": 9.07679132069461e-05,
      "learning_rate": 1.2726930564484627e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54310512,
      "step": 93595
    },
    {
      "epoch": 13.941018766756033,
      "grad_norm": 0.0010225086007267237,
      "learning_rate": 1.2724099762145841e-05,
      "loss": 0.0599,
      "num_input_tokens_seen": 54313392,
      "step": 93600
    },
    {
      "epoch": 13.941763479296991,
      "grad_norm": 0.012087401933968067,
      "learning_rate": 1.2721269167195926e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54316656,
      "step": 93605
    },
    {
      "epoch": 13.94250819183795,
      "grad_norm": 4.987241936760256e-06,
      "learning_rate": 1.2718438779682678e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54319472,
      "step": 93610
    },
    {
      "epoch": 13.943252904378909,
      "grad_norm": 6.828793266322464e-05,
      "learning_rate": 1.2715608599653938e-05,
      "loss": 0.294,
      "num_input_tokens_seen": 54322352,
      "step": 93615
    },
    {
      "epoch": 13.94399761691987,
      "grad_norm": 0.012749784626066685,
      "learning_rate": 1.271277862715749e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54325008,
      "step": 93620
    },
    {
      "epoch": 13.944742329460828,
      "grad_norm": 0.003987991251051426,
      "learning_rate": 1.2709948862241173e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54327920,
      "step": 93625
    },
    {
      "epoch": 13.945487042001787,
      "grad_norm": 0.0726085975766182,
      "learning_rate": 1.2707119304952777e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54330928,
      "step": 93630
    },
    {
      "epoch": 13.946231754542747,
      "grad_norm": 0.0003213661548215896,
      "learning_rate": 1.2704289955340107e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54333904,
      "step": 93635
    },
    {
      "epoch": 13.946976467083706,
      "grad_norm": 0.0002763425000011921,
      "learning_rate": 1.270146081345096e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54336752,
      "step": 93640
    },
    {
      "epoch": 13.947721179624665,
      "grad_norm": 2.077603312500287e-05,
      "learning_rate": 1.2698631879333126e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54339856,
      "step": 93645
    },
    {
      "epoch": 13.948465892165624,
      "grad_norm": 0.004298088140785694,
      "learning_rate": 1.2695803153034411e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54343088,
      "step": 93650
    },
    {
      "epoch": 13.949210604706582,
      "grad_norm": 0.0012724774423986673,
      "learning_rate": 1.2692974634602586e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54345872,
      "step": 93655
    },
    {
      "epoch": 13.949955317247543,
      "grad_norm": 0.16569678485393524,
      "learning_rate": 1.2690146324085458e-05,
      "loss": 0.0887,
      "num_input_tokens_seen": 54348752,
      "step": 93660
    },
    {
      "epoch": 13.950700029788502,
      "grad_norm": 0.00024869630578905344,
      "learning_rate": 1.2687318221530797e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54351440,
      "step": 93665
    },
    {
      "epoch": 13.95144474232946,
      "grad_norm": 0.0007863632636144757,
      "learning_rate": 1.268449032698637e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54354608,
      "step": 93670
    },
    {
      "epoch": 13.95218945487042,
      "grad_norm": 26.346576690673828,
      "learning_rate": 1.2681662640499969e-05,
      "loss": 0.0921,
      "num_input_tokens_seen": 54358032,
      "step": 93675
    },
    {
      "epoch": 13.95293416741138,
      "grad_norm": 0.00037097238237038255,
      "learning_rate": 1.2678835162119352e-05,
      "loss": 0.0886,
      "num_input_tokens_seen": 54361168,
      "step": 93680
    },
    {
      "epoch": 13.953678879952339,
      "grad_norm": 0.00795258954167366,
      "learning_rate": 1.26760078918923e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54364016,
      "step": 93685
    },
    {
      "epoch": 13.954423592493297,
      "grad_norm": 0.009138674475252628,
      "learning_rate": 1.267318082986656e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54366992,
      "step": 93690
    },
    {
      "epoch": 13.955168305034256,
      "grad_norm": 0.00022497451573144644,
      "learning_rate": 1.267035397608991e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54369840,
      "step": 93695
    },
    {
      "epoch": 13.955913017575217,
      "grad_norm": 0.0001961808738997206,
      "learning_rate": 1.2667527330610101e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54372656,
      "step": 93700
    },
    {
      "epoch": 13.956657730116175,
      "grad_norm": 0.0008206850034184754,
      "learning_rate": 1.2664700893474884e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54375408,
      "step": 93705
    },
    {
      "epoch": 13.957402442657134,
      "grad_norm": 0.4616507291793823,
      "learning_rate": 1.2661874664732004e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 54378224,
      "step": 93710
    },
    {
      "epoch": 13.958147155198093,
      "grad_norm": 0.00067116878926754,
      "learning_rate": 1.2659048644429205e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54381168,
      "step": 93715
    },
    {
      "epoch": 13.958891867739053,
      "grad_norm": 0.0035740225575864315,
      "learning_rate": 1.2656222832614245e-05,
      "loss": 0.2344,
      "num_input_tokens_seen": 54384272,
      "step": 93720
    },
    {
      "epoch": 13.959636580280012,
      "grad_norm": 0.002542719943448901,
      "learning_rate": 1.2653397229334846e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54386832,
      "step": 93725
    },
    {
      "epoch": 13.960381292820971,
      "grad_norm": 0.0014732169220224023,
      "learning_rate": 1.2650571834638764e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54389808,
      "step": 93730
    },
    {
      "epoch": 13.96112600536193,
      "grad_norm": 0.0010792207904160023,
      "learning_rate": 1.2647746648573705e-05,
      "loss": 0.0122,
      "num_input_tokens_seen": 54392816,
      "step": 93735
    },
    {
      "epoch": 13.96187071790289,
      "grad_norm": 0.033921051770448685,
      "learning_rate": 1.2644921671187424e-05,
      "loss": 0.1243,
      "num_input_tokens_seen": 54395472,
      "step": 93740
    },
    {
      "epoch": 13.962615430443849,
      "grad_norm": 0.020870551466941833,
      "learning_rate": 1.2642096902527633e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54398416,
      "step": 93745
    },
    {
      "epoch": 13.963360142984808,
      "grad_norm": 0.0016408959636464715,
      "learning_rate": 1.2639272342642047e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54401392,
      "step": 93750
    },
    {
      "epoch": 13.964104855525767,
      "grad_norm": 0.004313620273023844,
      "learning_rate": 1.2636447991578401e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54404112,
      "step": 93755
    },
    {
      "epoch": 13.964849568066727,
      "grad_norm": 0.0006626865942962468,
      "learning_rate": 1.263362384938439e-05,
      "loss": 0.0533,
      "num_input_tokens_seen": 54406928,
      "step": 93760
    },
    {
      "epoch": 13.965594280607686,
      "grad_norm": 0.0014931400073692203,
      "learning_rate": 1.2630799916107747e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54409744,
      "step": 93765
    },
    {
      "epoch": 13.966338993148645,
      "grad_norm": 0.0054401131346821785,
      "learning_rate": 1.2627976191796165e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54412688,
      "step": 93770
    },
    {
      "epoch": 13.967083705689603,
      "grad_norm": 5.309205153025687e-05,
      "learning_rate": 1.2625152676497354e-05,
      "loss": 0.1304,
      "num_input_tokens_seen": 54415408,
      "step": 93775
    },
    {
      "epoch": 13.967828418230564,
      "grad_norm": 0.005029081366956234,
      "learning_rate": 1.2622329370259001e-05,
      "loss": 0.2849,
      "num_input_tokens_seen": 54418192,
      "step": 93780
    },
    {
      "epoch": 13.968573130771523,
      "grad_norm": 0.005640347022563219,
      "learning_rate": 1.261950627312882e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 54421104,
      "step": 93785
    },
    {
      "epoch": 13.969317843312481,
      "grad_norm": 0.0008889377932064235,
      "learning_rate": 1.2616683385154498e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 54424176,
      "step": 93790
    },
    {
      "epoch": 13.97006255585344,
      "grad_norm": 0.0030528635252267122,
      "learning_rate": 1.2613860706383718e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54427024,
      "step": 93795
    },
    {
      "epoch": 13.970807268394399,
      "grad_norm": 0.00030812123441137373,
      "learning_rate": 1.261103823686418e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54429808,
      "step": 93800
    },
    {
      "epoch": 13.97155198093536,
      "grad_norm": 0.7032984495162964,
      "learning_rate": 1.260821597664355e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 54432624,
      "step": 93805
    },
    {
      "epoch": 13.972296693476318,
      "grad_norm": 0.02029040828347206,
      "learning_rate": 1.2605393925769526e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54435472,
      "step": 93810
    },
    {
      "epoch": 13.973041406017277,
      "grad_norm": 0.0029279026202857494,
      "learning_rate": 1.2602572084289765e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54438512,
      "step": 93815
    },
    {
      "epoch": 13.973786118558236,
      "grad_norm": 0.026183845475316048,
      "learning_rate": 1.259975045225196e-05,
      "loss": 0.0888,
      "num_input_tokens_seen": 54441456,
      "step": 93820
    },
    {
      "epoch": 13.974530831099196,
      "grad_norm": 0.2045011967420578,
      "learning_rate": 1.2596929029703766e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 54444080,
      "step": 93825
    },
    {
      "epoch": 13.975275543640155,
      "grad_norm": 5.336979866027832,
      "learning_rate": 1.2594107816692852e-05,
      "loss": 0.0107,
      "num_input_tokens_seen": 54447024,
      "step": 93830
    },
    {
      "epoch": 13.976020256181114,
      "grad_norm": 0.004301967099308968,
      "learning_rate": 1.2591286813266867e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54449776,
      "step": 93835
    },
    {
      "epoch": 13.976764968722073,
      "grad_norm": 0.006330661941319704,
      "learning_rate": 1.2588466019473488e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54452720,
      "step": 93840
    },
    {
      "epoch": 13.977509681263033,
      "grad_norm": 0.007955343462526798,
      "learning_rate": 1.2585645435360361e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54455888,
      "step": 93845
    },
    {
      "epoch": 13.978254393803992,
      "grad_norm": 154.35952758789062,
      "learning_rate": 1.2582825060975128e-05,
      "loss": 0.0619,
      "num_input_tokens_seen": 54458800,
      "step": 93850
    },
    {
      "epoch": 13.97899910634495,
      "grad_norm": 0.015140010043978691,
      "learning_rate": 1.2580004896365455e-05,
      "loss": 0.0737,
      "num_input_tokens_seen": 54461584,
      "step": 93855
    },
    {
      "epoch": 13.97974381888591,
      "grad_norm": 0.004107784479856491,
      "learning_rate": 1.2577184941578968e-05,
      "loss": 0.0052,
      "num_input_tokens_seen": 54464208,
      "step": 93860
    },
    {
      "epoch": 13.98048853142687,
      "grad_norm": 0.0022243785206228495,
      "learning_rate": 1.2574365196663324e-05,
      "loss": 0.0247,
      "num_input_tokens_seen": 54467216,
      "step": 93865
    },
    {
      "epoch": 13.981233243967829,
      "grad_norm": 0.0011303015053272247,
      "learning_rate": 1.2571545661666151e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54470032,
      "step": 93870
    },
    {
      "epoch": 13.981977956508787,
      "grad_norm": 0.14294376969337463,
      "learning_rate": 1.2568726336635073e-05,
      "loss": 0.0722,
      "num_input_tokens_seen": 54473072,
      "step": 93875
    },
    {
      "epoch": 13.982722669049746,
      "grad_norm": 9.01836683624424e-05,
      "learning_rate": 1.2565907221617738e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54476112,
      "step": 93880
    },
    {
      "epoch": 13.983467381590707,
      "grad_norm": 0.015084082260727882,
      "learning_rate": 1.2563088316661753e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54479248,
      "step": 93885
    },
    {
      "epoch": 13.984212094131665,
      "grad_norm": 0.0017738526221364737,
      "learning_rate": 1.256026962181476e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54482032,
      "step": 93890
    },
    {
      "epoch": 13.984956806672624,
      "grad_norm": 0.02435063011944294,
      "learning_rate": 1.255745113712437e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54484880,
      "step": 93895
    },
    {
      "epoch": 13.985701519213583,
      "grad_norm": 0.0011407557176426053,
      "learning_rate": 1.2554632862638197e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54487472,
      "step": 93900
    },
    {
      "epoch": 13.986446231754543,
      "grad_norm": 0.0004710568755399436,
      "learning_rate": 1.2551814798403851e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54490000,
      "step": 93905
    },
    {
      "epoch": 13.987190944295502,
      "grad_norm": 0.06157413497567177,
      "learning_rate": 1.2548996944468935e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54492752,
      "step": 93910
    },
    {
      "epoch": 13.987935656836461,
      "grad_norm": 0.001242538564838469,
      "learning_rate": 1.254617930088107e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54495792,
      "step": 93915
    },
    {
      "epoch": 13.98868036937742,
      "grad_norm": 0.11969885975122452,
      "learning_rate": 1.2543361867687836e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54499120,
      "step": 93920
    },
    {
      "epoch": 13.98942508191838,
      "grad_norm": 0.0025060034822672606,
      "learning_rate": 1.2540544644936858e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54502416,
      "step": 93925
    },
    {
      "epoch": 13.990169794459339,
      "grad_norm": 0.27505967020988464,
      "learning_rate": 1.2537727632675699e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54505328,
      "step": 93930
    },
    {
      "epoch": 13.990914507000298,
      "grad_norm": 0.0002366935514146462,
      "learning_rate": 1.253491083095198e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54508336,
      "step": 93935
    },
    {
      "epoch": 13.991659219541257,
      "grad_norm": 0.0014863753458485007,
      "learning_rate": 1.253209423981326e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54511152,
      "step": 93940
    },
    {
      "epoch": 13.992403932082215,
      "grad_norm": 0.5104062557220459,
      "learning_rate": 1.2529277859307148e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 54514000,
      "step": 93945
    },
    {
      "epoch": 13.993148644623176,
      "grad_norm": 0.0011654257541522384,
      "learning_rate": 1.2526461689481212e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54516816,
      "step": 93950
    },
    {
      "epoch": 13.993893357164135,
      "grad_norm": 0.0028049820102751255,
      "learning_rate": 1.2523645730383018e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54520080,
      "step": 93955
    },
    {
      "epoch": 13.994638069705093,
      "grad_norm": 0.08739592134952545,
      "learning_rate": 1.2520829982060162e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54522768,
      "step": 93960
    },
    {
      "epoch": 13.995382782246054,
      "grad_norm": 0.001678007422015071,
      "learning_rate": 1.2518014444560195e-05,
      "loss": 0.1691,
      "num_input_tokens_seen": 54525904,
      "step": 93965
    },
    {
      "epoch": 13.996127494787013,
      "grad_norm": 0.0004972622846253216,
      "learning_rate": 1.251519911793069e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54528944,
      "step": 93970
    },
    {
      "epoch": 13.996872207327971,
      "grad_norm": 0.0009095519781112671,
      "learning_rate": 1.2512384002219196e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 54531696,
      "step": 93975
    },
    {
      "epoch": 13.99761691986893,
      "grad_norm": 0.0002594768884591758,
      "learning_rate": 1.2509569097473295e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54534576,
      "step": 93980
    },
    {
      "epoch": 13.998361632409889,
      "grad_norm": 0.00012922038149554282,
      "learning_rate": 1.2506754403740529e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 54537616,
      "step": 93985
    },
    {
      "epoch": 13.99910634495085,
      "grad_norm": 0.19217756390571594,
      "learning_rate": 1.2503939921068435e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54540400,
      "step": 93990
    },
    {
      "epoch": 13.999851057491808,
      "grad_norm": 0.0003540492616593838,
      "learning_rate": 1.2501125649504591e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54543152,
      "step": 93995
    },
    {
      "epoch": 14.0,
      "eval_loss": 2.3546009063720703,
      "eval_runtime": 49.1905,
      "eval_samples_per_second": 60.662,
      "eval_steps_per_second": 15.166,
      "num_input_tokens_seen": 54543272,
      "step": 93996
    },
    {
      "epoch": 14.000595770032767,
      "grad_norm": 0.00027509708888828754,
      "learning_rate": 1.2498311589096514e-05,
      "loss": 0.0045,
      "num_input_tokens_seen": 54545608,
      "step": 94000
    },
    {
      "epoch": 14.001340482573726,
      "grad_norm": 0.0008005354320630431,
      "learning_rate": 1.2495497739891764e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54548488,
      "step": 94005
    },
    {
      "epoch": 14.002085195114686,
      "grad_norm": 0.0046088979579508305,
      "learning_rate": 1.2492684101937865e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54551528,
      "step": 94010
    },
    {
      "epoch": 14.002829907655645,
      "grad_norm": 9.350919572170824e-05,
      "learning_rate": 1.2489870675282364e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54554760,
      "step": 94015
    },
    {
      "epoch": 14.003574620196604,
      "grad_norm": 0.00012652591976802796,
      "learning_rate": 1.2487057459972775e-05,
      "loss": 0.0285,
      "num_input_tokens_seen": 54557800,
      "step": 94020
    },
    {
      "epoch": 14.004319332737563,
      "grad_norm": 0.0003884135512635112,
      "learning_rate": 1.248424445605664e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54560808,
      "step": 94025
    },
    {
      "epoch": 14.005064045278523,
      "grad_norm": 0.0004607804003171623,
      "learning_rate": 1.2481431663581474e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54563720,
      "step": 94030
    },
    {
      "epoch": 14.005808757819482,
      "grad_norm": 0.0004897909821011126,
      "learning_rate": 1.24786190825948e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 54566792,
      "step": 94035
    },
    {
      "epoch": 14.00655347036044,
      "grad_norm": 0.004694101866334677,
      "learning_rate": 1.2475806713144128e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54569640,
      "step": 94040
    },
    {
      "epoch": 14.0072981829014,
      "grad_norm": 0.0006459323922172189,
      "learning_rate": 1.2472994555276964e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54572680,
      "step": 94045
    },
    {
      "epoch": 14.00804289544236,
      "grad_norm": 0.30272024869918823,
      "learning_rate": 1.2470182609040833e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54575496,
      "step": 94050
    },
    {
      "epoch": 14.008787607983319,
      "grad_norm": 0.003269805107265711,
      "learning_rate": 1.2467370874483225e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54578312,
      "step": 94055
    },
    {
      "epoch": 14.009532320524277,
      "grad_norm": 0.00022220297250896692,
      "learning_rate": 1.2464559351651658e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54581576,
      "step": 94060
    },
    {
      "epoch": 14.010277033065236,
      "grad_norm": 0.005246713757514954,
      "learning_rate": 1.2461748040593621e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54584616,
      "step": 94065
    },
    {
      "epoch": 14.011021745606197,
      "grad_norm": 5.467968003358692e-05,
      "learning_rate": 1.2458936941356594e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54587848,
      "step": 94070
    },
    {
      "epoch": 14.011766458147155,
      "grad_norm": 0.00036398560041561723,
      "learning_rate": 1.2456126053988093e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54590568,
      "step": 94075
    },
    {
      "epoch": 14.012511170688114,
      "grad_norm": 0.0001688578340690583,
      "learning_rate": 1.2453315378535584e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 54593096,
      "step": 94080
    },
    {
      "epoch": 14.013255883229073,
      "grad_norm": 0.00016164507542271167,
      "learning_rate": 1.245050491504657e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54595752,
      "step": 94085
    },
    {
      "epoch": 14.014000595770034,
      "grad_norm": 0.0017948726890608668,
      "learning_rate": 1.2447694663568509e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 54599240,
      "step": 94090
    },
    {
      "epoch": 14.014745308310992,
      "grad_norm": 0.000414688722230494,
      "learning_rate": 1.24448846241489e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54602184,
      "step": 94095
    },
    {
      "epoch": 14.015490020851951,
      "grad_norm": 0.0003728627343662083,
      "learning_rate": 1.2442074796835206e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54604712,
      "step": 94100
    },
    {
      "epoch": 14.01623473339291,
      "grad_norm": 0.0006506691570393741,
      "learning_rate": 1.2439265181674895e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54607784,
      "step": 94105
    },
    {
      "epoch": 14.01697944593387,
      "grad_norm": 0.0007973936153575778,
      "learning_rate": 1.2436455778715431e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 54610792,
      "step": 94110
    },
    {
      "epoch": 14.017724158474829,
      "grad_norm": 0.0026655213441699743,
      "learning_rate": 1.2433646588004266e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54613384,
      "step": 94115
    },
    {
      "epoch": 14.018468871015788,
      "grad_norm": 0.000614403747022152,
      "learning_rate": 1.2430837609588883e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54616328,
      "step": 94120
    },
    {
      "epoch": 14.019213583556747,
      "grad_norm": 0.0003544836363289505,
      "learning_rate": 1.2428028843516715e-05,
      "loss": 0.1446,
      "num_input_tokens_seen": 54619112,
      "step": 94125
    },
    {
      "epoch": 14.019958296097707,
      "grad_norm": 0.0005131497164256871,
      "learning_rate": 1.2425220289835229e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54622120,
      "step": 94130
    },
    {
      "epoch": 14.020703008638666,
      "grad_norm": 0.0038418862968683243,
      "learning_rate": 1.2422411948591855e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 54624904,
      "step": 94135
    },
    {
      "epoch": 14.021447721179625,
      "grad_norm": 0.0010482671204954386,
      "learning_rate": 1.241960381983406e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54627848,
      "step": 94140
    },
    {
      "epoch": 14.022192433720583,
      "grad_norm": 0.00010429758549435064,
      "learning_rate": 1.2416795903609274e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54630568,
      "step": 94145
    },
    {
      "epoch": 14.022937146261542,
      "grad_norm": 0.6958887577056885,
      "learning_rate": 1.2413988199964918e-05,
      "loss": 0.0017,
      "num_input_tokens_seen": 54633416,
      "step": 94150
    },
    {
      "epoch": 14.023681858802503,
      "grad_norm": 0.0005676140426658094,
      "learning_rate": 1.2411180708948453e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54636232,
      "step": 94155
    },
    {
      "epoch": 14.024426571343461,
      "grad_norm": 0.0015438107075169683,
      "learning_rate": 1.2408373430607296e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54639272,
      "step": 94160
    },
    {
      "epoch": 14.02517128388442,
      "grad_norm": 0.008821424096822739,
      "learning_rate": 1.2405566364988857e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54642344,
      "step": 94165
    },
    {
      "epoch": 14.025915996425379,
      "grad_norm": 0.8764439225196838,
      "learning_rate": 1.2402759512140588e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54645736,
      "step": 94170
    },
    {
      "epoch": 14.02666070896634,
      "grad_norm": 0.0002823987742885947,
      "learning_rate": 1.2399952872109893e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54648872,
      "step": 94175
    },
    {
      "epoch": 14.027405421507298,
      "grad_norm": 0.009257431142032146,
      "learning_rate": 1.239714644494418e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54651816,
      "step": 94180
    },
    {
      "epoch": 14.028150134048257,
      "grad_norm": 9.608703294361476e-06,
      "learning_rate": 1.2394340230690877e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54654568,
      "step": 94185
    },
    {
      "epoch": 14.028894846589216,
      "grad_norm": 0.0005313444999046624,
      "learning_rate": 1.2391534229397384e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54657544,
      "step": 94190
    },
    {
      "epoch": 14.029639559130176,
      "grad_norm": 0.0015734925400465727,
      "learning_rate": 1.2388728441111095e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 54660648,
      "step": 94195
    },
    {
      "epoch": 14.030384271671135,
      "grad_norm": 0.002812237711623311,
      "learning_rate": 1.2385922865879432e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54663720,
      "step": 94200
    },
    {
      "epoch": 14.031128984212094,
      "grad_norm": 0.18839234113693237,
      "learning_rate": 1.2383117503749769e-05,
      "loss": 0.027,
      "num_input_tokens_seen": 54666568,
      "step": 94205
    },
    {
      "epoch": 14.031873696753053,
      "grad_norm": 0.0006851388025097549,
      "learning_rate": 1.2380312354769526e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 54669384,
      "step": 94210
    },
    {
      "epoch": 14.032618409294013,
      "grad_norm": 0.00016804534243419766,
      "learning_rate": 1.2377507418986071e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 54672168,
      "step": 94215
    },
    {
      "epoch": 14.033363121834972,
      "grad_norm": 0.0004774332919623703,
      "learning_rate": 1.2374702696446806e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54674920,
      "step": 94220
    },
    {
      "epoch": 14.03410783437593,
      "grad_norm": 0.0012368470197543502,
      "learning_rate": 1.2371898187199108e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54677608,
      "step": 94225
    },
    {
      "epoch": 14.03485254691689,
      "grad_norm": 0.003343326272442937,
      "learning_rate": 1.2369093891290357e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54681000,
      "step": 94230
    },
    {
      "epoch": 14.03559725945785,
      "grad_norm": 0.0002765250683296472,
      "learning_rate": 1.2366289808767926e-05,
      "loss": 0.056,
      "num_input_tokens_seen": 54683752,
      "step": 94235
    },
    {
      "epoch": 14.036341971998809,
      "grad_norm": 0.003790050046518445,
      "learning_rate": 1.2363485939679175e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54686856,
      "step": 94240
    },
    {
      "epoch": 14.037086684539767,
      "grad_norm": 0.08377483487129211,
      "learning_rate": 1.23606822840715e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54689832,
      "step": 94245
    },
    {
      "epoch": 14.037831397080726,
      "grad_norm": 0.00017771022976376116,
      "learning_rate": 1.2357878841992243e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54692872,
      "step": 94250
    },
    {
      "epoch": 14.038576109621687,
      "grad_norm": 0.007418145425617695,
      "learning_rate": 1.2355075613488782e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54695848,
      "step": 94255
    },
    {
      "epoch": 14.039320822162646,
      "grad_norm": 0.0085032619535923,
      "learning_rate": 1.2352272598608455e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54698632,
      "step": 94260
    },
    {
      "epoch": 14.040065534703604,
      "grad_norm": 0.0011012721806764603,
      "learning_rate": 1.234946979739864e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54701640,
      "step": 94265
    },
    {
      "epoch": 14.040810247244563,
      "grad_norm": 0.0005040950491093099,
      "learning_rate": 1.2346667209906677e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54704808,
      "step": 94270
    },
    {
      "epoch": 14.041554959785524,
      "grad_norm": 0.0003899829462170601,
      "learning_rate": 1.23438648361799e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54707848,
      "step": 94275
    },
    {
      "epoch": 14.042299672326482,
      "grad_norm": 0.0008677493315190077,
      "learning_rate": 1.2341062676265671e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54710728,
      "step": 94280
    },
    {
      "epoch": 14.043044384867441,
      "grad_norm": 12.754081726074219,
      "learning_rate": 1.2338260730211316e-05,
      "loss": 0.29,
      "num_input_tokens_seen": 54713608,
      "step": 94285
    },
    {
      "epoch": 14.0437890974084,
      "grad_norm": 0.0013249216135591269,
      "learning_rate": 1.2335458998064184e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54716616,
      "step": 94290
    },
    {
      "epoch": 14.04453380994936,
      "grad_norm": 0.011656936258077621,
      "learning_rate": 1.23326574798716e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54719496,
      "step": 94295
    },
    {
      "epoch": 14.04527852249032,
      "grad_norm": 0.028756078332662582,
      "learning_rate": 1.2329856175680896e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54722056,
      "step": 94300
    },
    {
      "epoch": 14.046023235031278,
      "grad_norm": 0.0005648797377943993,
      "learning_rate": 1.2327055085539382e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54724712,
      "step": 94305
    },
    {
      "epoch": 14.046767947572237,
      "grad_norm": 0.00045985777978785336,
      "learning_rate": 1.2324254209494405e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54727624,
      "step": 94310
    },
    {
      "epoch": 14.047512660113195,
      "grad_norm": 0.0001488527050241828,
      "learning_rate": 1.2321453547593267e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54730632,
      "step": 94315
    },
    {
      "epoch": 14.048257372654156,
      "grad_norm": 0.0002769142447505146,
      "learning_rate": 1.2318653099883278e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54733864,
      "step": 94320
    },
    {
      "epoch": 14.049002085195115,
      "grad_norm": 0.051457785069942474,
      "learning_rate": 1.2315852866411767e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54736584,
      "step": 94325
    },
    {
      "epoch": 14.049746797736073,
      "grad_norm": 0.0030927073676139116,
      "learning_rate": 1.2313052847226018e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54739368,
      "step": 94330
    },
    {
      "epoch": 14.050491510277032,
      "grad_norm": 0.0009509492665529251,
      "learning_rate": 1.2310253042373356e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54742024,
      "step": 94335
    },
    {
      "epoch": 14.051236222817993,
      "grad_norm": 2.630210292409174e-05,
      "learning_rate": 1.2307453451901063e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54744872,
      "step": 94340
    },
    {
      "epoch": 14.051980935358952,
      "grad_norm": 0.0034538668114691973,
      "learning_rate": 1.2304654075856452e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54747848,
      "step": 94345
    },
    {
      "epoch": 14.05272564789991,
      "grad_norm": 0.00010630999895511195,
      "learning_rate": 1.2301854914286812e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 54750792,
      "step": 94350
    },
    {
      "epoch": 14.053470360440869,
      "grad_norm": 2.9088405426591635e-05,
      "learning_rate": 1.2299055967239415e-05,
      "loss": 0.0394,
      "num_input_tokens_seen": 54753736,
      "step": 94355
    },
    {
      "epoch": 14.05421507298183,
      "grad_norm": 0.04349831864237785,
      "learning_rate": 1.2296257234761566e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54756488,
      "step": 94360
    },
    {
      "epoch": 14.054959785522788,
      "grad_norm": 0.0032973294146358967,
      "learning_rate": 1.2293458716900543e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54759624,
      "step": 94365
    },
    {
      "epoch": 14.055704498063747,
      "grad_norm": 0.00012375795631669462,
      "learning_rate": 1.229066041370362e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54762728,
      "step": 94370
    },
    {
      "epoch": 14.056449210604706,
      "grad_norm": 0.0008503093849867582,
      "learning_rate": 1.228786232521806e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54765544,
      "step": 94375
    },
    {
      "epoch": 14.057193923145666,
      "grad_norm": 0.3011794984340668,
      "learning_rate": 1.2285064451491157e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54768200,
      "step": 94380
    },
    {
      "epoch": 14.057938635686625,
      "grad_norm": 0.003516700118780136,
      "learning_rate": 1.2282266792570158e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54771144,
      "step": 94385
    },
    {
      "epoch": 14.058683348227584,
      "grad_norm": 4.581915378570557,
      "learning_rate": 1.2279469348502345e-05,
      "loss": 0.045,
      "num_input_tokens_seen": 54774120,
      "step": 94390
    },
    {
      "epoch": 14.059428060768543,
      "grad_norm": 0.0003580833144951612,
      "learning_rate": 1.227667211933497e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54776968,
      "step": 94395
    },
    {
      "epoch": 14.060172773309503,
      "grad_norm": 0.0017786482349038124,
      "learning_rate": 1.2273875105115275e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54779816,
      "step": 94400
    },
    {
      "epoch": 14.060917485850462,
      "grad_norm": 5.1057726523140445e-05,
      "learning_rate": 1.227107830589054e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54782824,
      "step": 94405
    },
    {
      "epoch": 14.06166219839142,
      "grad_norm": 0.0030300139915198088,
      "learning_rate": 1.2268281721707989e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54785736,
      "step": 94410
    },
    {
      "epoch": 14.06240691093238,
      "grad_norm": 0.0015238688793033361,
      "learning_rate": 1.2265485352614887e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54788648,
      "step": 94415
    },
    {
      "epoch": 14.06315162347334,
      "grad_norm": 0.008150935173034668,
      "learning_rate": 1.226268919865846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54791560,
      "step": 94420
    },
    {
      "epoch": 14.063896336014299,
      "grad_norm": 0.5539125800132751,
      "learning_rate": 1.225989325988596e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54794600,
      "step": 94425
    },
    {
      "epoch": 14.064641048555258,
      "grad_norm": 0.000986124505288899,
      "learning_rate": 1.2257097536344613e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54797384,
      "step": 94430
    },
    {
      "epoch": 14.065385761096216,
      "grad_norm": 0.0008037289371713996,
      "learning_rate": 1.2254302028081657e-05,
      "loss": 0.1439,
      "num_input_tokens_seen": 54800520,
      "step": 94435
    },
    {
      "epoch": 14.066130473637177,
      "grad_norm": 0.014622550457715988,
      "learning_rate": 1.225150673514431e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54803592,
      "step": 94440
    },
    {
      "epoch": 14.066875186178136,
      "grad_norm": 0.01411352027207613,
      "learning_rate": 1.2248711657579792e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54806248,
      "step": 94445
    },
    {
      "epoch": 14.067619898719094,
      "grad_norm": 0.016350144520401955,
      "learning_rate": 1.2245916795435342e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54809032,
      "step": 94450
    },
    {
      "epoch": 14.068364611260053,
      "grad_norm": 0.0007021107594482601,
      "learning_rate": 1.2243122148758152e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54812008,
      "step": 94455
    },
    {
      "epoch": 14.069109323801014,
      "grad_norm": 0.010350742377340794,
      "learning_rate": 1.224032771759546e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54814728,
      "step": 94460
    },
    {
      "epoch": 14.069854036341972,
      "grad_norm": 0.0005607789498753846,
      "learning_rate": 1.2237533501994452e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54817480,
      "step": 94465
    },
    {
      "epoch": 14.070598748882931,
      "grad_norm": 0.005821782164275646,
      "learning_rate": 1.2234739502002353e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 54820264,
      "step": 94470
    },
    {
      "epoch": 14.07134346142389,
      "grad_norm": 0.0011641032760962844,
      "learning_rate": 1.2231945717666358e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54823240,
      "step": 94475
    },
    {
      "epoch": 14.07208817396485,
      "grad_norm": 0.016200121492147446,
      "learning_rate": 1.2229152149033655e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54826120,
      "step": 94480
    },
    {
      "epoch": 14.07283288650581,
      "grad_norm": 0.0007317107520066202,
      "learning_rate": 1.2226358796151452e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54828808,
      "step": 94485
    },
    {
      "epoch": 14.073577599046768,
      "grad_norm": 0.015987524762749672,
      "learning_rate": 1.2223565659066938e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54831336,
      "step": 94490
    },
    {
      "epoch": 14.074322311587727,
      "grad_norm": 0.00014450561138801277,
      "learning_rate": 1.2220772737827285e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54834024,
      "step": 94495
    },
    {
      "epoch": 14.075067024128685,
      "grad_norm": 0.0005504023865796626,
      "learning_rate": 1.2217980032479701e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54836776,
      "step": 94500
    },
    {
      "epoch": 14.075811736669646,
      "grad_norm": 0.0064421240240335464,
      "learning_rate": 1.221518754307135e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54839848,
      "step": 94505
    },
    {
      "epoch": 14.076556449210605,
      "grad_norm": 0.03428269922733307,
      "learning_rate": 1.2212395269649413e-05,
      "loss": 0.0823,
      "num_input_tokens_seen": 54842568,
      "step": 94510
    },
    {
      "epoch": 14.077301161751564,
      "grad_norm": 0.000594045442994684,
      "learning_rate": 1.220960321226105e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54845320,
      "step": 94515
    },
    {
      "epoch": 14.078045874292522,
      "grad_norm": 0.0055502234026789665,
      "learning_rate": 1.2206811370953453e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 54848008,
      "step": 94520
    },
    {
      "epoch": 14.078790586833483,
      "grad_norm": 0.0009375381050631404,
      "learning_rate": 1.2204019745773764e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54850696,
      "step": 94525
    },
    {
      "epoch": 14.079535299374442,
      "grad_norm": 0.19082121551036835,
      "learning_rate": 1.2201228336769169e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 54853704,
      "step": 94530
    },
    {
      "epoch": 14.0802800119154,
      "grad_norm": 0.00021119145094417036,
      "learning_rate": 1.2198437143986798e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54856552,
      "step": 94535
    },
    {
      "epoch": 14.081024724456359,
      "grad_norm": 0.0006315454957075417,
      "learning_rate": 1.2195646167473835e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54859336,
      "step": 94540
    },
    {
      "epoch": 14.08176943699732,
      "grad_norm": 4.3813095544464886e-05,
      "learning_rate": 1.2192855407277407e-05,
      "loss": 0.1316,
      "num_input_tokens_seen": 54862056,
      "step": 94545
    },
    {
      "epoch": 14.082514149538278,
      "grad_norm": 0.0007620000396855175,
      "learning_rate": 1.2190064863444675e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54865000,
      "step": 94550
    },
    {
      "epoch": 14.083258862079237,
      "grad_norm": 0.002553011989220977,
      "learning_rate": 1.2187274536022783e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 54867688,
      "step": 94555
    },
    {
      "epoch": 14.084003574620196,
      "grad_norm": 0.0006928255315870047,
      "learning_rate": 1.2184484425058863e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 54870856,
      "step": 94560
    },
    {
      "epoch": 14.084748287161156,
      "grad_norm": 0.00013559470244217664,
      "learning_rate": 1.2181694530600052e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54873768,
      "step": 94565
    },
    {
      "epoch": 14.085492999702115,
      "grad_norm": 0.00033378644729964435,
      "learning_rate": 1.2178904852693476e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54876456,
      "step": 94570
    },
    {
      "epoch": 14.086237712243074,
      "grad_norm": 0.007971297018229961,
      "learning_rate": 1.217611539138628e-05,
      "loss": 0.2188,
      "num_input_tokens_seen": 54879688,
      "step": 94575
    },
    {
      "epoch": 14.086982424784033,
      "grad_norm": 0.0023216225672513247,
      "learning_rate": 1.2173326146725575e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54882792,
      "step": 94580
    },
    {
      "epoch": 14.087727137324993,
      "grad_norm": 0.019279848784208298,
      "learning_rate": 1.2170537118758496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54885896,
      "step": 94585
    },
    {
      "epoch": 14.088471849865952,
      "grad_norm": 0.00800338201224804,
      "learning_rate": 1.216774830753215e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54888648,
      "step": 94590
    },
    {
      "epoch": 14.08921656240691,
      "grad_norm": 0.002890713745728135,
      "learning_rate": 1.2164959713093649e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54891432,
      "step": 94595
    },
    {
      "epoch": 14.08996127494787,
      "grad_norm": 0.02312304638326168,
      "learning_rate": 1.2162171335490115e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54894376,
      "step": 94600
    },
    {
      "epoch": 14.09070598748883,
      "grad_norm": 0.00012881128350272775,
      "learning_rate": 1.2159383174768641e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 54897320,
      "step": 94605
    },
    {
      "epoch": 14.091450700029789,
      "grad_norm": 0.000252367666689679,
      "learning_rate": 1.2156595230976348e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54900264,
      "step": 94610
    },
    {
      "epoch": 14.092195412570748,
      "grad_norm": 0.03189145401120186,
      "learning_rate": 1.2153807504160313e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54902792,
      "step": 94615
    },
    {
      "epoch": 14.092940125111706,
      "grad_norm": 0.005950929597020149,
      "learning_rate": 1.2151019994367655e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54905928,
      "step": 94620
    },
    {
      "epoch": 14.093684837652667,
      "grad_norm": 0.00013559916988015175,
      "learning_rate": 1.2148232701645453e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54908872,
      "step": 94625
    },
    {
      "epoch": 14.094429550193626,
      "grad_norm": 2.8412438041414134e-05,
      "learning_rate": 1.2145445626040801e-05,
      "loss": 0.006,
      "num_input_tokens_seen": 54911464,
      "step": 94630
    },
    {
      "epoch": 14.095174262734584,
      "grad_norm": 0.0002506905875634402,
      "learning_rate": 1.2142658767600779e-05,
      "loss": 0.0036,
      "num_input_tokens_seen": 54914504,
      "step": 94635
    },
    {
      "epoch": 14.095918975275543,
      "grad_norm": 0.004266065079718828,
      "learning_rate": 1.213987212637246e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54917384,
      "step": 94640
    },
    {
      "epoch": 14.096663687816504,
      "grad_norm": 0.0004799372109118849,
      "learning_rate": 1.2137085702402939e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54920296,
      "step": 94645
    },
    {
      "epoch": 14.097408400357462,
      "grad_norm": 1.4983140317781363e-05,
      "learning_rate": 1.2134299495739274e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54923944,
      "step": 94650
    },
    {
      "epoch": 14.098153112898421,
      "grad_norm": 0.00015882418665569276,
      "learning_rate": 1.2131513506428552e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54926792,
      "step": 94655
    },
    {
      "epoch": 14.09889782543938,
      "grad_norm": 0.003132964251562953,
      "learning_rate": 1.2128727734517819e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54929928,
      "step": 94660
    },
    {
      "epoch": 14.099642537980339,
      "grad_norm": 3.035716144950129e-05,
      "learning_rate": 1.2125942180054161e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54932808,
      "step": 94665
    },
    {
      "epoch": 14.1003872505213,
      "grad_norm": 0.00015615690790582448,
      "learning_rate": 1.2123156843084624e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54935560,
      "step": 94670
    },
    {
      "epoch": 14.101131963062258,
      "grad_norm": 0.005187829490751028,
      "learning_rate": 1.2120371723656257e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54938600,
      "step": 94675
    },
    {
      "epoch": 14.101876675603217,
      "grad_norm": 0.000380163051886484,
      "learning_rate": 1.2117586821816127e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54941512,
      "step": 94680
    },
    {
      "epoch": 14.102621388144176,
      "grad_norm": 0.001362719340249896,
      "learning_rate": 1.2114802137611266e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54944264,
      "step": 94685
    },
    {
      "epoch": 14.103366100685136,
      "grad_norm": 9.638324263505638e-05,
      "learning_rate": 1.2112017671088737e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54947240,
      "step": 94690
    },
    {
      "epoch": 14.104110813226095,
      "grad_norm": 0.0003584331425372511,
      "learning_rate": 1.2109233422295568e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54950280,
      "step": 94695
    },
    {
      "epoch": 14.104855525767054,
      "grad_norm": 4.632256968761794e-05,
      "learning_rate": 1.2106449391278802e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54953192,
      "step": 94700
    },
    {
      "epoch": 14.105600238308012,
      "grad_norm": 0.13498511910438538,
      "learning_rate": 1.2103665578085458e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 54956104,
      "step": 94705
    },
    {
      "epoch": 14.106344950848973,
      "grad_norm": 0.010724799707531929,
      "learning_rate": 1.2100881982762589e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54958760,
      "step": 94710
    },
    {
      "epoch": 14.107089663389932,
      "grad_norm": 0.22346438467502594,
      "learning_rate": 1.2098098605357205e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 54961608,
      "step": 94715
    },
    {
      "epoch": 14.10783437593089,
      "grad_norm": 199.15382385253906,
      "learning_rate": 1.2095315445916323e-05,
      "loss": 0.2917,
      "num_input_tokens_seen": 54964680,
      "step": 94720
    },
    {
      "epoch": 14.10857908847185,
      "grad_norm": 0.0025027801748365164,
      "learning_rate": 1.2092532504486981e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 54967752,
      "step": 94725
    },
    {
      "epoch": 14.10932380101281,
      "grad_norm": 5.22624613950029e-05,
      "learning_rate": 1.2089749781116175e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 54970568,
      "step": 94730
    },
    {
      "epoch": 14.110068513553768,
      "grad_norm": 0.0018180435290560126,
      "learning_rate": 1.2086967275850936e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54973320,
      "step": 94735
    },
    {
      "epoch": 14.110813226094727,
      "grad_norm": 6.946252142370213e-06,
      "learning_rate": 1.2084184988738247e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54976424,
      "step": 94740
    },
    {
      "epoch": 14.111557938635686,
      "grad_norm": 0.02514980174601078,
      "learning_rate": 1.2081402919825139e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 54979272,
      "step": 94745
    },
    {
      "epoch": 14.112302651176647,
      "grad_norm": 0.012584938667714596,
      "learning_rate": 1.2078621069158596e-05,
      "loss": 0.0022,
      "num_input_tokens_seen": 54982408,
      "step": 94750
    },
    {
      "epoch": 14.113047363717605,
      "grad_norm": 0.003607111517339945,
      "learning_rate": 1.2075839436785611e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 54985384,
      "step": 94755
    },
    {
      "epoch": 14.113792076258564,
      "grad_norm": 3.0114622116088867,
      "learning_rate": 1.2073058022753189e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 54988296,
      "step": 94760
    },
    {
      "epoch": 14.114536788799523,
      "grad_norm": 1.9383098333491944e-05,
      "learning_rate": 1.2070276827108315e-05,
      "loss": 0.0476,
      "num_input_tokens_seen": 54991080,
      "step": 94765
    },
    {
      "epoch": 14.115281501340483,
      "grad_norm": 0.00054863968398422,
      "learning_rate": 1.2067495849897972e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54994184,
      "step": 94770
    },
    {
      "epoch": 14.116026213881442,
      "grad_norm": 0.004364768974483013,
      "learning_rate": 1.2064715091169135e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 54997096,
      "step": 94775
    },
    {
      "epoch": 14.1167709264224,
      "grad_norm": 51.466190338134766,
      "learning_rate": 1.2061934550968798e-05,
      "loss": 0.0852,
      "num_input_tokens_seen": 54999976,
      "step": 94780
    },
    {
      "epoch": 14.11751563896336,
      "grad_norm": 0.0013860436156392097,
      "learning_rate": 1.2059154229343919e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55002824,
      "step": 94785
    },
    {
      "epoch": 14.11826035150432,
      "grad_norm": 0.0001698714040685445,
      "learning_rate": 1.2056374126341485e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55005960,
      "step": 94790
    },
    {
      "epoch": 14.119005064045279,
      "grad_norm": 0.000767817604355514,
      "learning_rate": 1.2053594242008453e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55008872,
      "step": 94795
    },
    {
      "epoch": 14.119749776586238,
      "grad_norm": 0.012184438295662403,
      "learning_rate": 1.205081457639178e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55011400,
      "step": 94800
    },
    {
      "epoch": 14.120494489127196,
      "grad_norm": 0.00012361994595266879,
      "learning_rate": 1.2048035129538446e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 55014184,
      "step": 94805
    },
    {
      "epoch": 14.121239201668157,
      "grad_norm": 0.030892755836248398,
      "learning_rate": 1.2045255901495384e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55017064,
      "step": 94810
    },
    {
      "epoch": 14.121983914209116,
      "grad_norm": 0.0025198685470968485,
      "learning_rate": 1.2042476892309565e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55019880,
      "step": 94815
    },
    {
      "epoch": 14.122728626750074,
      "grad_norm": 0.0011131484061479568,
      "learning_rate": 1.203969810202793e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55022632,
      "step": 94820
    },
    {
      "epoch": 14.123473339291033,
      "grad_norm": 0.0013985842233523726,
      "learning_rate": 1.2036919530697412e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55025160,
      "step": 94825
    },
    {
      "epoch": 14.124218051831992,
      "grad_norm": 0.00024185507209040225,
      "learning_rate": 1.2034141178364974e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55027944,
      "step": 94830
    },
    {
      "epoch": 14.124962764372953,
      "grad_norm": 0.00024089746875688434,
      "learning_rate": 1.2031363045077545e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55030696,
      "step": 94835
    },
    {
      "epoch": 14.125707476913911,
      "grad_norm": 0.0004659700789488852,
      "learning_rate": 1.2028585130882056e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55033384,
      "step": 94840
    },
    {
      "epoch": 14.12645218945487,
      "grad_norm": 0.0006820662529207766,
      "learning_rate": 1.2025807435825426e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55036328,
      "step": 94845
    },
    {
      "epoch": 14.127196901995829,
      "grad_norm": 0.010552888736128807,
      "learning_rate": 1.2023029959954603e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55039688,
      "step": 94850
    },
    {
      "epoch": 14.12794161453679,
      "grad_norm": 0.0033183249179273844,
      "learning_rate": 1.2020252703316492e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55042664,
      "step": 94855
    },
    {
      "epoch": 14.128686327077748,
      "grad_norm": 3.136451050522737e-05,
      "learning_rate": 1.2017475665958028e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55045512,
      "step": 94860
    },
    {
      "epoch": 14.129431039618707,
      "grad_norm": 0.0006978284218348563,
      "learning_rate": 1.201469884792611e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55048328,
      "step": 94865
    },
    {
      "epoch": 14.130175752159666,
      "grad_norm": 4.388403249322437e-05,
      "learning_rate": 1.2011922249267662e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55051304,
      "step": 94870
    },
    {
      "epoch": 14.130920464700626,
      "grad_norm": 0.0031829699873924255,
      "learning_rate": 1.2009145870029592e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55054184,
      "step": 94875
    },
    {
      "epoch": 14.131665177241585,
      "grad_norm": 2.336840407224372e-05,
      "learning_rate": 1.200636971025879e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55057224,
      "step": 94880
    },
    {
      "epoch": 14.132409889782544,
      "grad_norm": 0.004936905112117529,
      "learning_rate": 1.2003593770002169e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55060712,
      "step": 94885
    },
    {
      "epoch": 14.133154602323502,
      "grad_norm": 0.00011131938663311303,
      "learning_rate": 1.2000818049306628e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55063464,
      "step": 94890
    },
    {
      "epoch": 14.133899314864463,
      "grad_norm": 4.803346382686868e-05,
      "learning_rate": 1.1998042548219052e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55066056,
      "step": 94895
    },
    {
      "epoch": 14.134644027405422,
      "grad_norm": 0.001195306540466845,
      "learning_rate": 1.1995267266786325e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 55069160,
      "step": 94900
    },
    {
      "epoch": 14.13538873994638,
      "grad_norm": 4.5565757318399847e-05,
      "learning_rate": 1.1992492205055347e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55072072,
      "step": 94905
    },
    {
      "epoch": 14.13613345248734,
      "grad_norm": 0.0006113947019912302,
      "learning_rate": 1.1989717363072986e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55075048,
      "step": 94910
    },
    {
      "epoch": 14.1368781650283,
      "grad_norm": 0.00021815570653416216,
      "learning_rate": 1.1986942740886135e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55077800,
      "step": 94915
    },
    {
      "epoch": 14.137622877569259,
      "grad_norm": 0.00016342534217983484,
      "learning_rate": 1.198416833854166e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55080808,
      "step": 94920
    },
    {
      "epoch": 14.138367590110217,
      "grad_norm": 0.001671972800977528,
      "learning_rate": 1.1981394156086423e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55083752,
      "step": 94925
    },
    {
      "epoch": 14.139112302651176,
      "grad_norm": 0.0001859566109487787,
      "learning_rate": 1.197862019356731e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55086632,
      "step": 94930
    },
    {
      "epoch": 14.139857015192137,
      "grad_norm": 0.03854620084166527,
      "learning_rate": 1.1975846451031167e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55089640,
      "step": 94935
    },
    {
      "epoch": 14.140601727733095,
      "grad_norm": 0.03601466864347458,
      "learning_rate": 1.1973072928524868e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55092296,
      "step": 94940
    },
    {
      "epoch": 14.141346440274054,
      "grad_norm": 0.0001634047512197867,
      "learning_rate": 1.1970299626095252e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55095112,
      "step": 94945
    },
    {
      "epoch": 14.142091152815013,
      "grad_norm": 0.004871356766670942,
      "learning_rate": 1.1967526543789192e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55098120,
      "step": 94950
    },
    {
      "epoch": 14.142835865355973,
      "grad_norm": 0.008128456771373749,
      "learning_rate": 1.1964753681653526e-05,
      "loss": 0.2594,
      "num_input_tokens_seen": 55101032,
      "step": 94955
    },
    {
      "epoch": 14.143580577896932,
      "grad_norm": 0.00037506810622289777,
      "learning_rate": 1.1961981039735096e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55103944,
      "step": 94960
    },
    {
      "epoch": 14.14432529043789,
      "grad_norm": 0.0004644717264454812,
      "learning_rate": 1.1959208618080747e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 55106760,
      "step": 94965
    },
    {
      "epoch": 14.14507000297885,
      "grad_norm": 0.004710862413048744,
      "learning_rate": 1.1956436416737304e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55109480,
      "step": 94970
    },
    {
      "epoch": 14.14581471551981,
      "grad_norm": 8.321113273268566e-05,
      "learning_rate": 1.1953664435751621e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55112264,
      "step": 94975
    },
    {
      "epoch": 14.146559428060769,
      "grad_norm": 0.00012688132119365036,
      "learning_rate": 1.1950892675170509e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55115144,
      "step": 94980
    },
    {
      "epoch": 14.147304140601728,
      "grad_norm": 0.0030312335584312677,
      "learning_rate": 1.194812113504081e-05,
      "loss": 0.1264,
      "num_input_tokens_seen": 55117928,
      "step": 94985
    },
    {
      "epoch": 14.148048853142686,
      "grad_norm": 0.001415762584656477,
      "learning_rate": 1.194534981540933e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55121320,
      "step": 94990
    },
    {
      "epoch": 14.148793565683647,
      "grad_norm": 0.0025703711435198784,
      "learning_rate": 1.1942578716322905e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55124328,
      "step": 94995
    },
    {
      "epoch": 14.149538278224606,
      "grad_norm": 0.00011772525613196194,
      "learning_rate": 1.1939807837828345e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55126984,
      "step": 95000
    },
    {
      "epoch": 14.150282990765565,
      "grad_norm": 0.0015969674568623304,
      "learning_rate": 1.1937037179972447e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55130184,
      "step": 95005
    },
    {
      "epoch": 14.151027703306523,
      "grad_norm": 0.0004948157002218068,
      "learning_rate": 1.1934266742802039e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55133224,
      "step": 95010
    },
    {
      "epoch": 14.151772415847482,
      "grad_norm": 0.28904590010643005,
      "learning_rate": 1.1931496526363903e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55136168,
      "step": 95015
    },
    {
      "epoch": 14.152517128388443,
      "grad_norm": 0.00015517111751250923,
      "learning_rate": 1.1928726530704862e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55139048,
      "step": 95020
    },
    {
      "epoch": 14.153261840929401,
      "grad_norm": 0.00015165646618697792,
      "learning_rate": 1.1925956755871703e-05,
      "loss": 0.0071,
      "num_input_tokens_seen": 55141992,
      "step": 95025
    },
    {
      "epoch": 14.15400655347036,
      "grad_norm": 3.463019311311655e-05,
      "learning_rate": 1.1923187201911215e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55144712,
      "step": 95030
    },
    {
      "epoch": 14.154751266011319,
      "grad_norm": 0.0009549533133395016,
      "learning_rate": 1.1920417868870187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55147848,
      "step": 95035
    },
    {
      "epoch": 14.15549597855228,
      "grad_norm": 0.012352078221738338,
      "learning_rate": 1.1917648756795399e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 55150728,
      "step": 95040
    },
    {
      "epoch": 14.156240691093238,
      "grad_norm": 0.003723475383594632,
      "learning_rate": 1.1914879865733647e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55153704,
      "step": 95045
    },
    {
      "epoch": 14.156985403634197,
      "grad_norm": 4.086241460754536e-05,
      "learning_rate": 1.1912111195731693e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55156808,
      "step": 95050
    },
    {
      "epoch": 14.157730116175156,
      "grad_norm": 4.472182808967773e-06,
      "learning_rate": 1.1909342746836325e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55159432,
      "step": 95055
    },
    {
      "epoch": 14.158474828716116,
      "grad_norm": 0.004387787543237209,
      "learning_rate": 1.1906574519094299e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55162280,
      "step": 95060
    },
    {
      "epoch": 14.159219541257075,
      "grad_norm": 7.563343842775794e-06,
      "learning_rate": 1.1903806512552395e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55165000,
      "step": 95065
    },
    {
      "epoch": 14.159964253798034,
      "grad_norm": 0.0006352104246616364,
      "learning_rate": 1.1901038727257366e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55167880,
      "step": 95070
    },
    {
      "epoch": 14.160708966338992,
      "grad_norm": 0.00010105763794854283,
      "learning_rate": 1.189827116325598e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55170600,
      "step": 95075
    },
    {
      "epoch": 14.161453678879953,
      "grad_norm": 0.0001671794889261946,
      "learning_rate": 1.1895503820594985e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55173672,
      "step": 95080
    },
    {
      "epoch": 14.162198391420912,
      "grad_norm": 0.0004510328872129321,
      "learning_rate": 1.189273669932113e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55176648,
      "step": 95085
    },
    {
      "epoch": 14.16294310396187,
      "grad_norm": 0.047905657440423965,
      "learning_rate": 1.1889969799481173e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55179400,
      "step": 95090
    },
    {
      "epoch": 14.16368781650283,
      "grad_norm": 0.0013846589718014002,
      "learning_rate": 1.1887203121121851e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55182632,
      "step": 95095
    },
    {
      "epoch": 14.16443252904379,
      "grad_norm": 0.0001818663877202198,
      "learning_rate": 1.1884436664289908e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55185416,
      "step": 95100
    },
    {
      "epoch": 14.165177241584749,
      "grad_norm": 0.0011451246682554483,
      "learning_rate": 1.1881670429032066e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55188328,
      "step": 95105
    },
    {
      "epoch": 14.165921954125707,
      "grad_norm": 1.520023124612635e-05,
      "learning_rate": 1.1878904415395078e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55191208,
      "step": 95110
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.0002514748484827578,
      "learning_rate": 1.1876138623425667e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55193768,
      "step": 95115
    },
    {
      "epoch": 14.167411379207627,
      "grad_norm": 5.305862578097731e-05,
      "learning_rate": 1.1873373053170545e-05,
      "loss": 0.0018,
      "num_input_tokens_seen": 55196936,
      "step": 95120
    },
    {
      "epoch": 14.168156091748585,
      "grad_norm": 0.00011983728472841904,
      "learning_rate": 1.187060770467645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55199720,
      "step": 95125
    },
    {
      "epoch": 14.168900804289544,
      "grad_norm": 0.0337199866771698,
      "learning_rate": 1.1867842577990087e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55202760,
      "step": 95130
    },
    {
      "epoch": 14.169645516830503,
      "grad_norm": 5.926016820012592e-05,
      "learning_rate": 1.1865077673158188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55205992,
      "step": 95135
    },
    {
      "epoch": 14.170390229371463,
      "grad_norm": 0.00012949660595040768,
      "learning_rate": 1.186231299022744e-05,
      "loss": 0.2323,
      "num_input_tokens_seen": 55209032,
      "step": 95140
    },
    {
      "epoch": 14.171134941912422,
      "grad_norm": 4.441588316694833e-05,
      "learning_rate": 1.1859548529244571e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55212072,
      "step": 95145
    },
    {
      "epoch": 14.171879654453381,
      "grad_norm": 3.6866940718027763e-06,
      "learning_rate": 1.1856784290256276e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55214920,
      "step": 95150
    },
    {
      "epoch": 14.17262436699434,
      "grad_norm": 0.00022226860164664686,
      "learning_rate": 1.1854020273309241e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55217576,
      "step": 95155
    },
    {
      "epoch": 14.1733690795353,
      "grad_norm": 0.00023183478333521634,
      "learning_rate": 1.1851256478450181e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55220840,
      "step": 95160
    },
    {
      "epoch": 14.174113792076259,
      "grad_norm": 0.0002217776927864179,
      "learning_rate": 1.1848492905725781e-05,
      "loss": 0.1408,
      "num_input_tokens_seen": 55223784,
      "step": 95165
    },
    {
      "epoch": 14.174858504617218,
      "grad_norm": 0.00011866584827657789,
      "learning_rate": 1.1845729555182728e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55226600,
      "step": 95170
    },
    {
      "epoch": 14.175603217158177,
      "grad_norm": 4.5010910980636254e-05,
      "learning_rate": 1.1842966426867694e-05,
      "loss": 0.2219,
      "num_input_tokens_seen": 55229192,
      "step": 95175
    },
    {
      "epoch": 14.176347929699135,
      "grad_norm": 0.017823275178670883,
      "learning_rate": 1.1840203520827378e-05,
      "loss": 0.0822,
      "num_input_tokens_seen": 55232328,
      "step": 95180
    },
    {
      "epoch": 14.177092642240096,
      "grad_norm": 0.0012852319050580263,
      "learning_rate": 1.183744083710844e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55235144,
      "step": 95185
    },
    {
      "epoch": 14.177837354781055,
      "grad_norm": 8.072593482211232e-05,
      "learning_rate": 1.1834678375757571e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55238056,
      "step": 95190
    },
    {
      "epoch": 14.178582067322013,
      "grad_norm": 2.3214750399347395e-05,
      "learning_rate": 1.183191613682143e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55240744,
      "step": 95195
    },
    {
      "epoch": 14.179326779862972,
      "grad_norm": 5.169581709196791e-05,
      "learning_rate": 1.1829154120346673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55243656,
      "step": 95200
    },
    {
      "epoch": 14.180071492403933,
      "grad_norm": 0.0006135244038887322,
      "learning_rate": 1.1826392326379981e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55246728,
      "step": 95205
    },
    {
      "epoch": 14.180816204944891,
      "grad_norm": 0.00036832308978773654,
      "learning_rate": 1.1823630754967991e-05,
      "loss": 0.0451,
      "num_input_tokens_seen": 55249576,
      "step": 95210
    },
    {
      "epoch": 14.18156091748585,
      "grad_norm": 0.008343873545527458,
      "learning_rate": 1.1820869406157378e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55252584,
      "step": 95215
    },
    {
      "epoch": 14.182305630026809,
      "grad_norm": 0.011769980192184448,
      "learning_rate": 1.181810827999478e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55255560,
      "step": 95220
    },
    {
      "epoch": 14.18305034256777,
      "grad_norm": 0.0016062959330156446,
      "learning_rate": 1.1815347376526847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55258216,
      "step": 95225
    },
    {
      "epoch": 14.183795055108728,
      "grad_norm": 0.001562837976962328,
      "learning_rate": 1.181258669580021e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 55261192,
      "step": 95230
    },
    {
      "epoch": 14.184539767649687,
      "grad_norm": 0.0007111647864803672,
      "learning_rate": 1.1809826237861527e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 55263944,
      "step": 95235
    },
    {
      "epoch": 14.185284480190646,
      "grad_norm": 0.0005416077328845859,
      "learning_rate": 1.1807066002757422e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55266792,
      "step": 95240
    },
    {
      "epoch": 14.186029192731606,
      "grad_norm": 0.00016890554979909211,
      "learning_rate": 1.180430599053452e-05,
      "loss": 0.002,
      "num_input_tokens_seen": 55269448,
      "step": 95245
    },
    {
      "epoch": 14.186773905272565,
      "grad_norm": 2.7911739380215295e-05,
      "learning_rate": 1.1801546201239466e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55272360,
      "step": 95250
    },
    {
      "epoch": 14.187518617813524,
      "grad_norm": 0.0004318539286032319,
      "learning_rate": 1.1798786634918868e-05,
      "loss": 0.1284,
      "num_input_tokens_seen": 55275496,
      "step": 95255
    },
    {
      "epoch": 14.188263330354483,
      "grad_norm": 0.00021816365187987685,
      "learning_rate": 1.1796027291619358e-05,
      "loss": 0.0158,
      "num_input_tokens_seen": 55278504,
      "step": 95260
    },
    {
      "epoch": 14.189008042895443,
      "grad_norm": 1.2988846719963476e-05,
      "learning_rate": 1.1793268171387539e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 55281192,
      "step": 95265
    },
    {
      "epoch": 14.189752755436402,
      "grad_norm": 0.00016244809376075864,
      "learning_rate": 1.1790509274270042e-05,
      "loss": 0.0822,
      "num_input_tokens_seen": 55284360,
      "step": 95270
    },
    {
      "epoch": 14.19049746797736,
      "grad_norm": 0.08586152642965317,
      "learning_rate": 1.1787750600313465e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55287432,
      "step": 95275
    },
    {
      "epoch": 14.19124218051832,
      "grad_norm": 9.226716065313667e-05,
      "learning_rate": 1.1784992149564403e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55290248,
      "step": 95280
    },
    {
      "epoch": 14.19198689305928,
      "grad_norm": 0.0014365018578246236,
      "learning_rate": 1.1782233922069478e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 55292968,
      "step": 95285
    },
    {
      "epoch": 14.192731605600239,
      "grad_norm": 0.0003740221436601132,
      "learning_rate": 1.1779475917875278e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55295592,
      "step": 95290
    },
    {
      "epoch": 14.193476318141197,
      "grad_norm": 0.00013402901822701097,
      "learning_rate": 1.1776718137028392e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55298216,
      "step": 95295
    },
    {
      "epoch": 14.194221030682156,
      "grad_norm": 0.00023101801343727857,
      "learning_rate": 1.1773960579575408e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55301192,
      "step": 95300
    },
    {
      "epoch": 14.194965743223117,
      "grad_norm": 0.005181404761970043,
      "learning_rate": 1.1771203245562924e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55304136,
      "step": 95305
    },
    {
      "epoch": 14.195710455764075,
      "grad_norm": 8.703090861672536e-05,
      "learning_rate": 1.176844613503751e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55307048,
      "step": 95310
    },
    {
      "epoch": 14.196455168305034,
      "grad_norm": 0.0015364818973466754,
      "learning_rate": 1.1765689248045755e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55309960,
      "step": 95315
    },
    {
      "epoch": 14.197199880845993,
      "grad_norm": 0.0009551534312777221,
      "learning_rate": 1.1762932584634234e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55312776,
      "step": 95320
    },
    {
      "epoch": 14.197944593386953,
      "grad_norm": 0.0019822907634079456,
      "learning_rate": 1.1760176144849502e-05,
      "loss": 0.0058,
      "num_input_tokens_seen": 55315464,
      "step": 95325
    },
    {
      "epoch": 14.198689305927912,
      "grad_norm": 0.0005401832167990506,
      "learning_rate": 1.1757419928738147e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55318472,
      "step": 95330
    },
    {
      "epoch": 14.199434018468871,
      "grad_norm": 0.0009131944389082491,
      "learning_rate": 1.1754663936346713e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55321224,
      "step": 95335
    },
    {
      "epoch": 14.20017873100983,
      "grad_norm": 0.0005263384082354605,
      "learning_rate": 1.1751908167721782e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55324168,
      "step": 95340
    },
    {
      "epoch": 14.200923443550789,
      "grad_norm": 5.914908342674607e-06,
      "learning_rate": 1.1749152622909884e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55327112,
      "step": 95345
    },
    {
      "epoch": 14.201668156091749,
      "grad_norm": 0.00038394189323298633,
      "learning_rate": 1.1746397301957598e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55330216,
      "step": 95350
    },
    {
      "epoch": 14.202412868632708,
      "grad_norm": 0.002515084808692336,
      "learning_rate": 1.174364220491146e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55332968,
      "step": 95355
    },
    {
      "epoch": 14.203157581173667,
      "grad_norm": 0.00025274805375374854,
      "learning_rate": 1.1740887331818009e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55336040,
      "step": 95360
    },
    {
      "epoch": 14.203902293714625,
      "grad_norm": 8.05315503384918e-05,
      "learning_rate": 1.1738132682723797e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 55338984,
      "step": 95365
    },
    {
      "epoch": 14.204647006255586,
      "grad_norm": 4.131734749535099e-05,
      "learning_rate": 1.1735378257675338e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 55341672,
      "step": 95370
    },
    {
      "epoch": 14.205391718796545,
      "grad_norm": 9.0986599388998e-05,
      "learning_rate": 1.1732624056719197e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55344776,
      "step": 95375
    },
    {
      "epoch": 14.206136431337503,
      "grad_norm": 0.000409918196965009,
      "learning_rate": 1.1729870079901875e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55347720,
      "step": 95380
    },
    {
      "epoch": 14.206881143878462,
      "grad_norm": 0.012216322124004364,
      "learning_rate": 1.1727116327269924e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55350824,
      "step": 95385
    },
    {
      "epoch": 14.207625856419423,
      "grad_norm": 5.957099914550781,
      "learning_rate": 1.172436279886984e-05,
      "loss": 0.0097,
      "num_input_tokens_seen": 55353896,
      "step": 95390
    },
    {
      "epoch": 14.208370568960381,
      "grad_norm": 0.0007771133678033948,
      "learning_rate": 1.1721609494748164e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55356584,
      "step": 95395
    },
    {
      "epoch": 14.20911528150134,
      "grad_norm": 0.021560009568929672,
      "learning_rate": 1.1718856414951402e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55359752,
      "step": 95400
    },
    {
      "epoch": 14.209859994042299,
      "grad_norm": 1.1947389793931507e-05,
      "learning_rate": 1.1716103559526051e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55362632,
      "step": 95405
    },
    {
      "epoch": 14.21060470658326,
      "grad_norm": 0.0002619193692225963,
      "learning_rate": 1.1713350928518639e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55365576,
      "step": 95410
    },
    {
      "epoch": 14.211349419124218,
      "grad_norm": 0.04427926614880562,
      "learning_rate": 1.171059852197565e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55368712,
      "step": 95415
    },
    {
      "epoch": 14.212094131665177,
      "grad_norm": 0.0003297031216789037,
      "learning_rate": 1.1707846339943601e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55371784,
      "step": 95420
    },
    {
      "epoch": 14.212838844206136,
      "grad_norm": 0.00015756124048493803,
      "learning_rate": 1.1705094382468979e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55374664,
      "step": 95425
    },
    {
      "epoch": 14.213583556747096,
      "grad_norm": 4.02609548473265e-05,
      "learning_rate": 1.1702342649598274e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55377768,
      "step": 95430
    },
    {
      "epoch": 14.214328269288055,
      "grad_norm": 0.0010167486034333706,
      "learning_rate": 1.1699591141377967e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55380520,
      "step": 95435
    },
    {
      "epoch": 14.215072981829014,
      "grad_norm": 0.00011054354399675503,
      "learning_rate": 1.1696839857854558e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55383272,
      "step": 95440
    },
    {
      "epoch": 14.215817694369973,
      "grad_norm": 0.00012881476141046733,
      "learning_rate": 1.169408879907452e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55386088,
      "step": 95445
    },
    {
      "epoch": 14.216562406910933,
      "grad_norm": 0.0008382539381273091,
      "learning_rate": 1.1691337965084321e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55389096,
      "step": 95450
    },
    {
      "epoch": 14.217307119451892,
      "grad_norm": 0.00016331308870576322,
      "learning_rate": 1.1688587355930444e-05,
      "loss": 0.0589,
      "num_input_tokens_seen": 55392328,
      "step": 95455
    },
    {
      "epoch": 14.21805183199285,
      "grad_norm": 4.44211991634802e-06,
      "learning_rate": 1.168583697165935e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55395176,
      "step": 95460
    },
    {
      "epoch": 14.21879654453381,
      "grad_norm": 0.0001443804649170488,
      "learning_rate": 1.1683086812317517e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55398024,
      "step": 95465
    },
    {
      "epoch": 14.21954125707477,
      "grad_norm": 0.0013612760230898857,
      "learning_rate": 1.1680336877951387e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55401000,
      "step": 95470
    },
    {
      "epoch": 14.220285969615729,
      "grad_norm": 24.934932708740234,
      "learning_rate": 1.1677587168607437e-05,
      "loss": 0.1563,
      "num_input_tokens_seen": 55403560,
      "step": 95475
    },
    {
      "epoch": 14.221030682156687,
      "grad_norm": 0.00018918243586085737,
      "learning_rate": 1.1674837684332113e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55406376,
      "step": 95480
    },
    {
      "epoch": 14.221775394697646,
      "grad_norm": 2.2169782823766582e-05,
      "learning_rate": 1.1672088425171854e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55409416,
      "step": 95485
    },
    {
      "epoch": 14.222520107238607,
      "grad_norm": 0.0001312559616053477,
      "learning_rate": 1.1669339391173122e-05,
      "loss": 0.0334,
      "num_input_tokens_seen": 55412328,
      "step": 95490
    },
    {
      "epoch": 14.223264819779565,
      "grad_norm": 0.0002902178675867617,
      "learning_rate": 1.1666590582382355e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55415304,
      "step": 95495
    },
    {
      "epoch": 14.224009532320524,
      "grad_norm": 0.0001212316783494316,
      "learning_rate": 1.166384199884599e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55418056,
      "step": 95500
    },
    {
      "epoch": 14.224754244861483,
      "grad_norm": 4.1788338421611115e-05,
      "learning_rate": 1.1661093640610445e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55421032,
      "step": 95505
    },
    {
      "epoch": 14.225498957402444,
      "grad_norm": 0.00013861524348612875,
      "learning_rate": 1.1658345507722182e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55423848,
      "step": 95510
    },
    {
      "epoch": 14.226243669943402,
      "grad_norm": 0.0004021174390800297,
      "learning_rate": 1.1655597600227597e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55426600,
      "step": 95515
    },
    {
      "epoch": 14.226988382484361,
      "grad_norm": 2.954294359369669e-06,
      "learning_rate": 1.1652849918173139e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55429448,
      "step": 95520
    },
    {
      "epoch": 14.22773309502532,
      "grad_norm": 0.0002363428648095578,
      "learning_rate": 1.165010246160522e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55432680,
      "step": 95525
    },
    {
      "epoch": 14.228477807566279,
      "grad_norm": 3.240237492718734e-05,
      "learning_rate": 1.1647355230570237e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55435368,
      "step": 95530
    },
    {
      "epoch": 14.229222520107239,
      "grad_norm": 0.000328682828694582,
      "learning_rate": 1.1644608225114629e-05,
      "loss": 0.0263,
      "num_input_tokens_seen": 55438216,
      "step": 95535
    },
    {
      "epoch": 14.229967232648198,
      "grad_norm": 9.261669765692204e-05,
      "learning_rate": 1.164186144528478e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55440936,
      "step": 95540
    },
    {
      "epoch": 14.230711945189157,
      "grad_norm": 6.279996887315065e-05,
      "learning_rate": 1.1639114891127114e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55444040,
      "step": 95545
    },
    {
      "epoch": 14.231456657730115,
      "grad_norm": 6.162829959066585e-05,
      "learning_rate": 1.1636368562688024e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 55447112,
      "step": 95550
    },
    {
      "epoch": 14.232201370271076,
      "grad_norm": 0.000145821031765081,
      "learning_rate": 1.1633622460013904e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55450024,
      "step": 95555
    },
    {
      "epoch": 14.232946082812035,
      "grad_norm": 0.0010118103818967938,
      "learning_rate": 1.163087658315114e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55453352,
      "step": 95560
    },
    {
      "epoch": 14.233690795352993,
      "grad_norm": 9.369429608341306e-05,
      "learning_rate": 1.1628130932146137e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55456296,
      "step": 95565
    },
    {
      "epoch": 14.234435507893952,
      "grad_norm": 0.00026683000032790005,
      "learning_rate": 1.1625385507045272e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55459240,
      "step": 95570
    },
    {
      "epoch": 14.235180220434913,
      "grad_norm": 0.00012940799933858216,
      "learning_rate": 1.1622640307894913e-05,
      "loss": 0.1469,
      "num_input_tokens_seen": 55462216,
      "step": 95575
    },
    {
      "epoch": 14.235924932975871,
      "grad_norm": 2.3709288143436424e-05,
      "learning_rate": 1.1619895334741463e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 55465128,
      "step": 95580
    },
    {
      "epoch": 14.23666964551683,
      "grad_norm": 1.0576931238174438,
      "learning_rate": 1.161715058763127e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 55467912,
      "step": 95585
    },
    {
      "epoch": 14.237414358057789,
      "grad_norm": 8.32593796076253e-05,
      "learning_rate": 1.1614406066610728e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55470856,
      "step": 95590
    },
    {
      "epoch": 14.23815907059875,
      "grad_norm": 0.0007205475703813136,
      "learning_rate": 1.1611661771726181e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55473640,
      "step": 95595
    },
    {
      "epoch": 14.238903783139708,
      "grad_norm": 0.0003929241211153567,
      "learning_rate": 1.1608917703024009e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55476648,
      "step": 95600
    },
    {
      "epoch": 14.239648495680667,
      "grad_norm": 9.871547081274912e-05,
      "learning_rate": 1.1606173860550562e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55479464,
      "step": 95605
    },
    {
      "epoch": 14.240393208221626,
      "grad_norm": 4.199920658720657e-05,
      "learning_rate": 1.1603430244352187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55482408,
      "step": 95610
    },
    {
      "epoch": 14.241137920762586,
      "grad_norm": 0.000420594762545079,
      "learning_rate": 1.160068685447525e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55485288,
      "step": 95615
    },
    {
      "epoch": 14.241882633303545,
      "grad_norm": 7.445135997841135e-05,
      "learning_rate": 1.1597943690966092e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55488040,
      "step": 95620
    },
    {
      "epoch": 14.242627345844504,
      "grad_norm": 0.0003361036069691181,
      "learning_rate": 1.1595200753871055e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55491016,
      "step": 95625
    },
    {
      "epoch": 14.243372058385463,
      "grad_norm": 15.948742866516113,
      "learning_rate": 1.1592458043236468e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 55493768,
      "step": 95630
    },
    {
      "epoch": 14.244116770926423,
      "grad_norm": 0.0043288106098771095,
      "learning_rate": 1.1589715559108682e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55496584,
      "step": 95635
    },
    {
      "epoch": 14.244861483467382,
      "grad_norm": 0.0020628427155315876,
      "learning_rate": 1.1586973301534024e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55499208,
      "step": 95640
    },
    {
      "epoch": 14.24560619600834,
      "grad_norm": 0.008581739850342274,
      "learning_rate": 1.158423127055881e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55501992,
      "step": 95645
    },
    {
      "epoch": 14.2463509085493,
      "grad_norm": 0.0002958254481200129,
      "learning_rate": 1.1581489466229381e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55505128,
      "step": 95650
    },
    {
      "epoch": 14.24709562109026,
      "grad_norm": 0.031803250312805176,
      "learning_rate": 1.1578747888592043e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55508104,
      "step": 95655
    },
    {
      "epoch": 14.247840333631219,
      "grad_norm": 4.500012073549442e-05,
      "learning_rate": 1.1576006537693127e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55511240,
      "step": 95660
    },
    {
      "epoch": 14.248585046172177,
      "grad_norm": 3.266748990427004e-06,
      "learning_rate": 1.1573265413578926e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55514056,
      "step": 95665
    },
    {
      "epoch": 14.249329758713136,
      "grad_norm": 0.027553023770451546,
      "learning_rate": 1.1570524516295773e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55516904,
      "step": 95670
    },
    {
      "epoch": 14.250074471254097,
      "grad_norm": 0.002010399242863059,
      "learning_rate": 1.1567783845889946e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55519528,
      "step": 95675
    },
    {
      "epoch": 14.250819183795056,
      "grad_norm": 0.0007430104888044298,
      "learning_rate": 1.1565043402407768e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55522536,
      "step": 95680
    },
    {
      "epoch": 14.251563896336014,
      "grad_norm": 0.0008933924837037921,
      "learning_rate": 1.1562303185895528e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55525864,
      "step": 95685
    },
    {
      "epoch": 14.252308608876973,
      "grad_norm": 0.002175463829189539,
      "learning_rate": 1.155956319639952e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55528712,
      "step": 95690
    },
    {
      "epoch": 14.253053321417934,
      "grad_norm": 0.0007830222020857036,
      "learning_rate": 1.155682343396603e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55531464,
      "step": 95695
    },
    {
      "epoch": 14.253798033958892,
      "grad_norm": 0.0002655699790921062,
      "learning_rate": 1.1554083898641335e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55534408,
      "step": 95700
    },
    {
      "epoch": 14.254542746499851,
      "grad_norm": 6.935614510439336e-05,
      "learning_rate": 1.1551344590471739e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55537320,
      "step": 95705
    },
    {
      "epoch": 14.25528745904081,
      "grad_norm": 7.771076343487948e-05,
      "learning_rate": 1.1548605509503496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55540424,
      "step": 95710
    },
    {
      "epoch": 14.256032171581769,
      "grad_norm": 4.761791842611274e-06,
      "learning_rate": 1.15458666557829e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55543464,
      "step": 95715
    },
    {
      "epoch": 14.25677688412273,
      "grad_norm": 1.5291439922293648e-05,
      "learning_rate": 1.1543128029356215e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55546408,
      "step": 95720
    },
    {
      "epoch": 14.257521596663688,
      "grad_norm": 0.0016564861871302128,
      "learning_rate": 1.1540389630269693e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 55548968,
      "step": 95725
    },
    {
      "epoch": 14.258266309204647,
      "grad_norm": 3.704307891894132e-05,
      "learning_rate": 1.153765145856962e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55551912,
      "step": 95730
    },
    {
      "epoch": 14.259011021745605,
      "grad_norm": 1.5777590306242928e-05,
      "learning_rate": 1.1534913514302232e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55554632,
      "step": 95735
    },
    {
      "epoch": 14.259755734286566,
      "grad_norm": 1.7578209735802375e-05,
      "learning_rate": 1.1532175797513806e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55557640,
      "step": 95740
    },
    {
      "epoch": 14.260500446827525,
      "grad_norm": 0.0036509798374027014,
      "learning_rate": 1.152943830825057e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55560552,
      "step": 95745
    },
    {
      "epoch": 14.261245159368483,
      "grad_norm": 6.575087354576681e-06,
      "learning_rate": 1.1526701046558794e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55563624,
      "step": 95750
    },
    {
      "epoch": 14.261989871909442,
      "grad_norm": 11.209802627563477,
      "learning_rate": 1.1523964012484712e-05,
      "loss": 0.1005,
      "num_input_tokens_seen": 55566344,
      "step": 95755
    },
    {
      "epoch": 14.262734584450403,
      "grad_norm": 0.0005145173636265099,
      "learning_rate": 1.1521227206074559e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55569384,
      "step": 95760
    },
    {
      "epoch": 14.263479296991362,
      "grad_norm": 5.4656193242408335e-05,
      "learning_rate": 1.1518490627374572e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55572360,
      "step": 95765
    },
    {
      "epoch": 14.26422400953232,
      "grad_norm": 0.0016054089646786451,
      "learning_rate": 1.151575427643098e-05,
      "loss": 0.0054,
      "num_input_tokens_seen": 55575176,
      "step": 95770
    },
    {
      "epoch": 14.264968722073279,
      "grad_norm": 1.623112621018663e-05,
      "learning_rate": 1.1513018153290018e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55578312,
      "step": 95775
    },
    {
      "epoch": 14.26571343461424,
      "grad_norm": 0.008637655526399612,
      "learning_rate": 1.15102822579979e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55581288,
      "step": 95780
    },
    {
      "epoch": 14.266458147155198,
      "grad_norm": 5.345127283362672e-05,
      "learning_rate": 1.1507546590600862e-05,
      "loss": 0.0016,
      "num_input_tokens_seen": 55584040,
      "step": 95785
    },
    {
      "epoch": 14.267202859696157,
      "grad_norm": 0.003222919534891844,
      "learning_rate": 1.15048111511451e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55586856,
      "step": 95790
    },
    {
      "epoch": 14.267947572237116,
      "grad_norm": 1.6134501493070275e-05,
      "learning_rate": 1.1502075939676852e-05,
      "loss": 0.0478,
      "num_input_tokens_seen": 55589544,
      "step": 95795
    },
    {
      "epoch": 14.268692284778076,
      "grad_norm": 4.594596612150781e-05,
      "learning_rate": 1.1499340956242307e-05,
      "loss": 0.0103,
      "num_input_tokens_seen": 55592264,
      "step": 95800
    },
    {
      "epoch": 14.269436997319035,
      "grad_norm": 0.00038625579327344894,
      "learning_rate": 1.1496606200887669e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55595144,
      "step": 95805
    },
    {
      "epoch": 14.270181709859994,
      "grad_norm": 0.0001752810348989442,
      "learning_rate": 1.1493871673659155e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55597896,
      "step": 95810
    },
    {
      "epoch": 14.270926422400953,
      "grad_norm": 2.2663625713903457e-05,
      "learning_rate": 1.1491137374602939e-05,
      "loss": 0.0546,
      "num_input_tokens_seen": 55600808,
      "step": 95815
    },
    {
      "epoch": 14.271671134941913,
      "grad_norm": 0.0009038671851158142,
      "learning_rate": 1.1488403303765239e-05,
      "loss": 0.2344,
      "num_input_tokens_seen": 55603784,
      "step": 95820
    },
    {
      "epoch": 14.272415847482872,
      "grad_norm": 0.0019421747419983149,
      "learning_rate": 1.1485669461192233e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55606600,
      "step": 95825
    },
    {
      "epoch": 14.27316056002383,
      "grad_norm": 0.3645799160003662,
      "learning_rate": 1.1482935846930104e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 55609544,
      "step": 95830
    },
    {
      "epoch": 14.27390527256479,
      "grad_norm": 0.00014404693502001464,
      "learning_rate": 1.148020246102503e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55612488,
      "step": 95835
    },
    {
      "epoch": 14.27464998510575,
      "grad_norm": 9.45535721257329e-05,
      "learning_rate": 1.14774693035232e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55615336,
      "step": 95840
    },
    {
      "epoch": 14.275394697646709,
      "grad_norm": 3.9643069612793624e-05,
      "learning_rate": 1.1474736374470785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55618312,
      "step": 95845
    },
    {
      "epoch": 14.276139410187668,
      "grad_norm": 0.00046048397780396044,
      "learning_rate": 1.1472003673913942e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55621064,
      "step": 95850
    },
    {
      "epoch": 14.276884122728626,
      "grad_norm": 0.0035193152725696564,
      "learning_rate": 1.1469271201898857e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55623816,
      "step": 95855
    },
    {
      "epoch": 14.277628835269585,
      "grad_norm": 0.0006965596112422645,
      "learning_rate": 1.1466538958471673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55626568,
      "step": 95860
    },
    {
      "epoch": 14.278373547810546,
      "grad_norm": 0.00011209358490305021,
      "learning_rate": 1.1463806943678571e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55629416,
      "step": 95865
    },
    {
      "epoch": 14.279118260351504,
      "grad_norm": 0.0005578845739364624,
      "learning_rate": 1.1461075157565681e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55632296,
      "step": 95870
    },
    {
      "epoch": 14.279862972892463,
      "grad_norm": 1.1233859368076082e-05,
      "learning_rate": 1.1458343600179175e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55635304,
      "step": 95875
    },
    {
      "epoch": 14.280607685433422,
      "grad_norm": 0.0004584594862535596,
      "learning_rate": 1.1455612271565192e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55638216,
      "step": 95880
    },
    {
      "epoch": 14.281352397974382,
      "grad_norm": 8.426080057688523e-06,
      "learning_rate": 1.1452881171769872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55640968,
      "step": 95885
    },
    {
      "epoch": 14.282097110515341,
      "grad_norm": 0.00023931212490424514,
      "learning_rate": 1.145015030083935e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55643688,
      "step": 95890
    },
    {
      "epoch": 14.2828418230563,
      "grad_norm": 0.00010060236672870815,
      "learning_rate": 1.1447419658819775e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55646728,
      "step": 95895
    },
    {
      "epoch": 14.283586535597259,
      "grad_norm": 0.0005014518974348903,
      "learning_rate": 1.1444689245757268e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55649512,
      "step": 95900
    },
    {
      "epoch": 14.28433124813822,
      "grad_norm": 0.0020696334540843964,
      "learning_rate": 1.1441959061697952e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55652520,
      "step": 95905
    },
    {
      "epoch": 14.285075960679178,
      "grad_norm": 2.480188231857028e-05,
      "learning_rate": 1.1439229106687969e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55655464,
      "step": 95910
    },
    {
      "epoch": 14.285820673220137,
      "grad_norm": 3.16702680720482e-05,
      "learning_rate": 1.1436499380773416e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55658280,
      "step": 95915
    },
    {
      "epoch": 14.286565385761095,
      "grad_norm": 5.3184485295787454e-05,
      "learning_rate": 1.1433769884000429e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55661320,
      "step": 95920
    },
    {
      "epoch": 14.287310098302056,
      "grad_norm": 0.00019768961647059768,
      "learning_rate": 1.1431040616415114e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55664136,
      "step": 95925
    },
    {
      "epoch": 14.288054810843015,
      "grad_norm": 9.64128557825461e-05,
      "learning_rate": 1.1428311578063566e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55667112,
      "step": 95930
    },
    {
      "epoch": 14.288799523383974,
      "grad_norm": 0.0011346986284479499,
      "learning_rate": 1.142558276899191e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55670056,
      "step": 95935
    },
    {
      "epoch": 14.289544235924932,
      "grad_norm": 0.0003733470803126693,
      "learning_rate": 1.142285418924623e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55672808,
      "step": 95940
    },
    {
      "epoch": 14.290288948465893,
      "grad_norm": 0.00038403357029892504,
      "learning_rate": 1.1420125838872633e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55675560,
      "step": 95945
    },
    {
      "epoch": 14.291033661006852,
      "grad_norm": 6.809638580307364e-05,
      "learning_rate": 1.1417397717917213e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55678440,
      "step": 95950
    },
    {
      "epoch": 14.29177837354781,
      "grad_norm": 0.0016873941058292985,
      "learning_rate": 1.1414669826426053e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55681672,
      "step": 95955
    },
    {
      "epoch": 14.292523086088769,
      "grad_norm": 5.24358511029277e-05,
      "learning_rate": 1.1411942164445228e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55684648,
      "step": 95960
    },
    {
      "epoch": 14.29326779862973,
      "grad_norm": 0.0021765076089650393,
      "learning_rate": 1.140921473202084e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55687112,
      "step": 95965
    },
    {
      "epoch": 14.294012511170688,
      "grad_norm": 0.0006429183413274586,
      "learning_rate": 1.1406487529198956e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55690536,
      "step": 95970
    },
    {
      "epoch": 14.294757223711647,
      "grad_norm": 0.00024253637820947915,
      "learning_rate": 1.1403760556025638e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55693768,
      "step": 95975
    },
    {
      "epoch": 14.295501936252606,
      "grad_norm": 0.00016819529992062598,
      "learning_rate": 1.140103381254698e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55696648,
      "step": 95980
    },
    {
      "epoch": 14.296246648793566,
      "grad_norm": 1.6355670595658012e-05,
      "learning_rate": 1.1398307298809022e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55699240,
      "step": 95985
    },
    {
      "epoch": 14.296991361334525,
      "grad_norm": 0.0003975349827669561,
      "learning_rate": 1.1395581014857848e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55702056,
      "step": 95990
    },
    {
      "epoch": 14.297736073875484,
      "grad_norm": 5.998059714329429e-05,
      "learning_rate": 1.1392854960739497e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55704872,
      "step": 95995
    },
    {
      "epoch": 14.298480786416443,
      "grad_norm": 0.0008022647234611213,
      "learning_rate": 1.1390129136500041e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55707720,
      "step": 96000
    },
    {
      "epoch": 14.299225498957403,
      "grad_norm": 5.2041599701624364e-05,
      "learning_rate": 1.138740354218552e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55710728,
      "step": 96005
    },
    {
      "epoch": 14.299970211498362,
      "grad_norm": 3.3931626148842042e-06,
      "learning_rate": 1.1384678177841973e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55713736,
      "step": 96010
    },
    {
      "epoch": 14.30071492403932,
      "grad_norm": 0.012018241919577122,
      "learning_rate": 1.1381953043515459e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55716360,
      "step": 96015
    },
    {
      "epoch": 14.30145963658028,
      "grad_norm": 0.0013947475235909224,
      "learning_rate": 1.1379228139252007e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55719336,
      "step": 96020
    },
    {
      "epoch": 14.30220434912124,
      "grad_norm": 0.0008616613922640681,
      "learning_rate": 1.1376503465097651e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55722408,
      "step": 96025
    },
    {
      "epoch": 14.302949061662199,
      "grad_norm": 0.0001746860216371715,
      "learning_rate": 1.1373779021098415e-05,
      "loss": 0.1006,
      "num_input_tokens_seen": 55725448,
      "step": 96030
    },
    {
      "epoch": 14.303693774203158,
      "grad_norm": 4.757348960993113e-06,
      "learning_rate": 1.1371054807300344e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55728552,
      "step": 96035
    },
    {
      "epoch": 14.304438486744116,
      "grad_norm": 7.923130760900676e-05,
      "learning_rate": 1.1368330823749441e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55731688,
      "step": 96040
    },
    {
      "epoch": 14.305183199285075,
      "grad_norm": 9.815981320571154e-05,
      "learning_rate": 1.1365607070491741e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55734472,
      "step": 96045
    },
    {
      "epoch": 14.305927911826036,
      "grad_norm": 24.523035049438477,
      "learning_rate": 1.1362883547573252e-05,
      "loss": 0.0775,
      "num_input_tokens_seen": 55737096,
      "step": 96050
    },
    {
      "epoch": 14.306672624366994,
      "grad_norm": 0.0001655575615586713,
      "learning_rate": 1.1360160255039976e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55739816,
      "step": 96055
    },
    {
      "epoch": 14.307417336907953,
      "grad_norm": 0.004995528142899275,
      "learning_rate": 1.1357437192937943e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55742600,
      "step": 96060
    },
    {
      "epoch": 14.308162049448912,
      "grad_norm": 5.0661343266256154e-05,
      "learning_rate": 1.1354714361313128e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55745352,
      "step": 96065
    },
    {
      "epoch": 14.308906761989872,
      "grad_norm": 1.6880421753739938e-05,
      "learning_rate": 1.1351991760211558e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55748360,
      "step": 96070
    },
    {
      "epoch": 14.309651474530831,
      "grad_norm": 0.000694284972269088,
      "learning_rate": 1.1349269389679203e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55751368,
      "step": 96075
    },
    {
      "epoch": 14.31039618707179,
      "grad_norm": 4.164280107943341e-05,
      "learning_rate": 1.1346547249762082e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55754376,
      "step": 96080
    },
    {
      "epoch": 14.311140899612749,
      "grad_norm": 0.0005252988776192069,
      "learning_rate": 1.1343825340506167e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55757160,
      "step": 96085
    },
    {
      "epoch": 14.31188561215371,
      "grad_norm": 4.208692553220317e-05,
      "learning_rate": 1.1341103661957441e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55759912,
      "step": 96090
    },
    {
      "epoch": 14.312630324694668,
      "grad_norm": 3.4003799100901233e-06,
      "learning_rate": 1.1338382214161888e-05,
      "loss": 0.0726,
      "num_input_tokens_seen": 55762856,
      "step": 96095
    },
    {
      "epoch": 14.313375037235627,
      "grad_norm": 0.00010785947961267084,
      "learning_rate": 1.1335660997165473e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55765704,
      "step": 96100
    },
    {
      "epoch": 14.314119749776586,
      "grad_norm": 0.00018037532572634518,
      "learning_rate": 1.133294001101419e-05,
      "loss": 0.1221,
      "num_input_tokens_seen": 55768328,
      "step": 96105
    },
    {
      "epoch": 14.314864462317546,
      "grad_norm": 0.000933844072278589,
      "learning_rate": 1.1330219255753983e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 55771304,
      "step": 96110
    },
    {
      "epoch": 14.315609174858505,
      "grad_norm": 6.619154009968042e-05,
      "learning_rate": 1.1327498731430835e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55773896,
      "step": 96115
    },
    {
      "epoch": 14.316353887399464,
      "grad_norm": 0.017583444714546204,
      "learning_rate": 1.1324778438090694e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 55776680,
      "step": 96120
    },
    {
      "epoch": 14.317098599940422,
      "grad_norm": 0.0014543277211487293,
      "learning_rate": 1.132205837577953e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55779432,
      "step": 96125
    },
    {
      "epoch": 14.317843312481383,
      "grad_norm": 0.024849586188793182,
      "learning_rate": 1.131933854454329e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55782472,
      "step": 96130
    },
    {
      "epoch": 14.318588025022342,
      "grad_norm": 0.0035060523077845573,
      "learning_rate": 1.131661894442791e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55785640,
      "step": 96135
    },
    {
      "epoch": 14.3193327375633,
      "grad_norm": 0.00018948754586745054,
      "learning_rate": 1.1313899575479355e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55788776,
      "step": 96140
    },
    {
      "epoch": 14.32007745010426,
      "grad_norm": 0.0049305143766105175,
      "learning_rate": 1.1311180437743549e-05,
      "loss": 0.3282,
      "num_input_tokens_seen": 55791784,
      "step": 96145
    },
    {
      "epoch": 14.32082216264522,
      "grad_norm": 0.0022620426025241613,
      "learning_rate": 1.1308461531266442e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55794824,
      "step": 96150
    },
    {
      "epoch": 14.321566875186178,
      "grad_norm": 0.003258784767240286,
      "learning_rate": 1.1305742856093964e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55797576,
      "step": 96155
    },
    {
      "epoch": 14.322311587727137,
      "grad_norm": 0.011071731336414814,
      "learning_rate": 1.1303024412272046e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55800392,
      "step": 96160
    },
    {
      "epoch": 14.323056300268096,
      "grad_norm": 3.878236748278141e-05,
      "learning_rate": 1.1300306199846605e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 55803016,
      "step": 96165
    },
    {
      "epoch": 14.323801012809056,
      "grad_norm": 4.0170136344386265e-05,
      "learning_rate": 1.1297588218863561e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55805704,
      "step": 96170
    },
    {
      "epoch": 14.324545725350015,
      "grad_norm": 6.040510561433621e-05,
      "learning_rate": 1.1294870469368846e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55808840,
      "step": 96175
    },
    {
      "epoch": 14.325290437890974,
      "grad_norm": 0.00013561639934778214,
      "learning_rate": 1.1292152951408356e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55811624,
      "step": 96180
    },
    {
      "epoch": 14.326035150431933,
      "grad_norm": 0.0011227820068597794,
      "learning_rate": 1.1289435665028016e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55814536,
      "step": 96185
    },
    {
      "epoch": 14.326779862972893,
      "grad_norm": 0.037081748247146606,
      "learning_rate": 1.1286718610273719e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55817384,
      "step": 96190
    },
    {
      "epoch": 14.327524575513852,
      "grad_norm": 0.0005618274444714189,
      "learning_rate": 1.1284001787191381e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55820296,
      "step": 96195
    },
    {
      "epoch": 14.32826928805481,
      "grad_norm": 0.023313041776418686,
      "learning_rate": 1.1281285195826884e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55823240,
      "step": 96200
    },
    {
      "epoch": 14.32901400059577,
      "grad_norm": 0.003510805079713464,
      "learning_rate": 1.1278568836226142e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55826248,
      "step": 96205
    },
    {
      "epoch": 14.32975871313673,
      "grad_norm": 0.0003609485866036266,
      "learning_rate": 1.1275852708435033e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55829448,
      "step": 96210
    },
    {
      "epoch": 14.330503425677689,
      "grad_norm": 0.00037954517756588757,
      "learning_rate": 1.127313681249944e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55832360,
      "step": 96215
    },
    {
      "epoch": 14.331248138218648,
      "grad_norm": 0.00035696482518687844,
      "learning_rate": 1.1270421148465245e-05,
      "loss": 0.2906,
      "num_input_tokens_seen": 55835304,
      "step": 96220
    },
    {
      "epoch": 14.331992850759606,
      "grad_norm": 0.0014083562418818474,
      "learning_rate": 1.1267705716378338e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55838152,
      "step": 96225
    },
    {
      "epoch": 14.332737563300565,
      "grad_norm": 0.00010633658530423418,
      "learning_rate": 1.1264990516284585e-05,
      "loss": 0.0287,
      "num_input_tokens_seen": 55841096,
      "step": 96230
    },
    {
      "epoch": 14.333482275841526,
      "grad_norm": 0.0012779871467500925,
      "learning_rate": 1.126227554822985e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55843880,
      "step": 96235
    },
    {
      "epoch": 14.334226988382484,
      "grad_norm": 0.0003193999291397631,
      "learning_rate": 1.1259560812260014e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55846728,
      "step": 96240
    },
    {
      "epoch": 14.334971700923443,
      "grad_norm": 5.274733484839089e-05,
      "learning_rate": 1.1256846308420935e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55849768,
      "step": 96245
    },
    {
      "epoch": 14.335716413464402,
      "grad_norm": 2.8113599910284393e-05,
      "learning_rate": 1.125413203675846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55852360,
      "step": 96250
    },
    {
      "epoch": 14.336461126005362,
      "grad_norm": 0.008222286589443684,
      "learning_rate": 1.1251417997318464e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55855336,
      "step": 96255
    },
    {
      "epoch": 14.337205838546321,
      "grad_norm": 0.00012078510189894587,
      "learning_rate": 1.1248704190146778e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55858120,
      "step": 96260
    },
    {
      "epoch": 14.33795055108728,
      "grad_norm": 0.0007246304303407669,
      "learning_rate": 1.1245990615289264e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55860840,
      "step": 96265
    },
    {
      "epoch": 14.338695263628239,
      "grad_norm": 0.00011064683349104598,
      "learning_rate": 1.1243277272791755e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55863624,
      "step": 96270
    },
    {
      "epoch": 14.3394399761692,
      "grad_norm": 0.00010526612459216267,
      "learning_rate": 1.1240564162700101e-05,
      "loss": 0.0189,
      "num_input_tokens_seen": 55866408,
      "step": 96275
    },
    {
      "epoch": 14.340184688710158,
      "grad_norm": 0.0001548177096992731,
      "learning_rate": 1.1237851285060133e-05,
      "loss": 0.2531,
      "num_input_tokens_seen": 55869256,
      "step": 96280
    },
    {
      "epoch": 14.340929401251117,
      "grad_norm": 0.0001204452637466602,
      "learning_rate": 1.123513863991768e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55872328,
      "step": 96285
    },
    {
      "epoch": 14.341674113792076,
      "grad_norm": 535.0423583984375,
      "learning_rate": 1.1232426227318568e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 55875112,
      "step": 96290
    },
    {
      "epoch": 14.342418826333036,
      "grad_norm": 0.005822686944156885,
      "learning_rate": 1.1229714047308615e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 55878088,
      "step": 96295
    },
    {
      "epoch": 14.343163538873995,
      "grad_norm": 0.00011996286775683984,
      "learning_rate": 1.1227002099933657e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55880776,
      "step": 96300
    },
    {
      "epoch": 14.343908251414954,
      "grad_norm": 2.4874823793652467e-05,
      "learning_rate": 1.1224290385239488e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55883368,
      "step": 96305
    },
    {
      "epoch": 14.344652963955912,
      "grad_norm": 0.0018591247498989105,
      "learning_rate": 1.1221578903271943e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55886376,
      "step": 96310
    },
    {
      "epoch": 14.345397676496873,
      "grad_norm": 0.00039021793054416776,
      "learning_rate": 1.1218867654076812e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55889096,
      "step": 96315
    },
    {
      "epoch": 14.346142389037832,
      "grad_norm": 0.00023027735005598515,
      "learning_rate": 1.1216156637699909e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55892008,
      "step": 96320
    },
    {
      "epoch": 14.34688710157879,
      "grad_norm": 0.0008401823579333723,
      "learning_rate": 1.1213445854187035e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55894920,
      "step": 96325
    },
    {
      "epoch": 14.34763181411975,
      "grad_norm": 0.11842384934425354,
      "learning_rate": 1.1210735303583972e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 55897960,
      "step": 96330
    },
    {
      "epoch": 14.34837652666071,
      "grad_norm": 0.0005288646789267659,
      "learning_rate": 1.1208024985936527e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55900744,
      "step": 96335
    },
    {
      "epoch": 14.349121239201668,
      "grad_norm": 0.007914919406175613,
      "learning_rate": 1.1205314901290475e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 55903560,
      "step": 96340
    },
    {
      "epoch": 14.349865951742627,
      "grad_norm": 5.10275411605835,
      "learning_rate": 1.120260504969162e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 55906440,
      "step": 96345
    },
    {
      "epoch": 14.350610664283586,
      "grad_norm": 0.00024517416022717953,
      "learning_rate": 1.1199895431185726e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55909096,
      "step": 96350
    },
    {
      "epoch": 14.351355376824547,
      "grad_norm": 0.0001475672033848241,
      "learning_rate": 1.1197186045818572e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55912072,
      "step": 96355
    },
    {
      "epoch": 14.352100089365505,
      "grad_norm": 1.1013300536433235e-05,
      "learning_rate": 1.1194476893635924e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55914920,
      "step": 96360
    },
    {
      "epoch": 14.352844801906464,
      "grad_norm": 3.441607623244636e-05,
      "learning_rate": 1.1191767974683567e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55917704,
      "step": 96365
    },
    {
      "epoch": 14.353589514447423,
      "grad_norm": 0.00011950635962421075,
      "learning_rate": 1.1189059289007256e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55920488,
      "step": 96370
    },
    {
      "epoch": 14.354334226988382,
      "grad_norm": 3.3849657484097406e-05,
      "learning_rate": 1.118635083665274e-05,
      "loss": 0.011,
      "num_input_tokens_seen": 55923336,
      "step": 96375
    },
    {
      "epoch": 14.355078939529342,
      "grad_norm": 0.0010140875820070505,
      "learning_rate": 1.1183642617665799e-05,
      "loss": 0.3156,
      "num_input_tokens_seen": 55926632,
      "step": 96380
    },
    {
      "epoch": 14.3558236520703,
      "grad_norm": 9.064246114576235e-05,
      "learning_rate": 1.1180934632092163e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55929576,
      "step": 96385
    },
    {
      "epoch": 14.35656836461126,
      "grad_norm": 0.006582547444850206,
      "learning_rate": 1.11782268799776e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55932456,
      "step": 96390
    },
    {
      "epoch": 14.357313077152218,
      "grad_norm": 0.3923247754573822,
      "learning_rate": 1.1175519361367837e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 55935368,
      "step": 96395
    },
    {
      "epoch": 14.358057789693179,
      "grad_norm": 0.0012074141995981336,
      "learning_rate": 1.1172812076308634e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55938440,
      "step": 96400
    },
    {
      "epoch": 14.358802502234138,
      "grad_norm": 2.2478439859696664e-05,
      "learning_rate": 1.1170105024845718e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55941640,
      "step": 96405
    },
    {
      "epoch": 14.359547214775096,
      "grad_norm": 0.000246306270128116,
      "learning_rate": 1.1167398207024812e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55944744,
      "step": 96410
    },
    {
      "epoch": 14.360291927316055,
      "grad_norm": 0.002855115570127964,
      "learning_rate": 1.1164691622891662e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 55947688,
      "step": 96415
    },
    {
      "epoch": 14.361036639857016,
      "grad_norm": 6.24130479991436e-05,
      "learning_rate": 1.1161985272491986e-05,
      "loss": 0.0284,
      "num_input_tokens_seen": 55950760,
      "step": 96420
    },
    {
      "epoch": 14.361781352397974,
      "grad_norm": 0.0002742183569353074,
      "learning_rate": 1.1159279155871507e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55953832,
      "step": 96425
    },
    {
      "epoch": 14.362526064938933,
      "grad_norm": 0.00014069875760469586,
      "learning_rate": 1.115657327307593e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55956584,
      "step": 96430
    },
    {
      "epoch": 14.363270777479892,
      "grad_norm": 0.00032592195202596486,
      "learning_rate": 1.1153867624150986e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55959304,
      "step": 96435
    },
    {
      "epoch": 14.364015490020853,
      "grad_norm": 1.8955146515509114e-05,
      "learning_rate": 1.1151162209142362e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55962120,
      "step": 96440
    },
    {
      "epoch": 14.364760202561811,
      "grad_norm": 3.312124729156494,
      "learning_rate": 1.1148457028095794e-05,
      "loss": 0.0088,
      "num_input_tokens_seen": 55964936,
      "step": 96445
    },
    {
      "epoch": 14.36550491510277,
      "grad_norm": 0.0006201101932674646,
      "learning_rate": 1.1145752081056961e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55967720,
      "step": 96450
    },
    {
      "epoch": 14.366249627643729,
      "grad_norm": 0.0007115043699741364,
      "learning_rate": 1.114304736807156e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55970664,
      "step": 96455
    },
    {
      "epoch": 14.36699434018469,
      "grad_norm": 0.00012054279068252072,
      "learning_rate": 1.1140342889185299e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55973416,
      "step": 96460
    },
    {
      "epoch": 14.367739052725648,
      "grad_norm": 1.7799928173189983e-05,
      "learning_rate": 1.1137638644443846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55976328,
      "step": 96465
    },
    {
      "epoch": 14.368483765266607,
      "grad_norm": 0.009459433145821095,
      "learning_rate": 1.113493463389291e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 55979336,
      "step": 96470
    },
    {
      "epoch": 14.369228477807566,
      "grad_norm": 0.0007716544787399471,
      "learning_rate": 1.1132230857578155e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55982312,
      "step": 96475
    },
    {
      "epoch": 14.369973190348526,
      "grad_norm": 2.065105945803225e-05,
      "learning_rate": 1.1129527315545272e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 55985576,
      "step": 96480
    },
    {
      "epoch": 14.370717902889485,
      "grad_norm": 0.00409464817494154,
      "learning_rate": 1.1126824007839927e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55988584,
      "step": 96485
    },
    {
      "epoch": 14.371462615430444,
      "grad_norm": 0.00030537357088178396,
      "learning_rate": 1.1124120934507792e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55991624,
      "step": 96490
    },
    {
      "epoch": 14.372207327971402,
      "grad_norm": 0.004173600114881992,
      "learning_rate": 1.112141809559453e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55994440,
      "step": 96495
    },
    {
      "epoch": 14.372952040512363,
      "grad_norm": 5.894121386518236e-06,
      "learning_rate": 1.1118715491145795e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 55997416,
      "step": 96500
    },
    {
      "epoch": 14.373696753053322,
      "grad_norm": 9.62683952820953e-06,
      "learning_rate": 1.1116013121207261e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56000104,
      "step": 96505
    },
    {
      "epoch": 14.37444146559428,
      "grad_norm": 0.0004931738949380815,
      "learning_rate": 1.1113310985824566e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56002824,
      "step": 96510
    },
    {
      "epoch": 14.37518617813524,
      "grad_norm": 0.0005696290754713118,
      "learning_rate": 1.1110609085043378e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56005736,
      "step": 96515
    },
    {
      "epoch": 14.3759308906762,
      "grad_norm": 0.0009814638178795576,
      "learning_rate": 1.1107907418909324e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56008936,
      "step": 96520
    },
    {
      "epoch": 14.376675603217159,
      "grad_norm": 0.0007925400277599692,
      "learning_rate": 1.1105205987468064e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56012040,
      "step": 96525
    },
    {
      "epoch": 14.377420315758117,
      "grad_norm": 0.00014533009380102158,
      "learning_rate": 1.1102504790765225e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56014792,
      "step": 96530
    },
    {
      "epoch": 14.378165028299076,
      "grad_norm": 0.0007019144832156599,
      "learning_rate": 1.1099803828846437e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56017640,
      "step": 96535
    },
    {
      "epoch": 14.378909740840037,
      "grad_norm": 0.0007694085361436009,
      "learning_rate": 1.1097103101757342e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56020744,
      "step": 96540
    },
    {
      "epoch": 14.379654453380995,
      "grad_norm": 0.0004856600717175752,
      "learning_rate": 1.1094402609543561e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56023528,
      "step": 96545
    },
    {
      "epoch": 14.380399165921954,
      "grad_norm": 0.00016043729556258768,
      "learning_rate": 1.1091702352250704e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56026568,
      "step": 96550
    },
    {
      "epoch": 14.381143878462913,
      "grad_norm": 1.3347927331924438,
      "learning_rate": 1.108900232992441e-05,
      "loss": 0.001,
      "num_input_tokens_seen": 56029640,
      "step": 96555
    },
    {
      "epoch": 14.381888591003872,
      "grad_norm": 0.00033282701042480767,
      "learning_rate": 1.1086302542610285e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56033096,
      "step": 96560
    },
    {
      "epoch": 14.382633303544832,
      "grad_norm": 0.0003567849926184863,
      "learning_rate": 1.1083602990353928e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56036200,
      "step": 96565
    },
    {
      "epoch": 14.383378016085791,
      "grad_norm": 7.920031930552796e-05,
      "learning_rate": 1.1080903673200962e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56038792,
      "step": 96570
    },
    {
      "epoch": 14.38412272862675,
      "grad_norm": 4.44352554040961e-05,
      "learning_rate": 1.107820459119698e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56041640,
      "step": 96575
    },
    {
      "epoch": 14.384867441167708,
      "grad_norm": 0.00073856336530298,
      "learning_rate": 1.1075505744387577e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56044424,
      "step": 96580
    },
    {
      "epoch": 14.385612153708669,
      "grad_norm": 0.000503810471855104,
      "learning_rate": 1.1072807132818358e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56046984,
      "step": 96585
    },
    {
      "epoch": 14.386356866249628,
      "grad_norm": 0.000924835738260299,
      "learning_rate": 1.10701087565349e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56049800,
      "step": 96590
    },
    {
      "epoch": 14.387101578790586,
      "grad_norm": 0.0009389782208018005,
      "learning_rate": 1.1067410615582808e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56052648,
      "step": 96595
    },
    {
      "epoch": 14.387846291331545,
      "grad_norm": 0.0010915199527516961,
      "learning_rate": 1.106471271000764e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56055560,
      "step": 96600
    },
    {
      "epoch": 14.388591003872506,
      "grad_norm": 1.642514325794764e-05,
      "learning_rate": 1.1062015039854997e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56058536,
      "step": 96605
    },
    {
      "epoch": 14.389335716413465,
      "grad_norm": 0.00014854615437798202,
      "learning_rate": 1.1059317605170447e-05,
      "loss": 0.0023,
      "num_input_tokens_seen": 56061608,
      "step": 96610
    },
    {
      "epoch": 14.390080428954423,
      "grad_norm": 0.0038226323667913675,
      "learning_rate": 1.1056620405999558e-05,
      "loss": 0.1038,
      "num_input_tokens_seen": 56064712,
      "step": 96615
    },
    {
      "epoch": 14.390825141495382,
      "grad_norm": 0.0007003149366937578,
      "learning_rate": 1.1053923442387892e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56067688,
      "step": 96620
    },
    {
      "epoch": 14.391569854036343,
      "grad_norm": 6.5094936871901155e-06,
      "learning_rate": 1.1051226714381008e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56070600,
      "step": 96625
    },
    {
      "epoch": 14.392314566577301,
      "grad_norm": 0.13776400685310364,
      "learning_rate": 1.1048530222024481e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 56073384,
      "step": 96630
    },
    {
      "epoch": 14.39305927911826,
      "grad_norm": 0.007948148995637894,
      "learning_rate": 1.1045833965363847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56076168,
      "step": 96635
    },
    {
      "epoch": 14.393803991659219,
      "grad_norm": 0.00019285301095806062,
      "learning_rate": 1.1043137944444673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56078920,
      "step": 96640
    },
    {
      "epoch": 14.39454870420018,
      "grad_norm": 7.928517879918218e-05,
      "learning_rate": 1.1040442159312491e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56081896,
      "step": 96645
    },
    {
      "epoch": 14.395293416741138,
      "grad_norm": 7.95795422163792e-05,
      "learning_rate": 1.1037746610012861e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56084456,
      "step": 96650
    },
    {
      "epoch": 14.396038129282097,
      "grad_norm": 0.00015707607963122427,
      "learning_rate": 1.1035051296591309e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56087624,
      "step": 96655
    },
    {
      "epoch": 14.396782841823056,
      "grad_norm": 0.0008508629980497062,
      "learning_rate": 1.1032356219093365e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56090728,
      "step": 96660
    },
    {
      "epoch": 14.397527554364016,
      "grad_norm": 7.319082669710042e-06,
      "learning_rate": 1.1029661377564576e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56093448,
      "step": 96665
    },
    {
      "epoch": 14.398272266904975,
      "grad_norm": 0.00011320560588501394,
      "learning_rate": 1.1026966772050448e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56096392,
      "step": 96670
    },
    {
      "epoch": 14.399016979445934,
      "grad_norm": 0.0001452037104172632,
      "learning_rate": 1.1024272402596526e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 56099048,
      "step": 96675
    },
    {
      "epoch": 14.399761691986892,
      "grad_norm": 0.00012177429016446695,
      "learning_rate": 1.1021578269248314e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56101864,
      "step": 96680
    },
    {
      "epoch": 14.400506404527853,
      "grad_norm": 2.325424793525599e-05,
      "learning_rate": 1.1018884372051333e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56104968,
      "step": 96685
    },
    {
      "epoch": 14.401251117068812,
      "grad_norm": 0.00015436312241945416,
      "learning_rate": 1.1016190711051092e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56107912,
      "step": 96690
    },
    {
      "epoch": 14.40199582960977,
      "grad_norm": 3.869924330501817e-05,
      "learning_rate": 1.1013497286293085e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56110600,
      "step": 96695
    },
    {
      "epoch": 14.40274054215073,
      "grad_norm": 7.16142967576161e-05,
      "learning_rate": 1.1010804097822836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56113736,
      "step": 96700
    },
    {
      "epoch": 14.40348525469169,
      "grad_norm": 3.313713023089804e-05,
      "learning_rate": 1.1008111145685824e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56116648,
      "step": 96705
    },
    {
      "epoch": 14.404229967232649,
      "grad_norm": 7.341308082686737e-05,
      "learning_rate": 1.1005418429927563e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 56119528,
      "step": 96710
    },
    {
      "epoch": 14.404974679773607,
      "grad_norm": 0.0003315966750960797,
      "learning_rate": 1.1002725950593525e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56122600,
      "step": 96715
    },
    {
      "epoch": 14.405719392314566,
      "grad_norm": 0.00042190111707895994,
      "learning_rate": 1.1000033707729216e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56125384,
      "step": 96720
    },
    {
      "epoch": 14.406464104855527,
      "grad_norm": 0.0012569905957207084,
      "learning_rate": 1.0997341701380099e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56128424,
      "step": 96725
    },
    {
      "epoch": 14.407208817396485,
      "grad_norm": 6.363050488289446e-05,
      "learning_rate": 1.0994649931591669e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56131304,
      "step": 96730
    },
    {
      "epoch": 14.407953529937444,
      "grad_norm": 2.3612097720615566e-05,
      "learning_rate": 1.0991958398409396e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56134312,
      "step": 96735
    },
    {
      "epoch": 14.408698242478403,
      "grad_norm": 0.00018200391787104309,
      "learning_rate": 1.0989267101878742e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56137352,
      "step": 96740
    },
    {
      "epoch": 14.409442955019362,
      "grad_norm": 0.000943746417760849,
      "learning_rate": 1.0986576042045186e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 56140072,
      "step": 96745
    },
    {
      "epoch": 14.410187667560322,
      "grad_norm": 9.34027320909081e-06,
      "learning_rate": 1.0983885218954187e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56142632,
      "step": 96750
    },
    {
      "epoch": 14.410932380101281,
      "grad_norm": 2.155991387553513e-05,
      "learning_rate": 1.0981194632651201e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56145544,
      "step": 96755
    },
    {
      "epoch": 14.41167709264224,
      "grad_norm": 5.625999619951472e-05,
      "learning_rate": 1.0978504283181674e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56148296,
      "step": 96760
    },
    {
      "epoch": 14.412421805183198,
      "grad_norm": 300.13067626953125,
      "learning_rate": 1.0975814170591076e-05,
      "loss": 0.0207,
      "num_input_tokens_seen": 56151304,
      "step": 96765
    },
    {
      "epoch": 14.413166517724159,
      "grad_norm": 10.652185440063477,
      "learning_rate": 1.0973124294924843e-05,
      "loss": 0.0642,
      "num_input_tokens_seen": 56154280,
      "step": 96770
    },
    {
      "epoch": 14.413911230265118,
      "grad_norm": 0.00014603271847590804,
      "learning_rate": 1.0970434656228412e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56157064,
      "step": 96775
    },
    {
      "epoch": 14.414655942806077,
      "grad_norm": 0.00037966141826473176,
      "learning_rate": 1.0967745254547238e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56159976,
      "step": 96780
    },
    {
      "epoch": 14.415400655347035,
      "grad_norm": 2.512781611585524e-05,
      "learning_rate": 1.0965056089926734e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 56162728,
      "step": 96785
    },
    {
      "epoch": 14.416145367887996,
      "grad_norm": 0.0018024632008746266,
      "learning_rate": 1.0962367162412354e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56165512,
      "step": 96790
    },
    {
      "epoch": 14.416890080428955,
      "grad_norm": 8.714864088688046e-05,
      "learning_rate": 1.0959678472049502e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56168360,
      "step": 96795
    },
    {
      "epoch": 14.417634792969913,
      "grad_norm": 0.0021605463698506355,
      "learning_rate": 1.0956990018883625e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56171240,
      "step": 96800
    },
    {
      "epoch": 14.418379505510872,
      "grad_norm": 1.238519234902924e-05,
      "learning_rate": 1.0954301802960118e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56174248,
      "step": 96805
    },
    {
      "epoch": 14.419124218051833,
      "grad_norm": 0.0001682991860434413,
      "learning_rate": 1.0951613824324417e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56177096,
      "step": 96810
    },
    {
      "epoch": 14.419868930592791,
      "grad_norm": 0.0007612053886987269,
      "learning_rate": 1.0948926083021921e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56179880,
      "step": 96815
    },
    {
      "epoch": 14.42061364313375,
      "grad_norm": 0.0031210959423333406,
      "learning_rate": 1.0946238579098036e-05,
      "loss": 0.0431,
      "num_input_tokens_seen": 56182664,
      "step": 96820
    },
    {
      "epoch": 14.421358355674709,
      "grad_norm": 0.0001607735175639391,
      "learning_rate": 1.0943551312598172e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56185480,
      "step": 96825
    },
    {
      "epoch": 14.42210306821567,
      "grad_norm": 8.29292639537016e-06,
      "learning_rate": 1.0940864283567708e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56188424,
      "step": 96830
    },
    {
      "epoch": 14.422847780756628,
      "grad_norm": 3.1480591133004054e-05,
      "learning_rate": 1.0938177492052064e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56191432,
      "step": 96835
    },
    {
      "epoch": 14.423592493297587,
      "grad_norm": 0.0001423462526872754,
      "learning_rate": 1.093549093809661e-05,
      "loss": 0.0637,
      "num_input_tokens_seen": 56194280,
      "step": 96840
    },
    {
      "epoch": 14.424337205838546,
      "grad_norm": 0.0014252930413931608,
      "learning_rate": 1.0932804621746751e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56197288,
      "step": 96845
    },
    {
      "epoch": 14.425081918379506,
      "grad_norm": 0.004399807192385197,
      "learning_rate": 1.0930118543047862e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56200104,
      "step": 96850
    },
    {
      "epoch": 14.425826630920465,
      "grad_norm": 0.00027360848616808653,
      "learning_rate": 1.0927432702045309e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56202792,
      "step": 96855
    },
    {
      "epoch": 14.426571343461424,
      "grad_norm": 0.8732199668884277,
      "learning_rate": 1.0924747098784488e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 56205928,
      "step": 96860
    },
    {
      "epoch": 14.427316056002383,
      "grad_norm": 4.0458042349200696e-05,
      "learning_rate": 1.0922061733310751e-05,
      "loss": 0.0015,
      "num_input_tokens_seen": 56208616,
      "step": 96865
    },
    {
      "epoch": 14.428060768543343,
      "grad_norm": 0.00012458139099180698,
      "learning_rate": 1.0919376605669481e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56211336,
      "step": 96870
    },
    {
      "epoch": 14.428805481084302,
      "grad_norm": 5.728985797759378e-06,
      "learning_rate": 1.0916691715906034e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56214216,
      "step": 96875
    },
    {
      "epoch": 14.42955019362526,
      "grad_norm": 2.114720336976461e-05,
      "learning_rate": 1.0914007064065754e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56216904,
      "step": 96880
    },
    {
      "epoch": 14.43029490616622,
      "grad_norm": 2.235429928987287e-05,
      "learning_rate": 1.091132265019402e-05,
      "loss": 0.0309,
      "num_input_tokens_seen": 56220072,
      "step": 96885
    },
    {
      "epoch": 14.43103961870718,
      "grad_norm": 0.0020152695942670107,
      "learning_rate": 1.0908638474336172e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56223080,
      "step": 96890
    },
    {
      "epoch": 14.431784331248139,
      "grad_norm": 0.09518206864595413,
      "learning_rate": 1.0905954536537551e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56225896,
      "step": 96895
    },
    {
      "epoch": 14.432529043789097,
      "grad_norm": 0.5112316608428955,
      "learning_rate": 1.0903270836843499e-05,
      "loss": 0.1005,
      "num_input_tokens_seen": 56229128,
      "step": 96900
    },
    {
      "epoch": 14.433273756330056,
      "grad_norm": 0.0016989844152703881,
      "learning_rate": 1.0900587375299365e-05,
      "loss": 0.0191,
      "num_input_tokens_seen": 56232104,
      "step": 96905
    },
    {
      "epoch": 14.434018468871017,
      "grad_norm": 0.0012186949606984854,
      "learning_rate": 1.0897904151950469e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56234920,
      "step": 96910
    },
    {
      "epoch": 14.434763181411975,
      "grad_norm": 0.0002652158436831087,
      "learning_rate": 1.089522116684216e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56237896,
      "step": 96915
    },
    {
      "epoch": 14.435507893952934,
      "grad_norm": 1.3789078366244212e-05,
      "learning_rate": 1.0892538420019744e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56240456,
      "step": 96920
    },
    {
      "epoch": 14.436252606493893,
      "grad_norm": 0.0001331049861619249,
      "learning_rate": 1.0889855911528562e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56243432,
      "step": 96925
    },
    {
      "epoch": 14.436997319034852,
      "grad_norm": 0.0004893880104646087,
      "learning_rate": 1.0887173641413923e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56246312,
      "step": 96930
    },
    {
      "epoch": 14.437742031575812,
      "grad_norm": 7.347534847212955e-05,
      "learning_rate": 1.0884491609721133e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 56249352,
      "step": 96935
    },
    {
      "epoch": 14.438486744116771,
      "grad_norm": 1.173017608380178e-05,
      "learning_rate": 1.088180981649552e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56252360,
      "step": 96940
    },
    {
      "epoch": 14.43923145665773,
      "grad_norm": 0.00021233304869383574,
      "learning_rate": 1.0879128261782382e-05,
      "loss": 0.1283,
      "num_input_tokens_seen": 56255208,
      "step": 96945
    },
    {
      "epoch": 14.439976169198689,
      "grad_norm": 0.00037274675560183823,
      "learning_rate": 1.0876446945627019e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56258216,
      "step": 96950
    },
    {
      "epoch": 14.440720881739649,
      "grad_norm": 9.650886204326525e-05,
      "learning_rate": 1.0873765868074723e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56261512,
      "step": 96955
    },
    {
      "epoch": 14.441465594280608,
      "grad_norm": 0.00011495889339130372,
      "learning_rate": 1.0871085029170802e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56264328,
      "step": 96960
    },
    {
      "epoch": 14.442210306821567,
      "grad_norm": 0.0003739146632142365,
      "learning_rate": 1.0868404428960532e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56267496,
      "step": 96965
    },
    {
      "epoch": 14.442955019362525,
      "grad_norm": 4.32269598604762e-06,
      "learning_rate": 1.0865724067489214e-05,
      "loss": 0.0532,
      "num_input_tokens_seen": 56270536,
      "step": 96970
    },
    {
      "epoch": 14.443699731903486,
      "grad_norm": 0.0011288983514532447,
      "learning_rate": 1.0863043944802123e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56273448,
      "step": 96975
    },
    {
      "epoch": 14.444444444444445,
      "grad_norm": 0.0002287876995978877,
      "learning_rate": 1.0860364060944527e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56276328,
      "step": 96980
    },
    {
      "epoch": 14.445189156985403,
      "grad_norm": 5.008905645809136e-05,
      "learning_rate": 1.0857684415961721e-05,
      "loss": 0.0451,
      "num_input_tokens_seen": 56279016,
      "step": 96985
    },
    {
      "epoch": 14.445933869526362,
      "grad_norm": 0.0004887741524726152,
      "learning_rate": 1.0855005009898953e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 56281928,
      "step": 96990
    },
    {
      "epoch": 14.446678582067323,
      "grad_norm": 0.0001929593418026343,
      "learning_rate": 1.0852325842801506e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 56284776,
      "step": 96995
    },
    {
      "epoch": 14.447423294608281,
      "grad_norm": 0.0006435940740630031,
      "learning_rate": 1.0849646914714628e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56287880,
      "step": 97000
    },
    {
      "epoch": 14.44816800714924,
      "grad_norm": 9.841224670410156,
      "learning_rate": 1.0846968225683591e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 56290664,
      "step": 97005
    },
    {
      "epoch": 14.448912719690199,
      "grad_norm": 2.773182131932117e-05,
      "learning_rate": 1.0844289775753645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56293736,
      "step": 97010
    },
    {
      "epoch": 14.44965743223116,
      "grad_norm": 9.102951298700646e-05,
      "learning_rate": 1.084161156497003e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56296584,
      "step": 97015
    },
    {
      "epoch": 14.450402144772118,
      "grad_norm": 0.045766353607177734,
      "learning_rate": 1.0838933593378e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56299528,
      "step": 97020
    },
    {
      "epoch": 14.451146857313077,
      "grad_norm": 3.0346627681865357e-05,
      "learning_rate": 1.0836255861022788e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56302344,
      "step": 97025
    },
    {
      "epoch": 14.451891569854036,
      "grad_norm": 0.00013970628788229078,
      "learning_rate": 1.0833578367949646e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56305160,
      "step": 97030
    },
    {
      "epoch": 14.452636282394996,
      "grad_norm": 0.0005218345322646201,
      "learning_rate": 1.0830901114203786e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56308168,
      "step": 97035
    },
    {
      "epoch": 14.453380994935955,
      "grad_norm": 0.00038338464219123125,
      "learning_rate": 1.0828224099830464e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 56310984,
      "step": 97040
    },
    {
      "epoch": 14.454125707476914,
      "grad_norm": 2.4831464543240145e-05,
      "learning_rate": 1.0825547324874883e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56313992,
      "step": 97045
    },
    {
      "epoch": 14.454870420017873,
      "grad_norm": 0.00033725256798788905,
      "learning_rate": 1.0822870789382283e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56316584,
      "step": 97050
    },
    {
      "epoch": 14.455615132558833,
      "grad_norm": 0.12131823599338531,
      "learning_rate": 1.082019449339787e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 56319624,
      "step": 97055
    },
    {
      "epoch": 14.456359845099792,
      "grad_norm": 0.0002660883474163711,
      "learning_rate": 1.0817518436966852e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56323080,
      "step": 97060
    },
    {
      "epoch": 14.45710455764075,
      "grad_norm": 2.1842297428520396e-05,
      "learning_rate": 1.0814842620134456e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56326056,
      "step": 97065
    },
    {
      "epoch": 14.45784927018171,
      "grad_norm": 0.00014785419625695795,
      "learning_rate": 1.0812167042945864e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56328936,
      "step": 97070
    },
    {
      "epoch": 14.458593982722668,
      "grad_norm": 0.0005252099363133311,
      "learning_rate": 1.08094917054463e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56332360,
      "step": 97075
    },
    {
      "epoch": 14.459338695263629,
      "grad_norm": 0.02301560342311859,
      "learning_rate": 1.0806816607680954e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56335112,
      "step": 97080
    },
    {
      "epoch": 14.460083407804587,
      "grad_norm": 11.154605865478516,
      "learning_rate": 1.0804141749695012e-05,
      "loss": 0.0056,
      "num_input_tokens_seen": 56337928,
      "step": 97085
    },
    {
      "epoch": 14.460828120345546,
      "grad_norm": 1.8097602151101455e-05,
      "learning_rate": 1.0801467131533669e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56340936,
      "step": 97090
    },
    {
      "epoch": 14.461572832886505,
      "grad_norm": 0.042157530784606934,
      "learning_rate": 1.0798792753242099e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56343912,
      "step": 97095
    },
    {
      "epoch": 14.462317545427466,
      "grad_norm": 2.2600561351282522e-05,
      "learning_rate": 1.0796118614865503e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56346792,
      "step": 97100
    },
    {
      "epoch": 14.463062257968424,
      "grad_norm": 0.00021853182988706976,
      "learning_rate": 1.0793444716449033e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56349576,
      "step": 97105
    },
    {
      "epoch": 14.463806970509383,
      "grad_norm": 0.0001044040109263733,
      "learning_rate": 1.0790771058037889e-05,
      "loss": 0.1131,
      "num_input_tokens_seen": 56352072,
      "step": 97110
    },
    {
      "epoch": 14.464551683050342,
      "grad_norm": 0.07575678825378418,
      "learning_rate": 1.0788097639677216e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56354920,
      "step": 97115
    },
    {
      "epoch": 14.465296395591302,
      "grad_norm": 0.009772571735084057,
      "learning_rate": 1.0785424461412197e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56357640,
      "step": 97120
    },
    {
      "epoch": 14.466041108132261,
      "grad_norm": 0.00014568582992069423,
      "learning_rate": 1.0782751523287977e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56360584,
      "step": 97125
    },
    {
      "epoch": 14.46678582067322,
      "grad_norm": 0.0007863091886974871,
      "learning_rate": 1.0780078825349729e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56363240,
      "step": 97130
    },
    {
      "epoch": 14.467530533214179,
      "grad_norm": 0.001799557008780539,
      "learning_rate": 1.0777406367642595e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56366152,
      "step": 97135
    },
    {
      "epoch": 14.46827524575514,
      "grad_norm": 0.00012963324843440205,
      "learning_rate": 1.0774734150211718e-05,
      "loss": 0.144,
      "num_input_tokens_seen": 56369384,
      "step": 97140
    },
    {
      "epoch": 14.469019958296098,
      "grad_norm": 0.14088225364685059,
      "learning_rate": 1.077206217310226e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56372072,
      "step": 97145
    },
    {
      "epoch": 14.469764670837057,
      "grad_norm": 0.047447320073843,
      "learning_rate": 1.0769390436359348e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56375016,
      "step": 97150
    },
    {
      "epoch": 14.470509383378015,
      "grad_norm": 0.00021353249030653387,
      "learning_rate": 1.0766718940028123e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56377768,
      "step": 97155
    },
    {
      "epoch": 14.471254095918976,
      "grad_norm": 7.5233612060546875,
      "learning_rate": 1.0764047684153705e-05,
      "loss": 0.1221,
      "num_input_tokens_seen": 56380648,
      "step": 97160
    },
    {
      "epoch": 14.471998808459935,
      "grad_norm": 0.00041836220771074295,
      "learning_rate": 1.0761376668781244e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56383880,
      "step": 97165
    },
    {
      "epoch": 14.472743521000893,
      "grad_norm": 0.0008640328887850046,
      "learning_rate": 1.0758705893955843e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56386984,
      "step": 97170
    },
    {
      "epoch": 14.473488233541852,
      "grad_norm": 0.00030170055106282234,
      "learning_rate": 1.0756035359722639e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56389800,
      "step": 97175
    },
    {
      "epoch": 14.474232946082813,
      "grad_norm": 0.0007275407551787794,
      "learning_rate": 1.0753365066126741e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56392936,
      "step": 97180
    },
    {
      "epoch": 14.474977658623772,
      "grad_norm": 0.0009718096698634326,
      "learning_rate": 1.0750695013213251e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56395784,
      "step": 97185
    },
    {
      "epoch": 14.47572237116473,
      "grad_norm": 6.406196916941553e-05,
      "learning_rate": 1.0748025201027298e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56398568,
      "step": 97190
    },
    {
      "epoch": 14.476467083705689,
      "grad_norm": 0.017817072570323944,
      "learning_rate": 1.0745355629613965e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56401576,
      "step": 97195
    },
    {
      "epoch": 14.47721179624665,
      "grad_norm": 0.2736962139606476,
      "learning_rate": 1.0742686299018368e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56404328,
      "step": 97200
    },
    {
      "epoch": 14.477956508787608,
      "grad_norm": 0.0016732014482840896,
      "learning_rate": 1.0740017209285597e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56407240,
      "step": 97205
    },
    {
      "epoch": 14.478701221328567,
      "grad_norm": 4.666062886826694e-05,
      "learning_rate": 1.0737348360460733e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56410056,
      "step": 97210
    },
    {
      "epoch": 14.479445933869526,
      "grad_norm": 3.555744478944689e-05,
      "learning_rate": 1.073467975258888e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56413000,
      "step": 97215
    },
    {
      "epoch": 14.480190646410486,
      "grad_norm": 0.00016888734535314143,
      "learning_rate": 1.0732011385715116e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56415944,
      "step": 97220
    },
    {
      "epoch": 14.480935358951445,
      "grad_norm": 1.7016223864629865e-05,
      "learning_rate": 1.0729343259884516e-05,
      "loss": 0.0027,
      "num_input_tokens_seen": 56419080,
      "step": 97225
    },
    {
      "epoch": 14.481680071492404,
      "grad_norm": 0.0003097016306128353,
      "learning_rate": 1.0726675375142151e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56422056,
      "step": 97230
    },
    {
      "epoch": 14.482424784033363,
      "grad_norm": 9.976382716558874e-05,
      "learning_rate": 1.0724007731533107e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56424680,
      "step": 97235
    },
    {
      "epoch": 14.483169496574323,
      "grad_norm": 0.0007421557675115764,
      "learning_rate": 1.072134032910243e-05,
      "loss": 0.2282,
      "num_input_tokens_seen": 56427432,
      "step": 97240
    },
    {
      "epoch": 14.483914209115282,
      "grad_norm": 9.20295569812879e-05,
      "learning_rate": 1.071867316789521e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56430568,
      "step": 97245
    },
    {
      "epoch": 14.48465892165624,
      "grad_norm": 0.0002740271738730371,
      "learning_rate": 1.0716006247956481e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56433576,
      "step": 97250
    },
    {
      "epoch": 14.4854036341972,
      "grad_norm": 0.00011378209455870092,
      "learning_rate": 1.0713339569331318e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56436360,
      "step": 97255
    },
    {
      "epoch": 14.486148346738158,
      "grad_norm": 0.026484379544854164,
      "learning_rate": 1.0710673132064764e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56439112,
      "step": 97260
    },
    {
      "epoch": 14.486893059279119,
      "grad_norm": 0.0045432280749082565,
      "learning_rate": 1.0708006936201853e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56442024,
      "step": 97265
    },
    {
      "epoch": 14.487637771820078,
      "grad_norm": 0.0014153469819575548,
      "learning_rate": 1.0705340981787648e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56444712,
      "step": 97270
    },
    {
      "epoch": 14.488382484361036,
      "grad_norm": 0.002074186224490404,
      "learning_rate": 1.070267526886718e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56447336,
      "step": 97275
    },
    {
      "epoch": 14.489127196901995,
      "grad_norm": 0.0004925321554765105,
      "learning_rate": 1.0700009797485483e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56449960,
      "step": 97280
    },
    {
      "epoch": 14.489871909442956,
      "grad_norm": 7.876452400523704e-06,
      "learning_rate": 1.0697344567687575e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56452584,
      "step": 97285
    },
    {
      "epoch": 14.490616621983914,
      "grad_norm": 5.870716995559633e-05,
      "learning_rate": 1.0694679579518508e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56455400,
      "step": 97290
    },
    {
      "epoch": 14.491361334524873,
      "grad_norm": 0.001998473657295108,
      "learning_rate": 1.0692014833023283e-05,
      "loss": 0.0573,
      "num_input_tokens_seen": 56458216,
      "step": 97295
    },
    {
      "epoch": 14.492106047065832,
      "grad_norm": 2.764671626209747e-05,
      "learning_rate": 1.0689350328246922e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56461832,
      "step": 97300
    },
    {
      "epoch": 14.492850759606792,
      "grad_norm": 0.0011379735078662634,
      "learning_rate": 1.068668606523445e-05,
      "loss": 0.0138,
      "num_input_tokens_seen": 56464840,
      "step": 97305
    },
    {
      "epoch": 14.493595472147751,
      "grad_norm": 7.926858961582184e-05,
      "learning_rate": 1.0684022044030861e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56467528,
      "step": 97310
    },
    {
      "epoch": 14.49434018468871,
      "grad_norm": 0.00032896126504056156,
      "learning_rate": 1.0681358264681176e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56470472,
      "step": 97315
    },
    {
      "epoch": 14.495084897229669,
      "grad_norm": 0.0004620155377779156,
      "learning_rate": 1.0678694727230384e-05,
      "loss": 0.0012,
      "num_input_tokens_seen": 56473384,
      "step": 97320
    },
    {
      "epoch": 14.49582960977063,
      "grad_norm": 0.00023416524345520884,
      "learning_rate": 1.0676031431723497e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 56476584,
      "step": 97325
    },
    {
      "epoch": 14.496574322311588,
      "grad_norm": 0.00022386902128346264,
      "learning_rate": 1.0673368378205492e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56479240,
      "step": 97330
    },
    {
      "epoch": 14.497319034852547,
      "grad_norm": 0.00028183741960674524,
      "learning_rate": 1.0670705566721376e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56482248,
      "step": 97335
    },
    {
      "epoch": 14.498063747393505,
      "grad_norm": 0.0003393489168956876,
      "learning_rate": 1.0668042997316126e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56484904,
      "step": 97340
    },
    {
      "epoch": 14.498808459934466,
      "grad_norm": 0.028492284938693047,
      "learning_rate": 1.0665380670034725e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56487784,
      "step": 97345
    },
    {
      "epoch": 14.499553172475425,
      "grad_norm": 41.93843460083008,
      "learning_rate": 1.0662718584922145e-05,
      "loss": 0.0043,
      "num_input_tokens_seen": 56490888,
      "step": 97350
    },
    {
      "epoch": 14.500297885016384,
      "grad_norm": 0.7412374019622803,
      "learning_rate": 1.0660056742023355e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 56493768,
      "step": 97355
    },
    {
      "epoch": 14.501042597557342,
      "grad_norm": 0.00026016257470473647,
      "learning_rate": 1.0657395141383342e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56496584,
      "step": 97360
    },
    {
      "epoch": 14.501787310098303,
      "grad_norm": 0.0002729356347117573,
      "learning_rate": 1.0654733783047052e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56499496,
      "step": 97365
    },
    {
      "epoch": 14.502532022639262,
      "grad_norm": 0.0024835558142513037,
      "learning_rate": 1.0652072667059462e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56502408,
      "step": 97370
    },
    {
      "epoch": 14.50327673518022,
      "grad_norm": 0.0011126681929454207,
      "learning_rate": 1.0649411793465525e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56505224,
      "step": 97375
    },
    {
      "epoch": 14.504021447721179,
      "grad_norm": 0.0001542506943223998,
      "learning_rate": 1.0646751162310178e-05,
      "loss": 0.3125,
      "num_input_tokens_seen": 56507848,
      "step": 97380
    },
    {
      "epoch": 14.50476616026214,
      "grad_norm": 0.0026892947498708963,
      "learning_rate": 1.0644090773638394e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56510760,
      "step": 97385
    },
    {
      "epoch": 14.505510872803098,
      "grad_norm": 0.00263919192366302,
      "learning_rate": 1.0641430627495094e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56513640,
      "step": 97390
    },
    {
      "epoch": 14.506255585344057,
      "grad_norm": 4.133473339607008e-05,
      "learning_rate": 1.063877072392524e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56516520,
      "step": 97395
    },
    {
      "epoch": 14.507000297885016,
      "grad_norm": 0.0013588970759883523,
      "learning_rate": 1.063611106297375e-05,
      "loss": 0.0139,
      "num_input_tokens_seen": 56519368,
      "step": 97400
    },
    {
      "epoch": 14.507745010425975,
      "grad_norm": 0.0035272815730422735,
      "learning_rate": 1.0633451644685572e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56522184,
      "step": 97405
    },
    {
      "epoch": 14.508489722966935,
      "grad_norm": 0.0002302859938936308,
      "learning_rate": 1.063079246910563e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56525224,
      "step": 97410
    },
    {
      "epoch": 14.509234435507894,
      "grad_norm": 4.1104763113253284e-06,
      "learning_rate": 1.0628133536278842e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56528104,
      "step": 97415
    },
    {
      "epoch": 14.509979148048853,
      "grad_norm": 0.0008363356464542449,
      "learning_rate": 1.0625474846250134e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56531176,
      "step": 97420
    },
    {
      "epoch": 14.510723860589813,
      "grad_norm": 0.0007876591407693923,
      "learning_rate": 1.062281639906441e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56534024,
      "step": 97425
    },
    {
      "epoch": 14.511468573130772,
      "grad_norm": 0.0060018072836101055,
      "learning_rate": 1.0620158194766597e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56536936,
      "step": 97430
    },
    {
      "epoch": 14.51221328567173,
      "grad_norm": 12.294495582580566,
      "learning_rate": 1.0617500233401587e-05,
      "loss": 0.0032,
      "num_input_tokens_seen": 56539496,
      "step": 97435
    },
    {
      "epoch": 14.51295799821269,
      "grad_norm": 0.00636429013684392,
      "learning_rate": 1.0614842515014303e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56542344,
      "step": 97440
    },
    {
      "epoch": 14.513702710753648,
      "grad_norm": 0.0022257650271058083,
      "learning_rate": 1.0612185039649625e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56545352,
      "step": 97445
    },
    {
      "epoch": 14.514447423294609,
      "grad_norm": 0.00011767797695938498,
      "learning_rate": 1.0609527807352469e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56548264,
      "step": 97450
    },
    {
      "epoch": 14.515192135835568,
      "grad_norm": 8.133616211125627e-05,
      "learning_rate": 1.060687081816771e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56550952,
      "step": 97455
    },
    {
      "epoch": 14.515936848376526,
      "grad_norm": 0.00034859139123000205,
      "learning_rate": 1.0604214072140233e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56553672,
      "step": 97460
    },
    {
      "epoch": 14.516681560917485,
      "grad_norm": 0.0016759992577135563,
      "learning_rate": 1.0601557569314941e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56556520,
      "step": 97465
    },
    {
      "epoch": 14.517426273458446,
      "grad_norm": 0.013985111378133297,
      "learning_rate": 1.0598901309736686e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56559208,
      "step": 97470
    },
    {
      "epoch": 14.518170985999404,
      "grad_norm": 0.0007855182630009949,
      "learning_rate": 1.0596245293450368e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56561672,
      "step": 97475
    },
    {
      "epoch": 14.518915698540363,
      "grad_norm": 5.310112101142295e-05,
      "learning_rate": 1.0593589520500846e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56564648,
      "step": 97480
    },
    {
      "epoch": 14.519660411081322,
      "grad_norm": 0.00029330828692764044,
      "learning_rate": 1.0590933990932989e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56567304,
      "step": 97485
    },
    {
      "epoch": 14.520405123622282,
      "grad_norm": 7.951740553835407e-05,
      "learning_rate": 1.0588278704791646e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56570056,
      "step": 97490
    },
    {
      "epoch": 14.521149836163241,
      "grad_norm": 0.00023188689374364913,
      "learning_rate": 1.0585623662121696e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56573032,
      "step": 97495
    },
    {
      "epoch": 14.5218945487042,
      "grad_norm": 29.685771942138672,
      "learning_rate": 1.0582968862967984e-05,
      "loss": 0.0385,
      "num_input_tokens_seen": 56575880,
      "step": 97500
    },
    {
      "epoch": 14.522639261245159,
      "grad_norm": 1.5343050956726074,
      "learning_rate": 1.0580314307375352e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 56578504,
      "step": 97505
    },
    {
      "epoch": 14.52338397378612,
      "grad_norm": 0.002375157317146659,
      "learning_rate": 1.0577659995388664e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56581352,
      "step": 97510
    },
    {
      "epoch": 14.524128686327078,
      "grad_norm": 0.0013672651257365942,
      "learning_rate": 1.0575005927052743e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56584552,
      "step": 97515
    },
    {
      "epoch": 14.524873398868037,
      "grad_norm": 0.0013457646127790213,
      "learning_rate": 1.0572352102412442e-05,
      "loss": 0.0914,
      "num_input_tokens_seen": 56587592,
      "step": 97520
    },
    {
      "epoch": 14.525618111408996,
      "grad_norm": 0.0028106747195124626,
      "learning_rate": 1.0569698521512583e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56590600,
      "step": 97525
    },
    {
      "epoch": 14.526362823949956,
      "grad_norm": 6.916087295394391e-05,
      "learning_rate": 1.0567045184398009e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56593352,
      "step": 97530
    },
    {
      "epoch": 14.527107536490915,
      "grad_norm": 0.00150398223195225,
      "learning_rate": 1.0564392091113537e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56596360,
      "step": 97535
    },
    {
      "epoch": 14.527852249031874,
      "grad_norm": 0.0003319846000522375,
      "learning_rate": 1.056173924170398e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56599336,
      "step": 97540
    },
    {
      "epoch": 14.528596961572832,
      "grad_norm": 0.0008281903574243188,
      "learning_rate": 1.0559086636214174e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56602152,
      "step": 97545
    },
    {
      "epoch": 14.529341674113793,
      "grad_norm": 0.0008767406106926501,
      "learning_rate": 1.0556434274688923e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56605064,
      "step": 97550
    },
    {
      "epoch": 14.530086386654752,
      "grad_norm": 0.0005042008706368506,
      "learning_rate": 1.0553782157173034e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56608168,
      "step": 97555
    },
    {
      "epoch": 14.53083109919571,
      "grad_norm": 4.821996481041424e-05,
      "learning_rate": 1.0551130283711302e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56611048,
      "step": 97560
    },
    {
      "epoch": 14.53157581173667,
      "grad_norm": 0.0018093130784109235,
      "learning_rate": 1.0548478654348551e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56613992,
      "step": 97565
    },
    {
      "epoch": 14.53232052427763,
      "grad_norm": 6.646203109994531e-05,
      "learning_rate": 1.0545827269129554e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56616968,
      "step": 97570
    },
    {
      "epoch": 14.533065236818588,
      "grad_norm": 0.00010539133654674515,
      "learning_rate": 1.0543176128099126e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56619880,
      "step": 97575
    },
    {
      "epoch": 14.533809949359547,
      "grad_norm": 0.0005446145660243928,
      "learning_rate": 1.0540525231302043e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56623016,
      "step": 97580
    },
    {
      "epoch": 14.534554661900506,
      "grad_norm": 9.062497701961547e-05,
      "learning_rate": 1.053787457878308e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56625928,
      "step": 97585
    },
    {
      "epoch": 14.535299374441465,
      "grad_norm": 5.406554222106934,
      "learning_rate": 1.0535224170587038e-05,
      "loss": 0.0383,
      "num_input_tokens_seen": 56628680,
      "step": 97590
    },
    {
      "epoch": 14.536044086982425,
      "grad_norm": 0.0038785687647759914,
      "learning_rate": 1.0532574006758673e-05,
      "loss": 0.1128,
      "num_input_tokens_seen": 56631400,
      "step": 97595
    },
    {
      "epoch": 14.536788799523384,
      "grad_norm": 0.0015617531025782228,
      "learning_rate": 1.0529924087342774e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56634312,
      "step": 97600
    },
    {
      "epoch": 14.537533512064343,
      "grad_norm": 0.00012544232595246285,
      "learning_rate": 1.05272744123841e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56636840,
      "step": 97605
    },
    {
      "epoch": 14.538278224605303,
      "grad_norm": 0.007307466585189104,
      "learning_rate": 1.0524624981927416e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56639592,
      "step": 97610
    },
    {
      "epoch": 14.539022937146262,
      "grad_norm": 4.4781558244721964e-05,
      "learning_rate": 1.0521975796017483e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56642952,
      "step": 97615
    },
    {
      "epoch": 14.53976764968722,
      "grad_norm": 48.305206298828125,
      "learning_rate": 1.0519326854699043e-05,
      "loss": 0.2705,
      "num_input_tokens_seen": 56645704,
      "step": 97620
    },
    {
      "epoch": 14.54051236222818,
      "grad_norm": 0.00018503786122892052,
      "learning_rate": 1.0516678158016868e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56648552,
      "step": 97625
    },
    {
      "epoch": 14.541257074769138,
      "grad_norm": 0.0002666666987352073,
      "learning_rate": 1.0514029706015687e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56651176,
      "step": 97630
    },
    {
      "epoch": 14.542001787310099,
      "grad_norm": 0.00012266043631825596,
      "learning_rate": 1.051138149874026e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56654024,
      "step": 97635
    },
    {
      "epoch": 14.542746499851058,
      "grad_norm": 0.0252541396766901,
      "learning_rate": 1.0508733536235307e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56657160,
      "step": 97640
    },
    {
      "epoch": 14.543491212392016,
      "grad_norm": 0.00026720177265815437,
      "learning_rate": 1.0506085818545582e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56660232,
      "step": 97645
    },
    {
      "epoch": 14.544235924932975,
      "grad_norm": 0.00023549897014163435,
      "learning_rate": 1.0503438345715798e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56662984,
      "step": 97650
    },
    {
      "epoch": 14.544980637473936,
      "grad_norm": 8.527285535819829e-05,
      "learning_rate": 1.0500791117790699e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56665928,
      "step": 97655
    },
    {
      "epoch": 14.545725350014894,
      "grad_norm": 0.0005472005577757955,
      "learning_rate": 1.0498144134814996e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56668712,
      "step": 97660
    },
    {
      "epoch": 14.546470062555853,
      "grad_norm": 0.4971819519996643,
      "learning_rate": 1.04954973968334e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 56671496,
      "step": 97665
    },
    {
      "epoch": 14.547214775096812,
      "grad_norm": 2.357689845666755e-05,
      "learning_rate": 1.0492850903890644e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56674216,
      "step": 97670
    },
    {
      "epoch": 14.547959487637772,
      "grad_norm": 0.001358831999823451,
      "learning_rate": 1.0490204656031427e-05,
      "loss": 0.0618,
      "num_input_tokens_seen": 56677064,
      "step": 97675
    },
    {
      "epoch": 14.548704200178731,
      "grad_norm": 2.6016297852038406e-05,
      "learning_rate": 1.0487558653300455e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56679848,
      "step": 97680
    },
    {
      "epoch": 14.54944891271969,
      "grad_norm": 8.180416625691578e-05,
      "learning_rate": 1.0484912895742422e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56682856,
      "step": 97685
    },
    {
      "epoch": 14.550193625260649,
      "grad_norm": 0.00014956087397877127,
      "learning_rate": 1.0482267383402041e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56685672,
      "step": 97690
    },
    {
      "epoch": 14.55093833780161,
      "grad_norm": 0.000502756389323622,
      "learning_rate": 1.0479622116323997e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56689096,
      "step": 97695
    },
    {
      "epoch": 14.551683050342568,
      "grad_norm": 0.006604068912565708,
      "learning_rate": 1.047697709455297e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56692584,
      "step": 97700
    },
    {
      "epoch": 14.552427762883527,
      "grad_norm": 8.970962524414062,
      "learning_rate": 1.0474332318133664e-05,
      "loss": 0.0008,
      "num_input_tokens_seen": 56695432,
      "step": 97705
    },
    {
      "epoch": 14.553172475424486,
      "grad_norm": 0.0027031779754906893,
      "learning_rate": 1.0471687787110743e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56698472,
      "step": 97710
    },
    {
      "epoch": 14.553917187965446,
      "grad_norm": 0.001098554115742445,
      "learning_rate": 1.04690435015289e-05,
      "loss": 0.0059,
      "num_input_tokens_seen": 56701384,
      "step": 97715
    },
    {
      "epoch": 14.554661900506405,
      "grad_norm": 0.0009598334436304867,
      "learning_rate": 1.0466399461432785e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56704424,
      "step": 97720
    },
    {
      "epoch": 14.555406613047364,
      "grad_norm": 0.004936750512570143,
      "learning_rate": 1.0463755666867093e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56707464,
      "step": 97725
    },
    {
      "epoch": 14.556151325588322,
      "grad_norm": 0.0009372715721838176,
      "learning_rate": 1.0461112117876464e-05,
      "loss": 0.2813,
      "num_input_tokens_seen": 56710568,
      "step": 97730
    },
    {
      "epoch": 14.556896038129283,
      "grad_norm": 0.0021102402824908495,
      "learning_rate": 1.0458468814505578e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56713544,
      "step": 97735
    },
    {
      "epoch": 14.557640750670242,
      "grad_norm": 0.00044695931137539446,
      "learning_rate": 1.0455825756799084e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56716392,
      "step": 97740
    },
    {
      "epoch": 14.5583854632112,
      "grad_norm": 0.006361160892993212,
      "learning_rate": 1.0453182944801631e-05,
      "loss": 0.0009,
      "num_input_tokens_seen": 56719240,
      "step": 97745
    },
    {
      "epoch": 14.55913017575216,
      "grad_norm": 0.0002305370435351506,
      "learning_rate": 1.045054037855787e-05,
      "loss": 0.1563,
      "num_input_tokens_seen": 56721992,
      "step": 97750
    },
    {
      "epoch": 14.55987488829312,
      "grad_norm": 0.0007346900529228151,
      "learning_rate": 1.0447898058112427e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56724616,
      "step": 97755
    },
    {
      "epoch": 14.560619600834078,
      "grad_norm": 0.0030029481276869774,
      "learning_rate": 1.0445255983509969e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56727720,
      "step": 97760
    },
    {
      "epoch": 14.561364313375037,
      "grad_norm": 19.131301879882812,
      "learning_rate": 1.0442614154795107e-05,
      "loss": 0.2634,
      "num_input_tokens_seen": 56730792,
      "step": 97765
    },
    {
      "epoch": 14.562109025915996,
      "grad_norm": 0.0018778948578983545,
      "learning_rate": 1.0439972572012496e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56733960,
      "step": 97770
    },
    {
      "epoch": 14.562853738456955,
      "grad_norm": 0.0009401400457136333,
      "learning_rate": 1.0437331235206737e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 56736936,
      "step": 97775
    },
    {
      "epoch": 14.563598450997915,
      "grad_norm": 0.0005844564293511212,
      "learning_rate": 1.043469014442248e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56739976,
      "step": 97780
    },
    {
      "epoch": 14.564343163538874,
      "grad_norm": 0.0006447081686928868,
      "learning_rate": 1.0432049299704324e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56743272,
      "step": 97785
    },
    {
      "epoch": 14.565087876079833,
      "grad_norm": 0.0004750067600980401,
      "learning_rate": 1.0429408701096884e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56746376,
      "step": 97790
    },
    {
      "epoch": 14.565832588620792,
      "grad_norm": 0.002230212092399597,
      "learning_rate": 1.0426768348644782e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 56749064,
      "step": 97795
    },
    {
      "epoch": 14.566577301161752,
      "grad_norm": 0.039443489164114,
      "learning_rate": 1.042412824239261e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56752136,
      "step": 97800
    },
    {
      "epoch": 14.56732201370271,
      "grad_norm": 0.00025600389926694334,
      "learning_rate": 1.0421488382384986e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56754792,
      "step": 97805
    },
    {
      "epoch": 14.56806672624367,
      "grad_norm": 0.0006158928154036403,
      "learning_rate": 1.0418848768666498e-05,
      "loss": 0.0011,
      "num_input_tokens_seen": 56757576,
      "step": 97810
    },
    {
      "epoch": 14.568811438784628,
      "grad_norm": 0.0014363747322931886,
      "learning_rate": 1.041620940128174e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56760584,
      "step": 97815
    },
    {
      "epoch": 14.569556151325589,
      "grad_norm": 0.00016366604540962726,
      "learning_rate": 1.04135702802753e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56763336,
      "step": 97820
    },
    {
      "epoch": 14.570300863866548,
      "grad_norm": 0.0031102111097425222,
      "learning_rate": 1.041093140569176e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56766376,
      "step": 97825
    },
    {
      "epoch": 14.571045576407506,
      "grad_norm": 0.004371330142021179,
      "learning_rate": 1.0408292777575712e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56769544,
      "step": 97830
    },
    {
      "epoch": 14.571790288948465,
      "grad_norm": 44.619850158691406,
      "learning_rate": 1.040565439597172e-05,
      "loss": 0.2096,
      "num_input_tokens_seen": 56772488,
      "step": 97835
    },
    {
      "epoch": 14.572535001489426,
      "grad_norm": 0.09797245264053345,
      "learning_rate": 1.0403016260924373e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56775176,
      "step": 97840
    },
    {
      "epoch": 14.573279714030384,
      "grad_norm": 0.0004998449003323913,
      "learning_rate": 1.040037837247822e-05,
      "loss": 0.0098,
      "num_input_tokens_seen": 56777992,
      "step": 97845
    },
    {
      "epoch": 14.574024426571343,
      "grad_norm": 0.006780080962926149,
      "learning_rate": 1.0397740730677845e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56780808,
      "step": 97850
    },
    {
      "epoch": 14.574769139112302,
      "grad_norm": 0.001141629763878882,
      "learning_rate": 1.0395103335567794e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56783560,
      "step": 97855
    },
    {
      "epoch": 14.575513851653263,
      "grad_norm": 0.0033553692046552896,
      "learning_rate": 1.0392466187192634e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56786376,
      "step": 97860
    },
    {
      "epoch": 14.576258564194221,
      "grad_norm": 0.00012584865908138454,
      "learning_rate": 1.0389829285596914e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56789544,
      "step": 97865
    },
    {
      "epoch": 14.57700327673518,
      "grad_norm": 0.0006429131026379764,
      "learning_rate": 1.0387192630825168e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56792584,
      "step": 97870
    },
    {
      "epoch": 14.577747989276139,
      "grad_norm": 0.0017852624878287315,
      "learning_rate": 1.038455622292196e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56795400,
      "step": 97875
    },
    {
      "epoch": 14.5784927018171,
      "grad_norm": 0.05196843668818474,
      "learning_rate": 1.0381920061931818e-05,
      "loss": 0.0548,
      "num_input_tokens_seen": 56799368,
      "step": 97880
    },
    {
      "epoch": 14.579237414358058,
      "grad_norm": 0.0001283949677599594,
      "learning_rate": 1.0379284147899281e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56802120,
      "step": 97885
    },
    {
      "epoch": 14.579982126899017,
      "grad_norm": 0.0008009924786165357,
      "learning_rate": 1.0376648480868872e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56805032,
      "step": 97890
    },
    {
      "epoch": 14.580726839439976,
      "grad_norm": 0.010037376545369625,
      "learning_rate": 1.0374013060885133e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56807656,
      "step": 97895
    },
    {
      "epoch": 14.581471551980936,
      "grad_norm": 4.498428461374715e-05,
      "learning_rate": 1.0371377887992575e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56811688,
      "step": 97900
    },
    {
      "epoch": 14.582216264521895,
      "grad_norm": 0.00033390274620614946,
      "learning_rate": 1.036874296223571e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56814632,
      "step": 97905
    },
    {
      "epoch": 14.582960977062854,
      "grad_norm": 0.0021212163846939802,
      "learning_rate": 1.0366108283659077e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56817352,
      "step": 97910
    },
    {
      "epoch": 14.583705689603812,
      "grad_norm": 0.0003365736920386553,
      "learning_rate": 1.0363473852307157e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56820072,
      "step": 97915
    },
    {
      "epoch": 14.584450402144771,
      "grad_norm": 0.0028321719728410244,
      "learning_rate": 1.0360839668224481e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56823080,
      "step": 97920
    },
    {
      "epoch": 14.585195114685732,
      "grad_norm": 0.0022341699805110693,
      "learning_rate": 1.0358205731455531e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56826024,
      "step": 97925
    },
    {
      "epoch": 14.58593982722669,
      "grad_norm": 0.004214155022054911,
      "learning_rate": 1.0355572042044823e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56828616,
      "step": 97930
    },
    {
      "epoch": 14.58668453976765,
      "grad_norm": 0.0005012823967263103,
      "learning_rate": 1.0352938600036843e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 56831528,
      "step": 97935
    },
    {
      "epoch": 14.58742925230861,
      "grad_norm": 0.006326564587652683,
      "learning_rate": 1.0350305405476076e-05,
      "loss": 0.0119,
      "num_input_tokens_seen": 56834632,
      "step": 97940
    },
    {
      "epoch": 14.588173964849569,
      "grad_norm": 0.0008687461959198117,
      "learning_rate": 1.0347672458407012e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56837640,
      "step": 97945
    },
    {
      "epoch": 14.588918677390527,
      "grad_norm": 0.01979893445968628,
      "learning_rate": 1.034503975887412e-05,
      "loss": 0.0089,
      "num_input_tokens_seen": 56840584,
      "step": 97950
    },
    {
      "epoch": 14.589663389931486,
      "grad_norm": 0.0005096908425912261,
      "learning_rate": 1.0342407306921894e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56843688,
      "step": 97955
    },
    {
      "epoch": 14.590408102472445,
      "grad_norm": 0.0012787994928658009,
      "learning_rate": 1.0339775102594793e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56846376,
      "step": 97960
    },
    {
      "epoch": 14.591152815013405,
      "grad_norm": 0.00010096184996655211,
      "learning_rate": 1.0337143145937301e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56849032,
      "step": 97965
    },
    {
      "epoch": 14.591897527554364,
      "grad_norm": 0.0020914324559271336,
      "learning_rate": 1.0334511436993863e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56851848,
      "step": 97970
    },
    {
      "epoch": 14.592642240095323,
      "grad_norm": 0.00768303731456399,
      "learning_rate": 1.0331879975808956e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56854376,
      "step": 97975
    },
    {
      "epoch": 14.593386952636282,
      "grad_norm": 0.03885243460536003,
      "learning_rate": 1.032924876242703e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56857160,
      "step": 97980
    },
    {
      "epoch": 14.594131665177242,
      "grad_norm": 0.0005725319497287273,
      "learning_rate": 1.0326617796892527e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56859944,
      "step": 97985
    },
    {
      "epoch": 14.594876377718201,
      "grad_norm": 0.01592419482767582,
      "learning_rate": 1.0323987079249911e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56862856,
      "step": 97990
    },
    {
      "epoch": 14.59562109025916,
      "grad_norm": 0.0010286078322678804,
      "learning_rate": 1.0321356609543608e-05,
      "loss": 0.2345,
      "num_input_tokens_seen": 56865608,
      "step": 97995
    },
    {
      "epoch": 14.596365802800118,
      "grad_norm": 0.0012760469689965248,
      "learning_rate": 1.0318726387818078e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56868488,
      "step": 98000
    },
    {
      "epoch": 14.597110515341079,
      "grad_norm": 0.0016444900538772345,
      "learning_rate": 1.0316096414117744e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56871400,
      "step": 98005
    },
    {
      "epoch": 14.597855227882038,
      "grad_norm": 0.0003439602442085743,
      "learning_rate": 1.0313466688487034e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56874120,
      "step": 98010
    },
    {
      "epoch": 14.598599940422996,
      "grad_norm": 0.0005420461529865861,
      "learning_rate": 1.031083721097037e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56877064,
      "step": 98015
    },
    {
      "epoch": 14.599344652963955,
      "grad_norm": 0.004355359356850386,
      "learning_rate": 1.0308207981612191e-05,
      "loss": 0.0021,
      "num_input_tokens_seen": 56880072,
      "step": 98020
    },
    {
      "epoch": 14.600089365504916,
      "grad_norm": 0.0010896663879975677,
      "learning_rate": 1.0305579000456907e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56882728,
      "step": 98025
    },
    {
      "epoch": 14.600834078045875,
      "grad_norm": 0.00011360458302078769,
      "learning_rate": 1.0302950267548922e-05,
      "loss": 0.0024,
      "num_input_tokens_seen": 56885640,
      "step": 98030
    },
    {
      "epoch": 14.601578790586833,
      "grad_norm": 0.00021187694801483303,
      "learning_rate": 1.0300321782932663e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56888584,
      "step": 98035
    },
    {
      "epoch": 14.602323503127792,
      "grad_norm": 0.0016291179927065969,
      "learning_rate": 1.0297693546652518e-05,
      "loss": 0.1196,
      "num_input_tokens_seen": 56891816,
      "step": 98040
    },
    {
      "epoch": 14.603068215668753,
      "grad_norm": 0.0004102070815861225,
      "learning_rate": 1.0295065558752905e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56894408,
      "step": 98045
    },
    {
      "epoch": 14.603812928209711,
      "grad_norm": 0.014729865826666355,
      "learning_rate": 1.0292437819278208e-05,
      "loss": 0.0623,
      "num_input_tokens_seen": 56897352,
      "step": 98050
    },
    {
      "epoch": 14.60455764075067,
      "grad_norm": 0.007898380048573017,
      "learning_rate": 1.0289810328272836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56900392,
      "step": 98055
    },
    {
      "epoch": 14.605302353291629,
      "grad_norm": 0.0001329406804870814,
      "learning_rate": 1.0287183085781165e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56902952,
      "step": 98060
    },
    {
      "epoch": 14.60604706583259,
      "grad_norm": 0.005336251575499773,
      "learning_rate": 1.0284556091847575e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56905864,
      "step": 98065
    },
    {
      "epoch": 14.606791778373548,
      "grad_norm": 0.002032776130363345,
      "learning_rate": 1.028192934651646e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56908744,
      "step": 98070
    },
    {
      "epoch": 14.607536490914507,
      "grad_norm": 0.0001884565135696903,
      "learning_rate": 1.0279302849832192e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56911432,
      "step": 98075
    },
    {
      "epoch": 14.608281203455466,
      "grad_norm": 0.0021419916301965714,
      "learning_rate": 1.027667660183914e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56913960,
      "step": 98080
    },
    {
      "epoch": 14.609025915996426,
      "grad_norm": 0.0025763537269085646,
      "learning_rate": 1.0274050602581667e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56916680,
      "step": 98085
    },
    {
      "epoch": 14.609770628537385,
      "grad_norm": 9.851291542872787e-05,
      "learning_rate": 1.0271424852104147e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56919272,
      "step": 98090
    },
    {
      "epoch": 14.610515341078344,
      "grad_norm": 0.00036532324156723917,
      "learning_rate": 1.0268799350450928e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56922280,
      "step": 98095
    },
    {
      "epoch": 14.611260053619302,
      "grad_norm": 0.012366839684545994,
      "learning_rate": 1.026617409766638e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56925096,
      "step": 98100
    },
    {
      "epoch": 14.612004766160261,
      "grad_norm": 5.3250631026457995e-05,
      "learning_rate": 1.0263549093794847e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56928200,
      "step": 98105
    },
    {
      "epoch": 14.612749478701222,
      "grad_norm": 0.00021109833323862404,
      "learning_rate": 1.0260924338880665e-05,
      "loss": 0.0049,
      "num_input_tokens_seen": 56931240,
      "step": 98110
    },
    {
      "epoch": 14.61349419124218,
      "grad_norm": 0.0296226404607296,
      "learning_rate": 1.0258299832968196e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56934376,
      "step": 98115
    },
    {
      "epoch": 14.61423890378314,
      "grad_norm": 6.038690116838552e-05,
      "learning_rate": 1.0255675576101759e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56937416,
      "step": 98120
    },
    {
      "epoch": 14.6149836163241,
      "grad_norm": 6.620575904846191,
      "learning_rate": 1.0253051568325705e-05,
      "loss": 0.0463,
      "num_input_tokens_seen": 56940424,
      "step": 98125
    },
    {
      "epoch": 14.615728328865059,
      "grad_norm": 0.00250362791121006,
      "learning_rate": 1.0250427809684349e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56943592,
      "step": 98130
    },
    {
      "epoch": 14.616473041406017,
      "grad_norm": 0.0006894114776514471,
      "learning_rate": 1.0247804300222034e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56946248,
      "step": 98135
    },
    {
      "epoch": 14.617217753946976,
      "grad_norm": 0.0020558955147862434,
      "learning_rate": 1.0245181039983068e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 56949192,
      "step": 98140
    },
    {
      "epoch": 14.617962466487935,
      "grad_norm": 0.00021464773453772068,
      "learning_rate": 1.0242558029011776e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 56951848,
      "step": 98145
    },
    {
      "epoch": 14.618707179028895,
      "grad_norm": 0.0005993471131660044,
      "learning_rate": 1.0239935267352466e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56954440,
      "step": 98150
    },
    {
      "epoch": 14.619451891569854,
      "grad_norm": 0.0021984807681292295,
      "learning_rate": 1.023731275504944e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56957512,
      "step": 98155
    },
    {
      "epoch": 14.620196604110813,
      "grad_norm": 0.00906110554933548,
      "learning_rate": 1.023469049214702e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 56960232,
      "step": 98160
    },
    {
      "epoch": 14.620941316651772,
      "grad_norm": 0.0014500695979222655,
      "learning_rate": 1.0232068478689488e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56963016,
      "step": 98165
    },
    {
      "epoch": 14.621686029192732,
      "grad_norm": 0.002097239950671792,
      "learning_rate": 1.0229446714721158e-05,
      "loss": 0.1412,
      "num_input_tokens_seen": 56965736,
      "step": 98170
    },
    {
      "epoch": 14.622430741733691,
      "grad_norm": 0.00019466865342110395,
      "learning_rate": 1.0226825200286306e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56968328,
      "step": 98175
    },
    {
      "epoch": 14.62317545427465,
      "grad_norm": 34.00611114501953,
      "learning_rate": 1.0224203935429235e-05,
      "loss": 0.0037,
      "num_input_tokens_seen": 56971240,
      "step": 98180
    },
    {
      "epoch": 14.623920166815608,
      "grad_norm": 0.0006060891319066286,
      "learning_rate": 1.0221582920194223e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56974120,
      "step": 98185
    },
    {
      "epoch": 14.624664879356569,
      "grad_norm": 4.431293564266525e-05,
      "learning_rate": 1.0218962154625535e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56977064,
      "step": 98190
    },
    {
      "epoch": 14.625409591897528,
      "grad_norm": 0.00400160625576973,
      "learning_rate": 1.021634163876747e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 56980296,
      "step": 98195
    },
    {
      "epoch": 14.626154304438487,
      "grad_norm": 0.000695799826644361,
      "learning_rate": 1.0213721372664279e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56983240,
      "step": 98200
    },
    {
      "epoch": 14.626899016979445,
      "grad_norm": 10.48625659942627,
      "learning_rate": 1.0211101356360245e-05,
      "loss": 0.0113,
      "num_input_tokens_seen": 56986184,
      "step": 98205
    },
    {
      "epoch": 14.627643729520406,
      "grad_norm": 0.019832810387015343,
      "learning_rate": 1.0208481589899623e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 56989288,
      "step": 98210
    },
    {
      "epoch": 14.628388442061365,
      "grad_norm": 0.0006100570317357779,
      "learning_rate": 1.0205862073326673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56992232,
      "step": 98215
    },
    {
      "epoch": 14.629133154602323,
      "grad_norm": 0.001169079216197133,
      "learning_rate": 1.0203242806685645e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 56995112,
      "step": 98220
    },
    {
      "epoch": 14.629877867143282,
      "grad_norm": 44.021602630615234,
      "learning_rate": 1.0200623790020782e-05,
      "loss": 0.0131,
      "num_input_tokens_seen": 56998344,
      "step": 98225
    },
    {
      "epoch": 14.630622579684243,
      "grad_norm": 0.0027413784991949797,
      "learning_rate": 1.0198005023376347e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57001192,
      "step": 98230
    },
    {
      "epoch": 14.631367292225201,
      "grad_norm": 0.0003104919451288879,
      "learning_rate": 1.0195386506796567e-05,
      "loss": 0.0079,
      "num_input_tokens_seen": 57004104,
      "step": 98235
    },
    {
      "epoch": 14.63211200476616,
      "grad_norm": 0.48616844415664673,
      "learning_rate": 1.0192768240325693e-05,
      "loss": 0.0007,
      "num_input_tokens_seen": 57007272,
      "step": 98240
    },
    {
      "epoch": 14.632856717307119,
      "grad_norm": 0.0002553434460423887,
      "learning_rate": 1.019015022400794e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57010184,
      "step": 98245
    },
    {
      "epoch": 14.63360142984808,
      "grad_norm": 0.02625134028494358,
      "learning_rate": 1.0187532457887557e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 57013000,
      "step": 98250
    },
    {
      "epoch": 14.634346142389038,
      "grad_norm": 0.0006347595481202006,
      "learning_rate": 1.018491494200875e-05,
      "loss": 0.0002,
      "num_input_tokens_seen": 57015848,
      "step": 98255
    },
    {
      "epoch": 14.635090854929997,
      "grad_norm": 0.007691436912864447,
      "learning_rate": 1.0182297676415755e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57018600,
      "step": 98260
    },
    {
      "epoch": 14.635835567470956,
      "grad_norm": 8.383707609027624e-05,
      "learning_rate": 1.0179680661152782e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57021256,
      "step": 98265
    },
    {
      "epoch": 14.636580280011916,
      "grad_norm": 0.04921380430459976,
      "learning_rate": 1.0177063896264042e-05,
      "loss": 0.1221,
      "num_input_tokens_seen": 57024072,
      "step": 98270
    },
    {
      "epoch": 14.637324992552875,
      "grad_norm": 0.0008583184680901468,
      "learning_rate": 1.0174447381793739e-05,
      "loss": 0.1064,
      "num_input_tokens_seen": 57026888,
      "step": 98275
    },
    {
      "epoch": 14.638069705093834,
      "grad_norm": 0.0036189628299325705,
      "learning_rate": 1.0171831117786074e-05,
      "loss": 0.2534,
      "num_input_tokens_seen": 57029928,
      "step": 98280
    },
    {
      "epoch": 14.638814417634793,
      "grad_norm": 0.0015057927230373025,
      "learning_rate": 1.016921510428526e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57032616,
      "step": 98285
    },
    {
      "epoch": 14.639559130175751,
      "grad_norm": 0.0003368289035279304,
      "learning_rate": 1.0166599341335473e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57035400,
      "step": 98290
    },
    {
      "epoch": 14.640303842716712,
      "grad_norm": 0.010732931084930897,
      "learning_rate": 1.0163983828980922e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57038024,
      "step": 98295
    },
    {
      "epoch": 14.64104855525767,
      "grad_norm": 0.035949744284152985,
      "learning_rate": 1.016136856726579e-05,
      "loss": 0.1029,
      "num_input_tokens_seen": 57041032,
      "step": 98300
    },
    {
      "epoch": 14.64179326779863,
      "grad_norm": 0.02293149195611477,
      "learning_rate": 1.015875355623424e-05,
      "loss": 0.0033,
      "num_input_tokens_seen": 57043816,
      "step": 98305
    },
    {
      "epoch": 14.642537980339588,
      "grad_norm": 0.000972694659139961,
      "learning_rate": 1.0156138795930479e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57046696,
      "step": 98310
    },
    {
      "epoch": 14.643282692880549,
      "grad_norm": 0.07320179790258408,
      "learning_rate": 1.0153524286398656e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57049576,
      "step": 98315
    },
    {
      "epoch": 14.644027405421507,
      "grad_norm": 0.00020884830155409873,
      "learning_rate": 1.0150910027682958e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57052360,
      "step": 98320
    },
    {
      "epoch": 14.644772117962466,
      "grad_norm": 0.0021124861668795347,
      "learning_rate": 1.0148296019827535e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57055080,
      "step": 98325
    },
    {
      "epoch": 14.645516830503425,
      "grad_norm": 0.0007272532675415277,
      "learning_rate": 1.0145682262876566e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57058088,
      "step": 98330
    },
    {
      "epoch": 14.646261543044385,
      "grad_norm": 0.014994640834629536,
      "learning_rate": 1.0143068756874197e-05,
      "loss": 0.0815,
      "num_input_tokens_seen": 57060936,
      "step": 98335
    },
    {
      "epoch": 14.647006255585344,
      "grad_norm": 7.828063826309517e-05,
      "learning_rate": 1.0140455501864583e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 57063944,
      "step": 98340
    },
    {
      "epoch": 14.647750968126303,
      "grad_norm": 0.0028691678307950497,
      "learning_rate": 1.013784249789187e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57066792,
      "step": 98345
    },
    {
      "epoch": 14.648495680667262,
      "grad_norm": 0.00030118340509943664,
      "learning_rate": 1.013522974500019e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 57069832,
      "step": 98350
    },
    {
      "epoch": 14.649240393208222,
      "grad_norm": 0.0049653369933366776,
      "learning_rate": 1.013261724323371e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57072584,
      "step": 98355
    },
    {
      "epoch": 14.649985105749181,
      "grad_norm": 0.000210266764042899,
      "learning_rate": 1.0130004992636541e-05,
      "loss": 0.0005,
      "num_input_tokens_seen": 57075400,
      "step": 98360
    },
    {
      "epoch": 14.65072981829014,
      "grad_norm": 0.0049265045672655106,
      "learning_rate": 1.0127392993252832e-05,
      "loss": 0.0481,
      "num_input_tokens_seen": 57078120,
      "step": 98365
    },
    {
      "epoch": 14.651474530831099,
      "grad_norm": 0.0005346008110791445,
      "learning_rate": 1.0124781245126695e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57081096,
      "step": 98370
    },
    {
      "epoch": 14.652219243372059,
      "grad_norm": 0.0009069576626643538,
      "learning_rate": 1.0122169748302265e-05,
      "loss": 0.0133,
      "num_input_tokens_seen": 57083592,
      "step": 98375
    },
    {
      "epoch": 14.652963955913018,
      "grad_norm": 0.024096274748444557,
      "learning_rate": 1.011955850282365e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57086472,
      "step": 98380
    },
    {
      "epoch": 14.653708668453977,
      "grad_norm": 0.007504686713218689,
      "learning_rate": 1.0116947508734981e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57089224,
      "step": 98385
    },
    {
      "epoch": 14.654453380994935,
      "grad_norm": 0.0017771330894902349,
      "learning_rate": 1.0114336766080356e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57092360,
      "step": 98390
    },
    {
      "epoch": 14.655198093535896,
      "grad_norm": 0.013464349322021008,
      "learning_rate": 1.0111726274903873e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57095624,
      "step": 98395
    },
    {
      "epoch": 14.655942806076855,
      "grad_norm": 0.00019648970919661224,
      "learning_rate": 1.0109116035249652e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57098440,
      "step": 98400
    },
    {
      "epoch": 14.656687518617813,
      "grad_norm": 6.69520378112793,
      "learning_rate": 1.0106506047161782e-05,
      "loss": 0.0529,
      "num_input_tokens_seen": 57101480,
      "step": 98405
    },
    {
      "epoch": 14.657432231158772,
      "grad_norm": 0.00032638676930218935,
      "learning_rate": 1.0103896310684356e-05,
      "loss": 0.0006,
      "num_input_tokens_seen": 57104456,
      "step": 98410
    },
    {
      "epoch": 14.658176943699733,
      "grad_norm": 0.0007304680184461176,
      "learning_rate": 1.010128682586145e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57107272,
      "step": 98415
    },
    {
      "epoch": 14.658921656240691,
      "grad_norm": 0.00036301364889368415,
      "learning_rate": 1.009867759273717e-05,
      "loss": 0.0163,
      "num_input_tokens_seen": 57110216,
      "step": 98420
    },
    {
      "epoch": 14.65966636878165,
      "grad_norm": 0.0002610190713312477,
      "learning_rate": 1.0096068611355588e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57112776,
      "step": 98425
    },
    {
      "epoch": 14.660411081322609,
      "grad_norm": 17.777406692504883,
      "learning_rate": 1.0093459881760772e-05,
      "loss": 0.2594,
      "num_input_tokens_seen": 57115848,
      "step": 98430
    },
    {
      "epoch": 14.66115579386357,
      "grad_norm": 0.0007525883265770972,
      "learning_rate": 1.0090851403996809e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57118632,
      "step": 98435
    },
    {
      "epoch": 14.661900506404528,
      "grad_norm": 0.0001443141809431836,
      "learning_rate": 1.0088243178107748e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57121416,
      "step": 98440
    },
    {
      "epoch": 14.662645218945487,
      "grad_norm": 0.00014346480020321906,
      "learning_rate": 1.0085635204137672e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57124328,
      "step": 98445
    },
    {
      "epoch": 14.663389931486446,
      "grad_norm": 1.8593311309814453,
      "learning_rate": 1.0083027482130625e-05,
      "loss": 0.0004,
      "num_input_tokens_seen": 57127368,
      "step": 98450
    },
    {
      "epoch": 14.664134644027406,
      "grad_norm": 0.00021953688701614738,
      "learning_rate": 1.0080420012130673e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57130216,
      "step": 98455
    },
    {
      "epoch": 14.664879356568365,
      "grad_norm": 0.0013057071482762694,
      "learning_rate": 1.0077812794181854e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57133128,
      "step": 98460
    },
    {
      "epoch": 14.665624069109324,
      "grad_norm": 0.008805857971310616,
      "learning_rate": 1.0075205828328232e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57136072,
      "step": 98465
    },
    {
      "epoch": 14.666368781650283,
      "grad_norm": 0.0027140360325574875,
      "learning_rate": 1.0072599114613837e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57138952,
      "step": 98470
    },
    {
      "epoch": 14.667113494191241,
      "grad_norm": 0.00010404046770418063,
      "learning_rate": 1.0069992653082707e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57141576,
      "step": 98475
    },
    {
      "epoch": 14.667858206732202,
      "grad_norm": 0.002304054331034422,
      "learning_rate": 1.0067386443778879e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57144328,
      "step": 98480
    },
    {
      "epoch": 14.66860291927316,
      "grad_norm": 9.797976963454857e-05,
      "learning_rate": 1.006478048674637e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57147272,
      "step": 98485
    },
    {
      "epoch": 14.66934763181412,
      "grad_norm": 0.0002269434044137597,
      "learning_rate": 1.0062174782029227e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57150280,
      "step": 98490
    },
    {
      "epoch": 14.670092344355078,
      "grad_norm": 0.05972065404057503,
      "learning_rate": 1.0059569329671448e-05,
      "loss": 0.1066,
      "num_input_tokens_seen": 57153320,
      "step": 98495
    },
    {
      "epoch": 14.670837056896039,
      "grad_norm": 0.00025318737607449293,
      "learning_rate": 1.0056964129717067e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 57156424,
      "step": 98500
    },
    {
      "epoch": 14.671581769436997,
      "grad_norm": 0.0011217977153137326,
      "learning_rate": 1.0054359182210093e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57159464,
      "step": 98505
    },
    {
      "epoch": 14.672326481977956,
      "grad_norm": 0.00424153171479702,
      "learning_rate": 1.005175448719452e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57162248,
      "step": 98510
    },
    {
      "epoch": 14.673071194518915,
      "grad_norm": 0.03271805867552757,
      "learning_rate": 1.0049150044714373e-05,
      "loss": 0.0393,
      "num_input_tokens_seen": 57165224,
      "step": 98515
    },
    {
      "epoch": 14.673815907059875,
      "grad_norm": 0.012112575583159924,
      "learning_rate": 1.004654585481363e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57168040,
      "step": 98520
    },
    {
      "epoch": 14.674560619600834,
      "grad_norm": 0.021807068958878517,
      "learning_rate": 1.0043941917536303e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57171272,
      "step": 98525
    },
    {
      "epoch": 14.675305332141793,
      "grad_norm": 0.00011748020187951624,
      "learning_rate": 1.0041338232926373e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57174088,
      "step": 98530
    },
    {
      "epoch": 14.676050044682752,
      "grad_norm": 0.0014592416118830442,
      "learning_rate": 1.0038734801027836e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57177096,
      "step": 98535
    },
    {
      "epoch": 14.676794757223712,
      "grad_norm": 0.001607820624485612,
      "learning_rate": 1.003613162188467e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57180168,
      "step": 98540
    },
    {
      "epoch": 14.677539469764671,
      "grad_norm": 0.027283737435936928,
      "learning_rate": 1.003352869554085e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57183048,
      "step": 98545
    },
    {
      "epoch": 14.67828418230563,
      "grad_norm": 4.11631441116333,
      "learning_rate": 1.0030926022040355e-05,
      "loss": 0.0117,
      "num_input_tokens_seen": 57185736,
      "step": 98550
    },
    {
      "epoch": 14.679028894846589,
      "grad_norm": 0.0008436146308667958,
      "learning_rate": 1.002832360142714e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57188616,
      "step": 98555
    },
    {
      "epoch": 14.679773607387549,
      "grad_norm": 0.002953188493847847,
      "learning_rate": 1.0025721433745188e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57191528,
      "step": 98560
    },
    {
      "epoch": 14.680518319928508,
      "grad_norm": 0.0009650447173044086,
      "learning_rate": 1.0023119519038445e-05,
      "loss": 0.0003,
      "num_input_tokens_seen": 57194440,
      "step": 98565
    },
    {
      "epoch": 14.681263032469467,
      "grad_norm": 1.12913179397583,
      "learning_rate": 1.0020517857350886e-05,
      "loss": 0.0158,
      "num_input_tokens_seen": 57197608,
      "step": 98570
    },
    {
      "epoch": 14.682007745010425,
      "grad_norm": 0.0012070790398865938,
      "learning_rate": 1.0017916448726444e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57200520,
      "step": 98575
    },
    {
      "epoch": 14.682752457551386,
      "grad_norm": 0.0009651425061747432,
      "learning_rate": 1.0015315293209087e-05,
      "loss": 0.0014,
      "num_input_tokens_seen": 57203528,
      "step": 98580
    },
    {
      "epoch": 14.683497170092345,
      "grad_norm": 0.000522113055922091,
      "learning_rate": 1.0012714390842748e-05,
      "loss": 0.0051,
      "num_input_tokens_seen": 57206344,
      "step": 98585
    },
    {
      "epoch": 14.684241882633303,
      "grad_norm": 0.00016296817921102047,
      "learning_rate": 1.0010113741671356e-05,
      "loss": 0.0001,
      "num_input_tokens_seen": 57209480,
      "step": 98590
    },
    {
      "epoch": 14.684986595174262,
      "grad_norm": 0.00016963046800810844,
      "learning_rate": 1.0007513345738867e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57212648,
      "step": 98595
    },
    {
      "epoch": 14.685731307715223,
      "grad_norm": 0.0014876268105581403,
      "learning_rate": 1.0004913203089202e-05,
      "loss": 0.0785,
      "num_input_tokens_seen": 57215528,
      "step": 98600
    },
    {
      "epoch": 14.686476020256181,
      "grad_norm": 0.0005598208517767489,
      "learning_rate": 1.000231331376629e-05,
      "loss": 0.0,
      "num_input_tokens_seen": 57218472,
      "step": 98605
    },
    {
      "epoch": 14.68722073279714,
      "grad_norm": 0.0011032145703211427,
      "learning_rate": 9.99971367781404e-06,
      "loss": 0.0314,
      "num_input_tokens_seen": 57221256,
      "step": 98610
    },
    {
      "epoch": 14.687965445338099,
      "grad_norm": 0.0002480367838870734,
      "learning_rate": 9.997114295276395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57224232,
      "step": 98615
    },
    {
      "epoch": 14.688710157879058,
      "grad_norm": 0.004889878910034895,
      "learning_rate": 9.994515166197241e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57227016,
      "step": 98620
    },
    {
      "epoch": 14.689454870420018,
      "grad_norm": 0.0028520552441477776,
      "learning_rate": 9.991916290620515e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57229800,
      "step": 98625
    },
    {
      "epoch": 14.690199582960977,
      "grad_norm": 0.000302140018902719,
      "learning_rate": 9.98931766859011e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57232744,
      "step": 98630
    },
    {
      "epoch": 14.690944295501936,
      "grad_norm": 0.0026895070914179087,
      "learning_rate": 9.986719300149915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57235912,
      "step": 98635
    },
    {
      "epoch": 14.691689008042896,
      "grad_norm": 0.0009440088178962469,
      "learning_rate": 9.98412118534385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57238696,
      "step": 98640
    },
    {
      "epoch": 14.692433720583855,
      "grad_norm": 0.00044795835856348276,
      "learning_rate": 9.981523324215786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57241544,
      "step": 98645
    },
    {
      "epoch": 14.693178433124814,
      "grad_norm": 0.0007603060803376138,
      "learning_rate": 9.978925716809631e-06,
      "loss": 0.0057,
      "num_input_tokens_seen": 57244552,
      "step": 98650
    },
    {
      "epoch": 14.693923145665773,
      "grad_norm": 0.002684054197743535,
      "learning_rate": 9.976328363169252e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57247464,
      "step": 98655
    },
    {
      "epoch": 14.694667858206731,
      "grad_norm": 0.0002290520933456719,
      "learning_rate": 9.973731263338542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57250376,
      "step": 98660
    },
    {
      "epoch": 14.695412570747692,
      "grad_norm": 0.0051004053093492985,
      "learning_rate": 9.971134417361371e-06,
      "loss": 0.1533,
      "num_input_tokens_seen": 57253160,
      "step": 98665
    },
    {
      "epoch": 14.69615728328865,
      "grad_norm": 0.0013135271146893501,
      "learning_rate": 9.96853782528161e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57256040,
      "step": 98670
    },
    {
      "epoch": 14.69690199582961,
      "grad_norm": 0.001722006592899561,
      "learning_rate": 9.965941487143123e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57258824,
      "step": 98675
    },
    {
      "epoch": 14.697646708370568,
      "grad_norm": 0.0009315816569142044,
      "learning_rate": 9.963345402989768e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57261576,
      "step": 98680
    },
    {
      "epoch": 14.698391420911529,
      "grad_norm": 0.024150237441062927,
      "learning_rate": 9.96074957286542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57264296,
      "step": 98685
    },
    {
      "epoch": 14.699136133452487,
      "grad_norm": 0.0016467995010316372,
      "learning_rate": 9.958153996813912e-06,
      "loss": 0.1283,
      "num_input_tokens_seen": 57267112,
      "step": 98690
    },
    {
      "epoch": 14.699880845993446,
      "grad_norm": 0.0010565981501713395,
      "learning_rate": 9.955558674879115e-06,
      "loss": 0.1241,
      "num_input_tokens_seen": 57269960,
      "step": 98695
    },
    {
      "epoch": 14.700625558534405,
      "grad_norm": 0.009545347653329372,
      "learning_rate": 9.952963607104851e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57272872,
      "step": 98700
    },
    {
      "epoch": 14.701370271075366,
      "grad_norm": 0.0020811387803405523,
      "learning_rate": 9.950368793534986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57276200,
      "step": 98705
    },
    {
      "epoch": 14.702114983616324,
      "grad_norm": 0.00013577980280388147,
      "learning_rate": 9.947774234213342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57279464,
      "step": 98710
    },
    {
      "epoch": 14.702859696157283,
      "grad_norm": 0.0019216117216274142,
      "learning_rate": 9.945179929183749e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57282504,
      "step": 98715
    },
    {
      "epoch": 14.703604408698242,
      "grad_norm": 0.009259373880922794,
      "learning_rate": 9.942585878490046e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57285192,
      "step": 98720
    },
    {
      "epoch": 14.704349121239202,
      "grad_norm": 0.48579543828964233,
      "learning_rate": 9.939992082176041e-06,
      "loss": 0.0838,
      "num_input_tokens_seen": 57288520,
      "step": 98725
    },
    {
      "epoch": 14.705093833780161,
      "grad_norm": 0.00010509999265195802,
      "learning_rate": 9.937398540285575e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57291560,
      "step": 98730
    },
    {
      "epoch": 14.70583854632112,
      "grad_norm": 0.00019132770830765367,
      "learning_rate": 9.93480525286245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57294472,
      "step": 98735
    },
    {
      "epoch": 14.706583258862079,
      "grad_norm": 68.1495361328125,
      "learning_rate": 9.93221221995048e-06,
      "loss": 0.2219,
      "num_input_tokens_seen": 57297320,
      "step": 98740
    },
    {
      "epoch": 14.70732797140304,
      "grad_norm": 0.0011367452098056674,
      "learning_rate": 9.929619441593469e-06,
      "loss": 0.0311,
      "num_input_tokens_seen": 57300520,
      "step": 98745
    },
    {
      "epoch": 14.708072683943998,
      "grad_norm": 0.0005230659735389054,
      "learning_rate": 9.927026917835211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57303496,
      "step": 98750
    },
    {
      "epoch": 14.708817396484957,
      "grad_norm": 0.003690685611218214,
      "learning_rate": 9.924434648719525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57306600,
      "step": 98755
    },
    {
      "epoch": 14.709562109025915,
      "grad_norm": 0.00021965928317513317,
      "learning_rate": 9.921842634290182e-06,
      "loss": 0.005,
      "num_input_tokens_seen": 57309224,
      "step": 98760
    },
    {
      "epoch": 14.710306821566876,
      "grad_norm": 0.0009369233157485723,
      "learning_rate": 9.919250874590993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57312168,
      "step": 98765
    },
    {
      "epoch": 14.711051534107835,
      "grad_norm": 0.00020642711024265736,
      "learning_rate": 9.916659369665726e-06,
      "loss": 0.0231,
      "num_input_tokens_seen": 57315336,
      "step": 98770
    },
    {
      "epoch": 14.711796246648793,
      "grad_norm": 0.0022996237967163324,
      "learning_rate": 9.914068119558177e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57318056,
      "step": 98775
    },
    {
      "epoch": 14.712540959189752,
      "grad_norm": 0.00022435128630604595,
      "learning_rate": 9.911477124312104e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 57320968,
      "step": 98780
    },
    {
      "epoch": 14.713285671730713,
      "grad_norm": 0.00034677714575082064,
      "learning_rate": 9.9088863839713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57324040,
      "step": 98785
    },
    {
      "epoch": 14.714030384271672,
      "grad_norm": 0.00027272835723124444,
      "learning_rate": 9.90629589857952e-06,
      "loss": 0.0013,
      "num_input_tokens_seen": 57327144,
      "step": 98790
    },
    {
      "epoch": 14.71477509681263,
      "grad_norm": 0.03900585323572159,
      "learning_rate": 9.903705668180524e-06,
      "loss": 0.0245,
      "num_input_tokens_seen": 57330216,
      "step": 98795
    },
    {
      "epoch": 14.715519809353589,
      "grad_norm": 0.0010696722893044353,
      "learning_rate": 9.901115692818085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57332936,
      "step": 98800
    },
    {
      "epoch": 14.716264521894548,
      "grad_norm": 0.0058079431764781475,
      "learning_rate": 9.898525972535952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57335560,
      "step": 98805
    },
    {
      "epoch": 14.717009234435508,
      "grad_norm": 0.0002971906214952469,
      "learning_rate": 9.895936507377873e-06,
      "loss": 0.0039,
      "num_input_tokens_seen": 57338376,
      "step": 98810
    },
    {
      "epoch": 14.717753946976467,
      "grad_norm": 0.00016775124822743237,
      "learning_rate": 9.89334729738759e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57341160,
      "step": 98815
    },
    {
      "epoch": 14.718498659517426,
      "grad_norm": 1.6543919628020376e-05,
      "learning_rate": 9.890758342608856e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57344200,
      "step": 98820
    },
    {
      "epoch": 14.719243372058386,
      "grad_norm": 0.00020197655248921365,
      "learning_rate": 9.888169643085404e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57347272,
      "step": 98825
    },
    {
      "epoch": 14.719988084599345,
      "grad_norm": 2.588925235613715e-05,
      "learning_rate": 9.885581198860958e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57350216,
      "step": 98830
    },
    {
      "epoch": 14.720732797140304,
      "grad_norm": 0.00013358199794311076,
      "learning_rate": 9.882993009979265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57353128,
      "step": 98835
    },
    {
      "epoch": 14.721477509681263,
      "grad_norm": 0.000914516975171864,
      "learning_rate": 9.880405076484034e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57356072,
      "step": 98840
    },
    {
      "epoch": 14.722222222222221,
      "grad_norm": 0.009210620075464249,
      "learning_rate": 9.877817398418998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57358952,
      "step": 98845
    },
    {
      "epoch": 14.722966934763182,
      "grad_norm": 0.0008681225008331239,
      "learning_rate": 9.87522997582786e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57361832,
      "step": 98850
    },
    {
      "epoch": 14.72371164730414,
      "grad_norm": 0.004206130281090736,
      "learning_rate": 9.872642808754348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57364552,
      "step": 98855
    },
    {
      "epoch": 14.7244563598451,
      "grad_norm": 0.0009545775828883052,
      "learning_rate": 9.870055897242152e-06,
      "loss": 0.1594,
      "num_input_tokens_seen": 57367528,
      "step": 98860
    },
    {
      "epoch": 14.725201072386058,
      "grad_norm": 0.00010499679046915844,
      "learning_rate": 9.867469241334994e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57370632,
      "step": 98865
    },
    {
      "epoch": 14.725945784927019,
      "grad_norm": 0.0004731828230433166,
      "learning_rate": 9.864882841076564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57373832,
      "step": 98870
    },
    {
      "epoch": 14.726690497467978,
      "grad_norm": 0.0222767423838377,
      "learning_rate": 9.862296696510557e-06,
      "loss": 0.0131,
      "num_input_tokens_seen": 57376712,
      "step": 98875
    },
    {
      "epoch": 14.727435210008936,
      "grad_norm": 0.0001643821015022695,
      "learning_rate": 9.859710807680658e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57379720,
      "step": 98880
    },
    {
      "epoch": 14.728179922549895,
      "grad_norm": 0.0002283138019265607,
      "learning_rate": 9.85712517463055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57382632,
      "step": 98885
    },
    {
      "epoch": 14.728924635090856,
      "grad_norm": 0.00010589594603516161,
      "learning_rate": 9.85453979740393e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57385448,
      "step": 98890
    },
    {
      "epoch": 14.729669347631814,
      "grad_norm": 6.14129203313496e-06,
      "learning_rate": 9.851954676044458e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57388200,
      "step": 98895
    },
    {
      "epoch": 14.730414060172773,
      "grad_norm": 26.965654373168945,
      "learning_rate": 9.849369810595827e-06,
      "loss": 0.2438,
      "num_input_tokens_seen": 57391368,
      "step": 98900
    },
    {
      "epoch": 14.731158772713732,
      "grad_norm": 2.1212134015513584e-05,
      "learning_rate": 9.846785201101691e-06,
      "loss": 0.2346,
      "num_input_tokens_seen": 57394344,
      "step": 98905
    },
    {
      "epoch": 14.731903485254692,
      "grad_norm": 0.006400152575224638,
      "learning_rate": 9.84420084760571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57397416,
      "step": 98910
    },
    {
      "epoch": 14.732648197795651,
      "grad_norm": 4.0033060940913856e-05,
      "learning_rate": 9.841616750151565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57400104,
      "step": 98915
    },
    {
      "epoch": 14.73339291033661,
      "grad_norm": 0.00861750915646553,
      "learning_rate": 9.839032908782885e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57402984,
      "step": 98920
    },
    {
      "epoch": 14.734137622877569,
      "grad_norm": 0.01126976776868105,
      "learning_rate": 9.836449323543345e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57405960,
      "step": 98925
    },
    {
      "epoch": 14.73488233541853,
      "grad_norm": 0.0005565725732594728,
      "learning_rate": 9.833865994476584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57409032,
      "step": 98930
    },
    {
      "epoch": 14.735627047959488,
      "grad_norm": 0.0007088780403137207,
      "learning_rate": 9.831282921626242e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57411688,
      "step": 98935
    },
    {
      "epoch": 14.736371760500447,
      "grad_norm": 0.001450916170142591,
      "learning_rate": 9.82870010503595e-06,
      "loss": 0.0011,
      "num_input_tokens_seen": 57414600,
      "step": 98940
    },
    {
      "epoch": 14.737116473041405,
      "grad_norm": 0.0010595038766041398,
      "learning_rate": 9.826117544749357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57417608,
      "step": 98945
    },
    {
      "epoch": 14.737861185582366,
      "grad_norm": 0.005159643478691578,
      "learning_rate": 9.823535240810089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57420520,
      "step": 98950
    },
    {
      "epoch": 14.738605898123325,
      "grad_norm": 0.005496577359735966,
      "learning_rate": 9.820953193261756e-06,
      "loss": 0.1501,
      "num_input_tokens_seen": 57423208,
      "step": 98955
    },
    {
      "epoch": 14.739350610664284,
      "grad_norm": 0.0020843956153839827,
      "learning_rate": 9.818371402148002e-06,
      "loss": 0.0345,
      "num_input_tokens_seen": 57426056,
      "step": 98960
    },
    {
      "epoch": 14.740095323205242,
      "grad_norm": 0.00022002104378771037,
      "learning_rate": 9.815789867512427e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57428776,
      "step": 98965
    },
    {
      "epoch": 14.740840035746203,
      "grad_norm": 0.0008189718937501311,
      "learning_rate": 9.813208589398654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57431528,
      "step": 98970
    },
    {
      "epoch": 14.741584748287162,
      "grad_norm": 0.0012814054498448968,
      "learning_rate": 9.81062756785028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57434504,
      "step": 98975
    },
    {
      "epoch": 14.74232946082812,
      "grad_norm": 0.004499941132962704,
      "learning_rate": 9.808046802910926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57437576,
      "step": 98980
    },
    {
      "epoch": 14.743074173369079,
      "grad_norm": 0.00016114491154439747,
      "learning_rate": 9.80546629462417e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57440040,
      "step": 98985
    },
    {
      "epoch": 14.743818885910038,
      "grad_norm": 0.0005437034997157753,
      "learning_rate": 9.802886043033626e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57442664,
      "step": 98990
    },
    {
      "epoch": 14.744563598450998,
      "grad_norm": 0.00088925426825881,
      "learning_rate": 9.800306048182878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57445480,
      "step": 98995
    },
    {
      "epoch": 14.745308310991957,
      "grad_norm": 0.000704352103639394,
      "learning_rate": 9.79772631011551e-06,
      "loss": 0.0383,
      "num_input_tokens_seen": 57448328,
      "step": 99000
    },
    {
      "epoch": 14.746053023532916,
      "grad_norm": 0.0002553414960857481,
      "learning_rate": 9.795146828875107e-06,
      "loss": 0.0168,
      "num_input_tokens_seen": 57451208,
      "step": 99005
    },
    {
      "epoch": 14.746797736073875,
      "grad_norm": 0.029368536546826363,
      "learning_rate": 9.792567604505234e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57454056,
      "step": 99010
    },
    {
      "epoch": 14.747542448614835,
      "grad_norm": 0.0006532892002724111,
      "learning_rate": 9.789988637049485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57457096,
      "step": 99015
    },
    {
      "epoch": 14.748287161155794,
      "grad_norm": 8.501650154357776e-05,
      "learning_rate": 9.787409926551411e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57460008,
      "step": 99020
    },
    {
      "epoch": 14.749031873696753,
      "grad_norm": 0.002385297091677785,
      "learning_rate": 9.784831473054592e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57463048,
      "step": 99025
    },
    {
      "epoch": 14.749776586237711,
      "grad_norm": 0.000253437552601099,
      "learning_rate": 9.782253276602582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57466088,
      "step": 99030
    },
    {
      "epoch": 14.750521298778672,
      "grad_norm": 0.0014125080779194832,
      "learning_rate": 9.779675337238928e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57468840,
      "step": 99035
    },
    {
      "epoch": 14.75126601131963,
      "grad_norm": 5.8992427511839196e-05,
      "learning_rate": 9.777097655007197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57471784,
      "step": 99040
    },
    {
      "epoch": 14.75201072386059,
      "grad_norm": 7.321574230445549e-05,
      "learning_rate": 9.774520229950923e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57474984,
      "step": 99045
    },
    {
      "epoch": 14.752755436401548,
      "grad_norm": 0.001253208378329873,
      "learning_rate": 9.771943062113664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57477992,
      "step": 99050
    },
    {
      "epoch": 14.753500148942509,
      "grad_norm": 0.00010166745050810277,
      "learning_rate": 9.76936615153894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57480872,
      "step": 99055
    },
    {
      "epoch": 14.754244861483468,
      "grad_norm": 0.00019739478011615574,
      "learning_rate": 9.766789498270304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57484072,
      "step": 99060
    },
    {
      "epoch": 14.754989574024426,
      "grad_norm": 7.573757466161624e-05,
      "learning_rate": 9.764213102351275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57487080,
      "step": 99065
    },
    {
      "epoch": 14.755734286565385,
      "grad_norm": 0.0018649052362889051,
      "learning_rate": 9.761636963825382e-06,
      "loss": 0.0805,
      "num_input_tokens_seen": 57490056,
      "step": 99070
    },
    {
      "epoch": 14.756478999106346,
      "grad_norm": 0.0002431580505799502,
      "learning_rate": 9.759061082736145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57492904,
      "step": 99075
    },
    {
      "epoch": 14.757223711647304,
      "grad_norm": 0.00011771514255087823,
      "learning_rate": 9.756485459127073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57495496,
      "step": 99080
    },
    {
      "epoch": 14.757968424188263,
      "grad_norm": 0.0006724244449287653,
      "learning_rate": 9.753910093041696e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57498504,
      "step": 99085
    },
    {
      "epoch": 14.758713136729222,
      "grad_norm": 0.0034222430549561977,
      "learning_rate": 9.751334984523502e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57501256,
      "step": 99090
    },
    {
      "epoch": 14.759457849270182,
      "grad_norm": 0.00015235091268550605,
      "learning_rate": 9.748760133616015e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57504328,
      "step": 99095
    },
    {
      "epoch": 14.760202561811141,
      "grad_norm": 1.0966187801386695e-05,
      "learning_rate": 9.746185540362714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57507080,
      "step": 99100
    },
    {
      "epoch": 14.7609472743521,
      "grad_norm": 0.00011622926831478253,
      "learning_rate": 9.743611204807118e-06,
      "loss": 0.1563,
      "num_input_tokens_seen": 57509928,
      "step": 99105
    },
    {
      "epoch": 14.761691986893059,
      "grad_norm": 0.00019012397387996316,
      "learning_rate": 9.741037126992702e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57512616,
      "step": 99110
    },
    {
      "epoch": 14.76243669943402,
      "grad_norm": 0.0003059815790038556,
      "learning_rate": 9.738463306962947e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57515624,
      "step": 99115
    },
    {
      "epoch": 14.763181411974978,
      "grad_norm": 0.00026006618281826377,
      "learning_rate": 9.73588974476135e-06,
      "loss": 0.1408,
      "num_input_tokens_seen": 57518216,
      "step": 99120
    },
    {
      "epoch": 14.763926124515937,
      "grad_norm": 0.002121879253536463,
      "learning_rate": 9.733316440431375e-06,
      "loss": 0.225,
      "num_input_tokens_seen": 57521064,
      "step": 99125
    },
    {
      "epoch": 14.764670837056896,
      "grad_norm": 0.009476225823163986,
      "learning_rate": 9.730743394016512e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57524232,
      "step": 99130
    },
    {
      "epoch": 14.765415549597854,
      "grad_norm": 0.00211070803925395,
      "learning_rate": 9.72817060556022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57527208,
      "step": 99135
    },
    {
      "epoch": 14.766160262138815,
      "grad_norm": 0.0010967460693791509,
      "learning_rate": 9.725598075105963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57530024,
      "step": 99140
    },
    {
      "epoch": 14.766904974679774,
      "grad_norm": 0.0006107683293521404,
      "learning_rate": 9.723025802697195e-06,
      "loss": 0.0505,
      "num_input_tokens_seen": 57532872,
      "step": 99145
    },
    {
      "epoch": 14.767649687220732,
      "grad_norm": 4.5172550017014146e-05,
      "learning_rate": 9.720453788377387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57535848,
      "step": 99150
    },
    {
      "epoch": 14.768394399761693,
      "grad_norm": 0.00168934918474406,
      "learning_rate": 9.71788203218998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57538280,
      "step": 99155
    },
    {
      "epoch": 14.769139112302652,
      "grad_norm": 0.00015280222578439862,
      "learning_rate": 9.71531053417842e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57541096,
      "step": 99160
    },
    {
      "epoch": 14.76988382484361,
      "grad_norm": 0.00029207076295278966,
      "learning_rate": 9.712739294386161e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57544008,
      "step": 99165
    },
    {
      "epoch": 14.77062853738457,
      "grad_norm": 0.00047013250878080726,
      "learning_rate": 9.710168312856626e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57546696,
      "step": 99170
    },
    {
      "epoch": 14.771373249925528,
      "grad_norm": 0.0028582164086401463,
      "learning_rate": 9.707597589633267e-06,
      "loss": 0.2063,
      "num_input_tokens_seen": 57549480,
      "step": 99175
    },
    {
      "epoch": 14.772117962466488,
      "grad_norm": 0.0004044334637001157,
      "learning_rate": 9.705027124759495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57552808,
      "step": 99180
    },
    {
      "epoch": 14.772862675007447,
      "grad_norm": 0.0002912546042352915,
      "learning_rate": 9.702456918278752e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57555688,
      "step": 99185
    },
    {
      "epoch": 14.773607387548406,
      "grad_norm": 0.0011921320110559464,
      "learning_rate": 9.69988697023445e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57558824,
      "step": 99190
    },
    {
      "epoch": 14.774352100089365,
      "grad_norm": 0.00013820541789755225,
      "learning_rate": 9.69731728067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57562024,
      "step": 99195
    },
    {
      "epoch": 14.775096812630325,
      "grad_norm": 0.004184888210147619,
      "learning_rate": 9.694747849628833e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57564488,
      "step": 99200
    },
    {
      "epoch": 14.775841525171284,
      "grad_norm": 0.0012154780561104417,
      "learning_rate": 9.692178677154342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57567176,
      "step": 99205
    },
    {
      "epoch": 14.776586237712243,
      "grad_norm": 0.0013232819037511945,
      "learning_rate": 9.689609763289936e-06,
      "loss": 0.0207,
      "num_input_tokens_seen": 57569960,
      "step": 99210
    },
    {
      "epoch": 14.777330950253202,
      "grad_norm": 0.0007409409736283123,
      "learning_rate": 9.687041108079003e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 57572648,
      "step": 99215
    },
    {
      "epoch": 14.778075662794162,
      "grad_norm": 13.614518165588379,
      "learning_rate": 9.684472711564957e-06,
      "loss": 0.0736,
      "num_input_tokens_seen": 57575528,
      "step": 99220
    },
    {
      "epoch": 14.77882037533512,
      "grad_norm": 0.0024221905041486025,
      "learning_rate": 9.681904573791168e-06,
      "loss": 0.0013,
      "num_input_tokens_seen": 57578280,
      "step": 99225
    },
    {
      "epoch": 14.77956508787608,
      "grad_norm": 0.00030787475407123566,
      "learning_rate": 9.679336694801041e-06,
      "loss": 0.0068,
      "num_input_tokens_seen": 57580872,
      "step": 99230
    },
    {
      "epoch": 14.780309800417038,
      "grad_norm": 0.004165663383901119,
      "learning_rate": 9.67676907463795e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57583496,
      "step": 99235
    },
    {
      "epoch": 14.781054512957999,
      "grad_norm": 0.01566988229751587,
      "learning_rate": 9.674201713345265e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 57586952,
      "step": 99240
    },
    {
      "epoch": 14.781799225498958,
      "grad_norm": 0.014618118293583393,
      "learning_rate": 9.671634610966373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57590056,
      "step": 99245
    },
    {
      "epoch": 14.782543938039916,
      "grad_norm": 0.0005356605397537351,
      "learning_rate": 9.669067767544626e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57593064,
      "step": 99250
    },
    {
      "epoch": 14.783288650580875,
      "grad_norm": 0.0011608046479523182,
      "learning_rate": 9.666501183123406e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57596360,
      "step": 99255
    },
    {
      "epoch": 14.784033363121836,
      "grad_norm": 1.9934875965118408,
      "learning_rate": 9.663934857746065e-06,
      "loss": 0.0069,
      "num_input_tokens_seen": 57599208,
      "step": 99260
    },
    {
      "epoch": 14.784778075662794,
      "grad_norm": 0.0005905411671847105,
      "learning_rate": 9.661368791455957e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57602088,
      "step": 99265
    },
    {
      "epoch": 14.785522788203753,
      "grad_norm": 0.00011999861453659832,
      "learning_rate": 9.658802984296426e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57605128,
      "step": 99270
    },
    {
      "epoch": 14.786267500744712,
      "grad_norm": 0.0007090249564498663,
      "learning_rate": 9.656237436310834e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57608040,
      "step": 99275
    },
    {
      "epoch": 14.787012213285673,
      "grad_norm": 0.0009998608147725463,
      "learning_rate": 9.653672147542515e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57610920,
      "step": 99280
    },
    {
      "epoch": 14.787756925826631,
      "grad_norm": 5.396815686253831e-05,
      "learning_rate": 9.651107118034799e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57613864,
      "step": 99285
    },
    {
      "epoch": 14.78850163836759,
      "grad_norm": 0.00020438304636627436,
      "learning_rate": 9.648542347831041e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57616840,
      "step": 99290
    },
    {
      "epoch": 14.789246350908549,
      "grad_norm": 9.627021790947765e-05,
      "learning_rate": 9.645977836974545e-06,
      "loss": 0.0291,
      "num_input_tokens_seen": 57619912,
      "step": 99295
    },
    {
      "epoch": 14.78999106344951,
      "grad_norm": 0.00206963624805212,
      "learning_rate": 9.643413585508659e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57622920,
      "step": 99300
    },
    {
      "epoch": 14.790735775990468,
      "grad_norm": 0.0002898849779739976,
      "learning_rate": 9.640849593476684e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57626024,
      "step": 99305
    },
    {
      "epoch": 14.791480488531427,
      "grad_norm": 0.0005705149960704148,
      "learning_rate": 9.63828586092195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57628840,
      "step": 99310
    },
    {
      "epoch": 14.792225201072386,
      "grad_norm": 0.019270209595561028,
      "learning_rate": 9.635722387887766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57631720,
      "step": 99315
    },
    {
      "epoch": 14.792969913613344,
      "grad_norm": 0.0004357747675385326,
      "learning_rate": 9.63315917441743e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57634824,
      "step": 99320
    },
    {
      "epoch": 14.793714626154305,
      "grad_norm": 0.0005678673624061048,
      "learning_rate": 9.630596220554259e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57637832,
      "step": 99325
    },
    {
      "epoch": 14.794459338695264,
      "grad_norm": 114.93577575683594,
      "learning_rate": 9.628033526341542e-06,
      "loss": 0.1534,
      "num_input_tokens_seen": 57640680,
      "step": 99330
    },
    {
      "epoch": 14.795204051236222,
      "grad_norm": 0.00042661576298996806,
      "learning_rate": 9.625471091822576e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57643272,
      "step": 99335
    },
    {
      "epoch": 14.795948763777183,
      "grad_norm": 0.0003009428910445422,
      "learning_rate": 9.622908917040643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57646056,
      "step": 99340
    },
    {
      "epoch": 14.796693476318142,
      "grad_norm": 0.0018190047703683376,
      "learning_rate": 9.620347002039042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57648904,
      "step": 99345
    },
    {
      "epoch": 14.7974381888591,
      "grad_norm": 0.0020998355466872454,
      "learning_rate": 9.61778534686105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57651688,
      "step": 99350
    },
    {
      "epoch": 14.79818290140006,
      "grad_norm": 0.0002687951782718301,
      "learning_rate": 9.615223951549929e-06,
      "loss": 0.0018,
      "num_input_tokens_seen": 57654760,
      "step": 99355
    },
    {
      "epoch": 14.798927613941018,
      "grad_norm": 0.0001382956834277138,
      "learning_rate": 9.612662816148974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57657448,
      "step": 99360
    },
    {
      "epoch": 14.799672326481979,
      "grad_norm": 0.0029369157273322344,
      "learning_rate": 9.61010194070143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57660680,
      "step": 99365
    },
    {
      "epoch": 14.800417039022937,
      "grad_norm": 3.304208075860515e-05,
      "learning_rate": 9.607541325250582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57663496,
      "step": 99370
    },
    {
      "epoch": 14.801161751563896,
      "grad_norm": 4.289904245524667e-05,
      "learning_rate": 9.604980969839672e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57666376,
      "step": 99375
    },
    {
      "epoch": 14.801906464104855,
      "grad_norm": 5.62537279620301e-05,
      "learning_rate": 9.60242087451197e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 57669128,
      "step": 99380
    },
    {
      "epoch": 14.802651176645815,
      "grad_norm": 0.002339818747714162,
      "learning_rate": 9.599861039310709e-06,
      "loss": 0.2188,
      "num_input_tokens_seen": 57672168,
      "step": 99385
    },
    {
      "epoch": 14.803395889186774,
      "grad_norm": 0.0002444092824589461,
      "learning_rate": 9.597301464279151e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57675144,
      "step": 99390
    },
    {
      "epoch": 14.804140601727733,
      "grad_norm": 0.002013348275795579,
      "learning_rate": 9.59474214946053e-06,
      "loss": 0.1221,
      "num_input_tokens_seen": 57677768,
      "step": 99395
    },
    {
      "epoch": 14.804885314268692,
      "grad_norm": 23.042631149291992,
      "learning_rate": 9.592183094898086e-06,
      "loss": 0.002,
      "num_input_tokens_seen": 57680680,
      "step": 99400
    },
    {
      "epoch": 14.805630026809652,
      "grad_norm": 0.012944177724421024,
      "learning_rate": 9.589624300635047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57683304,
      "step": 99405
    },
    {
      "epoch": 14.80637473935061,
      "grad_norm": 0.0021799784153699875,
      "learning_rate": 9.587065766714635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57686088,
      "step": 99410
    },
    {
      "epoch": 14.80711945189157,
      "grad_norm": 1.2897376109322067e-05,
      "learning_rate": 9.584507493180089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57689032,
      "step": 99415
    },
    {
      "epoch": 14.807864164432528,
      "grad_norm": 0.0010250565828755498,
      "learning_rate": 9.581949480074615e-06,
      "loss": 0.1501,
      "num_input_tokens_seen": 57691912,
      "step": 99420
    },
    {
      "epoch": 14.808608876973489,
      "grad_norm": 0.016899846494197845,
      "learning_rate": 9.579391727441442e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 57695112,
      "step": 99425
    },
    {
      "epoch": 14.809353589514448,
      "grad_norm": 0.0005017019575461745,
      "learning_rate": 9.576834235323773e-06,
      "loss": 0.0914,
      "num_input_tokens_seen": 57697768,
      "step": 99430
    },
    {
      "epoch": 14.810098302055406,
      "grad_norm": 0.002132340334355831,
      "learning_rate": 9.574277003764807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57700776,
      "step": 99435
    },
    {
      "epoch": 14.810843014596365,
      "grad_norm": 144.4293975830078,
      "learning_rate": 9.571720032807758e-06,
      "loss": 0.1207,
      "num_input_tokens_seen": 57703752,
      "step": 99440
    },
    {
      "epoch": 14.811587727137326,
      "grad_norm": 0.00010020918125519529,
      "learning_rate": 9.569163322495811e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57706632,
      "step": 99445
    },
    {
      "epoch": 14.812332439678285,
      "grad_norm": 7.023400394245982e-05,
      "learning_rate": 9.566606872872178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57709896,
      "step": 99450
    },
    {
      "epoch": 14.813077152219243,
      "grad_norm": 0.0005440349923446774,
      "learning_rate": 9.564050683980025e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57712968,
      "step": 99455
    },
    {
      "epoch": 14.813821864760202,
      "grad_norm": 2.7977850437164307,
      "learning_rate": 9.561494755862554e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 57715816,
      "step": 99460
    },
    {
      "epoch": 14.814566577301163,
      "grad_norm": 0.012198632583022118,
      "learning_rate": 9.55893908856294e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 57718664,
      "step": 99465
    },
    {
      "epoch": 14.815311289842121,
      "grad_norm": 0.004633511416614056,
      "learning_rate": 9.55638368212436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57721928,
      "step": 99470
    },
    {
      "epoch": 14.81605600238308,
      "grad_norm": 0.0007389003876596689,
      "learning_rate": 9.553828536589976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57724648,
      "step": 99475
    },
    {
      "epoch": 14.816800714924039,
      "grad_norm": 0.00038526844582520425,
      "learning_rate": 9.551273652002955e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57727816,
      "step": 99480
    },
    {
      "epoch": 14.817545427465,
      "grad_norm": 0.0003573391295503825,
      "learning_rate": 9.548719028406472e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57730760,
      "step": 99485
    },
    {
      "epoch": 14.818290140005958,
      "grad_norm": 0.008451550267636776,
      "learning_rate": 9.546164665843669e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57734024,
      "step": 99490
    },
    {
      "epoch": 14.819034852546917,
      "grad_norm": 0.9318670034408569,
      "learning_rate": 9.543610564357714e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 57736872,
      "step": 99495
    },
    {
      "epoch": 14.819779565087876,
      "grad_norm": 0.0007324634934775531,
      "learning_rate": 9.541056723991739e-06,
      "loss": 0.0045,
      "num_input_tokens_seen": 57739592,
      "step": 99500
    },
    {
      "epoch": 14.820524277628834,
      "grad_norm": 6.650348950643092e-05,
      "learning_rate": 9.538503144788914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57742728,
      "step": 99505
    },
    {
      "epoch": 14.821268990169795,
      "grad_norm": 0.00040321904816664755,
      "learning_rate": 9.535949826792358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57745672,
      "step": 99510
    },
    {
      "epoch": 14.822013702710754,
      "grad_norm": 0.000309334194753319,
      "learning_rate": 9.533396770045208e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 57748904,
      "step": 99515
    },
    {
      "epoch": 14.822758415251712,
      "grad_norm": 0.0002866538998205215,
      "learning_rate": 9.530843974590606e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57751880,
      "step": 99520
    },
    {
      "epoch": 14.823503127792671,
      "grad_norm": 0.0005108545883558691,
      "learning_rate": 9.528291440471665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57754696,
      "step": 99525
    },
    {
      "epoch": 14.824247840333632,
      "grad_norm": 0.0002331888972548768,
      "learning_rate": 9.525739167731527e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57757576,
      "step": 99530
    },
    {
      "epoch": 14.82499255287459,
      "grad_norm": 0.0005372552550397813,
      "learning_rate": 9.523187156413294e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57760488,
      "step": 99535
    },
    {
      "epoch": 14.82573726541555,
      "grad_norm": 0.0018160546896979213,
      "learning_rate": 9.520635406560086e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57763240,
      "step": 99540
    },
    {
      "epoch": 14.826481977956508,
      "grad_norm": 8.653883560327813e-05,
      "learning_rate": 9.518083918215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57766280,
      "step": 99545
    },
    {
      "epoch": 14.827226690497469,
      "grad_norm": 8.421678649028763e-05,
      "learning_rate": 9.515532691421162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57769288,
      "step": 99550
    },
    {
      "epoch": 14.827971403038427,
      "grad_norm": 0.0005068682366982102,
      "learning_rate": 9.512981726221661e-06,
      "loss": 0.132,
      "num_input_tokens_seen": 57772072,
      "step": 99555
    },
    {
      "epoch": 14.828716115579386,
      "grad_norm": 139.08424377441406,
      "learning_rate": 9.510431022659586e-06,
      "loss": 0.0822,
      "num_input_tokens_seen": 57774728,
      "step": 99560
    },
    {
      "epoch": 14.829460828120345,
      "grad_norm": 0.00045013774069957435,
      "learning_rate": 9.507880580778042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57777544,
      "step": 99565
    },
    {
      "epoch": 14.830205540661305,
      "grad_norm": 0.0007341608288697898,
      "learning_rate": 9.505330400620101e-06,
      "loss": 0.2799,
      "num_input_tokens_seen": 57780744,
      "step": 99570
    },
    {
      "epoch": 14.830950253202264,
      "grad_norm": 0.0001138898660428822,
      "learning_rate": 9.502780482228866e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57783656,
      "step": 99575
    },
    {
      "epoch": 14.831694965743223,
      "grad_norm": 0.006710792891681194,
      "learning_rate": 9.500230825647394e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57786600,
      "step": 99580
    },
    {
      "epoch": 14.832439678284182,
      "grad_norm": 0.9498053789138794,
      "learning_rate": 9.497681430918778e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57789320,
      "step": 99585
    },
    {
      "epoch": 14.833184390825142,
      "grad_norm": 0.007051187567412853,
      "learning_rate": 9.495132298086079e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 57792232,
      "step": 99590
    },
    {
      "epoch": 14.833929103366101,
      "grad_norm": 0.007455689832568169,
      "learning_rate": 9.492583427192361e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57794920,
      "step": 99595
    },
    {
      "epoch": 14.83467381590706,
      "grad_norm": 0.0008749546250328422,
      "learning_rate": 9.490034818280677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57797576,
      "step": 99600
    },
    {
      "epoch": 14.835418528448018,
      "grad_norm": 0.00046087190276011825,
      "learning_rate": 9.487486471394096e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57800424,
      "step": 99605
    },
    {
      "epoch": 14.836163240988979,
      "grad_norm": 0.0007592547335661948,
      "learning_rate": 9.48493838657567e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57803368,
      "step": 99610
    },
    {
      "epoch": 14.836907953529938,
      "grad_norm": 0.0011875161435455084,
      "learning_rate": 9.482390563868429e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57806344,
      "step": 99615
    },
    {
      "epoch": 14.837652666070897,
      "grad_norm": 0.0008576106047257781,
      "learning_rate": 9.479843003315439e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57809544,
      "step": 99620
    },
    {
      "epoch": 14.838397378611855,
      "grad_norm": 3.9180352687835693,
      "learning_rate": 9.477295704959718e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 57812520,
      "step": 99625
    },
    {
      "epoch": 14.839142091152816,
      "grad_norm": 0.00014044232375454158,
      "learning_rate": 9.474748668844316e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57816104,
      "step": 99630
    },
    {
      "epoch": 14.839886803693775,
      "grad_norm": 0.0005034530768170953,
      "learning_rate": 9.47220189501226e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57818856,
      "step": 99635
    },
    {
      "epoch": 14.840631516234733,
      "grad_norm": 0.0007559756049886346,
      "learning_rate": 9.46965538350656e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57822056,
      "step": 99640
    },
    {
      "epoch": 14.841376228775692,
      "grad_norm": 0.0015083076432347298,
      "learning_rate": 9.467109134370255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57824872,
      "step": 99645
    },
    {
      "epoch": 14.842120941316653,
      "grad_norm": 0.0046233078464865685,
      "learning_rate": 9.46456314764635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57828072,
      "step": 99650
    },
    {
      "epoch": 14.842865653857611,
      "grad_norm": 0.00024269938876386732,
      "learning_rate": 9.462017423377867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57830728,
      "step": 99655
    },
    {
      "epoch": 14.84361036639857,
      "grad_norm": 6.783726712455973e-05,
      "learning_rate": 9.459471961607808e-06,
      "loss": 0.0028,
      "num_input_tokens_seen": 57833544,
      "step": 99660
    },
    {
      "epoch": 14.844355078939529,
      "grad_norm": 32.76487731933594,
      "learning_rate": 9.456926762379175e-06,
      "loss": 0.0245,
      "num_input_tokens_seen": 57836360,
      "step": 99665
    },
    {
      "epoch": 14.84509979148049,
      "grad_norm": 0.0009535746066831052,
      "learning_rate": 9.45438182573496e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57839272,
      "step": 99670
    },
    {
      "epoch": 14.845844504021448,
      "grad_norm": 85.74688720703125,
      "learning_rate": 9.451837151718171e-06,
      "loss": 0.2,
      "num_input_tokens_seen": 57841928,
      "step": 99675
    },
    {
      "epoch": 14.846589216562407,
      "grad_norm": 0.0030846192967146635,
      "learning_rate": 9.449292740371793e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57844680,
      "step": 99680
    },
    {
      "epoch": 14.847333929103366,
      "grad_norm": 0.00033382311812601984,
      "learning_rate": 9.4467485917388e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57847560,
      "step": 99685
    },
    {
      "epoch": 14.848078641644324,
      "grad_norm": 0.000606853689532727,
      "learning_rate": 9.444204705862189e-06,
      "loss": 0.0009,
      "num_input_tokens_seen": 57850760,
      "step": 99690
    },
    {
      "epoch": 14.848823354185285,
      "grad_norm": 296.6832275390625,
      "learning_rate": 9.441661082784919e-06,
      "loss": 0.1875,
      "num_input_tokens_seen": 57853672,
      "step": 99695
    },
    {
      "epoch": 14.849568066726244,
      "grad_norm": 4.046128742629662e-05,
      "learning_rate": 9.439117722549984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57856712,
      "step": 99700
    },
    {
      "epoch": 14.850312779267203,
      "grad_norm": 79.72847747802734,
      "learning_rate": 9.436574625200332e-06,
      "loss": 0.2875,
      "num_input_tokens_seen": 57859752,
      "step": 99705
    },
    {
      "epoch": 14.851057491808161,
      "grad_norm": 0.00013838152517564595,
      "learning_rate": 9.434031790778941e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57862568,
      "step": 99710
    },
    {
      "epoch": 14.851802204349122,
      "grad_norm": 0.0009665701654739678,
      "learning_rate": 9.431489219328759e-06,
      "loss": 0.0426,
      "num_input_tokens_seen": 57865352,
      "step": 99715
    },
    {
      "epoch": 14.85254691689008,
      "grad_norm": 0.0013460959307849407,
      "learning_rate": 9.42894691089274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57868296,
      "step": 99720
    },
    {
      "epoch": 14.85329162943104,
      "grad_norm": 0.0004246150783728808,
      "learning_rate": 9.426404865513843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57871176,
      "step": 99725
    },
    {
      "epoch": 14.854036341971998,
      "grad_norm": 0.00021932715026196092,
      "learning_rate": 9.42386308323501e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57874440,
      "step": 99730
    },
    {
      "epoch": 14.854781054512959,
      "grad_norm": 0.00021691850270144641,
      "learning_rate": 9.421321564099175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57877256,
      "step": 99735
    },
    {
      "epoch": 14.855525767053917,
      "grad_norm": 0.006737858057022095,
      "learning_rate": 9.418780308149276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57880520,
      "step": 99740
    },
    {
      "epoch": 14.856270479594876,
      "grad_norm": 0.00019822372996713966,
      "learning_rate": 9.416239315428252e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57883528,
      "step": 99745
    },
    {
      "epoch": 14.857015192135835,
      "grad_norm": 0.0001967892749235034,
      "learning_rate": 9.413698585979016e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57886856,
      "step": 99750
    },
    {
      "epoch": 14.857759904676795,
      "grad_norm": 0.000435549154644832,
      "learning_rate": 9.411158119844512e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57889576,
      "step": 99755
    },
    {
      "epoch": 14.858504617217754,
      "grad_norm": 0.0006451334338635206,
      "learning_rate": 9.40861791706765e-06,
      "loss": 0.0674,
      "num_input_tokens_seen": 57892616,
      "step": 99760
    },
    {
      "epoch": 14.859249329758713,
      "grad_norm": 0.026031898334622383,
      "learning_rate": 9.40607797769133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57896008,
      "step": 99765
    },
    {
      "epoch": 14.859994042299672,
      "grad_norm": 3.0072747904341668e-05,
      "learning_rate": 9.403538301758486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57899112,
      "step": 99770
    },
    {
      "epoch": 14.860738754840632,
      "grad_norm": 4.902206637780182e-05,
      "learning_rate": 9.400998889311999e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57902056,
      "step": 99775
    },
    {
      "epoch": 14.861483467381591,
      "grad_norm": 5.138797132531181e-05,
      "learning_rate": 9.398459740394792e-06,
      "loss": 0.1315,
      "num_input_tokens_seen": 57904968,
      "step": 99780
    },
    {
      "epoch": 14.86222817992255,
      "grad_norm": 4.823431936529232e-06,
      "learning_rate": 9.395920855049739e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57907912,
      "step": 99785
    },
    {
      "epoch": 14.862972892463509,
      "grad_norm": 0.0003026741906069219,
      "learning_rate": 9.393382233319757e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57910728,
      "step": 99790
    },
    {
      "epoch": 14.863717605004469,
      "grad_norm": 0.0020366760436445475,
      "learning_rate": 9.390843875247717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57913736,
      "step": 99795
    },
    {
      "epoch": 14.864462317545428,
      "grad_norm": 0.00012045779294567183,
      "learning_rate": 9.388305780876508e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57916520,
      "step": 99800
    },
    {
      "epoch": 14.865207030086387,
      "grad_norm": 0.0006562024937011302,
      "learning_rate": 9.385767950249003e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57919208,
      "step": 99805
    },
    {
      "epoch": 14.865951742627345,
      "grad_norm": 0.00030249718111008406,
      "learning_rate": 9.383230383408073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57922504,
      "step": 99810
    },
    {
      "epoch": 14.866696455168306,
      "grad_norm": 5.2575971494661644e-05,
      "learning_rate": 9.380693080396599e-06,
      "loss": 0.0009,
      "num_input_tokens_seen": 57925448,
      "step": 99815
    },
    {
      "epoch": 14.867441167709265,
      "grad_norm": 0.03876999020576477,
      "learning_rate": 9.378156041257436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57928296,
      "step": 99820
    },
    {
      "epoch": 14.868185880250223,
      "grad_norm": 0.0011924526188522577,
      "learning_rate": 9.375619266033456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57931272,
      "step": 99825
    },
    {
      "epoch": 14.868930592791182,
      "grad_norm": 0.000189438636880368,
      "learning_rate": 9.373082754767497e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57933864,
      "step": 99830
    },
    {
      "epoch": 14.86967530533214,
      "grad_norm": 8.595456893090159e-05,
      "learning_rate": 9.370546507502433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57936840,
      "step": 99835
    },
    {
      "epoch": 14.870420017873101,
      "grad_norm": 0.00011341559729771689,
      "learning_rate": 9.368010524281104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57939816,
      "step": 99840
    },
    {
      "epoch": 14.87116473041406,
      "grad_norm": 0.0011915507493540645,
      "learning_rate": 9.365474805146337e-06,
      "loss": 0.1253,
      "num_input_tokens_seen": 57942664,
      "step": 99845
    },
    {
      "epoch": 14.871909442955019,
      "grad_norm": 0.0021105222404003143,
      "learning_rate": 9.362939350140992e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57945448,
      "step": 99850
    },
    {
      "epoch": 14.87265415549598,
      "grad_norm": 194.2376251220703,
      "learning_rate": 9.360404159307887e-06,
      "loss": 0.1438,
      "num_input_tokens_seen": 57948808,
      "step": 99855
    },
    {
      "epoch": 14.873398868036938,
      "grad_norm": 0.0011396532645449042,
      "learning_rate": 9.357869232689867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57951528,
      "step": 99860
    },
    {
      "epoch": 14.874143580577897,
      "grad_norm": 0.0009134429856203496,
      "learning_rate": 9.355334570329746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57954504,
      "step": 99865
    },
    {
      "epoch": 14.874888293118856,
      "grad_norm": 0.00012474563845898956,
      "learning_rate": 9.352800172270352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57957320,
      "step": 99870
    },
    {
      "epoch": 14.875633005659815,
      "grad_norm": 4.0353879739996046e-05,
      "learning_rate": 9.35026603855449e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57960296,
      "step": 99875
    },
    {
      "epoch": 14.876377718200775,
      "grad_norm": 2.802666131174192e-05,
      "learning_rate": 9.347732169224972e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57963272,
      "step": 99880
    },
    {
      "epoch": 14.877122430741734,
      "grad_norm": 0.0015823721187189221,
      "learning_rate": 9.345198564324616e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57966024,
      "step": 99885
    },
    {
      "epoch": 14.877867143282693,
      "grad_norm": 33.37457275390625,
      "learning_rate": 9.342665223896216e-06,
      "loss": 0.0913,
      "num_input_tokens_seen": 57969256,
      "step": 99890
    },
    {
      "epoch": 14.878611855823651,
      "grad_norm": 0.004575325176119804,
      "learning_rate": 9.34013214798258e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57972168,
      "step": 99895
    },
    {
      "epoch": 14.879356568364612,
      "grad_norm": 0.0017014994518831372,
      "learning_rate": 9.337599336626488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57975112,
      "step": 99900
    },
    {
      "epoch": 14.88010128090557,
      "grad_norm": 0.004850365221500397,
      "learning_rate": 9.335066789870741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57978056,
      "step": 99905
    },
    {
      "epoch": 14.88084599344653,
      "grad_norm": 0.004718054085969925,
      "learning_rate": 9.332534507758114e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 57981064,
      "step": 99910
    },
    {
      "epoch": 14.881590705987488,
      "grad_norm": 0.004779265262186527,
      "learning_rate": 9.330002490331402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57983912,
      "step": 99915
    },
    {
      "epoch": 14.882335418528449,
      "grad_norm": 0.007330254651606083,
      "learning_rate": 9.32747073763337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57986664,
      "step": 99920
    },
    {
      "epoch": 14.883080131069407,
      "grad_norm": 0.010374221950769424,
      "learning_rate": 9.324939249706793e-06,
      "loss": 0.0127,
      "num_input_tokens_seen": 57989992,
      "step": 99925
    },
    {
      "epoch": 14.883824843610366,
      "grad_norm": 0.0002586599439382553,
      "learning_rate": 9.322408026594427e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57992968,
      "step": 99930
    },
    {
      "epoch": 14.884569556151325,
      "grad_norm": 7.938868657220155e-05,
      "learning_rate": 9.319877068339051e-06,
      "loss": 0.1036,
      "num_input_tokens_seen": 57995816,
      "step": 99935
    },
    {
      "epoch": 14.885314268692285,
      "grad_norm": 1.1490165888972115e-05,
      "learning_rate": 9.317346374983416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 57998824,
      "step": 99940
    },
    {
      "epoch": 14.886058981233244,
      "grad_norm": 0.011274670250713825,
      "learning_rate": 9.314815946570263e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58001672,
      "step": 99945
    },
    {
      "epoch": 14.886803693774203,
      "grad_norm": 0.24269753694534302,
      "learning_rate": 9.312285783142366e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 58004584,
      "step": 99950
    },
    {
      "epoch": 14.887548406315162,
      "grad_norm": 0.000585952599067241,
      "learning_rate": 9.309755884742455e-06,
      "loss": 0.0396,
      "num_input_tokens_seen": 58007688,
      "step": 99955
    },
    {
      "epoch": 14.888293118856122,
      "grad_norm": 5.48416719539091e-05,
      "learning_rate": 9.307226251413262e-06,
      "loss": 0.1952,
      "num_input_tokens_seen": 58010600,
      "step": 99960
    },
    {
      "epoch": 14.889037831397081,
      "grad_norm": 5.00264395668637e-05,
      "learning_rate": 9.304696883197542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58013320,
      "step": 99965
    },
    {
      "epoch": 14.88978254393804,
      "grad_norm": 8.921174594433978e-05,
      "learning_rate": 9.302167780138005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58016232,
      "step": 99970
    },
    {
      "epoch": 14.890527256478999,
      "grad_norm": 0.0008525500306859612,
      "learning_rate": 9.2996389422774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58019304,
      "step": 99975
    },
    {
      "epoch": 14.891271969019959,
      "grad_norm": 0.003492572344839573,
      "learning_rate": 9.297110369658426e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58022184,
      "step": 99980
    },
    {
      "epoch": 14.892016681560918,
      "grad_norm": 0.21579860150814056,
      "learning_rate": 9.294582062323825e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58025256,
      "step": 99985
    },
    {
      "epoch": 14.892761394101877,
      "grad_norm": 0.025113044306635857,
      "learning_rate": 9.292054020316297e-06,
      "loss": 0.072,
      "num_input_tokens_seen": 58028552,
      "step": 99990
    },
    {
      "epoch": 14.893506106642835,
      "grad_norm": 0.00018609443213790655,
      "learning_rate": 9.28952624367855e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58031720,
      "step": 99995
    },
    {
      "epoch": 14.894250819183796,
      "grad_norm": 0.00024500233121216297,
      "learning_rate": 9.286998732453292e-06,
      "loss": 0.0457,
      "num_input_tokens_seen": 58034664,
      "step": 100000
    },
    {
      "epoch": 14.894995531724755,
      "grad_norm": 0.00039422459667548537,
      "learning_rate": 9.28447148668321e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58037416,
      "step": 100005
    },
    {
      "epoch": 14.895740244265713,
      "grad_norm": 0.001929763238877058,
      "learning_rate": 9.28194450641102e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58040360,
      "step": 100010
    },
    {
      "epoch": 14.896484956806672,
      "grad_norm": 0.00043440648005343974,
      "learning_rate": 9.27941779167939e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58043208,
      "step": 100015
    },
    {
      "epoch": 14.897229669347631,
      "grad_norm": 0.005515491124242544,
      "learning_rate": 9.27689134253103e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 58046152,
      "step": 100020
    },
    {
      "epoch": 14.897974381888591,
      "grad_norm": 0.000318456586683169,
      "learning_rate": 9.274365159008602e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58048968,
      "step": 100025
    },
    {
      "epoch": 14.89871909442955,
      "grad_norm": 0.00016101246001198888,
      "learning_rate": 9.2718392411548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58051944,
      "step": 100030
    },
    {
      "epoch": 14.899463806970509,
      "grad_norm": 0.002174059161916375,
      "learning_rate": 9.26931358901229e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58054888,
      "step": 100035
    },
    {
      "epoch": 14.900208519511468,
      "grad_norm": 0.0002415481285424903,
      "learning_rate": 9.26678820262373e-06,
      "loss": 0.0023,
      "num_input_tokens_seen": 58057672,
      "step": 100040
    },
    {
      "epoch": 14.900953232052428,
      "grad_norm": 0.000707515690010041,
      "learning_rate": 9.2642630820318e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58060264,
      "step": 100045
    },
    {
      "epoch": 14.901697944593387,
      "grad_norm": 0.0004848583193961531,
      "learning_rate": 9.261738227279144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58063208,
      "step": 100050
    },
    {
      "epoch": 14.902442657134346,
      "grad_norm": 0.012407982721924782,
      "learning_rate": 9.259213638408434e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58066216,
      "step": 100055
    },
    {
      "epoch": 14.903187369675305,
      "grad_norm": 0.0025465425569564104,
      "learning_rate": 9.25668931546231e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58068936,
      "step": 100060
    },
    {
      "epoch": 14.903932082216265,
      "grad_norm": 0.001271954970434308,
      "learning_rate": 9.254165258483421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58071816,
      "step": 100065
    },
    {
      "epoch": 14.904676794757224,
      "grad_norm": 0.00015167193487286568,
      "learning_rate": 9.251641467514399e-06,
      "loss": 0.0687,
      "num_input_tokens_seen": 58074632,
      "step": 100070
    },
    {
      "epoch": 14.905421507298183,
      "grad_norm": 0.00024208877584896982,
      "learning_rate": 9.249117942597895e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58077352,
      "step": 100075
    },
    {
      "epoch": 14.906166219839141,
      "grad_norm": 0.001304164412431419,
      "learning_rate": 9.246594683776536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58080040,
      "step": 100080
    },
    {
      "epoch": 14.906910932380102,
      "grad_norm": 0.0007552354945801198,
      "learning_rate": 9.244071691092937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58082952,
      "step": 100085
    },
    {
      "epoch": 14.90765564492106,
      "grad_norm": 0.019248902797698975,
      "learning_rate": 9.241548964589747e-06,
      "loss": 0.0021,
      "num_input_tokens_seen": 58085672,
      "step": 100090
    },
    {
      "epoch": 14.90840035746202,
      "grad_norm": 0.00026102105039171875,
      "learning_rate": 9.239026504309558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58088680,
      "step": 100095
    },
    {
      "epoch": 14.909145070002978,
      "grad_norm": 0.004377181641757488,
      "learning_rate": 9.236504310295007e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58091560,
      "step": 100100
    },
    {
      "epoch": 14.909889782543939,
      "grad_norm": 0.00016973131278064102,
      "learning_rate": 9.233982382588688e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58094440,
      "step": 100105
    },
    {
      "epoch": 14.910634495084897,
      "grad_norm": 0.0005576403927989304,
      "learning_rate": 9.23146072123322e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58097192,
      "step": 100110
    },
    {
      "epoch": 14.911379207625856,
      "grad_norm": 0.004237898159772158,
      "learning_rate": 9.228939326271197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58100104,
      "step": 100115
    },
    {
      "epoch": 14.912123920166815,
      "grad_norm": 0.2786509692668915,
      "learning_rate": 9.226418197745206e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 58103496,
      "step": 100120
    },
    {
      "epoch": 14.912868632707776,
      "grad_norm": 0.002151800785213709,
      "learning_rate": 9.223897335697856e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58106568,
      "step": 100125
    },
    {
      "epoch": 14.913613345248734,
      "grad_norm": 3.5791981645161286e-05,
      "learning_rate": 9.221376740171727e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58109480,
      "step": 100130
    },
    {
      "epoch": 14.914358057789693,
      "grad_norm": 9.293530456488952e-05,
      "learning_rate": 9.2188564112094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58112200,
      "step": 100135
    },
    {
      "epoch": 14.915102770330652,
      "grad_norm": 0.00014823647507000715,
      "learning_rate": 9.216336348853449e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58114952,
      "step": 100140
    },
    {
      "epoch": 14.915847482871612,
      "grad_norm": 0.00031016627326607704,
      "learning_rate": 9.213816553146462e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58118504,
      "step": 100145
    },
    {
      "epoch": 14.916592195412571,
      "grad_norm": 9.071872773347422e-05,
      "learning_rate": 9.211297024130989e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58121608,
      "step": 100150
    },
    {
      "epoch": 14.91733690795353,
      "grad_norm": 0.00019119303033221513,
      "learning_rate": 9.208777761849616e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 58124808,
      "step": 100155
    },
    {
      "epoch": 14.918081620494489,
      "grad_norm": 0.08784008026123047,
      "learning_rate": 9.20625876634489e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58127624,
      "step": 100160
    },
    {
      "epoch": 14.91882633303545,
      "grad_norm": 0.0007651898777112365,
      "learning_rate": 9.203740037659367e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58130536,
      "step": 100165
    },
    {
      "epoch": 14.919571045576408,
      "grad_norm": 0.0005693615530617535,
      "learning_rate": 9.201221575835608e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58133224,
      "step": 100170
    },
    {
      "epoch": 14.920315758117367,
      "grad_norm": 0.0017442152602598071,
      "learning_rate": 9.198703380916143e-06,
      "loss": 0.004,
      "num_input_tokens_seen": 58136040,
      "step": 100175
    },
    {
      "epoch": 14.921060470658325,
      "grad_norm": 0.0005839283112436533,
      "learning_rate": 9.196185452943534e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58138824,
      "step": 100180
    },
    {
      "epoch": 14.921805183199286,
      "grad_norm": 0.0010430475231260061,
      "learning_rate": 9.193667791960303e-06,
      "loss": 0.0217,
      "num_input_tokens_seen": 58141704,
      "step": 100185
    },
    {
      "epoch": 14.922549895740245,
      "grad_norm": 0.00041108482400886714,
      "learning_rate": 9.191150398008996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58144584,
      "step": 100190
    },
    {
      "epoch": 14.923294608281203,
      "grad_norm": 0.0004930337890982628,
      "learning_rate": 9.188633271132135e-06,
      "loss": 0.0689,
      "num_input_tokens_seen": 58147880,
      "step": 100195
    },
    {
      "epoch": 14.924039320822162,
      "grad_norm": 0.00403478741645813,
      "learning_rate": 9.186116411372248e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58150984,
      "step": 100200
    },
    {
      "epoch": 14.924784033363121,
      "grad_norm": 0.0007681340212002397,
      "learning_rate": 9.183599818771849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58154088,
      "step": 100205
    },
    {
      "epoch": 14.925528745904082,
      "grad_norm": 0.0006278816726990044,
      "learning_rate": 9.181083493373449e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58157064,
      "step": 100210
    },
    {
      "epoch": 14.92627345844504,
      "grad_norm": 0.00019821686146315187,
      "learning_rate": 9.178567435219574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58159848,
      "step": 100215
    },
    {
      "epoch": 14.927018170985999,
      "grad_norm": 0.0005581731675192714,
      "learning_rate": 9.176051644352713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58162504,
      "step": 100220
    },
    {
      "epoch": 14.927762883526958,
      "grad_norm": 8.669437374919653e-05,
      "learning_rate": 9.173536120815385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58165288,
      "step": 100225
    },
    {
      "epoch": 14.928507596067918,
      "grad_norm": 0.000138518211315386,
      "learning_rate": 9.171020864650071e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58168104,
      "step": 100230
    },
    {
      "epoch": 14.929252308608877,
      "grad_norm": 17.746780395507812,
      "learning_rate": 9.16850587589928e-06,
      "loss": 0.0688,
      "num_input_tokens_seen": 58171240,
      "step": 100235
    },
    {
      "epoch": 14.929997021149836,
      "grad_norm": 0.008575868792831898,
      "learning_rate": 9.16599115460549e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58174344,
      "step": 100240
    },
    {
      "epoch": 14.930741733690795,
      "grad_norm": 6.632358074188232,
      "learning_rate": 9.16347670081118e-06,
      "loss": 0.0313,
      "num_input_tokens_seen": 58177000,
      "step": 100245
    },
    {
      "epoch": 14.931486446231755,
      "grad_norm": 0.3328486382961273,
      "learning_rate": 9.160962514558843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58179848,
      "step": 100250
    },
    {
      "epoch": 14.932231158772714,
      "grad_norm": 0.0005294756265357137,
      "learning_rate": 9.158448595890948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58182568,
      "step": 100255
    },
    {
      "epoch": 14.932975871313673,
      "grad_norm": 0.008153977803885937,
      "learning_rate": 9.155934944849953e-06,
      "loss": 0.0538,
      "num_input_tokens_seen": 58185480,
      "step": 100260
    },
    {
      "epoch": 14.933720583854631,
      "grad_norm": 0.0011333053698763251,
      "learning_rate": 9.153421561478346e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58188296,
      "step": 100265
    },
    {
      "epoch": 14.934465296395592,
      "grad_norm": 0.0005504973814822733,
      "learning_rate": 9.150908445818571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58191432,
      "step": 100270
    },
    {
      "epoch": 14.93521000893655,
      "grad_norm": 2.933808536909055e-05,
      "learning_rate": 9.148395597913085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58194088,
      "step": 100275
    },
    {
      "epoch": 14.93595472147751,
      "grad_norm": 0.27390268445014954,
      "learning_rate": 9.14588301780435e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58197128,
      "step": 100280
    },
    {
      "epoch": 14.936699434018468,
      "grad_norm": 0.002027881797403097,
      "learning_rate": 9.14337070553481e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58200328,
      "step": 100285
    },
    {
      "epoch": 14.937444146559429,
      "grad_norm": 0.0003209580900147557,
      "learning_rate": 9.140858661146897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58203176,
      "step": 100290
    },
    {
      "epoch": 14.938188859100388,
      "grad_norm": 0.0005201828898862004,
      "learning_rate": 9.138346884683066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58206088,
      "step": 100295
    },
    {
      "epoch": 14.938933571641346,
      "grad_norm": 0.00038458631024695933,
      "learning_rate": 9.135835376185737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58209224,
      "step": 100300
    },
    {
      "epoch": 14.939678284182305,
      "grad_norm": 0.0005237010773271322,
      "learning_rate": 9.133324135697351e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58211976,
      "step": 100305
    },
    {
      "epoch": 14.940422996723266,
      "grad_norm": 0.0002526644675526768,
      "learning_rate": 9.130813163260321e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58214888,
      "step": 100310
    },
    {
      "epoch": 14.941167709264224,
      "grad_norm": 3.804991138167679e-05,
      "learning_rate": 9.128302458917081e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58217672,
      "step": 100315
    },
    {
      "epoch": 14.941912421805183,
      "grad_norm": 0.0019690655171871185,
      "learning_rate": 9.125792022710042e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 58220360,
      "step": 100320
    },
    {
      "epoch": 14.942657134346142,
      "grad_norm": 0.00028554495656862855,
      "learning_rate": 9.123281854681612e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58223144,
      "step": 100325
    },
    {
      "epoch": 14.943401846887102,
      "grad_norm": 0.001326300553046167,
      "learning_rate": 9.120771954874199e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58226056,
      "step": 100330
    },
    {
      "epoch": 14.944146559428061,
      "grad_norm": 0.003888488980010152,
      "learning_rate": 9.118262323330196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58229288,
      "step": 100335
    },
    {
      "epoch": 14.94489127196902,
      "grad_norm": 0.006774209439754486,
      "learning_rate": 9.115752960092017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58232456,
      "step": 100340
    },
    {
      "epoch": 14.945635984509979,
      "grad_norm": 0.013404526747763157,
      "learning_rate": 9.11324386520204e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58235464,
      "step": 100345
    },
    {
      "epoch": 14.946380697050937,
      "grad_norm": 0.3978099226951599,
      "learning_rate": 9.11073503870267e-06,
      "loss": 0.245,
      "num_input_tokens_seen": 58237992,
      "step": 100350
    },
    {
      "epoch": 14.947125409591898,
      "grad_norm": 1.3916474927100353e-05,
      "learning_rate": 9.108226480636276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58240808,
      "step": 100355
    },
    {
      "epoch": 14.947870122132857,
      "grad_norm": 2.616443395614624,
      "learning_rate": 9.105718191045248e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58243784,
      "step": 100360
    },
    {
      "epoch": 14.948614834673815,
      "grad_norm": 0.0008449251763522625,
      "learning_rate": 9.10321016997196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58246888,
      "step": 100365
    },
    {
      "epoch": 14.949359547214776,
      "grad_norm": 0.0016371691599488258,
      "learning_rate": 9.10070241745877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58249800,
      "step": 100370
    },
    {
      "epoch": 14.950104259755735,
      "grad_norm": 0.0016537228366360068,
      "learning_rate": 9.098194933548063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58253256,
      "step": 100375
    },
    {
      "epoch": 14.950848972296694,
      "grad_norm": 9.13092153496109e-05,
      "learning_rate": 9.09568771828218e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58256008,
      "step": 100380
    },
    {
      "epoch": 14.951593684837652,
      "grad_norm": 0.00035980803659185767,
      "learning_rate": 9.0931807717035e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58258824,
      "step": 100385
    },
    {
      "epoch": 14.952338397378611,
      "grad_norm": 0.00016714775119908154,
      "learning_rate": 9.090674093854362e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58261736,
      "step": 100390
    },
    {
      "epoch": 14.953083109919572,
      "grad_norm": 0.003004474565386772,
      "learning_rate": 9.088167684777115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58264712,
      "step": 100395
    },
    {
      "epoch": 14.95382782246053,
      "grad_norm": 0.0016100651118904352,
      "learning_rate": 9.085661544514104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58267560,
      "step": 100400
    },
    {
      "epoch": 14.954572535001489,
      "grad_norm": 0.001236286829225719,
      "learning_rate": 9.083155673107657e-06,
      "loss": 0.1498,
      "num_input_tokens_seen": 58270856,
      "step": 100405
    },
    {
      "epoch": 14.955317247542448,
      "grad_norm": 0.29076695442199707,
      "learning_rate": 9.080650070600128e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58273512,
      "step": 100410
    },
    {
      "epoch": 14.956061960083408,
      "grad_norm": 0.0002140435390174389,
      "learning_rate": 9.078144737033827e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58276328,
      "step": 100415
    },
    {
      "epoch": 14.956806672624367,
      "grad_norm": 0.0019452101550996304,
      "learning_rate": 9.075639672451097e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58279272,
      "step": 100420
    },
    {
      "epoch": 14.957551385165326,
      "grad_norm": 0.0010707555338740349,
      "learning_rate": 9.073134876894241e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58282312,
      "step": 100425
    },
    {
      "epoch": 14.958296097706285,
      "grad_norm": 0.004977459087967873,
      "learning_rate": 9.070630350405593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58284968,
      "step": 100430
    },
    {
      "epoch": 14.959040810247245,
      "grad_norm": 0.004718202631920576,
      "learning_rate": 9.068126093027447e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58287880,
      "step": 100435
    },
    {
      "epoch": 14.959785522788204,
      "grad_norm": 3.16198929795064e-05,
      "learning_rate": 9.065622104802126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58290728,
      "step": 100440
    },
    {
      "epoch": 14.960530235329163,
      "grad_norm": 0.0017733783461153507,
      "learning_rate": 9.063118385771924e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 58293576,
      "step": 100445
    },
    {
      "epoch": 14.961274947870121,
      "grad_norm": 0.00031857710564509034,
      "learning_rate": 9.060614935979131e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58296872,
      "step": 100450
    },
    {
      "epoch": 14.962019660411082,
      "grad_norm": 205.27108764648438,
      "learning_rate": 9.058111755466059e-06,
      "loss": 0.0244,
      "num_input_tokens_seen": 58299848,
      "step": 100455
    },
    {
      "epoch": 14.96276437295204,
      "grad_norm": 0.0025549631100147963,
      "learning_rate": 9.055608844274985e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 58302856,
      "step": 100460
    },
    {
      "epoch": 14.963509085493,
      "grad_norm": 0.005690735299140215,
      "learning_rate": 9.053106202448194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58305672,
      "step": 100465
    },
    {
      "epoch": 14.964253798033958,
      "grad_norm": 0.0003776382654905319,
      "learning_rate": 9.050603830027959e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58308616,
      "step": 100470
    },
    {
      "epoch": 14.964998510574919,
      "grad_norm": 5.924801007495262e-05,
      "learning_rate": 9.048101727056568e-06,
      "loss": 0.0352,
      "num_input_tokens_seen": 58311752,
      "step": 100475
    },
    {
      "epoch": 14.965743223115878,
      "grad_norm": 40.62460708618164,
      "learning_rate": 9.045599893576287e-06,
      "loss": 0.1969,
      "num_input_tokens_seen": 58314568,
      "step": 100480
    },
    {
      "epoch": 14.966487935656836,
      "grad_norm": 0.005244624800980091,
      "learning_rate": 9.043098329629374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58317640,
      "step": 100485
    },
    {
      "epoch": 14.967232648197795,
      "grad_norm": 0.0007117277709767222,
      "learning_rate": 9.040597035258103e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58320200,
      "step": 100490
    },
    {
      "epoch": 14.967977360738756,
      "grad_norm": 5.460784450406209e-06,
      "learning_rate": 9.038096010504714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58323208,
      "step": 100495
    },
    {
      "epoch": 14.968722073279714,
      "grad_norm": 0.00721550639718771,
      "learning_rate": 9.035595255411482e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58325864,
      "step": 100500
    },
    {
      "epoch": 14.969466785820673,
      "grad_norm": 0.00016951531870290637,
      "learning_rate": 9.033094770020634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58328744,
      "step": 100505
    },
    {
      "epoch": 14.970211498361632,
      "grad_norm": 0.0031049055978655815,
      "learning_rate": 9.03059455437443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58331688,
      "step": 100510
    },
    {
      "epoch": 14.970956210902592,
      "grad_norm": 0.00046715972712263465,
      "learning_rate": 9.028094608515093e-06,
      "loss": 0.0722,
      "num_input_tokens_seen": 58334632,
      "step": 100515
    },
    {
      "epoch": 14.971700923443551,
      "grad_norm": 3.689766890602186e-05,
      "learning_rate": 9.02559493248487e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58337416,
      "step": 100520
    },
    {
      "epoch": 14.97244563598451,
      "grad_norm": 0.004093639086931944,
      "learning_rate": 9.023095526325987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58340296,
      "step": 100525
    },
    {
      "epoch": 14.973190348525469,
      "grad_norm": 0.00017011346062645316,
      "learning_rate": 9.020596390080665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58343304,
      "step": 100530
    },
    {
      "epoch": 14.973935061066427,
      "grad_norm": 5.018449306488037,
      "learning_rate": 9.018097523791127e-06,
      "loss": 0.0188,
      "num_input_tokens_seen": 58346344,
      "step": 100535
    },
    {
      "epoch": 14.974679773607388,
      "grad_norm": 0.0014773454749956727,
      "learning_rate": 9.01559892749958e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58349288,
      "step": 100540
    },
    {
      "epoch": 14.975424486148347,
      "grad_norm": 0.011182956397533417,
      "learning_rate": 9.013100601248254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58351944,
      "step": 100545
    },
    {
      "epoch": 14.976169198689306,
      "grad_norm": 0.0018314587650820613,
      "learning_rate": 9.010602545079332e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58354664,
      "step": 100550
    },
    {
      "epoch": 14.976913911230266,
      "grad_norm": 0.004507961682975292,
      "learning_rate": 9.00810475903504e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58357576,
      "step": 100555
    },
    {
      "epoch": 14.977658623771225,
      "grad_norm": 0.0016300234710797668,
      "learning_rate": 9.005607243157565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58360264,
      "step": 100560
    },
    {
      "epoch": 14.978403336312184,
      "grad_norm": 0.0003306055150460452,
      "learning_rate": 9.003109997489092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58363176,
      "step": 100565
    },
    {
      "epoch": 14.979148048853142,
      "grad_norm": 0.0009307281579822302,
      "learning_rate": 9.000613022071824e-06,
      "loss": 0.0009,
      "num_input_tokens_seen": 58365896,
      "step": 100570
    },
    {
      "epoch": 14.979892761394101,
      "grad_norm": 0.008063318207859993,
      "learning_rate": 8.99811631694793e-06,
      "loss": 0.2625,
      "num_input_tokens_seen": 58368712,
      "step": 100575
    },
    {
      "epoch": 14.980637473935062,
      "grad_norm": 0.0020837460178881884,
      "learning_rate": 8.995619882159606e-06,
      "loss": 0.0974,
      "num_input_tokens_seen": 58371688,
      "step": 100580
    },
    {
      "epoch": 14.98138218647602,
      "grad_norm": 144.59710693359375,
      "learning_rate": 8.993123717749016e-06,
      "loss": 0.2178,
      "num_input_tokens_seen": 58374760,
      "step": 100585
    },
    {
      "epoch": 14.98212689901698,
      "grad_norm": 0.000215405278140679,
      "learning_rate": 8.990627823758327e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58377672,
      "step": 100590
    },
    {
      "epoch": 14.982871611557938,
      "grad_norm": 0.0012560089817270637,
      "learning_rate": 8.988132200229716e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58380840,
      "step": 100595
    },
    {
      "epoch": 14.983616324098898,
      "grad_norm": 0.00045934857917018235,
      "learning_rate": 8.985636847205336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58384136,
      "step": 100600
    },
    {
      "epoch": 14.984361036639857,
      "grad_norm": 0.0010730150388553739,
      "learning_rate": 8.983141764727348e-06,
      "loss": 0.0508,
      "num_input_tokens_seen": 58387112,
      "step": 100605
    },
    {
      "epoch": 14.985105749180816,
      "grad_norm": 0.000590652460232377,
      "learning_rate": 8.980646952837894e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58389832,
      "step": 100610
    },
    {
      "epoch": 14.985850461721775,
      "grad_norm": 0.0007624372956342995,
      "learning_rate": 8.978152411579133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58392808,
      "step": 100615
    },
    {
      "epoch": 14.986595174262735,
      "grad_norm": 0.0006408697227016091,
      "learning_rate": 8.975658140993196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58395560,
      "step": 100620
    },
    {
      "epoch": 14.987339886803694,
      "grad_norm": 0.04381445050239563,
      "learning_rate": 8.973164141122237e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58398504,
      "step": 100625
    },
    {
      "epoch": 14.988084599344653,
      "grad_norm": 110.82670593261719,
      "learning_rate": 8.970670412008372e-06,
      "loss": 0.1504,
      "num_input_tokens_seen": 58401160,
      "step": 100630
    },
    {
      "epoch": 14.988829311885612,
      "grad_norm": 0.008343248628079891,
      "learning_rate": 8.96817695369375e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58404008,
      "step": 100635
    },
    {
      "epoch": 14.989574024426572,
      "grad_norm": 0.00024697682238183916,
      "learning_rate": 8.965683766220481e-06,
      "loss": 0.0352,
      "num_input_tokens_seen": 58406952,
      "step": 100640
    },
    {
      "epoch": 14.99031873696753,
      "grad_norm": 0.003613414242863655,
      "learning_rate": 8.963190849630682e-06,
      "loss": 0.0075,
      "num_input_tokens_seen": 58409800,
      "step": 100645
    },
    {
      "epoch": 14.99106344950849,
      "grad_norm": 0.0009752387413755059,
      "learning_rate": 8.96069820396648e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 58412552,
      "step": 100650
    },
    {
      "epoch": 14.991808162049448,
      "grad_norm": 0.0002797531778924167,
      "learning_rate": 8.958205829269984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58415624,
      "step": 100655
    },
    {
      "epoch": 14.992552874590409,
      "grad_norm": 0.00021071810624562204,
      "learning_rate": 8.955713725583295e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58418344,
      "step": 100660
    },
    {
      "epoch": 14.993297587131368,
      "grad_norm": 0.011004104278981686,
      "learning_rate": 8.953221892948508e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58421128,
      "step": 100665
    },
    {
      "epoch": 14.994042299672326,
      "grad_norm": 0.00028541203937493265,
      "learning_rate": 8.950730331407733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58424168,
      "step": 100670
    },
    {
      "epoch": 14.994787012213285,
      "grad_norm": 7.936091424198821e-05,
      "learning_rate": 8.94823904100305e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58427048,
      "step": 100675
    },
    {
      "epoch": 14.995531724754246,
      "grad_norm": 0.0010320359142497182,
      "learning_rate": 8.945748021776564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58430120,
      "step": 100680
    },
    {
      "epoch": 14.996276437295204,
      "grad_norm": 0.0009744599228724837,
      "learning_rate": 8.943257273770351e-06,
      "loss": 0.0216,
      "num_input_tokens_seen": 58432872,
      "step": 100685
    },
    {
      "epoch": 14.997021149836163,
      "grad_norm": 0.007853000424802303,
      "learning_rate": 8.940766797026476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58435560,
      "step": 100690
    },
    {
      "epoch": 14.997765862377122,
      "grad_norm": 9.385392331751063e-05,
      "learning_rate": 8.938276591587031e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58438792,
      "step": 100695
    },
    {
      "epoch": 14.998510574918082,
      "grad_norm": 0.0015807878226041794,
      "learning_rate": 8.935786657494072e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58442088,
      "step": 100700
    },
    {
      "epoch": 14.999255287459041,
      "grad_norm": 0.0003079943417105824,
      "learning_rate": 8.933296994789678e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58444840,
      "step": 100705
    },
    {
      "epoch": 15.0,
      "grad_norm": 7.932147127576172e-06,
      "learning_rate": 8.930807603515895e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58447368,
      "step": 100710
    },
    {
      "epoch": 15.0,
      "eval_loss": 2.385885238647461,
      "eval_runtime": 49.1202,
      "eval_samples_per_second": 60.749,
      "eval_steps_per_second": 15.187,
      "num_input_tokens_seen": 58447368,
      "step": 100710
    },
    {
      "epoch": 15.000744712540959,
      "grad_norm": 0.0004130102170165628,
      "learning_rate": 8.928318483714793e-06,
      "loss": 0.031,
      "num_input_tokens_seen": 58450056,
      "step": 100715
    },
    {
      "epoch": 15.001489425081918,
      "grad_norm": 0.0005908351158723235,
      "learning_rate": 8.925829635428414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58452872,
      "step": 100720
    },
    {
      "epoch": 15.002234137622878,
      "grad_norm": 0.0014807189581915736,
      "learning_rate": 8.92334105869881e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58456040,
      "step": 100725
    },
    {
      "epoch": 15.002978850163837,
      "grad_norm": 0.0008385208202525973,
      "learning_rate": 8.920852753568015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58458984,
      "step": 100730
    },
    {
      "epoch": 15.003723562704796,
      "grad_norm": 5.0804632337531075e-05,
      "learning_rate": 8.918364720078063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58461768,
      "step": 100735
    },
    {
      "epoch": 15.004468275245754,
      "grad_norm": 0.23035207390785217,
      "learning_rate": 8.915876958271006e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58464680,
      "step": 100740
    },
    {
      "epoch": 15.005212987786715,
      "grad_norm": 0.00028414418920874596,
      "learning_rate": 8.913389468188849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58467528,
      "step": 100745
    },
    {
      "epoch": 15.005957700327674,
      "grad_norm": 2.002623295993544e-05,
      "learning_rate": 8.910902249873637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58470216,
      "step": 100750
    },
    {
      "epoch": 15.006702412868632,
      "grad_norm": 0.0007226048037409782,
      "learning_rate": 8.908415303367371e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58473128,
      "step": 100755
    },
    {
      "epoch": 15.007447125409591,
      "grad_norm": 0.0007136626518331468,
      "learning_rate": 8.905928628712083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58476008,
      "step": 100760
    },
    {
      "epoch": 15.008191837950552,
      "grad_norm": 8.348726260010153e-05,
      "learning_rate": 8.90344222594977e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58478984,
      "step": 100765
    },
    {
      "epoch": 15.00893655049151,
      "grad_norm": 0.0024721473455429077,
      "learning_rate": 8.900956095122435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58482152,
      "step": 100770
    },
    {
      "epoch": 15.00968126303247,
      "grad_norm": 0.00050488201668486,
      "learning_rate": 8.898470236272091e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58485352,
      "step": 100775
    },
    {
      "epoch": 15.010425975573428,
      "grad_norm": 0.03650478646159172,
      "learning_rate": 8.895984649440722e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58488104,
      "step": 100780
    },
    {
      "epoch": 15.011170688114388,
      "grad_norm": 0.00023094956122804433,
      "learning_rate": 8.89349933467033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58491016,
      "step": 100785
    },
    {
      "epoch": 15.011915400655347,
      "grad_norm": 0.0004848858225159347,
      "learning_rate": 8.8910142920029e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58494184,
      "step": 100790
    },
    {
      "epoch": 15.012660113196306,
      "grad_norm": 0.006254402454942465,
      "learning_rate": 8.88852952148041e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58497000,
      "step": 100795
    },
    {
      "epoch": 15.013404825737265,
      "grad_norm": 0.0020215546246618032,
      "learning_rate": 8.886045023144829e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58500136,
      "step": 100800
    },
    {
      "epoch": 15.014149538278225,
      "grad_norm": 0.0004475847235880792,
      "learning_rate": 8.883560797038152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58503144,
      "step": 100805
    },
    {
      "epoch": 15.014894250819184,
      "grad_norm": 0.001067981356754899,
      "learning_rate": 8.881076843202332e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58505928,
      "step": 100810
    },
    {
      "epoch": 15.015638963360143,
      "grad_norm": 0.002042236737906933,
      "learning_rate": 8.878593161679327e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58509064,
      "step": 100815
    },
    {
      "epoch": 15.016383675901102,
      "grad_norm": 0.00041390041587874293,
      "learning_rate": 8.876109752511117e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58512008,
      "step": 100820
    },
    {
      "epoch": 15.017128388442062,
      "grad_norm": 0.00010977695637848228,
      "learning_rate": 8.873626615739632e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58514824,
      "step": 100825
    },
    {
      "epoch": 15.01787310098302,
      "grad_norm": 0.004201299976557493,
      "learning_rate": 8.871143751406849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58517640,
      "step": 100830
    },
    {
      "epoch": 15.01861781352398,
      "grad_norm": 0.0010148636065423489,
      "learning_rate": 8.868661159554689e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58520392,
      "step": 100835
    },
    {
      "epoch": 15.019362526064938,
      "grad_norm": 0.0003097142616752535,
      "learning_rate": 8.866178840225111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58523368,
      "step": 100840
    },
    {
      "epoch": 15.020107238605899,
      "grad_norm": 0.002393417526036501,
      "learning_rate": 8.863696793460047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58526184,
      "step": 100845
    },
    {
      "epoch": 15.020851951146858,
      "grad_norm": 0.002762580756098032,
      "learning_rate": 8.861215019301414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58528936,
      "step": 100850
    },
    {
      "epoch": 15.021596663687816,
      "grad_norm": 0.0004592129844240844,
      "learning_rate": 8.85873351779116e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58531752,
      "step": 100855
    },
    {
      "epoch": 15.022341376228775,
      "grad_norm": 0.00014923574053682387,
      "learning_rate": 8.856252288971198e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58534632,
      "step": 100860
    },
    {
      "epoch": 15.023086088769736,
      "grad_norm": 0.00039984541945159435,
      "learning_rate": 8.853771332883446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58537448,
      "step": 100865
    },
    {
      "epoch": 15.023830801310694,
      "grad_norm": 0.0009936990682035685,
      "learning_rate": 8.851290649569808e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58540264,
      "step": 100870
    },
    {
      "epoch": 15.024575513851653,
      "grad_norm": 0.0007712700753472745,
      "learning_rate": 8.848810239072208e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58543272,
      "step": 100875
    },
    {
      "epoch": 15.025320226392612,
      "grad_norm": 0.0008476630900986493,
      "learning_rate": 8.84633010143254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58545672,
      "step": 100880
    },
    {
      "epoch": 15.02606493893357,
      "grad_norm": 0.00027328659780323505,
      "learning_rate": 8.84385023669271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58548328,
      "step": 100885
    },
    {
      "epoch": 15.026809651474531,
      "grad_norm": 0.0002954796946141869,
      "learning_rate": 8.841370644894614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58551272,
      "step": 100890
    },
    {
      "epoch": 15.02755436401549,
      "grad_norm": 0.0018669235287234187,
      "learning_rate": 8.838891326080129e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58553960,
      "step": 100895
    },
    {
      "epoch": 15.028299076556449,
      "grad_norm": 0.00013019995822105557,
      "learning_rate": 8.83641228029116e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58556968,
      "step": 100900
    },
    {
      "epoch": 15.029043789097408,
      "grad_norm": 0.00022365970653481781,
      "learning_rate": 8.833933507569564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58559784,
      "step": 100905
    },
    {
      "epoch": 15.029788501638368,
      "grad_norm": 0.00046639726497232914,
      "learning_rate": 8.831455007957243e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58562792,
      "step": 100910
    },
    {
      "epoch": 15.030533214179327,
      "grad_norm": 0.000864548550453037,
      "learning_rate": 8.828976781496057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58565640,
      "step": 100915
    },
    {
      "epoch": 15.031277926720286,
      "grad_norm": 0.0007411898113787174,
      "learning_rate": 8.826498828227861e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58568392,
      "step": 100920
    },
    {
      "epoch": 15.032022639261244,
      "grad_norm": 0.001290541491471231,
      "learning_rate": 8.824021148194541e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58571336,
      "step": 100925
    },
    {
      "epoch": 15.032767351802205,
      "grad_norm": 0.003474926808848977,
      "learning_rate": 8.82154374143794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58574216,
      "step": 100930
    },
    {
      "epoch": 15.033512064343164,
      "grad_norm": 0.0007391726248897612,
      "learning_rate": 8.819066607999918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58577064,
      "step": 100935
    },
    {
      "epoch": 15.034256776884122,
      "grad_norm": 0.0003445754700805992,
      "learning_rate": 8.816589747922311e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58579976,
      "step": 100940
    },
    {
      "epoch": 15.035001489425081,
      "grad_norm": 0.0027522749733179808,
      "learning_rate": 8.814113161246979e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58582792,
      "step": 100945
    },
    {
      "epoch": 15.035746201966042,
      "grad_norm": 9.966301149688661e-05,
      "learning_rate": 8.811636848015747e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58585512,
      "step": 100950
    },
    {
      "epoch": 15.036490914507,
      "grad_norm": 3.2084739208221436,
      "learning_rate": 8.809160808270464e-06,
      "loss": 0.0228,
      "num_input_tokens_seen": 58588488,
      "step": 100955
    },
    {
      "epoch": 15.03723562704796,
      "grad_norm": 0.0002503364230506122,
      "learning_rate": 8.806685042052949e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58591240,
      "step": 100960
    },
    {
      "epoch": 15.037980339588918,
      "grad_norm": 0.008429803885519505,
      "learning_rate": 8.804209549405037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58593800,
      "step": 100965
    },
    {
      "epoch": 15.038725052129879,
      "grad_norm": 0.0013084611855447292,
      "learning_rate": 8.801734330368544e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58596776,
      "step": 100970
    },
    {
      "epoch": 15.039469764670837,
      "grad_norm": 0.007768735755234957,
      "learning_rate": 8.79925938498528e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58599688,
      "step": 100975
    },
    {
      "epoch": 15.040214477211796,
      "grad_norm": 3.723640929820249e-06,
      "learning_rate": 8.796784713297072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58602600,
      "step": 100980
    },
    {
      "epoch": 15.040959189752755,
      "grad_norm": 0.00011859576625283808,
      "learning_rate": 8.794310315345713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58605608,
      "step": 100985
    },
    {
      "epoch": 15.041703902293715,
      "grad_norm": 1.3628533451992553e-05,
      "learning_rate": 8.791836191173017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58608424,
      "step": 100990
    },
    {
      "epoch": 15.042448614834674,
      "grad_norm": 0.00027546274941414595,
      "learning_rate": 8.78936234082076e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58611464,
      "step": 100995
    },
    {
      "epoch": 15.043193327375633,
      "grad_norm": 5.8692327002063394e-05,
      "learning_rate": 8.786888764330767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58614280,
      "step": 101000
    },
    {
      "epoch": 15.043938039916592,
      "grad_norm": 0.00021509724319912493,
      "learning_rate": 8.784415461744805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58617096,
      "step": 101005
    },
    {
      "epoch": 15.044682752457552,
      "grad_norm": 0.0007184519781731069,
      "learning_rate": 8.781942433104654e-06,
      "loss": 0.4313,
      "num_input_tokens_seen": 58620168,
      "step": 101010
    },
    {
      "epoch": 15.045427464998511,
      "grad_norm": 0.00025709226611070335,
      "learning_rate": 8.779469678452113e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58623048,
      "step": 101015
    },
    {
      "epoch": 15.04617217753947,
      "grad_norm": 0.0009182586800307035,
      "learning_rate": 8.776997197828937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58625800,
      "step": 101020
    },
    {
      "epoch": 15.046916890080428,
      "grad_norm": 0.0003911352250725031,
      "learning_rate": 8.774524991276911e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58628680,
      "step": 101025
    },
    {
      "epoch": 15.047661602621389,
      "grad_norm": 0.0007838287274353206,
      "learning_rate": 8.77205305883779e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58631880,
      "step": 101030
    },
    {
      "epoch": 15.048406315162348,
      "grad_norm": 7.183491106843576e-05,
      "learning_rate": 8.769581400553346e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58634760,
      "step": 101035
    },
    {
      "epoch": 15.049151027703306,
      "grad_norm": 0.00012451654765754938,
      "learning_rate": 8.767110016465318e-06,
      "loss": 0.0853,
      "num_input_tokens_seen": 58637672,
      "step": 101040
    },
    {
      "epoch": 15.049895740244265,
      "grad_norm": 0.0006954371347092092,
      "learning_rate": 8.76463890661548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58640424,
      "step": 101045
    },
    {
      "epoch": 15.050640452785226,
      "grad_norm": 0.00036841625114902854,
      "learning_rate": 8.762168071045566e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58643464,
      "step": 101050
    },
    {
      "epoch": 15.051385165326185,
      "grad_norm": 0.0010178623488172889,
      "learning_rate": 8.759697509797315e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58645928,
      "step": 101055
    },
    {
      "epoch": 15.052129877867143,
      "grad_norm": 0.0002140616561518982,
      "learning_rate": 8.757227222912473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58648648,
      "step": 101060
    },
    {
      "epoch": 15.052874590408102,
      "grad_norm": 0.0006578736938536167,
      "learning_rate": 8.754757210432758e-06,
      "loss": 0.0674,
      "num_input_tokens_seen": 58651432,
      "step": 101065
    },
    {
      "epoch": 15.05361930294906,
      "grad_norm": 7.748077041469514e-05,
      "learning_rate": 8.752287472399918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58654344,
      "step": 101070
    },
    {
      "epoch": 15.054364015490021,
      "grad_norm": 0.00012449010682757944,
      "learning_rate": 8.74981800885566e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58657096,
      "step": 101075
    },
    {
      "epoch": 15.05510872803098,
      "grad_norm": 0.0003118196618743241,
      "learning_rate": 8.747348819841719e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58659912,
      "step": 101080
    },
    {
      "epoch": 15.055853440571939,
      "grad_norm": 0.0025464720092713833,
      "learning_rate": 8.7448799053998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58663112,
      "step": 101085
    },
    {
      "epoch": 15.056598153112898,
      "grad_norm": 8.880465611582622e-05,
      "learning_rate": 8.742411265571607e-06,
      "loss": 0.0566,
      "num_input_tokens_seen": 58666088,
      "step": 101090
    },
    {
      "epoch": 15.057342865653858,
      "grad_norm": 0.000950707180891186,
      "learning_rate": 8.73994290039886e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58668776,
      "step": 101095
    },
    {
      "epoch": 15.058087578194817,
      "grad_norm": 0.00018675450701266527,
      "learning_rate": 8.737474809923244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58671400,
      "step": 101100
    },
    {
      "epoch": 15.058832290735776,
      "grad_norm": 0.0004530951555352658,
      "learning_rate": 8.73500699418647e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58674568,
      "step": 101105
    },
    {
      "epoch": 15.059577003276734,
      "grad_norm": 0.0005845996784046292,
      "learning_rate": 8.732539453230215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58677512,
      "step": 101110
    },
    {
      "epoch": 15.060321715817695,
      "grad_norm": 0.0017305403016507626,
      "learning_rate": 8.730072187096178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58680392,
      "step": 101115
    },
    {
      "epoch": 15.061066428358654,
      "grad_norm": 0.003573939437046647,
      "learning_rate": 8.727605195826038e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58683112,
      "step": 101120
    },
    {
      "epoch": 15.061811140899612,
      "grad_norm": 0.00013788670185022056,
      "learning_rate": 8.72513847946147e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58686184,
      "step": 101125
    },
    {
      "epoch": 15.062555853440571,
      "grad_norm": 0.0016735969111323357,
      "learning_rate": 8.722672038044145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58688872,
      "step": 101130
    },
    {
      "epoch": 15.063300565981532,
      "grad_norm": 0.0024637728929519653,
      "learning_rate": 8.720205871615722e-06,
      "loss": 0.1688,
      "num_input_tokens_seen": 58691688,
      "step": 101135
    },
    {
      "epoch": 15.06404527852249,
      "grad_norm": 0.0010506949620321393,
      "learning_rate": 8.717739980217887e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58694824,
      "step": 101140
    },
    {
      "epoch": 15.06478999106345,
      "grad_norm": 0.0008866831776686013,
      "learning_rate": 8.715274363892276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58697480,
      "step": 101145
    },
    {
      "epoch": 15.065534703604408,
      "grad_norm": 0.00023323364439420402,
      "learning_rate": 8.712809022680563e-06,
      "loss": 0.2375,
      "num_input_tokens_seen": 58700552,
      "step": 101150
    },
    {
      "epoch": 15.066279416145369,
      "grad_norm": 0.024748915806412697,
      "learning_rate": 8.710343956624379e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58703496,
      "step": 101155
    },
    {
      "epoch": 15.067024128686327,
      "grad_norm": 0.0011192660313099623,
      "learning_rate": 8.707879165765384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58706376,
      "step": 101160
    },
    {
      "epoch": 15.067768841227286,
      "grad_norm": 0.0001592064363649115,
      "learning_rate": 8.705414650145215e-06,
      "loss": 0.0013,
      "num_input_tokens_seen": 58709416,
      "step": 101165
    },
    {
      "epoch": 15.068513553768245,
      "grad_norm": 0.00016957055777311325,
      "learning_rate": 8.702950409805493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58712520,
      "step": 101170
    },
    {
      "epoch": 15.069258266309205,
      "grad_norm": 0.0007323932950384915,
      "learning_rate": 8.700486444787872e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58715336,
      "step": 101175
    },
    {
      "epoch": 15.070002978850164,
      "grad_norm": 0.0008887809817679226,
      "learning_rate": 8.698022755133957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58718120,
      "step": 101180
    },
    {
      "epoch": 15.070747691391123,
      "grad_norm": 0.00023225722543429583,
      "learning_rate": 8.695559340885387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58720968,
      "step": 101185
    },
    {
      "epoch": 15.071492403932082,
      "grad_norm": 0.00017448599101044238,
      "learning_rate": 8.693096202083773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58724104,
      "step": 101190
    },
    {
      "epoch": 15.072237116473042,
      "grad_norm": 0.0002242315822513774,
      "learning_rate": 8.69063333877072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58726696,
      "step": 101195
    },
    {
      "epoch": 15.072981829014001,
      "grad_norm": 0.0003093169361818582,
      "learning_rate": 8.688170750987836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58729352,
      "step": 101200
    },
    {
      "epoch": 15.07372654155496,
      "grad_norm": 1.3889785805076826e-05,
      "learning_rate": 8.685708438776739e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58732072,
      "step": 101205
    },
    {
      "epoch": 15.074471254095918,
      "grad_norm": 0.0009517918224446476,
      "learning_rate": 8.683246402179013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58734856,
      "step": 101210
    },
    {
      "epoch": 15.075215966636879,
      "grad_norm": 0.00010035526793217286,
      "learning_rate": 8.680784641236248e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58737480,
      "step": 101215
    },
    {
      "epoch": 15.075960679177838,
      "grad_norm": 0.0031368499621748924,
      "learning_rate": 8.678323155990047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58740392,
      "step": 101220
    },
    {
      "epoch": 15.076705391718797,
      "grad_norm": 0.00041982848779298365,
      "learning_rate": 8.67586194648198e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58743208,
      "step": 101225
    },
    {
      "epoch": 15.077450104259755,
      "grad_norm": 0.0870545506477356,
      "learning_rate": 8.673401012753646e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58745992,
      "step": 101230
    },
    {
      "epoch": 15.078194816800714,
      "grad_norm": 0.0009109650854952633,
      "learning_rate": 8.670940354846596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58749128,
      "step": 101235
    },
    {
      "epoch": 15.078939529341675,
      "grad_norm": 0.0011733738938346505,
      "learning_rate": 8.668479972802423e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58752136,
      "step": 101240
    },
    {
      "epoch": 15.079684241882633,
      "grad_norm": 0.0006243007373996079,
      "learning_rate": 8.666019866662683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58755208,
      "step": 101245
    },
    {
      "epoch": 15.080428954423592,
      "grad_norm": 0.0066541098058223724,
      "learning_rate": 8.663560036468926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58758120,
      "step": 101250
    },
    {
      "epoch": 15.08117366696455,
      "grad_norm": 0.008695167489349842,
      "learning_rate": 8.661100482262729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58761000,
      "step": 101255
    },
    {
      "epoch": 15.081918379505511,
      "grad_norm": 0.00026904180413112044,
      "learning_rate": 8.658641204085632e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58763848,
      "step": 101260
    },
    {
      "epoch": 15.08266309204647,
      "grad_norm": 5.6645138101885095e-05,
      "learning_rate": 8.656182201979181e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58766888,
      "step": 101265
    },
    {
      "epoch": 15.083407804587429,
      "grad_norm": 0.004739650059491396,
      "learning_rate": 8.653723475984916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58770024,
      "step": 101270
    },
    {
      "epoch": 15.084152517128388,
      "grad_norm": 0.0010070897405967116,
      "learning_rate": 8.651265026144387e-06,
      "loss": 0.1376,
      "num_input_tokens_seen": 58773160,
      "step": 101275
    },
    {
      "epoch": 15.084897229669348,
      "grad_norm": 0.0009275682969018817,
      "learning_rate": 8.648806852499109e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58775752,
      "step": 101280
    },
    {
      "epoch": 15.085641942210307,
      "grad_norm": 0.0017284525092691183,
      "learning_rate": 8.64634895509063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58778472,
      "step": 101285
    },
    {
      "epoch": 15.086386654751266,
      "grad_norm": 0.0019339164718985558,
      "learning_rate": 8.643891333960464e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58781192,
      "step": 101290
    },
    {
      "epoch": 15.087131367292224,
      "grad_norm": 0.0038573285564780235,
      "learning_rate": 8.641433989150123e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58783976,
      "step": 101295
    },
    {
      "epoch": 15.087876079833185,
      "grad_norm": 0.9389999508857727,
      "learning_rate": 8.638976920701137e-06,
      "loss": 0.0006,
      "num_input_tokens_seen": 58786920,
      "step": 101300
    },
    {
      "epoch": 15.088620792374144,
      "grad_norm": 5.924088478088379,
      "learning_rate": 8.636520128654995e-06,
      "loss": 0.0083,
      "num_input_tokens_seen": 58789480,
      "step": 101305
    },
    {
      "epoch": 15.089365504915103,
      "grad_norm": 0.0011820608051493764,
      "learning_rate": 8.634063613053228e-06,
      "loss": 0.0051,
      "num_input_tokens_seen": 58792360,
      "step": 101310
    },
    {
      "epoch": 15.090110217456061,
      "grad_norm": 0.0617096871137619,
      "learning_rate": 8.631607373937319e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58795240,
      "step": 101315
    },
    {
      "epoch": 15.090854929997022,
      "grad_norm": 0.0041284337639808655,
      "learning_rate": 8.62915141134877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58797960,
      "step": 101320
    },
    {
      "epoch": 15.09159964253798,
      "grad_norm": 0.00041868144762702286,
      "learning_rate": 8.626695725329059e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58800712,
      "step": 101325
    },
    {
      "epoch": 15.09234435507894,
      "grad_norm": 0.001330511993728578,
      "learning_rate": 8.624240315919693e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 58804008,
      "step": 101330
    },
    {
      "epoch": 15.093089067619898,
      "grad_norm": 5.598887582891621e-05,
      "learning_rate": 8.62178518316214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58806824,
      "step": 101335
    },
    {
      "epoch": 15.093833780160859,
      "grad_norm": 0.0008617392159067094,
      "learning_rate": 8.619330327097874e-06,
      "loss": 0.0018,
      "num_input_tokens_seen": 58809640,
      "step": 101340
    },
    {
      "epoch": 15.094578492701817,
      "grad_norm": 0.0003738038649316877,
      "learning_rate": 8.616875747768382e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58812456,
      "step": 101345
    },
    {
      "epoch": 15.095323205242776,
      "grad_norm": 0.000927099899854511,
      "learning_rate": 8.614421445215116e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58815432,
      "step": 101350
    },
    {
      "epoch": 15.096067917783735,
      "grad_norm": 0.006201582495123148,
      "learning_rate": 8.611967419479553e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58818344,
      "step": 101355
    },
    {
      "epoch": 15.096812630324695,
      "grad_norm": 8.802081538306084e-06,
      "learning_rate": 8.609513670603137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58821256,
      "step": 101360
    },
    {
      "epoch": 15.097557342865654,
      "grad_norm": 0.00016082612273748964,
      "learning_rate": 8.607060198627337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58824072,
      "step": 101365
    },
    {
      "epoch": 15.098302055406613,
      "grad_norm": 0.3747968375682831,
      "learning_rate": 8.604607003593593e-06,
      "loss": 0.016,
      "num_input_tokens_seen": 58827208,
      "step": 101370
    },
    {
      "epoch": 15.099046767947572,
      "grad_norm": 0.028635412454605103,
      "learning_rate": 8.602154085543341e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58829960,
      "step": 101375
    },
    {
      "epoch": 15.099791480488532,
      "grad_norm": 0.00014554128574673086,
      "learning_rate": 8.59970144451804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58833064,
      "step": 101380
    },
    {
      "epoch": 15.100536193029491,
      "grad_norm": 4.2249383113812655e-05,
      "learning_rate": 8.597249080559114e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58836040,
      "step": 101385
    },
    {
      "epoch": 15.10128090557045,
      "grad_norm": 9.538718586554751e-05,
      "learning_rate": 8.594796993707993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58839048,
      "step": 101390
    },
    {
      "epoch": 15.102025618111409,
      "grad_norm": 6.315243081189692e-05,
      "learning_rate": 8.592345184006096e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58842120,
      "step": 101395
    },
    {
      "epoch": 15.102770330652369,
      "grad_norm": 0.00019178225193172693,
      "learning_rate": 8.58989365149486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58844872,
      "step": 101400
    },
    {
      "epoch": 15.103515043193328,
      "grad_norm": 0.00011200695007573813,
      "learning_rate": 8.58744239621568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58847560,
      "step": 101405
    },
    {
      "epoch": 15.104259755734287,
      "grad_norm": 1.5729174613952637,
      "learning_rate": 8.584991418209992e-06,
      "loss": 0.0013,
      "num_input_tokens_seen": 58850536,
      "step": 101410
    },
    {
      "epoch": 15.105004468275245,
      "grad_norm": 12.296725273132324,
      "learning_rate": 8.582540717519191e-06,
      "loss": 0.002,
      "num_input_tokens_seen": 58853416,
      "step": 101415
    },
    {
      "epoch": 15.105749180816204,
      "grad_norm": 8.429799345321953e-05,
      "learning_rate": 8.580090294184667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58856296,
      "step": 101420
    },
    {
      "epoch": 15.106493893357165,
      "grad_norm": 0.0001222894061356783,
      "learning_rate": 8.57764014824784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58859208,
      "step": 101425
    },
    {
      "epoch": 15.107238605898123,
      "grad_norm": 0.0007197757950052619,
      "learning_rate": 8.575190279750085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58862408,
      "step": 101430
    },
    {
      "epoch": 15.107983318439082,
      "grad_norm": 0.00048200145829468966,
      "learning_rate": 8.5727406887328e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58865288,
      "step": 101435
    },
    {
      "epoch": 15.108728030980041,
      "grad_norm": 0.03701729327440262,
      "learning_rate": 8.570291375237361e-06,
      "loss": 0.0291,
      "num_input_tokens_seen": 58868040,
      "step": 101440
    },
    {
      "epoch": 15.109472743521001,
      "grad_norm": 6.451104854932055e-05,
      "learning_rate": 8.567842339305157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58870920,
      "step": 101445
    },
    {
      "epoch": 15.11021745606196,
      "grad_norm": 0.00025708068278618157,
      "learning_rate": 8.565393580977558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58873832,
      "step": 101450
    },
    {
      "epoch": 15.110962168602919,
      "grad_norm": 0.00028705346630886197,
      "learning_rate": 8.562945100295927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58876808,
      "step": 101455
    },
    {
      "epoch": 15.111706881143878,
      "grad_norm": 0.003930853214114904,
      "learning_rate": 8.560496897301637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58879816,
      "step": 101460
    },
    {
      "epoch": 15.112451593684838,
      "grad_norm": 0.0005842085229232907,
      "learning_rate": 8.558048972036031e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58882952,
      "step": 101465
    },
    {
      "epoch": 15.113196306225797,
      "grad_norm": 0.0008117027464322746,
      "learning_rate": 8.555601324540488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58885896,
      "step": 101470
    },
    {
      "epoch": 15.113941018766756,
      "grad_norm": 0.00022183472174219787,
      "learning_rate": 8.553153954856338e-06,
      "loss": 0.1345,
      "num_input_tokens_seen": 58888872,
      "step": 101475
    },
    {
      "epoch": 15.114685731307715,
      "grad_norm": 3.337725138408132e-05,
      "learning_rate": 8.550706863024945e-06,
      "loss": 0.0107,
      "num_input_tokens_seen": 58891816,
      "step": 101480
    },
    {
      "epoch": 15.115430443848675,
      "grad_norm": 0.03517847880721092,
      "learning_rate": 8.548260049087634e-06,
      "loss": 0.1719,
      "num_input_tokens_seen": 58894664,
      "step": 101485
    },
    {
      "epoch": 15.116175156389634,
      "grad_norm": 6.415744428522885e-05,
      "learning_rate": 8.545813513085757e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58897704,
      "step": 101490
    },
    {
      "epoch": 15.116919868930593,
      "grad_norm": 0.0019384196493774652,
      "learning_rate": 8.543367255060636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58900776,
      "step": 101495
    },
    {
      "epoch": 15.117664581471551,
      "grad_norm": 0.027657590806484222,
      "learning_rate": 8.54092127505359e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58903560,
      "step": 101500
    },
    {
      "epoch": 15.118409294012512,
      "grad_norm": 0.0004718149430118501,
      "learning_rate": 8.538475573105961e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58906376,
      "step": 101505
    },
    {
      "epoch": 15.11915400655347,
      "grad_norm": 0.0001105814371840097,
      "learning_rate": 8.536030149259046e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58908936,
      "step": 101510
    },
    {
      "epoch": 15.11989871909443,
      "grad_norm": 0.0018965902272611856,
      "learning_rate": 8.533585003554179e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58911976,
      "step": 101515
    },
    {
      "epoch": 15.120643431635388,
      "grad_norm": 0.0007918349583633244,
      "learning_rate": 8.53114013603266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58914504,
      "step": 101520
    },
    {
      "epoch": 15.121388144176349,
      "grad_norm": 4.18438867200166e-05,
      "learning_rate": 8.528695546735784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58917416,
      "step": 101525
    },
    {
      "epoch": 15.122132856717307,
      "grad_norm": 0.002769125159829855,
      "learning_rate": 8.52625123570486e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58920392,
      "step": 101530
    },
    {
      "epoch": 15.122877569258266,
      "grad_norm": 6.52981543680653e-05,
      "learning_rate": 8.523807202981168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58923368,
      "step": 101535
    },
    {
      "epoch": 15.123622281799225,
      "grad_norm": 0.003041013376787305,
      "learning_rate": 8.521363448606018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58926408,
      "step": 101540
    },
    {
      "epoch": 15.124366994340185,
      "grad_norm": 3.6230638215783983e-05,
      "learning_rate": 8.518919972620675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58929064,
      "step": 101545
    },
    {
      "epoch": 15.125111706881144,
      "grad_norm": 0.01794387400150299,
      "learning_rate": 8.516476775066438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58931784,
      "step": 101550
    },
    {
      "epoch": 15.125856419422103,
      "grad_norm": 0.0003938005247619003,
      "learning_rate": 8.514033855984563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58934664,
      "step": 101555
    },
    {
      "epoch": 15.126601131963062,
      "grad_norm": 0.0031799296848475933,
      "learning_rate": 8.51159121541634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58937608,
      "step": 101560
    },
    {
      "epoch": 15.127345844504022,
      "grad_norm": 1.690294811851345e-05,
      "learning_rate": 8.509148853403015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58940776,
      "step": 101565
    },
    {
      "epoch": 15.128090557044981,
      "grad_norm": 0.6210233569145203,
      "learning_rate": 8.50670676998587e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 58943976,
      "step": 101570
    },
    {
      "epoch": 15.12883526958594,
      "grad_norm": 0.015526434406638145,
      "learning_rate": 8.504264965206148e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58947080,
      "step": 101575
    },
    {
      "epoch": 15.129579982126899,
      "grad_norm": 0.00012344864080660045,
      "learning_rate": 8.5018234391051e-06,
      "loss": 0.0234,
      "num_input_tokens_seen": 58949896,
      "step": 101580
    },
    {
      "epoch": 15.130324694667857,
      "grad_norm": 49.04066848754883,
      "learning_rate": 8.499382191723981e-06,
      "loss": 0.2738,
      "num_input_tokens_seen": 58952936,
      "step": 101585
    },
    {
      "epoch": 15.131069407208818,
      "grad_norm": 0.0004273326485417783,
      "learning_rate": 8.496941223104032e-06,
      "loss": 0.0792,
      "num_input_tokens_seen": 58956008,
      "step": 101590
    },
    {
      "epoch": 15.131814119749777,
      "grad_norm": 0.003932490479201078,
      "learning_rate": 8.494500533286487e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58958856,
      "step": 101595
    },
    {
      "epoch": 15.132558832290735,
      "grad_norm": 4.1009076085174456e-05,
      "learning_rate": 8.492060122312572e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58961640,
      "step": 101600
    },
    {
      "epoch": 15.133303544831694,
      "grad_norm": 1.2594886356964707e-05,
      "learning_rate": 8.489619990223533e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58964648,
      "step": 101605
    },
    {
      "epoch": 15.134048257372655,
      "grad_norm": 0.0013180949026718736,
      "learning_rate": 8.487180137060582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58967624,
      "step": 101610
    },
    {
      "epoch": 15.134792969913613,
      "grad_norm": 0.0001834923605201766,
      "learning_rate": 8.484740562864931e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58970536,
      "step": 101615
    },
    {
      "epoch": 15.135537682454572,
      "grad_norm": 3.3324704418191686e-05,
      "learning_rate": 8.482301267677813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58973192,
      "step": 101620
    },
    {
      "epoch": 15.136282394995531,
      "grad_norm": 0.007316229864954948,
      "learning_rate": 8.47986225154042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58976392,
      "step": 101625
    },
    {
      "epoch": 15.137027107536491,
      "grad_norm": 8.502206765115261e-05,
      "learning_rate": 8.477423514493967e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58979048,
      "step": 101630
    },
    {
      "epoch": 15.13777182007745,
      "grad_norm": 6.0749218391720206e-05,
      "learning_rate": 8.474985056579648e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58981928,
      "step": 101635
    },
    {
      "epoch": 15.138516532618409,
      "grad_norm": 8.248196536442265e-05,
      "learning_rate": 8.47254687783867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58984456,
      "step": 101640
    },
    {
      "epoch": 15.139261245159368,
      "grad_norm": 0.005765496753156185,
      "learning_rate": 8.470108978312211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58987752,
      "step": 101645
    },
    {
      "epoch": 15.140005957700328,
      "grad_norm": 0.006241838913410902,
      "learning_rate": 8.46767135804146e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58990632,
      "step": 101650
    },
    {
      "epoch": 15.140750670241287,
      "grad_norm": 0.00012695550685748458,
      "learning_rate": 8.465234017067595e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58993224,
      "step": 101655
    },
    {
      "epoch": 15.141495382782246,
      "grad_norm": 0.00022322210134007037,
      "learning_rate": 8.462796955431801e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 58996040,
      "step": 101660
    },
    {
      "epoch": 15.142240095323205,
      "grad_norm": 0.00039190539973787963,
      "learning_rate": 8.460360173175244e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 58998824,
      "step": 101665
    },
    {
      "epoch": 15.142984807864165,
      "grad_norm": 0.0006628195405937731,
      "learning_rate": 8.457923670339085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59001480,
      "step": 101670
    },
    {
      "epoch": 15.143729520405124,
      "grad_norm": 0.014586913399398327,
      "learning_rate": 8.455487446964502e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59004232,
      "step": 101675
    },
    {
      "epoch": 15.144474232946083,
      "grad_norm": 8.475745562463999e-05,
      "learning_rate": 8.453051503092632e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59007272,
      "step": 101680
    },
    {
      "epoch": 15.145218945487041,
      "grad_norm": 0.001024645403958857,
      "learning_rate": 8.450615838764653e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59010216,
      "step": 101685
    },
    {
      "epoch": 15.145963658028002,
      "grad_norm": 0.00012572294508572668,
      "learning_rate": 8.448180454021695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59013384,
      "step": 101690
    },
    {
      "epoch": 15.14670837056896,
      "grad_norm": 0.00023421687365043908,
      "learning_rate": 8.445745348904898e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59016104,
      "step": 101695
    },
    {
      "epoch": 15.14745308310992,
      "grad_norm": 9.600401972420514e-05,
      "learning_rate": 8.443310523455416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59019112,
      "step": 101700
    },
    {
      "epoch": 15.148197795650878,
      "grad_norm": 9.079279698198661e-05,
      "learning_rate": 8.440875977714368e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59022216,
      "step": 101705
    },
    {
      "epoch": 15.148942508191839,
      "grad_norm": 0.007332650013267994,
      "learning_rate": 8.4384417117229e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59025128,
      "step": 101710
    },
    {
      "epoch": 15.149687220732797,
      "grad_norm": 0.0006986265070736408,
      "learning_rate": 8.436007725522127e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59028232,
      "step": 101715
    },
    {
      "epoch": 15.150431933273756,
      "grad_norm": 0.00014544288569595665,
      "learning_rate": 8.433574019153167e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59031112,
      "step": 101720
    },
    {
      "epoch": 15.151176645814715,
      "grad_norm": 0.009646016173064709,
      "learning_rate": 8.43114059265713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59034056,
      "step": 101725
    },
    {
      "epoch": 15.151921358355676,
      "grad_norm": 0.0065921456553041935,
      "learning_rate": 8.428707446075138e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59036840,
      "step": 101730
    },
    {
      "epoch": 15.152666070896634,
      "grad_norm": 0.01901565119624138,
      "learning_rate": 8.426274579448293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59039656,
      "step": 101735
    },
    {
      "epoch": 15.153410783437593,
      "grad_norm": 1.989587690331973e-05,
      "learning_rate": 8.423841992817688e-06,
      "loss": 0.0428,
      "num_input_tokens_seen": 59042600,
      "step": 101740
    },
    {
      "epoch": 15.154155495978552,
      "grad_norm": 0.00010187920997850597,
      "learning_rate": 8.42140968622443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59045672,
      "step": 101745
    },
    {
      "epoch": 15.15490020851951,
      "grad_norm": 0.0001425795489922166,
      "learning_rate": 8.4189776597096e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59048296,
      "step": 101750
    },
    {
      "epoch": 15.155644921060471,
      "grad_norm": 0.0024497152771800756,
      "learning_rate": 8.416545913314296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59051208,
      "step": 101755
    },
    {
      "epoch": 15.15638963360143,
      "grad_norm": 5.505166336661205e-05,
      "learning_rate": 8.414114447079588e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59053992,
      "step": 101760
    },
    {
      "epoch": 15.157134346142389,
      "grad_norm": 0.0006158163887448609,
      "learning_rate": 8.411683261046569e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59057096,
      "step": 101765
    },
    {
      "epoch": 15.157879058683347,
      "grad_norm": 0.004147762898355722,
      "learning_rate": 8.409252355256297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59060136,
      "step": 101770
    },
    {
      "epoch": 15.158623771224308,
      "grad_norm": 2.78383849945385e-05,
      "learning_rate": 8.40682172974984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59062920,
      "step": 101775
    },
    {
      "epoch": 15.159368483765267,
      "grad_norm": 0.0010153832845389843,
      "learning_rate": 8.404391384568271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59065544,
      "step": 101780
    },
    {
      "epoch": 15.160113196306225,
      "grad_norm": 0.00027930160285905004,
      "learning_rate": 8.401961319752646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59068200,
      "step": 101785
    },
    {
      "epoch": 15.160857908847184,
      "grad_norm": 0.00016522516671102494,
      "learning_rate": 8.399531535344013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59070888,
      "step": 101790
    },
    {
      "epoch": 15.161602621388145,
      "grad_norm": 0.7862727642059326,
      "learning_rate": 8.397102031383414e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 59073736,
      "step": 101795
    },
    {
      "epoch": 15.162347333929103,
      "grad_norm": 0.0009083485929295421,
      "learning_rate": 8.39467280791191e-06,
      "loss": 0.0703,
      "num_input_tokens_seen": 59076840,
      "step": 101800
    },
    {
      "epoch": 15.163092046470062,
      "grad_norm": 2.461584699631203e-05,
      "learning_rate": 8.392243864970525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59079912,
      "step": 101805
    },
    {
      "epoch": 15.163836759011021,
      "grad_norm": 0.0023590412456542253,
      "learning_rate": 8.389815202600306e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59083048,
      "step": 101810
    },
    {
      "epoch": 15.164581471551982,
      "grad_norm": 0.0016028397949412465,
      "learning_rate": 8.38738682084228e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59085896,
      "step": 101815
    },
    {
      "epoch": 15.16532618409294,
      "grad_norm": 0.0016451440751552582,
      "learning_rate": 8.38495871973746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59088520,
      "step": 101820
    },
    {
      "epoch": 15.166070896633899,
      "grad_norm": 0.0017093357164412737,
      "learning_rate": 8.382530899326885e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59091400,
      "step": 101825
    },
    {
      "epoch": 15.166815609174858,
      "grad_norm": 6.212273001438007e-05,
      "learning_rate": 8.380103359651553e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59094376,
      "step": 101830
    },
    {
      "epoch": 15.167560321715818,
      "grad_norm": 0.00040874493424780667,
      "learning_rate": 8.377676100752491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59097128,
      "step": 101835
    },
    {
      "epoch": 15.168305034256777,
      "grad_norm": 0.0001218329489347525,
      "learning_rate": 8.375249122670686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59099848,
      "step": 101840
    },
    {
      "epoch": 15.169049746797736,
      "grad_norm": 8.529542537871748e-05,
      "learning_rate": 8.372822425447164e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59102632,
      "step": 101845
    },
    {
      "epoch": 15.169794459338695,
      "grad_norm": 0.0004698233969975263,
      "learning_rate": 8.370396009122902e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59105640,
      "step": 101850
    },
    {
      "epoch": 15.170539171879655,
      "grad_norm": 0.0003891217056661844,
      "learning_rate": 8.3679698737389e-06,
      "loss": 0.0355,
      "num_input_tokens_seen": 59108680,
      "step": 101855
    },
    {
      "epoch": 15.171283884420614,
      "grad_norm": 0.0034650142770260572,
      "learning_rate": 8.365544019336146e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59111304,
      "step": 101860
    },
    {
      "epoch": 15.172028596961573,
      "grad_norm": 0.0020781331695616245,
      "learning_rate": 8.363118445955609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59114472,
      "step": 101865
    },
    {
      "epoch": 15.172773309502531,
      "grad_norm": 1.2957354556419887e-05,
      "learning_rate": 8.360693153638285e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59117544,
      "step": 101870
    },
    {
      "epoch": 15.173518022043492,
      "grad_norm": 0.00019228052406106144,
      "learning_rate": 8.35826814242513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59120360,
      "step": 101875
    },
    {
      "epoch": 15.17426273458445,
      "grad_norm": 0.0003180066996719688,
      "learning_rate": 8.355843412357131e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59123368,
      "step": 101880
    },
    {
      "epoch": 15.17500744712541,
      "grad_norm": 0.0010433472925797105,
      "learning_rate": 8.353418963475232e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59126184,
      "step": 101885
    },
    {
      "epoch": 15.175752159666368,
      "grad_norm": 9.426873293705285e-05,
      "learning_rate": 8.350994795820407e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59129224,
      "step": 101890
    },
    {
      "epoch": 15.176496872207329,
      "grad_norm": 0.0003132506681140512,
      "learning_rate": 8.348570909433607e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59132424,
      "step": 101895
    },
    {
      "epoch": 15.177241584748288,
      "grad_norm": 0.012065178714692593,
      "learning_rate": 8.346147304355767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59135336,
      "step": 101900
    },
    {
      "epoch": 15.177986297289246,
      "grad_norm": 0.00016545616381336004,
      "learning_rate": 8.343723980627848e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59138216,
      "step": 101905
    },
    {
      "epoch": 15.178731009830205,
      "grad_norm": 2.404123733867891e-05,
      "learning_rate": 8.34130093829078e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59141736,
      "step": 101910
    },
    {
      "epoch": 15.179475722371166,
      "grad_norm": 3.99605451093521e-05,
      "learning_rate": 8.338878177385508e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59144456,
      "step": 101915
    },
    {
      "epoch": 15.180220434912124,
      "grad_norm": 0.0009241055231541395,
      "learning_rate": 8.336455697952956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59147272,
      "step": 101920
    },
    {
      "epoch": 15.180965147453083,
      "grad_norm": 0.00023954006610438228,
      "learning_rate": 8.33403350003405e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59151400,
      "step": 101925
    },
    {
      "epoch": 15.181709859994042,
      "grad_norm": 0.00028126154211349785,
      "learning_rate": 8.3316115836697e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59154120,
      "step": 101930
    },
    {
      "epoch": 15.182454572535,
      "grad_norm": 0.00015651056310161948,
      "learning_rate": 8.32918994890084e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59157352,
      "step": 101935
    },
    {
      "epoch": 15.183199285075961,
      "grad_norm": 0.0019515303429216146,
      "learning_rate": 8.32676859576837e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59160200,
      "step": 101940
    },
    {
      "epoch": 15.18394399761692,
      "grad_norm": 2.5578705390216783e-05,
      "learning_rate": 8.324347524313192e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59163176,
      "step": 101945
    },
    {
      "epoch": 15.184688710157879,
      "grad_norm": 0.0012526217615231872,
      "learning_rate": 8.321926734576223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59166120,
      "step": 101950
    },
    {
      "epoch": 15.185433422698837,
      "grad_norm": 0.00010834733257070184,
      "learning_rate": 8.319506226598342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59168680,
      "step": 101955
    },
    {
      "epoch": 15.186178135239798,
      "grad_norm": 0.0016714164521545172,
      "learning_rate": 8.317086000420459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59171560,
      "step": 101960
    },
    {
      "epoch": 15.186922847780757,
      "grad_norm": 4.091893060831353e-05,
      "learning_rate": 8.314666056083444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59174440,
      "step": 101965
    },
    {
      "epoch": 15.187667560321715,
      "grad_norm": 0.0007836610311642289,
      "learning_rate": 8.312246393628195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59177288,
      "step": 101970
    },
    {
      "epoch": 15.188412272862674,
      "grad_norm": 2.322717773495242e-05,
      "learning_rate": 8.309827013095584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59180072,
      "step": 101975
    },
    {
      "epoch": 15.189156985403635,
      "grad_norm": 0.00039572903187945485,
      "learning_rate": 8.30740791452648e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59182792,
      "step": 101980
    },
    {
      "epoch": 15.189901697944594,
      "grad_norm": 0.046425480395555496,
      "learning_rate": 8.304989097961748e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59185928,
      "step": 101985
    },
    {
      "epoch": 15.190646410485552,
      "grad_norm": 0.0016166585264727473,
      "learning_rate": 8.302570563442263e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59188872,
      "step": 101990
    },
    {
      "epoch": 15.191391123026511,
      "grad_norm": 2.2007352526998147e-05,
      "learning_rate": 8.300152311008883e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59191976,
      "step": 101995
    },
    {
      "epoch": 15.192135835567472,
      "grad_norm": 0.0022871335968375206,
      "learning_rate": 8.297734340702443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59194760,
      "step": 102000
    },
    {
      "epoch": 15.19288054810843,
      "grad_norm": 0.0002903080021496862,
      "learning_rate": 8.295316652563817e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59197608,
      "step": 102005
    },
    {
      "epoch": 15.19362526064939,
      "grad_norm": 0.00037378232809714973,
      "learning_rate": 8.292899246633828e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59200424,
      "step": 102010
    },
    {
      "epoch": 15.194369973190348,
      "grad_norm": 4.90180536871776e-05,
      "learning_rate": 8.290482122953336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59203208,
      "step": 102015
    },
    {
      "epoch": 15.195114685731308,
      "grad_norm": 8.152847294695675e-05,
      "learning_rate": 8.288065281563164e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59206152,
      "step": 102020
    },
    {
      "epoch": 15.195859398272267,
      "grad_norm": 6.480453157564625e-05,
      "learning_rate": 8.285648722504136e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59209192,
      "step": 102025
    },
    {
      "epoch": 15.196604110813226,
      "grad_norm": 0.00017876314814202487,
      "learning_rate": 8.283232445817094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59211848,
      "step": 102030
    },
    {
      "epoch": 15.197348823354185,
      "grad_norm": 0.000436440110206604,
      "learning_rate": 8.280816451542841e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59214536,
      "step": 102035
    },
    {
      "epoch": 15.198093535895145,
      "grad_norm": 0.0002491706982254982,
      "learning_rate": 8.278400739722211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59217288,
      "step": 102040
    },
    {
      "epoch": 15.198838248436104,
      "grad_norm": 1.1059399184887297e-05,
      "learning_rate": 8.275985310396003e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59220328,
      "step": 102045
    },
    {
      "epoch": 15.199582960977063,
      "grad_norm": 0.0006944059859961271,
      "learning_rate": 8.273570163605026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59223368,
      "step": 102050
    },
    {
      "epoch": 15.200327673518021,
      "grad_norm": 0.0002863057889044285,
      "learning_rate": 8.271155299390082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59226248,
      "step": 102055
    },
    {
      "epoch": 15.201072386058982,
      "grad_norm": 9.371268970426172e-05,
      "learning_rate": 8.26874071779196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59229320,
      "step": 102060
    },
    {
      "epoch": 15.20181709859994,
      "grad_norm": 9.430305362911895e-05,
      "learning_rate": 8.266326418851467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59232104,
      "step": 102065
    },
    {
      "epoch": 15.2025618111409,
      "grad_norm": 5.3073377785040066e-05,
      "learning_rate": 8.26391240260937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59234920,
      "step": 102070
    },
    {
      "epoch": 15.203306523681858,
      "grad_norm": 0.00048293202416971326,
      "learning_rate": 8.261498669106473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59237800,
      "step": 102075
    },
    {
      "epoch": 15.204051236222819,
      "grad_norm": 0.0005245153442956507,
      "learning_rate": 8.259085218383536e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59240584,
      "step": 102080
    },
    {
      "epoch": 15.204795948763778,
      "grad_norm": 8.725954830879346e-05,
      "learning_rate": 8.256672050481348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59243752,
      "step": 102085
    },
    {
      "epoch": 15.205540661304736,
      "grad_norm": 0.0001402401685481891,
      "learning_rate": 8.254259165440662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59246664,
      "step": 102090
    },
    {
      "epoch": 15.206285373845695,
      "grad_norm": 0.00015445011376868933,
      "learning_rate": 8.251846563302253e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 59249544,
      "step": 102095
    },
    {
      "epoch": 15.207030086386654,
      "grad_norm": 0.00013988288992550224,
      "learning_rate": 8.249434244106875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59252200,
      "step": 102100
    },
    {
      "epoch": 15.207774798927614,
      "grad_norm": 1.1023161277989857e-05,
      "learning_rate": 8.247022207895271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59254888,
      "step": 102105
    },
    {
      "epoch": 15.208519511468573,
      "grad_norm": 0.00024085644690785557,
      "learning_rate": 8.244610454708213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59257864,
      "step": 102110
    },
    {
      "epoch": 15.209264224009532,
      "grad_norm": 2.8639333322644234e-05,
      "learning_rate": 8.242198984586427e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59260808,
      "step": 102115
    },
    {
      "epoch": 15.21000893655049,
      "grad_norm": 0.00010981475497828797,
      "learning_rate": 8.239787797570661e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59263944,
      "step": 102120
    },
    {
      "epoch": 15.210753649091451,
      "grad_norm": 0.0004027221875730902,
      "learning_rate": 8.237376893701635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59266632,
      "step": 102125
    },
    {
      "epoch": 15.21149836163241,
      "grad_norm": 0.0001531449961476028,
      "learning_rate": 8.2349662730201e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59269608,
      "step": 102130
    },
    {
      "epoch": 15.212243074173369,
      "grad_norm": 1.6770649381214753e-05,
      "learning_rate": 8.232555935566769e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59272552,
      "step": 102135
    },
    {
      "epoch": 15.212987786714327,
      "grad_norm": 0.0012498896103352308,
      "learning_rate": 8.230145881382357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59275272,
      "step": 102140
    },
    {
      "epoch": 15.213732499255288,
      "grad_norm": 13.229726791381836,
      "learning_rate": 8.227736110507592e-06,
      "loss": 0.0455,
      "num_input_tokens_seen": 59277928,
      "step": 102145
    },
    {
      "epoch": 15.214477211796247,
      "grad_norm": 8.994197560241446e-05,
      "learning_rate": 8.225326622983173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59280712,
      "step": 102150
    },
    {
      "epoch": 15.215221924337206,
      "grad_norm": 0.00044765585334971547,
      "learning_rate": 8.222917418849819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59283784,
      "step": 102155
    },
    {
      "epoch": 15.215966636878164,
      "grad_norm": 0.00012797197268810123,
      "learning_rate": 8.220508498148213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59286664,
      "step": 102160
    },
    {
      "epoch": 15.216711349419125,
      "grad_norm": 0.0005162163870409131,
      "learning_rate": 8.218099860919074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59289544,
      "step": 102165
    },
    {
      "epoch": 15.217456061960084,
      "grad_norm": 6.0148435295559466e-05,
      "learning_rate": 8.215691507203072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59292296,
      "step": 102170
    },
    {
      "epoch": 15.218200774501042,
      "grad_norm": 4.6100743929855525e-05,
      "learning_rate": 8.213283437040911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59295112,
      "step": 102175
    },
    {
      "epoch": 15.218945487042001,
      "grad_norm": 5.598853749688715e-05,
      "learning_rate": 8.210875650473266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59298024,
      "step": 102180
    },
    {
      "epoch": 15.219690199582962,
      "grad_norm": 0.001239268109202385,
      "learning_rate": 8.208468147540812e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59301096,
      "step": 102185
    },
    {
      "epoch": 15.22043491212392,
      "grad_norm": 0.006096758414059877,
      "learning_rate": 8.206060928284223e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59304264,
      "step": 102190
    },
    {
      "epoch": 15.22117962466488,
      "grad_norm": 0.0027432888746261597,
      "learning_rate": 8.20365399274416e-06,
      "loss": 0.0329,
      "num_input_tokens_seen": 59307464,
      "step": 102195
    },
    {
      "epoch": 15.221924337205838,
      "grad_norm": 0.0179509948939085,
      "learning_rate": 8.201247340961296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59310632,
      "step": 102200
    },
    {
      "epoch": 15.222669049746798,
      "grad_norm": 0.0010667274473235011,
      "learning_rate": 8.19884097297628e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59313480,
      "step": 102205
    },
    {
      "epoch": 15.223413762287757,
      "grad_norm": 0.0001508225832367316,
      "learning_rate": 8.196434888829774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59316136,
      "step": 102210
    },
    {
      "epoch": 15.224158474828716,
      "grad_norm": 0.0004367273941170424,
      "learning_rate": 8.194029088562425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59318952,
      "step": 102215
    },
    {
      "epoch": 15.224903187369675,
      "grad_norm": 0.0009757215739227831,
      "learning_rate": 8.191623572214865e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59321544,
      "step": 102220
    },
    {
      "epoch": 15.225647899910635,
      "grad_norm": 1.416848063468933,
      "learning_rate": 8.18921833982775e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59324712,
      "step": 102225
    },
    {
      "epoch": 15.226392612451594,
      "grad_norm": 1.388570944982348e-05,
      "learning_rate": 8.186813391441697e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59327912,
      "step": 102230
    },
    {
      "epoch": 15.227137324992553,
      "grad_norm": 0.00017734168795868754,
      "learning_rate": 8.184408727097354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59330856,
      "step": 102235
    },
    {
      "epoch": 15.227882037533512,
      "grad_norm": 0.0002825302362907678,
      "learning_rate": 8.182004346835323e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59333576,
      "step": 102240
    },
    {
      "epoch": 15.228626750074472,
      "grad_norm": 5.002906982554123e-05,
      "learning_rate": 8.179600250696245e-06,
      "loss": 0.0011,
      "num_input_tokens_seen": 59336488,
      "step": 102245
    },
    {
      "epoch": 15.22937146261543,
      "grad_norm": 0.00010208013554802164,
      "learning_rate": 8.177196438720724e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59339144,
      "step": 102250
    },
    {
      "epoch": 15.23011617515639,
      "grad_norm": 0.011263323947787285,
      "learning_rate": 8.174792910949376e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59341800,
      "step": 102255
    },
    {
      "epoch": 15.230860887697348,
      "grad_norm": 8.803894161246717e-06,
      "learning_rate": 8.172389667422797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59344584,
      "step": 102260
    },
    {
      "epoch": 15.231605600238307,
      "grad_norm": 5.022049299441278e-05,
      "learning_rate": 8.169986708181584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59347496,
      "step": 102265
    },
    {
      "epoch": 15.232350312779268,
      "grad_norm": 0.00011287167581031099,
      "learning_rate": 8.167584033266349e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59350312,
      "step": 102270
    },
    {
      "epoch": 15.233095025320226,
      "grad_norm": 2.4122087779687718e-05,
      "learning_rate": 8.165181642717668e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59353288,
      "step": 102275
    },
    {
      "epoch": 15.233839737861185,
      "grad_norm": 0.12416880577802658,
      "learning_rate": 8.162779536576138e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 59356040,
      "step": 102280
    },
    {
      "epoch": 15.234584450402144,
      "grad_norm": 0.001125307404436171,
      "learning_rate": 8.160377714882327e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59358792,
      "step": 102285
    },
    {
      "epoch": 15.235329162943104,
      "grad_norm": 2.3760750991641544e-05,
      "learning_rate": 8.15797617767683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59361640,
      "step": 102290
    },
    {
      "epoch": 15.236073875484063,
      "grad_norm": 0.00024266877153422683,
      "learning_rate": 8.155574925000207e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59364424,
      "step": 102295
    },
    {
      "epoch": 15.236818588025022,
      "grad_norm": 0.0055067334324121475,
      "learning_rate": 8.153173956893018e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 59367496,
      "step": 102300
    },
    {
      "epoch": 15.23756330056598,
      "grad_norm": 5.996775144012645e-06,
      "learning_rate": 8.15077327339584e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 59370408,
      "step": 102305
    },
    {
      "epoch": 15.238308013106941,
      "grad_norm": 5.16298423463013e-05,
      "learning_rate": 8.148372874549224e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59373128,
      "step": 102310
    },
    {
      "epoch": 15.2390527256479,
      "grad_norm": 0.00016145665722433478,
      "learning_rate": 8.145972760393711e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59375688,
      "step": 102315
    },
    {
      "epoch": 15.239797438188859,
      "grad_norm": 0.021530264988541603,
      "learning_rate": 8.143572930969866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59378696,
      "step": 102320
    },
    {
      "epoch": 15.240542150729818,
      "grad_norm": 1.996309765672777e-05,
      "learning_rate": 8.141173386318226e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59381672,
      "step": 102325
    },
    {
      "epoch": 15.241286863270778,
      "grad_norm": 3.342952550156042e-05,
      "learning_rate": 8.13877412647932e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59384616,
      "step": 102330
    },
    {
      "epoch": 15.242031575811737,
      "grad_norm": 4.074113803653745e-06,
      "learning_rate": 8.136375151493695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59387464,
      "step": 102335
    },
    {
      "epoch": 15.242776288352696,
      "grad_norm": 9.543889609631151e-05,
      "learning_rate": 8.13397646140187e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59390120,
      "step": 102340
    },
    {
      "epoch": 15.243521000893654,
      "grad_norm": 0.0017472171457484365,
      "learning_rate": 8.131578056244365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59393128,
      "step": 102345
    },
    {
      "epoch": 15.244265713434615,
      "grad_norm": 0.0011868788860738277,
      "learning_rate": 8.129179936061715e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59395752,
      "step": 102350
    },
    {
      "epoch": 15.245010425975574,
      "grad_norm": 0.00033473203075118363,
      "learning_rate": 8.126782100894411e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59398888,
      "step": 102355
    },
    {
      "epoch": 15.245755138516532,
      "grad_norm": 9.799061808735132e-05,
      "learning_rate": 8.124384550782985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59401736,
      "step": 102360
    },
    {
      "epoch": 15.246499851057491,
      "grad_norm": 0.00011547798931133002,
      "learning_rate": 8.12198728576792e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59404680,
      "step": 102365
    },
    {
      "epoch": 15.247244563598452,
      "grad_norm": 0.00014941337576601654,
      "learning_rate": 8.119590305889737e-06,
      "loss": 0.0018,
      "num_input_tokens_seen": 59407528,
      "step": 102370
    },
    {
      "epoch": 15.24798927613941,
      "grad_norm": 0.0008252255502156913,
      "learning_rate": 8.117193611188917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59410312,
      "step": 102375
    },
    {
      "epoch": 15.24873398868037,
      "grad_norm": 4.9746513468562625e-06,
      "learning_rate": 8.114797201705954e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59412808,
      "step": 102380
    },
    {
      "epoch": 15.249478701221328,
      "grad_norm": 7.529758477176074e-06,
      "learning_rate": 8.112401077481329e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59415624,
      "step": 102385
    },
    {
      "epoch": 15.250223413762289,
      "grad_norm": 0.0001389495300827548,
      "learning_rate": 8.110005238555517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59418376,
      "step": 102390
    },
    {
      "epoch": 15.250968126303247,
      "grad_norm": 1.1734528015949763e-05,
      "learning_rate": 8.107609684969008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59421448,
      "step": 102395
    },
    {
      "epoch": 15.251712838844206,
      "grad_norm": 3.8038000639062375e-05,
      "learning_rate": 8.105214416762255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59424616,
      "step": 102400
    },
    {
      "epoch": 15.252457551385165,
      "grad_norm": 2.8366490369080566e-05,
      "learning_rate": 8.102819433975745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59427848,
      "step": 102405
    },
    {
      "epoch": 15.253202263926125,
      "grad_norm": 5.137239350005984e-05,
      "learning_rate": 8.100424736649918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59430984,
      "step": 102410
    },
    {
      "epoch": 15.253946976467084,
      "grad_norm": 1.8346183424000628e-05,
      "learning_rate": 8.098030324825246e-06,
      "loss": 0.0822,
      "num_input_tokens_seen": 59433992,
      "step": 102415
    },
    {
      "epoch": 15.254691689008043,
      "grad_norm": 0.0012541816104203463,
      "learning_rate": 8.095636198542173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59437256,
      "step": 102420
    },
    {
      "epoch": 15.255436401549002,
      "grad_norm": 0.000622886756900698,
      "learning_rate": 8.093242357841136e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59440360,
      "step": 102425
    },
    {
      "epoch": 15.256181114089962,
      "grad_norm": 6.994748218858149e-06,
      "learning_rate": 8.090848802762596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59443400,
      "step": 102430
    },
    {
      "epoch": 15.256925826630921,
      "grad_norm": 0.00023974878422450274,
      "learning_rate": 8.088455533346973e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59446280,
      "step": 102435
    },
    {
      "epoch": 15.25767053917188,
      "grad_norm": 1.850652370194439e-05,
      "learning_rate": 8.086062549634712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59449064,
      "step": 102440
    },
    {
      "epoch": 15.258415251712838,
      "grad_norm": 0.00035331808612681925,
      "learning_rate": 8.083669851666235e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59452008,
      "step": 102445
    },
    {
      "epoch": 15.259159964253797,
      "grad_norm": 1.1620059922279324e-05,
      "learning_rate": 8.081277439481961e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59454760,
      "step": 102450
    },
    {
      "epoch": 15.259904676794758,
      "grad_norm": 7.106234988896176e-05,
      "learning_rate": 8.078885313122311e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59458152,
      "step": 102455
    },
    {
      "epoch": 15.260649389335716,
      "grad_norm": 0.00016796951240394264,
      "learning_rate": 8.076493472627687e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59461224,
      "step": 102460
    },
    {
      "epoch": 15.261394101876675,
      "grad_norm": 0.00012539340241346508,
      "learning_rate": 8.074101918038512e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59464296,
      "step": 102465
    },
    {
      "epoch": 15.262138814417634,
      "grad_norm": 0.00036089957575313747,
      "learning_rate": 8.071710649395178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59467368,
      "step": 102470
    },
    {
      "epoch": 15.262883526958595,
      "grad_norm": 0.00010945086978608742,
      "learning_rate": 8.069319666738093e-06,
      "loss": 0.0402,
      "num_input_tokens_seen": 59470120,
      "step": 102475
    },
    {
      "epoch": 15.263628239499553,
      "grad_norm": 0.00013910223788116127,
      "learning_rate": 8.066928970107638e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59473000,
      "step": 102480
    },
    {
      "epoch": 15.264372952040512,
      "grad_norm": 1.839896140154451e-05,
      "learning_rate": 8.064538559544213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59476072,
      "step": 102485
    },
    {
      "epoch": 15.26511766458147,
      "grad_norm": 2.2875248760101385e-05,
      "learning_rate": 8.06214843508819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59479080,
      "step": 102490
    },
    {
      "epoch": 15.265862377122431,
      "grad_norm": 4.821084803552367e-05,
      "learning_rate": 8.059758596779965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59482152,
      "step": 102495
    },
    {
      "epoch": 15.26660708966339,
      "grad_norm": 0.0011866650311276317,
      "learning_rate": 8.057369044659899e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59485192,
      "step": 102500
    },
    {
      "epoch": 15.267351802204349,
      "grad_norm": 6.2480826272803824e-06,
      "learning_rate": 8.054979778768354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59488520,
      "step": 102505
    },
    {
      "epoch": 15.268096514745308,
      "grad_norm": 0.001315496163442731,
      "learning_rate": 8.052590799145715e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59491496,
      "step": 102510
    },
    {
      "epoch": 15.268841227286268,
      "grad_norm": 0.00011837000783998519,
      "learning_rate": 8.050202105832327e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59494408,
      "step": 102515
    },
    {
      "epoch": 15.269585939827227,
      "grad_norm": 1.4920945432095323e-05,
      "learning_rate": 8.047813698868548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59497384,
      "step": 102520
    },
    {
      "epoch": 15.270330652368186,
      "grad_norm": 1.8293154425919056e-05,
      "learning_rate": 8.045425578294719e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59500424,
      "step": 102525
    },
    {
      "epoch": 15.271075364909144,
      "grad_norm": 0.0006642743828706443,
      "learning_rate": 8.043037744151203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59503112,
      "step": 102530
    },
    {
      "epoch": 15.271820077450105,
      "grad_norm": 1.5349089153460227e-05,
      "learning_rate": 8.040650196478319e-06,
      "loss": 0.0244,
      "num_input_tokens_seen": 59505768,
      "step": 102535
    },
    {
      "epoch": 15.272564789991064,
      "grad_norm": 0.0003271640161983669,
      "learning_rate": 8.038262935316423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59508808,
      "step": 102540
    },
    {
      "epoch": 15.273309502532022,
      "grad_norm": 7.406052463920787e-05,
      "learning_rate": 8.035875960705835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59511720,
      "step": 102545
    },
    {
      "epoch": 15.274054215072981,
      "grad_norm": 0.00013552428572438657,
      "learning_rate": 8.033489272686872e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59514760,
      "step": 102550
    },
    {
      "epoch": 15.274798927613942,
      "grad_norm": 9.643949306337163e-05,
      "learning_rate": 8.031102871299876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59517704,
      "step": 102555
    },
    {
      "epoch": 15.2755436401549,
      "grad_norm": 7.57323723519221e-05,
      "learning_rate": 8.02871675658514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59520840,
      "step": 102560
    },
    {
      "epoch": 15.27628835269586,
      "grad_norm": 2.0193689124425873e-05,
      "learning_rate": 8.026330928582993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59523592,
      "step": 102565
    },
    {
      "epoch": 15.277033065236818,
      "grad_norm": 3.345633012941107e-05,
      "learning_rate": 8.023945387333722e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59525960,
      "step": 102570
    },
    {
      "epoch": 15.277777777777779,
      "grad_norm": 3.69381632481236e-05,
      "learning_rate": 8.021560132877653e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59528744,
      "step": 102575
    },
    {
      "epoch": 15.278522490318737,
      "grad_norm": 0.009334138594567776,
      "learning_rate": 8.019175165255069e-06,
      "loss": 0.0122,
      "num_input_tokens_seen": 59531720,
      "step": 102580
    },
    {
      "epoch": 15.279267202859696,
      "grad_norm": 0.0005879209493286908,
      "learning_rate": 8.016790484506261e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59534824,
      "step": 102585
    },
    {
      "epoch": 15.280011915400655,
      "grad_norm": 0.0006417976110242307,
      "learning_rate": 8.014406090671516e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59537576,
      "step": 102590
    },
    {
      "epoch": 15.280756627941615,
      "grad_norm": 9.154406870948151e-05,
      "learning_rate": 8.012021983791112e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59540488,
      "step": 102595
    },
    {
      "epoch": 15.281501340482574,
      "grad_norm": 0.00011214311962248757,
      "learning_rate": 8.009638163905337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59543432,
      "step": 102600
    },
    {
      "epoch": 15.282246053023533,
      "grad_norm": 6.5069543779827654e-06,
      "learning_rate": 8.007254631054448e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59546088,
      "step": 102605
    },
    {
      "epoch": 15.282990765564492,
      "grad_norm": 1.660705493122805e-05,
      "learning_rate": 8.00487138527873e-06,
      "loss": 0.0532,
      "num_input_tokens_seen": 59548936,
      "step": 102610
    },
    {
      "epoch": 15.283735478105452,
      "grad_norm": 0.0005032555782236159,
      "learning_rate": 8.002488426618429e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59552136,
      "step": 102615
    },
    {
      "epoch": 15.284480190646411,
      "grad_norm": 9.889432840282097e-05,
      "learning_rate": 8.000105755113818e-06,
      "loss": 0.1719,
      "num_input_tokens_seen": 59554824,
      "step": 102620
    },
    {
      "epoch": 15.28522490318737,
      "grad_norm": 0.010851418599486351,
      "learning_rate": 7.997723370805143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59557672,
      "step": 102625
    },
    {
      "epoch": 15.285969615728328,
      "grad_norm": 3.967743396060541e-05,
      "learning_rate": 7.995341273732642e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59560520,
      "step": 102630
    },
    {
      "epoch": 15.286714328269287,
      "grad_norm": 0.0024792482145130634,
      "learning_rate": 7.992959463936578e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59563304,
      "step": 102635
    },
    {
      "epoch": 15.287459040810248,
      "grad_norm": 0.0014532520435750484,
      "learning_rate": 7.990577941457175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59566280,
      "step": 102640
    },
    {
      "epoch": 15.288203753351207,
      "grad_norm": 6.89846056047827e-05,
      "learning_rate": 7.988196706334666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59569096,
      "step": 102645
    },
    {
      "epoch": 15.288948465892165,
      "grad_norm": 3.597857721615583e-05,
      "learning_rate": 7.985815758609289e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59571944,
      "step": 102650
    },
    {
      "epoch": 15.289693178433124,
      "grad_norm": 2.3059421437210403e-05,
      "learning_rate": 7.983435098321263e-06,
      "loss": 0.175,
      "num_input_tokens_seen": 59574536,
      "step": 102655
    },
    {
      "epoch": 15.290437890974085,
      "grad_norm": 1.9108545529888943e-05,
      "learning_rate": 7.981054725510805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59577576,
      "step": 102660
    },
    {
      "epoch": 15.291182603515043,
      "grad_norm": 8.940384577726945e-05,
      "learning_rate": 7.978674640218126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59580360,
      "step": 102665
    },
    {
      "epoch": 15.291927316056002,
      "grad_norm": 4.384632848086767e-05,
      "learning_rate": 7.976294842483446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59583336,
      "step": 102670
    },
    {
      "epoch": 15.29267202859696,
      "grad_norm": 0.0003912647080142051,
      "learning_rate": 7.97391533234695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59586120,
      "step": 102675
    },
    {
      "epoch": 15.293416741137921,
      "grad_norm": 0.0006235678447410464,
      "learning_rate": 7.971536109848862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59588744,
      "step": 102680
    },
    {
      "epoch": 15.29416145367888,
      "grad_norm": 4.6986595407361165e-05,
      "learning_rate": 7.969157175029354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59591912,
      "step": 102685
    },
    {
      "epoch": 15.294906166219839,
      "grad_norm": 0.0029309915844351053,
      "learning_rate": 7.966778527928637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59594696,
      "step": 102690
    },
    {
      "epoch": 15.295650878760798,
      "grad_norm": 5.751682328991592e-05,
      "learning_rate": 7.964400168586875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59597448,
      "step": 102695
    },
    {
      "epoch": 15.296395591301758,
      "grad_norm": 3.6161523894406855e-05,
      "learning_rate": 7.962022097044266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59600456,
      "step": 102700
    },
    {
      "epoch": 15.297140303842717,
      "grad_norm": 5.454478377941996e-05,
      "learning_rate": 7.959644313340978e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59603272,
      "step": 102705
    },
    {
      "epoch": 15.297885016383676,
      "grad_norm": 5.2360988775035366e-05,
      "learning_rate": 7.95726681751718e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59606088,
      "step": 102710
    },
    {
      "epoch": 15.298629728924634,
      "grad_norm": 8.560344576835632e-05,
      "learning_rate": 7.95488960961304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59608808,
      "step": 102715
    },
    {
      "epoch": 15.299374441465595,
      "grad_norm": 0.0003109784156549722,
      "learning_rate": 7.952512689668703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59611720,
      "step": 102720
    },
    {
      "epoch": 15.300119154006554,
      "grad_norm": 0.0006613950827158988,
      "learning_rate": 7.95013605772435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59614504,
      "step": 102725
    },
    {
      "epoch": 15.300863866547513,
      "grad_norm": 9.597526513971388e-05,
      "learning_rate": 7.947759713820111e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 59617320,
      "step": 102730
    },
    {
      "epoch": 15.301608579088471,
      "grad_norm": 0.0028393913526088,
      "learning_rate": 7.945383657996148e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 59620200,
      "step": 102735
    },
    {
      "epoch": 15.302353291629432,
      "grad_norm": 0.00018233481387142092,
      "learning_rate": 7.943007890292593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59623080,
      "step": 102740
    },
    {
      "epoch": 15.30309800417039,
      "grad_norm": 0.00011069698666688055,
      "learning_rate": 7.940632410749577e-06,
      "loss": 0.0058,
      "num_input_tokens_seen": 59625832,
      "step": 102745
    },
    {
      "epoch": 15.30384271671135,
      "grad_norm": 1.0041635505331215e-05,
      "learning_rate": 7.938257219407246e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59629032,
      "step": 102750
    },
    {
      "epoch": 15.304587429252308,
      "grad_norm": 7.583518708997872e-06,
      "learning_rate": 7.93588231630571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59631944,
      "step": 102755
    },
    {
      "epoch": 15.305332141793269,
      "grad_norm": 0.00015273626195266843,
      "learning_rate": 7.933507701485108e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59634856,
      "step": 102760
    },
    {
      "epoch": 15.306076854334227,
      "grad_norm": 4.5050663175061345e-05,
      "learning_rate": 7.93113337498554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59637704,
      "step": 102765
    },
    {
      "epoch": 15.306821566875186,
      "grad_norm": 0.0001315974077442661,
      "learning_rate": 7.928759336847133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59640680,
      "step": 102770
    },
    {
      "epoch": 15.307566279416145,
      "grad_norm": 2.052011404884979e-05,
      "learning_rate": 7.926385587109986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59643816,
      "step": 102775
    },
    {
      "epoch": 15.308310991957104,
      "grad_norm": 1.4552752872987185e-05,
      "learning_rate": 7.924012125814203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59646632,
      "step": 102780
    },
    {
      "epoch": 15.309055704498064,
      "grad_norm": 3.836908217635937e-05,
      "learning_rate": 7.92163895299988e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59649352,
      "step": 102785
    },
    {
      "epoch": 15.309800417039023,
      "grad_norm": 6.11998257227242e-06,
      "learning_rate": 7.919266068707099e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59652168,
      "step": 102790
    },
    {
      "epoch": 15.310545129579982,
      "grad_norm": 2.514167317713145e-05,
      "learning_rate": 7.916893472975967e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59655240,
      "step": 102795
    },
    {
      "epoch": 15.31128984212094,
      "grad_norm": 1.727065864542965e-05,
      "learning_rate": 7.91452116584655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59658152,
      "step": 102800
    },
    {
      "epoch": 15.312034554661901,
      "grad_norm": 0.0003985608054790646,
      "learning_rate": 7.912149147358938e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59661256,
      "step": 102805
    },
    {
      "epoch": 15.31277926720286,
      "grad_norm": 8.932359924074262e-05,
      "learning_rate": 7.909777417553193e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59664424,
      "step": 102810
    },
    {
      "epoch": 15.313523979743819,
      "grad_norm": 5.350846767425537,
      "learning_rate": 7.907405976469397e-06,
      "loss": 0.0109,
      "num_input_tokens_seen": 59667176,
      "step": 102815
    },
    {
      "epoch": 15.314268692284777,
      "grad_norm": 1.0392178410256747e-05,
      "learning_rate": 7.905034824147605e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59670120,
      "step": 102820
    },
    {
      "epoch": 15.315013404825738,
      "grad_norm": 3.684592229546979e-06,
      "learning_rate": 7.902663960627869e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59672808,
      "step": 102825
    },
    {
      "epoch": 15.315758117366697,
      "grad_norm": 7.855965668568388e-05,
      "learning_rate": 7.900293385950253e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59675656,
      "step": 102830
    },
    {
      "epoch": 15.316502829907655,
      "grad_norm": 7.405104406643659e-05,
      "learning_rate": 7.897923100154794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59678376,
      "step": 102835
    },
    {
      "epoch": 15.317247542448614,
      "grad_norm": 1.3953876077721361e-05,
      "learning_rate": 7.895553103281552e-06,
      "loss": 0.012,
      "num_input_tokens_seen": 59680968,
      "step": 102840
    },
    {
      "epoch": 15.317992254989575,
      "grad_norm": 1.006721049634507e-05,
      "learning_rate": 7.893183395370554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59683880,
      "step": 102845
    },
    {
      "epoch": 15.318736967530533,
      "grad_norm": 0.0006405550520867109,
      "learning_rate": 7.890813976461836e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 59686504,
      "step": 102850
    },
    {
      "epoch": 15.319481680071492,
      "grad_norm": 1.3721580216952134e-05,
      "learning_rate": 7.888444846595422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59689288,
      "step": 102855
    },
    {
      "epoch": 15.320226392612451,
      "grad_norm": 7.66676603234373e-05,
      "learning_rate": 7.886076005811346e-06,
      "loss": 0.1258,
      "num_input_tokens_seen": 59692200,
      "step": 102860
    },
    {
      "epoch": 15.320971105153411,
      "grad_norm": 3.6207969969836995e-05,
      "learning_rate": 7.883707454149621e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59694824,
      "step": 102865
    },
    {
      "epoch": 15.32171581769437,
      "grad_norm": 8.557231922168285e-05,
      "learning_rate": 7.881339191650256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59697864,
      "step": 102870
    },
    {
      "epoch": 15.322460530235329,
      "grad_norm": 9.92078275885433e-06,
      "learning_rate": 7.878971218353275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59700552,
      "step": 102875
    },
    {
      "epoch": 15.323205242776288,
      "grad_norm": 0.0007637226372025907,
      "learning_rate": 7.876603534298666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59703240,
      "step": 102880
    },
    {
      "epoch": 15.323949955317248,
      "grad_norm": 1.9878518287441693e-05,
      "learning_rate": 7.874236139526445e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59706216,
      "step": 102885
    },
    {
      "epoch": 15.324694667858207,
      "grad_norm": 0.000263060413999483,
      "learning_rate": 7.87186903407659e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59709320,
      "step": 102890
    },
    {
      "epoch": 15.325439380399166,
      "grad_norm": 0.0005969989579170942,
      "learning_rate": 7.869502217989108e-06,
      "loss": 0.0444,
      "num_input_tokens_seen": 59712168,
      "step": 102895
    },
    {
      "epoch": 15.326184092940125,
      "grad_norm": 0.00024251005379483104,
      "learning_rate": 7.867135691303975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59715560,
      "step": 102900
    },
    {
      "epoch": 15.326928805481085,
      "grad_norm": 0.014717805199325085,
      "learning_rate": 7.864769454061163e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59718440,
      "step": 102905
    },
    {
      "epoch": 15.327673518022044,
      "grad_norm": 0.00013894677977077663,
      "learning_rate": 7.862403506300664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59721416,
      "step": 102910
    },
    {
      "epoch": 15.328418230563003,
      "grad_norm": 0.00017963761638384312,
      "learning_rate": 7.86003784806244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59724136,
      "step": 102915
    },
    {
      "epoch": 15.329162943103961,
      "grad_norm": 6.573156952072168e-06,
      "learning_rate": 7.857672479386458e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59726920,
      "step": 102920
    },
    {
      "epoch": 15.329907655644922,
      "grad_norm": 2.2159574655233882e-05,
      "learning_rate": 7.855307400312667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59730088,
      "step": 102925
    },
    {
      "epoch": 15.33065236818588,
      "grad_norm": 6.242557719815522e-05,
      "learning_rate": 7.85294261088104e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59732712,
      "step": 102930
    },
    {
      "epoch": 15.33139708072684,
      "grad_norm": 5.4634406296827365e-06,
      "learning_rate": 7.850578111131513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59735432,
      "step": 102935
    },
    {
      "epoch": 15.332141793267798,
      "grad_norm": 6.540954927913845e-06,
      "learning_rate": 7.848213901104045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59738600,
      "step": 102940
    },
    {
      "epoch": 15.332886505808759,
      "grad_norm": 1.2666826478380244e-05,
      "learning_rate": 7.845849980838574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59741320,
      "step": 102945
    },
    {
      "epoch": 15.333631218349717,
      "grad_norm": 2.7916617000300903e-06,
      "learning_rate": 7.843486350375023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59744072,
      "step": 102950
    },
    {
      "epoch": 15.334375930890676,
      "grad_norm": 0.00022378929133992642,
      "learning_rate": 7.84112300975334e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59746920,
      "step": 102955
    },
    {
      "epoch": 15.335120643431635,
      "grad_norm": 7.916378672234714e-05,
      "learning_rate": 7.838759959013439e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 59749608,
      "step": 102960
    },
    {
      "epoch": 15.335865355972594,
      "grad_norm": 3.7690347198804375e-06,
      "learning_rate": 7.836397198195252e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59752424,
      "step": 102965
    },
    {
      "epoch": 15.336610068513554,
      "grad_norm": 0.00010988482245011255,
      "learning_rate": 7.83403472733869e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59755368,
      "step": 102970
    },
    {
      "epoch": 15.337354781054513,
      "grad_norm": 2.0685643903561868e-05,
      "learning_rate": 7.83167254648366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59758024,
      "step": 102975
    },
    {
      "epoch": 15.338099493595472,
      "grad_norm": 0.00020894782210234553,
      "learning_rate": 7.829310655670077e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59761032,
      "step": 102980
    },
    {
      "epoch": 15.33884420613643,
      "grad_norm": 0.0005638400907628238,
      "learning_rate": 7.82694905493784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59763880,
      "step": 102985
    },
    {
      "epoch": 15.339588918677391,
      "grad_norm": 0.0002659351157490164,
      "learning_rate": 7.824587744326847e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59767144,
      "step": 102990
    },
    {
      "epoch": 15.34033363121835,
      "grad_norm": 0.0001720244181342423,
      "learning_rate": 7.822226723876976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59770152,
      "step": 102995
    },
    {
      "epoch": 15.341078343759309,
      "grad_norm": 0.00032458658097311854,
      "learning_rate": 7.819865993628139e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 59773192,
      "step": 103000
    },
    {
      "epoch": 15.341823056300267,
      "grad_norm": 4.707605330622755e-05,
      "learning_rate": 7.817505553620194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59776232,
      "step": 103005
    },
    {
      "epoch": 15.342567768841228,
      "grad_norm": 4.860785702476278e-05,
      "learning_rate": 7.815145403893037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59779112,
      "step": 103010
    },
    {
      "epoch": 15.343312481382187,
      "grad_norm": 3.778270183829591e-05,
      "learning_rate": 7.812785544486526e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59781736,
      "step": 103015
    },
    {
      "epoch": 15.344057193923145,
      "grad_norm": 2.4883558580768295e-05,
      "learning_rate": 7.81042597544054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59784744,
      "step": 103020
    },
    {
      "epoch": 15.344801906464104,
      "grad_norm": 0.0001017465183394961,
      "learning_rate": 7.808066696794938e-06,
      "loss": 0.2719,
      "num_input_tokens_seen": 59787912,
      "step": 103025
    },
    {
      "epoch": 15.345546619005065,
      "grad_norm": 0.00010426370135974139,
      "learning_rate": 7.805707708589569e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59791080,
      "step": 103030
    },
    {
      "epoch": 15.346291331546023,
      "grad_norm": 3.5796059819404036e-05,
      "learning_rate": 7.8033490108643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59794024,
      "step": 103035
    },
    {
      "epoch": 15.347036044086982,
      "grad_norm": 0.0004391379770822823,
      "learning_rate": 7.80099060365897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59796840,
      "step": 103040
    },
    {
      "epoch": 15.347780756627941,
      "grad_norm": 1.2823026736441534e-05,
      "learning_rate": 7.798632487013427e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59799784,
      "step": 103045
    },
    {
      "epoch": 15.348525469168901,
      "grad_norm": 8.82952463143738e-06,
      "learning_rate": 7.796274660967496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59802536,
      "step": 103050
    },
    {
      "epoch": 15.34927018170986,
      "grad_norm": 0.0005103996372781694,
      "learning_rate": 7.793917125561027e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59805288,
      "step": 103055
    },
    {
      "epoch": 15.350014894250819,
      "grad_norm": 6.542671599163441e-06,
      "learning_rate": 7.79155988083384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59807944,
      "step": 103060
    },
    {
      "epoch": 15.350759606791778,
      "grad_norm": 1.3417899936030153e-05,
      "learning_rate": 7.78920292682575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59810632,
      "step": 103065
    },
    {
      "epoch": 15.351504319332738,
      "grad_norm": 1.774003430909943e-05,
      "learning_rate": 7.786846263576594e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59813512,
      "step": 103070
    },
    {
      "epoch": 15.352249031873697,
      "grad_norm": 4.798649115400622e-06,
      "learning_rate": 7.784489891126167e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59816232,
      "step": 103075
    },
    {
      "epoch": 15.352993744414656,
      "grad_norm": 2.6433208404341713e-05,
      "learning_rate": 7.782133809514297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59818760,
      "step": 103080
    },
    {
      "epoch": 15.353738456955615,
      "grad_norm": 3.5330392620380735e-06,
      "learning_rate": 7.779778018780765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59821672,
      "step": 103085
    },
    {
      "epoch": 15.354483169496575,
      "grad_norm": 3.929972990590613e-06,
      "learning_rate": 7.77742251896539e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59824648,
      "step": 103090
    },
    {
      "epoch": 15.355227882037534,
      "grad_norm": 0.0007542266394011676,
      "learning_rate": 7.775067310107953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59827496,
      "step": 103095
    },
    {
      "epoch": 15.355972594578493,
      "grad_norm": 5.898707058804575e-06,
      "learning_rate": 7.772712392248251e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59830312,
      "step": 103100
    },
    {
      "epoch": 15.356717307119451,
      "grad_norm": 0.00020307715749368072,
      "learning_rate": 7.770357765426068e-06,
      "loss": 0.0588,
      "num_input_tokens_seen": 59833000,
      "step": 103105
    },
    {
      "epoch": 15.357462019660412,
      "grad_norm": 1.5147727935982402e-05,
      "learning_rate": 7.768003429681175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59835976,
      "step": 103110
    },
    {
      "epoch": 15.35820673220137,
      "grad_norm": 1.1143234587507322e-05,
      "learning_rate": 7.765649385053353e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59839048,
      "step": 103115
    },
    {
      "epoch": 15.35895144474233,
      "grad_norm": 1.045680164679652e-05,
      "learning_rate": 7.76329563158236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59841768,
      "step": 103120
    },
    {
      "epoch": 15.359696157283288,
      "grad_norm": 4.361526225693524e-05,
      "learning_rate": 7.760942169307975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59844616,
      "step": 103125
    },
    {
      "epoch": 15.360440869824249,
      "grad_norm": 0.00011245235509704798,
      "learning_rate": 7.758588998269944e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59847688,
      "step": 103130
    },
    {
      "epoch": 15.361185582365207,
      "grad_norm": 2.003653753490653e-05,
      "learning_rate": 7.756236118508036e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59851112,
      "step": 103135
    },
    {
      "epoch": 15.361930294906166,
      "grad_norm": 5.293626600177959e-06,
      "learning_rate": 7.753883530061987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59853800,
      "step": 103140
    },
    {
      "epoch": 15.362675007447125,
      "grad_norm": 6.2745616560277995e-06,
      "learning_rate": 7.751531232971554e-06,
      "loss": 0.0244,
      "num_input_tokens_seen": 59856616,
      "step": 103145
    },
    {
      "epoch": 15.363419719988084,
      "grad_norm": 0.0006103671621531248,
      "learning_rate": 7.749179227276471e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59859400,
      "step": 103150
    },
    {
      "epoch": 15.364164432529044,
      "grad_norm": 0.0010676122037693858,
      "learning_rate": 7.746827513016464e-06,
      "loss": 0.0107,
      "num_input_tokens_seen": 59862152,
      "step": 103155
    },
    {
      "epoch": 15.364909145070003,
      "grad_norm": 0.00040054196142591536,
      "learning_rate": 7.744476090231275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59865064,
      "step": 103160
    },
    {
      "epoch": 15.365653857610962,
      "grad_norm": 43.23334503173828,
      "learning_rate": 7.742124958960622e-06,
      "loss": 0.2344,
      "num_input_tokens_seen": 59867880,
      "step": 103165
    },
    {
      "epoch": 15.36639857015192,
      "grad_norm": 3.143181311315857e-05,
      "learning_rate": 7.739774119244233e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59870920,
      "step": 103170
    },
    {
      "epoch": 15.367143282692881,
      "grad_norm": 0.0001079854482668452,
      "learning_rate": 7.737423571121818e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59873928,
      "step": 103175
    },
    {
      "epoch": 15.36788799523384,
      "grad_norm": 6.63835380692035e-05,
      "learning_rate": 7.73507331463309e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59877000,
      "step": 103180
    },
    {
      "epoch": 15.368632707774799,
      "grad_norm": 3.149750773445703e-05,
      "learning_rate": 7.732723349817747e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59879912,
      "step": 103185
    },
    {
      "epoch": 15.369377420315757,
      "grad_norm": 0.0006357658421620727,
      "learning_rate": 7.730373676715488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59882696,
      "step": 103190
    },
    {
      "epoch": 15.370122132856718,
      "grad_norm": 0.0007213735952973366,
      "learning_rate": 7.728024295366018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59885640,
      "step": 103195
    },
    {
      "epoch": 15.370866845397677,
      "grad_norm": 32.33341598510742,
      "learning_rate": 7.725675205809019e-06,
      "loss": 0.109,
      "num_input_tokens_seen": 59888552,
      "step": 103200
    },
    {
      "epoch": 15.371611557938635,
      "grad_norm": 2.9180841011111625e-05,
      "learning_rate": 7.723326408084186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59891432,
      "step": 103205
    },
    {
      "epoch": 15.372356270479594,
      "grad_norm": 0.00014305538206826895,
      "learning_rate": 7.720977902231189e-06,
      "loss": 0.0064,
      "num_input_tokens_seen": 59894344,
      "step": 103210
    },
    {
      "epoch": 15.373100983020555,
      "grad_norm": 8.028568845475093e-05,
      "learning_rate": 7.718629688289713e-06,
      "loss": 0.019,
      "num_input_tokens_seen": 59897384,
      "step": 103215
    },
    {
      "epoch": 15.373845695561513,
      "grad_norm": 4.0511942643206567e-05,
      "learning_rate": 7.716281766299419e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59900168,
      "step": 103220
    },
    {
      "epoch": 15.374590408102472,
      "grad_norm": 6.427740299841389e-05,
      "learning_rate": 7.713934136299985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59903208,
      "step": 103225
    },
    {
      "epoch": 15.375335120643431,
      "grad_norm": 0.00022212993644643575,
      "learning_rate": 7.711586798331066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59905864,
      "step": 103230
    },
    {
      "epoch": 15.376079833184392,
      "grad_norm": 1.2426598004822154e-05,
      "learning_rate": 7.70923975243231e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59908584,
      "step": 103235
    },
    {
      "epoch": 15.37682454572535,
      "grad_norm": 0.00016526870604138821,
      "learning_rate": 7.70689299864338e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59911368,
      "step": 103240
    },
    {
      "epoch": 15.377569258266309,
      "grad_norm": 0.24105766415596008,
      "learning_rate": 7.704546537003918e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59914408,
      "step": 103245
    },
    {
      "epoch": 15.378313970807268,
      "grad_norm": 8.034142956603318e-05,
      "learning_rate": 7.702200367553563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59917032,
      "step": 103250
    },
    {
      "epoch": 15.379058683348228,
      "grad_norm": 0.0007825333159416914,
      "learning_rate": 7.699854490331948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59920040,
      "step": 103255
    },
    {
      "epoch": 15.379803395889187,
      "grad_norm": 1.7291817130171694e-05,
      "learning_rate": 7.697508905378712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59922792,
      "step": 103260
    },
    {
      "epoch": 15.380548108430146,
      "grad_norm": 49.45644760131836,
      "learning_rate": 7.69516361273348e-06,
      "loss": 0.2531,
      "num_input_tokens_seen": 59926824,
      "step": 103265
    },
    {
      "epoch": 15.381292820971105,
      "grad_norm": 0.00011464027193142101,
      "learning_rate": 7.692818612435862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59929896,
      "step": 103270
    },
    {
      "epoch": 15.382037533512065,
      "grad_norm": 3.634781751316041e-05,
      "learning_rate": 7.690473904525491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59932712,
      "step": 103275
    },
    {
      "epoch": 15.382782246053024,
      "grad_norm": 3.726547583937645e-05,
      "learning_rate": 7.688129489041963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59935624,
      "step": 103280
    },
    {
      "epoch": 15.383526958593983,
      "grad_norm": 1.9824228729703464e-05,
      "learning_rate": 7.685785366024901e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59938504,
      "step": 103285
    },
    {
      "epoch": 15.384271671134941,
      "grad_norm": 0.00019951816648244858,
      "learning_rate": 7.683441535513888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59941640,
      "step": 103290
    },
    {
      "epoch": 15.3850163836759,
      "grad_norm": 3.856379407807253e-06,
      "learning_rate": 7.681097997548539e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59944488,
      "step": 103295
    },
    {
      "epoch": 15.38576109621686,
      "grad_norm": 0.00036971375811845064,
      "learning_rate": 7.678754752168438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59947432,
      "step": 103300
    },
    {
      "epoch": 15.38650580875782,
      "grad_norm": 2.902769119828008e-05,
      "learning_rate": 7.676411799413163e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59950056,
      "step": 103305
    },
    {
      "epoch": 15.387250521298778,
      "grad_norm": 4.421439007273875e-05,
      "learning_rate": 7.674069139322312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59952872,
      "step": 103310
    },
    {
      "epoch": 15.387995233839739,
      "grad_norm": 3.388020195416175e-05,
      "learning_rate": 7.671726771935453e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59956136,
      "step": 103315
    },
    {
      "epoch": 15.388739946380698,
      "grad_norm": 8.940794941736385e-05,
      "learning_rate": 7.669384697292158e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59958920,
      "step": 103320
    },
    {
      "epoch": 15.389484658921656,
      "grad_norm": 1.1478947271825746e-05,
      "learning_rate": 7.667042915431987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59961640,
      "step": 103325
    },
    {
      "epoch": 15.390229371462615,
      "grad_norm": 0.0001304188190260902,
      "learning_rate": 7.66470142639452e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59964776,
      "step": 103330
    },
    {
      "epoch": 15.390974084003574,
      "grad_norm": 9.458060230826959e-05,
      "learning_rate": 7.662360230219293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59967848,
      "step": 103335
    },
    {
      "epoch": 15.391718796544534,
      "grad_norm": 0.0044782524928450584,
      "learning_rate": 7.660019326945874e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59970600,
      "step": 103340
    },
    {
      "epoch": 15.392463509085493,
      "grad_norm": 3.932660547434352e-05,
      "learning_rate": 7.657678716613808e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59973448,
      "step": 103345
    },
    {
      "epoch": 15.393208221626452,
      "grad_norm": 2.8602808015421033e-05,
      "learning_rate": 7.655338399262627e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59976168,
      "step": 103350
    },
    {
      "epoch": 15.39395293416741,
      "grad_norm": 0.0007677035173401237,
      "learning_rate": 7.652998374931882e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 59979112,
      "step": 103355
    },
    {
      "epoch": 15.394697646708371,
      "grad_norm": 1.5336579963332042e-05,
      "learning_rate": 7.65065864366109e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59982056,
      "step": 103360
    },
    {
      "epoch": 15.39544235924933,
      "grad_norm": 0.0002292645804118365,
      "learning_rate": 7.648319205489798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59985032,
      "step": 103365
    },
    {
      "epoch": 15.396187071790289,
      "grad_norm": 2.0633031454053707e-05,
      "learning_rate": 7.645980060457517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59988040,
      "step": 103370
    },
    {
      "epoch": 15.396931784331247,
      "grad_norm": 0.00017385042156092823,
      "learning_rate": 7.643641208603764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59990888,
      "step": 103375
    },
    {
      "epoch": 15.397676496872208,
      "grad_norm": 0.00037505346699617803,
      "learning_rate": 7.641302649968043e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59993736,
      "step": 103380
    },
    {
      "epoch": 15.398421209413167,
      "grad_norm": 0.02005423605442047,
      "learning_rate": 7.638964384589881e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 59996776,
      "step": 103385
    },
    {
      "epoch": 15.399165921954125,
      "grad_norm": 0.0019098434131592512,
      "learning_rate": 7.63662641250877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60000360,
      "step": 103390
    },
    {
      "epoch": 15.399910634495084,
      "grad_norm": 0.0024291756562888622,
      "learning_rate": 7.6342887337642e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60003304,
      "step": 103395
    },
    {
      "epoch": 15.400655347036045,
      "grad_norm": 7.604436177643947e-06,
      "learning_rate": 7.631951348395683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60005864,
      "step": 103400
    },
    {
      "epoch": 15.401400059577004,
      "grad_norm": 0.007886022329330444,
      "learning_rate": 7.629614256442685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60008712,
      "step": 103405
    },
    {
      "epoch": 15.402144772117962,
      "grad_norm": 0.0002859315136447549,
      "learning_rate": 7.6272774579447065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60011336,
      "step": 103410
    },
    {
      "epoch": 15.402889484658921,
      "grad_norm": 0.00043413578532636166,
      "learning_rate": 7.6249409529412145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60014024,
      "step": 103415
    },
    {
      "epoch": 15.403634197199882,
      "grad_norm": 0.00024162254703696817,
      "learning_rate": 7.622604741471692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60017000,
      "step": 103420
    },
    {
      "epoch": 15.40437890974084,
      "grad_norm": 5.930440238444135e-06,
      "learning_rate": 7.620268823575599e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60019912,
      "step": 103425
    },
    {
      "epoch": 15.405123622281799,
      "grad_norm": 0.0002370921429246664,
      "learning_rate": 7.617933199292396e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60022824,
      "step": 103430
    },
    {
      "epoch": 15.405868334822758,
      "grad_norm": 2.1025287423981354e-05,
      "learning_rate": 7.61559786866155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60025448,
      "step": 103435
    },
    {
      "epoch": 15.406613047363718,
      "grad_norm": 0.004831466358155012,
      "learning_rate": 7.613262831722509e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60028328,
      "step": 103440
    },
    {
      "epoch": 15.407357759904677,
      "grad_norm": 0.0001849817344918847,
      "learning_rate": 7.610928088514724e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60031304,
      "step": 103445
    },
    {
      "epoch": 15.408102472445636,
      "grad_norm": 0.00010809217201313004,
      "learning_rate": 7.608593639077627e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60034408,
      "step": 103450
    },
    {
      "epoch": 15.408847184986595,
      "grad_norm": 7.911673310445622e-05,
      "learning_rate": 7.60625948345067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60037160,
      "step": 103455
    },
    {
      "epoch": 15.409591897527555,
      "grad_norm": 3.077093424508348e-05,
      "learning_rate": 7.603925621673275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60040072,
      "step": 103460
    },
    {
      "epoch": 15.410336610068514,
      "grad_norm": 2.2024007193977013e-05,
      "learning_rate": 7.601592053784884e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60043112,
      "step": 103465
    },
    {
      "epoch": 15.411081322609473,
      "grad_norm": 0.00024113045947160572,
      "learning_rate": 7.599258779824911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60045992,
      "step": 103470
    },
    {
      "epoch": 15.411826035150431,
      "grad_norm": 8.263063500635326e-05,
      "learning_rate": 7.596925799832769e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60048904,
      "step": 103475
    },
    {
      "epoch": 15.41257074769139,
      "grad_norm": 7.574962637590943e-06,
      "learning_rate": 7.594593113847887e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60051880,
      "step": 103480
    },
    {
      "epoch": 15.41331546023235,
      "grad_norm": 8.742566569708288e-05,
      "learning_rate": 7.592260721909655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60054504,
      "step": 103485
    },
    {
      "epoch": 15.41406017277331,
      "grad_norm": 0.00013376973220147192,
      "learning_rate": 7.589928624057494e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60057160,
      "step": 103490
    },
    {
      "epoch": 15.414804885314268,
      "grad_norm": 0.0004991214955225587,
      "learning_rate": 7.587596820330783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60060360,
      "step": 103495
    },
    {
      "epoch": 15.415549597855227,
      "grad_norm": 0.00016274204244837165,
      "learning_rate": 7.585265310768938e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60063272,
      "step": 103500
    },
    {
      "epoch": 15.416294310396188,
      "grad_norm": 3.3972071832977235e-05,
      "learning_rate": 7.582934095411337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60066248,
      "step": 103505
    },
    {
      "epoch": 15.417039022937146,
      "grad_norm": 0.00025632159668020904,
      "learning_rate": 7.58060317429736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60069000,
      "step": 103510
    },
    {
      "epoch": 15.417783735478105,
      "grad_norm": 1.5592564523103647e-05,
      "learning_rate": 7.5782725474663894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60072104,
      "step": 103515
    },
    {
      "epoch": 15.418528448019064,
      "grad_norm": 0.0006337488302960992,
      "learning_rate": 7.575942214957787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60075048,
      "step": 103520
    },
    {
      "epoch": 15.419273160560024,
      "grad_norm": 0.0003681300731841475,
      "learning_rate": 7.573612176810943e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60077864,
      "step": 103525
    },
    {
      "epoch": 15.420017873100983,
      "grad_norm": 1.4260414838790894,
      "learning_rate": 7.5712824330651995e-06,
      "loss": 0.2148,
      "num_input_tokens_seen": 60081032,
      "step": 103530
    },
    {
      "epoch": 15.420762585641942,
      "grad_norm": 3.0373230401892215e-05,
      "learning_rate": 7.568952983759936e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60083880,
      "step": 103535
    },
    {
      "epoch": 15.4215072981829,
      "grad_norm": 6.836496829986572,
      "learning_rate": 7.566623828934485e-06,
      "loss": 0.0088,
      "num_input_tokens_seen": 60086792,
      "step": 103540
    },
    {
      "epoch": 15.422252010723861,
      "grad_norm": 0.0003979296307079494,
      "learning_rate": 7.5642949686282165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60089544,
      "step": 103545
    },
    {
      "epoch": 15.42299672326482,
      "grad_norm": 0.0012032114900648594,
      "learning_rate": 7.561966402880461e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60092616,
      "step": 103550
    },
    {
      "epoch": 15.423741435805779,
      "grad_norm": 0.00011571991490200162,
      "learning_rate": 7.559638131730554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60095816,
      "step": 103555
    },
    {
      "epoch": 15.424486148346737,
      "grad_norm": 0.00014346859825309366,
      "learning_rate": 7.557310155217842e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60098568,
      "step": 103560
    },
    {
      "epoch": 15.425230860887698,
      "grad_norm": 1.2159888683527242e-05,
      "learning_rate": 7.554982473381639e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60101608,
      "step": 103565
    },
    {
      "epoch": 15.425975573428657,
      "grad_norm": 0.0006670246366411448,
      "learning_rate": 7.552655086261287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60104552,
      "step": 103570
    },
    {
      "epoch": 15.426720285969616,
      "grad_norm": 0.0006909932126291096,
      "learning_rate": 7.550327993896092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60107624,
      "step": 103575
    },
    {
      "epoch": 15.427464998510574,
      "grad_norm": 9.715117454528809,
      "learning_rate": 7.548001196325372e-06,
      "loss": 0.1412,
      "num_input_tokens_seen": 60110632,
      "step": 103580
    },
    {
      "epoch": 15.428209711051535,
      "grad_norm": 5.460371176013723e-05,
      "learning_rate": 7.545674693588434e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60113544,
      "step": 103585
    },
    {
      "epoch": 15.428954423592494,
      "grad_norm": 0.004915372934192419,
      "learning_rate": 7.543348485724572e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60116168,
      "step": 103590
    },
    {
      "epoch": 15.429699136133452,
      "grad_norm": 1.908861486299429e-05,
      "learning_rate": 7.541022572773107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60118824,
      "step": 103595
    },
    {
      "epoch": 15.430443848674411,
      "grad_norm": 0.002082832157611847,
      "learning_rate": 7.538696954773311e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60121640,
      "step": 103600
    },
    {
      "epoch": 15.431188561215372,
      "grad_norm": 1.872964458016213e-05,
      "learning_rate": 7.536371631764491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60124744,
      "step": 103605
    },
    {
      "epoch": 15.43193327375633,
      "grad_norm": 0.022776398807764053,
      "learning_rate": 7.534046603785916e-06,
      "loss": 0.0114,
      "num_input_tokens_seen": 60127624,
      "step": 103610
    },
    {
      "epoch": 15.43267798629729,
      "grad_norm": 2.1244446543278173e-05,
      "learning_rate": 7.531721870876879e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60130696,
      "step": 103615
    },
    {
      "epoch": 15.433422698838248,
      "grad_norm": 0.00016161207167897373,
      "learning_rate": 7.529397433076638e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60133704,
      "step": 103620
    },
    {
      "epoch": 15.434167411379208,
      "grad_norm": 0.0003379120898898691,
      "learning_rate": 7.52707329042448e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 60136616,
      "step": 103625
    },
    {
      "epoch": 15.434912123920167,
      "grad_norm": 9.70817927736789e-05,
      "learning_rate": 7.524749442959661e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60139816,
      "step": 103630
    },
    {
      "epoch": 15.435656836461126,
      "grad_norm": 4.3051961256423965e-05,
      "learning_rate": 7.522425890721432e-06,
      "loss": 0.225,
      "num_input_tokens_seen": 60142568,
      "step": 103635
    },
    {
      "epoch": 15.436401549002085,
      "grad_norm": 1.2707941095868591e-05,
      "learning_rate": 7.52010263374906e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60145352,
      "step": 103640
    },
    {
      "epoch": 15.437146261543045,
      "grad_norm": 0.0039784894324839115,
      "learning_rate": 7.51777967208179e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60148168,
      "step": 103645
    },
    {
      "epoch": 15.437890974084004,
      "grad_norm": 3.6988280044170097e-05,
      "learning_rate": 7.515457005758864e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60150824,
      "step": 103650
    },
    {
      "epoch": 15.438635686624963,
      "grad_norm": 0.001410636119544506,
      "learning_rate": 7.5131346348195105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60153800,
      "step": 103655
    },
    {
      "epoch": 15.439380399165922,
      "grad_norm": 0.00032746026408858597,
      "learning_rate": 7.510812559302985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60156680,
      "step": 103660
    },
    {
      "epoch": 15.44012511170688,
      "grad_norm": 6.105586180638056e-06,
      "learning_rate": 7.508490779248506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60159368,
      "step": 103665
    },
    {
      "epoch": 15.44086982424784,
      "grad_norm": 3.6765231925528497e-05,
      "learning_rate": 7.5061692946952896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60162312,
      "step": 103670
    },
    {
      "epoch": 15.4416145367888,
      "grad_norm": 0.0002805374388117343,
      "learning_rate": 7.503848105682571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60165128,
      "step": 103675
    },
    {
      "epoch": 15.442359249329758,
      "grad_norm": 0.0001418013998772949,
      "learning_rate": 7.501527212249549e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60168168,
      "step": 103680
    },
    {
      "epoch": 15.443103961870717,
      "grad_norm": 0.0006072962423786521,
      "learning_rate": 7.4992066144354475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60171016,
      "step": 103685
    },
    {
      "epoch": 15.443848674411678,
      "grad_norm": 0.00027097869315184653,
      "learning_rate": 7.496886312279455e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 60174024,
      "step": 103690
    },
    {
      "epoch": 15.444593386952636,
      "grad_norm": 5.047492595622316e-05,
      "learning_rate": 7.494566305820788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60176968,
      "step": 103695
    },
    {
      "epoch": 15.445338099493595,
      "grad_norm": 0.006044143345206976,
      "learning_rate": 7.492246595098629e-06,
      "loss": 0.0569,
      "num_input_tokens_seen": 60179976,
      "step": 103700
    },
    {
      "epoch": 15.446082812034554,
      "grad_norm": 8.571156286052428e-06,
      "learning_rate": 7.489927180152173e-06,
      "loss": 0.1813,
      "num_input_tokens_seen": 60182952,
      "step": 103705
    },
    {
      "epoch": 15.446827524575514,
      "grad_norm": 0.0003991056582890451,
      "learning_rate": 7.487608061020599e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60185544,
      "step": 103710
    },
    {
      "epoch": 15.447572237116473,
      "grad_norm": 7.730234210612252e-05,
      "learning_rate": 7.485289237743079e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60188168,
      "step": 103715
    },
    {
      "epoch": 15.448316949657432,
      "grad_norm": 0.0005152957746759057,
      "learning_rate": 7.482970710358806e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60191144,
      "step": 103720
    },
    {
      "epoch": 15.44906166219839,
      "grad_norm": 2.2325675672618672e-05,
      "learning_rate": 7.48065247890693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60193832,
      "step": 103725
    },
    {
      "epoch": 15.449806374739351,
      "grad_norm": 0.0019617199432104826,
      "learning_rate": 7.478334543426632e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60196808,
      "step": 103730
    },
    {
      "epoch": 15.45055108728031,
      "grad_norm": 0.00024379967362619936,
      "learning_rate": 7.476016903957058e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60199912,
      "step": 103735
    },
    {
      "epoch": 15.451295799821269,
      "grad_norm": 5.935849003435578e-06,
      "learning_rate": 7.473699560537376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60202728,
      "step": 103740
    },
    {
      "epoch": 15.452040512362228,
      "grad_norm": 2.0483248590608127e-05,
      "learning_rate": 7.471382513206718e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60205512,
      "step": 103745
    },
    {
      "epoch": 15.452785224903188,
      "grad_norm": 5.203096407058183e-06,
      "learning_rate": 7.469065762004243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60208520,
      "step": 103750
    },
    {
      "epoch": 15.453529937444147,
      "grad_norm": 0.004007788375020027,
      "learning_rate": 7.466749306969087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60211464,
      "step": 103755
    },
    {
      "epoch": 15.454274649985106,
      "grad_norm": 0.0004482779186218977,
      "learning_rate": 7.464433148140371e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60214152,
      "step": 103760
    },
    {
      "epoch": 15.455019362526064,
      "grad_norm": 1.320678711635992e-05,
      "learning_rate": 7.462117285557246e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60216872,
      "step": 103765
    },
    {
      "epoch": 15.455764075067025,
      "grad_norm": 1.264265210920712e-05,
      "learning_rate": 7.459801719258821e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60220200,
      "step": 103770
    },
    {
      "epoch": 15.456508787607984,
      "grad_norm": 0.00022425840143114328,
      "learning_rate": 7.457486449284221e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60223176,
      "step": 103775
    },
    {
      "epoch": 15.457253500148942,
      "grad_norm": 2.8968452170374803e-05,
      "learning_rate": 7.455171475672551e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60225864,
      "step": 103780
    },
    {
      "epoch": 15.457998212689901,
      "grad_norm": 0.0008407082059420645,
      "learning_rate": 7.4528567984629344e-06,
      "loss": 0.2219,
      "num_input_tokens_seen": 60229000,
      "step": 103785
    },
    {
      "epoch": 15.458742925230862,
      "grad_norm": 1.2800677723134868e-05,
      "learning_rate": 7.450542417694467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60231912,
      "step": 103790
    },
    {
      "epoch": 15.45948763777182,
      "grad_norm": 0.00015248626004904509,
      "learning_rate": 7.448228333406241e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60234600,
      "step": 103795
    },
    {
      "epoch": 15.46023235031278,
      "grad_norm": 0.00051833875477314,
      "learning_rate": 7.445914545637367e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60237608,
      "step": 103800
    },
    {
      "epoch": 15.460977062853738,
      "grad_norm": 0.0013551299925893545,
      "learning_rate": 7.443601054426919e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60240808,
      "step": 103805
    },
    {
      "epoch": 15.461721775394698,
      "grad_norm": 8.480902761220932e-05,
      "learning_rate": 7.441287859813995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60243976,
      "step": 103810
    },
    {
      "epoch": 15.462466487935657,
      "grad_norm": 0.0008561189752072096,
      "learning_rate": 7.438974961837655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60246984,
      "step": 103815
    },
    {
      "epoch": 15.463211200476616,
      "grad_norm": 0.000761820818297565,
      "learning_rate": 7.436662360536997e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60249704,
      "step": 103820
    },
    {
      "epoch": 15.463955913017575,
      "grad_norm": 3.997844487457769e-06,
      "learning_rate": 7.43435005595107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60252840,
      "step": 103825
    },
    {
      "epoch": 15.464700625558535,
      "grad_norm": 18.6953182220459,
      "learning_rate": 7.432038048118953e-06,
      "loss": 0.2125,
      "num_input_tokens_seen": 60255976,
      "step": 103830
    },
    {
      "epoch": 15.465445338099494,
      "grad_norm": 2.319656232430134e-05,
      "learning_rate": 7.429726337079695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60258856,
      "step": 103835
    },
    {
      "epoch": 15.466190050640453,
      "grad_norm": 0.002092442475259304,
      "learning_rate": 7.427414922872356e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60261864,
      "step": 103840
    },
    {
      "epoch": 15.466934763181412,
      "grad_norm": 0.0003633408050518483,
      "learning_rate": 7.4251038055359825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60264680,
      "step": 103845
    },
    {
      "epoch": 15.46767947572237,
      "grad_norm": 1.8129487037658691,
      "learning_rate": 7.422792985109608e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 60267464,
      "step": 103850
    },
    {
      "epoch": 15.46842418826333,
      "grad_norm": 0.001501387101598084,
      "learning_rate": 7.420482461632289e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60270568,
      "step": 103855
    },
    {
      "epoch": 15.46916890080429,
      "grad_norm": 4.120765515835956e-05,
      "learning_rate": 7.418172235143045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60273608,
      "step": 103860
    },
    {
      "epoch": 15.469913613345248,
      "grad_norm": 0.0006773889763280749,
      "learning_rate": 7.415862305680921e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60276392,
      "step": 103865
    },
    {
      "epoch": 15.470658325886207,
      "grad_norm": 0.002717395080253482,
      "learning_rate": 7.413552673284929e-06,
      "loss": 0.0361,
      "num_input_tokens_seen": 60279304,
      "step": 103870
    },
    {
      "epoch": 15.471403038427168,
      "grad_norm": 0.00715568708255887,
      "learning_rate": 7.411243337994084e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60281768,
      "step": 103875
    },
    {
      "epoch": 15.472147750968126,
      "grad_norm": 0.00012665620306506753,
      "learning_rate": 7.4089342998474145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60284744,
      "step": 103880
    },
    {
      "epoch": 15.472892463509085,
      "grad_norm": 0.0012109152739867568,
      "learning_rate": 7.406625558883912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60287432,
      "step": 103885
    },
    {
      "epoch": 15.473637176050044,
      "grad_norm": 3.991849007434212e-05,
      "learning_rate": 7.404317115142598e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60290504,
      "step": 103890
    },
    {
      "epoch": 15.474381888591004,
      "grad_norm": 1.5965824786690064e-05,
      "learning_rate": 7.402008968662455e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60293416,
      "step": 103895
    },
    {
      "epoch": 15.475126601131963,
      "grad_norm": 0.0004097980272490531,
      "learning_rate": 7.399701119482494e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60296360,
      "step": 103900
    },
    {
      "epoch": 15.475871313672922,
      "grad_norm": 0.0008185078040696681,
      "learning_rate": 7.397393567641694e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60299112,
      "step": 103905
    },
    {
      "epoch": 15.47661602621388,
      "grad_norm": 0.0002543109585531056,
      "learning_rate": 7.395086313179037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60301800,
      "step": 103910
    },
    {
      "epoch": 15.477360738754841,
      "grad_norm": 0.00024650857085362077,
      "learning_rate": 7.392779356133506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60304360,
      "step": 103915
    },
    {
      "epoch": 15.4781054512958,
      "grad_norm": 0.00030354634509421885,
      "learning_rate": 7.390472696544065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60307240,
      "step": 103920
    },
    {
      "epoch": 15.478850163836759,
      "grad_norm": 4.9752037739381194e-05,
      "learning_rate": 7.388166334449697e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60309960,
      "step": 103925
    },
    {
      "epoch": 15.479594876377718,
      "grad_norm": 0.00021228622063063085,
      "learning_rate": 7.3858602698893495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60312872,
      "step": 103930
    },
    {
      "epoch": 15.480339588918678,
      "grad_norm": 5.510892606253037e-06,
      "learning_rate": 7.383554502902001e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60315752,
      "step": 103935
    },
    {
      "epoch": 15.481084301459637,
      "grad_norm": 5.082886491436511e-05,
      "learning_rate": 7.381249033526585e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60318536,
      "step": 103940
    },
    {
      "epoch": 15.481829014000596,
      "grad_norm": 0.00020018572104163468,
      "learning_rate": 7.37894386180207e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 60321480,
      "step": 103945
    },
    {
      "epoch": 15.482573726541554,
      "grad_norm": 0.0005744356312789023,
      "learning_rate": 7.376638987767387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60324296,
      "step": 103950
    },
    {
      "epoch": 15.483318439082515,
      "grad_norm": 0.000250824581598863,
      "learning_rate": 7.37433441146147e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60327208,
      "step": 103955
    },
    {
      "epoch": 15.484063151623474,
      "grad_norm": 4.27010418206919e-05,
      "learning_rate": 7.372030132923266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60330024,
      "step": 103960
    },
    {
      "epoch": 15.484807864164432,
      "grad_norm": 0.00012097383296350017,
      "learning_rate": 7.369726152191692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60332744,
      "step": 103965
    },
    {
      "epoch": 15.485552576705391,
      "grad_norm": 0.0371273048222065,
      "learning_rate": 7.367422469305679e-06,
      "loss": 0.5534,
      "num_input_tokens_seen": 60335688,
      "step": 103970
    },
    {
      "epoch": 15.486297289246352,
      "grad_norm": 3.943040792364627e-05,
      "learning_rate": 7.365119084304145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60338856,
      "step": 103975
    },
    {
      "epoch": 15.48704200178731,
      "grad_norm": 0.0006056397105567157,
      "learning_rate": 7.362815997226e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60341768,
      "step": 103980
    },
    {
      "epoch": 15.48778671432827,
      "grad_norm": 0.0020782873034477234,
      "learning_rate": 7.360513208110148e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60344552,
      "step": 103985
    },
    {
      "epoch": 15.488531426869228,
      "grad_norm": 1.0713085430325009e-05,
      "learning_rate": 7.3582107169955005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60347304,
      "step": 103990
    },
    {
      "epoch": 15.489276139410187,
      "grad_norm": 0.00017606810433790088,
      "learning_rate": 7.355908523920957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60350024,
      "step": 103995
    },
    {
      "epoch": 15.490020851951147,
      "grad_norm": 0.027997605502605438,
      "learning_rate": 7.353606628925397e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60352776,
      "step": 104000
    },
    {
      "epoch": 15.490765564492106,
      "grad_norm": 1.1512513160705566,
      "learning_rate": 7.351305032047726e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 60355464,
      "step": 104005
    },
    {
      "epoch": 15.491510277033065,
      "grad_norm": 0.0011666064383462071,
      "learning_rate": 7.349003733326809e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60358376,
      "step": 104010
    },
    {
      "epoch": 15.492254989574024,
      "grad_norm": 0.009091556072235107,
      "learning_rate": 7.346702732801544e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60361416,
      "step": 104015
    },
    {
      "epoch": 15.492999702114984,
      "grad_norm": 0.0022584418766200542,
      "learning_rate": 7.344402030510786e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 60364392,
      "step": 104020
    },
    {
      "epoch": 15.493744414655943,
      "grad_norm": 0.0013672254281118512,
      "learning_rate": 7.34210162649342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60367272,
      "step": 104025
    },
    {
      "epoch": 15.494489127196902,
      "grad_norm": 6.007051342749037e-05,
      "learning_rate": 7.3398015207883006e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60369896,
      "step": 104030
    },
    {
      "epoch": 15.49523383973786,
      "grad_norm": 0.0003692051686812192,
      "learning_rate": 7.337501713434283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60372712,
      "step": 104035
    },
    {
      "epoch": 15.495978552278821,
      "grad_norm": 0.00028370978543534875,
      "learning_rate": 7.3352022044702266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60375720,
      "step": 104040
    },
    {
      "epoch": 15.49672326481978,
      "grad_norm": 0.0006707240245305002,
      "learning_rate": 7.332902993934965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60378504,
      "step": 104045
    },
    {
      "epoch": 15.497467977360738,
      "grad_norm": 1.6542491721338592e-05,
      "learning_rate": 7.33060408186736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60381256,
      "step": 104050
    },
    {
      "epoch": 15.498212689901697,
      "grad_norm": 3.1883355404715985e-05,
      "learning_rate": 7.328305468306229e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60383848,
      "step": 104055
    },
    {
      "epoch": 15.498957402442658,
      "grad_norm": 0.00032893777824938297,
      "learning_rate": 7.326007153290429e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60387048,
      "step": 104060
    },
    {
      "epoch": 15.499702114983616,
      "grad_norm": 0.061181407421827316,
      "learning_rate": 7.323709136858764e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60390056,
      "step": 104065
    },
    {
      "epoch": 15.500446827524575,
      "grad_norm": 0.0007856001611799002,
      "learning_rate": 7.321411419050078e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 60393192,
      "step": 104070
    },
    {
      "epoch": 15.501191540065534,
      "grad_norm": 0.0004133611510042101,
      "learning_rate": 7.319113999903176e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60395816,
      "step": 104075
    },
    {
      "epoch": 15.501936252606495,
      "grad_norm": 1.0294871572114062e-05,
      "learning_rate": 7.31681687945687e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60398600,
      "step": 104080
    },
    {
      "epoch": 15.502680965147453,
      "grad_norm": 0.000778468674980104,
      "learning_rate": 7.314520057749974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60401416,
      "step": 104085
    },
    {
      "epoch": 15.503425677688412,
      "grad_norm": 0.0007760770968161523,
      "learning_rate": 7.312223534821281e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60404232,
      "step": 104090
    },
    {
      "epoch": 15.50417039022937,
      "grad_norm": 0.002799452980980277,
      "learning_rate": 7.3099273107096e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60407144,
      "step": 104095
    },
    {
      "epoch": 15.504915102770331,
      "grad_norm": 0.00027946976479142904,
      "learning_rate": 7.307631385453717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60410024,
      "step": 104100
    },
    {
      "epoch": 15.50565981531129,
      "grad_norm": 0.011736694723367691,
      "learning_rate": 7.305335759092424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60412968,
      "step": 104105
    },
    {
      "epoch": 15.506404527852249,
      "grad_norm": 3.1760828278493136e-05,
      "learning_rate": 7.303040431664496e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60415656,
      "step": 104110
    },
    {
      "epoch": 15.507149240393208,
      "grad_norm": 5.303716898197308e-05,
      "learning_rate": 7.300745403208705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60418536,
      "step": 104115
    },
    {
      "epoch": 15.507893952934168,
      "grad_norm": 0.00025789340725168586,
      "learning_rate": 7.298450673763843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60421480,
      "step": 104120
    },
    {
      "epoch": 15.508638665475127,
      "grad_norm": 0.0001531927555333823,
      "learning_rate": 7.296156243368657e-06,
      "loss": 0.021,
      "num_input_tokens_seen": 60424424,
      "step": 104125
    },
    {
      "epoch": 15.509383378016086,
      "grad_norm": 0.010664083994925022,
      "learning_rate": 7.293862112061925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60427304,
      "step": 104130
    },
    {
      "epoch": 15.510128090557044,
      "grad_norm": 0.013516221195459366,
      "learning_rate": 7.291568279882388e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60430152,
      "step": 104135
    },
    {
      "epoch": 15.510872803098005,
      "grad_norm": 0.0002559054992161691,
      "learning_rate": 7.289274746868818e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60432904,
      "step": 104140
    },
    {
      "epoch": 15.511617515638964,
      "grad_norm": 0.005304289050400257,
      "learning_rate": 7.28698151305994e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60436040,
      "step": 104145
    },
    {
      "epoch": 15.512362228179922,
      "grad_norm": 0.0028966206591576338,
      "learning_rate": 7.284688578494514e-06,
      "loss": 0.1844,
      "num_input_tokens_seen": 60439080,
      "step": 104150
    },
    {
      "epoch": 15.513106940720881,
      "grad_norm": 0.00019239461107645184,
      "learning_rate": 7.2823959432112705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60441960,
      "step": 104155
    },
    {
      "epoch": 15.513851653261842,
      "grad_norm": 2.3373146177618764e-05,
      "learning_rate": 7.280103607248934e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60444808,
      "step": 104160
    },
    {
      "epoch": 15.5145963658028,
      "grad_norm": 0.000224590883590281,
      "learning_rate": 7.277811570646242e-06,
      "loss": 0.0621,
      "num_input_tokens_seen": 60447912,
      "step": 104165
    },
    {
      "epoch": 15.51534107834376,
      "grad_norm": 0.0016232990892603993,
      "learning_rate": 7.275519833441915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60450984,
      "step": 104170
    },
    {
      "epoch": 15.516085790884718,
      "grad_norm": 0.0012933401158079505,
      "learning_rate": 7.273228395674664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60453736,
      "step": 104175
    },
    {
      "epoch": 15.516830503425677,
      "grad_norm": 3.452857708907686e-05,
      "learning_rate": 7.270937257383195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60456584,
      "step": 104180
    },
    {
      "epoch": 15.517575215966637,
      "grad_norm": 3.9655078580835834e-05,
      "learning_rate": 7.268646418606229e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 60459304,
      "step": 104185
    },
    {
      "epoch": 15.518319928507596,
      "grad_norm": 0.00022731488570570946,
      "learning_rate": 7.266355879382461e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60462216,
      "step": 104190
    },
    {
      "epoch": 15.519064641048555,
      "grad_norm": 0.00013088926789350808,
      "learning_rate": 7.2640656397505805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60465032,
      "step": 104195
    },
    {
      "epoch": 15.519809353589514,
      "grad_norm": 0.00016779467114247382,
      "learning_rate": 7.26177569974929e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 60468168,
      "step": 104200
    },
    {
      "epoch": 15.520554066130474,
      "grad_norm": 0.0007578851073049009,
      "learning_rate": 7.259486059417265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60471112,
      "step": 104205
    },
    {
      "epoch": 15.521298778671433,
      "grad_norm": 0.00011898931552423164,
      "learning_rate": 7.2571967187932e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60474024,
      "step": 104210
    },
    {
      "epoch": 15.522043491212392,
      "grad_norm": 1.0650052900018636e-05,
      "learning_rate": 7.2549076779157565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60477064,
      "step": 104215
    },
    {
      "epoch": 15.52278820375335,
      "grad_norm": 0.0003285139100626111,
      "learning_rate": 7.252618936823618e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60480136,
      "step": 104220
    },
    {
      "epoch": 15.523532916294311,
      "grad_norm": 4.230975537211634e-05,
      "learning_rate": 7.250330495555438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60483176,
      "step": 104225
    },
    {
      "epoch": 15.52427762883527,
      "grad_norm": 0.0009110986138693988,
      "learning_rate": 7.248042354149892e-06,
      "loss": 0.0032,
      "num_input_tokens_seen": 60485800,
      "step": 104230
    },
    {
      "epoch": 15.525022341376228,
      "grad_norm": 0.018190830945968628,
      "learning_rate": 7.2457545126456275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60488712,
      "step": 104235
    },
    {
      "epoch": 15.525767053917187,
      "grad_norm": 0.00010800326708704233,
      "learning_rate": 7.243466971081297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60491400,
      "step": 104240
    },
    {
      "epoch": 15.526511766458148,
      "grad_norm": 8.107275061774999e-05,
      "learning_rate": 7.2411797294955455e-06,
      "loss": 0.0256,
      "num_input_tokens_seen": 60494568,
      "step": 104245
    },
    {
      "epoch": 15.527256478999107,
      "grad_norm": 0.00010543267853790894,
      "learning_rate": 7.238892787927004e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60497512,
      "step": 104250
    },
    {
      "epoch": 15.528001191540065,
      "grad_norm": 0.00039392890175804496,
      "learning_rate": 7.2366061464143265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60500360,
      "step": 104255
    },
    {
      "epoch": 15.528745904081024,
      "grad_norm": 0.0029524986166507006,
      "learning_rate": 7.234319804996126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60503336,
      "step": 104260
    },
    {
      "epoch": 15.529490616621985,
      "grad_norm": 0.00023803245858289301,
      "learning_rate": 7.232033763711044e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60506376,
      "step": 104265
    },
    {
      "epoch": 15.530235329162943,
      "grad_norm": 4.051075302413665e-05,
      "learning_rate": 7.229748022597693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60509000,
      "step": 104270
    },
    {
      "epoch": 15.530980041703902,
      "grad_norm": 0.008279356174170971,
      "learning_rate": 7.22746258169468e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60511912,
      "step": 104275
    },
    {
      "epoch": 15.53172475424486,
      "grad_norm": 4.504524986259639e-05,
      "learning_rate": 7.225177441040632e-06,
      "loss": 0.0231,
      "num_input_tokens_seen": 60514696,
      "step": 104280
    },
    {
      "epoch": 15.532469466785821,
      "grad_norm": 0.00015518214786425233,
      "learning_rate": 7.2228926006741385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60517768,
      "step": 104285
    },
    {
      "epoch": 15.53321417932678,
      "grad_norm": 2.2990379875409417e-05,
      "learning_rate": 7.220608060633813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60520936,
      "step": 104290
    },
    {
      "epoch": 15.533958891867739,
      "grad_norm": 0.0010566493729129434,
      "learning_rate": 7.218323820958237e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60523880,
      "step": 104295
    },
    {
      "epoch": 15.534703604408698,
      "grad_norm": 2.535228486522101e-05,
      "learning_rate": 7.2160398816860155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60527112,
      "step": 104300
    },
    {
      "epoch": 15.535448316949658,
      "grad_norm": 0.0009559329482726753,
      "learning_rate": 7.213756242855724e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60530248,
      "step": 104305
    },
    {
      "epoch": 15.536193029490617,
      "grad_norm": 1.5526136849075556e-05,
      "learning_rate": 7.211472904505945e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60533256,
      "step": 104310
    },
    {
      "epoch": 15.536937742031576,
      "grad_norm": 7.05176280462183e-05,
      "learning_rate": 7.20918986667525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60536136,
      "step": 104315
    },
    {
      "epoch": 15.537682454572534,
      "grad_norm": 0.0012274635955691338,
      "learning_rate": 7.206907129402205e-06,
      "loss": 0.002,
      "num_input_tokens_seen": 60538728,
      "step": 104320
    },
    {
      "epoch": 15.538427167113493,
      "grad_norm": 0.00041331545799039304,
      "learning_rate": 7.204624692725387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60541384,
      "step": 104325
    },
    {
      "epoch": 15.539171879654454,
      "grad_norm": 0.0009907062631100416,
      "learning_rate": 7.202342556683339e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60544008,
      "step": 104330
    },
    {
      "epoch": 15.539916592195413,
      "grad_norm": 0.0003754036733880639,
      "learning_rate": 7.200060721314636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60546984,
      "step": 104335
    },
    {
      "epoch": 15.540661304736371,
      "grad_norm": 6.820497219450772e-05,
      "learning_rate": 7.1977791866578045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60550024,
      "step": 104340
    },
    {
      "epoch": 15.541406017277332,
      "grad_norm": 8.440578676527366e-05,
      "learning_rate": 7.195497952751409e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60552904,
      "step": 104345
    },
    {
      "epoch": 15.54215072981829,
      "grad_norm": 0.007086730096489191,
      "learning_rate": 7.1932170196339745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60556136,
      "step": 104350
    },
    {
      "epoch": 15.54289544235925,
      "grad_norm": 0.002913392148911953,
      "learning_rate": 7.190936387344047e-06,
      "loss": 0.0401,
      "num_input_tokens_seen": 60558824,
      "step": 104355
    },
    {
      "epoch": 15.543640154900208,
      "grad_norm": 5.155085091246292e-05,
      "learning_rate": 7.188656055920149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60561736,
      "step": 104360
    },
    {
      "epoch": 15.544384867441167,
      "grad_norm": 0.0007673000218346715,
      "learning_rate": 7.186376025400804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60564904,
      "step": 104365
    },
    {
      "epoch": 15.545129579982127,
      "grad_norm": 0.014916174113750458,
      "learning_rate": 7.18409629582453e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60567368,
      "step": 104370
    },
    {
      "epoch": 15.545874292523086,
      "grad_norm": 0.0004009163239970803,
      "learning_rate": 7.181816867229835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60570216,
      "step": 104375
    },
    {
      "epoch": 15.546619005064045,
      "grad_norm": 0.020546933636069298,
      "learning_rate": 7.179537739655243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60573096,
      "step": 104380
    },
    {
      "epoch": 15.547363717605004,
      "grad_norm": 0.00011230948439333588,
      "learning_rate": 7.17725891313924e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 60576104,
      "step": 104385
    },
    {
      "epoch": 15.548108430145964,
      "grad_norm": 4.492240259423852e-05,
      "learning_rate": 7.17498038772034e-06,
      "loss": 0.0054,
      "num_input_tokens_seen": 60579112,
      "step": 104390
    },
    {
      "epoch": 15.548853142686923,
      "grad_norm": 9.73467031144537e-05,
      "learning_rate": 7.172702163437034e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 60581768,
      "step": 104395
    },
    {
      "epoch": 15.549597855227882,
      "grad_norm": 0.00036760218790732324,
      "learning_rate": 7.170424240327794e-06,
      "loss": 0.0655,
      "num_input_tokens_seen": 60584648,
      "step": 104400
    },
    {
      "epoch": 15.55034256776884,
      "grad_norm": 0.002973651047796011,
      "learning_rate": 7.168146618431127e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60587624,
      "step": 104405
    },
    {
      "epoch": 15.551087280309801,
      "grad_norm": 0.00013522262452170253,
      "learning_rate": 7.165869297785488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60590248,
      "step": 104410
    },
    {
      "epoch": 15.55183199285076,
      "grad_norm": 0.0007698909612372518,
      "learning_rate": 7.163592278429371e-06,
      "loss": 0.2752,
      "num_input_tokens_seen": 60593320,
      "step": 104415
    },
    {
      "epoch": 15.552576705391719,
      "grad_norm": 0.00123777415137738,
      "learning_rate": 7.161315560401224e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 60596328,
      "step": 104420
    },
    {
      "epoch": 15.553321417932677,
      "grad_norm": 0.001858800882473588,
      "learning_rate": 7.159039143739532e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60599240,
      "step": 104425
    },
    {
      "epoch": 15.554066130473638,
      "grad_norm": 3.349129110574722e-05,
      "learning_rate": 7.1567630284827384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60602216,
      "step": 104430
    },
    {
      "epoch": 15.554810843014597,
      "grad_norm": 6.413374649127945e-05,
      "learning_rate": 7.1544872146693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60604968,
      "step": 104435
    },
    {
      "epoch": 15.555555555555555,
      "grad_norm": 0.0004453550500329584,
      "learning_rate": 7.1522117023376606e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 60607688,
      "step": 104440
    },
    {
      "epoch": 15.556300268096514,
      "grad_norm": 0.000522417773026973,
      "learning_rate": 7.149936491526258e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60610856,
      "step": 104445
    },
    {
      "epoch": 15.557044980637475,
      "grad_norm": 0.004160210490226746,
      "learning_rate": 7.147661582273546e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60614056,
      "step": 104450
    },
    {
      "epoch": 15.557789693178433,
      "grad_norm": 0.000104475264379289,
      "learning_rate": 7.145386974617937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60617192,
      "step": 104455
    },
    {
      "epoch": 15.558534405719392,
      "grad_norm": 0.00010545559780439362,
      "learning_rate": 7.143112668597876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60620328,
      "step": 104460
    },
    {
      "epoch": 15.559279118260351,
      "grad_norm": 2.3970180336618796e-05,
      "learning_rate": 7.140838664251773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60622952,
      "step": 104465
    },
    {
      "epoch": 15.560023830801311,
      "grad_norm": 0.00012342726404312998,
      "learning_rate": 7.138564961618055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60626056,
      "step": 104470
    },
    {
      "epoch": 15.56076854334227,
      "grad_norm": 2.0517611119430512e-05,
      "learning_rate": 7.1362915607351285e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 60629032,
      "step": 104475
    },
    {
      "epoch": 15.561513255883229,
      "grad_norm": 3.634096356108785e-05,
      "learning_rate": 7.1340184616413926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60631752,
      "step": 104480
    },
    {
      "epoch": 15.562257968424188,
      "grad_norm": 0.00042746911640278995,
      "learning_rate": 7.131745664375264e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60634696,
      "step": 104485
    },
    {
      "epoch": 15.563002680965148,
      "grad_norm": 0.0001095186235033907,
      "learning_rate": 7.129473168975123e-06,
      "loss": 0.1501,
      "num_input_tokens_seen": 60637832,
      "step": 104490
    },
    {
      "epoch": 15.563747393506107,
      "grad_norm": 0.0006034335820004344,
      "learning_rate": 7.127200975479381e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60640776,
      "step": 104495
    },
    {
      "epoch": 15.564492106047066,
      "grad_norm": 0.00033086829353123903,
      "learning_rate": 7.12492908392641e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60643528,
      "step": 104500
    },
    {
      "epoch": 15.565236818588025,
      "grad_norm": 3.512811963446438e-05,
      "learning_rate": 7.122657494354596e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60646536,
      "step": 104505
    },
    {
      "epoch": 15.565981531128983,
      "grad_norm": 0.0002480028779245913,
      "learning_rate": 7.120386206802307e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60649672,
      "step": 104510
    },
    {
      "epoch": 15.566726243669944,
      "grad_norm": 0.0003634936874732375,
      "learning_rate": 7.1181152213079275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60652456,
      "step": 104515
    },
    {
      "epoch": 15.567470956210903,
      "grad_norm": 0.0006174609297886491,
      "learning_rate": 7.115844537909819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60655240,
      "step": 104520
    },
    {
      "epoch": 15.568215668751861,
      "grad_norm": 0.0003029474464710802,
      "learning_rate": 7.11357415664633e-06,
      "loss": 0.043,
      "num_input_tokens_seen": 60658152,
      "step": 104525
    },
    {
      "epoch": 15.568960381292822,
      "grad_norm": 0.0011089120525866747,
      "learning_rate": 7.111304077555836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60661160,
      "step": 104530
    },
    {
      "epoch": 15.56970509383378,
      "grad_norm": 7.433227438014e-05,
      "learning_rate": 7.1090343006766704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60664328,
      "step": 104535
    },
    {
      "epoch": 15.57044980637474,
      "grad_norm": 0.00029428035486489534,
      "learning_rate": 7.106764826047196e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60667112,
      "step": 104540
    },
    {
      "epoch": 15.571194518915698,
      "grad_norm": 0.0001799485762603581,
      "learning_rate": 7.104495653705734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60669864,
      "step": 104545
    },
    {
      "epoch": 15.571939231456657,
      "grad_norm": 0.00042925667366944253,
      "learning_rate": 7.102226783690638e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60672424,
      "step": 104550
    },
    {
      "epoch": 15.572683943997617,
      "grad_norm": 0.0011000398080796003,
      "learning_rate": 7.099958216040231e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60675304,
      "step": 104555
    },
    {
      "epoch": 15.573428656538576,
      "grad_norm": 9.695837798062712e-05,
      "learning_rate": 7.09768995079283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60678376,
      "step": 104560
    },
    {
      "epoch": 15.574173369079535,
      "grad_norm": 1.269934892654419,
      "learning_rate": 7.095421987986766e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60681160,
      "step": 104565
    },
    {
      "epoch": 15.574918081620494,
      "grad_norm": 0.0014274234417825937,
      "learning_rate": 7.093154327660354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60684008,
      "step": 104570
    },
    {
      "epoch": 15.575662794161454,
      "grad_norm": 0.0009588930988684297,
      "learning_rate": 7.090886969851898e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60686792,
      "step": 104575
    },
    {
      "epoch": 15.576407506702413,
      "grad_norm": 0.00028744677547365427,
      "learning_rate": 7.088619914599698e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60689704,
      "step": 104580
    },
    {
      "epoch": 15.577152219243372,
      "grad_norm": 0.0005798577913083136,
      "learning_rate": 7.086353161942066e-06,
      "loss": 0.3969,
      "num_input_tokens_seen": 60692584,
      "step": 104585
    },
    {
      "epoch": 15.57789693178433,
      "grad_norm": 0.0004755289410240948,
      "learning_rate": 7.084086711917287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60695592,
      "step": 104590
    },
    {
      "epoch": 15.578641644325291,
      "grad_norm": 5.794852404505946e-05,
      "learning_rate": 7.081820564563657e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60698312,
      "step": 104595
    },
    {
      "epoch": 15.57938635686625,
      "grad_norm": 0.0007262542494572699,
      "learning_rate": 7.0795547199194624e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60701416,
      "step": 104600
    },
    {
      "epoch": 15.580131069407209,
      "grad_norm": 0.001593482680618763,
      "learning_rate": 7.077289178022967e-06,
      "loss": 0.0046,
      "num_input_tokens_seen": 60704040,
      "step": 104605
    },
    {
      "epoch": 15.580875781948167,
      "grad_norm": 0.0029241356533020735,
      "learning_rate": 7.075023938912461e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60707080,
      "step": 104610
    },
    {
      "epoch": 15.581620494489128,
      "grad_norm": 1.908094964164775e-05,
      "learning_rate": 7.0727590026262e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 60709832,
      "step": 104615
    },
    {
      "epoch": 15.582365207030087,
      "grad_norm": 0.0040018148720264435,
      "learning_rate": 7.070494369202465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60712648,
      "step": 104620
    },
    {
      "epoch": 15.583109919571045,
      "grad_norm": 2.8425920390873216e-05,
      "learning_rate": 7.068230038679496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60715464,
      "step": 104625
    },
    {
      "epoch": 15.583854632112004,
      "grad_norm": 0.0020196670666337013,
      "learning_rate": 7.065966011095565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60718248,
      "step": 104630
    },
    {
      "epoch": 15.584599344652965,
      "grad_norm": 8.400786464335397e-05,
      "learning_rate": 7.06370228648891e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60720968,
      "step": 104635
    },
    {
      "epoch": 15.585344057193923,
      "grad_norm": 0.00023298407904803753,
      "learning_rate": 7.061438864897774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60723752,
      "step": 104640
    },
    {
      "epoch": 15.586088769734882,
      "grad_norm": 6.759063398931175e-05,
      "learning_rate": 7.059175746360397e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60726728,
      "step": 104645
    },
    {
      "epoch": 15.586833482275841,
      "grad_norm": 9.93714202195406e-05,
      "learning_rate": 7.056912930915005e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 60729544,
      "step": 104650
    },
    {
      "epoch": 15.587578194816802,
      "grad_norm": 5.225980930845253e-05,
      "learning_rate": 7.054650418599837e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60732328,
      "step": 104655
    },
    {
      "epoch": 15.58832290735776,
      "grad_norm": 0.0004297997511457652,
      "learning_rate": 7.052388209453106e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 60735208,
      "step": 104660
    },
    {
      "epoch": 15.589067619898719,
      "grad_norm": 0.0002554530801717192,
      "learning_rate": 7.0501263035130435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60738024,
      "step": 104665
    },
    {
      "epoch": 15.589812332439678,
      "grad_norm": 1.559170959808398e-05,
      "learning_rate": 7.0478647008178435e-06,
      "loss": 0.0589,
      "num_input_tokens_seen": 60740776,
      "step": 104670
    },
    {
      "epoch": 15.590557044980638,
      "grad_norm": 1.531290399725549e-05,
      "learning_rate": 7.045603401405735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60743880,
      "step": 104675
    },
    {
      "epoch": 15.591301757521597,
      "grad_norm": 0.0013191127218306065,
      "learning_rate": 7.043342405314907e-06,
      "loss": 0.2188,
      "num_input_tokens_seen": 60746728,
      "step": 104680
    },
    {
      "epoch": 15.592046470062556,
      "grad_norm": 0.001791259623132646,
      "learning_rate": 7.04108171258355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60749704,
      "step": 104685
    },
    {
      "epoch": 15.592791182603515,
      "grad_norm": 0.00011715666914824396,
      "learning_rate": 7.038821323249875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60752520,
      "step": 104690
    },
    {
      "epoch": 15.593535895144473,
      "grad_norm": 0.001386984484270215,
      "learning_rate": 7.036561237352057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60755304,
      "step": 104695
    },
    {
      "epoch": 15.594280607685434,
      "grad_norm": 0.00010563316027401015,
      "learning_rate": 7.03430145492828e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60758088,
      "step": 104700
    },
    {
      "epoch": 15.595025320226393,
      "grad_norm": 0.0009545150678604841,
      "learning_rate": 7.032041976016712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60760872,
      "step": 104705
    },
    {
      "epoch": 15.595770032767351,
      "grad_norm": 0.0001457122270949185,
      "learning_rate": 7.02978280065554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60763560,
      "step": 104710
    },
    {
      "epoch": 15.59651474530831,
      "grad_norm": 0.010352465324103832,
      "learning_rate": 7.027523928882926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60766376,
      "step": 104715
    },
    {
      "epoch": 15.59725945784927,
      "grad_norm": 6.530527025461197e-05,
      "learning_rate": 7.025265360737021e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60769128,
      "step": 104720
    },
    {
      "epoch": 15.59800417039023,
      "grad_norm": 9.488882642472163e-05,
      "learning_rate": 7.023007096255996e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60772072,
      "step": 104725
    },
    {
      "epoch": 15.598748882931188,
      "grad_norm": 0.004078228492289782,
      "learning_rate": 7.020749135477986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60774984,
      "step": 104730
    },
    {
      "epoch": 15.599493595472147,
      "grad_norm": 0.0009306021383963525,
      "learning_rate": 7.0184914784411555e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60777864,
      "step": 104735
    },
    {
      "epoch": 15.600238308013108,
      "grad_norm": 0.002715927781537175,
      "learning_rate": 7.0162341251836264e-06,
      "loss": 0.0156,
      "num_input_tokens_seen": 60781064,
      "step": 104740
    },
    {
      "epoch": 15.600983020554066,
      "grad_norm": 2.018987106566783e-05,
      "learning_rate": 7.013977075743553e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60783624,
      "step": 104745
    },
    {
      "epoch": 15.601727733095025,
      "grad_norm": 14.408561706542969,
      "learning_rate": 7.01172033015905e-06,
      "loss": 0.1751,
      "num_input_tokens_seen": 60786280,
      "step": 104750
    },
    {
      "epoch": 15.602472445635984,
      "grad_norm": 0.0002520553534850478,
      "learning_rate": 7.009463888468254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60789192,
      "step": 104755
    },
    {
      "epoch": 15.603217158176944,
      "grad_norm": 0.033749986439943314,
      "learning_rate": 7.0072077507092825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60792104,
      "step": 104760
    },
    {
      "epoch": 15.603961870717903,
      "grad_norm": 0.005876271519809961,
      "learning_rate": 7.004951916920249e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60795336,
      "step": 104765
    },
    {
      "epoch": 15.604706583258862,
      "grad_norm": 0.0004127626889385283,
      "learning_rate": 7.002696387139265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60798088,
      "step": 104770
    },
    {
      "epoch": 15.60545129579982,
      "grad_norm": 0.0008504312136210501,
      "learning_rate": 7.000441161404425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60800680,
      "step": 104775
    },
    {
      "epoch": 15.606196008340781,
      "grad_norm": 0.003090333193540573,
      "learning_rate": 6.998186239753846e-06,
      "loss": 0.0691,
      "num_input_tokens_seen": 60803528,
      "step": 104780
    },
    {
      "epoch": 15.60694072088174,
      "grad_norm": 6.775760266464204e-05,
      "learning_rate": 6.995931622225605e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60806536,
      "step": 104785
    },
    {
      "epoch": 15.607685433422699,
      "grad_norm": 2.582324504852295,
      "learning_rate": 6.99367730885781e-06,
      "loss": 0.0392,
      "num_input_tokens_seen": 60809448,
      "step": 104790
    },
    {
      "epoch": 15.608430145963657,
      "grad_norm": 0.0003777360252570361,
      "learning_rate": 6.991423299688535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60812264,
      "step": 104795
    },
    {
      "epoch": 15.609174858504618,
      "grad_norm": 0.001739738741889596,
      "learning_rate": 6.989169594755854e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60815016,
      "step": 104800
    },
    {
      "epoch": 15.609919571045577,
      "grad_norm": 0.03703568875789642,
      "learning_rate": 6.9869161940978535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60818120,
      "step": 104805
    },
    {
      "epoch": 15.610664283586535,
      "grad_norm": 0.00042728069820441306,
      "learning_rate": 6.984663097752589e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60820744,
      "step": 104810
    },
    {
      "epoch": 15.611408996127494,
      "grad_norm": 0.00011664968769764528,
      "learning_rate": 6.982410305758138e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60823816,
      "step": 104815
    },
    {
      "epoch": 15.612153708668455,
      "grad_norm": 3.154335900035221e-06,
      "learning_rate": 6.980157818152547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60826632,
      "step": 104820
    },
    {
      "epoch": 15.612898421209414,
      "grad_norm": 0.0001028625265462324,
      "learning_rate": 6.97790563497388e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60829416,
      "step": 104825
    },
    {
      "epoch": 15.613643133750372,
      "grad_norm": 0.0037089702673256397,
      "learning_rate": 6.9756537562601835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60832264,
      "step": 104830
    },
    {
      "epoch": 15.614387846291331,
      "grad_norm": 0.00038753621629439294,
      "learning_rate": 6.973402182049496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60835176,
      "step": 104835
    },
    {
      "epoch": 15.615132558832292,
      "grad_norm": 0.0002287919633090496,
      "learning_rate": 6.971150912379859e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60838184,
      "step": 104840
    },
    {
      "epoch": 15.61587727137325,
      "grad_norm": 6.970468530198559e-05,
      "learning_rate": 6.968899947289295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60841288,
      "step": 104845
    },
    {
      "epoch": 15.616621983914209,
      "grad_norm": 5.8416267165739555e-06,
      "learning_rate": 6.966649286815846e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60844008,
      "step": 104850
    },
    {
      "epoch": 15.617366696455168,
      "grad_norm": 0.0007575190393254161,
      "learning_rate": 6.9643989309975235e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 60846984,
      "step": 104855
    },
    {
      "epoch": 15.618111408996128,
      "grad_norm": 0.002253494691103697,
      "learning_rate": 6.962148879872357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60849992,
      "step": 104860
    },
    {
      "epoch": 15.618856121537087,
      "grad_norm": 0.0016541030490770936,
      "learning_rate": 6.9598991334783485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60852840,
      "step": 104865
    },
    {
      "epoch": 15.619600834078046,
      "grad_norm": 0.00026581878773868084,
      "learning_rate": 6.957649691853513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60855656,
      "step": 104870
    },
    {
      "epoch": 15.620345546619005,
      "grad_norm": 0.00654187984764576,
      "learning_rate": 6.955400555035849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60858408,
      "step": 104875
    },
    {
      "epoch": 15.621090259159963,
      "grad_norm": 0.00021576651488430798,
      "learning_rate": 6.953151723063345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60861192,
      "step": 104880
    },
    {
      "epoch": 15.621834971700924,
      "grad_norm": 109.41077423095703,
      "learning_rate": 6.95090319597401e-06,
      "loss": 0.1939,
      "num_input_tokens_seen": 60864136,
      "step": 104885
    },
    {
      "epoch": 15.622579684241883,
      "grad_norm": 0.02797129563987255,
      "learning_rate": 6.94865497380581e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 60866920,
      "step": 104890
    },
    {
      "epoch": 15.623324396782841,
      "grad_norm": 5.238955418462865e-05,
      "learning_rate": 6.9464070565967486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60870184,
      "step": 104895
    },
    {
      "epoch": 15.6240691093238,
      "grad_norm": 0.0012114789569750428,
      "learning_rate": 6.94415944438479e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 60873096,
      "step": 104900
    },
    {
      "epoch": 15.62481382186476,
      "grad_norm": 3.1864579796092585e-05,
      "learning_rate": 6.941912137207907e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60875848,
      "step": 104905
    },
    {
      "epoch": 15.62555853440572,
      "grad_norm": 0.003430125303566456,
      "learning_rate": 6.939665135104056e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60878440,
      "step": 104910
    },
    {
      "epoch": 15.626303246946678,
      "grad_norm": 0.010090703144669533,
      "learning_rate": 6.9374184381112155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60881064,
      "step": 104915
    },
    {
      "epoch": 15.627047959487637,
      "grad_norm": 0.0001684273884166032,
      "learning_rate": 6.935172046267333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60884168,
      "step": 104920
    },
    {
      "epoch": 15.627792672028598,
      "grad_norm": 0.00039861907134763896,
      "learning_rate": 6.932925959610351e-06,
      "loss": 0.0026,
      "num_input_tokens_seen": 60887016,
      "step": 104925
    },
    {
      "epoch": 15.628537384569556,
      "grad_norm": 0.0011326319072395563,
      "learning_rate": 6.930680178178228e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60889800,
      "step": 104930
    },
    {
      "epoch": 15.629282097110515,
      "grad_norm": 1.0579476111161057e-05,
      "learning_rate": 6.928434702008893e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60892712,
      "step": 104935
    },
    {
      "epoch": 15.630026809651474,
      "grad_norm": 0.00031586262048222125,
      "learning_rate": 6.9261895311402925e-06,
      "loss": 0.0047,
      "num_input_tokens_seen": 60895624,
      "step": 104940
    },
    {
      "epoch": 15.630771522192434,
      "grad_norm": 0.00011096970411017537,
      "learning_rate": 6.923944665610344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60898728,
      "step": 104945
    },
    {
      "epoch": 15.631516234733393,
      "grad_norm": 0.00025401715538464487,
      "learning_rate": 6.921700105456985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60901576,
      "step": 104950
    },
    {
      "epoch": 15.632260947274352,
      "grad_norm": 0.004506536293774843,
      "learning_rate": 6.919455850718123e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60904424,
      "step": 104955
    },
    {
      "epoch": 15.63300565981531,
      "grad_norm": 5.5806947784731165e-05,
      "learning_rate": 6.917211901431683e-06,
      "loss": 0.0127,
      "num_input_tokens_seen": 60907624,
      "step": 104960
    },
    {
      "epoch": 15.633750372356271,
      "grad_norm": 0.0002309506671736017,
      "learning_rate": 6.914968257635573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60910312,
      "step": 104965
    },
    {
      "epoch": 15.63449508489723,
      "grad_norm": 0.0009840534767135978,
      "learning_rate": 6.912724919367691e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60913256,
      "step": 104970
    },
    {
      "epoch": 15.635239797438189,
      "grad_norm": 0.00024220319755841047,
      "learning_rate": 6.91048188666594e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60916296,
      "step": 104975
    },
    {
      "epoch": 15.635984509979147,
      "grad_norm": 0.0008263010531663895,
      "learning_rate": 6.908239159568203e-06,
      "loss": 0.048,
      "num_input_tokens_seen": 60919304,
      "step": 104980
    },
    {
      "epoch": 15.636729222520108,
      "grad_norm": 0.0022716994863003492,
      "learning_rate": 6.9059967381123854e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60922024,
      "step": 104985
    },
    {
      "epoch": 15.637473935061067,
      "grad_norm": 0.0006169664557091892,
      "learning_rate": 6.903754622336358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60924968,
      "step": 104990
    },
    {
      "epoch": 15.638218647602026,
      "grad_norm": 0.0010658688843250275,
      "learning_rate": 6.90151281227801e-06,
      "loss": 0.0051,
      "num_input_tokens_seen": 60927880,
      "step": 104995
    },
    {
      "epoch": 15.638963360142984,
      "grad_norm": 0.00041511503513902426,
      "learning_rate": 6.899271307975208e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60930888,
      "step": 105000
    },
    {
      "epoch": 15.639708072683945,
      "grad_norm": 8.632384378870483e-06,
      "learning_rate": 6.897030109465813e-06,
      "loss": 0.002,
      "num_input_tokens_seen": 60933928,
      "step": 105005
    },
    {
      "epoch": 15.640452785224904,
      "grad_norm": 0.0025081373751163483,
      "learning_rate": 6.894789216787703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60936808,
      "step": 105010
    },
    {
      "epoch": 15.641197497765862,
      "grad_norm": 3.5862794902641326e-05,
      "learning_rate": 6.892548629978721e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60939592,
      "step": 105015
    },
    {
      "epoch": 15.641942210306821,
      "grad_norm": 0.0003362102434039116,
      "learning_rate": 6.890308349076732e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 60942408,
      "step": 105020
    },
    {
      "epoch": 15.64268692284778,
      "grad_norm": 4.0556813473813236e-05,
      "learning_rate": 6.88806837411958e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60945288,
      "step": 105025
    },
    {
      "epoch": 15.64343163538874,
      "grad_norm": 0.032680485397577286,
      "learning_rate": 6.885828705145103e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60948072,
      "step": 105030
    },
    {
      "epoch": 15.6441763479297,
      "grad_norm": 9.278747893404216e-05,
      "learning_rate": 6.883589342191132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60950856,
      "step": 105035
    },
    {
      "epoch": 15.644921060470658,
      "grad_norm": 2.8342032237560488e-05,
      "learning_rate": 6.881350285295515e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60953640,
      "step": 105040
    },
    {
      "epoch": 15.645665773011618,
      "grad_norm": 0.0001568596053402871,
      "learning_rate": 6.879111534496069e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60956424,
      "step": 105045
    },
    {
      "epoch": 15.646410485552577,
      "grad_norm": 0.00040200515650212765,
      "learning_rate": 6.87687308983061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60959304,
      "step": 105050
    },
    {
      "epoch": 15.647155198093536,
      "grad_norm": 0.0003975332947447896,
      "learning_rate": 6.874634951336967e-06,
      "loss": 0.0204,
      "num_input_tokens_seen": 60962056,
      "step": 105055
    },
    {
      "epoch": 15.647899910634495,
      "grad_norm": 0.0031588145066052675,
      "learning_rate": 6.872397119052937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60965224,
      "step": 105060
    },
    {
      "epoch": 15.648644623175453,
      "grad_norm": 0.003302075434476137,
      "learning_rate": 6.870159593016343e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60968616,
      "step": 105065
    },
    {
      "epoch": 15.649389335716414,
      "grad_norm": 2.7070662326877937e-05,
      "learning_rate": 6.867922373264968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60971784,
      "step": 105070
    },
    {
      "epoch": 15.650134048257373,
      "grad_norm": 0.001329423626884818,
      "learning_rate": 6.865685459836621e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60974600,
      "step": 105075
    },
    {
      "epoch": 15.650878760798332,
      "grad_norm": 7.227880269056186e-05,
      "learning_rate": 6.8634488527690915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60977160,
      "step": 105080
    },
    {
      "epoch": 15.65162347333929,
      "grad_norm": 0.0006092523108236492,
      "learning_rate": 6.861212552100149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60980008,
      "step": 105085
    },
    {
      "epoch": 15.65236818588025,
      "grad_norm": 0.0009741803514771163,
      "learning_rate": 6.858976557867594e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60982728,
      "step": 105090
    },
    {
      "epoch": 15.65311289842121,
      "grad_norm": 2.6389616323285736e-05,
      "learning_rate": 6.856740870109194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60986056,
      "step": 105095
    },
    {
      "epoch": 15.653857610962168,
      "grad_norm": 0.00011567673209356144,
      "learning_rate": 6.854505488862714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60989096,
      "step": 105100
    },
    {
      "epoch": 15.654602323503127,
      "grad_norm": 0.027232108637690544,
      "learning_rate": 6.852270414165915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60991688,
      "step": 105105
    },
    {
      "epoch": 15.655347036044088,
      "grad_norm": 5.711211997549981e-05,
      "learning_rate": 6.850035646056571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60994760,
      "step": 105110
    },
    {
      "epoch": 15.656091748585046,
      "grad_norm": 6.200071948114783e-05,
      "learning_rate": 6.847801184572422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 60997576,
      "step": 105115
    },
    {
      "epoch": 15.656836461126005,
      "grad_norm": 3.424538590479642e-05,
      "learning_rate": 6.845567029751229e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61000392,
      "step": 105120
    },
    {
      "epoch": 15.657581173666964,
      "grad_norm": 0.23879972100257874,
      "learning_rate": 6.843333181630729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61003272,
      "step": 105125
    },
    {
      "epoch": 15.658325886207924,
      "grad_norm": 0.23786383867263794,
      "learning_rate": 6.841099640248655e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61006248,
      "step": 105130
    },
    {
      "epoch": 15.659070598748883,
      "grad_norm": 0.0007596966461278498,
      "learning_rate": 6.838866405642752e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61009096,
      "step": 105135
    },
    {
      "epoch": 15.659815311289842,
      "grad_norm": 1.6212572518270463e-05,
      "learning_rate": 6.836633477850737e-06,
      "loss": 0.0039,
      "num_input_tokens_seen": 61012072,
      "step": 105140
    },
    {
      "epoch": 15.6605600238308,
      "grad_norm": 0.0077698989771306515,
      "learning_rate": 6.834400856910348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61014600,
      "step": 105145
    },
    {
      "epoch": 15.661304736371761,
      "grad_norm": 0.00022241404803935438,
      "learning_rate": 6.832168542859283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61017640,
      "step": 105150
    },
    {
      "epoch": 15.66204944891272,
      "grad_norm": 0.0003641490766312927,
      "learning_rate": 6.829936535735273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61020328,
      "step": 105155
    },
    {
      "epoch": 15.662794161453679,
      "grad_norm": 0.0005120549467392266,
      "learning_rate": 6.827704835576021e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61022888,
      "step": 105160
    },
    {
      "epoch": 15.663538873994638,
      "grad_norm": 0.00018094533879775554,
      "learning_rate": 6.8254734424192255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61025672,
      "step": 105165
    },
    {
      "epoch": 15.664283586535598,
      "grad_norm": 9.807734386413358e-06,
      "learning_rate": 6.823242356302584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61028392,
      "step": 105170
    },
    {
      "epoch": 15.665028299076557,
      "grad_norm": 0.00010895083687501028,
      "learning_rate": 6.821011577263781e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61031272,
      "step": 105175
    },
    {
      "epoch": 15.665773011617516,
      "grad_norm": 8.271168917417526e-05,
      "learning_rate": 6.8187811053405185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61034344,
      "step": 105180
    },
    {
      "epoch": 15.666517724158474,
      "grad_norm": 5.06823998875916e-05,
      "learning_rate": 6.816550940570463e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61037000,
      "step": 105185
    },
    {
      "epoch": 15.667262436699435,
      "grad_norm": 0.00013877938908990473,
      "learning_rate": 6.8143210829913065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61040552,
      "step": 105190
    },
    {
      "epoch": 15.668007149240394,
      "grad_norm": 0.0006526868091896176,
      "learning_rate": 6.812091532640705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61043464,
      "step": 105195
    },
    {
      "epoch": 15.668751861781352,
      "grad_norm": 0.0007451510755345225,
      "learning_rate": 6.80986228955634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61046440,
      "step": 105200
    },
    {
      "epoch": 15.669496574322311,
      "grad_norm": 3.798754187300801e-05,
      "learning_rate": 6.807633353775861e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61049320,
      "step": 105205
    },
    {
      "epoch": 15.67024128686327,
      "grad_norm": 0.001476935693062842,
      "learning_rate": 6.805404725336923e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61052456,
      "step": 105210
    },
    {
      "epoch": 15.67098599940423,
      "grad_norm": 2.590194344520569e-05,
      "learning_rate": 6.803176404277184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61055464,
      "step": 105215
    },
    {
      "epoch": 15.67173071194519,
      "grad_norm": 8.197494025807828e-06,
      "learning_rate": 6.800948390634279e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61058312,
      "step": 105220
    },
    {
      "epoch": 15.672475424486148,
      "grad_norm": 0.0018094211118295789,
      "learning_rate": 6.798720684445861e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61060904,
      "step": 105225
    },
    {
      "epoch": 15.673220137027108,
      "grad_norm": 0.000620427425019443,
      "learning_rate": 6.796493285749561e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61063464,
      "step": 105230
    },
    {
      "epoch": 15.673964849568067,
      "grad_norm": 0.00013724710152018815,
      "learning_rate": 6.794266194583005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61066280,
      "step": 105235
    },
    {
      "epoch": 15.674709562109026,
      "grad_norm": 0.0013295348035171628,
      "learning_rate": 6.792039410983817e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61069064,
      "step": 105240
    },
    {
      "epoch": 15.675454274649985,
      "grad_norm": 0.00040829507634043694,
      "learning_rate": 6.789812934989609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61071880,
      "step": 105245
    },
    {
      "epoch": 15.676198987190944,
      "grad_norm": 0.02187443897128105,
      "learning_rate": 6.78758676663801e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61074696,
      "step": 105250
    },
    {
      "epoch": 15.676943699731904,
      "grad_norm": 0.00019772595260292292,
      "learning_rate": 6.785360905966617e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61077608,
      "step": 105255
    },
    {
      "epoch": 15.677688412272863,
      "grad_norm": 0.0008051383774727583,
      "learning_rate": 6.783135353013045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61080456,
      "step": 105260
    },
    {
      "epoch": 15.678433124813822,
      "grad_norm": 0.00010904235386988148,
      "learning_rate": 6.7809101078148805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61083432,
      "step": 105265
    },
    {
      "epoch": 15.67917783735478,
      "grad_norm": 0.00011137391993543133,
      "learning_rate": 6.7786851704097295e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 61086376,
      "step": 105270
    },
    {
      "epoch": 15.67992254989574,
      "grad_norm": 3.377094617462717e-05,
      "learning_rate": 6.776460540835167e-06,
      "loss": 0.0541,
      "num_input_tokens_seen": 61089416,
      "step": 105275
    },
    {
      "epoch": 15.6806672624367,
      "grad_norm": 0.0011820471845567226,
      "learning_rate": 6.774236219128788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61092488,
      "step": 105280
    },
    {
      "epoch": 15.681411974977658,
      "grad_norm": 0.0001230197085533291,
      "learning_rate": 6.772012205328166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61095400,
      "step": 105285
    },
    {
      "epoch": 15.682156687518617,
      "grad_norm": 0.000123185251140967,
      "learning_rate": 6.769788499470861e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61098472,
      "step": 105290
    },
    {
      "epoch": 15.682901400059578,
      "grad_norm": 0.002313758246600628,
      "learning_rate": 6.767565101594461e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61101288,
      "step": 105295
    },
    {
      "epoch": 15.683646112600536,
      "grad_norm": 0.0005393928149715066,
      "learning_rate": 6.765342011736517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61104456,
      "step": 105300
    },
    {
      "epoch": 15.684390825141495,
      "grad_norm": 6.420955469366163e-05,
      "learning_rate": 6.763119229934589e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61107208,
      "step": 105305
    },
    {
      "epoch": 15.685135537682454,
      "grad_norm": 0.00010350282536819577,
      "learning_rate": 6.760896756226215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61110344,
      "step": 105310
    },
    {
      "epoch": 15.685880250223414,
      "grad_norm": 4.966818232787773e-05,
      "learning_rate": 6.758674590648964e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61113096,
      "step": 105315
    },
    {
      "epoch": 15.686624962764373,
      "grad_norm": 3.6924462619936094e-05,
      "learning_rate": 6.756452733240365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61116104,
      "step": 105320
    },
    {
      "epoch": 15.687369675305332,
      "grad_norm": 0.00021346076391637325,
      "learning_rate": 6.7542311840379455e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61118984,
      "step": 105325
    },
    {
      "epoch": 15.68811438784629,
      "grad_norm": 3.712371471920051e-05,
      "learning_rate": 6.752009943079257e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61121768,
      "step": 105330
    },
    {
      "epoch": 15.688859100387251,
      "grad_norm": 1.0265744094795082e-05,
      "learning_rate": 6.749789010401805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61124808,
      "step": 105335
    },
    {
      "epoch": 15.68960381292821,
      "grad_norm": 3.66139538527932e-05,
      "learning_rate": 6.7475683860431266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61127688,
      "step": 105340
    },
    {
      "epoch": 15.690348525469169,
      "grad_norm": 0.0001214252260979265,
      "learning_rate": 6.745348070040722e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61130536,
      "step": 105345
    },
    {
      "epoch": 15.691093238010128,
      "grad_norm": 9.799138751986902e-06,
      "learning_rate": 6.743128062432113e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61133224,
      "step": 105350
    },
    {
      "epoch": 15.691837950551088,
      "grad_norm": 0.02046431228518486,
      "learning_rate": 6.740908363254805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61136584,
      "step": 105355
    },
    {
      "epoch": 15.692582663092047,
      "grad_norm": 0.00015857306425459683,
      "learning_rate": 6.7386889725462894e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61139432,
      "step": 105360
    },
    {
      "epoch": 15.693327375633006,
      "grad_norm": 7.101501250872388e-05,
      "learning_rate": 6.736469890344058e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61142248,
      "step": 105365
    },
    {
      "epoch": 15.694072088173964,
      "grad_norm": 2.945267806353513e-05,
      "learning_rate": 6.734251116685611e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61145224,
      "step": 105370
    },
    {
      "epoch": 15.694816800714925,
      "grad_norm": 0.2939603328704834,
      "learning_rate": 6.732032651608427e-06,
      "loss": 0.0265,
      "num_input_tokens_seen": 61148200,
      "step": 105375
    },
    {
      "epoch": 15.695561513255884,
      "grad_norm": 3.1520644370175432e-06,
      "learning_rate": 6.7298144951499774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61151144,
      "step": 105380
    },
    {
      "epoch": 15.696306225796842,
      "grad_norm": 3.8830283301649615e-05,
      "learning_rate": 6.727596647347753e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61154216,
      "step": 105385
    },
    {
      "epoch": 15.697050938337801,
      "grad_norm": 0.0003081879112869501,
      "learning_rate": 6.725379108239202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61157192,
      "step": 105390
    },
    {
      "epoch": 15.69779565087876,
      "grad_norm": 0.029172273352742195,
      "learning_rate": 6.723161877861805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61159976,
      "step": 105395
    },
    {
      "epoch": 15.69854036341972,
      "grad_norm": 0.00022837430879008025,
      "learning_rate": 6.720944956253012e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61162792,
      "step": 105400
    },
    {
      "epoch": 15.69928507596068,
      "grad_norm": 6.883438345539616e-06,
      "learning_rate": 6.71872834345027e-06,
      "loss": 0.25,
      "num_input_tokens_seen": 61165928,
      "step": 105405
    },
    {
      "epoch": 15.700029788501638,
      "grad_norm": 0.000497749075293541,
      "learning_rate": 6.716512039491038e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61168744,
      "step": 105410
    },
    {
      "epoch": 15.700774501042597,
      "grad_norm": 1.7601243598619476e-05,
      "learning_rate": 6.714296044412746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61171976,
      "step": 105415
    },
    {
      "epoch": 15.701519213583557,
      "grad_norm": 0.00018625392112880945,
      "learning_rate": 6.712080358252845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61174856,
      "step": 105420
    },
    {
      "epoch": 15.702263926124516,
      "grad_norm": 8.871735572814941,
      "learning_rate": 6.709864981048761e-06,
      "loss": 0.1346,
      "num_input_tokens_seen": 61177800,
      "step": 105425
    },
    {
      "epoch": 15.703008638665475,
      "grad_norm": 0.000169118182384409,
      "learning_rate": 6.707649912837919e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61181480,
      "step": 105430
    },
    {
      "epoch": 15.703753351206434,
      "grad_norm": 0.0014500342076644301,
      "learning_rate": 6.70543515365773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61184296,
      "step": 105435
    },
    {
      "epoch": 15.704498063747394,
      "grad_norm": 0.00016699302068445832,
      "learning_rate": 6.703220703545629e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61187112,
      "step": 105440
    },
    {
      "epoch": 15.705242776288353,
      "grad_norm": 0.001482029096223414,
      "learning_rate": 6.701006562539019e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61190536,
      "step": 105445
    },
    {
      "epoch": 15.705987488829312,
      "grad_norm": 0.0006207975093275309,
      "learning_rate": 6.698792730675296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61193288,
      "step": 105450
    },
    {
      "epoch": 15.70673220137027,
      "grad_norm": 1.3391096217674203e-05,
      "learning_rate": 6.6965792079918765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61195848,
      "step": 105455
    },
    {
      "epoch": 15.707476913911231,
      "grad_norm": 0.0035733201075345278,
      "learning_rate": 6.694365994526142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61199304,
      "step": 105460
    },
    {
      "epoch": 15.70822162645219,
      "grad_norm": 6.301743724179687e-06,
      "learning_rate": 6.692153090315498e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61202120,
      "step": 105465
    },
    {
      "epoch": 15.708966338993148,
      "grad_norm": 0.000734013388864696,
      "learning_rate": 6.689940495397309e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61205064,
      "step": 105470
    },
    {
      "epoch": 15.709711051534107,
      "grad_norm": 8.821464689390268e-06,
      "learning_rate": 6.687728209808977e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61207752,
      "step": 105475
    },
    {
      "epoch": 15.710455764075068,
      "grad_norm": 0.01150609366595745,
      "learning_rate": 6.6855162335878626e-06,
      "loss": 0.0508,
      "num_input_tokens_seen": 61210760,
      "step": 105480
    },
    {
      "epoch": 15.711200476616026,
      "grad_norm": 2.9599594199680723e-05,
      "learning_rate": 6.683304566771331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61213928,
      "step": 105485
    },
    {
      "epoch": 15.711945189156985,
      "grad_norm": 0.00019604981935117394,
      "learning_rate": 6.68109320939676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61216648,
      "step": 105490
    },
    {
      "epoch": 15.712689901697944,
      "grad_norm": 0.000107088744698558,
      "learning_rate": 6.678882161501502e-06,
      "loss": 0.0616,
      "num_input_tokens_seen": 61219464,
      "step": 105495
    },
    {
      "epoch": 15.713434614238905,
      "grad_norm": 0.00018830904446076602,
      "learning_rate": 6.676671423122907e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61222248,
      "step": 105500
    },
    {
      "epoch": 15.714179326779863,
      "grad_norm": 0.001066889613866806,
      "learning_rate": 6.674460994298317e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61225512,
      "step": 105505
    },
    {
      "epoch": 15.714924039320822,
      "grad_norm": 1.2757206604874227e-05,
      "learning_rate": 6.672250875065095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61228232,
      "step": 105510
    },
    {
      "epoch": 15.71566875186178,
      "grad_norm": 0.00017139973351731896,
      "learning_rate": 6.670041065460555e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61230984,
      "step": 105515
    },
    {
      "epoch": 15.716413464402741,
      "grad_norm": 7.690038910368457e-05,
      "learning_rate": 6.667831565522051e-06,
      "loss": 0.1929,
      "num_input_tokens_seen": 61233800,
      "step": 105520
    },
    {
      "epoch": 15.7171581769437,
      "grad_norm": 0.0073539093136787415,
      "learning_rate": 6.665622375286901e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61237384,
      "step": 105525
    },
    {
      "epoch": 15.717902889484659,
      "grad_norm": 9.930998930940405e-05,
      "learning_rate": 6.66341349479242e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61240168,
      "step": 105530
    },
    {
      "epoch": 15.718647602025618,
      "grad_norm": 2.437406510580331e-05,
      "learning_rate": 6.661204924075937e-06,
      "loss": 0.45,
      "num_input_tokens_seen": 61242664,
      "step": 105535
    },
    {
      "epoch": 15.719392314566576,
      "grad_norm": 0.0002754979068413377,
      "learning_rate": 6.658996663174752e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61245256,
      "step": 105540
    },
    {
      "epoch": 15.720137027107537,
      "grad_norm": 0.0026723246555775404,
      "learning_rate": 6.656788712126183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61248168,
      "step": 105545
    },
    {
      "epoch": 15.720881739648496,
      "grad_norm": 0.00114530383143574,
      "learning_rate": 6.654581070967519e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61250952,
      "step": 105550
    },
    {
      "epoch": 15.721626452189454,
      "grad_norm": 0.00798014272004366,
      "learning_rate": 6.6523737397360705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61253672,
      "step": 105555
    },
    {
      "epoch": 15.722371164730415,
      "grad_norm": 0.00016546333790756762,
      "learning_rate": 6.65016671846912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61256520,
      "step": 105560
    },
    {
      "epoch": 15.723115877271374,
      "grad_norm": 0.0005077019450254738,
      "learning_rate": 6.647960007203952e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61259240,
      "step": 105565
    },
    {
      "epoch": 15.723860589812332,
      "grad_norm": 0.00010437042510602623,
      "learning_rate": 6.645753605977847e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61262248,
      "step": 105570
    },
    {
      "epoch": 15.724605302353291,
      "grad_norm": 0.00013418964226730168,
      "learning_rate": 6.643547514828075e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61265000,
      "step": 105575
    },
    {
      "epoch": 15.72535001489425,
      "grad_norm": 0.001942853326909244,
      "learning_rate": 6.641341733791917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61267976,
      "step": 105580
    },
    {
      "epoch": 15.72609472743521,
      "grad_norm": 0.009296479634940624,
      "learning_rate": 6.639136262906625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61270728,
      "step": 105585
    },
    {
      "epoch": 15.72683943997617,
      "grad_norm": 7.478466432075948e-05,
      "learning_rate": 6.636931102209471e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61273608,
      "step": 105590
    },
    {
      "epoch": 15.727584152517128,
      "grad_norm": 0.0003336923255119473,
      "learning_rate": 6.634726251737697e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61276360,
      "step": 105595
    },
    {
      "epoch": 15.728328865058087,
      "grad_norm": 0.00035066207055933774,
      "learning_rate": 6.632521711528564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61279176,
      "step": 105600
    },
    {
      "epoch": 15.729073577599047,
      "grad_norm": 0.0008629015064798295,
      "learning_rate": 6.630317481619308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61282056,
      "step": 105605
    },
    {
      "epoch": 15.729818290140006,
      "grad_norm": 0.0010758761782199144,
      "learning_rate": 6.628113562047161e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61285224,
      "step": 105610
    },
    {
      "epoch": 15.730563002680965,
      "grad_norm": 0.00010846491932170466,
      "learning_rate": 6.625909952849368e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61288040,
      "step": 105615
    },
    {
      "epoch": 15.731307715221924,
      "grad_norm": 0.0008627351489849389,
      "learning_rate": 6.62370665406315e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61290760,
      "step": 105620
    },
    {
      "epoch": 15.732052427762884,
      "grad_norm": 0.0004920740029774606,
      "learning_rate": 6.621503665725734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61293544,
      "step": 105625
    },
    {
      "epoch": 15.732797140303843,
      "grad_norm": 0.00028222461696714163,
      "learning_rate": 6.619300987874336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61296712,
      "step": 105630
    },
    {
      "epoch": 15.733541852844802,
      "grad_norm": 4.191391781205311e-06,
      "learning_rate": 6.617098620546166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61299688,
      "step": 105635
    },
    {
      "epoch": 15.73428656538576,
      "grad_norm": 0.00011313497816445306,
      "learning_rate": 6.614896563778425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61302504,
      "step": 105640
    },
    {
      "epoch": 15.735031277926721,
      "grad_norm": 0.0002483331481926143,
      "learning_rate": 6.6126948176083284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61305416,
      "step": 105645
    },
    {
      "epoch": 15.73577599046768,
      "grad_norm": 0.00048807935672812164,
      "learning_rate": 6.610493382073063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61308008,
      "step": 105650
    },
    {
      "epoch": 15.736520703008638,
      "grad_norm": 0.004415134433656931,
      "learning_rate": 6.6082922572098135e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61310632,
      "step": 105655
    },
    {
      "epoch": 15.737265415549597,
      "grad_norm": 2.2267118765739724e-05,
      "learning_rate": 6.6060914430557845e-06,
      "loss": 0.0095,
      "num_input_tokens_seen": 61313256,
      "step": 105660
    },
    {
      "epoch": 15.738010128090558,
      "grad_norm": 0.0026352459099143744,
      "learning_rate": 6.603890939648136e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61316168,
      "step": 105665
    },
    {
      "epoch": 15.738754840631517,
      "grad_norm": 2.2413336409954354e-05,
      "learning_rate": 6.601690747024061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61319048,
      "step": 105670
    },
    {
      "epoch": 15.739499553172475,
      "grad_norm": 9.874330316961277e-06,
      "learning_rate": 6.599490865220714e-06,
      "loss": 0.0247,
      "num_input_tokens_seen": 61321864,
      "step": 105675
    },
    {
      "epoch": 15.740244265713434,
      "grad_norm": 8.09683624538593e-05,
      "learning_rate": 6.597291294275276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61324712,
      "step": 105680
    },
    {
      "epoch": 15.740988978254395,
      "grad_norm": 1.5027580957394093e-05,
      "learning_rate": 6.595092034224898e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 61327560,
      "step": 105685
    },
    {
      "epoch": 15.741733690795353,
      "grad_norm": 0.008751904591917992,
      "learning_rate": 6.592893085106733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61330440,
      "step": 105690
    },
    {
      "epoch": 15.742478403336312,
      "grad_norm": 0.001095996587537229,
      "learning_rate": 6.590694446957924e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61333192,
      "step": 105695
    },
    {
      "epoch": 15.74322311587727,
      "grad_norm": 0.0018089540535584092,
      "learning_rate": 6.588496119815629e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61336136,
      "step": 105700
    },
    {
      "epoch": 15.743967828418231,
      "grad_norm": 0.0006543369381688535,
      "learning_rate": 6.5862981037169816e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61338856,
      "step": 105705
    },
    {
      "epoch": 15.74471254095919,
      "grad_norm": 0.021199170500040054,
      "learning_rate": 6.584100398699103e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61341704,
      "step": 105710
    },
    {
      "epoch": 15.745457253500149,
      "grad_norm": 0.00018679388449527323,
      "learning_rate": 6.581903004799139e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61344648,
      "step": 105715
    },
    {
      "epoch": 15.746201966041108,
      "grad_norm": 0.0006356252124533057,
      "learning_rate": 6.5797059220541965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61347496,
      "step": 105720
    },
    {
      "epoch": 15.746946678582066,
      "grad_norm": 4.305399124859832e-05,
      "learning_rate": 6.57750915050141e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61350408,
      "step": 105725
    },
    {
      "epoch": 15.747691391123027,
      "grad_norm": 0.00011329870903864503,
      "learning_rate": 6.575312690177882e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61353256,
      "step": 105730
    },
    {
      "epoch": 15.748436103663986,
      "grad_norm": 6.246666453080252e-05,
      "learning_rate": 6.573116541120714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61356136,
      "step": 105735
    },
    {
      "epoch": 15.749180816204944,
      "grad_norm": 4.826931035495363e-05,
      "learning_rate": 6.570920703367017e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61358984,
      "step": 105740
    },
    {
      "epoch": 15.749925528745905,
      "grad_norm": 0.00013112441229168326,
      "learning_rate": 6.5687251769538795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61361960,
      "step": 105745
    },
    {
      "epoch": 15.750670241286864,
      "grad_norm": 4.66161327494774e-05,
      "learning_rate": 6.566529961918405e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61364744,
      "step": 105750
    },
    {
      "epoch": 15.751414953827823,
      "grad_norm": 0.020315228030085564,
      "learning_rate": 6.564335058297674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61367496,
      "step": 105755
    },
    {
      "epoch": 15.752159666368781,
      "grad_norm": 0.00020508932357188314,
      "learning_rate": 6.56214046612876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61370344,
      "step": 105760
    },
    {
      "epoch": 15.75290437890974,
      "grad_norm": 0.00015024632739368826,
      "learning_rate": 6.5599461854487485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61373320,
      "step": 105765
    },
    {
      "epoch": 15.7536490914507,
      "grad_norm": 0.0006329750176519156,
      "learning_rate": 6.557752216294693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61376360,
      "step": 105770
    },
    {
      "epoch": 15.75439380399166,
      "grad_norm": 0.0004777038411702961,
      "learning_rate": 6.555558558703681e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61379144,
      "step": 105775
    },
    {
      "epoch": 15.755138516532618,
      "grad_norm": 0.0005850268644280732,
      "learning_rate": 6.5533652127127505e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61381992,
      "step": 105780
    },
    {
      "epoch": 15.755883229073577,
      "grad_norm": 5.302738645696081e-05,
      "learning_rate": 6.551172178358975e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61384808,
      "step": 105785
    },
    {
      "epoch": 15.756627941614537,
      "grad_norm": 0.00010556569759501144,
      "learning_rate": 6.548979455679388e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61387624,
      "step": 105790
    },
    {
      "epoch": 15.757372654155496,
      "grad_norm": 4.1731750570761506e-06,
      "learning_rate": 6.5467870447110475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61390408,
      "step": 105795
    },
    {
      "epoch": 15.758117366696455,
      "grad_norm": 7.085571269271895e-05,
      "learning_rate": 6.544594945490978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61393256,
      "step": 105800
    },
    {
      "epoch": 15.758862079237414,
      "grad_norm": 0.011277930811047554,
      "learning_rate": 6.542403158056226e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61396072,
      "step": 105805
    },
    {
      "epoch": 15.759606791778374,
      "grad_norm": 8.236003486672416e-05,
      "learning_rate": 6.540211682443814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61399144,
      "step": 105810
    },
    {
      "epoch": 15.760351504319333,
      "grad_norm": 8.592368976678699e-05,
      "learning_rate": 6.5380205186907545e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61401928,
      "step": 105815
    },
    {
      "epoch": 15.761096216860292,
      "grad_norm": 0.08213166892528534,
      "learning_rate": 6.535829666834084e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61405192,
      "step": 105820
    },
    {
      "epoch": 15.76184092940125,
      "grad_norm": 0.00010427767119836062,
      "learning_rate": 6.533639126910804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61408008,
      "step": 105825
    },
    {
      "epoch": 15.762585641942211,
      "grad_norm": 0.0004243860312271863,
      "learning_rate": 6.531448898957923e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61410728,
      "step": 105830
    },
    {
      "epoch": 15.76333035448317,
      "grad_norm": 0.00021914577519055456,
      "learning_rate": 6.529258983012437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61413448,
      "step": 105835
    },
    {
      "epoch": 15.764075067024129,
      "grad_norm": 5.040661108068889e-06,
      "learning_rate": 6.527069379111353e-06,
      "loss": 0.0116,
      "num_input_tokens_seen": 61416584,
      "step": 105840
    },
    {
      "epoch": 15.764819779565087,
      "grad_norm": 0.00045821600360795856,
      "learning_rate": 6.5248800872916574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61419816,
      "step": 105845
    },
    {
      "epoch": 15.765564492106048,
      "grad_norm": 0.00020429804862942547,
      "learning_rate": 6.5226911075903255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61422376,
      "step": 105850
    },
    {
      "epoch": 15.766309204647007,
      "grad_norm": 3.37845558533445e-05,
      "learning_rate": 6.5205024400443575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61425416,
      "step": 105855
    },
    {
      "epoch": 15.767053917187965,
      "grad_norm": 0.00016722388681955636,
      "learning_rate": 6.51831408469071e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61427944,
      "step": 105860
    },
    {
      "epoch": 15.767798629728924,
      "grad_norm": 0.0008824343676678836,
      "learning_rate": 6.516126041566373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61430824,
      "step": 105865
    },
    {
      "epoch": 15.768543342269885,
      "grad_norm": 0.004029933828860521,
      "learning_rate": 6.51393831070829e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61433672,
      "step": 105870
    },
    {
      "epoch": 15.769288054810843,
      "grad_norm": 0.0003839391574729234,
      "learning_rate": 6.511750892153439e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61436968,
      "step": 105875
    },
    {
      "epoch": 15.770032767351802,
      "grad_norm": 1.2654545571422204e-05,
      "learning_rate": 6.50956378593876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61439528,
      "step": 105880
    },
    {
      "epoch": 15.770777479892761,
      "grad_norm": 10.124554634094238,
      "learning_rate": 6.507376992101214e-06,
      "loss": 0.0589,
      "num_input_tokens_seen": 61442504,
      "step": 105885
    },
    {
      "epoch": 15.771522192433721,
      "grad_norm": 0.0007380734896287322,
      "learning_rate": 6.505190510677739e-06,
      "loss": 0.3469,
      "num_input_tokens_seen": 61445544,
      "step": 105890
    },
    {
      "epoch": 15.77226690497468,
      "grad_norm": 0.00012901969603262842,
      "learning_rate": 6.503004341705271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61448616,
      "step": 105895
    },
    {
      "epoch": 15.773011617515639,
      "grad_norm": 0.00022054849250707775,
      "learning_rate": 6.5008184852207475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61451272,
      "step": 105900
    },
    {
      "epoch": 15.773756330056598,
      "grad_norm": 0.0033638756722211838,
      "learning_rate": 6.498632941261088e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61454312,
      "step": 105905
    },
    {
      "epoch": 15.774501042597556,
      "grad_norm": 0.0009180926717817783,
      "learning_rate": 6.496447709863227e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61457416,
      "step": 105910
    },
    {
      "epoch": 15.775245755138517,
      "grad_norm": 0.0020794663578271866,
      "learning_rate": 6.494262791064065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61460680,
      "step": 105915
    },
    {
      "epoch": 15.775990467679476,
      "grad_norm": 0.0011146881151944399,
      "learning_rate": 6.4920781849005355e-06,
      "loss": 0.017,
      "num_input_tokens_seen": 61463368,
      "step": 105920
    },
    {
      "epoch": 15.776735180220435,
      "grad_norm": 0.0005750351119786501,
      "learning_rate": 6.489893891409535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61466088,
      "step": 105925
    },
    {
      "epoch": 15.777479892761393,
      "grad_norm": 0.0005599515279754996,
      "learning_rate": 6.487709910627957e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61469160,
      "step": 105930
    },
    {
      "epoch": 15.778224605302354,
      "grad_norm": 4.346410423750058e-05,
      "learning_rate": 6.48552624259271e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 61472104,
      "step": 105935
    },
    {
      "epoch": 15.778969317843313,
      "grad_norm": 0.010066664777696133,
      "learning_rate": 6.483342887340674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61474792,
      "step": 105940
    },
    {
      "epoch": 15.779714030384271,
      "grad_norm": 0.0037549592088907957,
      "learning_rate": 6.481159844908746e-06,
      "loss": 0.1702,
      "num_input_tokens_seen": 61477800,
      "step": 105945
    },
    {
      "epoch": 15.78045874292523,
      "grad_norm": 0.0011316458694636822,
      "learning_rate": 6.478977115333796e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61480552,
      "step": 105950
    },
    {
      "epoch": 15.78120345546619,
      "grad_norm": 0.0031899488531053066,
      "learning_rate": 6.4767946986527105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61483112,
      "step": 105955
    },
    {
      "epoch": 15.78194816800715,
      "grad_norm": 0.0011413448955863714,
      "learning_rate": 6.474612594902351e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61486440,
      "step": 105960
    },
    {
      "epoch": 15.782692880548108,
      "grad_norm": 0.0027287013363093138,
      "learning_rate": 6.472430804119584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61489064,
      "step": 105965
    },
    {
      "epoch": 15.783437593089067,
      "grad_norm": 0.6516026854515076,
      "learning_rate": 6.470249326341269e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61491944,
      "step": 105970
    },
    {
      "epoch": 15.784182305630027,
      "grad_norm": 0.0017805914394557476,
      "learning_rate": 6.468068161604251e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61495144,
      "step": 105975
    },
    {
      "epoch": 15.784927018170986,
      "grad_norm": 0.0005509827169589698,
      "learning_rate": 6.465887309945393e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61497896,
      "step": 105980
    },
    {
      "epoch": 15.785671730711945,
      "grad_norm": 0.03788784146308899,
      "learning_rate": 6.4637067714015255e-06,
      "loss": 0.2782,
      "num_input_tokens_seen": 61500744,
      "step": 105985
    },
    {
      "epoch": 15.786416443252904,
      "grad_norm": 0.004931638017296791,
      "learning_rate": 6.4615265460095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61503432,
      "step": 105990
    },
    {
      "epoch": 15.787161155793864,
      "grad_norm": 0.0020120423287153244,
      "learning_rate": 6.459346633806132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61506216,
      "step": 105995
    },
    {
      "epoch": 15.787905868334823,
      "grad_norm": 2.943860090454109e-05,
      "learning_rate": 6.457167034828268e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61509000,
      "step": 106000
    },
    {
      "epoch": 15.788650580875782,
      "grad_norm": 0.0018359193345531821,
      "learning_rate": 6.45498774911272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61511912,
      "step": 106005
    },
    {
      "epoch": 15.78939529341674,
      "grad_norm": 0.0002181275049224496,
      "learning_rate": 6.452808776696301e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 61514920,
      "step": 106010
    },
    {
      "epoch": 15.790140005957701,
      "grad_norm": 0.00020436559861991554,
      "learning_rate": 6.450630117615833e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61517960,
      "step": 106015
    },
    {
      "epoch": 15.79088471849866,
      "grad_norm": 3.429988646530546e-05,
      "learning_rate": 6.448451771908115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61520680,
      "step": 106020
    },
    {
      "epoch": 15.791629431039619,
      "grad_norm": 0.006323551293462515,
      "learning_rate": 6.446273739609943e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61523464,
      "step": 106025
    },
    {
      "epoch": 15.792374143580577,
      "grad_norm": 0.00011029085726477206,
      "learning_rate": 6.444096020758125e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61526504,
      "step": 106030
    },
    {
      "epoch": 15.793118856121538,
      "grad_norm": 0.0005894716014154255,
      "learning_rate": 6.4419186153894475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61529768,
      "step": 106035
    },
    {
      "epoch": 15.793863568662497,
      "grad_norm": 0.0008908462477847934,
      "learning_rate": 6.439741523540685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61532520,
      "step": 106040
    },
    {
      "epoch": 15.794608281203455,
      "grad_norm": 0.0010663531720638275,
      "learning_rate": 6.437564745248634e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 61535624,
      "step": 106045
    },
    {
      "epoch": 15.795352993744414,
      "grad_norm": 0.00023638962011318654,
      "learning_rate": 6.435388280550062e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61538568,
      "step": 106050
    },
    {
      "epoch": 15.796097706285373,
      "grad_norm": 0.0014414004981517792,
      "learning_rate": 6.4332121294817245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61541256,
      "step": 106055
    },
    {
      "epoch": 15.796842418826333,
      "grad_norm": 0.0015383552527055144,
      "learning_rate": 6.431036292080409e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61544264,
      "step": 106060
    },
    {
      "epoch": 15.797587131367292,
      "grad_norm": 0.0013991107698529959,
      "learning_rate": 6.428860768382855e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61547336,
      "step": 106065
    },
    {
      "epoch": 15.798331843908251,
      "grad_norm": 0.003939677961170673,
      "learning_rate": 6.42668555842583e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61550216,
      "step": 106070
    },
    {
      "epoch": 15.799076556449211,
      "grad_norm": 0.0004805380303878337,
      "learning_rate": 6.4245106622460665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61552840,
      "step": 106075
    },
    {
      "epoch": 15.79982126899017,
      "grad_norm": 0.0014035026542842388,
      "learning_rate": 6.422336079880325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61555944,
      "step": 106080
    },
    {
      "epoch": 15.800565981531129,
      "grad_norm": 0.0010340538574382663,
      "learning_rate": 6.420161811365336e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 61558888,
      "step": 106085
    },
    {
      "epoch": 15.801310694072088,
      "grad_norm": 1.119896650314331,
      "learning_rate": 6.417987856737825e-06,
      "loss": 0.0011,
      "num_input_tokens_seen": 61561704,
      "step": 106090
    },
    {
      "epoch": 15.802055406613047,
      "grad_norm": 0.0003768415772356093,
      "learning_rate": 6.415814216034527e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61564424,
      "step": 106095
    },
    {
      "epoch": 15.802800119154007,
      "grad_norm": 7.08393708919175e-05,
      "learning_rate": 6.41364088929215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61567368,
      "step": 106100
    },
    {
      "epoch": 15.803544831694966,
      "grad_norm": 0.0002921686682384461,
      "learning_rate": 6.4114678765474275e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61570440,
      "step": 106105
    },
    {
      "epoch": 15.804289544235925,
      "grad_norm": 0.00018061939044855535,
      "learning_rate": 6.409295177837058e-06,
      "loss": 0.0023,
      "num_input_tokens_seen": 61573192,
      "step": 106110
    },
    {
      "epoch": 15.805034256776883,
      "grad_norm": 0.0008025252027437091,
      "learning_rate": 6.407122793197756e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61575944,
      "step": 106115
    },
    {
      "epoch": 15.805778969317844,
      "grad_norm": 0.00035289651714265347,
      "learning_rate": 6.404950722666211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61578856,
      "step": 106120
    },
    {
      "epoch": 15.806523681858803,
      "grad_norm": 0.0004640046681743115,
      "learning_rate": 6.402778966279133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61582056,
      "step": 106125
    },
    {
      "epoch": 15.807268394399761,
      "grad_norm": 0.001233817427419126,
      "learning_rate": 6.400607524073201e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61584840,
      "step": 106130
    },
    {
      "epoch": 15.80801310694072,
      "grad_norm": 0.0040481481701135635,
      "learning_rate": 6.3984363960850945e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61587720,
      "step": 106135
    },
    {
      "epoch": 15.80875781948168,
      "grad_norm": 0.00025459215976297855,
      "learning_rate": 6.396265582351508e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61590664,
      "step": 106140
    },
    {
      "epoch": 15.80950253202264,
      "grad_norm": 0.002434006193652749,
      "learning_rate": 6.394095082909099e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61593480,
      "step": 106145
    },
    {
      "epoch": 15.810247244563598,
      "grad_norm": 0.0012707639252766967,
      "learning_rate": 6.391924897794549e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61596360,
      "step": 106150
    },
    {
      "epoch": 15.810991957104557,
      "grad_norm": 0.00019893579883500934,
      "learning_rate": 6.3897550270445165e-06,
      "loss": 0.0024,
      "num_input_tokens_seen": 61599240,
      "step": 106155
    },
    {
      "epoch": 15.811736669645517,
      "grad_norm": 0.0003797082172241062,
      "learning_rate": 6.387585470695659e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61601832,
      "step": 106160
    },
    {
      "epoch": 15.812481382186476,
      "grad_norm": 0.0006251801969483495,
      "learning_rate": 6.385416228784618e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61604648,
      "step": 106165
    },
    {
      "epoch": 15.813226094727435,
      "grad_norm": 0.0029460934456437826,
      "learning_rate": 6.383247301348061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61607496,
      "step": 106170
    },
    {
      "epoch": 15.813970807268394,
      "grad_norm": 0.019346455112099648,
      "learning_rate": 6.381078688422617e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61610280,
      "step": 106175
    },
    {
      "epoch": 15.814715519809354,
      "grad_norm": 0.0011300570331513882,
      "learning_rate": 6.3789103900449205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61613544,
      "step": 106180
    },
    {
      "epoch": 15.815460232350313,
      "grad_norm": 9.777876402949914e-05,
      "learning_rate": 6.3767424062516155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61616456,
      "step": 106185
    },
    {
      "epoch": 15.816204944891272,
      "grad_norm": 16.695423126220703,
      "learning_rate": 6.374574737079309e-06,
      "loss": 0.0401,
      "num_input_tokens_seen": 61619400,
      "step": 106190
    },
    {
      "epoch": 15.81694965743223,
      "grad_norm": 0.00019836142018903047,
      "learning_rate": 6.372407382564641e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61621896,
      "step": 106195
    },
    {
      "epoch": 15.817694369973191,
      "grad_norm": 0.0007950715953484178,
      "learning_rate": 6.37024034274421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61624840,
      "step": 106200
    },
    {
      "epoch": 15.81843908251415,
      "grad_norm": 0.004827491473406553,
      "learning_rate": 6.368073617654643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61627656,
      "step": 106205
    },
    {
      "epoch": 15.819183795055109,
      "grad_norm": 0.0003857486299239099,
      "learning_rate": 6.365907207332536e-06,
      "loss": 0.2656,
      "num_input_tokens_seen": 61630728,
      "step": 106210
    },
    {
      "epoch": 15.819928507596067,
      "grad_norm": 0.013693292625248432,
      "learning_rate": 6.3637411118144776e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61633672,
      "step": 106215
    },
    {
      "epoch": 15.820673220137028,
      "grad_norm": 3.905655103153549e-05,
      "learning_rate": 6.361575331137082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61636744,
      "step": 106220
    },
    {
      "epoch": 15.821417932677987,
      "grad_norm": 0.007556877098977566,
      "learning_rate": 6.359409865336927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61639656,
      "step": 106225
    },
    {
      "epoch": 15.822162645218945,
      "grad_norm": 0.0002506384626030922,
      "learning_rate": 6.357244714450597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61642536,
      "step": 106230
    },
    {
      "epoch": 15.822907357759904,
      "grad_norm": 0.0002284809888806194,
      "learning_rate": 6.355079878514661e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61645608,
      "step": 106235
    },
    {
      "epoch": 15.823652070300863,
      "grad_norm": 0.000617910292930901,
      "learning_rate": 6.352915357565712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61648712,
      "step": 106240
    },
    {
      "epoch": 15.824396782841823,
      "grad_norm": 0.0026407090481370687,
      "learning_rate": 6.350751151640294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61651784,
      "step": 106245
    },
    {
      "epoch": 15.825141495382782,
      "grad_norm": 0.0010818756418302655,
      "learning_rate": 6.348587260774991e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61654664,
      "step": 106250
    },
    {
      "epoch": 15.825886207923741,
      "grad_norm": 0.014919891953468323,
      "learning_rate": 6.346423685006348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61657576,
      "step": 106255
    },
    {
      "epoch": 15.826630920464702,
      "grad_norm": 0.00013320926518645138,
      "learning_rate": 6.344260424370912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61660520,
      "step": 106260
    },
    {
      "epoch": 15.82737563300566,
      "grad_norm": 0.0013524664100259542,
      "learning_rate": 6.342097478905243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61663432,
      "step": 106265
    },
    {
      "epoch": 15.828120345546619,
      "grad_norm": 0.00013353920076042414,
      "learning_rate": 6.339934848645868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61666472,
      "step": 106270
    },
    {
      "epoch": 15.828865058087578,
      "grad_norm": 9.960913303075358e-05,
      "learning_rate": 6.337772533629333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61669416,
      "step": 106275
    },
    {
      "epoch": 15.829609770628537,
      "grad_norm": 0.0010459995828568935,
      "learning_rate": 6.335610533892156e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61672232,
      "step": 106280
    },
    {
      "epoch": 15.830354483169497,
      "grad_norm": 0.0033247536048293114,
      "learning_rate": 6.33344884947088e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61675144,
      "step": 106285
    },
    {
      "epoch": 15.831099195710456,
      "grad_norm": 0.004212213214486837,
      "learning_rate": 6.331287480402012e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61678280,
      "step": 106290
    },
    {
      "epoch": 15.831843908251415,
      "grad_norm": 0.0006206427933648229,
      "learning_rate": 6.329126426722068e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61681384,
      "step": 106295
    },
    {
      "epoch": 15.832588620792373,
      "grad_norm": 0.0010784300975501537,
      "learning_rate": 6.326965688467557e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61684264,
      "step": 106300
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.010416653007268906,
      "learning_rate": 6.324805265674974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61687176,
      "step": 106305
    },
    {
      "epoch": 15.834078045874293,
      "grad_norm": 0.0002667469088919461,
      "learning_rate": 6.322645158380833e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61690248,
      "step": 106310
    },
    {
      "epoch": 15.834822758415251,
      "grad_norm": 0.0023983940482139587,
      "learning_rate": 6.320485366621612e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61693352,
      "step": 106315
    },
    {
      "epoch": 15.83556747095621,
      "grad_norm": 0.02430698461830616,
      "learning_rate": 6.318325890433813e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61695976,
      "step": 106320
    },
    {
      "epoch": 15.83631218349717,
      "grad_norm": 0.0018291635205969214,
      "learning_rate": 6.316166729853906e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61698472,
      "step": 106325
    },
    {
      "epoch": 15.83705689603813,
      "grad_norm": 0.0010182035621255636,
      "learning_rate": 6.314007884918377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61701320,
      "step": 106330
    },
    {
      "epoch": 15.837801608579088,
      "grad_norm": 0.00010852482955669984,
      "learning_rate": 6.311849355663693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61704200,
      "step": 106335
    },
    {
      "epoch": 15.838546321120047,
      "grad_norm": 0.00033108089701272547,
      "learning_rate": 6.309691142126315e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 61707240,
      "step": 106340
    },
    {
      "epoch": 15.839291033661008,
      "grad_norm": 7.258006371557713e-05,
      "learning_rate": 6.307533244342717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61710376,
      "step": 106345
    },
    {
      "epoch": 15.840035746201966,
      "grad_norm": 0.0002758866176009178,
      "learning_rate": 6.305375662349344e-06,
      "loss": 0.033,
      "num_input_tokens_seen": 61713352,
      "step": 106350
    },
    {
      "epoch": 15.840780458742925,
      "grad_norm": 0.0002046415611403063,
      "learning_rate": 6.303218396182644e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61716392,
      "step": 106355
    },
    {
      "epoch": 15.841525171283884,
      "grad_norm": 0.00031489733373746276,
      "learning_rate": 6.301061445879072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61719592,
      "step": 106360
    },
    {
      "epoch": 15.842269883824844,
      "grad_norm": 0.0002273628197144717,
      "learning_rate": 6.298904811475062e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61722632,
      "step": 106365
    },
    {
      "epoch": 15.843014596365803,
      "grad_norm": 0.0010280462447553873,
      "learning_rate": 6.296748493007051e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61725704,
      "step": 106370
    },
    {
      "epoch": 15.843759308906762,
      "grad_norm": 0.0018601205665618181,
      "learning_rate": 6.294592490511456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61728840,
      "step": 106375
    },
    {
      "epoch": 15.84450402144772,
      "grad_norm": 0.002691222820430994,
      "learning_rate": 6.292436804024715e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 61731464,
      "step": 106380
    },
    {
      "epoch": 15.845248733988681,
      "grad_norm": 0.0018214762676507235,
      "learning_rate": 6.290281433583237e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61734344,
      "step": 106385
    },
    {
      "epoch": 15.84599344652964,
      "grad_norm": 9.444509487366304e-05,
      "learning_rate": 6.288126379223444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61737192,
      "step": 106390
    },
    {
      "epoch": 15.846738159070599,
      "grad_norm": 0.00014258830924518406,
      "learning_rate": 6.285971640981731e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61740168,
      "step": 106395
    },
    {
      "epoch": 15.847482871611557,
      "grad_norm": 0.0005405563279055059,
      "learning_rate": 6.283817218894514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61743272,
      "step": 106400
    },
    {
      "epoch": 15.848227584152518,
      "grad_norm": 0.0015240475768223405,
      "learning_rate": 6.281663112998174e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61746472,
      "step": 106405
    },
    {
      "epoch": 15.848972296693477,
      "grad_norm": 0.00017463622498326004,
      "learning_rate": 6.2795093233291195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61749448,
      "step": 106410
    },
    {
      "epoch": 15.849717009234435,
      "grad_norm": 5.67071620025672e-05,
      "learning_rate": 6.27735584992373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61752168,
      "step": 106415
    },
    {
      "epoch": 15.850461721775394,
      "grad_norm": 9.94565270957537e-05,
      "learning_rate": 6.275202692818383e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61755080,
      "step": 106420
    },
    {
      "epoch": 15.851206434316353,
      "grad_norm": 2.073275327682495,
      "learning_rate": 6.2730498520494565e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61758152,
      "step": 106425
    },
    {
      "epoch": 15.851951146857314,
      "grad_norm": 0.0005697690066881478,
      "learning_rate": 6.27089732765331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61760968,
      "step": 106430
    },
    {
      "epoch": 15.852695859398272,
      "grad_norm": 0.00012621919449884444,
      "learning_rate": 6.2687451196663275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61763816,
      "step": 106435
    },
    {
      "epoch": 15.853440571939231,
      "grad_norm": 0.002806201111525297,
      "learning_rate": 6.266593228124851e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61766952,
      "step": 106440
    },
    {
      "epoch": 15.85418528448019,
      "grad_norm": 0.0005991607322357595,
      "learning_rate": 6.264441653065248e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61769896,
      "step": 106445
    },
    {
      "epoch": 15.85492999702115,
      "grad_norm": 0.0026061278767883778,
      "learning_rate": 6.262290394523862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61772776,
      "step": 106450
    },
    {
      "epoch": 15.85567470956211,
      "grad_norm": 0.0012185814557597041,
      "learning_rate": 6.260139452537028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61776008,
      "step": 106455
    },
    {
      "epoch": 15.856419422103068,
      "grad_norm": 0.0019777033012360334,
      "learning_rate": 6.257988827141101e-06,
      "loss": 0.1626,
      "num_input_tokens_seen": 61779112,
      "step": 106460
    },
    {
      "epoch": 15.857164134644027,
      "grad_norm": 0.009113511070609093,
      "learning_rate": 6.255838518372395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61782120,
      "step": 106465
    },
    {
      "epoch": 15.857908847184987,
      "grad_norm": 0.0010175103088840842,
      "learning_rate": 6.253688526267254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61785416,
      "step": 106470
    },
    {
      "epoch": 15.858653559725946,
      "grad_norm": 0.000351044989656657,
      "learning_rate": 6.251538850861985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61788488,
      "step": 106475
    },
    {
      "epoch": 15.859398272266905,
      "grad_norm": 0.00013180836685933173,
      "learning_rate": 6.24938949219292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61791112,
      "step": 106480
    },
    {
      "epoch": 15.860142984807863,
      "grad_norm": 0.00018326246936339885,
      "learning_rate": 6.2472404502963625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61793992,
      "step": 106485
    },
    {
      "epoch": 15.860887697348824,
      "grad_norm": 0.002465762896463275,
      "learning_rate": 6.245091725208616e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61796872,
      "step": 106490
    },
    {
      "epoch": 15.861632409889783,
      "grad_norm": 0.020154360681772232,
      "learning_rate": 6.242943316965985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61799560,
      "step": 106495
    },
    {
      "epoch": 15.862377122430741,
      "grad_norm": 0.0030741437803953886,
      "learning_rate": 6.2407952256047565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61802696,
      "step": 106500
    },
    {
      "epoch": 15.8631218349717,
      "grad_norm": 0.003009010571986437,
      "learning_rate": 6.238647451161231e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61805480,
      "step": 106505
    },
    {
      "epoch": 15.86386654751266,
      "grad_norm": 6.605865928577259e-05,
      "learning_rate": 6.2364999936716825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61808328,
      "step": 106510
    },
    {
      "epoch": 15.86461126005362,
      "grad_norm": 0.0005622696480713785,
      "learning_rate": 6.234352853172404e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61811336,
      "step": 106515
    },
    {
      "epoch": 15.865355972594578,
      "grad_norm": 0.001924895099364221,
      "learning_rate": 6.232206029699655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61814216,
      "step": 106520
    },
    {
      "epoch": 15.866100685135537,
      "grad_norm": 0.002270419616252184,
      "learning_rate": 6.230059523289716e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61817000,
      "step": 106525
    },
    {
      "epoch": 15.866845397676498,
      "grad_norm": 0.004790716804563999,
      "learning_rate": 6.227913333978847e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61819848,
      "step": 106530
    },
    {
      "epoch": 15.867590110217456,
      "grad_norm": 6.683487299596891e-05,
      "learning_rate": 6.225767461803295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61822664,
      "step": 106535
    },
    {
      "epoch": 15.868334822758415,
      "grad_norm": 0.005113828461617231,
      "learning_rate": 6.223621906799326e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61825896,
      "step": 106540
    },
    {
      "epoch": 15.869079535299374,
      "grad_norm": 0.001286356127820909,
      "learning_rate": 6.221476669003176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61828744,
      "step": 106545
    },
    {
      "epoch": 15.869824247840334,
      "grad_norm": 0.0018428665352985263,
      "learning_rate": 6.219331748451096e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61831688,
      "step": 106550
    },
    {
      "epoch": 15.870568960381293,
      "grad_norm": 0.00013759227294940501,
      "learning_rate": 6.217187145179321e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61834632,
      "step": 106555
    },
    {
      "epoch": 15.871313672922252,
      "grad_norm": 0.0014337131287902594,
      "learning_rate": 6.2150428592240795e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61837320,
      "step": 106560
    },
    {
      "epoch": 15.87205838546321,
      "grad_norm": 0.0009406397002749145,
      "learning_rate": 6.212898890621588e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61839848,
      "step": 106565
    },
    {
      "epoch": 15.872803098004171,
      "grad_norm": 0.0004301256558392197,
      "learning_rate": 6.210755239408083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61842728,
      "step": 106570
    },
    {
      "epoch": 15.87354781054513,
      "grad_norm": 0.0012992576230317354,
      "learning_rate": 6.208611905619774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61845672,
      "step": 106575
    },
    {
      "epoch": 15.874292523086089,
      "grad_norm": 0.01121197734028101,
      "learning_rate": 6.20646888929286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61848488,
      "step": 106580
    },
    {
      "epoch": 15.875037235627047,
      "grad_norm": 0.0002380114747211337,
      "learning_rate": 6.204326190463558e-06,
      "loss": 0.0679,
      "num_input_tokens_seen": 61851144,
      "step": 106585
    },
    {
      "epoch": 15.875781948168008,
      "grad_norm": 0.00019525078823789954,
      "learning_rate": 6.202183809168058e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61853960,
      "step": 106590
    },
    {
      "epoch": 15.876526660708967,
      "grad_norm": 0.03571990132331848,
      "learning_rate": 6.200041745442561e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61857128,
      "step": 106595
    },
    {
      "epoch": 15.877271373249926,
      "grad_norm": 0.0005265167565084994,
      "learning_rate": 6.197899999323245e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 61859848,
      "step": 106600
    },
    {
      "epoch": 15.878016085790884,
      "grad_norm": 0.00036270005512051284,
      "learning_rate": 6.195758570846308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61862984,
      "step": 106605
    },
    {
      "epoch": 15.878760798331843,
      "grad_norm": 0.00020872068125754595,
      "learning_rate": 6.193617460047918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61865640,
      "step": 106610
    },
    {
      "epoch": 15.879505510872804,
      "grad_norm": 6.507170473923907e-05,
      "learning_rate": 6.191476666964238e-06,
      "loss": 0.1532,
      "num_input_tokens_seen": 61868392,
      "step": 106615
    },
    {
      "epoch": 15.880250223413762,
      "grad_norm": 0.005717642605304718,
      "learning_rate": 6.189336191631451e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61871208,
      "step": 106620
    },
    {
      "epoch": 15.880994935954721,
      "grad_norm": 2.8073558496544138e-05,
      "learning_rate": 6.1871960340857126e-06,
      "loss": 0.0065,
      "num_input_tokens_seen": 61873928,
      "step": 106625
    },
    {
      "epoch": 15.88173964849568,
      "grad_norm": 4.946163244312629e-05,
      "learning_rate": 6.185056194363176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61876840,
      "step": 106630
    },
    {
      "epoch": 15.88248436103664,
      "grad_norm": 0.20371244847774506,
      "learning_rate": 6.182916672499983e-06,
      "loss": 0.008,
      "num_input_tokens_seen": 61879656,
      "step": 106635
    },
    {
      "epoch": 15.8832290735776,
      "grad_norm": 0.00013190640311222523,
      "learning_rate": 6.180777468532298e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61882440,
      "step": 106640
    },
    {
      "epoch": 15.883973786118558,
      "grad_norm": 0.003065519966185093,
      "learning_rate": 6.1786385824962436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61885256,
      "step": 106645
    },
    {
      "epoch": 15.884718498659517,
      "grad_norm": 0.0023882396053522825,
      "learning_rate": 6.176500014427966e-06,
      "loss": 0.0568,
      "num_input_tokens_seen": 61888168,
      "step": 106650
    },
    {
      "epoch": 15.885463211200477,
      "grad_norm": 0.000583941931836307,
      "learning_rate": 6.17436176436359e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61891496,
      "step": 106655
    },
    {
      "epoch": 15.886207923741436,
      "grad_norm": 0.00021784704586025327,
      "learning_rate": 6.1722238323392325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61894792,
      "step": 106660
    },
    {
      "epoch": 15.886952636282395,
      "grad_norm": 0.004815318156033754,
      "learning_rate": 6.1700862183910245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61897736,
      "step": 106665
    },
    {
      "epoch": 15.887697348823353,
      "grad_norm": 0.007425212301313877,
      "learning_rate": 6.167948922555064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61900936,
      "step": 106670
    },
    {
      "epoch": 15.888442061364314,
      "grad_norm": 0.0033654316794127226,
      "learning_rate": 6.165811944867475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61904168,
      "step": 106675
    },
    {
      "epoch": 15.889186773905273,
      "grad_norm": 0.0007700325804762542,
      "learning_rate": 6.163675285364348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61907368,
      "step": 106680
    },
    {
      "epoch": 15.889931486446232,
      "grad_norm": 1.6660198525642045e-05,
      "learning_rate": 6.161538944081779e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61910248,
      "step": 106685
    },
    {
      "epoch": 15.89067619898719,
      "grad_norm": 0.00032547826413065195,
      "learning_rate": 6.1594029210558675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61912872,
      "step": 106690
    },
    {
      "epoch": 15.89142091152815,
      "grad_norm": 0.004127607215195894,
      "learning_rate": 6.157267216322696e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61915752,
      "step": 106695
    },
    {
      "epoch": 15.89216562406911,
      "grad_norm": 0.000407716870540753,
      "learning_rate": 6.155131829918345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61919848,
      "step": 106700
    },
    {
      "epoch": 15.892910336610068,
      "grad_norm": 0.00013112550368532538,
      "learning_rate": 6.1529967618788795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61922856,
      "step": 106705
    },
    {
      "epoch": 15.893655049151027,
      "grad_norm": 0.0002466562727931887,
      "learning_rate": 6.1508620122403885e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 61925512,
      "step": 106710
    },
    {
      "epoch": 15.894399761691988,
      "grad_norm": 0.0006223663804121315,
      "learning_rate": 6.148727581038915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61928680,
      "step": 106715
    },
    {
      "epoch": 15.895144474232946,
      "grad_norm": 0.0016360330628231168,
      "learning_rate": 6.146593468310541e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61931592,
      "step": 106720
    },
    {
      "epoch": 15.895889186773905,
      "grad_norm": 0.00030829355819150805,
      "learning_rate": 6.144459674091299e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61934504,
      "step": 106725
    },
    {
      "epoch": 15.896633899314864,
      "grad_norm": 0.0009448787895962596,
      "learning_rate": 6.1423261984172535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61937544,
      "step": 106730
    },
    {
      "epoch": 15.897378611855824,
      "grad_norm": 0.0007368758670054376,
      "learning_rate": 6.140193041324444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61940584,
      "step": 106735
    },
    {
      "epoch": 15.898123324396783,
      "grad_norm": 0.0017849915893748403,
      "learning_rate": 6.138060202848894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61943592,
      "step": 106740
    },
    {
      "epoch": 15.898868036937742,
      "grad_norm": 0.0016312911175191402,
      "learning_rate": 6.135927683026654e-06,
      "loss": 0.0822,
      "num_input_tokens_seen": 61946600,
      "step": 106745
    },
    {
      "epoch": 15.8996127494787,
      "grad_norm": 0.00023871922167018056,
      "learning_rate": 6.133795481893745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61949416,
      "step": 106750
    },
    {
      "epoch": 15.90035746201966,
      "grad_norm": 302.6180419921875,
      "learning_rate": 6.1316635994861875e-06,
      "loss": 0.2094,
      "num_input_tokens_seen": 61952264,
      "step": 106755
    },
    {
      "epoch": 15.90110217456062,
      "grad_norm": 0.0010340745793655515,
      "learning_rate": 6.129532035839985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61955208,
      "step": 106760
    },
    {
      "epoch": 15.901846887101579,
      "grad_norm": 0.0013463754439726472,
      "learning_rate": 6.12740079099117e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61958280,
      "step": 106765
    },
    {
      "epoch": 15.902591599642538,
      "grad_norm": 0.001294272136874497,
      "learning_rate": 6.12526986497573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61961160,
      "step": 106770
    },
    {
      "epoch": 15.903336312183498,
      "grad_norm": 0.000153801214764826,
      "learning_rate": 6.12313925782968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61963848,
      "step": 106775
    },
    {
      "epoch": 15.904081024724457,
      "grad_norm": 0.0007230418850667775,
      "learning_rate": 6.1210089695890065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61966984,
      "step": 106780
    },
    {
      "epoch": 15.904825737265416,
      "grad_norm": 0.0005059556569904089,
      "learning_rate": 6.11887900028969e-06,
      "loss": 0.0823,
      "num_input_tokens_seen": 61970088,
      "step": 106785
    },
    {
      "epoch": 15.905570449806374,
      "grad_norm": 0.00018364688730798662,
      "learning_rate": 6.116749349967732e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61972808,
      "step": 106790
    },
    {
      "epoch": 15.906315162347333,
      "grad_norm": 0.009582260623574257,
      "learning_rate": 6.114620018659093e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61975976,
      "step": 106795
    },
    {
      "epoch": 15.907059874888294,
      "grad_norm": 0.00022714307124260813,
      "learning_rate": 6.112491006399762e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61979400,
      "step": 106800
    },
    {
      "epoch": 15.907804587429252,
      "grad_norm": 0.00036747672129422426,
      "learning_rate": 6.110362313225693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61982216,
      "step": 106805
    },
    {
      "epoch": 15.908549299970211,
      "grad_norm": 0.00011462962720543146,
      "learning_rate": 6.108233939172858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61984936,
      "step": 106810
    },
    {
      "epoch": 15.90929401251117,
      "grad_norm": 21.331546783447266,
      "learning_rate": 6.106105884277213e-06,
      "loss": 0.0704,
      "num_input_tokens_seen": 61987624,
      "step": 106815
    },
    {
      "epoch": 15.91003872505213,
      "grad_norm": 0.009838518686592579,
      "learning_rate": 6.1039781485747045e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 61990312,
      "step": 106820
    },
    {
      "epoch": 15.91078343759309,
      "grad_norm": 0.0013830499956384301,
      "learning_rate": 6.101850732101283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61993288,
      "step": 106825
    },
    {
      "epoch": 15.911528150134048,
      "grad_norm": 0.00022741866996511817,
      "learning_rate": 6.099723634892876e-06,
      "loss": 0.2188,
      "num_input_tokens_seen": 61996232,
      "step": 106830
    },
    {
      "epoch": 15.912272862675007,
      "grad_norm": 0.000285213376628235,
      "learning_rate": 6.097596856985435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 61999240,
      "step": 106835
    },
    {
      "epoch": 15.913017575215967,
      "grad_norm": 0.000459645118098706,
      "learning_rate": 6.095470398414879e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62002184,
      "step": 106840
    },
    {
      "epoch": 15.913762287756926,
      "grad_norm": 0.0003066006756853312,
      "learning_rate": 6.093344259217143e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62005288,
      "step": 106845
    },
    {
      "epoch": 15.914507000297885,
      "grad_norm": 0.007454490289092064,
      "learning_rate": 6.091218439428134e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62008232,
      "step": 106850
    },
    {
      "epoch": 15.915251712838844,
      "grad_norm": 0.0007930586580187082,
      "learning_rate": 6.089092939083779e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62011240,
      "step": 106855
    },
    {
      "epoch": 15.915996425379804,
      "grad_norm": 0.002616838552057743,
      "learning_rate": 6.0869677582199775e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62014312,
      "step": 106860
    },
    {
      "epoch": 15.916741137920763,
      "grad_norm": 0.01522114872932434,
      "learning_rate": 6.084842896872625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62017288,
      "step": 106865
    },
    {
      "epoch": 15.917485850461722,
      "grad_norm": 2.0025256162625737e-05,
      "learning_rate": 6.082718355077635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62020456,
      "step": 106870
    },
    {
      "epoch": 15.91823056300268,
      "grad_norm": 0.0006824918673373759,
      "learning_rate": 6.080594132870885e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62023176,
      "step": 106875
    },
    {
      "epoch": 15.918975275543641,
      "grad_norm": 0.0005252467235550284,
      "learning_rate": 6.078470230288274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62026568,
      "step": 106880
    },
    {
      "epoch": 15.9197199880846,
      "grad_norm": 0.00014455437485594302,
      "learning_rate": 6.07634664736568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62029512,
      "step": 106885
    },
    {
      "epoch": 15.920464700625558,
      "grad_norm": 0.00017891147581394762,
      "learning_rate": 6.074223384138977e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62032264,
      "step": 106890
    },
    {
      "epoch": 15.921209413166517,
      "grad_norm": 0.004589854273945093,
      "learning_rate": 6.072100440644033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62034984,
      "step": 106895
    },
    {
      "epoch": 15.921954125707478,
      "grad_norm": 4.126489147893153e-05,
      "learning_rate": 6.069977816916705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62038088,
      "step": 106900
    },
    {
      "epoch": 15.922698838248436,
      "grad_norm": 0.00019222834089305252,
      "learning_rate": 6.067855512992873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62040776,
      "step": 106905
    },
    {
      "epoch": 15.923443550789395,
      "grad_norm": 0.0010309587232768536,
      "learning_rate": 6.065733528908371e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62043592,
      "step": 106910
    },
    {
      "epoch": 15.924188263330354,
      "grad_norm": 0.002030580537393689,
      "learning_rate": 6.0636118646990644e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62046568,
      "step": 106915
    },
    {
      "epoch": 15.924932975871315,
      "grad_norm": 0.0009682232048362494,
      "learning_rate": 6.061490520400784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62049416,
      "step": 106920
    },
    {
      "epoch": 15.925677688412273,
      "grad_norm": 0.014120863750576973,
      "learning_rate": 6.059369496049377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62052552,
      "step": 106925
    },
    {
      "epoch": 15.926422400953232,
      "grad_norm": 6.235755427042022e-05,
      "learning_rate": 6.05724879168067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62055720,
      "step": 106930
    },
    {
      "epoch": 15.92716711349419,
      "grad_norm": 0.0003734012716449797,
      "learning_rate": 6.055128407330493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62058952,
      "step": 106935
    },
    {
      "epoch": 15.92791182603515,
      "grad_norm": 0.00011779213673435152,
      "learning_rate": 6.053008343034671e-06,
      "loss": 0.0021,
      "num_input_tokens_seen": 62061640,
      "step": 106940
    },
    {
      "epoch": 15.92865653857611,
      "grad_norm": 0.000689732376486063,
      "learning_rate": 6.0508885988290075e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62064328,
      "step": 106945
    },
    {
      "epoch": 15.929401251117069,
      "grad_norm": 0.012312844395637512,
      "learning_rate": 6.04876917474933e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62067272,
      "step": 106950
    },
    {
      "epoch": 15.930145963658028,
      "grad_norm": 0.004951194394379854,
      "learning_rate": 6.046650070831436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62069864,
      "step": 106955
    },
    {
      "epoch": 15.930890676198988,
      "grad_norm": 0.00010380517778685316,
      "learning_rate": 6.044531287111124e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62072616,
      "step": 106960
    },
    {
      "epoch": 15.931635388739947,
      "grad_norm": 0.010543989948928356,
      "learning_rate": 6.042412823624186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62075720,
      "step": 106965
    },
    {
      "epoch": 15.932380101280906,
      "grad_norm": 3.7182922824285924e-05,
      "learning_rate": 6.040294680406422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62078888,
      "step": 106970
    },
    {
      "epoch": 15.933124813821864,
      "grad_norm": 0.00014320792979560792,
      "learning_rate": 6.0381768574936104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62081640,
      "step": 106975
    },
    {
      "epoch": 15.933869526362823,
      "grad_norm": 0.00019072914437856525,
      "learning_rate": 6.03605935492152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62084584,
      "step": 106980
    },
    {
      "epoch": 15.934614238903784,
      "grad_norm": 0.001348610850982368,
      "learning_rate": 6.0339421727259395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62087528,
      "step": 106985
    },
    {
      "epoch": 15.935358951444742,
      "grad_norm": 2.931307554244995,
      "learning_rate": 6.031825310942624e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 62090536,
      "step": 106990
    },
    {
      "epoch": 15.936103663985701,
      "grad_norm": 2.295236299687531e-05,
      "learning_rate": 6.029708769607348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62093704,
      "step": 106995
    },
    {
      "epoch": 15.93684837652666,
      "grad_norm": 0.006920004263520241,
      "learning_rate": 6.027592548755853e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62096584,
      "step": 107000
    },
    {
      "epoch": 15.93759308906762,
      "grad_norm": 0.1813102662563324,
      "learning_rate": 6.025476648423908e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 62099464,
      "step": 107005
    },
    {
      "epoch": 15.93833780160858,
      "grad_norm": 0.0030485736206173897,
      "learning_rate": 6.023361068647251e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62102440,
      "step": 107010
    },
    {
      "epoch": 15.939082514149538,
      "grad_norm": 6.780924741178751e-05,
      "learning_rate": 6.021245809461615e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62105192,
      "step": 107015
    },
    {
      "epoch": 15.939827226690497,
      "grad_norm": 7.493315206374973e-05,
      "learning_rate": 6.0191308709027475e-06,
      "loss": 0.1315,
      "num_input_tokens_seen": 62107880,
      "step": 107020
    },
    {
      "epoch": 15.940571939231457,
      "grad_norm": 0.09136344492435455,
      "learning_rate": 6.017016253006372e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62110696,
      "step": 107025
    },
    {
      "epoch": 15.941316651772416,
      "grad_norm": 0.00530565669760108,
      "learning_rate": 6.014901955808216e-06,
      "loss": 0.0006,
      "num_input_tokens_seen": 62113512,
      "step": 107030
    },
    {
      "epoch": 15.942061364313375,
      "grad_norm": 0.002281289780512452,
      "learning_rate": 6.012787979343987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62116616,
      "step": 107035
    },
    {
      "epoch": 15.942806076854334,
      "grad_norm": 0.0013197612715885043,
      "learning_rate": 6.010674323649415e-06,
      "loss": 0.0027,
      "num_input_tokens_seen": 62119336,
      "step": 107040
    },
    {
      "epoch": 15.943550789395294,
      "grad_norm": 0.0010897169122472405,
      "learning_rate": 6.0085609887601925e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62121992,
      "step": 107045
    },
    {
      "epoch": 15.944295501936253,
      "grad_norm": 1.2016402251902036e-05,
      "learning_rate": 6.0064479747120375e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62124968,
      "step": 107050
    },
    {
      "epoch": 15.945040214477212,
      "grad_norm": 0.0002827116986736655,
      "learning_rate": 6.004335281540641e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62127720,
      "step": 107055
    },
    {
      "epoch": 15.94578492701817,
      "grad_norm": 3.3776166674215347e-05,
      "learning_rate": 6.002222909281685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62130440,
      "step": 107060
    },
    {
      "epoch": 15.946529639559131,
      "grad_norm": 0.0014165458269417286,
      "learning_rate": 6.000110857970873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62133416,
      "step": 107065
    },
    {
      "epoch": 15.94727435210009,
      "grad_norm": 8.387382695218548e-05,
      "learning_rate": 5.9979991276438695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62136392,
      "step": 107070
    },
    {
      "epoch": 15.948019064641048,
      "grad_norm": 0.00019263084686826915,
      "learning_rate": 5.995887718336363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62139240,
      "step": 107075
    },
    {
      "epoch": 15.948763777182007,
      "grad_norm": 0.000282277847873047,
      "learning_rate": 5.993776630084022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62141864,
      "step": 107080
    },
    {
      "epoch": 15.949508489722968,
      "grad_norm": 0.0004490585415624082,
      "learning_rate": 5.991665862922505e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62144840,
      "step": 107085
    },
    {
      "epoch": 15.950253202263927,
      "grad_norm": 0.0007548900903202593,
      "learning_rate": 5.989555416887469e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62147848,
      "step": 107090
    },
    {
      "epoch": 15.950997914804885,
      "grad_norm": 9.828057955019176e-05,
      "learning_rate": 5.987445292014579e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62150376,
      "step": 107095
    },
    {
      "epoch": 15.951742627345844,
      "grad_norm": 0.00024084125470835716,
      "learning_rate": 5.985335488339477e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62153192,
      "step": 107100
    },
    {
      "epoch": 15.952487339886805,
      "grad_norm": 3.758733510039747e-05,
      "learning_rate": 5.983226005897799e-06,
      "loss": 0.0082,
      "num_input_tokens_seen": 62156328,
      "step": 107105
    },
    {
      "epoch": 15.953232052427763,
      "grad_norm": 5.569303539232351e-05,
      "learning_rate": 5.981116844725199e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62159368,
      "step": 107110
    },
    {
      "epoch": 15.953976764968722,
      "grad_norm": 0.0011049120221287012,
      "learning_rate": 5.979008004857292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62162120,
      "step": 107115
    },
    {
      "epoch": 15.95472147750968,
      "grad_norm": 0.000520202680490911,
      "learning_rate": 5.976899486329718e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62165096,
      "step": 107120
    },
    {
      "epoch": 15.95546619005064,
      "grad_norm": 0.0006501650204882026,
      "learning_rate": 5.974791289178089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62168328,
      "step": 107125
    },
    {
      "epoch": 15.9562109025916,
      "grad_norm": 0.00046299086534418166,
      "learning_rate": 5.972683413438029e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62171656,
      "step": 107130
    },
    {
      "epoch": 15.956955615132559,
      "grad_norm": 0.0002397869830019772,
      "learning_rate": 5.970575859145144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62174376,
      "step": 107135
    },
    {
      "epoch": 15.957700327673518,
      "grad_norm": 4.7681958676548675e-05,
      "learning_rate": 5.968468626335033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62177320,
      "step": 107140
    },
    {
      "epoch": 15.958445040214476,
      "grad_norm": 8.916130900615826e-05,
      "learning_rate": 5.966361715043312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62180232,
      "step": 107145
    },
    {
      "epoch": 15.959189752755437,
      "grad_norm": 3.115382060059346e-05,
      "learning_rate": 5.96425512530556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62182824,
      "step": 107150
    },
    {
      "epoch": 15.959934465296396,
      "grad_norm": 3.998841202701442e-05,
      "learning_rate": 5.962148857157373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62185576,
      "step": 107155
    },
    {
      "epoch": 15.960679177837354,
      "grad_norm": 0.00252775801345706,
      "learning_rate": 5.960042910634325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62188520,
      "step": 107160
    },
    {
      "epoch": 15.961423890378313,
      "grad_norm": 0.0003133770951535553,
      "learning_rate": 5.9579372857720085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62191432,
      "step": 107165
    },
    {
      "epoch": 15.962168602919274,
      "grad_norm": 0.00026458635693416,
      "learning_rate": 5.9558319826059775e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62193960,
      "step": 107170
    },
    {
      "epoch": 15.962913315460233,
      "grad_norm": 0.0006528827943839133,
      "learning_rate": 5.953727001171819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62196904,
      "step": 107175
    },
    {
      "epoch": 15.963658028001191,
      "grad_norm": 0.0014401879161596298,
      "learning_rate": 5.951622341505086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62199944,
      "step": 107180
    },
    {
      "epoch": 15.96440274054215,
      "grad_norm": 0.0005159326829016209,
      "learning_rate": 5.949518003641325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62202888,
      "step": 107185
    },
    {
      "epoch": 15.96514745308311,
      "grad_norm": 0.00012603877985384315,
      "learning_rate": 5.947413987616105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62205736,
      "step": 107190
    },
    {
      "epoch": 15.96589216562407,
      "grad_norm": 0.00019792217062786222,
      "learning_rate": 5.94531029346495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62208616,
      "step": 107195
    },
    {
      "epoch": 15.966636878165028,
      "grad_norm": 0.00029048678698018193,
      "learning_rate": 5.943206921223421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62211784,
      "step": 107200
    },
    {
      "epoch": 15.967381590705987,
      "grad_norm": 1.6405336282332428e-05,
      "learning_rate": 5.9411038709270365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62214664,
      "step": 107205
    },
    {
      "epoch": 15.968126303246947,
      "grad_norm": 0.0003575750452000648,
      "learning_rate": 5.939001142611336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62217256,
      "step": 107210
    },
    {
      "epoch": 15.968871015787906,
      "grad_norm": 9.59034005063586e-05,
      "learning_rate": 5.9368987363118415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62220008,
      "step": 107215
    },
    {
      "epoch": 15.969615728328865,
      "grad_norm": 0.0001787193032214418,
      "learning_rate": 5.934796652064065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62223016,
      "step": 107220
    },
    {
      "epoch": 15.970360440869824,
      "grad_norm": 5.92054748267401e-05,
      "learning_rate": 5.932694889903523e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62226088,
      "step": 107225
    },
    {
      "epoch": 15.971105153410784,
      "grad_norm": 0.0002960940473712981,
      "learning_rate": 5.930593449865715e-06,
      "loss": 0.1283,
      "num_input_tokens_seen": 62229192,
      "step": 107230
    },
    {
      "epoch": 15.971849865951743,
      "grad_norm": 0.0004590060270857066,
      "learning_rate": 5.928492331986155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62232040,
      "step": 107235
    },
    {
      "epoch": 15.972594578492702,
      "grad_norm": 0.0018986064242199063,
      "learning_rate": 5.9263915363003294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62235080,
      "step": 107240
    },
    {
      "epoch": 15.97333929103366,
      "grad_norm": 7.074449240462855e-05,
      "learning_rate": 5.924291062843737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62238056,
      "step": 107245
    },
    {
      "epoch": 15.974084003574621,
      "grad_norm": 0.019828369840979576,
      "learning_rate": 5.922190911651857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62241064,
      "step": 107250
    },
    {
      "epoch": 15.97482871611558,
      "grad_norm": 0.23572689294815063,
      "learning_rate": 5.920091082760174e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 62243688,
      "step": 107255
    },
    {
      "epoch": 15.975573428656539,
      "grad_norm": 0.00015406662714667618,
      "learning_rate": 5.917991576204163e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62246728,
      "step": 107260
    },
    {
      "epoch": 15.976318141197497,
      "grad_norm": 0.00357470172457397,
      "learning_rate": 5.915892392019282e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62249704,
      "step": 107265
    },
    {
      "epoch": 15.977062853738456,
      "grad_norm": 7.51456682337448e-05,
      "learning_rate": 5.913793530241011e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62252616,
      "step": 107270
    },
    {
      "epoch": 15.977807566279417,
      "grad_norm": 0.00011432801693445072,
      "learning_rate": 5.91169499090479e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62255816,
      "step": 107275
    },
    {
      "epoch": 15.978552278820375,
      "grad_norm": 3.066318095079623e-05,
      "learning_rate": 5.909596774046092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62258664,
      "step": 107280
    },
    {
      "epoch": 15.979296991361334,
      "grad_norm": 0.0023886978160589933,
      "learning_rate": 5.907498879700352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62261480,
      "step": 107285
    },
    {
      "epoch": 15.980041703902295,
      "grad_norm": 0.002461948897689581,
      "learning_rate": 5.905401307903013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62264392,
      "step": 107290
    },
    {
      "epoch": 15.980786416443253,
      "grad_norm": 0.00033796753268688917,
      "learning_rate": 5.903304058689507e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62267624,
      "step": 107295
    },
    {
      "epoch": 15.981531128984212,
      "grad_norm": 0.0004699337005149573,
      "learning_rate": 5.901207132095276e-06,
      "loss": 0.0329,
      "num_input_tokens_seen": 62270696,
      "step": 107300
    },
    {
      "epoch": 15.982275841525171,
      "grad_norm": 0.00014555579400621355,
      "learning_rate": 5.899110528155741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62273544,
      "step": 107305
    },
    {
      "epoch": 15.98302055406613,
      "grad_norm": 2.469904939061962e-05,
      "learning_rate": 5.897014246906312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62276232,
      "step": 107310
    },
    {
      "epoch": 15.98376526660709,
      "grad_norm": 0.008586455136537552,
      "learning_rate": 5.894918288382417e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62279432,
      "step": 107315
    },
    {
      "epoch": 15.984509979148049,
      "grad_norm": 0.00011230425297981128,
      "learning_rate": 5.8928226526194565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62282248,
      "step": 107320
    },
    {
      "epoch": 15.985254691689008,
      "grad_norm": 0.0009333127527497709,
      "learning_rate": 5.890727339652843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62285480,
      "step": 107325
    },
    {
      "epoch": 15.985999404229966,
      "grad_norm": 8.443612023256719e-05,
      "learning_rate": 5.888632349517962e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62288520,
      "step": 107330
    },
    {
      "epoch": 15.986744116770927,
      "grad_norm": 5.832376336911693e-05,
      "learning_rate": 5.886537682250221e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62291336,
      "step": 107335
    },
    {
      "epoch": 15.987488829311886,
      "grad_norm": 0.0005551307694986463,
      "learning_rate": 5.8844433378849986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62294152,
      "step": 107340
    },
    {
      "epoch": 15.988233541852845,
      "grad_norm": 0.0002899419632740319,
      "learning_rate": 5.882349316457672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62297224,
      "step": 107345
    },
    {
      "epoch": 15.988978254393803,
      "grad_norm": 0.0006500481977127492,
      "learning_rate": 5.88025561800363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62300040,
      "step": 107350
    },
    {
      "epoch": 15.989722966934764,
      "grad_norm": 0.0016517556505277753,
      "learning_rate": 5.878162242558239e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62302920,
      "step": 107355
    },
    {
      "epoch": 15.990467679475723,
      "grad_norm": 0.00043342047138139606,
      "learning_rate": 5.87606919015686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62306312,
      "step": 107360
    },
    {
      "epoch": 15.991212392016681,
      "grad_norm": 0.00015101354802027345,
      "learning_rate": 5.873976460834848e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62309320,
      "step": 107365
    },
    {
      "epoch": 15.99195710455764,
      "grad_norm": 0.0018720203079283237,
      "learning_rate": 5.871884054627571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62312392,
      "step": 107370
    },
    {
      "epoch": 15.9927018170986,
      "grad_norm": 0.0015593892894685268,
      "learning_rate": 5.869791971570368e-06,
      "loss": 0.1844,
      "num_input_tokens_seen": 62315176,
      "step": 107375
    },
    {
      "epoch": 15.99344652963956,
      "grad_norm": 0.00014653257676400244,
      "learning_rate": 5.867700211698593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62317992,
      "step": 107380
    },
    {
      "epoch": 15.994191242180518,
      "grad_norm": 0.000996196991764009,
      "learning_rate": 5.8656087750475765e-06,
      "loss": 0.0553,
      "num_input_tokens_seen": 62321032,
      "step": 107385
    },
    {
      "epoch": 15.994935954721477,
      "grad_norm": 0.00015742931282147765,
      "learning_rate": 5.863517661652645e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62323944,
      "step": 107390
    },
    {
      "epoch": 15.995680667262437,
      "grad_norm": 4.43056742369663e-05,
      "learning_rate": 5.861426871549142e-06,
      "loss": 0.0144,
      "num_input_tokens_seen": 62326760,
      "step": 107395
    },
    {
      "epoch": 15.996425379803396,
      "grad_norm": 0.0002882774278987199,
      "learning_rate": 5.859336404772372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62329544,
      "step": 107400
    },
    {
      "epoch": 15.997170092344355,
      "grad_norm": 0.0001658220135141164,
      "learning_rate": 5.857246261357666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62332520,
      "step": 107405
    },
    {
      "epoch": 15.997914804885314,
      "grad_norm": 0.0014880113303661346,
      "learning_rate": 5.855156441340331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62335560,
      "step": 107410
    },
    {
      "epoch": 15.998659517426274,
      "grad_norm": 3.0158486366271973,
      "learning_rate": 5.853066944755667e-06,
      "loss": 0.0405,
      "num_input_tokens_seen": 62338280,
      "step": 107415
    },
    {
      "epoch": 15.999404229967233,
      "grad_norm": 6.930307426955551e-05,
      "learning_rate": 5.8509777716389715e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62341320,
      "step": 107420
    },
    {
      "epoch": 16.0,
      "eval_loss": 2.5504274368286133,
      "eval_runtime": 49.1274,
      "eval_samples_per_second": 60.74,
      "eval_steps_per_second": 15.185,
      "num_input_tokens_seen": 62343120,
      "step": 107424
    },
    {
      "epoch": 16.000148942508194,
      "grad_norm": 6.954855918884277,
      "learning_rate": 5.848888922025553e-06,
      "loss": 0.0082,
      "num_input_tokens_seen": 62343728,
      "step": 107425
    },
    {
      "epoch": 16.00089365504915,
      "grad_norm": 0.028553782030940056,
      "learning_rate": 5.8468003959506915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62346640,
      "step": 107430
    },
    {
      "epoch": 16.00163836759011,
      "grad_norm": 0.0005274995928630233,
      "learning_rate": 5.844712193449662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62349584,
      "step": 107435
    },
    {
      "epoch": 16.002383080131068,
      "grad_norm": 0.0011076852679252625,
      "learning_rate": 5.842624314557757e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62352432,
      "step": 107440
    },
    {
      "epoch": 16.00312779267203,
      "grad_norm": 0.004678355995565653,
      "learning_rate": 5.840536759310239e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 62355632,
      "step": 107445
    },
    {
      "epoch": 16.00387250521299,
      "grad_norm": 0.0014626901829615235,
      "learning_rate": 5.838449527742388e-06,
      "loss": 0.0518,
      "num_input_tokens_seen": 62358608,
      "step": 107450
    },
    {
      "epoch": 16.004617217753946,
      "grad_norm": 5.5062214414647315e-06,
      "learning_rate": 5.836362619889446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62361680,
      "step": 107455
    },
    {
      "epoch": 16.005361930294907,
      "grad_norm": 8.812132728053257e-05,
      "learning_rate": 5.83427603578669e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62364464,
      "step": 107460
    },
    {
      "epoch": 16.006106642835864,
      "grad_norm": 0.00016176958160940558,
      "learning_rate": 5.832189775469363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62367376,
      "step": 107465
    },
    {
      "epoch": 16.006851355376824,
      "grad_norm": 0.0009050988010130823,
      "learning_rate": 5.8301038389727005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62370224,
      "step": 107470
    },
    {
      "epoch": 16.007596067917785,
      "grad_norm": 0.00014717289013788104,
      "learning_rate": 5.8280182263319545e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62373104,
      "step": 107475
    },
    {
      "epoch": 16.00834078045874,
      "grad_norm": 0.002870798809453845,
      "learning_rate": 5.825932937582357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62375824,
      "step": 107480
    },
    {
      "epoch": 16.009085492999702,
      "grad_norm": 0.0024873348884284496,
      "learning_rate": 5.823847972759136e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62378640,
      "step": 107485
    },
    {
      "epoch": 16.009830205540663,
      "grad_norm": 0.0007319115684367716,
      "learning_rate": 5.821763331897503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62381616,
      "step": 107490
    },
    {
      "epoch": 16.01057491808162,
      "grad_norm": 0.0010358558502048254,
      "learning_rate": 5.819679015032697e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62384560,
      "step": 107495
    },
    {
      "epoch": 16.01131963062258,
      "grad_norm": 0.0003759472456295043,
      "learning_rate": 5.81759502219992e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62387504,
      "step": 107500
    },
    {
      "epoch": 16.012064343163537,
      "grad_norm": 0.06618800759315491,
      "learning_rate": 5.815511353434372e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62390352,
      "step": 107505
    },
    {
      "epoch": 16.012809055704498,
      "grad_norm": 1.883311961137224e-05,
      "learning_rate": 5.813428008771266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62393232,
      "step": 107510
    },
    {
      "epoch": 16.01355376824546,
      "grad_norm": 0.00018621038179844618,
      "learning_rate": 5.811344988245787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62396208,
      "step": 107515
    },
    {
      "epoch": 16.014298480786415,
      "grad_norm": 0.0005487393937073648,
      "learning_rate": 5.809262291893141e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62399184,
      "step": 107520
    },
    {
      "epoch": 16.015043193327376,
      "grad_norm": 0.0011011589085683227,
      "learning_rate": 5.807179919748496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62401968,
      "step": 107525
    },
    {
      "epoch": 16.015787905868336,
      "grad_norm": 3.1909061362966895e-05,
      "learning_rate": 5.805097871847046e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62404752,
      "step": 107530
    },
    {
      "epoch": 16.016532618409293,
      "grad_norm": 0.0010971149895340204,
      "learning_rate": 5.803016148223953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62407856,
      "step": 107535
    },
    {
      "epoch": 16.017277330950254,
      "grad_norm": 8.286664524348453e-05,
      "learning_rate": 5.800934748914397e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62410512,
      "step": 107540
    },
    {
      "epoch": 16.01802204349121,
      "grad_norm": 0.000370800553355366,
      "learning_rate": 5.798853673953536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62413360,
      "step": 107545
    },
    {
      "epoch": 16.01876675603217,
      "grad_norm": 0.00047305997577495873,
      "learning_rate": 5.796772923376526e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62416368,
      "step": 107550
    },
    {
      "epoch": 16.019511468573132,
      "grad_norm": 0.0019214345375075936,
      "learning_rate": 5.794692497218521e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62419024,
      "step": 107555
    },
    {
      "epoch": 16.02025618111409,
      "grad_norm": 0.00013458893226925284,
      "learning_rate": 5.79261239551466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62421872,
      "step": 107560
    },
    {
      "epoch": 16.02100089365505,
      "grad_norm": 6.298234075075015e-05,
      "learning_rate": 5.790532618300099e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62424496,
      "step": 107565
    },
    {
      "epoch": 16.02174560619601,
      "grad_norm": 0.0003815685340669006,
      "learning_rate": 5.788453165609955e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62427536,
      "step": 107570
    },
    {
      "epoch": 16.022490318736967,
      "grad_norm": 0.0019348246278241277,
      "learning_rate": 5.786374037479381e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62430896,
      "step": 107575
    },
    {
      "epoch": 16.023235031277927,
      "grad_norm": 7.4811919148487505e-06,
      "learning_rate": 5.784295233943488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62434064,
      "step": 107580
    },
    {
      "epoch": 16.023979743818884,
      "grad_norm": 0.07815376669168472,
      "learning_rate": 5.7822167550373865e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62437040,
      "step": 107585
    },
    {
      "epoch": 16.024724456359845,
      "grad_norm": 2.31993126362795e-05,
      "learning_rate": 5.780138600796212e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62439920,
      "step": 107590
    },
    {
      "epoch": 16.025469168900806,
      "grad_norm": 1.801199141482357e-05,
      "learning_rate": 5.778060771255053e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62443024,
      "step": 107595
    },
    {
      "epoch": 16.026213881441763,
      "grad_norm": 0.00046545069199055433,
      "learning_rate": 5.775983266449029e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62446000,
      "step": 107600
    },
    {
      "epoch": 16.026958593982723,
      "grad_norm": 0.003101706737652421,
      "learning_rate": 5.773906086413222e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 62448848,
      "step": 107605
    },
    {
      "epoch": 16.027703306523684,
      "grad_norm": 2.735033012868371e-05,
      "learning_rate": 5.771829231182737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62451600,
      "step": 107610
    },
    {
      "epoch": 16.02844801906464,
      "grad_norm": 8.12617436167784e-05,
      "learning_rate": 5.769752700792655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62454544,
      "step": 107615
    },
    {
      "epoch": 16.0291927316056,
      "grad_norm": 0.00010626147559378296,
      "learning_rate": 5.767676495278057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62457552,
      "step": 107620
    },
    {
      "epoch": 16.029937444146558,
      "grad_norm": 0.0007625966682098806,
      "learning_rate": 5.765600614674019e-06,
      "loss": 0.0061,
      "num_input_tokens_seen": 62460560,
      "step": 107625
    },
    {
      "epoch": 16.03068215668752,
      "grad_norm": 0.0030215170700103045,
      "learning_rate": 5.763525059015601e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62463408,
      "step": 107630
    },
    {
      "epoch": 16.03142686922848,
      "grad_norm": 0.001643599011003971,
      "learning_rate": 5.761449828337881e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62466416,
      "step": 107635
    },
    {
      "epoch": 16.032171581769436,
      "grad_norm": 0.00032409786945208907,
      "learning_rate": 5.759374922675908e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62469168,
      "step": 107640
    },
    {
      "epoch": 16.032916294310397,
      "grad_norm": 2.6939173039863817e-05,
      "learning_rate": 5.757300342064748e-06,
      "loss": 0.0024,
      "num_input_tokens_seen": 62472016,
      "step": 107645
    },
    {
      "epoch": 16.033661006851354,
      "grad_norm": 3.985757575719617e-05,
      "learning_rate": 5.755226086539433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62475248,
      "step": 107650
    },
    {
      "epoch": 16.034405719392314,
      "grad_norm": 3.3945041650440544e-05,
      "learning_rate": 5.753152156135022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62478096,
      "step": 107655
    },
    {
      "epoch": 16.035150431933275,
      "grad_norm": 2.6233488824800588e-05,
      "learning_rate": 5.751078550886543e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62480848,
      "step": 107660
    },
    {
      "epoch": 16.03589514447423,
      "grad_norm": 0.0007317787385545671,
      "learning_rate": 5.749005270829022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62483568,
      "step": 107665
    },
    {
      "epoch": 16.036639857015192,
      "grad_norm": 8.303316280944273e-05,
      "learning_rate": 5.746932315997497e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62486544,
      "step": 107670
    },
    {
      "epoch": 16.037384569556153,
      "grad_norm": 0.00015136406000237912,
      "learning_rate": 5.744859686426976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62489424,
      "step": 107675
    },
    {
      "epoch": 16.03812928209711,
      "grad_norm": 0.0002722555655054748,
      "learning_rate": 5.742787382152489e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62492464,
      "step": 107680
    },
    {
      "epoch": 16.03887399463807,
      "grad_norm": 3.765287692658603e-05,
      "learning_rate": 5.740715403209035e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62495184,
      "step": 107685
    },
    {
      "epoch": 16.039618707179027,
      "grad_norm": 3.7422006130218506,
      "learning_rate": 5.738643749631623e-06,
      "loss": 0.008,
      "num_input_tokens_seen": 62497904,
      "step": 107690
    },
    {
      "epoch": 16.040363419719988,
      "grad_norm": 8.190374501282349e-05,
      "learning_rate": 5.736572421455239e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62500784,
      "step": 107695
    },
    {
      "epoch": 16.04110813226095,
      "grad_norm": 9.786709597392473e-06,
      "learning_rate": 5.734501418714891e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62503760,
      "step": 107700
    },
    {
      "epoch": 16.041852844801905,
      "grad_norm": 0.0001117192005040124,
      "learning_rate": 5.732430741445563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62506544,
      "step": 107705
    },
    {
      "epoch": 16.042597557342866,
      "grad_norm": 0.00029320642352104187,
      "learning_rate": 5.730360389682227e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62509392,
      "step": 107710
    },
    {
      "epoch": 16.043342269883826,
      "grad_norm": 0.00011765847739297897,
      "learning_rate": 5.728290363459876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62512048,
      "step": 107715
    },
    {
      "epoch": 16.044086982424783,
      "grad_norm": 0.00028990767896175385,
      "learning_rate": 5.726220662813464e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62515120,
      "step": 107720
    },
    {
      "epoch": 16.044831694965744,
      "grad_norm": 0.008131067268550396,
      "learning_rate": 5.72415128777797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62518160,
      "step": 107725
    },
    {
      "epoch": 16.0455764075067,
      "grad_norm": 0.0002319938939763233,
      "learning_rate": 5.722082238388346e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62521264,
      "step": 107730
    },
    {
      "epoch": 16.04632112004766,
      "grad_norm": 7.042480137897655e-05,
      "learning_rate": 5.720013514679553e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62524016,
      "step": 107735
    },
    {
      "epoch": 16.047065832588622,
      "grad_norm": 7.252257637446746e-05,
      "learning_rate": 5.71794511668654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62526832,
      "step": 107740
    },
    {
      "epoch": 16.04781054512958,
      "grad_norm": 0.0003761756815947592,
      "learning_rate": 5.7158770444442425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62529424,
      "step": 107745
    },
    {
      "epoch": 16.04855525767054,
      "grad_norm": 0.0005384897231124341,
      "learning_rate": 5.713809297987599e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62532240,
      "step": 107750
    },
    {
      "epoch": 16.0492999702115,
      "grad_norm": 0.00014023736002855003,
      "learning_rate": 5.7117418773515535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62535056,
      "step": 107755
    },
    {
      "epoch": 16.050044682752457,
      "grad_norm": 0.0006765394355170429,
      "learning_rate": 5.709674782571023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62538000,
      "step": 107760
    },
    {
      "epoch": 16.050789395293418,
      "grad_norm": 0.00024182291235774755,
      "learning_rate": 5.707608013680923e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62541200,
      "step": 107765
    },
    {
      "epoch": 16.051534107834375,
      "grad_norm": 0.00013228741590864956,
      "learning_rate": 5.705541570716189e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62544400,
      "step": 107770
    },
    {
      "epoch": 16.052278820375335,
      "grad_norm": 1.2614375009434298e-05,
      "learning_rate": 5.70347545371171e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62547440,
      "step": 107775
    },
    {
      "epoch": 16.053023532916296,
      "grad_norm": 0.00013797858264297247,
      "learning_rate": 5.701409662702409e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62550384,
      "step": 107780
    },
    {
      "epoch": 16.053768245457253,
      "grad_norm": 0.000301182473776862,
      "learning_rate": 5.699344197723178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62553360,
      "step": 107785
    },
    {
      "epoch": 16.054512957998213,
      "grad_norm": 4.9299247621092945e-05,
      "learning_rate": 5.697279058808902e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62556432,
      "step": 107790
    },
    {
      "epoch": 16.055257670539174,
      "grad_norm": 0.0045570447109639645,
      "learning_rate": 5.6952142459944845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62559248,
      "step": 107795
    },
    {
      "epoch": 16.05600238308013,
      "grad_norm": 0.014836086891591549,
      "learning_rate": 5.693149759314798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62561968,
      "step": 107800
    },
    {
      "epoch": 16.05674709562109,
      "grad_norm": 5.75883750570938e-05,
      "learning_rate": 5.691085598804727e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62564496,
      "step": 107805
    },
    {
      "epoch": 16.057491808162048,
      "grad_norm": 0.0004972618189640343,
      "learning_rate": 5.689021764499142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62567440,
      "step": 107810
    },
    {
      "epoch": 16.05823652070301,
      "grad_norm": 0.00031512859277427197,
      "learning_rate": 5.6869582564329085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62570064,
      "step": 107815
    },
    {
      "epoch": 16.05898123324397,
      "grad_norm": 0.00033635133877396584,
      "learning_rate": 5.684895074640884e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62572688,
      "step": 107820
    },
    {
      "epoch": 16.059725945784926,
      "grad_norm": 6.749034946551546e-05,
      "learning_rate": 5.682832219157922e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62575632,
      "step": 107825
    },
    {
      "epoch": 16.060470658325887,
      "grad_norm": 0.004711398854851723,
      "learning_rate": 5.68076969001888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62578416,
      "step": 107830
    },
    {
      "epoch": 16.061215370866844,
      "grad_norm": 0.0007553664036095142,
      "learning_rate": 5.678707487258594e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62581104,
      "step": 107835
    },
    {
      "epoch": 16.061960083407804,
      "grad_norm": 1.9713663277798332e-05,
      "learning_rate": 5.676645610911916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62583888,
      "step": 107840
    },
    {
      "epoch": 16.062704795948765,
      "grad_norm": 0.0002908855676651001,
      "learning_rate": 5.674584061013663e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 62586896,
      "step": 107845
    },
    {
      "epoch": 16.06344950848972,
      "grad_norm": 0.00032249753712676466,
      "learning_rate": 5.672522837598676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62590352,
      "step": 107850
    },
    {
      "epoch": 16.064194221030682,
      "grad_norm": 0.0001984186819754541,
      "learning_rate": 5.670461940701768e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62593584,
      "step": 107855
    },
    {
      "epoch": 16.064938933571643,
      "grad_norm": 6.400868005584925e-05,
      "learning_rate": 5.668401370357765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62596464,
      "step": 107860
    },
    {
      "epoch": 16.0656836461126,
      "grad_norm": 4.472936052479781e-05,
      "learning_rate": 5.666341126601474e-06,
      "loss": 0.0468,
      "num_input_tokens_seen": 62599184,
      "step": 107865
    },
    {
      "epoch": 16.06642835865356,
      "grad_norm": 0.00014108026516623795,
      "learning_rate": 5.664281209467692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62602160,
      "step": 107870
    },
    {
      "epoch": 16.067173071194517,
      "grad_norm": 7.313372771022841e-05,
      "learning_rate": 5.662221618991234e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62604976,
      "step": 107875
    },
    {
      "epoch": 16.067917783735478,
      "grad_norm": 7.687154720770195e-05,
      "learning_rate": 5.660162355206888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62607536,
      "step": 107880
    },
    {
      "epoch": 16.06866249627644,
      "grad_norm": 3.977614142058883e-06,
      "learning_rate": 5.658103418149443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62610416,
      "step": 107885
    },
    {
      "epoch": 16.069407208817395,
      "grad_norm": 0.039662741124629974,
      "learning_rate": 5.656044807853675e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62613392,
      "step": 107890
    },
    {
      "epoch": 16.070151921358356,
      "grad_norm": 0.00021342883701436222,
      "learning_rate": 5.653986524354377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62616560,
      "step": 107895
    },
    {
      "epoch": 16.070896633899316,
      "grad_norm": 0.001060294103808701,
      "learning_rate": 5.651928567686307e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62619696,
      "step": 107900
    },
    {
      "epoch": 16.071641346440273,
      "grad_norm": 1.0899831067945343e-05,
      "learning_rate": 5.649870937884247e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62622576,
      "step": 107905
    },
    {
      "epoch": 16.072386058981234,
      "grad_norm": 0.00022353121312335134,
      "learning_rate": 5.647813634982952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62625456,
      "step": 107910
    },
    {
      "epoch": 16.07313077152219,
      "grad_norm": 0.0001181596890091896,
      "learning_rate": 5.6457566590171675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62628208,
      "step": 107915
    },
    {
      "epoch": 16.07387548406315,
      "grad_norm": 0.00020175632380414754,
      "learning_rate": 5.64370001002166e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62631152,
      "step": 107920
    },
    {
      "epoch": 16.074620196604112,
      "grad_norm": 0.00014505469880532473,
      "learning_rate": 5.641643688031162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62634096,
      "step": 107925
    },
    {
      "epoch": 16.07536490914507,
      "grad_norm": 1.2008221347059589e-05,
      "learning_rate": 5.639587693080428e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62637104,
      "step": 107930
    },
    {
      "epoch": 16.07610962168603,
      "grad_norm": 0.0002070543123409152,
      "learning_rate": 5.637532025204173e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62640016,
      "step": 107935
    },
    {
      "epoch": 16.07685433422699,
      "grad_norm": 0.001362497452646494,
      "learning_rate": 5.635476684437144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62642896,
      "step": 107940
    },
    {
      "epoch": 16.077599046767947,
      "grad_norm": 1.8229367924504913e-05,
      "learning_rate": 5.633421670814054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62645968,
      "step": 107945
    },
    {
      "epoch": 16.078343759308908,
      "grad_norm": 0.006472880952060223,
      "learning_rate": 5.631366984369624e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62648784,
      "step": 107950
    },
    {
      "epoch": 16.079088471849865,
      "grad_norm": 0.0015302557731047273,
      "learning_rate": 5.629312625138561e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62651856,
      "step": 107955
    },
    {
      "epoch": 16.079833184390825,
      "grad_norm": 8.801602234598249e-05,
      "learning_rate": 5.627258593155568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62654512,
      "step": 107960
    },
    {
      "epoch": 16.080577896931786,
      "grad_norm": 0.00012192264694022015,
      "learning_rate": 5.625204888455357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62657104,
      "step": 107965
    },
    {
      "epoch": 16.081322609472743,
      "grad_norm": 6.969393871258944e-05,
      "learning_rate": 5.623151511072613e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62659664,
      "step": 107970
    },
    {
      "epoch": 16.082067322013703,
      "grad_norm": 0.0012748738517984748,
      "learning_rate": 5.6210984610420345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62662480,
      "step": 107975
    },
    {
      "epoch": 16.082812034554664,
      "grad_norm": 2.995179602294229e-05,
      "learning_rate": 5.619045738398299e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62665104,
      "step": 107980
    },
    {
      "epoch": 16.08355674709562,
      "grad_norm": 3.115348954452202e-05,
      "learning_rate": 5.616993343176091e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62667856,
      "step": 107985
    },
    {
      "epoch": 16.08430145963658,
      "grad_norm": 0.00045884744031354785,
      "learning_rate": 5.614941275410082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62670608,
      "step": 107990
    },
    {
      "epoch": 16.085046172177538,
      "grad_norm": 4.250301935826428e-05,
      "learning_rate": 5.61288953513493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62673552,
      "step": 107995
    },
    {
      "epoch": 16.0857908847185,
      "grad_norm": 0.00041758595034480095,
      "learning_rate": 5.610838122385312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62676336,
      "step": 108000
    },
    {
      "epoch": 16.08653559725946,
      "grad_norm": 0.000134633548441343,
      "learning_rate": 5.608787037195873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62679344,
      "step": 108005
    },
    {
      "epoch": 16.087280309800416,
      "grad_norm": 0.00028127513360232115,
      "learning_rate": 5.606736279601274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62681968,
      "step": 108010
    },
    {
      "epoch": 16.088025022341377,
      "grad_norm": 0.0007283027516677976,
      "learning_rate": 5.6046858496361545e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62684464,
      "step": 108015
    },
    {
      "epoch": 16.088769734882334,
      "grad_norm": 0.0023717142175883055,
      "learning_rate": 5.602635747335155e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62687152,
      "step": 108020
    },
    {
      "epoch": 16.089514447423294,
      "grad_norm": 7.960782386362553e-05,
      "learning_rate": 5.600585972732911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62689936,
      "step": 108025
    },
    {
      "epoch": 16.090259159964255,
      "grad_norm": 0.0004689321212936193,
      "learning_rate": 5.598536525864042e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62693168,
      "step": 108030
    },
    {
      "epoch": 16.091003872505212,
      "grad_norm": 0.00019303473527543247,
      "learning_rate": 5.59648740676319e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62696144,
      "step": 108035
    },
    {
      "epoch": 16.091748585046172,
      "grad_norm": 2.5046581868082285e-05,
      "learning_rate": 5.594438615464953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62698896,
      "step": 108040
    },
    {
      "epoch": 16.092493297587133,
      "grad_norm": 19.30599594116211,
      "learning_rate": 5.59239015200396e-06,
      "loss": 0.225,
      "num_input_tokens_seen": 62701744,
      "step": 108045
    },
    {
      "epoch": 16.09323801012809,
      "grad_norm": 3.958159504691139e-05,
      "learning_rate": 5.590342016414801e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62704656,
      "step": 108050
    },
    {
      "epoch": 16.09398272266905,
      "grad_norm": 9.775048238225281e-05,
      "learning_rate": 5.588294208732098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62707600,
      "step": 108055
    },
    {
      "epoch": 16.094727435210007,
      "grad_norm": 0.0007700195419602096,
      "learning_rate": 5.586246728990424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62710288,
      "step": 108060
    },
    {
      "epoch": 16.095472147750968,
      "grad_norm": 3.593833025661297e-05,
      "learning_rate": 5.584199577224389e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62712944,
      "step": 108065
    },
    {
      "epoch": 16.09621686029193,
      "grad_norm": 0.0016553252935409546,
      "learning_rate": 5.58215275346857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62715824,
      "step": 108070
    },
    {
      "epoch": 16.096961572832885,
      "grad_norm": 0.045089270919561386,
      "learning_rate": 5.580106257757542e-06,
      "loss": 0.0231,
      "num_input_tokens_seen": 62718704,
      "step": 108075
    },
    {
      "epoch": 16.097706285373846,
      "grad_norm": 3.503549305605702e-05,
      "learning_rate": 5.5780600901258774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62721872,
      "step": 108080
    },
    {
      "epoch": 16.098450997914806,
      "grad_norm": 0.008349296636879444,
      "learning_rate": 5.576014250608152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62724624,
      "step": 108085
    },
    {
      "epoch": 16.099195710455763,
      "grad_norm": 0.0012559862807393074,
      "learning_rate": 5.573968739238927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62727504,
      "step": 108090
    },
    {
      "epoch": 16.099940422996724,
      "grad_norm": 2.870345451810863e-05,
      "learning_rate": 5.571923556052749e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62730640,
      "step": 108095
    },
    {
      "epoch": 16.10068513553768,
      "grad_norm": 7.893448491813615e-05,
      "learning_rate": 5.569878701084183e-06,
      "loss": 0.002,
      "num_input_tokens_seen": 62733392,
      "step": 108100
    },
    {
      "epoch": 16.10142984807864,
      "grad_norm": 0.0002787243574857712,
      "learning_rate": 5.567834174367767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62736048,
      "step": 108105
    },
    {
      "epoch": 16.102174560619602,
      "grad_norm": 0.13903462886810303,
      "learning_rate": 5.565789975938038e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 62738928,
      "step": 108110
    },
    {
      "epoch": 16.10291927316056,
      "grad_norm": 0.00037477759178727865,
      "learning_rate": 5.56374610582954e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62741904,
      "step": 108115
    },
    {
      "epoch": 16.10366398570152,
      "grad_norm": 0.004292232450097799,
      "learning_rate": 5.561702564076793e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62745168,
      "step": 108120
    },
    {
      "epoch": 16.10440869824248,
      "grad_norm": 7.030231699900469e-06,
      "learning_rate": 5.5596593507143304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62747824,
      "step": 108125
    },
    {
      "epoch": 16.105153410783437,
      "grad_norm": 0.00021644466323778033,
      "learning_rate": 5.557616465776658e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62750832,
      "step": 108130
    },
    {
      "epoch": 16.105898123324398,
      "grad_norm": 0.00015486816118936986,
      "learning_rate": 5.5555739092983e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62753648,
      "step": 108135
    },
    {
      "epoch": 16.106642835865355,
      "grad_norm": 7.013599679339677e-05,
      "learning_rate": 5.553531681313762e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62756400,
      "step": 108140
    },
    {
      "epoch": 16.107387548406315,
      "grad_norm": 4.858823376707733e-05,
      "learning_rate": 5.5514897818575415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62759152,
      "step": 108145
    },
    {
      "epoch": 16.108132260947276,
      "grad_norm": 4.550152152660303e-05,
      "learning_rate": 5.549448210964131e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62762160,
      "step": 108150
    },
    {
      "epoch": 16.108876973488233,
      "grad_norm": 0.00043934243149124086,
      "learning_rate": 5.5474069686680205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62764976,
      "step": 108155
    },
    {
      "epoch": 16.109621686029193,
      "grad_norm": 0.006289506796747446,
      "learning_rate": 5.545366055003706e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62767920,
      "step": 108160
    },
    {
      "epoch": 16.11036639857015,
      "grad_norm": 0.0001305137702729553,
      "learning_rate": 5.54332547000565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62771312,
      "step": 108165
    },
    {
      "epoch": 16.11111111111111,
      "grad_norm": 0.0003568510292097926,
      "learning_rate": 5.541285213708342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62774160,
      "step": 108170
    },
    {
      "epoch": 16.11185582365207,
      "grad_norm": 5.0181559345219284e-05,
      "learning_rate": 5.539245286146238e-06,
      "loss": 0.0131,
      "num_input_tokens_seen": 62777296,
      "step": 108175
    },
    {
      "epoch": 16.11260053619303,
      "grad_norm": 0.00018903838645201176,
      "learning_rate": 5.537205687353813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62780016,
      "step": 108180
    },
    {
      "epoch": 16.11334524873399,
      "grad_norm": 7.922726945253089e-05,
      "learning_rate": 5.535166417365517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62782800,
      "step": 108185
    },
    {
      "epoch": 16.11408996127495,
      "grad_norm": 5.5870230426080525e-05,
      "learning_rate": 5.533127476215791e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62785712,
      "step": 108190
    },
    {
      "epoch": 16.114834673815906,
      "grad_norm": 4.676694152294658e-05,
      "learning_rate": 5.531088863939101e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62788720,
      "step": 108195
    },
    {
      "epoch": 16.115579386356867,
      "grad_norm": 0.00033158910810016096,
      "learning_rate": 5.529050580569869e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62791504,
      "step": 108200
    },
    {
      "epoch": 16.116324098897824,
      "grad_norm": 0.00015033593808766454,
      "learning_rate": 5.527012626142547e-06,
      "loss": 0.1781,
      "num_input_tokens_seen": 62794352,
      "step": 108205
    },
    {
      "epoch": 16.117068811438784,
      "grad_norm": 0.0003584156802389771,
      "learning_rate": 5.524975000691554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62797168,
      "step": 108210
    },
    {
      "epoch": 16.117813523979745,
      "grad_norm": 0.0003099501191172749,
      "learning_rate": 5.522937704251316e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62799952,
      "step": 108215
    },
    {
      "epoch": 16.118558236520702,
      "grad_norm": 0.006339904852211475,
      "learning_rate": 5.520900736856241e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62802800,
      "step": 108220
    },
    {
      "epoch": 16.119302949061662,
      "grad_norm": 0.0004082567756995559,
      "learning_rate": 5.5188640985407575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62805744,
      "step": 108225
    },
    {
      "epoch": 16.120047661602623,
      "grad_norm": 5.1975952374050394e-05,
      "learning_rate": 5.516827789339266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62808976,
      "step": 108230
    },
    {
      "epoch": 16.12079237414358,
      "grad_norm": 0.00032919380464591086,
      "learning_rate": 5.51479180928616e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62811888,
      "step": 108235
    },
    {
      "epoch": 16.12153708668454,
      "grad_norm": 0.000765400065574795,
      "learning_rate": 5.5127561584158495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62814736,
      "step": 108240
    },
    {
      "epoch": 16.122281799225497,
      "grad_norm": 0.0005488699534907937,
      "learning_rate": 5.510720836762712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62818000,
      "step": 108245
    },
    {
      "epoch": 16.123026511766458,
      "grad_norm": 0.31973791122436523,
      "learning_rate": 5.508685844361142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62821072,
      "step": 108250
    },
    {
      "epoch": 16.12377122430742,
      "grad_norm": 0.00046828543418087065,
      "learning_rate": 5.506651181245509e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62823792,
      "step": 108255
    },
    {
      "epoch": 16.124515936848375,
      "grad_norm": 0.0008827188867144287,
      "learning_rate": 5.5046168474502e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62827152,
      "step": 108260
    },
    {
      "epoch": 16.125260649389336,
      "grad_norm": 0.0010628505842760205,
      "learning_rate": 5.502582843009577e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62830704,
      "step": 108265
    },
    {
      "epoch": 16.126005361930297,
      "grad_norm": 0.0005667193327099085,
      "learning_rate": 5.500549167957989e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62833456,
      "step": 108270
    },
    {
      "epoch": 16.126750074471254,
      "grad_norm": 0.07866796851158142,
      "learning_rate": 5.498515822329814e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62836080,
      "step": 108275
    },
    {
      "epoch": 16.127494787012214,
      "grad_norm": 7.620813266839832e-05,
      "learning_rate": 5.496482806159395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62838960,
      "step": 108280
    },
    {
      "epoch": 16.12823949955317,
      "grad_norm": 0.0004184930876363069,
      "learning_rate": 5.494450119481073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62841872,
      "step": 108285
    },
    {
      "epoch": 16.12898421209413,
      "grad_norm": 0.001349685713648796,
      "learning_rate": 5.492417762329188e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62844528,
      "step": 108290
    },
    {
      "epoch": 16.129728924635092,
      "grad_norm": 8.111286297207698e-05,
      "learning_rate": 5.490385734738082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62847632,
      "step": 108295
    },
    {
      "epoch": 16.13047363717605,
      "grad_norm": 0.00020573442452587187,
      "learning_rate": 5.4883540367420775e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62850384,
      "step": 108300
    },
    {
      "epoch": 16.13121834971701,
      "grad_norm": 0.000807605218142271,
      "learning_rate": 5.486322668375504e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62853456,
      "step": 108305
    },
    {
      "epoch": 16.13196306225797,
      "grad_norm": 1.9881439584423788e-05,
      "learning_rate": 5.484291629672677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62856528,
      "step": 108310
    },
    {
      "epoch": 16.132707774798927,
      "grad_norm": 0.0012069523800164461,
      "learning_rate": 5.482260920667903e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62859536,
      "step": 108315
    },
    {
      "epoch": 16.133452487339888,
      "grad_norm": 4.007347160950303e-05,
      "learning_rate": 5.480230541395501e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62862672,
      "step": 108320
    },
    {
      "epoch": 16.134197199880845,
      "grad_norm": 3.071665560128167e-05,
      "learning_rate": 5.478200491889754e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62865488,
      "step": 108325
    },
    {
      "epoch": 16.134941912421805,
      "grad_norm": 1.1895912885665894,
      "learning_rate": 5.47617077218498e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62868720,
      "step": 108330
    },
    {
      "epoch": 16.135686624962766,
      "grad_norm": 0.10127321630716324,
      "learning_rate": 5.474141382315448e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62871568,
      "step": 108335
    },
    {
      "epoch": 16.136431337503723,
      "grad_norm": 3.593176370486617e-05,
      "learning_rate": 5.472112322315459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62874768,
      "step": 108340
    },
    {
      "epoch": 16.137176050044683,
      "grad_norm": 0.0004621527623385191,
      "learning_rate": 5.4700835922192885e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62877616,
      "step": 108345
    },
    {
      "epoch": 16.13792076258564,
      "grad_norm": 0.0006968721863813698,
      "learning_rate": 5.468055192061203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62880304,
      "step": 108350
    },
    {
      "epoch": 16.1386654751266,
      "grad_norm": 0.00014926439325790852,
      "learning_rate": 5.466027121875475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62883088,
      "step": 108355
    },
    {
      "epoch": 16.13941018766756,
      "grad_norm": 0.0013683052966371179,
      "learning_rate": 5.463999381696358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62886032,
      "step": 108360
    },
    {
      "epoch": 16.14015490020852,
      "grad_norm": 0.00043035653652623296,
      "learning_rate": 5.4619719715581215e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62889232,
      "step": 108365
    },
    {
      "epoch": 16.14089961274948,
      "grad_norm": 0.0001330199302174151,
      "learning_rate": 5.4599448914950055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62892144,
      "step": 108370
    },
    {
      "epoch": 16.14164432529044,
      "grad_norm": 0.002534284256398678,
      "learning_rate": 5.457918141541268e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62894800,
      "step": 108375
    },
    {
      "epoch": 16.142389037831396,
      "grad_norm": 0.0005472043994814157,
      "learning_rate": 5.455891721731135e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62897776,
      "step": 108380
    },
    {
      "epoch": 16.143133750372357,
      "grad_norm": 5.0075395847670734e-05,
      "learning_rate": 5.453865632098853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62900688,
      "step": 108385
    },
    {
      "epoch": 16.143878462913314,
      "grad_norm": 3.1119759569264716e-06,
      "learning_rate": 5.451839872678646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62903504,
      "step": 108390
    },
    {
      "epoch": 16.144623175454274,
      "grad_norm": 0.00017795605526771396,
      "learning_rate": 5.449814443504731e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62906416,
      "step": 108395
    },
    {
      "epoch": 16.145367887995235,
      "grad_norm": 9.086781210498884e-05,
      "learning_rate": 5.447789344611337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62909584,
      "step": 108400
    },
    {
      "epoch": 16.146112600536192,
      "grad_norm": 0.0001384709612466395,
      "learning_rate": 5.445764576032672e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 62912464,
      "step": 108405
    },
    {
      "epoch": 16.146857313077152,
      "grad_norm": 0.0016768223140388727,
      "learning_rate": 5.44374013780293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62915152,
      "step": 108410
    },
    {
      "epoch": 16.147602025618113,
      "grad_norm": 5.0542279495857656e-05,
      "learning_rate": 5.441716029956331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62918448,
      "step": 108415
    },
    {
      "epoch": 16.14834673815907,
      "grad_norm": 8.566380711272359e-05,
      "learning_rate": 5.439692252527062e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62921520,
      "step": 108420
    },
    {
      "epoch": 16.14909145070003,
      "grad_norm": 0.00041592289926484227,
      "learning_rate": 5.437668805549312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62924528,
      "step": 108425
    },
    {
      "epoch": 16.149836163240987,
      "grad_norm": 9.59355202212464e-06,
      "learning_rate": 5.435645689057256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62927632,
      "step": 108430
    },
    {
      "epoch": 16.150580875781948,
      "grad_norm": 0.0004103699466213584,
      "learning_rate": 5.433622903085092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62930800,
      "step": 108435
    },
    {
      "epoch": 16.15132558832291,
      "grad_norm": 0.00010449744149809703,
      "learning_rate": 5.4316004476669735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62933808,
      "step": 108440
    },
    {
      "epoch": 16.152070300863866,
      "grad_norm": 0.00040266726864501834,
      "learning_rate": 5.429578322837084e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62936848,
      "step": 108445
    },
    {
      "epoch": 16.152815013404826,
      "grad_norm": 0.0006534401327371597,
      "learning_rate": 5.4275565286295735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62939856,
      "step": 108450
    },
    {
      "epoch": 16.153559725945787,
      "grad_norm": 0.001327756093814969,
      "learning_rate": 5.425535065078608e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62942800,
      "step": 108455
    },
    {
      "epoch": 16.154304438486744,
      "grad_norm": 0.00011079004616476595,
      "learning_rate": 5.423513932218327e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62946000,
      "step": 108460
    },
    {
      "epoch": 16.155049151027704,
      "grad_norm": 0.00013566724373959005,
      "learning_rate": 5.421493130082889e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62949168,
      "step": 108465
    },
    {
      "epoch": 16.15579386356866,
      "grad_norm": 3.844631282845512e-05,
      "learning_rate": 5.419472658706423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62951984,
      "step": 108470
    },
    {
      "epoch": 16.15653857610962,
      "grad_norm": 7.709765486652032e-05,
      "learning_rate": 5.417452518123067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62954960,
      "step": 108475
    },
    {
      "epoch": 16.157283288650582,
      "grad_norm": 5.459427848109044e-05,
      "learning_rate": 5.415432708366949e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62957712,
      "step": 108480
    },
    {
      "epoch": 16.15802800119154,
      "grad_norm": 0.0003786813758779317,
      "learning_rate": 5.413413229472184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62960496,
      "step": 108485
    },
    {
      "epoch": 16.1587727137325,
      "grad_norm": 0.0009471179218962789,
      "learning_rate": 5.411394081472901e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62963408,
      "step": 108490
    },
    {
      "epoch": 16.15951742627346,
      "grad_norm": 0.06169437989592552,
      "learning_rate": 5.409375264403199e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62966544,
      "step": 108495
    },
    {
      "epoch": 16.160262138814417,
      "grad_norm": 0.000759333954192698,
      "learning_rate": 5.407356778297198e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 62969552,
      "step": 108500
    },
    {
      "epoch": 16.161006851355378,
      "grad_norm": 0.000228700548177585,
      "learning_rate": 5.4053386231889855e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 62972336,
      "step": 108505
    },
    {
      "epoch": 16.161751563896335,
      "grad_norm": 0.0001113170146709308,
      "learning_rate": 5.403320799112666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62975024,
      "step": 108510
    },
    {
      "epoch": 16.162496276437295,
      "grad_norm": 0.00017165557073894888,
      "learning_rate": 5.401303306102326e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62978320,
      "step": 108515
    },
    {
      "epoch": 16.163240988978256,
      "grad_norm": 0.00016842683544382453,
      "learning_rate": 5.3992861441920425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62981200,
      "step": 108520
    },
    {
      "epoch": 16.163985701519213,
      "grad_norm": 0.0008729099645279348,
      "learning_rate": 5.397269313415903e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62984272,
      "step": 108525
    },
    {
      "epoch": 16.164730414060173,
      "grad_norm": 0.00014919375826139003,
      "learning_rate": 5.395252813807969e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62987344,
      "step": 108530
    },
    {
      "epoch": 16.16547512660113,
      "grad_norm": 2.5074534278246574e-05,
      "learning_rate": 5.39323664540232e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62990448,
      "step": 108535
    },
    {
      "epoch": 16.16621983914209,
      "grad_norm": 0.0001561669778311625,
      "learning_rate": 5.391220808233008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62993488,
      "step": 108540
    },
    {
      "epoch": 16.16696455168305,
      "grad_norm": 5.8067689678864554e-05,
      "learning_rate": 5.3892053023340935e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62996144,
      "step": 108545
    },
    {
      "epoch": 16.16770926422401,
      "grad_norm": 0.00023882203095126897,
      "learning_rate": 5.387190127739625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 62999056,
      "step": 108550
    },
    {
      "epoch": 16.16845397676497,
      "grad_norm": 0.00013692505308426917,
      "learning_rate": 5.3851752844836374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63002128,
      "step": 108555
    },
    {
      "epoch": 16.16919868930593,
      "grad_norm": 0.00039397331420332193,
      "learning_rate": 5.383160772600185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63004976,
      "step": 108560
    },
    {
      "epoch": 16.169943401846886,
      "grad_norm": 0.000445875950390473,
      "learning_rate": 5.381146592123287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63007696,
      "step": 108565
    },
    {
      "epoch": 16.170688114387847,
      "grad_norm": 8.11124627944082e-05,
      "learning_rate": 5.379132743086984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63010672,
      "step": 108570
    },
    {
      "epoch": 16.171432826928804,
      "grad_norm": 0.0005059547838754952,
      "learning_rate": 5.377119225525284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63013520,
      "step": 108575
    },
    {
      "epoch": 16.172177539469764,
      "grad_norm": 0.001166628673672676,
      "learning_rate": 5.375106039472219e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63016240,
      "step": 108580
    },
    {
      "epoch": 16.172922252010725,
      "grad_norm": 0.0002788428100757301,
      "learning_rate": 5.373093184961783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63019120,
      "step": 108585
    },
    {
      "epoch": 16.173666964551682,
      "grad_norm": 2.113033588102553e-05,
      "learning_rate": 5.371080662028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63021840,
      "step": 108590
    },
    {
      "epoch": 16.174411677092642,
      "grad_norm": 7.48562888475135e-05,
      "learning_rate": 5.369068470704855e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63024528,
      "step": 108595
    },
    {
      "epoch": 16.175156389633603,
      "grad_norm": 8.509180770488456e-05,
      "learning_rate": 5.367056611026341e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63027088,
      "step": 108600
    },
    {
      "epoch": 16.17590110217456,
      "grad_norm": 0.02567760832607746,
      "learning_rate": 5.36504508302646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63030160,
      "step": 108605
    },
    {
      "epoch": 16.17664581471552,
      "grad_norm": 0.001942104077897966,
      "learning_rate": 5.363033886739186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63033232,
      "step": 108610
    },
    {
      "epoch": 16.177390527256478,
      "grad_norm": 0.00011319700570311397,
      "learning_rate": 5.361023022198494e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 63036048,
      "step": 108615
    },
    {
      "epoch": 16.178135239797438,
      "grad_norm": 0.0010251315543428063,
      "learning_rate": 5.359012489438353e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63039088,
      "step": 108620
    },
    {
      "epoch": 16.1788799523384,
      "grad_norm": 7.540446677012369e-05,
      "learning_rate": 5.357002288492741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63041872,
      "step": 108625
    },
    {
      "epoch": 16.179624664879356,
      "grad_norm": 0.00010786359780468047,
      "learning_rate": 5.35499241939561e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63044784,
      "step": 108630
    },
    {
      "epoch": 16.180369377420316,
      "grad_norm": 8.126433385768905e-05,
      "learning_rate": 5.3529828821809065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63047696,
      "step": 108635
    },
    {
      "epoch": 16.181114089961277,
      "grad_norm": 9.7999072750099e-06,
      "learning_rate": 5.350973676882601e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63050832,
      "step": 108640
    },
    {
      "epoch": 16.181858802502234,
      "grad_norm": 0.001085376483388245,
      "learning_rate": 5.3489648035346144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63053744,
      "step": 108645
    },
    {
      "epoch": 16.182603515043194,
      "grad_norm": 0.00048370499280281365,
      "learning_rate": 5.346956262170902e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63056720,
      "step": 108650
    },
    {
      "epoch": 16.18334822758415,
      "grad_norm": 0.0015804902650415897,
      "learning_rate": 5.3449480528253825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63059920,
      "step": 108655
    },
    {
      "epoch": 16.18409294012511,
      "grad_norm": 3.057625508517958e-05,
      "learning_rate": 5.342940175531999e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63062672,
      "step": 108660
    },
    {
      "epoch": 16.184837652666072,
      "grad_norm": 0.0001374102575937286,
      "learning_rate": 5.3409326303246524e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63065392,
      "step": 108665
    },
    {
      "epoch": 16.18558236520703,
      "grad_norm": 1.8472233932698146e-05,
      "learning_rate": 5.338925417237275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63068464,
      "step": 108670
    },
    {
      "epoch": 16.18632707774799,
      "grad_norm": 0.0007019463228061795,
      "learning_rate": 5.336918536303773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63071408,
      "step": 108675
    },
    {
      "epoch": 16.187071790288947,
      "grad_norm": 4.465744859771803e-05,
      "learning_rate": 5.334911987558045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63074096,
      "step": 108680
    },
    {
      "epoch": 16.187816502829907,
      "grad_norm": 0.0005324348458088934,
      "learning_rate": 5.332905771033994e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63076720,
      "step": 108685
    },
    {
      "epoch": 16.188561215370868,
      "grad_norm": 6.079414379200898e-05,
      "learning_rate": 5.330899886765503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63079632,
      "step": 108690
    },
    {
      "epoch": 16.189305927911825,
      "grad_norm": 0.0019693560898303986,
      "learning_rate": 5.328894334786474e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63082736,
      "step": 108695
    },
    {
      "epoch": 16.190050640452785,
      "grad_norm": 0.00022405112395063043,
      "learning_rate": 5.326889115130779e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63085840,
      "step": 108700
    },
    {
      "epoch": 16.190795352993746,
      "grad_norm": 0.00023207844060380012,
      "learning_rate": 5.324884227832302e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 63088592,
      "step": 108705
    },
    {
      "epoch": 16.191540065534703,
      "grad_norm": 0.00036747020203620195,
      "learning_rate": 5.322879672924908e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 63091984,
      "step": 108710
    },
    {
      "epoch": 16.192284778075663,
      "grad_norm": 0.00047860961058177054,
      "learning_rate": 5.3208754504424585e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 63095120,
      "step": 108715
    },
    {
      "epoch": 16.19302949061662,
      "grad_norm": 1.553290530864615e-05,
      "learning_rate": 5.318871560418822e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63097968,
      "step": 108720
    },
    {
      "epoch": 16.19377420315758,
      "grad_norm": 4.710468419943936e-05,
      "learning_rate": 5.316868002887843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63100656,
      "step": 108725
    },
    {
      "epoch": 16.19451891569854,
      "grad_norm": 8.291796802950557e-06,
      "learning_rate": 5.314864777883377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63103568,
      "step": 108730
    },
    {
      "epoch": 16.1952636282395,
      "grad_norm": 1.5433648513862863e-05,
      "learning_rate": 5.3128618854392655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63106512,
      "step": 108735
    },
    {
      "epoch": 16.19600834078046,
      "grad_norm": 0.0006791968480683863,
      "learning_rate": 5.3108593255893376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63109456,
      "step": 108740
    },
    {
      "epoch": 16.19675305332142,
      "grad_norm": 5.505280205397867e-05,
      "learning_rate": 5.308857098367437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63112720,
      "step": 108745
    },
    {
      "epoch": 16.197497765862376,
      "grad_norm": 4.709950735559687e-05,
      "learning_rate": 5.306855203807382e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63116016,
      "step": 108750
    },
    {
      "epoch": 16.198242478403337,
      "grad_norm": 0.0001822580088628456,
      "learning_rate": 5.304853641942995e-06,
      "loss": 0.0974,
      "num_input_tokens_seen": 63118960,
      "step": 108755
    },
    {
      "epoch": 16.198987190944294,
      "grad_norm": 0.0006281065288931131,
      "learning_rate": 5.302852412808079e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63121776,
      "step": 108760
    },
    {
      "epoch": 16.199731903485254,
      "grad_norm": 0.00029151226044632494,
      "learning_rate": 5.3008515164364585e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63124880,
      "step": 108765
    },
    {
      "epoch": 16.200476616026215,
      "grad_norm": 0.00010634135833242908,
      "learning_rate": 5.298850952861925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63127536,
      "step": 108770
    },
    {
      "epoch": 16.201221328567172,
      "grad_norm": 0.0029049611184746027,
      "learning_rate": 5.296850722118288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63130384,
      "step": 108775
    },
    {
      "epoch": 16.201966041108133,
      "grad_norm": 0.009975651279091835,
      "learning_rate": 5.294850824239325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63133136,
      "step": 108780
    },
    {
      "epoch": 16.202710753649093,
      "grad_norm": 0.0015317562501877546,
      "learning_rate": 5.292851259258838e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63136272,
      "step": 108785
    },
    {
      "epoch": 16.20345546619005,
      "grad_norm": 0.0005884260754100978,
      "learning_rate": 5.2908520272106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63139504,
      "step": 108790
    },
    {
      "epoch": 16.20420017873101,
      "grad_norm": 0.0006046676426194608,
      "learning_rate": 5.288853128128377e-06,
      "loss": 0.0284,
      "num_input_tokens_seen": 63142320,
      "step": 108795
    },
    {
      "epoch": 16.204944891271968,
      "grad_norm": 2.056725679722149e-05,
      "learning_rate": 5.2868545620459535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63144944,
      "step": 108800
    },
    {
      "epoch": 16.205689603812928,
      "grad_norm": 0.017344018444418907,
      "learning_rate": 5.284856328997087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63148016,
      "step": 108805
    },
    {
      "epoch": 16.20643431635389,
      "grad_norm": 0.0006953030824661255,
      "learning_rate": 5.282858429015536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63150864,
      "step": 108810
    },
    {
      "epoch": 16.207179028894846,
      "grad_norm": 4.594725032802671e-05,
      "learning_rate": 5.280860862135045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63154000,
      "step": 108815
    },
    {
      "epoch": 16.207923741435806,
      "grad_norm": 9.28349545574747e-05,
      "learning_rate": 5.278863628389377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63156656,
      "step": 108820
    },
    {
      "epoch": 16.208668453976767,
      "grad_norm": 0.0009884602623060346,
      "learning_rate": 5.276866727812255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63161040,
      "step": 108825
    },
    {
      "epoch": 16.209413166517724,
      "grad_norm": 0.00012158339814050123,
      "learning_rate": 5.274870160437431e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63163920,
      "step": 108830
    },
    {
      "epoch": 16.210157879058684,
      "grad_norm": 5.003643673262559e-05,
      "learning_rate": 5.272873926298627e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63166960,
      "step": 108835
    },
    {
      "epoch": 16.21090259159964,
      "grad_norm": 3.9162798202596605e-05,
      "learning_rate": 5.270878025429565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63170000,
      "step": 108840
    },
    {
      "epoch": 16.2116473041406,
      "grad_norm": 61.69569396972656,
      "learning_rate": 5.268882457863972e-06,
      "loss": 0.0828,
      "num_input_tokens_seen": 63172816,
      "step": 108845
    },
    {
      "epoch": 16.212392016681562,
      "grad_norm": 5.370027429307811e-05,
      "learning_rate": 5.266887223635547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63175856,
      "step": 108850
    },
    {
      "epoch": 16.21313672922252,
      "grad_norm": 0.00013640677207149565,
      "learning_rate": 5.264892322778014e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63178512,
      "step": 108855
    },
    {
      "epoch": 16.21388144176348,
      "grad_norm": 0.0010563961695879698,
      "learning_rate": 5.262897755325064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63181328,
      "step": 108860
    },
    {
      "epoch": 16.214626154304437,
      "grad_norm": 0.00010364115587435663,
      "learning_rate": 5.260903521310401e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63184112,
      "step": 108865
    },
    {
      "epoch": 16.215370866845397,
      "grad_norm": 0.00021394591021817178,
      "learning_rate": 5.25890962076771e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 63187024,
      "step": 108870
    },
    {
      "epoch": 16.216115579386358,
      "grad_norm": 0.00013568186841439456,
      "learning_rate": 5.256916053730679e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63190064,
      "step": 108875
    },
    {
      "epoch": 16.216860291927315,
      "grad_norm": 0.0007049473351798952,
      "learning_rate": 5.254922820232983e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63193008,
      "step": 108880
    },
    {
      "epoch": 16.217605004468275,
      "grad_norm": 0.0005318405455909669,
      "learning_rate": 5.2529299203082914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63195920,
      "step": 108885
    },
    {
      "epoch": 16.218349717009236,
      "grad_norm": 0.00010284618474543095,
      "learning_rate": 5.250937353990288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63198960,
      "step": 108890
    },
    {
      "epoch": 16.219094429550193,
      "grad_norm": 7.984013791428879e-05,
      "learning_rate": 5.248945121312618e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63201808,
      "step": 108895
    },
    {
      "epoch": 16.219839142091153,
      "grad_norm": 0.0016348236240446568,
      "learning_rate": 5.246953222308953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63204816,
      "step": 108900
    },
    {
      "epoch": 16.22058385463211,
      "grad_norm": 0.0024155217688530684,
      "learning_rate": 5.244961657012928e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63207504,
      "step": 108905
    },
    {
      "epoch": 16.22132856717307,
      "grad_norm": 7.760513835819438e-05,
      "learning_rate": 5.242970425458208e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63210320,
      "step": 108910
    },
    {
      "epoch": 16.22207327971403,
      "grad_norm": 4.9556972953723744e-05,
      "learning_rate": 5.240979527678422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63213008,
      "step": 108915
    },
    {
      "epoch": 16.22281799225499,
      "grad_norm": 0.000117394512926694,
      "learning_rate": 5.238988963707195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63215824,
      "step": 108920
    },
    {
      "epoch": 16.22356270479595,
      "grad_norm": 0.0008706466760486364,
      "learning_rate": 5.236998733578175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63218672,
      "step": 108925
    },
    {
      "epoch": 16.22430741733691,
      "grad_norm": 0.0006367488531395793,
      "learning_rate": 5.235008837324967e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63221840,
      "step": 108930
    },
    {
      "epoch": 16.225052129877866,
      "grad_norm": 8.84571454662364e-06,
      "learning_rate": 5.233019274981205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63224496,
      "step": 108935
    },
    {
      "epoch": 16.225796842418827,
      "grad_norm": 1.7885093257064e-05,
      "learning_rate": 5.23103004658049e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63227376,
      "step": 108940
    },
    {
      "epoch": 16.226541554959784,
      "grad_norm": 0.0001933826133608818,
      "learning_rate": 5.2290411521564305e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63230000,
      "step": 108945
    },
    {
      "epoch": 16.227286267500745,
      "grad_norm": 0.0004131181922275573,
      "learning_rate": 5.227052591742626e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63232848,
      "step": 108950
    },
    {
      "epoch": 16.228030980041705,
      "grad_norm": 0.0011661063181236386,
      "learning_rate": 5.225064365372667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63235824,
      "step": 108955
    },
    {
      "epoch": 16.228775692582662,
      "grad_norm": 7.404908501484897e-06,
      "learning_rate": 5.223076473080152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63238736,
      "step": 108960
    },
    {
      "epoch": 16.229520405123623,
      "grad_norm": 0.00010820625175256282,
      "learning_rate": 5.221088914898653e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63241808,
      "step": 108965
    },
    {
      "epoch": 16.230265117664583,
      "grad_norm": 0.0007707443437539041,
      "learning_rate": 5.219101690861763e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63244880,
      "step": 108970
    },
    {
      "epoch": 16.23100983020554,
      "grad_norm": 3.459140134509653e-05,
      "learning_rate": 5.217114801003037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63247760,
      "step": 108975
    },
    {
      "epoch": 16.2317545427465,
      "grad_norm": 4.7752884711371735e-05,
      "learning_rate": 5.215128245356057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63250768,
      "step": 108980
    },
    {
      "epoch": 16.232499255287458,
      "grad_norm": 0.0003409174969419837,
      "learning_rate": 5.2131420239543704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63253296,
      "step": 108985
    },
    {
      "epoch": 16.233243967828418,
      "grad_norm": 0.00024571127141825855,
      "learning_rate": 5.211156136831546e-06,
      "loss": 0.0249,
      "num_input_tokens_seen": 63255984,
      "step": 108990
    },
    {
      "epoch": 16.23398868036938,
      "grad_norm": 0.0012493868125602603,
      "learning_rate": 5.209170584021125e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63258832,
      "step": 108995
    },
    {
      "epoch": 16.234733392910336,
      "grad_norm": 5.024467100156471e-06,
      "learning_rate": 5.207185365556646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63262000,
      "step": 109000
    },
    {
      "epoch": 16.235478105451296,
      "grad_norm": 0.0001552051689941436,
      "learning_rate": 5.205200481471662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63264880,
      "step": 109005
    },
    {
      "epoch": 16.236222817992257,
      "grad_norm": 0.0006010774523019791,
      "learning_rate": 5.2032159317996955e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63267728,
      "step": 109010
    },
    {
      "epoch": 16.236967530533214,
      "grad_norm": 2.6708171390055213e-06,
      "learning_rate": 5.201231716574276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63270736,
      "step": 109015
    },
    {
      "epoch": 16.237712243074174,
      "grad_norm": 7.063651082717115e-06,
      "learning_rate": 5.199247835828916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63273552,
      "step": 109020
    },
    {
      "epoch": 16.23845695561513,
      "grad_norm": 0.00035509472945705056,
      "learning_rate": 5.197264289597148e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63276592,
      "step": 109025
    },
    {
      "epoch": 16.239201668156092,
      "grad_norm": 0.02850501611828804,
      "learning_rate": 5.195281077912473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63279568,
      "step": 109030
    },
    {
      "epoch": 16.239946380697052,
      "grad_norm": 0.0002988940104842186,
      "learning_rate": 5.193298200808389e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63282608,
      "step": 109035
    },
    {
      "epoch": 16.24069109323801,
      "grad_norm": 1.490307113272138e-05,
      "learning_rate": 5.191315658318408e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63285488,
      "step": 109040
    },
    {
      "epoch": 16.24143580577897,
      "grad_norm": 0.0001984673726838082,
      "learning_rate": 5.189333450476008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63288400,
      "step": 109045
    },
    {
      "epoch": 16.242180518319927,
      "grad_norm": 2.0424879494385095e-06,
      "learning_rate": 5.187351577314692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63291120,
      "step": 109050
    },
    {
      "epoch": 16.242925230860887,
      "grad_norm": 9.032506568473764e-06,
      "learning_rate": 5.185370038867929e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63294064,
      "step": 109055
    },
    {
      "epoch": 16.243669943401848,
      "grad_norm": 0.0005960852140560746,
      "learning_rate": 5.183388835169206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63296912,
      "step": 109060
    },
    {
      "epoch": 16.244414655942805,
      "grad_norm": 7.209287286968902e-05,
      "learning_rate": 5.181407966251986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63299728,
      "step": 109065
    },
    {
      "epoch": 16.245159368483765,
      "grad_norm": 1.1586002983676735e-05,
      "learning_rate": 5.179427432149733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63302704,
      "step": 109070
    },
    {
      "epoch": 16.245904081024726,
      "grad_norm": 7.115710468497127e-05,
      "learning_rate": 5.177447232895913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63305648,
      "step": 109075
    },
    {
      "epoch": 16.246648793565683,
      "grad_norm": 0.00015568046364933252,
      "learning_rate": 5.1754673685239755e-06,
      "loss": 0.028,
      "num_input_tokens_seen": 63308592,
      "step": 109080
    },
    {
      "epoch": 16.247393506106643,
      "grad_norm": 0.0003710150776896626,
      "learning_rate": 5.173487839067371e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63311472,
      "step": 109085
    },
    {
      "epoch": 16.2481382186476,
      "grad_norm": 0.0006320522516034544,
      "learning_rate": 5.171508644559528e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63314256,
      "step": 109090
    },
    {
      "epoch": 16.24888293118856,
      "grad_norm": 4.036886093672365e-05,
      "learning_rate": 5.169529785033903e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63317232,
      "step": 109095
    },
    {
      "epoch": 16.24962764372952,
      "grad_norm": 0.0015732038300484419,
      "learning_rate": 5.167551260523909e-06,
      "loss": 0.0401,
      "num_input_tokens_seen": 63319952,
      "step": 109100
    },
    {
      "epoch": 16.25037235627048,
      "grad_norm": 0.00031232606852427125,
      "learning_rate": 5.165573071062985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63322800,
      "step": 109105
    },
    {
      "epoch": 16.25111706881144,
      "grad_norm": 9.608850632503163e-06,
      "learning_rate": 5.163595216684541e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63325872,
      "step": 109110
    },
    {
      "epoch": 16.2518617813524,
      "grad_norm": 0.00023105765285436064,
      "learning_rate": 5.161617697422003e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63328784,
      "step": 109115
    },
    {
      "epoch": 16.252606493893357,
      "grad_norm": 4.14554524468258e-05,
      "learning_rate": 5.159640513308767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63331728,
      "step": 109120
    },
    {
      "epoch": 16.253351206434317,
      "grad_norm": 1.604856333869975e-05,
      "learning_rate": 5.1576636643782376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63334480,
      "step": 109125
    },
    {
      "epoch": 16.254095918975274,
      "grad_norm": 6.667025445494801e-06,
      "learning_rate": 5.155687150663815e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63337488,
      "step": 109130
    },
    {
      "epoch": 16.254840631516235,
      "grad_norm": 0.00022067615645937622,
      "learning_rate": 5.153710972198894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63340336,
      "step": 109135
    },
    {
      "epoch": 16.255585344057195,
      "grad_norm": 1.578910814714618e-05,
      "learning_rate": 5.151735129016855e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63343504,
      "step": 109140
    },
    {
      "epoch": 16.256330056598152,
      "grad_norm": 0.0013137018540874124,
      "learning_rate": 5.149759621151068e-06,
      "loss": 0.3947,
      "num_input_tokens_seen": 63346352,
      "step": 109145
    },
    {
      "epoch": 16.257074769139113,
      "grad_norm": 1.0733716408140026e-05,
      "learning_rate": 5.147784448634926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63349328,
      "step": 109150
    },
    {
      "epoch": 16.257819481680073,
      "grad_norm": 0.002145674778148532,
      "learning_rate": 5.145809611501789e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63352240,
      "step": 109155
    },
    {
      "epoch": 16.25856419422103,
      "grad_norm": 0.00012271803279872984,
      "learning_rate": 5.143835109785014e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63355248,
      "step": 109160
    },
    {
      "epoch": 16.25930890676199,
      "grad_norm": 5.7803931667876896e-06,
      "learning_rate": 5.1418609435179676e-06,
      "loss": 0.0882,
      "num_input_tokens_seen": 63358000,
      "step": 109165
    },
    {
      "epoch": 16.260053619302948,
      "grad_norm": 1.8505019397707656e-05,
      "learning_rate": 5.139887112733993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63360624,
      "step": 109170
    },
    {
      "epoch": 16.260798331843908,
      "grad_norm": 3.239449142711237e-05,
      "learning_rate": 5.137913617466447e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63363536,
      "step": 109175
    },
    {
      "epoch": 16.26154304438487,
      "grad_norm": 0.00028246070723980665,
      "learning_rate": 5.1359404577486585e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63366576,
      "step": 109180
    },
    {
      "epoch": 16.262287756925826,
      "grad_norm": 6.724983541062102e-05,
      "learning_rate": 5.13396763361397e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63369552,
      "step": 109185
    },
    {
      "epoch": 16.263032469466786,
      "grad_norm": 0.06364517658948898,
      "learning_rate": 5.131995145095705e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 63372272,
      "step": 109190
    },
    {
      "epoch": 16.263777182007743,
      "grad_norm": 0.00036664935760200024,
      "learning_rate": 5.130022992227193e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63375056,
      "step": 109195
    },
    {
      "epoch": 16.264521894548704,
      "grad_norm": 0.00448576407507062,
      "learning_rate": 5.128051175041748e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63378032,
      "step": 109200
    },
    {
      "epoch": 16.265266607089664,
      "grad_norm": 2.4526816559955478e-05,
      "learning_rate": 5.126079693572683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63380944,
      "step": 109205
    },
    {
      "epoch": 16.26601131963062,
      "grad_norm": 0.0003038459981326014,
      "learning_rate": 5.124108547853301e-06,
      "loss": 0.0822,
      "num_input_tokens_seen": 63383984,
      "step": 109210
    },
    {
      "epoch": 16.266756032171582,
      "grad_norm": 9.503371984465048e-06,
      "learning_rate": 5.122137737916896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63387088,
      "step": 109215
    },
    {
      "epoch": 16.267500744712542,
      "grad_norm": 0.0001356677821604535,
      "learning_rate": 5.120167263796779e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63389840,
      "step": 109220
    },
    {
      "epoch": 16.2682454572535,
      "grad_norm": 0.00021136023860890418,
      "learning_rate": 5.118197125526228e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63392560,
      "step": 109225
    },
    {
      "epoch": 16.26899016979446,
      "grad_norm": 3.1692681659478694e-05,
      "learning_rate": 5.116227323138531e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63395504,
      "step": 109230
    },
    {
      "epoch": 16.269734882335417,
      "grad_norm": 0.00011907261796295643,
      "learning_rate": 5.114257856666968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63398416,
      "step": 109235
    },
    {
      "epoch": 16.270479594876377,
      "grad_norm": 0.00035920264781452715,
      "learning_rate": 5.112288726144798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63401296,
      "step": 109240
    },
    {
      "epoch": 16.271224307417338,
      "grad_norm": 0.00023899094958323985,
      "learning_rate": 5.110319931605306e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63404112,
      "step": 109245
    },
    {
      "epoch": 16.271969019958295,
      "grad_norm": 7.008509419392794e-05,
      "learning_rate": 5.1083514730817375e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63407088,
      "step": 109250
    },
    {
      "epoch": 16.272713732499255,
      "grad_norm": 4.0356731915380806e-05,
      "learning_rate": 5.106383350607358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63410096,
      "step": 109255
    },
    {
      "epoch": 16.273458445040216,
      "grad_norm": 0.0036156370770186186,
      "learning_rate": 5.104415564215409e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63412848,
      "step": 109260
    },
    {
      "epoch": 16.274203157581173,
      "grad_norm": 0.0015166557859629393,
      "learning_rate": 5.102448113939143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63415984,
      "step": 109265
    },
    {
      "epoch": 16.274947870122134,
      "grad_norm": 0.0001326788478763774,
      "learning_rate": 5.100480999811794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63418736,
      "step": 109270
    },
    {
      "epoch": 16.27569258266309,
      "grad_norm": 9.648664126871154e-05,
      "learning_rate": 5.09851422186659e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63421776,
      "step": 109275
    },
    {
      "epoch": 16.27643729520405,
      "grad_norm": 1.9437922674114816e-05,
      "learning_rate": 5.096547780136765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63424496,
      "step": 109280
    },
    {
      "epoch": 16.27718200774501,
      "grad_norm": 0.04134867712855339,
      "learning_rate": 5.0945816746555295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63427504,
      "step": 109285
    },
    {
      "epoch": 16.27792672028597,
      "grad_norm": 1.0368531548010651e-05,
      "learning_rate": 5.092615905456111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63430160,
      "step": 109290
    },
    {
      "epoch": 16.27867143282693,
      "grad_norm": 0.0006612782599404454,
      "learning_rate": 5.090650472571709e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63433040,
      "step": 109295
    },
    {
      "epoch": 16.27941614536789,
      "grad_norm": 3.356476372573525e-05,
      "learning_rate": 5.088685376035538e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63436112,
      "step": 109300
    },
    {
      "epoch": 16.280160857908847,
      "grad_norm": 0.039067089557647705,
      "learning_rate": 5.086720615880783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63438992,
      "step": 109305
    },
    {
      "epoch": 16.280905570449807,
      "grad_norm": 0.00041592487832531333,
      "learning_rate": 5.084756192140652e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63442064,
      "step": 109310
    },
    {
      "epoch": 16.281650282990764,
      "grad_norm": 0.002515904838219285,
      "learning_rate": 5.082792104848325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63445072,
      "step": 109315
    },
    {
      "epoch": 16.282394995531725,
      "grad_norm": 0.0008058338426053524,
      "learning_rate": 5.080828354036974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63448080,
      "step": 109320
    },
    {
      "epoch": 16.283139708072685,
      "grad_norm": 0.0005894172354601324,
      "learning_rate": 5.078864939739789e-06,
      "loss": 0.0027,
      "num_input_tokens_seen": 63450928,
      "step": 109325
    },
    {
      "epoch": 16.283884420613642,
      "grad_norm": 0.006144874729216099,
      "learning_rate": 5.076901861989927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63453808,
      "step": 109330
    },
    {
      "epoch": 16.284629133154603,
      "grad_norm": 2.3396549295284785e-05,
      "learning_rate": 5.074939120820568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63457104,
      "step": 109335
    },
    {
      "epoch": 16.285373845695563,
      "grad_norm": 0.0003074629930779338,
      "learning_rate": 5.072976716264863e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63459824,
      "step": 109340
    },
    {
      "epoch": 16.28611855823652,
      "grad_norm": 0.00012177772441646084,
      "learning_rate": 5.07101464835596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63462832,
      "step": 109345
    },
    {
      "epoch": 16.28686327077748,
      "grad_norm": 0.0001467514521209523,
      "learning_rate": 5.069052917127004e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63465648,
      "step": 109350
    },
    {
      "epoch": 16.287607983318438,
      "grad_norm": 1.7667573047219776e-05,
      "learning_rate": 5.06709152261115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63468432,
      "step": 109355
    },
    {
      "epoch": 16.2883526958594,
      "grad_norm": 6.341806874843314e-05,
      "learning_rate": 5.065130464841525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63471536,
      "step": 109360
    },
    {
      "epoch": 16.28909740840036,
      "grad_norm": 0.0006823595613241196,
      "learning_rate": 5.063169743851251e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63474544,
      "step": 109365
    },
    {
      "epoch": 16.289842120941316,
      "grad_norm": 1.1315210031170864e-05,
      "learning_rate": 5.061209359673471e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63477648,
      "step": 109370
    },
    {
      "epoch": 16.290586833482276,
      "grad_norm": 4.047366383019835e-05,
      "learning_rate": 5.059249312341286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63480592,
      "step": 109375
    },
    {
      "epoch": 16.291331546023233,
      "grad_norm": 8.745642844587564e-05,
      "learning_rate": 5.057289601887824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63483792,
      "step": 109380
    },
    {
      "epoch": 16.292076258564194,
      "grad_norm": 4.042676664539613e-05,
      "learning_rate": 5.055330228346178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63486480,
      "step": 109385
    },
    {
      "epoch": 16.292820971105154,
      "grad_norm": 1.2441256330930628e-05,
      "learning_rate": 5.053371191749465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63489392,
      "step": 109390
    },
    {
      "epoch": 16.29356568364611,
      "grad_norm": 0.00044502411037683487,
      "learning_rate": 5.051412492130772e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63492368,
      "step": 109395
    },
    {
      "epoch": 16.294310396187072,
      "grad_norm": 2.182079515478108e-05,
      "learning_rate": 5.049454129523185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63495280,
      "step": 109400
    },
    {
      "epoch": 16.295055108728032,
      "grad_norm": 0.00033704782254062593,
      "learning_rate": 5.047496103959798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63498032,
      "step": 109405
    },
    {
      "epoch": 16.29579982126899,
      "grad_norm": 0.0017249215161427855,
      "learning_rate": 5.045538415473686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63500976,
      "step": 109410
    },
    {
      "epoch": 16.29654453380995,
      "grad_norm": 0.00022444008209276944,
      "learning_rate": 5.0435810640979215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63503888,
      "step": 109415
    },
    {
      "epoch": 16.297289246350907,
      "grad_norm": 0.003223257837817073,
      "learning_rate": 5.041624049865567e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63506736,
      "step": 109420
    },
    {
      "epoch": 16.298033958891867,
      "grad_norm": 0.00025513084256090224,
      "learning_rate": 5.039667372809695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63509552,
      "step": 109425
    },
    {
      "epoch": 16.298778671432828,
      "grad_norm": 13.964089393615723,
      "learning_rate": 5.0377110329633495e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 63512656,
      "step": 109430
    },
    {
      "epoch": 16.299523383973785,
      "grad_norm": 0.00043704008567146957,
      "learning_rate": 5.035755030359593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63515376,
      "step": 109435
    },
    {
      "epoch": 16.300268096514746,
      "grad_norm": 3.1575473258271813e-05,
      "learning_rate": 5.0337993650314665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63518288,
      "step": 109440
    },
    {
      "epoch": 16.301012809055706,
      "grad_norm": 0.00019174978660885245,
      "learning_rate": 5.0318440370119985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63521296,
      "step": 109445
    },
    {
      "epoch": 16.301757521596663,
      "grad_norm": 0.0001923184172483161,
      "learning_rate": 5.029889046334238e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63524272,
      "step": 109450
    },
    {
      "epoch": 16.302502234137624,
      "grad_norm": 0.0013368906220421195,
      "learning_rate": 5.0279343930312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63527248,
      "step": 109455
    },
    {
      "epoch": 16.30324694667858,
      "grad_norm": 0.00012047385098412633,
      "learning_rate": 5.025980077135917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63530288,
      "step": 109460
    },
    {
      "epoch": 16.30399165921954,
      "grad_norm": 0.0004281062283553183,
      "learning_rate": 5.0240260986814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63533072,
      "step": 109465
    },
    {
      "epoch": 16.3047363717605,
      "grad_norm": 0.0015162781346589327,
      "learning_rate": 5.022072457700658e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63536272,
      "step": 109470
    },
    {
      "epoch": 16.30548108430146,
      "grad_norm": 9.63725324254483e-06,
      "learning_rate": 5.020119154226699e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63539344,
      "step": 109475
    },
    {
      "epoch": 16.30622579684242,
      "grad_norm": 0.0002984899329021573,
      "learning_rate": 5.018166188292514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63542608,
      "step": 109480
    },
    {
      "epoch": 16.30697050938338,
      "grad_norm": 5.530677663045935e-05,
      "learning_rate": 5.016213559931107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63545456,
      "step": 109485
    },
    {
      "epoch": 16.307715221924337,
      "grad_norm": 8.47538176458329e-05,
      "learning_rate": 5.014261269175457e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63548304,
      "step": 109490
    },
    {
      "epoch": 16.308459934465297,
      "grad_norm": 5.466799484565854e-05,
      "learning_rate": 5.012309316058555e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63551152,
      "step": 109495
    },
    {
      "epoch": 16.309204647006254,
      "grad_norm": 0.00012573415006045252,
      "learning_rate": 5.0103577006133685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63554096,
      "step": 109500
    },
    {
      "epoch": 16.309949359547215,
      "grad_norm": 0.0001126616625697352,
      "learning_rate": 5.008406422872878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63557136,
      "step": 109505
    },
    {
      "epoch": 16.310694072088175,
      "grad_norm": 0.0004239677800796926,
      "learning_rate": 5.0064554828700345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63559792,
      "step": 109510
    },
    {
      "epoch": 16.311438784629132,
      "grad_norm": 0.0020707561634480953,
      "learning_rate": 5.004504880637812e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63562480,
      "step": 109515
    },
    {
      "epoch": 16.312183497170093,
      "grad_norm": 3.6325840483186767e-05,
      "learning_rate": 5.002554616209157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63565264,
      "step": 109520
    },
    {
      "epoch": 16.312928209711053,
      "grad_norm": 0.0014172925148159266,
      "learning_rate": 5.000604689617011e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63567824,
      "step": 109525
    },
    {
      "epoch": 16.31367292225201,
      "grad_norm": 2.0950134057784453e-05,
      "learning_rate": 4.998655100894328e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63570672,
      "step": 109530
    },
    {
      "epoch": 16.31441763479297,
      "grad_norm": 1.604980388947297e-05,
      "learning_rate": 4.996705850074041e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63573584,
      "step": 109535
    },
    {
      "epoch": 16.315162347333928,
      "grad_norm": 0.0001467212860006839,
      "learning_rate": 4.994756937189076e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63576272,
      "step": 109540
    },
    {
      "epoch": 16.31590705987489,
      "grad_norm": 1.8803542852401733,
      "learning_rate": 4.992808362272353e-06,
      "loss": 0.0046,
      "num_input_tokens_seen": 63579376,
      "step": 109545
    },
    {
      "epoch": 16.31665177241585,
      "grad_norm": 0.0004429156251717359,
      "learning_rate": 4.990860125356806e-06,
      "loss": 0.0131,
      "num_input_tokens_seen": 63582384,
      "step": 109550
    },
    {
      "epoch": 16.317396484956806,
      "grad_norm": 6.866231706226245e-05,
      "learning_rate": 4.988912226475342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63585680,
      "step": 109555
    },
    {
      "epoch": 16.318141197497766,
      "grad_norm": 3.867411578539759e-05,
      "learning_rate": 4.986964665660859e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63588560,
      "step": 109560
    },
    {
      "epoch": 16.318885910038723,
      "grad_norm": 0.001377752749249339,
      "learning_rate": 4.985017442946274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63591472,
      "step": 109565
    },
    {
      "epoch": 16.319630622579684,
      "grad_norm": 6.202125223353505e-05,
      "learning_rate": 4.983070558364472e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63594480,
      "step": 109570
    },
    {
      "epoch": 16.320375335120644,
      "grad_norm": 0.003414165461435914,
      "learning_rate": 4.981124011948355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63597296,
      "step": 109575
    },
    {
      "epoch": 16.3211200476616,
      "grad_norm": 0.007425988093018532,
      "learning_rate": 4.979177803730794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63600048,
      "step": 109580
    },
    {
      "epoch": 16.321864760202562,
      "grad_norm": 1.5151184925343841e-05,
      "learning_rate": 4.9772319337446835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63603056,
      "step": 109585
    },
    {
      "epoch": 16.322609472743522,
      "grad_norm": 2.0653211322496645e-05,
      "learning_rate": 4.975286402022883e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63606064,
      "step": 109590
    },
    {
      "epoch": 16.32335418528448,
      "grad_norm": 7.688470363616943,
      "learning_rate": 4.973341208598273e-06,
      "loss": 0.026,
      "num_input_tokens_seen": 63608976,
      "step": 109595
    },
    {
      "epoch": 16.32409889782544,
      "grad_norm": 0.00015325748245231807,
      "learning_rate": 4.971396353503707e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63612080,
      "step": 109600
    },
    {
      "epoch": 16.324843610366397,
      "grad_norm": 7.096656190697104e-05,
      "learning_rate": 4.969451836772046e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63615280,
      "step": 109605
    },
    {
      "epoch": 16.325588322907358,
      "grad_norm": 5.6265704188263044e-05,
      "learning_rate": 4.9675076584361355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63618096,
      "step": 109610
    },
    {
      "epoch": 16.326333035448318,
      "grad_norm": 4.833236289414344e-06,
      "learning_rate": 4.965563818528818e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63621040,
      "step": 109615
    },
    {
      "epoch": 16.327077747989275,
      "grad_norm": 0.0002241752517875284,
      "learning_rate": 4.9636203170829424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63623664,
      "step": 109620
    },
    {
      "epoch": 16.327822460530236,
      "grad_norm": 0.000598694896325469,
      "learning_rate": 4.9616771541313335e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63626768,
      "step": 109625
    },
    {
      "epoch": 16.328567173071196,
      "grad_norm": 0.0026601189747452736,
      "learning_rate": 4.9597343297068274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63629648,
      "step": 109630
    },
    {
      "epoch": 16.329311885612153,
      "grad_norm": 2.538507033023052e-05,
      "learning_rate": 4.957791843842244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63632720,
      "step": 109635
    },
    {
      "epoch": 16.330056598153114,
      "grad_norm": 0.007156745996326208,
      "learning_rate": 4.955849696570392e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63635536,
      "step": 109640
    },
    {
      "epoch": 16.33080131069407,
      "grad_norm": 0.00012938644795212895,
      "learning_rate": 4.953907887924089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63638320,
      "step": 109645
    },
    {
      "epoch": 16.33154602323503,
      "grad_norm": 5.111123391543515e-05,
      "learning_rate": 4.9519664179361355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63641104,
      "step": 109650
    },
    {
      "epoch": 16.33229073577599,
      "grad_norm": 2.308736657141708e-05,
      "learning_rate": 4.95002528663934e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63643632,
      "step": 109655
    },
    {
      "epoch": 16.33303544831695,
      "grad_norm": 5.148080617800588e-06,
      "learning_rate": 4.948084494066482e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63646288,
      "step": 109660
    },
    {
      "epoch": 16.33378016085791,
      "grad_norm": 0.00023134506773203611,
      "learning_rate": 4.946144040250361e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63649136,
      "step": 109665
    },
    {
      "epoch": 16.33452487339887,
      "grad_norm": 2.51198962359922e-05,
      "learning_rate": 4.944203925223759e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63651792,
      "step": 109670
    },
    {
      "epoch": 16.335269585939827,
      "grad_norm": 1.5150362742133439e-05,
      "learning_rate": 4.942264149019446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63654864,
      "step": 109675
    },
    {
      "epoch": 16.336014298480787,
      "grad_norm": 3.320591349620372e-05,
      "learning_rate": 4.940324711670194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63657968,
      "step": 109680
    },
    {
      "epoch": 16.336759011021744,
      "grad_norm": 8.299048204207793e-05,
      "learning_rate": 4.93838561320876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63660592,
      "step": 109685
    },
    {
      "epoch": 16.337503723562705,
      "grad_norm": 0.0003747693554032594,
      "learning_rate": 4.93644685366792e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63663440,
      "step": 109690
    },
    {
      "epoch": 16.338248436103665,
      "grad_norm": 0.00018388015450909734,
      "learning_rate": 4.934508433080412e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63666384,
      "step": 109695
    },
    {
      "epoch": 16.338993148644622,
      "grad_norm": 0.00029133178759366274,
      "learning_rate": 4.932570351478996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63669360,
      "step": 109700
    },
    {
      "epoch": 16.339737861185583,
      "grad_norm": 0.0003762215201277286,
      "learning_rate": 4.930632608896402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63672240,
      "step": 109705
    },
    {
      "epoch": 16.34048257372654,
      "grad_norm": 2.7443533326731995e-05,
      "learning_rate": 4.92869520536538e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63675216,
      "step": 109710
    },
    {
      "epoch": 16.3412272862675,
      "grad_norm": 0.0004429876571521163,
      "learning_rate": 4.926758140918647e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63677968,
      "step": 109715
    },
    {
      "epoch": 16.34197199880846,
      "grad_norm": 0.00016899443289730698,
      "learning_rate": 4.924821415588937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63681136,
      "step": 109720
    },
    {
      "epoch": 16.342716711349418,
      "grad_norm": 7.85947049735114e-05,
      "learning_rate": 4.922885029408969e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63684080,
      "step": 109725
    },
    {
      "epoch": 16.34346142389038,
      "grad_norm": 2.8659380404860713e-05,
      "learning_rate": 4.920948982411444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63686832,
      "step": 109730
    },
    {
      "epoch": 16.34420613643134,
      "grad_norm": 8.63409604789922e-06,
      "learning_rate": 4.919013274629087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63689712,
      "step": 109735
    },
    {
      "epoch": 16.344950848972296,
      "grad_norm": 0.00022277449897956103,
      "learning_rate": 4.9170779060945916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63692752,
      "step": 109740
    },
    {
      "epoch": 16.345695561513256,
      "grad_norm": 0.0002634576812852174,
      "learning_rate": 4.915142876840653e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63695920,
      "step": 109745
    },
    {
      "epoch": 16.346440274054213,
      "grad_norm": 0.00019561377121135592,
      "learning_rate": 4.9132081868999535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63698928,
      "step": 109750
    },
    {
      "epoch": 16.347184986595174,
      "grad_norm": 1.3381501048570499e-05,
      "learning_rate": 4.911273836305194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63701744,
      "step": 109755
    },
    {
      "epoch": 16.347929699136134,
      "grad_norm": 4.599606199917616e-06,
      "learning_rate": 4.909339825089049e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63704624,
      "step": 109760
    },
    {
      "epoch": 16.34867441167709,
      "grad_norm": 0.0009459424763917923,
      "learning_rate": 4.9074061532841774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63707376,
      "step": 109765
    },
    {
      "epoch": 16.349419124218052,
      "grad_norm": 0.00015736494970042259,
      "learning_rate": 4.905472820923265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63710096,
      "step": 109770
    },
    {
      "epoch": 16.350163836759013,
      "grad_norm": 0.08681958168745041,
      "learning_rate": 4.903539828038961e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63712848,
      "step": 109775
    },
    {
      "epoch": 16.35090854929997,
      "grad_norm": 0.056503575295209885,
      "learning_rate": 4.901607174663933e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63715824,
      "step": 109780
    },
    {
      "epoch": 16.35165326184093,
      "grad_norm": 0.00012249340943526477,
      "learning_rate": 4.899674860830819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63718800,
      "step": 109785
    },
    {
      "epoch": 16.352397974381887,
      "grad_norm": 9.925226913765073e-05,
      "learning_rate": 4.897742886572274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63721616,
      "step": 109790
    },
    {
      "epoch": 16.353142686922848,
      "grad_norm": 9.173375292448327e-05,
      "learning_rate": 4.8958112519209315e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63724528,
      "step": 109795
    },
    {
      "epoch": 16.353887399463808,
      "grad_norm": 0.0018748082220554352,
      "learning_rate": 4.8938799569094275e-06,
      "loss": 0.0024,
      "num_input_tokens_seen": 63727536,
      "step": 109800
    },
    {
      "epoch": 16.354632112004765,
      "grad_norm": 0.00013236085942480713,
      "learning_rate": 4.891949001570384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63730512,
      "step": 109805
    },
    {
      "epoch": 16.355376824545726,
      "grad_norm": 0.00010411482799099758,
      "learning_rate": 4.890018385936421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63733360,
      "step": 109810
    },
    {
      "epoch": 16.356121537086686,
      "grad_norm": 0.0008795816684141755,
      "learning_rate": 4.888088110040162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63736208,
      "step": 109815
    },
    {
      "epoch": 16.356866249627643,
      "grad_norm": 1.2111910109524615e-05,
      "learning_rate": 4.88615817391421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63739024,
      "step": 109820
    },
    {
      "epoch": 16.357610962168604,
      "grad_norm": 1.8582260963739827e-05,
      "learning_rate": 4.884228577591177e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63741904,
      "step": 109825
    },
    {
      "epoch": 16.35835567470956,
      "grad_norm": 0.00010371920507168397,
      "learning_rate": 4.882299321103653e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63744848,
      "step": 109830
    },
    {
      "epoch": 16.35910038725052,
      "grad_norm": 0.0001337569410679862,
      "learning_rate": 4.880370404484242e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63747536,
      "step": 109835
    },
    {
      "epoch": 16.35984509979148,
      "grad_norm": 2.083049730572384e-05,
      "learning_rate": 4.87844182776552e-06,
      "loss": 0.1128,
      "num_input_tokens_seen": 63750256,
      "step": 109840
    },
    {
      "epoch": 16.36058981233244,
      "grad_norm": 0.00018744914268609136,
      "learning_rate": 4.87651359098007e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63753456,
      "step": 109845
    },
    {
      "epoch": 16.3613345248734,
      "grad_norm": 0.0002030133327934891,
      "learning_rate": 4.874585694160477e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63756272,
      "step": 109850
    },
    {
      "epoch": 16.36207923741436,
      "grad_norm": 3.1153980671660975e-05,
      "learning_rate": 4.872658137339295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63759280,
      "step": 109855
    },
    {
      "epoch": 16.362823949955317,
      "grad_norm": 2.0073828636668622e-05,
      "learning_rate": 4.870730920549108e-06,
      "loss": 0.0078,
      "num_input_tokens_seen": 63761968,
      "step": 109860
    },
    {
      "epoch": 16.363568662496277,
      "grad_norm": 2.7567015422391705e-05,
      "learning_rate": 4.868804043822458e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63765072,
      "step": 109865
    },
    {
      "epoch": 16.364313375037234,
      "grad_norm": 0.00029244733741506934,
      "learning_rate": 4.866877507191908e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63768144,
      "step": 109870
    },
    {
      "epoch": 16.365058087578195,
      "grad_norm": 0.00013498969201464206,
      "learning_rate": 4.864951310689991e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63770896,
      "step": 109875
    },
    {
      "epoch": 16.365802800119155,
      "grad_norm": 9.377492824569345e-05,
      "learning_rate": 4.863025454349266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63773872,
      "step": 109880
    },
    {
      "epoch": 16.366547512660112,
      "grad_norm": 0.0002476745576132089,
      "learning_rate": 4.861099938202257e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63776720,
      "step": 109885
    },
    {
      "epoch": 16.367292225201073,
      "grad_norm": 5.426638381322846e-06,
      "learning_rate": 4.859174762281493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63779632,
      "step": 109890
    },
    {
      "epoch": 16.36803693774203,
      "grad_norm": 0.00018556321447249502,
      "learning_rate": 4.857249926619506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63782480,
      "step": 109895
    },
    {
      "epoch": 16.36878165028299,
      "grad_norm": 7.966792327351868e-05,
      "learning_rate": 4.855325431248803e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63785744,
      "step": 109900
    },
    {
      "epoch": 16.36952636282395,
      "grad_norm": 9.35496500460431e-05,
      "learning_rate": 4.853401276201908e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63788880,
      "step": 109905
    },
    {
      "epoch": 16.370271075364908,
      "grad_norm": 0.0005028185551054776,
      "learning_rate": 4.851477461511317e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63791824,
      "step": 109910
    },
    {
      "epoch": 16.37101578790587,
      "grad_norm": 1.8217589968116954e-05,
      "learning_rate": 4.84955398720954e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63794640,
      "step": 109915
    },
    {
      "epoch": 16.37176050044683,
      "grad_norm": 4.483509655983653e-06,
      "learning_rate": 4.8476308533290714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63797680,
      "step": 109920
    },
    {
      "epoch": 16.372505212987786,
      "grad_norm": 7.737606210866943e-05,
      "learning_rate": 4.8457080599023905e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 63800912,
      "step": 109925
    },
    {
      "epoch": 16.373249925528746,
      "grad_norm": 0.00015354830247815698,
      "learning_rate": 4.843785606961995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63803792,
      "step": 109930
    },
    {
      "epoch": 16.373994638069703,
      "grad_norm": 0.0005262888735160232,
      "learning_rate": 4.8418634945403555e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63806544,
      "step": 109935
    },
    {
      "epoch": 16.374739350610664,
      "grad_norm": 4.937030462315306e-05,
      "learning_rate": 4.839941722669944e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63809776,
      "step": 109940
    },
    {
      "epoch": 16.375484063151625,
      "grad_norm": 1.9274946680525318e-05,
      "learning_rate": 4.8380202913832215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63812624,
      "step": 109945
    },
    {
      "epoch": 16.37622877569258,
      "grad_norm": 0.0010718934936448932,
      "learning_rate": 4.83609920071266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63815280,
      "step": 109950
    },
    {
      "epoch": 16.376973488233542,
      "grad_norm": 5.7793251471593976e-05,
      "learning_rate": 4.834178450690704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63818352,
      "step": 109955
    },
    {
      "epoch": 16.377718200774503,
      "grad_norm": 2.874230449378956e-05,
      "learning_rate": 4.832258041349813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63821296,
      "step": 109960
    },
    {
      "epoch": 16.37846291331546,
      "grad_norm": 3.814393130596727e-05,
      "learning_rate": 4.830337972722424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63824304,
      "step": 109965
    },
    {
      "epoch": 16.37920762585642,
      "grad_norm": 4.562046527862549,
      "learning_rate": 4.828418244840968e-06,
      "loss": 0.0032,
      "num_input_tokens_seen": 63827440,
      "step": 109970
    },
    {
      "epoch": 16.379952338397377,
      "grad_norm": 0.0001214974035974592,
      "learning_rate": 4.8264988577378934e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63830352,
      "step": 109975
    },
    {
      "epoch": 16.380697050938338,
      "grad_norm": 9.495870472164825e-06,
      "learning_rate": 4.824579811445609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63833264,
      "step": 109980
    },
    {
      "epoch": 16.381441763479298,
      "grad_norm": 0.010216808877885342,
      "learning_rate": 4.822661105996551e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63836176,
      "step": 109985
    },
    {
      "epoch": 16.382186476020255,
      "grad_norm": 1.7865913832793012e-05,
      "learning_rate": 4.82074274142312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63838800,
      "step": 109990
    },
    {
      "epoch": 16.382931188561216,
      "grad_norm": 9.323996891907882e-06,
      "learning_rate": 4.818824717757736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63841584,
      "step": 109995
    },
    {
      "epoch": 16.383675901102176,
      "grad_norm": 0.00011146379256388173,
      "learning_rate": 4.816907035032797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63844176,
      "step": 110000
    },
    {
      "epoch": 16.384420613643133,
      "grad_norm": 2.1312722310540266e-05,
      "learning_rate": 4.814989693280703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63846896,
      "step": 110005
    },
    {
      "epoch": 16.385165326184094,
      "grad_norm": 0.00010518752242205665,
      "learning_rate": 4.81307269253384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63849648,
      "step": 110010
    },
    {
      "epoch": 16.38591003872505,
      "grad_norm": 2.834466431522742e-05,
      "learning_rate": 4.811156032824593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63852752,
      "step": 110015
    },
    {
      "epoch": 16.38665475126601,
      "grad_norm": 9.419381967745721e-05,
      "learning_rate": 4.8092397141853515e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63855536,
      "step": 110020
    },
    {
      "epoch": 16.38739946380697,
      "grad_norm": 8.259776222985238e-06,
      "learning_rate": 4.807323736648475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63858512,
      "step": 110025
    },
    {
      "epoch": 16.38814417634793,
      "grad_norm": 8.874056220520288e-05,
      "learning_rate": 4.80540810024635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63861552,
      "step": 110030
    },
    {
      "epoch": 16.38888888888889,
      "grad_norm": 5.617274291580543e-05,
      "learning_rate": 4.8034928050113256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63864240,
      "step": 110035
    },
    {
      "epoch": 16.38963360142985,
      "grad_norm": 5.8571662520989776e-05,
      "learning_rate": 4.8015778509757665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63866992,
      "step": 110040
    },
    {
      "epoch": 16.390378313970807,
      "grad_norm": 0.00024274885072372854,
      "learning_rate": 4.799663238172022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63869552,
      "step": 110045
    },
    {
      "epoch": 16.391123026511767,
      "grad_norm": 0.00024796283105388284,
      "learning_rate": 4.7977489666324285e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63872848,
      "step": 110050
    },
    {
      "epoch": 16.391867739052724,
      "grad_norm": 8.444645936833695e-05,
      "learning_rate": 4.7958350363893424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63875632,
      "step": 110055
    },
    {
      "epoch": 16.392612451593685,
      "grad_norm": 4.9541973567102104e-05,
      "learning_rate": 4.793921447475083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63878736,
      "step": 110060
    },
    {
      "epoch": 16.393357164134645,
      "grad_norm": 0.00017306458903476596,
      "learning_rate": 4.7920081999219875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63881712,
      "step": 110065
    },
    {
      "epoch": 16.394101876675602,
      "grad_norm": 4.664971129386686e-05,
      "learning_rate": 4.790095293762379e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63884368,
      "step": 110070
    },
    {
      "epoch": 16.394846589216563,
      "grad_norm": 0.00012675003381446004,
      "learning_rate": 4.788182729028565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63887152,
      "step": 110075
    },
    {
      "epoch": 16.39559130175752,
      "grad_norm": 7.180088141467422e-05,
      "learning_rate": 4.786270505752866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63890032,
      "step": 110080
    },
    {
      "epoch": 16.39633601429848,
      "grad_norm": 0.00489285821095109,
      "learning_rate": 4.784358623967572e-06,
      "loss": 0.0705,
      "num_input_tokens_seen": 63892848,
      "step": 110085
    },
    {
      "epoch": 16.39708072683944,
      "grad_norm": 0.000973729882389307,
      "learning_rate": 4.782447083705002e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63895728,
      "step": 110090
    },
    {
      "epoch": 16.397825439380398,
      "grad_norm": 0.0002593455428723246,
      "learning_rate": 4.780535884997433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63898576,
      "step": 110095
    },
    {
      "epoch": 16.39857015192136,
      "grad_norm": 7.704317795287352e-06,
      "learning_rate": 4.7786250278771675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63901584,
      "step": 110100
    },
    {
      "epoch": 16.39931486446232,
      "grad_norm": 0.0001481057406635955,
      "learning_rate": 4.776714512376474e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63904496,
      "step": 110105
    },
    {
      "epoch": 16.400059577003276,
      "grad_norm": 4.609177267411724e-06,
      "learning_rate": 4.774804338527639e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63907120,
      "step": 110110
    },
    {
      "epoch": 16.400804289544237,
      "grad_norm": 0.001461365376599133,
      "learning_rate": 4.772894506362924e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63909872,
      "step": 110115
    },
    {
      "epoch": 16.401549002085194,
      "grad_norm": 0.0003226615081075579,
      "learning_rate": 4.770985015914603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63913008,
      "step": 110120
    },
    {
      "epoch": 16.402293714626154,
      "grad_norm": 5.102320938021876e-05,
      "learning_rate": 4.769075867214931e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63915792,
      "step": 110125
    },
    {
      "epoch": 16.403038427167115,
      "grad_norm": 0.00046991530689410865,
      "learning_rate": 4.767167060296163e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63918608,
      "step": 110130
    },
    {
      "epoch": 16.40378313970807,
      "grad_norm": 4.8799979595059995e-06,
      "learning_rate": 4.7652585951905415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63921744,
      "step": 110135
    },
    {
      "epoch": 16.404527852249032,
      "grad_norm": 4.247350261721294e-06,
      "learning_rate": 4.763350471930303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63924912,
      "step": 110140
    },
    {
      "epoch": 16.405272564789993,
      "grad_norm": 9.503904038865585e-06,
      "learning_rate": 4.761442690547699e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63927760,
      "step": 110145
    },
    {
      "epoch": 16.40601727733095,
      "grad_norm": 0.0035368704702705145,
      "learning_rate": 4.759535251074942e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63930864,
      "step": 110150
    },
    {
      "epoch": 16.40676198987191,
      "grad_norm": 1.5663756130379625e-05,
      "learning_rate": 4.7576281535442745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63933744,
      "step": 110155
    },
    {
      "epoch": 16.407506702412867,
      "grad_norm": 0.0018588374368846416,
      "learning_rate": 4.755721397987906e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63936752,
      "step": 110160
    },
    {
      "epoch": 16.408251414953828,
      "grad_norm": 4.418141998030478e-06,
      "learning_rate": 4.753814984438043e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63939408,
      "step": 110165
    },
    {
      "epoch": 16.408996127494788,
      "grad_norm": 0.0003057433932553977,
      "learning_rate": 4.7519089129269026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63942608,
      "step": 110170
    },
    {
      "epoch": 16.409740840035745,
      "grad_norm": 3.692188693094067e-05,
      "learning_rate": 4.750003183486676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63945648,
      "step": 110175
    },
    {
      "epoch": 16.410485552576706,
      "grad_norm": 9.954788401955739e-05,
      "learning_rate": 4.748097796149573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63948560,
      "step": 110180
    },
    {
      "epoch": 16.411230265117666,
      "grad_norm": 0.0003203492669854313,
      "learning_rate": 4.746192750947767e-06,
      "loss": 0.2469,
      "num_input_tokens_seen": 63951408,
      "step": 110185
    },
    {
      "epoch": 16.411974977658623,
      "grad_norm": 4.6625777031295e-05,
      "learning_rate": 4.744288047913456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63954448,
      "step": 110190
    },
    {
      "epoch": 16.412719690199584,
      "grad_norm": 0.00014567363541573286,
      "learning_rate": 4.742383687078811e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63957264,
      "step": 110195
    },
    {
      "epoch": 16.41346440274054,
      "grad_norm": 4.4188665924593806e-05,
      "learning_rate": 4.7404796684760055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63960016,
      "step": 110200
    },
    {
      "epoch": 16.4142091152815,
      "grad_norm": 4.0043170884018764e-05,
      "learning_rate": 4.738575992137203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63962928,
      "step": 110205
    },
    {
      "epoch": 16.414953827822462,
      "grad_norm": 3.2806583476485685e-05,
      "learning_rate": 4.736672658094562e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63966032,
      "step": 110210
    },
    {
      "epoch": 16.41569854036342,
      "grad_norm": 0.00202485965564847,
      "learning_rate": 4.734769666380248e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63968848,
      "step": 110215
    },
    {
      "epoch": 16.41644325290438,
      "grad_norm": 0.0007394675631076097,
      "learning_rate": 4.732867017026396e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63971504,
      "step": 110220
    },
    {
      "epoch": 16.417187965445336,
      "grad_norm": 9.103167394641787e-05,
      "learning_rate": 4.730964710065164e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63974416,
      "step": 110225
    },
    {
      "epoch": 16.417932677986297,
      "grad_norm": 0.030466390773653984,
      "learning_rate": 4.729062745528678e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 63977680,
      "step": 110230
    },
    {
      "epoch": 16.418677390527257,
      "grad_norm": 0.0014171998482197523,
      "learning_rate": 4.727161123449078e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63980688,
      "step": 110235
    },
    {
      "epoch": 16.419422103068214,
      "grad_norm": 4.0509054088033736e-05,
      "learning_rate": 4.72525984385849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63983440,
      "step": 110240
    },
    {
      "epoch": 16.420166815609175,
      "grad_norm": 9.932845568982884e-05,
      "learning_rate": 4.7233589067890215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63986288,
      "step": 110245
    },
    {
      "epoch": 16.420911528150135,
      "grad_norm": 8.065955626079813e-06,
      "learning_rate": 4.721458312272803e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63988976,
      "step": 110250
    },
    {
      "epoch": 16.421656240691092,
      "grad_norm": 9.407799370819703e-05,
      "learning_rate": 4.719558060341931e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63991824,
      "step": 110255
    },
    {
      "epoch": 16.422400953232053,
      "grad_norm": 1.0061518878501374e-05,
      "learning_rate": 4.717658151028517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 63994992,
      "step": 110260
    },
    {
      "epoch": 16.42314566577301,
      "grad_norm": 6.04360866418574e-06,
      "learning_rate": 4.715758584364657e-06,
      "loss": 0.0052,
      "num_input_tokens_seen": 63997904,
      "step": 110265
    },
    {
      "epoch": 16.42389037831397,
      "grad_norm": 6.977847806410864e-05,
      "learning_rate": 4.713859360382439e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64001008,
      "step": 110270
    },
    {
      "epoch": 16.42463509085493,
      "grad_norm": 4.020013420813484e-06,
      "learning_rate": 4.7119604791139414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64004112,
      "step": 110275
    },
    {
      "epoch": 16.425379803395888,
      "grad_norm": 0.41715165972709656,
      "learning_rate": 4.7100619405912625e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64007184,
      "step": 110280
    },
    {
      "epoch": 16.42612451593685,
      "grad_norm": 7.22035692888312e-05,
      "learning_rate": 4.708163744846461e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64009904,
      "step": 110285
    },
    {
      "epoch": 16.42686922847781,
      "grad_norm": 22.629159927368164,
      "learning_rate": 4.706265891911604e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 64012816,
      "step": 110290
    },
    {
      "epoch": 16.427613941018766,
      "grad_norm": 0.0003130219702143222,
      "learning_rate": 4.704368381818766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64015728,
      "step": 110295
    },
    {
      "epoch": 16.428358653559727,
      "grad_norm": 0.0007869077962823212,
      "learning_rate": 4.70247121459999e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64018832,
      "step": 110300
    },
    {
      "epoch": 16.429103366100684,
      "grad_norm": 0.0001322935859207064,
      "learning_rate": 4.700574390287341e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64021904,
      "step": 110305
    },
    {
      "epoch": 16.429848078641644,
      "grad_norm": 7.591182657051831e-05,
      "learning_rate": 4.698677908912846e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64024848,
      "step": 110310
    },
    {
      "epoch": 16.430592791182605,
      "grad_norm": 0.0007317550480365753,
      "learning_rate": 4.696781770508566e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64027632,
      "step": 110315
    },
    {
      "epoch": 16.43133750372356,
      "grad_norm": 7.801409083185717e-06,
      "learning_rate": 4.694885975106511e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64030480,
      "step": 110320
    },
    {
      "epoch": 16.432082216264522,
      "grad_norm": 1.9036251615034416e-05,
      "learning_rate": 4.6929905227387295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64033488,
      "step": 110325
    },
    {
      "epoch": 16.432826928805483,
      "grad_norm": 3.0149916710797697e-05,
      "learning_rate": 4.691095413437235e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64036624,
      "step": 110330
    },
    {
      "epoch": 16.43357164134644,
      "grad_norm": 8.039536623982713e-06,
      "learning_rate": 4.6892006472340405e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64039568,
      "step": 110335
    },
    {
      "epoch": 16.4343163538874,
      "grad_norm": 5.4211537644732744e-05,
      "learning_rate": 4.687306224161159e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64042320,
      "step": 110340
    },
    {
      "epoch": 16.435061066428357,
      "grad_norm": 5.215881628828356e-06,
      "learning_rate": 4.685412144250586e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64045264,
      "step": 110345
    },
    {
      "epoch": 16.435805778969318,
      "grad_norm": 2.153544846805744e-05,
      "learning_rate": 4.683518407534338e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64048368,
      "step": 110350
    },
    {
      "epoch": 16.43655049151028,
      "grad_norm": 4.272714704711689e-06,
      "learning_rate": 4.6816250140443884e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64051408,
      "step": 110355
    },
    {
      "epoch": 16.437295204051235,
      "grad_norm": 0.00011201255256310105,
      "learning_rate": 4.679731963812742e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64054448,
      "step": 110360
    },
    {
      "epoch": 16.438039916592196,
      "grad_norm": 320.3832092285156,
      "learning_rate": 4.6778392568713695e-06,
      "loss": 0.2875,
      "num_input_tokens_seen": 64057616,
      "step": 110365
    },
    {
      "epoch": 16.438784629133156,
      "grad_norm": 0.0001376456639263779,
      "learning_rate": 4.675946893252242e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64060560,
      "step": 110370
    },
    {
      "epoch": 16.439529341674113,
      "grad_norm": 3.273880429333076e-05,
      "learning_rate": 4.674054872987344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64063376,
      "step": 110375
    },
    {
      "epoch": 16.440274054215074,
      "grad_norm": 4.078740312252194e-05,
      "learning_rate": 4.67216319610862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64066256,
      "step": 110380
    },
    {
      "epoch": 16.44101876675603,
      "grad_norm": 0.0007185784634202719,
      "learning_rate": 4.670271862648049e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64069264,
      "step": 110385
    },
    {
      "epoch": 16.44176347929699,
      "grad_norm": 1.1916282346646767e-05,
      "learning_rate": 4.668380872637562e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64072208,
      "step": 110390
    },
    {
      "epoch": 16.442508191837952,
      "grad_norm": 0.0007810682291164994,
      "learning_rate": 4.666490226109127e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64075248,
      "step": 110395
    },
    {
      "epoch": 16.44325290437891,
      "grad_norm": 0.003012458560988307,
      "learning_rate": 4.66459992309467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64078192,
      "step": 110400
    },
    {
      "epoch": 16.44399761691987,
      "grad_norm": 0.0011701533803716302,
      "learning_rate": 4.662709963626133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64080624,
      "step": 110405
    },
    {
      "epoch": 16.44474232946083,
      "grad_norm": 0.0009675007895566523,
      "learning_rate": 4.660820347735437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64083248,
      "step": 110410
    },
    {
      "epoch": 16.445487042001787,
      "grad_norm": 8.028266893234104e-05,
      "learning_rate": 4.658931075454507e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64086064,
      "step": 110415
    },
    {
      "epoch": 16.446231754542747,
      "grad_norm": 1.6144884284585714e-05,
      "learning_rate": 4.657042146815266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64088656,
      "step": 110420
    },
    {
      "epoch": 16.446976467083704,
      "grad_norm": 0.00029876138432882726,
      "learning_rate": 4.655153561849618e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64091792,
      "step": 110425
    },
    {
      "epoch": 16.447721179624665,
      "grad_norm": 0.0005551720387302339,
      "learning_rate": 4.6532653205894786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64094512,
      "step": 110430
    },
    {
      "epoch": 16.448465892165625,
      "grad_norm": 0.00013645162107422948,
      "learning_rate": 4.651377423066736e-06,
      "loss": 0.1066,
      "num_input_tokens_seen": 64097392,
      "step": 110435
    },
    {
      "epoch": 16.449210604706582,
      "grad_norm": 0.002255150582641363,
      "learning_rate": 4.649489869313295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64100592,
      "step": 110440
    },
    {
      "epoch": 16.449955317247543,
      "grad_norm": 5.7134340750053525e-05,
      "learning_rate": 4.647602659361042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64103536,
      "step": 110445
    },
    {
      "epoch": 16.4507000297885,
      "grad_norm": 8.875516505213454e-05,
      "learning_rate": 4.645715793241848e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64106544,
      "step": 110450
    },
    {
      "epoch": 16.45144474232946,
      "grad_norm": 0.0002863224071916193,
      "learning_rate": 4.6438292709876065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64109136,
      "step": 110455
    },
    {
      "epoch": 16.45218945487042,
      "grad_norm": 3.206308974768035e-05,
      "learning_rate": 4.64194309263018e-06,
      "loss": 0.0266,
      "num_input_tokens_seen": 64112048,
      "step": 110460
    },
    {
      "epoch": 16.452934167411378,
      "grad_norm": 0.0009510201052762568,
      "learning_rate": 4.6400572582014325e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64115024,
      "step": 110465
    },
    {
      "epoch": 16.45367887995234,
      "grad_norm": 5.1890227041440085e-05,
      "learning_rate": 4.638171767733221e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64118064,
      "step": 110470
    },
    {
      "epoch": 16.4544235924933,
      "grad_norm": 0.0009525713976472616,
      "learning_rate": 4.636286621257407e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64121072,
      "step": 110475
    },
    {
      "epoch": 16.455168305034256,
      "grad_norm": 0.0009372131316922605,
      "learning_rate": 4.634401818805828e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64123728,
      "step": 110480
    },
    {
      "epoch": 16.455913017575217,
      "grad_norm": 1.6791464076959528e-05,
      "learning_rate": 4.632517360410338e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64126768,
      "step": 110485
    },
    {
      "epoch": 16.456657730116174,
      "grad_norm": 0.00017530267359688878,
      "learning_rate": 4.630633246102767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64129968,
      "step": 110490
    },
    {
      "epoch": 16.457402442657134,
      "grad_norm": 1.1806987458840013e-05,
      "learning_rate": 4.62874947591494e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64133040,
      "step": 110495
    },
    {
      "epoch": 16.458147155198095,
      "grad_norm": 3.3839648949651746e-06,
      "learning_rate": 4.62686604987869e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64135760,
      "step": 110500
    },
    {
      "epoch": 16.45889186773905,
      "grad_norm": 0.00022599202929995954,
      "learning_rate": 4.624982968025826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64139024,
      "step": 110505
    },
    {
      "epoch": 16.459636580280012,
      "grad_norm": 4.289182834327221e-05,
      "learning_rate": 4.623100230388172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64141904,
      "step": 110510
    },
    {
      "epoch": 16.460381292820973,
      "grad_norm": 0.0005140369175933301,
      "learning_rate": 4.621217836997524e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64144720,
      "step": 110515
    },
    {
      "epoch": 16.46112600536193,
      "grad_norm": 0.00017012616444844753,
      "learning_rate": 4.619335787885695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64147504,
      "step": 110520
    },
    {
      "epoch": 16.46187071790289,
      "grad_norm": 3.603528602980077e-05,
      "learning_rate": 4.617454083084474e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64150640,
      "step": 110525
    },
    {
      "epoch": 16.462615430443847,
      "grad_norm": 0.01058290433138609,
      "learning_rate": 4.615572722625649e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64153712,
      "step": 110530
    },
    {
      "epoch": 16.463360142984808,
      "grad_norm": 0.0006065850029699504,
      "learning_rate": 4.6136917065410065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64156304,
      "step": 110535
    },
    {
      "epoch": 16.46410485552577,
      "grad_norm": 0.00017632730305194855,
      "learning_rate": 4.611811034862318e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64159280,
      "step": 110540
    },
    {
      "epoch": 16.464849568066725,
      "grad_norm": 0.00014825710968580097,
      "learning_rate": 4.609930707621366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64162256,
      "step": 110545
    },
    {
      "epoch": 16.465594280607686,
      "grad_norm": 6.421915168175474e-05,
      "learning_rate": 4.608050724849902e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64164688,
      "step": 110550
    },
    {
      "epoch": 16.466338993148646,
      "grad_norm": 0.007498342078179121,
      "learning_rate": 4.6061710865797055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64167312,
      "step": 110555
    },
    {
      "epoch": 16.467083705689603,
      "grad_norm": 0.001492227311246097,
      "learning_rate": 4.604291792842513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64170192,
      "step": 110560
    },
    {
      "epoch": 16.467828418230564,
      "grad_norm": 0.00015847428585402668,
      "learning_rate": 4.602412843670087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64172848,
      "step": 110565
    },
    {
      "epoch": 16.46857313077152,
      "grad_norm": 4.673896789550781,
      "learning_rate": 4.600534239094165e-06,
      "loss": 0.0148,
      "num_input_tokens_seen": 64175856,
      "step": 110570
    },
    {
      "epoch": 16.46931784331248,
      "grad_norm": 0.0002604625769890845,
      "learning_rate": 4.598655979146479e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64178416,
      "step": 110575
    },
    {
      "epoch": 16.470062555853442,
      "grad_norm": 2.003122426685877e-05,
      "learning_rate": 4.59677806385877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64181264,
      "step": 110580
    },
    {
      "epoch": 16.4708072683944,
      "grad_norm": 3.87314721592702e-05,
      "learning_rate": 4.5949004932627545e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64184240,
      "step": 110585
    },
    {
      "epoch": 16.47155198093536,
      "grad_norm": 0.0006485912599600852,
      "learning_rate": 4.593023267390162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64187024,
      "step": 110590
    },
    {
      "epoch": 16.472296693476316,
      "grad_norm": 7.876179734012112e-05,
      "learning_rate": 4.591146386272699e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64190064,
      "step": 110595
    },
    {
      "epoch": 16.473041406017277,
      "grad_norm": 3.084379932261072e-05,
      "learning_rate": 4.5892698499420764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64192848,
      "step": 110600
    },
    {
      "epoch": 16.473786118558237,
      "grad_norm": 0.00016446835070382804,
      "learning_rate": 4.5873936584299946e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64195728,
      "step": 110605
    },
    {
      "epoch": 16.474530831099194,
      "grad_norm": 3.834511062450474e-06,
      "learning_rate": 4.5855178117681444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64198736,
      "step": 110610
    },
    {
      "epoch": 16.475275543640155,
      "grad_norm": 6.269192454055883e-06,
      "learning_rate": 4.583642309988229e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64201296,
      "step": 110615
    },
    {
      "epoch": 16.476020256181116,
      "grad_norm": 1.7921538528753445e-05,
      "learning_rate": 4.581767153121922e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64204048,
      "step": 110620
    },
    {
      "epoch": 16.476764968722073,
      "grad_norm": 8.82172753335908e-06,
      "learning_rate": 4.579892341200911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64206576,
      "step": 110625
    },
    {
      "epoch": 16.477509681263033,
      "grad_norm": 0.00016477148164995015,
      "learning_rate": 4.578017874256857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64209552,
      "step": 110630
    },
    {
      "epoch": 16.47825439380399,
      "grad_norm": 14.845105171203613,
      "learning_rate": 4.5761437523214435e-06,
      "loss": 0.1283,
      "num_input_tokens_seen": 64212592,
      "step": 110635
    },
    {
      "epoch": 16.47899910634495,
      "grad_norm": 8.660315870656632e-06,
      "learning_rate": 4.574269975426318e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64215440,
      "step": 110640
    },
    {
      "epoch": 16.47974381888591,
      "grad_norm": 0.046974197030067444,
      "learning_rate": 4.572396543603147e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64218352,
      "step": 110645
    },
    {
      "epoch": 16.480488531426868,
      "grad_norm": 0.0008647956419736147,
      "learning_rate": 4.570523456883574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64221488,
      "step": 110650
    },
    {
      "epoch": 16.48123324396783,
      "grad_norm": 0.000728893093764782,
      "learning_rate": 4.568650715299236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64224336,
      "step": 110655
    },
    {
      "epoch": 16.48197795650879,
      "grad_norm": 3.3349272143823327e-06,
      "learning_rate": 4.566778318881787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64227248,
      "step": 110660
    },
    {
      "epoch": 16.482722669049746,
      "grad_norm": 9.96110393316485e-05,
      "learning_rate": 4.56490626766285e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64229936,
      "step": 110665
    },
    {
      "epoch": 16.483467381590707,
      "grad_norm": 9.139523172052577e-05,
      "learning_rate": 4.563034561674054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64232752,
      "step": 110670
    },
    {
      "epoch": 16.484212094131664,
      "grad_norm": 6.36928525636904e-05,
      "learning_rate": 4.561163200947008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64235568,
      "step": 110675
    },
    {
      "epoch": 16.484956806672624,
      "grad_norm": 7.680239650653675e-05,
      "learning_rate": 4.559292185513347e-06,
      "loss": 0.0034,
      "num_input_tokens_seen": 64238480,
      "step": 110680
    },
    {
      "epoch": 16.485701519213585,
      "grad_norm": 0.00043379937415011227,
      "learning_rate": 4.557421515404667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64241200,
      "step": 110685
    },
    {
      "epoch": 16.48644623175454,
      "grad_norm": 6.692721217405051e-05,
      "learning_rate": 4.555551190652568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64243984,
      "step": 110690
    },
    {
      "epoch": 16.487190944295502,
      "grad_norm": 0.00013327921624295413,
      "learning_rate": 4.55368121128866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64247152,
      "step": 110695
    },
    {
      "epoch": 16.487935656836463,
      "grad_norm": 0.0014218090800568461,
      "learning_rate": 4.55181157734452e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64250128,
      "step": 110700
    },
    {
      "epoch": 16.48868036937742,
      "grad_norm": 8.584918396081775e-05,
      "learning_rate": 4.549942288851747e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64253360,
      "step": 110705
    },
    {
      "epoch": 16.48942508191838,
      "grad_norm": 0.0015811724588274956,
      "learning_rate": 4.5480733458419074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64256176,
      "step": 110710
    },
    {
      "epoch": 16.490169794459337,
      "grad_norm": 5.095734741189517e-05,
      "learning_rate": 4.5462047483465886e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64259184,
      "step": 110715
    },
    {
      "epoch": 16.490914507000298,
      "grad_norm": 1.7539810869493522e-05,
      "learning_rate": 4.5443364963973475e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64262096,
      "step": 110720
    },
    {
      "epoch": 16.49165921954126,
      "grad_norm": 4.771408930537291e-05,
      "learning_rate": 4.542468590025756e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 64265072,
      "step": 110725
    },
    {
      "epoch": 16.492403932082215,
      "grad_norm": 5.1908413297496736e-05,
      "learning_rate": 4.540601029263367e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64267856,
      "step": 110730
    },
    {
      "epoch": 16.493148644623176,
      "grad_norm": 0.00033013682696036994,
      "learning_rate": 4.538733814141729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64270992,
      "step": 110735
    },
    {
      "epoch": 16.493893357164133,
      "grad_norm": 4.234567313687876e-05,
      "learning_rate": 4.536866944692386e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64273904,
      "step": 110740
    },
    {
      "epoch": 16.494638069705093,
      "grad_norm": 0.00019578584760893136,
      "learning_rate": 4.535000420946875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64276880,
      "step": 110745
    },
    {
      "epoch": 16.495382782246054,
      "grad_norm": 0.0003690034500323236,
      "learning_rate": 4.533134242936735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64279856,
      "step": 110750
    },
    {
      "epoch": 16.49612749478701,
      "grad_norm": 5.16036780027207e-05,
      "learning_rate": 4.531268410693488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64282640,
      "step": 110755
    },
    {
      "epoch": 16.49687220732797,
      "grad_norm": 2.642549588927068e-06,
      "learning_rate": 4.52940292424866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64285360,
      "step": 110760
    },
    {
      "epoch": 16.497616919868932,
      "grad_norm": 0.022843677550554276,
      "learning_rate": 4.527537783633764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64288400,
      "step": 110765
    },
    {
      "epoch": 16.49836163240989,
      "grad_norm": 0.00022937919129617512,
      "learning_rate": 4.525672988880308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64291536,
      "step": 110770
    },
    {
      "epoch": 16.49910634495085,
      "grad_norm": 0.03132971376180649,
      "learning_rate": 4.5238085400198e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64294288,
      "step": 110775
    },
    {
      "epoch": 16.499851057491806,
      "grad_norm": 7.190524229372386e-06,
      "learning_rate": 4.521944437083731e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64297648,
      "step": 110780
    },
    {
      "epoch": 16.500595770032767,
      "grad_norm": 0.0004426127125043422,
      "learning_rate": 4.520080680103603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64300592,
      "step": 110785
    },
    {
      "epoch": 16.501340482573728,
      "grad_norm": 2.1524105250136927e-05,
      "learning_rate": 4.5182172691108996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64303376,
      "step": 110790
    },
    {
      "epoch": 16.502085195114685,
      "grad_norm": 5.981870651245117,
      "learning_rate": 4.5163542041370965e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 64306288,
      "step": 110795
    },
    {
      "epoch": 16.502829907655645,
      "grad_norm": 3.882799865095876e-05,
      "learning_rate": 4.514491485213665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64309104,
      "step": 110800
    },
    {
      "epoch": 16.503574620196606,
      "grad_norm": 3.0182696718838997e-05,
      "learning_rate": 4.512629112372085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64312080,
      "step": 110805
    },
    {
      "epoch": 16.504319332737563,
      "grad_norm": 6.274457973631797e-06,
      "learning_rate": 4.510767085643814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64314768,
      "step": 110810
    },
    {
      "epoch": 16.505064045278523,
      "grad_norm": 6.174905138323084e-05,
      "learning_rate": 4.508905405060301e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64317680,
      "step": 110815
    },
    {
      "epoch": 16.50580875781948,
      "grad_norm": 0.2145206481218338,
      "learning_rate": 4.5070440706530135e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64321136,
      "step": 110820
    },
    {
      "epoch": 16.50655347036044,
      "grad_norm": 0.00019368261564522982,
      "learning_rate": 4.505183082453382e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64324048,
      "step": 110825
    },
    {
      "epoch": 16.5072981829014,
      "grad_norm": 0.00013496990140993148,
      "learning_rate": 4.503322440492858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64326896,
      "step": 110830
    },
    {
      "epoch": 16.508042895442358,
      "grad_norm": 3.214029493392445e-05,
      "learning_rate": 4.501462144802862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64329424,
      "step": 110835
    },
    {
      "epoch": 16.50878760798332,
      "grad_norm": 2.3202701413538307e-05,
      "learning_rate": 4.4996021954148375e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64332208,
      "step": 110840
    },
    {
      "epoch": 16.50953232052428,
      "grad_norm": 0.0003469050279818475,
      "learning_rate": 4.497742592360196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64335152,
      "step": 110845
    },
    {
      "epoch": 16.510277033065236,
      "grad_norm": 4.551671372610144e-05,
      "learning_rate": 4.495883335670351e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64338096,
      "step": 110850
    },
    {
      "epoch": 16.511021745606197,
      "grad_norm": 0.0008682625484652817,
      "learning_rate": 4.494024425376722e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64341360,
      "step": 110855
    },
    {
      "epoch": 16.511766458147154,
      "grad_norm": 4.507129415287636e-05,
      "learning_rate": 4.4921658615107106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64344080,
      "step": 110860
    },
    {
      "epoch": 16.512511170688114,
      "grad_norm": 0.00012184028310002759,
      "learning_rate": 4.490307644103717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64347120,
      "step": 110865
    },
    {
      "epoch": 16.513255883229075,
      "grad_norm": 0.00013281476276461035,
      "learning_rate": 4.48844977318712e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 64349872,
      "step": 110870
    },
    {
      "epoch": 16.51400059577003,
      "grad_norm": 3.525611464283429e-05,
      "learning_rate": 4.486592248792323e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64352784,
      "step": 110875
    },
    {
      "epoch": 16.514745308310992,
      "grad_norm": 0.000186224962817505,
      "learning_rate": 4.484735070950696e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64355888,
      "step": 110880
    },
    {
      "epoch": 16.515490020851953,
      "grad_norm": 0.0004617537488229573,
      "learning_rate": 4.482878239693628e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64358832,
      "step": 110885
    },
    {
      "epoch": 16.51623473339291,
      "grad_norm": 3.2971202017506585e-05,
      "learning_rate": 4.481021755052476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64361552,
      "step": 110890
    },
    {
      "epoch": 16.51697944593387,
      "grad_norm": 5.254642019281164e-05,
      "learning_rate": 4.479165617058603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64364144,
      "step": 110895
    },
    {
      "epoch": 16.517724158474827,
      "grad_norm": 7.794988778186962e-05,
      "learning_rate": 4.4773098257433754e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64367088,
      "step": 110900
    },
    {
      "epoch": 16.518468871015788,
      "grad_norm": 3.2998343613144243e-06,
      "learning_rate": 4.4754543811381335e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64370000,
      "step": 110905
    },
    {
      "epoch": 16.51921358355675,
      "grad_norm": 2.76109767582966e-05,
      "learning_rate": 4.473599283274235e-06,
      "loss": 0.1005,
      "num_input_tokens_seen": 64373008,
      "step": 110910
    },
    {
      "epoch": 16.519958296097705,
      "grad_norm": 3.793176347244298e-06,
      "learning_rate": 4.471744532183012e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64376720,
      "step": 110915
    },
    {
      "epoch": 16.520703008638666,
      "grad_norm": 0.00899683590978384,
      "learning_rate": 4.469890127895804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64379632,
      "step": 110920
    },
    {
      "epoch": 16.521447721179626,
      "grad_norm": 3.7039721973997075e-06,
      "learning_rate": 4.468036070443938e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64382480,
      "step": 110925
    },
    {
      "epoch": 16.522192433720583,
      "grad_norm": 2.171181949961465e-05,
      "learning_rate": 4.466182359858734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64385232,
      "step": 110930
    },
    {
      "epoch": 16.522937146261544,
      "grad_norm": 5.990706995362416e-05,
      "learning_rate": 4.4643289961715076e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64388208,
      "step": 110935
    },
    {
      "epoch": 16.5236818588025,
      "grad_norm": 7.198037928901613e-05,
      "learning_rate": 4.462475979413569e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64390960,
      "step": 110940
    },
    {
      "epoch": 16.52442657134346,
      "grad_norm": 2.7830601538880728e-05,
      "learning_rate": 4.46062330961623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64393776,
      "step": 110945
    },
    {
      "epoch": 16.525171283884422,
      "grad_norm": 0.0002608609793242067,
      "learning_rate": 4.458770986810776e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64396592,
      "step": 110950
    },
    {
      "epoch": 16.52591599642538,
      "grad_norm": 3.1932428100844845e-05,
      "learning_rate": 4.456919011028518e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64399504,
      "step": 110955
    },
    {
      "epoch": 16.52666070896634,
      "grad_norm": 0.30333277583122253,
      "learning_rate": 4.4550673823007284e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 64402480,
      "step": 110960
    },
    {
      "epoch": 16.527405421507297,
      "grad_norm": 0.0016387024661526084,
      "learning_rate": 4.4532161006587e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64405424,
      "step": 110965
    },
    {
      "epoch": 16.528150134048257,
      "grad_norm": 1.3945729733677581e-05,
      "learning_rate": 4.4513651661337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64408368,
      "step": 110970
    },
    {
      "epoch": 16.528894846589218,
      "grad_norm": 5.267461165203713e-05,
      "learning_rate": 4.449514578757e-06,
      "loss": 0.0028,
      "num_input_tokens_seen": 64411216,
      "step": 110975
    },
    {
      "epoch": 16.529639559130175,
      "grad_norm": 4.162603727309033e-05,
      "learning_rate": 4.447664338559867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64414096,
      "step": 110980
    },
    {
      "epoch": 16.530384271671135,
      "grad_norm": 0.00039219114114530385,
      "learning_rate": 4.445814445573551e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64417136,
      "step": 110985
    },
    {
      "epoch": 16.531128984212096,
      "grad_norm": 0.0003280843375250697,
      "learning_rate": 4.443964899829317e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64420176,
      "step": 110990
    },
    {
      "epoch": 16.531873696753053,
      "grad_norm": 1.3628125088871457e-05,
      "learning_rate": 4.442115701358401e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64422992,
      "step": 110995
    },
    {
      "epoch": 16.532618409294013,
      "grad_norm": 2.9068671210552566e-05,
      "learning_rate": 4.440266850192049e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64426096,
      "step": 111000
    },
    {
      "epoch": 16.53336312183497,
      "grad_norm": 1.15686971184914e-05,
      "learning_rate": 4.4384183463614865e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64429072,
      "step": 111005
    },
    {
      "epoch": 16.53410783437593,
      "grad_norm": 0.0002679542521946132,
      "learning_rate": 4.436570189897951e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64431792,
      "step": 111010
    },
    {
      "epoch": 16.53485254691689,
      "grad_norm": 0.002029961673542857,
      "learning_rate": 4.434722380832665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64434608,
      "step": 111015
    },
    {
      "epoch": 16.535597259457848,
      "grad_norm": 4.644691580324434e-05,
      "learning_rate": 4.432874919196836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64437392,
      "step": 111020
    },
    {
      "epoch": 16.53634197199881,
      "grad_norm": 0.0001899507624329999,
      "learning_rate": 4.4310278050216895e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64440144,
      "step": 111025
    },
    {
      "epoch": 16.53708668453977,
      "grad_norm": 9.920877346303314e-05,
      "learning_rate": 4.429181038338415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64443024,
      "step": 111030
    },
    {
      "epoch": 16.537831397080726,
      "grad_norm": 0.00024347315775230527,
      "learning_rate": 4.427334619178225e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64445872,
      "step": 111035
    },
    {
      "epoch": 16.538576109621687,
      "grad_norm": 9.751393008627929e-06,
      "learning_rate": 4.425488547572304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64448944,
      "step": 111040
    },
    {
      "epoch": 16.539320822162644,
      "grad_norm": 0.00044897967018187046,
      "learning_rate": 4.4236428235518465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64451728,
      "step": 111045
    },
    {
      "epoch": 16.540065534703604,
      "grad_norm": 3.285985485490528e-06,
      "learning_rate": 4.421797447148032e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64454608,
      "step": 111050
    },
    {
      "epoch": 16.540810247244565,
      "grad_norm": 2.2073925720178522e-05,
      "learning_rate": 4.419952418392029e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64457232,
      "step": 111055
    },
    {
      "epoch": 16.541554959785522,
      "grad_norm": 0.00010244608711218461,
      "learning_rate": 4.418107737315019e-06,
      "loss": 0.0337,
      "num_input_tokens_seen": 64460016,
      "step": 111060
    },
    {
      "epoch": 16.542299672326482,
      "grad_norm": 9.367551683681086e-06,
      "learning_rate": 4.416263403948159e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64462928,
      "step": 111065
    },
    {
      "epoch": 16.543044384867443,
      "grad_norm": 2.5944185836124234e-05,
      "learning_rate": 4.41441941832261e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64465968,
      "step": 111070
    },
    {
      "epoch": 16.5437890974084,
      "grad_norm": 0.0007194060599431396,
      "learning_rate": 4.412575780469516e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64468624,
      "step": 111075
    },
    {
      "epoch": 16.54453380994936,
      "grad_norm": 7.061918586259708e-05,
      "learning_rate": 4.410732490420036e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64471952,
      "step": 111080
    },
    {
      "epoch": 16.545278522490317,
      "grad_norm": 5.3768412726640236e-06,
      "learning_rate": 4.4088895482053e-06,
      "loss": 0.0227,
      "num_input_tokens_seen": 64474864,
      "step": 111085
    },
    {
      "epoch": 16.546023235031278,
      "grad_norm": 3.530537651386112e-05,
      "learning_rate": 4.40704695385645e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64477712,
      "step": 111090
    },
    {
      "epoch": 16.54676794757224,
      "grad_norm": 0.00017875847697723657,
      "learning_rate": 4.405204707404614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64480528,
      "step": 111095
    },
    {
      "epoch": 16.547512660113195,
      "grad_norm": 1.4152640687825624e-05,
      "learning_rate": 4.403362808880909e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64483440,
      "step": 111100
    },
    {
      "epoch": 16.548257372654156,
      "grad_norm": 0.0009480973822064698,
      "learning_rate": 4.40152125831646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64486576,
      "step": 111105
    },
    {
      "epoch": 16.549002085195113,
      "grad_norm": 4.5919950935058296e-06,
      "learning_rate": 4.3996800557423665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64489648,
      "step": 111110
    },
    {
      "epoch": 16.549746797736073,
      "grad_norm": 0.0002201652678195387,
      "learning_rate": 4.397839201189749e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 64492816,
      "step": 111115
    },
    {
      "epoch": 16.550491510277034,
      "grad_norm": 8.667459042044356e-05,
      "learning_rate": 4.395998694689699e-06,
      "loss": 0.0426,
      "num_input_tokens_seen": 64495344,
      "step": 111120
    },
    {
      "epoch": 16.55123622281799,
      "grad_norm": 2.006214708671905e-05,
      "learning_rate": 4.39415853627331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64498384,
      "step": 111125
    },
    {
      "epoch": 16.55198093535895,
      "grad_norm": 6.241175924515119e-06,
      "learning_rate": 4.3923187259716615e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64501360,
      "step": 111130
    },
    {
      "epoch": 16.552725647899912,
      "grad_norm": 0.0002621336898300797,
      "learning_rate": 4.390479263815852e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64504272,
      "step": 111135
    },
    {
      "epoch": 16.55347036044087,
      "grad_norm": 1.3176349966670386e-05,
      "learning_rate": 4.388640149836948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64507152,
      "step": 111140
    },
    {
      "epoch": 16.55421507298183,
      "grad_norm": 1.7923339328262955e-05,
      "learning_rate": 4.3868013840660135e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64509968,
      "step": 111145
    },
    {
      "epoch": 16.554959785522787,
      "grad_norm": 3.621866426328779e-06,
      "learning_rate": 4.3849629665341255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64512720,
      "step": 111150
    },
    {
      "epoch": 16.555704498063747,
      "grad_norm": 3.564932194421999e-05,
      "learning_rate": 4.383124897272331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64515696,
      "step": 111155
    },
    {
      "epoch": 16.556449210604708,
      "grad_norm": 1.045787848852342e-05,
      "learning_rate": 4.381287176311694e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64518896,
      "step": 111160
    },
    {
      "epoch": 16.557193923145665,
      "grad_norm": 3.7462286854861304e-05,
      "learning_rate": 4.379449803683247e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64521968,
      "step": 111165
    },
    {
      "epoch": 16.557938635686625,
      "grad_norm": 6.442010544560617e-06,
      "learning_rate": 4.377612779418041e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64524688,
      "step": 111170
    },
    {
      "epoch": 16.558683348227586,
      "grad_norm": 4.6819088311167434e-05,
      "learning_rate": 4.375776103547114e-06,
      "loss": 0.0265,
      "num_input_tokens_seen": 64527600,
      "step": 111175
    },
    {
      "epoch": 16.559428060768543,
      "grad_norm": 7.666094461455941e-05,
      "learning_rate": 4.373939776101476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64530448,
      "step": 111180
    },
    {
      "epoch": 16.560172773309503,
      "grad_norm": 8.300233275804203e-06,
      "learning_rate": 4.37210379711217e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64533264,
      "step": 111185
    },
    {
      "epoch": 16.56091748585046,
      "grad_norm": 3.6636214645113796e-05,
      "learning_rate": 4.370268166610206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64536048,
      "step": 111190
    },
    {
      "epoch": 16.56166219839142,
      "grad_norm": 0.0002699070319067687,
      "learning_rate": 4.368432884626594e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64538768,
      "step": 111195
    },
    {
      "epoch": 16.56240691093238,
      "grad_norm": 0.0012937361607328057,
      "learning_rate": 4.366597951192333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64542000,
      "step": 111200
    },
    {
      "epoch": 16.56315162347334,
      "grad_norm": 2.9604991141241044e-05,
      "learning_rate": 4.364763366338437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64544720,
      "step": 111205
    },
    {
      "epoch": 16.5638963360143,
      "grad_norm": 9.403244621353224e-05,
      "learning_rate": 4.362929130095888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64547504,
      "step": 111210
    },
    {
      "epoch": 16.56464104855526,
      "grad_norm": 9.482274435868021e-06,
      "learning_rate": 4.361095242495672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64550256,
      "step": 111215
    },
    {
      "epoch": 16.565385761096216,
      "grad_norm": 6.599759217351675e-05,
      "learning_rate": 4.359261703568781e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64552880,
      "step": 111220
    },
    {
      "epoch": 16.566130473637177,
      "grad_norm": 1.0825611752807163e-05,
      "learning_rate": 4.357428513346179e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64555728,
      "step": 111225
    },
    {
      "epoch": 16.566875186178134,
      "grad_norm": 8.372205775231123e-05,
      "learning_rate": 4.35559567185885e-06,
      "loss": 0.0022,
      "num_input_tokens_seen": 64558416,
      "step": 111230
    },
    {
      "epoch": 16.567619898719094,
      "grad_norm": 2.0522711565718055e-05,
      "learning_rate": 4.353763179137743e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64561200,
      "step": 111235
    },
    {
      "epoch": 16.568364611260055,
      "grad_norm": 7.907210238045081e-05,
      "learning_rate": 4.351931035213827e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 64564176,
      "step": 111240
    },
    {
      "epoch": 16.569109323801012,
      "grad_norm": 0.000670677749440074,
      "learning_rate": 4.350099240118047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64566864,
      "step": 111245
    },
    {
      "epoch": 16.569854036341972,
      "grad_norm": 4.2318010855524335e-06,
      "learning_rate": 4.348267793881358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64569872,
      "step": 111250
    },
    {
      "epoch": 16.57059874888293,
      "grad_norm": 3.589720336094615e-06,
      "learning_rate": 4.346436696534698e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64572880,
      "step": 111255
    },
    {
      "epoch": 16.57134346142389,
      "grad_norm": 0.00014358427142724395,
      "learning_rate": 4.344605948108993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64576144,
      "step": 111260
    },
    {
      "epoch": 16.57208817396485,
      "grad_norm": 1.0149369700229727e-05,
      "learning_rate": 4.342775548635181e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64578960,
      "step": 111265
    },
    {
      "epoch": 16.572832886505807,
      "grad_norm": 0.0003054160042665899,
      "learning_rate": 4.340945498144175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64581904,
      "step": 111270
    },
    {
      "epoch": 16.573577599046768,
      "grad_norm": 3.682409078464843e-05,
      "learning_rate": 4.3391157966669036e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64584720,
      "step": 111275
    },
    {
      "epoch": 16.57432231158773,
      "grad_norm": 5.5418706324417144e-05,
      "learning_rate": 4.337286444234265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64588016,
      "step": 111280
    },
    {
      "epoch": 16.575067024128685,
      "grad_norm": 0.0006489123334176838,
      "learning_rate": 4.335457440877177e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64591088,
      "step": 111285
    },
    {
      "epoch": 16.575811736669646,
      "grad_norm": 3.969340104958974e-05,
      "learning_rate": 4.333628786626534e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64594160,
      "step": 111290
    },
    {
      "epoch": 16.576556449210603,
      "grad_norm": 3.91714138459065e-06,
      "learning_rate": 4.331800481513223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64597232,
      "step": 111295
    },
    {
      "epoch": 16.577301161751564,
      "grad_norm": 1.6789452274679206e-05,
      "learning_rate": 4.329972525568141e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64599728,
      "step": 111300
    },
    {
      "epoch": 16.578045874292524,
      "grad_norm": 5.4453859775094315e-05,
      "learning_rate": 4.3281449188221605e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64602672,
      "step": 111305
    },
    {
      "epoch": 16.57879058683348,
      "grad_norm": 0.0001650742196943611,
      "learning_rate": 4.326317661306168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64605808,
      "step": 111310
    },
    {
      "epoch": 16.57953529937444,
      "grad_norm": 0.00021754286717623472,
      "learning_rate": 4.324490753051019e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64608528,
      "step": 111315
    },
    {
      "epoch": 16.580280011915402,
      "grad_norm": 1.1809737770818174e-05,
      "learning_rate": 4.322664194087591e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64611344,
      "step": 111320
    },
    {
      "epoch": 16.58102472445636,
      "grad_norm": 4.207876554573886e-05,
      "learning_rate": 4.320837984446738e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64614288,
      "step": 111325
    },
    {
      "epoch": 16.58176943699732,
      "grad_norm": 6.427460903069004e-06,
      "learning_rate": 4.319012124159308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64617168,
      "step": 111330
    },
    {
      "epoch": 16.582514149538277,
      "grad_norm": 3.7671786685677944e-06,
      "learning_rate": 4.317186613256149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64620240,
      "step": 111335
    },
    {
      "epoch": 16.583258862079237,
      "grad_norm": 7.80084592406638e-05,
      "learning_rate": 4.3153614517680965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64623088,
      "step": 111340
    },
    {
      "epoch": 16.584003574620198,
      "grad_norm": 0.00020523756393231452,
      "learning_rate": 4.313536639725996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64625744,
      "step": 111345
    },
    {
      "epoch": 16.584748287161155,
      "grad_norm": 1.6112771845655516e-05,
      "learning_rate": 4.311712177160662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64628528,
      "step": 111350
    },
    {
      "epoch": 16.585492999702115,
      "grad_norm": 1.9427170627750456e-05,
      "learning_rate": 4.30988806410293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64631408,
      "step": 111355
    },
    {
      "epoch": 16.586237712243076,
      "grad_norm": 0.00045797706115990877,
      "learning_rate": 4.308064300583603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64634032,
      "step": 111360
    },
    {
      "epoch": 16.586982424784033,
      "grad_norm": 0.0002499898546375334,
      "learning_rate": 4.3062408866335085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64636752,
      "step": 111365
    },
    {
      "epoch": 16.587727137324993,
      "grad_norm": 0.0006493611726909876,
      "learning_rate": 4.30441782228344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64639568,
      "step": 111370
    },
    {
      "epoch": 16.58847184986595,
      "grad_norm": 9.977557056117803e-06,
      "learning_rate": 4.302595107564192e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64642096,
      "step": 111375
    },
    {
      "epoch": 16.58921656240691,
      "grad_norm": 5.8703449212771375e-06,
      "learning_rate": 4.300772742506571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64644752,
      "step": 111380
    },
    {
      "epoch": 16.58996127494787,
      "grad_norm": 0.0003127531672362238,
      "learning_rate": 4.2989507271413515e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64647632,
      "step": 111385
    },
    {
      "epoch": 16.59070598748883,
      "grad_norm": 7.889212611189578e-06,
      "learning_rate": 4.297129061499324e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64650800,
      "step": 111390
    },
    {
      "epoch": 16.59145070002979,
      "grad_norm": 1.0209092579316348e-05,
      "learning_rate": 4.29530774561126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64653552,
      "step": 111395
    },
    {
      "epoch": 16.59219541257075,
      "grad_norm": 1.5067725144035649e-05,
      "learning_rate": 4.29348677950793e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64656304,
      "step": 111400
    },
    {
      "epoch": 16.592940125111706,
      "grad_norm": 3.2454525353387e-05,
      "learning_rate": 4.291666163220087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64659088,
      "step": 111405
    },
    {
      "epoch": 16.593684837652667,
      "grad_norm": 0.00022607124992646277,
      "learning_rate": 4.289845896778505e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64662128,
      "step": 111410
    },
    {
      "epoch": 16.594429550193624,
      "grad_norm": 0.19693918526172638,
      "learning_rate": 4.2880259802139276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64664880,
      "step": 111415
    },
    {
      "epoch": 16.595174262734584,
      "grad_norm": 0.00021009873307775706,
      "learning_rate": 4.286206413557092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64667728,
      "step": 111420
    },
    {
      "epoch": 16.595918975275545,
      "grad_norm": 0.004203577991575003,
      "learning_rate": 4.284387196838755e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64670736,
      "step": 111425
    },
    {
      "epoch": 16.596663687816502,
      "grad_norm": 0.0013396081048995256,
      "learning_rate": 4.282568330089637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64673616,
      "step": 111430
    },
    {
      "epoch": 16.597408400357462,
      "grad_norm": 2.2772197553422302e-05,
      "learning_rate": 4.280749813340473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64676752,
      "step": 111435
    },
    {
      "epoch": 16.598153112898423,
      "grad_norm": 4.546812760963803e-06,
      "learning_rate": 4.278931646621981e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64679472,
      "step": 111440
    },
    {
      "epoch": 16.59889782543938,
      "grad_norm": 5.144247188582085e-05,
      "learning_rate": 4.2771138299648825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64682544,
      "step": 111445
    },
    {
      "epoch": 16.59964253798034,
      "grad_norm": 8.674629498273134e-05,
      "learning_rate": 4.275296363399883e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64685424,
      "step": 111450
    },
    {
      "epoch": 16.600387250521297,
      "grad_norm": 0.00014188453496899456,
      "learning_rate": 4.27347924695769e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64688528,
      "step": 111455
    },
    {
      "epoch": 16.601131963062258,
      "grad_norm": 5.9579549997579306e-05,
      "learning_rate": 4.271662480668995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64691280,
      "step": 111460
    },
    {
      "epoch": 16.60187667560322,
      "grad_norm": 0.00011301859194645658,
      "learning_rate": 4.269846064564498e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64693968,
      "step": 111465
    },
    {
      "epoch": 16.602621388144176,
      "grad_norm": 0.0004206711601000279,
      "learning_rate": 4.268029998674883e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64697296,
      "step": 111470
    },
    {
      "epoch": 16.603366100685136,
      "grad_norm": 0.0006556285661645234,
      "learning_rate": 4.266214283030825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64700240,
      "step": 111475
    },
    {
      "epoch": 16.604110813226093,
      "grad_norm": 0.0004839936154894531,
      "learning_rate": 4.2643989176630095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64703120,
      "step": 111480
    },
    {
      "epoch": 16.604855525767054,
      "grad_norm": 6.638281047344208e-05,
      "learning_rate": 4.262583902602094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64706128,
      "step": 111485
    },
    {
      "epoch": 16.605600238308014,
      "grad_norm": 3.1294423479266698e-06,
      "learning_rate": 4.2607692378787535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64709072,
      "step": 111490
    },
    {
      "epoch": 16.60634495084897,
      "grad_norm": 1.4989860574132763e-05,
      "learning_rate": 4.258954923523636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64712368,
      "step": 111495
    },
    {
      "epoch": 16.60708966338993,
      "grad_norm": 5.794805474579334e-06,
      "learning_rate": 4.25714095956739e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64715216,
      "step": 111500
    },
    {
      "epoch": 16.607834375930892,
      "grad_norm": 8.719253673916683e-05,
      "learning_rate": 4.255327346040672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64718320,
      "step": 111505
    },
    {
      "epoch": 16.60857908847185,
      "grad_norm": 0.0005504831788130105,
      "learning_rate": 4.253514082974108e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64721392,
      "step": 111510
    },
    {
      "epoch": 16.60932380101281,
      "grad_norm": 0.00016475480515509844,
      "learning_rate": 4.251701170398342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64724112,
      "step": 111515
    },
    {
      "epoch": 16.610068513553767,
      "grad_norm": 7.71279155742377e-06,
      "learning_rate": 4.2498886083439995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64726896,
      "step": 111520
    },
    {
      "epoch": 16.610813226094727,
      "grad_norm": 9.654901805333793e-05,
      "learning_rate": 4.2480763968416996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64729840,
      "step": 111525
    },
    {
      "epoch": 16.611557938635688,
      "grad_norm": 0.0001703976304270327,
      "learning_rate": 4.246264535922051e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64732944,
      "step": 111530
    },
    {
      "epoch": 16.612302651176645,
      "grad_norm": 7.597791409352794e-06,
      "learning_rate": 4.244453025615674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64735856,
      "step": 111535
    },
    {
      "epoch": 16.613047363717605,
      "grad_norm": 3.379072586540133e-05,
      "learning_rate": 4.242641865953173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64738672,
      "step": 111540
    },
    {
      "epoch": 16.613792076258566,
      "grad_norm": 3.976821608375758e-05,
      "learning_rate": 4.240831056965131e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64741456,
      "step": 111545
    },
    {
      "epoch": 16.614536788799523,
      "grad_norm": 2.669066088856198e-05,
      "learning_rate": 4.239020598682155e-06,
      "loss": 0.1347,
      "num_input_tokens_seen": 64744528,
      "step": 111550
    },
    {
      "epoch": 16.615281501340483,
      "grad_norm": 7.314096001209691e-05,
      "learning_rate": 4.237210491134821e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 64747472,
      "step": 111555
    },
    {
      "epoch": 16.61602621388144,
      "grad_norm": 9.7151510999538e-05,
      "learning_rate": 4.23540073435372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64750544,
      "step": 111560
    },
    {
      "epoch": 16.6167709264224,
      "grad_norm": 0.0013077956391498446,
      "learning_rate": 4.2335913283694126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64753712,
      "step": 111565
    },
    {
      "epoch": 16.61751563896336,
      "grad_norm": 0.0001814528659451753,
      "learning_rate": 4.231782273212481e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64756720,
      "step": 111570
    },
    {
      "epoch": 16.61826035150432,
      "grad_norm": 0.00010872188431676477,
      "learning_rate": 4.2299735689134784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64759344,
      "step": 111575
    },
    {
      "epoch": 16.61900506404528,
      "grad_norm": 0.00010415415454190224,
      "learning_rate": 4.228165215502958e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64762512,
      "step": 111580
    },
    {
      "epoch": 16.61974977658624,
      "grad_norm": 8.329135744133964e-05,
      "learning_rate": 4.226357213011478e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64765072,
      "step": 111585
    },
    {
      "epoch": 16.620494489127196,
      "grad_norm": 9.265917469747365e-06,
      "learning_rate": 4.224549561469582e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64767920,
      "step": 111590
    },
    {
      "epoch": 16.621239201668157,
      "grad_norm": 3.336472900627996e-06,
      "learning_rate": 4.222742260907806e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64770864,
      "step": 111595
    },
    {
      "epoch": 16.621983914209114,
      "grad_norm": 1.453997720091138e-05,
      "learning_rate": 4.220935311356675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64773968,
      "step": 111600
    },
    {
      "epoch": 16.622728626750074,
      "grad_norm": 3.4656513889785856e-06,
      "learning_rate": 4.219128712846729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64776784,
      "step": 111605
    },
    {
      "epoch": 16.623473339291035,
      "grad_norm": 2.1422605641419068e-05,
      "learning_rate": 4.217322465408477e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64779632,
      "step": 111610
    },
    {
      "epoch": 16.624218051831992,
      "grad_norm": 0.00010393706907052547,
      "learning_rate": 4.2155165690724476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64782608,
      "step": 111615
    },
    {
      "epoch": 16.624962764372953,
      "grad_norm": 0.0014760548947378993,
      "learning_rate": 4.213711023869138e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64785712,
      "step": 111620
    },
    {
      "epoch": 16.62570747691391,
      "grad_norm": 5.533955481951125e-05,
      "learning_rate": 4.211905829829049e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64788432,
      "step": 111625
    },
    {
      "epoch": 16.62645218945487,
      "grad_norm": 3.982929229096044e-06,
      "learning_rate": 4.21010098698269e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64791408,
      "step": 111630
    },
    {
      "epoch": 16.62719690199583,
      "grad_norm": 5.6178640079451725e-05,
      "learning_rate": 4.208296495360539e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64794224,
      "step": 111635
    },
    {
      "epoch": 16.627941614536788,
      "grad_norm": 5.505927219928708e-06,
      "learning_rate": 4.206492354993094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64796880,
      "step": 111640
    },
    {
      "epoch": 16.628686327077748,
      "grad_norm": 2.725416561588645e-05,
      "learning_rate": 4.204688565910819e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64799632,
      "step": 111645
    },
    {
      "epoch": 16.62943103961871,
      "grad_norm": 1.424410493200412e-05,
      "learning_rate": 4.202885128144202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64802352,
      "step": 111650
    },
    {
      "epoch": 16.630175752159666,
      "grad_norm": 2.224468335043639e-05,
      "learning_rate": 4.201082041723703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64804976,
      "step": 111655
    },
    {
      "epoch": 16.630920464700626,
      "grad_norm": 8.935602636483964e-06,
      "learning_rate": 4.1992793066797845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64807664,
      "step": 111660
    },
    {
      "epoch": 16.631665177241583,
      "grad_norm": 0.00017909456801135093,
      "learning_rate": 4.197476923042901e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64810704,
      "step": 111665
    },
    {
      "epoch": 16.632409889782544,
      "grad_norm": 6.741348443028983e-06,
      "learning_rate": 4.195674890843495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64813392,
      "step": 111670
    },
    {
      "epoch": 16.633154602323504,
      "grad_norm": 0.0013477230677381158,
      "learning_rate": 4.193873210112026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64816176,
      "step": 111675
    },
    {
      "epoch": 16.63389931486446,
      "grad_norm": 3.84488157578744e-05,
      "learning_rate": 4.192071880878914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64818704,
      "step": 111680
    },
    {
      "epoch": 16.63464402740542,
      "grad_norm": 0.0002438273368170485,
      "learning_rate": 4.1902709031746094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64821424,
      "step": 111685
    },
    {
      "epoch": 16.635388739946382,
      "grad_norm": 7.00820964993909e-06,
      "learning_rate": 4.188470277029516e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64824112,
      "step": 111690
    },
    {
      "epoch": 16.63613345248734,
      "grad_norm": 1.0264248885505367e-05,
      "learning_rate": 4.1866700024740745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64827056,
      "step": 111695
    },
    {
      "epoch": 16.6368781650283,
      "grad_norm": 0.001160594867542386,
      "learning_rate": 4.184870079538692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64830224,
      "step": 111700
    },
    {
      "epoch": 16.637622877569257,
      "grad_norm": 8.282045746454969e-05,
      "learning_rate": 4.183070508253764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64833232,
      "step": 111705
    },
    {
      "epoch": 16.638367590110217,
      "grad_norm": 4.295812686905265e-06,
      "learning_rate": 4.18127128864971e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64835728,
      "step": 111710
    },
    {
      "epoch": 16.639112302651178,
      "grad_norm": 1.9978535419795662e-05,
      "learning_rate": 4.179472420756911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64838512,
      "step": 111715
    },
    {
      "epoch": 16.639857015192135,
      "grad_norm": 0.0005680048489011824,
      "learning_rate": 4.177673904605773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64841424,
      "step": 111720
    },
    {
      "epoch": 16.640601727733095,
      "grad_norm": 6.397297966032056e-06,
      "learning_rate": 4.1758757402266675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64844368,
      "step": 111725
    },
    {
      "epoch": 16.641346440274056,
      "grad_norm": 5.598004281637259e-05,
      "learning_rate": 4.1740779276499805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64847152,
      "step": 111730
    },
    {
      "epoch": 16.642091152815013,
      "grad_norm": 2.0496712750173174e-05,
      "learning_rate": 4.172280466906079e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64850224,
      "step": 111735
    },
    {
      "epoch": 16.642835865355973,
      "grad_norm": 6.894398666190682e-06,
      "learning_rate": 4.170483358025323e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64853392,
      "step": 111740
    },
    {
      "epoch": 16.64358057789693,
      "grad_norm": 0.00012394947407301515,
      "learning_rate": 4.168686601038091e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64856272,
      "step": 111745
    },
    {
      "epoch": 16.64432529043789,
      "grad_norm": 6.858720735181123e-05,
      "learning_rate": 4.1668901959747155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64859472,
      "step": 111750
    },
    {
      "epoch": 16.64507000297885,
      "grad_norm": 2.6951217932946747e-06,
      "learning_rate": 4.165094142865566e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64862512,
      "step": 111755
    },
    {
      "epoch": 16.64581471551981,
      "grad_norm": 4.698833890870446e-06,
      "learning_rate": 4.163298441740968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64865392,
      "step": 111760
    },
    {
      "epoch": 16.64655942806077,
      "grad_norm": 0.00010250931518385187,
      "learning_rate": 4.161503092631272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64868176,
      "step": 111765
    },
    {
      "epoch": 16.647304140601726,
      "grad_norm": 3.502511026454158e-05,
      "learning_rate": 4.159708095566794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64871024,
      "step": 111770
    },
    {
      "epoch": 16.648048853142686,
      "grad_norm": 1.8155133147956803e-05,
      "learning_rate": 4.157913450577875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64873616,
      "step": 111775
    },
    {
      "epoch": 16.648793565683647,
      "grad_norm": 7.161400844779564e-06,
      "learning_rate": 4.1561191576948235e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64876400,
      "step": 111780
    },
    {
      "epoch": 16.649538278224604,
      "grad_norm": 1.1105208614026196e-05,
      "learning_rate": 4.1543252169479546e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 64879184,
      "step": 111785
    },
    {
      "epoch": 16.650282990765565,
      "grad_norm": 1.3194226085033733e-05,
      "learning_rate": 4.15253162836757e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64881872,
      "step": 111790
    },
    {
      "epoch": 16.651027703306525,
      "grad_norm": 0.00028241885593160987,
      "learning_rate": 4.1507383919839795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64884688,
      "step": 111795
    },
    {
      "epoch": 16.651772415847482,
      "grad_norm": 7.314560662052827e-06,
      "learning_rate": 4.148945507827476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64887504,
      "step": 111800
    },
    {
      "epoch": 16.652517128388443,
      "grad_norm": 0.00013924375525675714,
      "learning_rate": 4.147152975928336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64890352,
      "step": 111805
    },
    {
      "epoch": 16.6532618409294,
      "grad_norm": 7.98768724052934e-06,
      "learning_rate": 4.1453607963168604e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64893168,
      "step": 111810
    },
    {
      "epoch": 16.65400655347036,
      "grad_norm": 0.002370418282225728,
      "learning_rate": 4.1435689690233205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64895984,
      "step": 111815
    },
    {
      "epoch": 16.65475126601132,
      "grad_norm": 4.386477939988254e-06,
      "learning_rate": 4.141777494077978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64899056,
      "step": 111820
    },
    {
      "epoch": 16.655495978552278,
      "grad_norm": 8.140783393173479e-06,
      "learning_rate": 4.139986371511109e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64902192,
      "step": 111825
    },
    {
      "epoch": 16.656240691093238,
      "grad_norm": 0.0002679553290363401,
      "learning_rate": 4.138195601352968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64905232,
      "step": 111830
    },
    {
      "epoch": 16.6569854036342,
      "grad_norm": 0.000399965385440737,
      "learning_rate": 4.1364051836338125e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64908496,
      "step": 111835
    },
    {
      "epoch": 16.657730116175156,
      "grad_norm": 0.0006039976142346859,
      "learning_rate": 4.134615118383878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64911600,
      "step": 111840
    },
    {
      "epoch": 16.658474828716116,
      "grad_norm": 15.335040092468262,
      "learning_rate": 4.132825405633425e-06,
      "loss": 0.1657,
      "num_input_tokens_seen": 64914512,
      "step": 111845
    },
    {
      "epoch": 16.659219541257073,
      "grad_norm": 7.41530311643146e-06,
      "learning_rate": 4.131036045412675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64917072,
      "step": 111850
    },
    {
      "epoch": 16.659964253798034,
      "grad_norm": 0.0002390666923020035,
      "learning_rate": 4.1292470377518625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64920048,
      "step": 111855
    },
    {
      "epoch": 16.660708966338994,
      "grad_norm": 1.3751175174547825e-05,
      "learning_rate": 4.12745838268121e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64922864,
      "step": 111860
    },
    {
      "epoch": 16.66145367887995,
      "grad_norm": 0.0005938053946010768,
      "learning_rate": 4.125670080230926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64925616,
      "step": 111865
    },
    {
      "epoch": 16.66219839142091,
      "grad_norm": 0.0020957437809556723,
      "learning_rate": 4.123882130431236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64928496,
      "step": 111870
    },
    {
      "epoch": 16.662943103961872,
      "grad_norm": 2.3207110643852502e-05,
      "learning_rate": 4.122094533312337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64931056,
      "step": 111875
    },
    {
      "epoch": 16.66368781650283,
      "grad_norm": 6.025147740729153e-05,
      "learning_rate": 4.120307288904435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64933936,
      "step": 111880
    },
    {
      "epoch": 16.66443252904379,
      "grad_norm": 0.000132359258714132,
      "learning_rate": 4.118520397237715e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64936592,
      "step": 111885
    },
    {
      "epoch": 16.665177241584747,
      "grad_norm": 8.910835458664224e-05,
      "learning_rate": 4.1167338583423755e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64939440,
      "step": 111890
    },
    {
      "epoch": 16.665921954125707,
      "grad_norm": 4.285576505935751e-05,
      "learning_rate": 4.114947672248593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64942704,
      "step": 111895
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 3.541802288964391e-05,
      "learning_rate": 4.113161838986537e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64945488,
      "step": 111900
    },
    {
      "epoch": 16.667411379207625,
      "grad_norm": 7.179736614227295,
      "learning_rate": 4.111376358586388e-06,
      "loss": 0.0078,
      "num_input_tokens_seen": 64948336,
      "step": 111905
    },
    {
      "epoch": 16.668156091748585,
      "grad_norm": 0.00015980667376425117,
      "learning_rate": 4.109591231078303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64951312,
      "step": 111910
    },
    {
      "epoch": 16.668900804289546,
      "grad_norm": 0.00011657559662126005,
      "learning_rate": 4.107806456492444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64954224,
      "step": 111915
    },
    {
      "epoch": 16.669645516830503,
      "grad_norm": 0.00021783780539408326,
      "learning_rate": 4.106022034858961e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64957072,
      "step": 111920
    },
    {
      "epoch": 16.670390229371463,
      "grad_norm": 0.0002862752880901098,
      "learning_rate": 4.104237966208002e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64959984,
      "step": 111925
    },
    {
      "epoch": 16.67113494191242,
      "grad_norm": 4.305257971282117e-05,
      "learning_rate": 4.102454250569698e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64963088,
      "step": 111930
    },
    {
      "epoch": 16.67187965445338,
      "grad_norm": 0.5645021796226501,
      "learning_rate": 4.1006708879741975e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 64965776,
      "step": 111935
    },
    {
      "epoch": 16.67262436699434,
      "grad_norm": 1.3803080037178006e-05,
      "learning_rate": 4.098887878451621e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64968560,
      "step": 111940
    },
    {
      "epoch": 16.6733690795353,
      "grad_norm": 4.128441651118919e-05,
      "learning_rate": 4.097105222032083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64971504,
      "step": 111945
    },
    {
      "epoch": 16.67411379207626,
      "grad_norm": 4.020918277092278e-05,
      "learning_rate": 4.095322918745717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64974640,
      "step": 111950
    },
    {
      "epoch": 16.67485850461722,
      "grad_norm": 0.0008212347165681422,
      "learning_rate": 4.093540968622614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64977456,
      "step": 111955
    },
    {
      "epoch": 16.675603217158177,
      "grad_norm": 3.047555401280988e-05,
      "learning_rate": 4.091759371692896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64980144,
      "step": 111960
    },
    {
      "epoch": 16.676347929699137,
      "grad_norm": 3.878348252328578e-06,
      "learning_rate": 4.089978127986646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64982832,
      "step": 111965
    },
    {
      "epoch": 16.677092642240094,
      "grad_norm": 1.7762855350156315e-05,
      "learning_rate": 4.08819723753397e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64985936,
      "step": 111970
    },
    {
      "epoch": 16.677837354781055,
      "grad_norm": 8.258887828560546e-05,
      "learning_rate": 4.086416700364948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64988976,
      "step": 111975
    },
    {
      "epoch": 16.678582067322015,
      "grad_norm": 0.00034667461295612156,
      "learning_rate": 4.084636516509654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64992080,
      "step": 111980
    },
    {
      "epoch": 16.679326779862972,
      "grad_norm": 3.807294206126244e-06,
      "learning_rate": 4.0828566859981765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64995120,
      "step": 111985
    },
    {
      "epoch": 16.680071492403933,
      "grad_norm": 0.0011929607717320323,
      "learning_rate": 4.081077208860573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 64997840,
      "step": 111990
    },
    {
      "epoch": 16.68081620494489,
      "grad_norm": 0.00012853644147980958,
      "learning_rate": 4.079298085126912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65000784,
      "step": 111995
    },
    {
      "epoch": 16.68156091748585,
      "grad_norm": 1.135711954702856e-05,
      "learning_rate": 4.0775193148272385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65003568,
      "step": 112000
    },
    {
      "epoch": 16.68230563002681,
      "grad_norm": 8.438263648713473e-06,
      "learning_rate": 4.07574089799162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65006384,
      "step": 112005
    },
    {
      "epoch": 16.683050342567768,
      "grad_norm": 0.00015817290113773197,
      "learning_rate": 4.073962834650083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65009136,
      "step": 112010
    },
    {
      "epoch": 16.683795055108728,
      "grad_norm": 7.856645424908493e-06,
      "learning_rate": 4.072185124832684e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65011952,
      "step": 112015
    },
    {
      "epoch": 16.68453976764969,
      "grad_norm": 2.827432945196051e-05,
      "learning_rate": 4.070407768569448e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65014768,
      "step": 112020
    },
    {
      "epoch": 16.685284480190646,
      "grad_norm": 1.4136463505565189e-05,
      "learning_rate": 4.068630765890393e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65017648,
      "step": 112025
    },
    {
      "epoch": 16.686029192731606,
      "grad_norm": 0.0004988440196029842,
      "learning_rate": 4.0668541168255556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65020560,
      "step": 112030
    },
    {
      "epoch": 16.686773905272563,
      "grad_norm": 6.110551476012915e-05,
      "learning_rate": 4.065077821404934e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65023440,
      "step": 112035
    },
    {
      "epoch": 16.687518617813524,
      "grad_norm": 0.0005784864188171923,
      "learning_rate": 4.0633018796585514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65026224,
      "step": 112040
    },
    {
      "epoch": 16.688263330354484,
      "grad_norm": 2.9449176508933306e-05,
      "learning_rate": 4.061526291616399e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65029072,
      "step": 112045
    },
    {
      "epoch": 16.68900804289544,
      "grad_norm": 0.00021641049534082413,
      "learning_rate": 4.059751057308486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65031600,
      "step": 112050
    },
    {
      "epoch": 16.689752755436402,
      "grad_norm": 7.487473340006545e-05,
      "learning_rate": 4.057976176764797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65034576,
      "step": 112055
    },
    {
      "epoch": 16.690497467977362,
      "grad_norm": 4.89519807160832e-05,
      "learning_rate": 4.056201650015315e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65037648,
      "step": 112060
    },
    {
      "epoch": 16.69124218051832,
      "grad_norm": 9.367526945425197e-05,
      "learning_rate": 4.054427477090019e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65040592,
      "step": 112065
    },
    {
      "epoch": 16.69198689305928,
      "grad_norm": 9.8136042652186e-06,
      "learning_rate": 4.0526536580188766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65043696,
      "step": 112070
    },
    {
      "epoch": 16.692731605600237,
      "grad_norm": 6.419474811991677e-05,
      "learning_rate": 4.050880192831868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65046288,
      "step": 112075
    },
    {
      "epoch": 16.693476318141197,
      "grad_norm": 5.8077119319932535e-05,
      "learning_rate": 4.04910708155894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65049232,
      "step": 112080
    },
    {
      "epoch": 16.694221030682158,
      "grad_norm": 1.568694096931722e-05,
      "learning_rate": 4.047334324230059e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65051984,
      "step": 112085
    },
    {
      "epoch": 16.694965743223115,
      "grad_norm": 0.0009384598815813661,
      "learning_rate": 4.045561920875165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65054960,
      "step": 112090
    },
    {
      "epoch": 16.695710455764075,
      "grad_norm": 0.00013902114005759358,
      "learning_rate": 4.043789871524212e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65057808,
      "step": 112095
    },
    {
      "epoch": 16.696455168305036,
      "grad_norm": 0.00012635272287297994,
      "learning_rate": 4.042018176207127e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65060592,
      "step": 112100
    },
    {
      "epoch": 16.697199880845993,
      "grad_norm": 1.5905488908174448e-05,
      "learning_rate": 4.04024683495384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65063600,
      "step": 112105
    },
    {
      "epoch": 16.697944593386953,
      "grad_norm": 6.626794493058696e-05,
      "learning_rate": 4.038475847794287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65066704,
      "step": 112110
    },
    {
      "epoch": 16.69868930592791,
      "grad_norm": 0.00013853193377144635,
      "learning_rate": 4.036705214758379e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65069744,
      "step": 112115
    },
    {
      "epoch": 16.69943401846887,
      "grad_norm": 7.235005341499345e-06,
      "learning_rate": 4.0349349358760255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65072464,
      "step": 112120
    },
    {
      "epoch": 16.70017873100983,
      "grad_norm": 1.881216485344339e-05,
      "learning_rate": 4.0331650111771426e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65075216,
      "step": 112125
    },
    {
      "epoch": 16.70092344355079,
      "grad_norm": 7.257645484060049e-05,
      "learning_rate": 4.031395440691629e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65078064,
      "step": 112130
    },
    {
      "epoch": 16.70166815609175,
      "grad_norm": 1.138174320658436e-05,
      "learning_rate": 4.02962622444937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65080848,
      "step": 112135
    },
    {
      "epoch": 16.702412868632706,
      "grad_norm": 1.482657989981817e-05,
      "learning_rate": 4.0278573624802695e-06,
      "loss": 0.1005,
      "num_input_tokens_seen": 65083792,
      "step": 112140
    },
    {
      "epoch": 16.703157581173667,
      "grad_norm": 5.12300684931688e-05,
      "learning_rate": 4.026088854814205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65086832,
      "step": 112145
    },
    {
      "epoch": 16.703902293714627,
      "grad_norm": 1.6321379007422365e-05,
      "learning_rate": 4.024320701481044e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65089936,
      "step": 112150
    },
    {
      "epoch": 16.704647006255584,
      "grad_norm": 5.7554894738132134e-05,
      "learning_rate": 4.0225529025106735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65092592,
      "step": 112155
    },
    {
      "epoch": 16.705391718796545,
      "grad_norm": 8.987492765299976e-05,
      "learning_rate": 4.020785457932946e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65095568,
      "step": 112160
    },
    {
      "epoch": 16.706136431337505,
      "grad_norm": 0.00023075261560734361,
      "learning_rate": 4.01901836777773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65098352,
      "step": 112165
    },
    {
      "epoch": 16.706881143878462,
      "grad_norm": 5.4836298659211025e-05,
      "learning_rate": 4.01725163207487e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65100912,
      "step": 112170
    },
    {
      "epoch": 16.707625856419423,
      "grad_norm": 5.305218292050995e-05,
      "learning_rate": 4.015485250854223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65103536,
      "step": 112175
    },
    {
      "epoch": 16.70837056896038,
      "grad_norm": 5.8210403949487954e-05,
      "learning_rate": 4.013719224145623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65106224,
      "step": 112180
    },
    {
      "epoch": 16.70911528150134,
      "grad_norm": 3.7451877687999513e-06,
      "learning_rate": 4.011953551978911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65108912,
      "step": 112185
    },
    {
      "epoch": 16.7098599940423,
      "grad_norm": 2.636905810504686e-05,
      "learning_rate": 4.0101882343839105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65112048,
      "step": 112190
    },
    {
      "epoch": 16.710604706583258,
      "grad_norm": 0.00014740793267264962,
      "learning_rate": 4.0084232713904405e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 65114896,
      "step": 112195
    },
    {
      "epoch": 16.71134941912422,
      "grad_norm": 1.1702926713041961e-05,
      "learning_rate": 4.006658663028331e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 65117680,
      "step": 112200
    },
    {
      "epoch": 16.71209413166518,
      "grad_norm": 0.00013789310469292104,
      "learning_rate": 4.004894409327381e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65120624,
      "step": 112205
    },
    {
      "epoch": 16.712838844206136,
      "grad_norm": 0.00022995802282821387,
      "learning_rate": 4.0031305103174076e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65123504,
      "step": 112210
    },
    {
      "epoch": 16.713583556747096,
      "grad_norm": 1.8986762370332144e-05,
      "learning_rate": 4.001366966028197e-06,
      "loss": 0.1006,
      "num_input_tokens_seen": 65126288,
      "step": 112215
    },
    {
      "epoch": 16.714328269288053,
      "grad_norm": 6.012999165250221e-06,
      "learning_rate": 3.999603776489555e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65129168,
      "step": 112220
    },
    {
      "epoch": 16.715072981829014,
      "grad_norm": 2.482188392605167e-06,
      "learning_rate": 3.997840941731265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65132432,
      "step": 112225
    },
    {
      "epoch": 16.715817694369974,
      "grad_norm": 1.5910165529930964e-05,
      "learning_rate": 3.996078461783098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65135376,
      "step": 112230
    },
    {
      "epoch": 16.71656240691093,
      "grad_norm": 10.169047355651855,
      "learning_rate": 3.994316336674847e-06,
      "loss": 0.0641,
      "num_input_tokens_seen": 65138160,
      "step": 112235
    },
    {
      "epoch": 16.717307119451892,
      "grad_norm": 4.0252045437227935e-05,
      "learning_rate": 3.992554566436263e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65141104,
      "step": 112240
    },
    {
      "epoch": 16.718051831992852,
      "grad_norm": 2.6980667826137505e-05,
      "learning_rate": 3.990793151097128e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65144048,
      "step": 112245
    },
    {
      "epoch": 16.71879654453381,
      "grad_norm": 1.0144994121219497e-05,
      "learning_rate": 3.989032090687189e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65146736,
      "step": 112250
    },
    {
      "epoch": 16.71954125707477,
      "grad_norm": 6.099356323829852e-05,
      "learning_rate": 3.987271385236197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65149424,
      "step": 112255
    },
    {
      "epoch": 16.720285969615727,
      "grad_norm": 0.00035167072201147676,
      "learning_rate": 3.9855110347739e-06,
      "loss": 0.0038,
      "num_input_tokens_seen": 65152528,
      "step": 112260
    },
    {
      "epoch": 16.721030682156687,
      "grad_norm": 5.8552209338813554e-06,
      "learning_rate": 3.983751039330028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65155344,
      "step": 112265
    },
    {
      "epoch": 16.721775394697648,
      "grad_norm": 5.768083155999193e-06,
      "learning_rate": 3.981991398934329e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65158224,
      "step": 112270
    },
    {
      "epoch": 16.722520107238605,
      "grad_norm": 4.6072918848949485e-06,
      "learning_rate": 3.980232113616519e-06,
      "loss": 0.1345,
      "num_input_tokens_seen": 65160944,
      "step": 112275
    },
    {
      "epoch": 16.723264819779565,
      "grad_norm": 2.873974335670937e-05,
      "learning_rate": 3.978473183406328e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65163696,
      "step": 112280
    },
    {
      "epoch": 16.724009532320522,
      "grad_norm": 0.000509023608174175,
      "learning_rate": 3.9767146083334625e-06,
      "loss": 0.3781,
      "num_input_tokens_seen": 65166512,
      "step": 112285
    },
    {
      "epoch": 16.724754244861483,
      "grad_norm": 3.7956349387968658e-06,
      "learning_rate": 3.974956388427642e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65169776,
      "step": 112290
    },
    {
      "epoch": 16.725498957402444,
      "grad_norm": 1.0923655281658284e-05,
      "learning_rate": 3.97319852371856e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65173456,
      "step": 112295
    },
    {
      "epoch": 16.7262436699434,
      "grad_norm": 1.0076851844787598,
      "learning_rate": 3.971441014235921e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 65176208,
      "step": 112300
    },
    {
      "epoch": 16.72698838248436,
      "grad_norm": 0.002195531502366066,
      "learning_rate": 3.969683860009415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65178992,
      "step": 112305
    },
    {
      "epoch": 16.72773309502532,
      "grad_norm": 0.028545742854475975,
      "learning_rate": 3.967927061068721e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65181936,
      "step": 112310
    },
    {
      "epoch": 16.72847780756628,
      "grad_norm": 0.00011748853285098448,
      "learning_rate": 3.966170617443529e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65185168,
      "step": 112315
    },
    {
      "epoch": 16.72922252010724,
      "grad_norm": 0.00022501268540509045,
      "learning_rate": 3.964414529163507e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65188272,
      "step": 112320
    },
    {
      "epoch": 16.7299672326482,
      "grad_norm": 2.423183832434006e-05,
      "learning_rate": 3.96265879625832e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65191120,
      "step": 112325
    },
    {
      "epoch": 16.730711945189157,
      "grad_norm": 6.034177658875706e-06,
      "learning_rate": 3.960903418757628e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65193744,
      "step": 112330
    },
    {
      "epoch": 16.731456657730117,
      "grad_norm": 0.00025168381398543715,
      "learning_rate": 3.959148396691092e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65196528,
      "step": 112335
    },
    {
      "epoch": 16.732201370271074,
      "grad_norm": 3.982444468419999e-05,
      "learning_rate": 3.957393730088363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65199696,
      "step": 112340
    },
    {
      "epoch": 16.732946082812035,
      "grad_norm": 3.793489304371178e-05,
      "learning_rate": 3.9556394189790705e-06,
      "loss": 0.008,
      "num_input_tokens_seen": 65202640,
      "step": 112345
    },
    {
      "epoch": 16.733690795352995,
      "grad_norm": 0.00020476337522268295,
      "learning_rate": 3.95388546339287e-06,
      "loss": 0.4564,
      "num_input_tokens_seen": 65206000,
      "step": 112350
    },
    {
      "epoch": 16.734435507893952,
      "grad_norm": 3.938709596695844e-06,
      "learning_rate": 3.9521318633593765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65208944,
      "step": 112355
    },
    {
      "epoch": 16.735180220434913,
      "grad_norm": 0.00045845372369512916,
      "learning_rate": 3.950378618908232e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65211536,
      "step": 112360
    },
    {
      "epoch": 16.73592493297587,
      "grad_norm": 0.00017640250734984875,
      "learning_rate": 3.948625730069039e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65214288,
      "step": 112365
    },
    {
      "epoch": 16.73666964551683,
      "grad_norm": 0.0010001335758715868,
      "learning_rate": 3.946873196871423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65217136,
      "step": 112370
    },
    {
      "epoch": 16.73741435805779,
      "grad_norm": 4.270607405487681e-06,
      "learning_rate": 3.945121019344983e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65219952,
      "step": 112375
    },
    {
      "epoch": 16.738159070598748,
      "grad_norm": 1.3652501365868375e-05,
      "learning_rate": 3.943369197519328e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65222704,
      "step": 112380
    },
    {
      "epoch": 16.73890378313971,
      "grad_norm": 1.892714499263093e-05,
      "learning_rate": 3.941617731424052e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65225616,
      "step": 112385
    },
    {
      "epoch": 16.73964849568067,
      "grad_norm": 2.676587655514595e-06,
      "learning_rate": 3.9398666210887395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65228464,
      "step": 112390
    },
    {
      "epoch": 16.740393208221626,
      "grad_norm": 6.92693138262257e-05,
      "learning_rate": 3.938115866542977e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65231440,
      "step": 112395
    },
    {
      "epoch": 16.741137920762586,
      "grad_norm": 1.7705826394376345e-05,
      "learning_rate": 3.936365467816333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65234224,
      "step": 112400
    },
    {
      "epoch": 16.741882633303543,
      "grad_norm": 0.008768866769969463,
      "learning_rate": 3.934615424938395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65237232,
      "step": 112405
    },
    {
      "epoch": 16.742627345844504,
      "grad_norm": 7.459529570041923e-06,
      "learning_rate": 3.932865737938712e-06,
      "loss": 0.0013,
      "num_input_tokens_seen": 65239920,
      "step": 112410
    },
    {
      "epoch": 16.743372058385464,
      "grad_norm": 0.00027934066019952297,
      "learning_rate": 3.9311164068468576e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65242608,
      "step": 112415
    },
    {
      "epoch": 16.74411677092642,
      "grad_norm": 0.009697495959699154,
      "learning_rate": 3.929367431692377e-06,
      "loss": 0.2156,
      "num_input_tokens_seen": 65245392,
      "step": 112420
    },
    {
      "epoch": 16.744861483467382,
      "grad_norm": 0.00027972529642283916,
      "learning_rate": 3.927618812504813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65248304,
      "step": 112425
    },
    {
      "epoch": 16.745606196008342,
      "grad_norm": 5.3400664910441265e-05,
      "learning_rate": 3.925870549313718e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65251152,
      "step": 112430
    },
    {
      "epoch": 16.7463509085493,
      "grad_norm": 0.00041386683005839586,
      "learning_rate": 3.9241226421486145e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65253904,
      "step": 112435
    },
    {
      "epoch": 16.74709562109026,
      "grad_norm": 5.5491618695668876e-05,
      "learning_rate": 3.922375091039046e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65256880,
      "step": 112440
    },
    {
      "epoch": 16.747840333631217,
      "grad_norm": 3.801635102718137e-06,
      "learning_rate": 3.9206278960145255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65259824,
      "step": 112445
    },
    {
      "epoch": 16.748585046172177,
      "grad_norm": 5.070376573712565e-05,
      "learning_rate": 3.918881057104567e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65262736,
      "step": 112450
    },
    {
      "epoch": 16.749329758713138,
      "grad_norm": 0.002945463638752699,
      "learning_rate": 3.917134574338696e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65265392,
      "step": 112455
    },
    {
      "epoch": 16.750074471254095,
      "grad_norm": 0.002475227927789092,
      "learning_rate": 3.915388447746407e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65268336,
      "step": 112460
    },
    {
      "epoch": 16.750819183795056,
      "grad_norm": 0.00013194329221732914,
      "learning_rate": 3.913642677357201e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65271088,
      "step": 112465
    },
    {
      "epoch": 16.751563896336016,
      "grad_norm": 4.8852249165065587e-05,
      "learning_rate": 3.911897263200564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65273872,
      "step": 112470
    },
    {
      "epoch": 16.752308608876973,
      "grad_norm": 6.33258096058853e-05,
      "learning_rate": 3.910152205305998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65276560,
      "step": 112475
    },
    {
      "epoch": 16.753053321417934,
      "grad_norm": 2.2986945623415522e-05,
      "learning_rate": 3.908407503702966e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 65279376,
      "step": 112480
    },
    {
      "epoch": 16.75379803395889,
      "grad_norm": 6.781752745155245e-05,
      "learning_rate": 3.906663158420962e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65282480,
      "step": 112485
    },
    {
      "epoch": 16.75454274649985,
      "grad_norm": 0.00025402099709026515,
      "learning_rate": 3.904919169489438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65285648,
      "step": 112490
    },
    {
      "epoch": 16.75528745904081,
      "grad_norm": 3.552707494236529e-05,
      "learning_rate": 3.90317553693787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65288464,
      "step": 112495
    },
    {
      "epoch": 16.75603217158177,
      "grad_norm": 3.092004044447094e-05,
      "learning_rate": 3.90143226079571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65291152,
      "step": 112500
    },
    {
      "epoch": 16.75677688412273,
      "grad_norm": 0.00047368614468723536,
      "learning_rate": 3.899689341092402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65294000,
      "step": 112505
    },
    {
      "epoch": 16.757521596663686,
      "grad_norm": 1.8443861335981637e-05,
      "learning_rate": 3.897946777857406e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65296656,
      "step": 112510
    },
    {
      "epoch": 16.758266309204647,
      "grad_norm": 4.4982471081311814e-06,
      "learning_rate": 3.896204571120149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65299952,
      "step": 112515
    },
    {
      "epoch": 16.759011021745607,
      "grad_norm": 0.00016828152001835406,
      "learning_rate": 3.894462720910067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65302768,
      "step": 112520
    },
    {
      "epoch": 16.759755734286564,
      "grad_norm": 0.0028952581342309713,
      "learning_rate": 3.892721227256582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65305360,
      "step": 112525
    },
    {
      "epoch": 16.760500446827525,
      "grad_norm": 1.4125184861768503e-05,
      "learning_rate": 3.890980090189126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65308368,
      "step": 112530
    },
    {
      "epoch": 16.761245159368485,
      "grad_norm": 0.015201602131128311,
      "learning_rate": 3.8892393097370975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65311248,
      "step": 112535
    },
    {
      "epoch": 16.761989871909442,
      "grad_norm": 7.332219865929801e-06,
      "learning_rate": 3.887498885929924e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65313936,
      "step": 112540
    },
    {
      "epoch": 16.762734584450403,
      "grad_norm": 1.00601982921944e-05,
      "learning_rate": 3.8857588187969975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65316688,
      "step": 112545
    },
    {
      "epoch": 16.76347929699136,
      "grad_norm": 8.861652531777509e-06,
      "learning_rate": 3.884019108367712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65319440,
      "step": 112550
    },
    {
      "epoch": 16.76422400953232,
      "grad_norm": 1.1909532076970208e-05,
      "learning_rate": 3.882279754671467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65322608,
      "step": 112555
    },
    {
      "epoch": 16.76496872207328,
      "grad_norm": 1.942096605489496e-05,
      "learning_rate": 3.880540757737636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65325488,
      "step": 112560
    },
    {
      "epoch": 16.765713434614238,
      "grad_norm": 3.947012373828329e-05,
      "learning_rate": 3.878802117595609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65328368,
      "step": 112565
    },
    {
      "epoch": 16.7664581471552,
      "grad_norm": 0.0007269527413882315,
      "learning_rate": 3.877063834274749e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65330992,
      "step": 112570
    },
    {
      "epoch": 16.76720285969616,
      "grad_norm": 3.211112561984919e-05,
      "learning_rate": 3.8753259078044365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65333488,
      "step": 112575
    },
    {
      "epoch": 16.767947572237116,
      "grad_norm": 0.0002734567387960851,
      "learning_rate": 3.8735883382140184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65336656,
      "step": 112580
    },
    {
      "epoch": 16.768692284778076,
      "grad_norm": 0.0003896297130268067,
      "learning_rate": 3.871851125532855e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65339504,
      "step": 112585
    },
    {
      "epoch": 16.769436997319033,
      "grad_norm": 6.312630284810439e-05,
      "learning_rate": 3.870114269790292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65342480,
      "step": 112590
    },
    {
      "epoch": 16.770181709859994,
      "grad_norm": 0.0034176777116954327,
      "learning_rate": 3.8683777710156685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65345808,
      "step": 112595
    },
    {
      "epoch": 16.770926422400954,
      "grad_norm": 8.96852943697013e-05,
      "learning_rate": 3.866641629238329e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65348496,
      "step": 112600
    },
    {
      "epoch": 16.77167113494191,
      "grad_norm": 2.4190743715735152e-05,
      "learning_rate": 3.864905844487596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65351280,
      "step": 112605
    },
    {
      "epoch": 16.772415847482872,
      "grad_norm": 9.6639028924983e-05,
      "learning_rate": 3.8631704167928025e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65354064,
      "step": 112610
    },
    {
      "epoch": 16.773160560023832,
      "grad_norm": 5.2750496251974255e-05,
      "learning_rate": 3.861435346183259e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65356944,
      "step": 112615
    },
    {
      "epoch": 16.77390527256479,
      "grad_norm": 0.00010028854012489319,
      "learning_rate": 3.859700632688285e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65359696,
      "step": 112620
    },
    {
      "epoch": 16.77464998510575,
      "grad_norm": 1.1930827895412222e-05,
      "learning_rate": 3.857966276337183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65362384,
      "step": 112625
    },
    {
      "epoch": 16.775394697646707,
      "grad_norm": 1.1466075193311553e-05,
      "learning_rate": 3.856232277159247e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65365232,
      "step": 112630
    },
    {
      "epoch": 16.776139410187668,
      "grad_norm": 0.13244935870170593,
      "learning_rate": 3.8544986351837845e-06,
      "loss": 0.0016,
      "num_input_tokens_seen": 65368208,
      "step": 112635
    },
    {
      "epoch": 16.776884122728628,
      "grad_norm": 0.00622392725199461,
      "learning_rate": 3.852765350440069e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65371152,
      "step": 112640
    },
    {
      "epoch": 16.777628835269585,
      "grad_norm": 4.570011151372455e-05,
      "learning_rate": 3.8510324229573956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65374224,
      "step": 112645
    },
    {
      "epoch": 16.778373547810546,
      "grad_norm": 4.149318556301296e-06,
      "learning_rate": 3.849299852765034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65377104,
      "step": 112650
    },
    {
      "epoch": 16.779118260351503,
      "grad_norm": 0.0018918878631666303,
      "learning_rate": 3.847567639892255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65379888,
      "step": 112655
    },
    {
      "epoch": 16.779862972892463,
      "grad_norm": 9.855398820945993e-05,
      "learning_rate": 3.845835784368324e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65382800,
      "step": 112660
    },
    {
      "epoch": 16.780607685433424,
      "grad_norm": 8.888672891771421e-05,
      "learning_rate": 3.844104286222492e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65385776,
      "step": 112665
    },
    {
      "epoch": 16.78135239797438,
      "grad_norm": 4.622730557457544e-05,
      "learning_rate": 3.8423731454840185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65388656,
      "step": 112670
    },
    {
      "epoch": 16.78209711051534,
      "grad_norm": 0.0006490373052656651,
      "learning_rate": 3.840642362182143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65391728,
      "step": 112675
    },
    {
      "epoch": 16.7828418230563,
      "grad_norm": 0.0017404543468728662,
      "learning_rate": 3.838911936346115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65394352,
      "step": 112680
    },
    {
      "epoch": 16.78358653559726,
      "grad_norm": 0.00028960182680748403,
      "learning_rate": 3.837181868005158e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65397552,
      "step": 112685
    },
    {
      "epoch": 16.78433124813822,
      "grad_norm": 8.676620200276375e-05,
      "learning_rate": 3.83545215718851e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65400560,
      "step": 112690
    },
    {
      "epoch": 16.785075960679176,
      "grad_norm": 0.0004943078383803368,
      "learning_rate": 3.83372280392538e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65403312,
      "step": 112695
    },
    {
      "epoch": 16.785820673220137,
      "grad_norm": 5.399138444772689e-06,
      "learning_rate": 3.831993808244996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65406416,
      "step": 112700
    },
    {
      "epoch": 16.786565385761097,
      "grad_norm": 8.685673674335703e-05,
      "learning_rate": 3.830265170176564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65409296,
      "step": 112705
    },
    {
      "epoch": 16.787310098302054,
      "grad_norm": 1.7947284504771233e-05,
      "learning_rate": 3.828536889749282e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65412272,
      "step": 112710
    },
    {
      "epoch": 16.788054810843015,
      "grad_norm": 1.1197083949809894e-05,
      "learning_rate": 3.826808966992354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65415056,
      "step": 112715
    },
    {
      "epoch": 16.788799523383975,
      "grad_norm": 2.630862763908226e-05,
      "learning_rate": 3.825081401934971e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65418288,
      "step": 112720
    },
    {
      "epoch": 16.789544235924932,
      "grad_norm": 0.001535105868242681,
      "learning_rate": 3.823354194606316e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65421168,
      "step": 112725
    },
    {
      "epoch": 16.790288948465893,
      "grad_norm": 3.6308218113845214e-05,
      "learning_rate": 3.821627345035561e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65423888,
      "step": 112730
    },
    {
      "epoch": 16.79103366100685,
      "grad_norm": 0.006056781392544508,
      "learning_rate": 3.819900853251896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65426576,
      "step": 112735
    },
    {
      "epoch": 16.79177837354781,
      "grad_norm": 0.000980895827524364,
      "learning_rate": 3.818174719284473e-06,
      "loss": 0.0616,
      "num_input_tokens_seen": 65429360,
      "step": 112740
    },
    {
      "epoch": 16.79252308608877,
      "grad_norm": 0.0003399804118089378,
      "learning_rate": 3.816448943162465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65432208,
      "step": 112745
    },
    {
      "epoch": 16.793267798629728,
      "grad_norm": 2.776773544610478e-05,
      "learning_rate": 3.814723524915023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65435152,
      "step": 112750
    },
    {
      "epoch": 16.79401251117069,
      "grad_norm": 6.868601485621184e-05,
      "learning_rate": 3.812998464571288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65438224,
      "step": 112755
    },
    {
      "epoch": 16.79475722371165,
      "grad_norm": 1.278514537261799e-05,
      "learning_rate": 3.8112737621604168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65441392,
      "step": 112760
    },
    {
      "epoch": 16.795501936252606,
      "grad_norm": 0.0003876284754369408,
      "learning_rate": 3.8095494177115358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65444336,
      "step": 112765
    },
    {
      "epoch": 16.796246648793566,
      "grad_norm": 1.689122109382879e-05,
      "learning_rate": 3.8078254312537836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65447472,
      "step": 112770
    },
    {
      "epoch": 16.796991361334523,
      "grad_norm": 0.00014008922153152525,
      "learning_rate": 3.806101802816284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65450256,
      "step": 112775
    },
    {
      "epoch": 16.797736073875484,
      "grad_norm": 3.556137380655855e-05,
      "learning_rate": 3.804378532428149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65453104,
      "step": 112780
    },
    {
      "epoch": 16.798480786416444,
      "grad_norm": 0.00017145193123724312,
      "learning_rate": 3.8026556201185003e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65456176,
      "step": 112785
    },
    {
      "epoch": 16.7992254989574,
      "grad_norm": 1.6801481251604855e-05,
      "learning_rate": 3.8009330659164425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65459120,
      "step": 112790
    },
    {
      "epoch": 16.799970211498362,
      "grad_norm": 1.1631487723207101e-05,
      "learning_rate": 3.799210869851072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65461840,
      "step": 112795
    },
    {
      "epoch": 16.800714924039323,
      "grad_norm": 0.00034061988117173314,
      "learning_rate": 3.7974890319514816e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65464720,
      "step": 112800
    },
    {
      "epoch": 16.80145963658028,
      "grad_norm": 0.0003759563551284373,
      "learning_rate": 3.7957675522467735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65467504,
      "step": 112805
    },
    {
      "epoch": 16.80220434912124,
      "grad_norm": 2.0955945728928782e-05,
      "learning_rate": 3.7940464307660126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65470448,
      "step": 112810
    },
    {
      "epoch": 16.802949061662197,
      "grad_norm": 5.87494250794407e-05,
      "learning_rate": 3.792325667538291e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65473200,
      "step": 112815
    },
    {
      "epoch": 16.803693774203158,
      "grad_norm": 3.8342521293088794e-05,
      "learning_rate": 3.790605262592667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65475984,
      "step": 112820
    },
    {
      "epoch": 16.804438486744118,
      "grad_norm": 1.4955766346247401e-05,
      "learning_rate": 3.7888852159582154e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65478928,
      "step": 112825
    },
    {
      "epoch": 16.805183199285075,
      "grad_norm": 1.1707182238751557e-05,
      "learning_rate": 3.7871655276639937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65481808,
      "step": 112830
    },
    {
      "epoch": 16.805927911826036,
      "grad_norm": 0.00039335066685453057,
      "learning_rate": 3.7854461977390426e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65484816,
      "step": 112835
    },
    {
      "epoch": 16.806672624366996,
      "grad_norm": 1.4447706234932411e-05,
      "learning_rate": 3.7837272262124216e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65487856,
      "step": 112840
    },
    {
      "epoch": 16.807417336907953,
      "grad_norm": 0.00019062584033235908,
      "learning_rate": 3.7820086131131667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65490832,
      "step": 112845
    },
    {
      "epoch": 16.808162049448914,
      "grad_norm": 4.603580237017013e-05,
      "learning_rate": 3.780290358470309e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65493872,
      "step": 112850
    },
    {
      "epoch": 16.80890676198987,
      "grad_norm": 0.00014843998360447586,
      "learning_rate": 3.7785724623128766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65496912,
      "step": 112855
    },
    {
      "epoch": 16.80965147453083,
      "grad_norm": 0.00041146890725940466,
      "learning_rate": 3.776854924669898e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65500144,
      "step": 112860
    },
    {
      "epoch": 16.81039618707179,
      "grad_norm": 5.925314690102823e-05,
      "learning_rate": 3.775137745570387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65502864,
      "step": 112865
    },
    {
      "epoch": 16.81114089961275,
      "grad_norm": 6.741970537404995e-06,
      "learning_rate": 3.7734209250433445e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65505680,
      "step": 112870
    },
    {
      "epoch": 16.81188561215371,
      "grad_norm": 0.001255615265108645,
      "learning_rate": 3.7717044631177867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65508432,
      "step": 112875
    },
    {
      "epoch": 16.812630324694666,
      "grad_norm": 0.0006775582442060113,
      "learning_rate": 3.7699883598227016e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65511216,
      "step": 112880
    },
    {
      "epoch": 16.813375037235627,
      "grad_norm": 0.00016794988187029958,
      "learning_rate": 3.768272615187091e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65514160,
      "step": 112885
    },
    {
      "epoch": 16.814119749776587,
      "grad_norm": 3.8931993913138285e-05,
      "learning_rate": 3.766557229239931e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65516784,
      "step": 112890
    },
    {
      "epoch": 16.814864462317544,
      "grad_norm": 4.043817170895636e-05,
      "learning_rate": 3.7648422020102105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65519856,
      "step": 112895
    },
    {
      "epoch": 16.815609174858505,
      "grad_norm": 3.5165117878932506e-05,
      "learning_rate": 3.7631275335268946e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65522544,
      "step": 112900
    },
    {
      "epoch": 16.816353887399465,
      "grad_norm": 13.61042594909668,
      "learning_rate": 3.7614132238189605e-06,
      "loss": 0.0975,
      "num_input_tokens_seen": 65525328,
      "step": 112905
    },
    {
      "epoch": 16.817098599940422,
      "grad_norm": 0.0002785335818771273,
      "learning_rate": 3.7596992729153623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65528112,
      "step": 112910
    },
    {
      "epoch": 16.817843312481383,
      "grad_norm": 0.00010108790593221784,
      "learning_rate": 3.757985680845058e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65530960,
      "step": 112915
    },
    {
      "epoch": 16.81858802502234,
      "grad_norm": 0.00036824887502007186,
      "learning_rate": 3.7562724476369963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65533808,
      "step": 112920
    },
    {
      "epoch": 16.8193327375633,
      "grad_norm": 0.0006562044145539403,
      "learning_rate": 3.7545595733201126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65536752,
      "step": 112925
    },
    {
      "epoch": 16.82007745010426,
      "grad_norm": 0.0004046879766974598,
      "learning_rate": 3.7528470579233614e-06,
      "loss": 0.0732,
      "num_input_tokens_seen": 65539664,
      "step": 112930
    },
    {
      "epoch": 16.820822162645218,
      "grad_norm": 0.0006523010088130832,
      "learning_rate": 3.751134901475656e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65542192,
      "step": 112935
    },
    {
      "epoch": 16.82156687518618,
      "grad_norm": 0.0005067348247393966,
      "learning_rate": 3.7494231040059364e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65545136,
      "step": 112940
    },
    {
      "epoch": 16.82231158772714,
      "grad_norm": 0.00022459306637756526,
      "learning_rate": 3.7477116655431162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65548368,
      "step": 112945
    },
    {
      "epoch": 16.823056300268096,
      "grad_norm": 1.8062148228636943e-05,
      "learning_rate": 3.7460005861161024e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65551184,
      "step": 112950
    },
    {
      "epoch": 16.823801012809056,
      "grad_norm": 8.761669596424326e-05,
      "learning_rate": 3.7442898657538113e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65553936,
      "step": 112955
    },
    {
      "epoch": 16.824545725350013,
      "grad_norm": 4.627897851605667e-06,
      "learning_rate": 3.7425795044851357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65556784,
      "step": 112960
    },
    {
      "epoch": 16.825290437890974,
      "grad_norm": 0.0001359519228572026,
      "learning_rate": 3.7408695023389785e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65559568,
      "step": 112965
    },
    {
      "epoch": 16.826035150431935,
      "grad_norm": 3.6789624573430046e-05,
      "learning_rate": 3.7391598593442184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65562288,
      "step": 112970
    },
    {
      "epoch": 16.82677986297289,
      "grad_norm": 0.0002327185939066112,
      "learning_rate": 3.7374505755297494e-06,
      "loss": 0.1376,
      "num_input_tokens_seen": 65565520,
      "step": 112975
    },
    {
      "epoch": 16.827524575513852,
      "grad_norm": 2.0119547116337344e-05,
      "learning_rate": 3.735741650924443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65568272,
      "step": 112980
    },
    {
      "epoch": 16.828269288054813,
      "grad_norm": 7.24056881153956e-05,
      "learning_rate": 3.7340330855571704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65571152,
      "step": 112985
    },
    {
      "epoch": 16.82901400059577,
      "grad_norm": 6.408763147192076e-05,
      "learning_rate": 3.7323248794567942e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65574192,
      "step": 112990
    },
    {
      "epoch": 16.82975871313673,
      "grad_norm": 2.7908072297577746e-05,
      "learning_rate": 3.7306170326521674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65577168,
      "step": 112995
    },
    {
      "epoch": 16.830503425677687,
      "grad_norm": 3.914028638973832e-05,
      "learning_rate": 3.7289095451721546e-06,
      "loss": 0.0073,
      "num_input_tokens_seen": 65580144,
      "step": 113000
    },
    {
      "epoch": 16.831248138218648,
      "grad_norm": 0.0018827839521691203,
      "learning_rate": 3.7272024170455914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65583248,
      "step": 113005
    },
    {
      "epoch": 16.831992850759608,
      "grad_norm": 5.236425204202533e-05,
      "learning_rate": 3.7254956483013278e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65586192,
      "step": 113010
    },
    {
      "epoch": 16.832737563300565,
      "grad_norm": 0.0004887767136096954,
      "learning_rate": 3.7237892389681866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65589392,
      "step": 113015
    },
    {
      "epoch": 16.833482275841526,
      "grad_norm": 8.848508878145367e-05,
      "learning_rate": 3.7220831890750067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65591984,
      "step": 113020
    },
    {
      "epoch": 16.834226988382483,
      "grad_norm": 0.00015761407848913223,
      "learning_rate": 3.7203774986506067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65594768,
      "step": 113025
    },
    {
      "epoch": 16.834971700923443,
      "grad_norm": 0.001255936804227531,
      "learning_rate": 3.718672167723797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65597776,
      "step": 113030
    },
    {
      "epoch": 16.835716413464404,
      "grad_norm": 0.0007992638275027275,
      "learning_rate": 3.7169671963233952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65601008,
      "step": 113035
    },
    {
      "epoch": 16.83646112600536,
      "grad_norm": 0.003261671867221594,
      "learning_rate": 3.7152625844781963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65603856,
      "step": 113040
    },
    {
      "epoch": 16.83720583854632,
      "grad_norm": 0.00012451519432943314,
      "learning_rate": 3.7135583322170098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65606832,
      "step": 113045
    },
    {
      "epoch": 16.837950551087282,
      "grad_norm": 5.33325583091937e-05,
      "learning_rate": 3.7118544395686213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65609712,
      "step": 113050
    },
    {
      "epoch": 16.83869526362824,
      "grad_norm": 4.5914384827483445e-06,
      "learning_rate": 3.710150906561813e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65613072,
      "step": 113055
    },
    {
      "epoch": 16.8394399761692,
      "grad_norm": 5.437662548501976e-05,
      "learning_rate": 3.708447733225362e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65616080,
      "step": 113060
    },
    {
      "epoch": 16.840184688710156,
      "grad_norm": 9.237060294253752e-05,
      "learning_rate": 3.706744919588054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65619024,
      "step": 113065
    },
    {
      "epoch": 16.840929401251117,
      "grad_norm": 3.8241007132455707e-05,
      "learning_rate": 3.7050424656786486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65621808,
      "step": 113070
    },
    {
      "epoch": 16.841674113792077,
      "grad_norm": 9.044371108757332e-05,
      "learning_rate": 3.7033403715259014e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65624816,
      "step": 113075
    },
    {
      "epoch": 16.842418826333034,
      "grad_norm": 8.415878983214498e-05,
      "learning_rate": 3.7016386371585804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65628048,
      "step": 113080
    },
    {
      "epoch": 16.843163538873995,
      "grad_norm": 15.298426628112793,
      "learning_rate": 3.6999372626054212e-06,
      "loss": 0.1128,
      "num_input_tokens_seen": 65630800,
      "step": 113085
    },
    {
      "epoch": 16.843908251414955,
      "grad_norm": 0.00040305242873728275,
      "learning_rate": 3.6982362478951786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65633776,
      "step": 113090
    },
    {
      "epoch": 16.844652963955912,
      "grad_norm": 0.0002446823345962912,
      "learning_rate": 3.6965355930565796e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65636560,
      "step": 113095
    },
    {
      "epoch": 16.845397676496873,
      "grad_norm": 0.001975355204194784,
      "learning_rate": 3.6948352981183683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65640720,
      "step": 113100
    },
    {
      "epoch": 16.84614238903783,
      "grad_norm": 1.5351251931861043e-05,
      "learning_rate": 3.693135363109257e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65643632,
      "step": 113105
    },
    {
      "epoch": 16.84688710157879,
      "grad_norm": 5.4032818297855556e-05,
      "learning_rate": 3.6914357880579647e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65646256,
      "step": 113110
    },
    {
      "epoch": 16.84763181411975,
      "grad_norm": 0.000145202167914249,
      "learning_rate": 3.689736572993213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65649008,
      "step": 113115
    },
    {
      "epoch": 16.848376526660708,
      "grad_norm": 0.00010879425826715305,
      "learning_rate": 3.6880377179437014e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65651920,
      "step": 113120
    },
    {
      "epoch": 16.84912123920167,
      "grad_norm": 0.00018186458328273147,
      "learning_rate": 3.6863392229381342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65654800,
      "step": 113125
    },
    {
      "epoch": 16.84986595174263,
      "grad_norm": 6.30197610007599e-05,
      "learning_rate": 3.684641088005197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65657744,
      "step": 113130
    },
    {
      "epoch": 16.850610664283586,
      "grad_norm": 0.002509394194930792,
      "learning_rate": 3.6829433131735895e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65660592,
      "step": 113135
    },
    {
      "epoch": 16.851355376824547,
      "grad_norm": 4.10659886256326e-05,
      "learning_rate": 3.6812458984719857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65663440,
      "step": 113140
    },
    {
      "epoch": 16.852100089365504,
      "grad_norm": 0.002092202892526984,
      "learning_rate": 3.6795488439290706e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65666320,
      "step": 113145
    },
    {
      "epoch": 16.852844801906464,
      "grad_norm": 1.2492698260757606e-05,
      "learning_rate": 3.6778521495735073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65669456,
      "step": 113150
    },
    {
      "epoch": 16.853589514447425,
      "grad_norm": 9.853495612333063e-06,
      "learning_rate": 3.6761558154339544e-06,
      "loss": 0.1128,
      "num_input_tokens_seen": 65672336,
      "step": 113155
    },
    {
      "epoch": 16.85433422698838,
      "grad_norm": 63.110389709472656,
      "learning_rate": 3.6744598415390823e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 65675056,
      "step": 113160
    },
    {
      "epoch": 16.855078939529342,
      "grad_norm": 0.00012374304060358554,
      "learning_rate": 3.672764227917533e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65677712,
      "step": 113165
    },
    {
      "epoch": 16.8558236520703,
      "grad_norm": 2.1058416677988134e-05,
      "learning_rate": 3.6710689745979606e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65680688,
      "step": 113170
    },
    {
      "epoch": 16.85656836461126,
      "grad_norm": 4.747591901832493e-06,
      "learning_rate": 3.6693740816090005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65683472,
      "step": 113175
    },
    {
      "epoch": 16.85731307715222,
      "grad_norm": 0.00036008143797516823,
      "learning_rate": 3.6676795489792857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65686448,
      "step": 113180
    },
    {
      "epoch": 16.858057789693177,
      "grad_norm": 2.5951698262360878e-05,
      "learning_rate": 3.665985376737438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65689072,
      "step": 113185
    },
    {
      "epoch": 16.858802502234138,
      "grad_norm": 1.9741208234336227e-05,
      "learning_rate": 3.6642915649120894e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 65692048,
      "step": 113190
    },
    {
      "epoch": 16.859547214775098,
      "grad_norm": 0.0006633546436205506,
      "learning_rate": 3.662598113531851e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65695120,
      "step": 113195
    },
    {
      "epoch": 16.860291927316055,
      "grad_norm": 3.905505218426697e-05,
      "learning_rate": 3.6609050226253273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65698128,
      "step": 113200
    },
    {
      "epoch": 16.861036639857016,
      "grad_norm": 7.692274084547535e-05,
      "learning_rate": 3.6592122922211287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65701392,
      "step": 113205
    },
    {
      "epoch": 16.861781352397973,
      "grad_norm": 0.0004847264790441841,
      "learning_rate": 3.6575199223478436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65704304,
      "step": 113210
    },
    {
      "epoch": 16.862526064938933,
      "grad_norm": 0.0005308343679644167,
      "learning_rate": 3.655827913034071e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65706992,
      "step": 113215
    },
    {
      "epoch": 16.863270777479894,
      "grad_norm": 0.0024105070624500513,
      "learning_rate": 3.6541362643083887e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65709840,
      "step": 113220
    },
    {
      "epoch": 16.86401549002085,
      "grad_norm": 5.4451371397590265e-05,
      "learning_rate": 3.6524449761993874e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65712464,
      "step": 113225
    },
    {
      "epoch": 16.86476020256181,
      "grad_norm": 7.615491631440818e-05,
      "learning_rate": 3.6507540487356274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65715504,
      "step": 113230
    },
    {
      "epoch": 16.865504915102772,
      "grad_norm": 8.808855636743829e-05,
      "learning_rate": 3.6490634819456775e-06,
      "loss": 0.1159,
      "num_input_tokens_seen": 65718576,
      "step": 113235
    },
    {
      "epoch": 16.86624962764373,
      "grad_norm": 0.00013009354006499052,
      "learning_rate": 3.6473732758581013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65721648,
      "step": 113240
    },
    {
      "epoch": 16.86699434018469,
      "grad_norm": 0.029528887942433357,
      "learning_rate": 3.6456834305014565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65724368,
      "step": 113245
    },
    {
      "epoch": 16.867739052725646,
      "grad_norm": 0.000650334230158478,
      "learning_rate": 3.6439939459042836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65727344,
      "step": 113250
    },
    {
      "epoch": 16.868483765266607,
      "grad_norm": 2.257589039800223e-05,
      "learning_rate": 3.6423048220951216e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65730000,
      "step": 113255
    },
    {
      "epoch": 16.869228477807567,
      "grad_norm": 1.24014341054135e-05,
      "learning_rate": 3.6406160591025196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65732624,
      "step": 113260
    },
    {
      "epoch": 16.869973190348524,
      "grad_norm": 3.534785355441272e-05,
      "learning_rate": 3.638927656954996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65735568,
      "step": 113265
    },
    {
      "epoch": 16.870717902889485,
      "grad_norm": 2.304009103681892e-05,
      "learning_rate": 3.6372396156810817e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65738576,
      "step": 113270
    },
    {
      "epoch": 16.871462615430445,
      "grad_norm": 8.540906856069341e-05,
      "learning_rate": 3.6355519353092947e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65741424,
      "step": 113275
    },
    {
      "epoch": 16.872207327971402,
      "grad_norm": 1.473721113143256e-05,
      "learning_rate": 3.6338646158681377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65744208,
      "step": 113280
    },
    {
      "epoch": 16.872952040512363,
      "grad_norm": 6.505518831545487e-05,
      "learning_rate": 3.6321776573861266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65747344,
      "step": 113285
    },
    {
      "epoch": 16.87369675305332,
      "grad_norm": 0.0007677887915633619,
      "learning_rate": 3.6304910598917526e-06,
      "loss": 0.0011,
      "num_input_tokens_seen": 65750576,
      "step": 113290
    },
    {
      "epoch": 16.87444146559428,
      "grad_norm": 6.522079944610596,
      "learning_rate": 3.6288048234135203e-06,
      "loss": 0.0361,
      "num_input_tokens_seen": 65753520,
      "step": 113295
    },
    {
      "epoch": 16.87518617813524,
      "grad_norm": 0.0022386617492884398,
      "learning_rate": 3.6271189479799017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65756176,
      "step": 113300
    },
    {
      "epoch": 16.875930890676198,
      "grad_norm": 0.00024683220544829965,
      "learning_rate": 3.625433433619391e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65759248,
      "step": 113305
    },
    {
      "epoch": 16.87667560321716,
      "grad_norm": 0.00011487538722576573,
      "learning_rate": 3.623748280360459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65762544,
      "step": 113310
    },
    {
      "epoch": 16.87742031575812,
      "grad_norm": 7.011574052739888e-05,
      "learning_rate": 3.622063488231575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65765360,
      "step": 113315
    },
    {
      "epoch": 16.878165028299076,
      "grad_norm": 5.236277138465084e-05,
      "learning_rate": 3.6203790572612002e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65768208,
      "step": 113320
    },
    {
      "epoch": 16.878909740840037,
      "grad_norm": 5.755930396844633e-05,
      "learning_rate": 3.6186949874777858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65771056,
      "step": 113325
    },
    {
      "epoch": 16.879654453380994,
      "grad_norm": 1.3764754839939997e-05,
      "learning_rate": 3.617011278909796e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 65773840,
      "step": 113330
    },
    {
      "epoch": 16.880399165921954,
      "grad_norm": 7.605516293551773e-05,
      "learning_rate": 3.6153279315856603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65776688,
      "step": 113335
    },
    {
      "epoch": 16.881143878462915,
      "grad_norm": 1.2691243682638742e-05,
      "learning_rate": 3.613644945533831e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65779312,
      "step": 113340
    },
    {
      "epoch": 16.88188859100387,
      "grad_norm": 0.00012298001092858613,
      "learning_rate": 3.61196232078273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65781936,
      "step": 113345
    },
    {
      "epoch": 16.882633303544832,
      "grad_norm": 25.158124923706055,
      "learning_rate": 3.610280057360793e-06,
      "loss": 0.0032,
      "num_input_tokens_seen": 65784752,
      "step": 113350
    },
    {
      "epoch": 16.883378016085793,
      "grad_norm": 9.054413385456428e-05,
      "learning_rate": 3.608598155296433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65787472,
      "step": 113355
    },
    {
      "epoch": 16.88412272862675,
      "grad_norm": 0.0006973074050620198,
      "learning_rate": 3.606916614618061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65790128,
      "step": 113360
    },
    {
      "epoch": 16.88486744116771,
      "grad_norm": 7.985419506439939e-05,
      "learning_rate": 3.605235435354096e-06,
      "loss": 0.0408,
      "num_input_tokens_seen": 65793104,
      "step": 113365
    },
    {
      "epoch": 16.885612153708667,
      "grad_norm": 7.01753087923862e-05,
      "learning_rate": 3.6035546175329283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65795856,
      "step": 113370
    },
    {
      "epoch": 16.886356866249628,
      "grad_norm": 0.00015330701717175543,
      "learning_rate": 3.6018741611829637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65798768,
      "step": 113375
    },
    {
      "epoch": 16.88710157879059,
      "grad_norm": 3.0096978662186302e-05,
      "learning_rate": 3.6001940663325876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65801424,
      "step": 113380
    },
    {
      "epoch": 16.887846291331545,
      "grad_norm": 0.0002021254476858303,
      "learning_rate": 3.598514333010183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65804432,
      "step": 113385
    },
    {
      "epoch": 16.888591003872506,
      "grad_norm": 0.0004233105864841491,
      "learning_rate": 3.5968349612441277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65807312,
      "step": 113390
    },
    {
      "epoch": 16.889335716413463,
      "grad_norm": 2.942452920251526e-05,
      "learning_rate": 3.595155951062787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65810160,
      "step": 113395
    },
    {
      "epoch": 16.890080428954423,
      "grad_norm": 0.00046213535824790597,
      "learning_rate": 3.5934773024945355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65812848,
      "step": 113400
    },
    {
      "epoch": 16.890825141495384,
      "grad_norm": 0.0005155240069143474,
      "learning_rate": 3.591799015567726e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65815856,
      "step": 113405
    },
    {
      "epoch": 16.89156985403634,
      "grad_norm": 0.003864212892949581,
      "learning_rate": 3.5901210903107165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65818864,
      "step": 113410
    },
    {
      "epoch": 16.8923145665773,
      "grad_norm": 0.00040522977360524237,
      "learning_rate": 3.5884435267518476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65821872,
      "step": 113415
    },
    {
      "epoch": 16.893059279118262,
      "grad_norm": 2.2357102352543734e-05,
      "learning_rate": 3.586766324919466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65824784,
      "step": 113420
    },
    {
      "epoch": 16.89380399165922,
      "grad_norm": 0.0001937969500431791,
      "learning_rate": 3.5850894848418997e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65827664,
      "step": 113425
    },
    {
      "epoch": 16.89454870420018,
      "grad_norm": 2.8692453270195983e-05,
      "learning_rate": 3.5834130065474897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65830224,
      "step": 113430
    },
    {
      "epoch": 16.895293416741136,
      "grad_norm": 1.5263609384419397e-05,
      "learning_rate": 3.5817368900645466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65833008,
      "step": 113435
    },
    {
      "epoch": 16.896038129282097,
      "grad_norm": 5.669028282165527,
      "learning_rate": 3.5800611354213866e-06,
      "loss": 0.1252,
      "num_input_tokens_seen": 65836112,
      "step": 113440
    },
    {
      "epoch": 16.896782841823057,
      "grad_norm": 3.3208321838174015e-05,
      "learning_rate": 3.5783857426463286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65839312,
      "step": 113445
    },
    {
      "epoch": 16.897527554364014,
      "grad_norm": 0.0005688933888450265,
      "learning_rate": 3.5767107117676698e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65842320,
      "step": 113450
    },
    {
      "epoch": 16.898272266904975,
      "grad_norm": 0.00010752393427537754,
      "learning_rate": 3.575036042813712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65845328,
      "step": 113455
    },
    {
      "epoch": 16.899016979445936,
      "grad_norm": 0.0003143910726066679,
      "learning_rate": 3.5733617358127384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65848464,
      "step": 113460
    },
    {
      "epoch": 16.899761691986892,
      "grad_norm": 0.0008442035177722573,
      "learning_rate": 3.5716877907930465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65851184,
      "step": 113465
    },
    {
      "epoch": 16.900506404527853,
      "grad_norm": 0.00018602788622956723,
      "learning_rate": 3.5700142077829122e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65853904,
      "step": 113470
    },
    {
      "epoch": 16.90125111706881,
      "grad_norm": 0.00761945778504014,
      "learning_rate": 3.5683409868106004e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65856784,
      "step": 113475
    },
    {
      "epoch": 16.90199582960977,
      "grad_norm": 0.0017023533582687378,
      "learning_rate": 3.566668127904391e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65859824,
      "step": 113480
    },
    {
      "epoch": 16.90274054215073,
      "grad_norm": 1.304178385908017e-05,
      "learning_rate": 3.5649956310925355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65862672,
      "step": 113485
    },
    {
      "epoch": 16.903485254691688,
      "grad_norm": 0.027018751949071884,
      "learning_rate": 3.563323496403298e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65865456,
      "step": 113490
    },
    {
      "epoch": 16.90422996723265,
      "grad_norm": 0.0002950300695374608,
      "learning_rate": 3.5616517238649172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65868464,
      "step": 113495
    },
    {
      "epoch": 16.90497467977361,
      "grad_norm": 0.00011283508501946926,
      "learning_rate": 3.5599803135056455e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65871376,
      "step": 113500
    },
    {
      "epoch": 16.905719392314566,
      "grad_norm": 0.0005682597402483225,
      "learning_rate": 3.558309265353718e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65874320,
      "step": 113505
    },
    {
      "epoch": 16.906464104855527,
      "grad_norm": 0.0006766147562302649,
      "learning_rate": 3.556638579437363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65877072,
      "step": 113510
    },
    {
      "epoch": 16.907208817396484,
      "grad_norm": 3.20800936606247e-05,
      "learning_rate": 3.554968255784799e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65880080,
      "step": 113515
    },
    {
      "epoch": 16.907953529937444,
      "grad_norm": 0.0007665971061214805,
      "learning_rate": 3.5532982944242567e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65883184,
      "step": 113520
    },
    {
      "epoch": 16.908698242478405,
      "grad_norm": 9.66781735769473e-05,
      "learning_rate": 3.5516286953839406e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65886000,
      "step": 113525
    },
    {
      "epoch": 16.90944295501936,
      "grad_norm": 0.0004262771108187735,
      "learning_rate": 3.549959458692054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65888944,
      "step": 113530
    },
    {
      "epoch": 16.910187667560322,
      "grad_norm": 0.0011004299158230424,
      "learning_rate": 3.5482905843768065e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 65891696,
      "step": 113535
    },
    {
      "epoch": 16.91093238010128,
      "grad_norm": 0.0009354564244858921,
      "learning_rate": 3.5466220724663824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65894320,
      "step": 113540
    },
    {
      "epoch": 16.91167709264224,
      "grad_norm": 0.25901463627815247,
      "learning_rate": 3.5449539229889807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65897232,
      "step": 113545
    },
    {
      "epoch": 16.9124218051832,
      "grad_norm": 1.6472096831421368e-05,
      "learning_rate": 3.543286135972773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65899760,
      "step": 113550
    },
    {
      "epoch": 16.913166517724157,
      "grad_norm": 681.6270751953125,
      "learning_rate": 3.541618711445935e-06,
      "loss": 0.0425,
      "num_input_tokens_seen": 65902448,
      "step": 113555
    },
    {
      "epoch": 16.913911230265118,
      "grad_norm": 4.3014610128011554e-05,
      "learning_rate": 3.5399516494366457e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65905424,
      "step": 113560
    },
    {
      "epoch": 16.91465594280608,
      "grad_norm": 0.05503160133957863,
      "learning_rate": 3.5382849499730558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65908336,
      "step": 113565
    },
    {
      "epoch": 16.915400655347035,
      "grad_norm": 0.0001757810532581061,
      "learning_rate": 3.536618613083337e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65911504,
      "step": 113570
    },
    {
      "epoch": 16.916145367887996,
      "grad_norm": 3.0730425351066515e-05,
      "learning_rate": 3.53495263879563e-06,
      "loss": 0.0063,
      "num_input_tokens_seen": 65914256,
      "step": 113575
    },
    {
      "epoch": 16.916890080428953,
      "grad_norm": 0.0002201206370955333,
      "learning_rate": 3.5332870271380797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65917200,
      "step": 113580
    },
    {
      "epoch": 16.917634792969913,
      "grad_norm": 0.00014363546506501734,
      "learning_rate": 3.5316217781388243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65919952,
      "step": 113585
    },
    {
      "epoch": 16.918379505510874,
      "grad_norm": 0.00011810559226432815,
      "learning_rate": 3.5299568918260054e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 65922960,
      "step": 113590
    },
    {
      "epoch": 16.91912421805183,
      "grad_norm": 0.0006683708052150905,
      "learning_rate": 3.528292368227745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65925808,
      "step": 113595
    },
    {
      "epoch": 16.91986893059279,
      "grad_norm": 0.0003975014842581004,
      "learning_rate": 3.526628207372154e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65928528,
      "step": 113600
    },
    {
      "epoch": 16.920613643133752,
      "grad_norm": 2.4274243060062872e-06,
      "learning_rate": 3.5249644092873624e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65931280,
      "step": 113605
    },
    {
      "epoch": 16.92135835567471,
      "grad_norm": 0.0004440278862603009,
      "learning_rate": 3.5233009740014617e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65933936,
      "step": 113610
    },
    {
      "epoch": 16.92210306821567,
      "grad_norm": 0.0028285044245421886,
      "learning_rate": 3.521637901542571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65937040,
      "step": 113615
    },
    {
      "epoch": 16.922847780756626,
      "grad_norm": 0.001341565395705402,
      "learning_rate": 3.5199751919387735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65939888,
      "step": 113620
    },
    {
      "epoch": 16.923592493297587,
      "grad_norm": 0.0006062370375730097,
      "learning_rate": 3.518312845218169e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65943024,
      "step": 113625
    },
    {
      "epoch": 16.924337205838548,
      "grad_norm": 0.001271474757231772,
      "learning_rate": 3.516650861408835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65945840,
      "step": 113630
    },
    {
      "epoch": 16.925081918379504,
      "grad_norm": 0.0006038339924998581,
      "learning_rate": 3.514989240538846e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65948624,
      "step": 113635
    },
    {
      "epoch": 16.925826630920465,
      "grad_norm": 0.0005490524345077574,
      "learning_rate": 3.513327982636283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65951504,
      "step": 113640
    },
    {
      "epoch": 16.926571343461426,
      "grad_norm": 0.002016749233007431,
      "learning_rate": 3.5116670877292034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65954320,
      "step": 113645
    },
    {
      "epoch": 16.927316056002383,
      "grad_norm": 5.587661507888697e-05,
      "learning_rate": 3.5100065558456714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65957296,
      "step": 113650
    },
    {
      "epoch": 16.928060768543343,
      "grad_norm": 0.002505182521417737,
      "learning_rate": 3.5083463870137306e-06,
      "loss": 0.0039,
      "num_input_tokens_seen": 65960272,
      "step": 113655
    },
    {
      "epoch": 16.9288054810843,
      "grad_norm": 0.00013634750212077051,
      "learning_rate": 3.50668658126144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65963312,
      "step": 113660
    },
    {
      "epoch": 16.92955019362526,
      "grad_norm": 7.598596130264923e-05,
      "learning_rate": 3.5050271386168287e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65966256,
      "step": 113665
    },
    {
      "epoch": 16.93029490616622,
      "grad_norm": 2.338292142667342e-05,
      "learning_rate": 3.503368059107942e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65969136,
      "step": 113670
    },
    {
      "epoch": 16.931039618707178,
      "grad_norm": 3.426295370445587e-05,
      "learning_rate": 3.5017093427628045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65971920,
      "step": 113675
    },
    {
      "epoch": 16.93178433124814,
      "grad_norm": 0.00029912087484262884,
      "learning_rate": 3.5000509896094323e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65974768,
      "step": 113680
    },
    {
      "epoch": 16.932529043789096,
      "grad_norm": 0.02304210513830185,
      "learning_rate": 3.4983929996758535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65977712,
      "step": 113685
    },
    {
      "epoch": 16.933273756330056,
      "grad_norm": 0.000938239274546504,
      "learning_rate": 3.496735372990065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65980400,
      "step": 113690
    },
    {
      "epoch": 16.934018468871017,
      "grad_norm": 46.557315826416016,
      "learning_rate": 3.4950781095800828e-06,
      "loss": 0.0802,
      "num_input_tokens_seen": 65983600,
      "step": 113695
    },
    {
      "epoch": 16.934763181411974,
      "grad_norm": 0.00010820927855093032,
      "learning_rate": 3.493421209473896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65986640,
      "step": 113700
    },
    {
      "epoch": 16.935507893952934,
      "grad_norm": 4.248847835697234e-05,
      "learning_rate": 3.4917646726995018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65989872,
      "step": 113705
    },
    {
      "epoch": 16.936252606493895,
      "grad_norm": 8.466643339488655e-05,
      "learning_rate": 3.490108499284886e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65992624,
      "step": 113710
    },
    {
      "epoch": 16.93699731903485,
      "grad_norm": 5.8929330407409e-05,
      "learning_rate": 3.488452689258026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65995536,
      "step": 113715
    },
    {
      "epoch": 16.937742031575812,
      "grad_norm": 5.194753975956701e-05,
      "learning_rate": 3.4867972426468915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 65998512,
      "step": 113720
    },
    {
      "epoch": 16.93848674411677,
      "grad_norm": 2.015877362282481e-05,
      "learning_rate": 3.4851421594794486e-06,
      "loss": 0.0012,
      "num_input_tokens_seen": 66001264,
      "step": 113725
    },
    {
      "epoch": 16.93923145665773,
      "grad_norm": 0.00011912232730537653,
      "learning_rate": 3.483487439783667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66004176,
      "step": 113730
    },
    {
      "epoch": 16.93997616919869,
      "grad_norm": 0.000999631593003869,
      "learning_rate": 3.4818330835874937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66007472,
      "step": 113735
    },
    {
      "epoch": 16.940720881739647,
      "grad_norm": 2.3302860427065752e-05,
      "learning_rate": 3.4801790909188837e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66010096,
      "step": 113740
    },
    {
      "epoch": 16.941465594280608,
      "grad_norm": 3.440877844695933e-05,
      "learning_rate": 3.4785254618057707e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66012912,
      "step": 113745
    },
    {
      "epoch": 16.94221030682157,
      "grad_norm": 8.927387170842849e-06,
      "learning_rate": 3.4768721962761015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66015600,
      "step": 113750
    },
    {
      "epoch": 16.942955019362525,
      "grad_norm": 0.0001573044719407335,
      "learning_rate": 3.4752192943578038e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66018384,
      "step": 113755
    },
    {
      "epoch": 16.943699731903486,
      "grad_norm": 0.0006148112006485462,
      "learning_rate": 3.4735667560787916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66021328,
      "step": 113760
    },
    {
      "epoch": 16.944444444444443,
      "grad_norm": 1.5477340639336035e-05,
      "learning_rate": 3.471914581466998e-06,
      "loss": 0.3781,
      "num_input_tokens_seen": 66023952,
      "step": 113765
    },
    {
      "epoch": 16.945189156985403,
      "grad_norm": 3.9442034903913736e-05,
      "learning_rate": 3.4702627705503197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66026832,
      "step": 113770
    },
    {
      "epoch": 16.945933869526364,
      "grad_norm": 0.0005694027058780193,
      "learning_rate": 3.468611323356677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66029552,
      "step": 113775
    },
    {
      "epoch": 16.94667858206732,
      "grad_norm": 3.242176171625033e-05,
      "learning_rate": 3.4669602399139607e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66032336,
      "step": 113780
    },
    {
      "epoch": 16.94742329460828,
      "grad_norm": 0.00033635355066508055,
      "learning_rate": 3.4653095202500677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66035248,
      "step": 113785
    },
    {
      "epoch": 16.948168007149242,
      "grad_norm": 3.722314795595594e-05,
      "learning_rate": 3.4636591643928823e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66038096,
      "step": 113790
    },
    {
      "epoch": 16.9489127196902,
      "grad_norm": 0.0002748966799117625,
      "learning_rate": 3.462009172370284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66040848,
      "step": 113795
    },
    {
      "epoch": 16.94965743223116,
      "grad_norm": 1.276578495890135e-05,
      "learning_rate": 3.4603595442101537e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66043504,
      "step": 113800
    },
    {
      "epoch": 16.950402144772116,
      "grad_norm": 0.009599768556654453,
      "learning_rate": 3.45871027994035e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66046544,
      "step": 113805
    },
    {
      "epoch": 16.951146857313077,
      "grad_norm": 0.00011542212450876832,
      "learning_rate": 3.45706137958875e-06,
      "loss": 0.0025,
      "num_input_tokens_seen": 66049424,
      "step": 113810
    },
    {
      "epoch": 16.951891569854038,
      "grad_norm": 2.335458339075558e-05,
      "learning_rate": 3.4554128431831976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66052720,
      "step": 113815
    },
    {
      "epoch": 16.952636282394995,
      "grad_norm": 0.00045032272464595735,
      "learning_rate": 3.4537646707515527e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66055504,
      "step": 113820
    },
    {
      "epoch": 16.953380994935955,
      "grad_norm": 21.979084014892578,
      "learning_rate": 3.45211686232165e-06,
      "loss": 0.0703,
      "num_input_tokens_seen": 66058160,
      "step": 113825
    },
    {
      "epoch": 16.954125707476916,
      "grad_norm": 5.1134946261299774e-05,
      "learning_rate": 3.45046941792134e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66061328,
      "step": 113830
    },
    {
      "epoch": 16.954870420017873,
      "grad_norm": 3.114805804216303e-05,
      "learning_rate": 3.4488223375784447e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66064208,
      "step": 113835
    },
    {
      "epoch": 16.955615132558833,
      "grad_norm": 2.6199466446996666e-05,
      "learning_rate": 3.447175621320792e-06,
      "loss": 0.1346,
      "num_input_tokens_seen": 66066992,
      "step": 113840
    },
    {
      "epoch": 16.95635984509979,
      "grad_norm": 0.0013726833276450634,
      "learning_rate": 3.445529269176198e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66069648,
      "step": 113845
    },
    {
      "epoch": 16.95710455764075,
      "grad_norm": 1.7337701137876138e-05,
      "learning_rate": 3.443883281172486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66072304,
      "step": 113850
    },
    {
      "epoch": 16.95784927018171,
      "grad_norm": 0.0005865686689503491,
      "learning_rate": 3.442237657337455e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66075248,
      "step": 113855
    },
    {
      "epoch": 16.958593982722668,
      "grad_norm": 3.809852933045477e-05,
      "learning_rate": 3.440592397698905e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66078416,
      "step": 113860
    },
    {
      "epoch": 16.95933869526363,
      "grad_norm": 8.717849414097145e-05,
      "learning_rate": 3.4389475022846395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66081328,
      "step": 113865
    },
    {
      "epoch": 16.96008340780459,
      "grad_norm": 0.00038132478948682547,
      "learning_rate": 3.4373029711224356e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66084208,
      "step": 113870
    },
    {
      "epoch": 16.960828120345546,
      "grad_norm": 0.0002236297441413626,
      "learning_rate": 3.435658804240088e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66087632,
      "step": 113875
    },
    {
      "epoch": 16.961572832886507,
      "grad_norm": 0.000115617411211133,
      "learning_rate": 3.4340150016653695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66090544,
      "step": 113880
    },
    {
      "epoch": 16.962317545427464,
      "grad_norm": 7.125715637812391e-05,
      "learning_rate": 3.432371563426043e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66093328,
      "step": 113885
    },
    {
      "epoch": 16.963062257968424,
      "grad_norm": 0.004276095889508724,
      "learning_rate": 3.4307284895498836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66096144,
      "step": 113890
    },
    {
      "epoch": 16.963806970509385,
      "grad_norm": 0.002089105546474457,
      "learning_rate": 3.429085780064639e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66099120,
      "step": 113895
    },
    {
      "epoch": 16.964551683050342,
      "grad_norm": 0.000185979442903772,
      "learning_rate": 3.427443434998073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66102000,
      "step": 113900
    },
    {
      "epoch": 16.965296395591302,
      "grad_norm": 0.00039362217648886144,
      "learning_rate": 3.4258014543779222e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66104848,
      "step": 113905
    },
    {
      "epoch": 16.96604110813226,
      "grad_norm": 7.354969420703128e-05,
      "learning_rate": 3.4241598382319303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66107824,
      "step": 113910
    },
    {
      "epoch": 16.96678582067322,
      "grad_norm": 1.0547031706664711e-05,
      "learning_rate": 3.422518586587831e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66110832,
      "step": 113915
    },
    {
      "epoch": 16.96753053321418,
      "grad_norm": 0.0002577966370154172,
      "learning_rate": 3.4208776994733405e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66113680,
      "step": 113920
    },
    {
      "epoch": 16.968275245755137,
      "grad_norm": 0.00025252383784390986,
      "learning_rate": 3.4192371769161987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66116720,
      "step": 113925
    },
    {
      "epoch": 16.969019958296098,
      "grad_norm": 221.18153381347656,
      "learning_rate": 3.417597018944102e-06,
      "loss": 0.1005,
      "num_input_tokens_seen": 66119664,
      "step": 113930
    },
    {
      "epoch": 16.96976467083706,
      "grad_norm": 0.0001886410900624469,
      "learning_rate": 3.415957225584776e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66122928,
      "step": 113935
    },
    {
      "epoch": 16.970509383378015,
      "grad_norm": 5.546944885281846e-05,
      "learning_rate": 3.4143177968659098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66126032,
      "step": 113940
    },
    {
      "epoch": 16.971254095918976,
      "grad_norm": 0.00550061883404851,
      "learning_rate": 3.412678732815211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66129072,
      "step": 113945
    },
    {
      "epoch": 16.971998808459933,
      "grad_norm": 0.004169180523604155,
      "learning_rate": 3.411040033460361e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66132048,
      "step": 113950
    },
    {
      "epoch": 16.972743521000893,
      "grad_norm": 2.3785421944921836e-05,
      "learning_rate": 3.4094016988290512e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66134576,
      "step": 113955
    },
    {
      "epoch": 16.973488233541854,
      "grad_norm": 1.6966840121312998e-05,
      "learning_rate": 3.407763728948954e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66137328,
      "step": 113960
    },
    {
      "epoch": 16.97423294608281,
      "grad_norm": 0.00012880140275228769,
      "learning_rate": 3.4061261238477414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66140144,
      "step": 113965
    },
    {
      "epoch": 16.97497765862377,
      "grad_norm": 36.130062103271484,
      "learning_rate": 3.4044888835530835e-06,
      "loss": 0.0028,
      "num_input_tokens_seen": 66142832,
      "step": 113970
    },
    {
      "epoch": 16.975722371164732,
      "grad_norm": 0.000640527403447777,
      "learning_rate": 3.4028520080926383e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66145840,
      "step": 113975
    },
    {
      "epoch": 16.97646708370569,
      "grad_norm": 8.395960321649909e-05,
      "learning_rate": 3.401215497494059e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66148752,
      "step": 113980
    },
    {
      "epoch": 16.97721179624665,
      "grad_norm": 0.0006518200971186161,
      "learning_rate": 3.3995793517849846e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66151952,
      "step": 113985
    },
    {
      "epoch": 16.977956508787607,
      "grad_norm": 0.00024263373052235693,
      "learning_rate": 3.3979435709930703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66154960,
      "step": 113990
    },
    {
      "epoch": 16.978701221328567,
      "grad_norm": 0.00022182152315508574,
      "learning_rate": 3.3963081551459442e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66157904,
      "step": 113995
    },
    {
      "epoch": 16.979445933869528,
      "grad_norm": 4.6421511797234416e-05,
      "learning_rate": 3.3946731042712286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66160912,
      "step": 114000
    },
    {
      "epoch": 16.980190646410485,
      "grad_norm": 1.2678021448664367e-05,
      "learning_rate": 3.3930384183965573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66163888,
      "step": 114005
    },
    {
      "epoch": 16.980935358951445,
      "grad_norm": 5.394006802816875e-05,
      "learning_rate": 3.3914040975495387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66166864,
      "step": 114010
    },
    {
      "epoch": 16.981680071492406,
      "grad_norm": 7.492884469684213e-05,
      "learning_rate": 3.3897701417577893e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66169872,
      "step": 114015
    },
    {
      "epoch": 16.982424784033363,
      "grad_norm": 0.00017604541790205985,
      "learning_rate": 3.388136551048904e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66173008,
      "step": 114020
    },
    {
      "epoch": 16.983169496574323,
      "grad_norm": 0.0006045901100151241,
      "learning_rate": 3.386503325450491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66175952,
      "step": 114025
    },
    {
      "epoch": 16.98391420911528,
      "grad_norm": 0.0005707154050469398,
      "learning_rate": 3.3848704649901336e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66178576,
      "step": 114030
    },
    {
      "epoch": 16.98465892165624,
      "grad_norm": 0.0010995161719620228,
      "learning_rate": 3.3832379696954243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66181520,
      "step": 114035
    },
    {
      "epoch": 16.9854036341972,
      "grad_norm": 0.0001002744393190369,
      "learning_rate": 3.3816058395939434e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66184336,
      "step": 114040
    },
    {
      "epoch": 16.986148346738158,
      "grad_norm": 4.630388957593823e-06,
      "learning_rate": 3.3799740747132547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66187120,
      "step": 114045
    },
    {
      "epoch": 16.98689305927912,
      "grad_norm": 0.0008360242936760187,
      "learning_rate": 3.378342675080934e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66190448,
      "step": 114050
    },
    {
      "epoch": 16.987637771820076,
      "grad_norm": 0.002258788328617811,
      "learning_rate": 3.376711640724531e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 66193136,
      "step": 114055
    },
    {
      "epoch": 16.988382484361036,
      "grad_norm": 0.004017057828605175,
      "learning_rate": 3.375080971671615e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66195888,
      "step": 114060
    },
    {
      "epoch": 16.989127196901997,
      "grad_norm": 0.0008601581212133169,
      "learning_rate": 3.3734506679497207e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66198320,
      "step": 114065
    },
    {
      "epoch": 16.989871909442954,
      "grad_norm": 0.00048855971544981,
      "learning_rate": 3.3718207295864028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66201264,
      "step": 114070
    },
    {
      "epoch": 16.990616621983914,
      "grad_norm": 1.9883280401700176e-05,
      "learning_rate": 3.3701911566091925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66204048,
      "step": 114075
    },
    {
      "epoch": 16.991361334524875,
      "grad_norm": 0.0008355978643521667,
      "learning_rate": 3.368561949045615e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66206768,
      "step": 114080
    },
    {
      "epoch": 16.992106047065832,
      "grad_norm": 2.531045720388647e-05,
      "learning_rate": 3.3669331069232006e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66209872,
      "step": 114085
    },
    {
      "epoch": 16.992850759606792,
      "grad_norm": 0.00020893337205052376,
      "learning_rate": 3.3653046302694614e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66212560,
      "step": 114090
    },
    {
      "epoch": 16.99359547214775,
      "grad_norm": 5.694112405763008e-05,
      "learning_rate": 3.3636765191119165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66215728,
      "step": 114095
    },
    {
      "epoch": 16.99434018468871,
      "grad_norm": 0.000238619206356816,
      "learning_rate": 3.3620487734780603e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 66218768,
      "step": 114100
    },
    {
      "epoch": 16.99508489722967,
      "grad_norm": 6.551146361744031e-05,
      "learning_rate": 3.3604213933954048e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66221904,
      "step": 114105
    },
    {
      "epoch": 16.995829609770627,
      "grad_norm": 1.9064909219741821,
      "learning_rate": 3.358794378891436e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 66224624,
      "step": 114110
    },
    {
      "epoch": 16.996574322311588,
      "grad_norm": 0.0005221475730650127,
      "learning_rate": 3.3571677299936403e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66227472,
      "step": 114115
    },
    {
      "epoch": 16.99731903485255,
      "grad_norm": 0.00014246533100958914,
      "learning_rate": 3.3555414467295017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66230384,
      "step": 114120
    },
    {
      "epoch": 16.998063747393505,
      "grad_norm": 0.020590538159012794,
      "learning_rate": 3.3539155291264833e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66233168,
      "step": 114125
    },
    {
      "epoch": 16.998808459934466,
      "grad_norm": 0.0012149966787546873,
      "learning_rate": 3.352289977212067e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66236112,
      "step": 114130
    },
    {
      "epoch": 16.999553172475423,
      "grad_norm": 6.557185406563804e-05,
      "learning_rate": 3.3506647910137078e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66238896,
      "step": 114135
    },
    {
      "epoch": 17.0,
      "eval_loss": 2.7032055854797363,
      "eval_runtime": 49.1065,
      "eval_samples_per_second": 60.766,
      "eval_steps_per_second": 15.191,
      "num_input_tokens_seen": 66240072,
      "step": 114138
    },
    {
      "epoch": 17.000297885016384,
      "grad_norm": 3.551057670847513e-05,
      "learning_rate": 3.3490399705588677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66241064,
      "step": 114140
    },
    {
      "epoch": 17.001042597557344,
      "grad_norm": 1.1583068044274114e-05,
      "learning_rate": 3.3474155158749854e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66244104,
      "step": 114145
    },
    {
      "epoch": 17.0017873100983,
      "grad_norm": 8.371690637432039e-05,
      "learning_rate": 3.345791426989517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66246984,
      "step": 114150
    },
    {
      "epoch": 17.00253202263926,
      "grad_norm": 0.00023253190738614649,
      "learning_rate": 3.3441677039298956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66250056,
      "step": 114155
    },
    {
      "epoch": 17.003276735180222,
      "grad_norm": 4.461299795366358e-06,
      "learning_rate": 3.3425443467235443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66252808,
      "step": 114160
    },
    {
      "epoch": 17.00402144772118,
      "grad_norm": 0.0001227168831974268,
      "learning_rate": 3.3409213553979e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66256072,
      "step": 114165
    },
    {
      "epoch": 17.00476616026214,
      "grad_norm": 4.4967229769099504e-05,
      "learning_rate": 3.3392987299803753e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66258728,
      "step": 114170
    },
    {
      "epoch": 17.005510872803097,
      "grad_norm": 0.0037918430753052235,
      "learning_rate": 3.33767647049838e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66261672,
      "step": 114175
    },
    {
      "epoch": 17.006255585344057,
      "grad_norm": 0.00018106169591192156,
      "learning_rate": 3.3360545769793277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66264680,
      "step": 114180
    },
    {
      "epoch": 17.007000297885018,
      "grad_norm": 9.173354919767007e-05,
      "learning_rate": 3.3344330494506166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66267336,
      "step": 114185
    },
    {
      "epoch": 17.007745010425975,
      "grad_norm": 2.1167663362575695e-05,
      "learning_rate": 3.3328118879396324e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66270088,
      "step": 114190
    },
    {
      "epoch": 17.008489722966935,
      "grad_norm": 3.660312358988449e-05,
      "learning_rate": 3.331191092473776e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66273032,
      "step": 114195
    },
    {
      "epoch": 17.009234435507896,
      "grad_norm": 0.0004895672900602221,
      "learning_rate": 3.3295706630804222e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66276200,
      "step": 114200
    },
    {
      "epoch": 17.009979148048853,
      "grad_norm": 0.00026294845156371593,
      "learning_rate": 3.3279505997869442e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66279080,
      "step": 114205
    },
    {
      "epoch": 17.010723860589813,
      "grad_norm": 0.00026024531689472497,
      "learning_rate": 3.3263309026207166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66281832,
      "step": 114210
    },
    {
      "epoch": 17.01146857313077,
      "grad_norm": 0.00011656221613520756,
      "learning_rate": 3.3247115716090987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66284680,
      "step": 114215
    },
    {
      "epoch": 17.01221328567173,
      "grad_norm": 0.00028799191932193935,
      "learning_rate": 3.3230926067794516e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66287944,
      "step": 114220
    },
    {
      "epoch": 17.01295799821269,
      "grad_norm": 5.5676217016298324e-05,
      "learning_rate": 3.3214740081591173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66290824,
      "step": 114225
    },
    {
      "epoch": 17.01370271075365,
      "grad_norm": 2.5587318305042572e-05,
      "learning_rate": 3.3198557757754544e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66293736,
      "step": 114230
    },
    {
      "epoch": 17.01444742329461,
      "grad_norm": 2.5810060833464377e-05,
      "learning_rate": 3.3182379096557916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66296680,
      "step": 114235
    },
    {
      "epoch": 17.015192135835566,
      "grad_norm": 1.0904956070589833e-05,
      "learning_rate": 3.3166204098274643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66299720,
      "step": 114240
    },
    {
      "epoch": 17.015936848376526,
      "grad_norm": 3.852372174151242e-05,
      "learning_rate": 3.3150032763177962e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66302472,
      "step": 114245
    },
    {
      "epoch": 17.016681560917487,
      "grad_norm": 0.0010634990176185966,
      "learning_rate": 3.3133865091541037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66305672,
      "step": 114250
    },
    {
      "epoch": 17.017426273458444,
      "grad_norm": 6.58251519780606e-05,
      "learning_rate": 3.31177010836371e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66308488,
      "step": 114255
    },
    {
      "epoch": 17.018170985999404,
      "grad_norm": 0.0001370699901599437,
      "learning_rate": 3.310154073973909e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66311528,
      "step": 114260
    },
    {
      "epoch": 17.018915698540365,
      "grad_norm": 0.00011361482029315084,
      "learning_rate": 3.3085384060120185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66314312,
      "step": 114265
    },
    {
      "epoch": 17.019660411081322,
      "grad_norm": 0.000201295071747154,
      "learning_rate": 3.3069231045053216e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66317160,
      "step": 114270
    },
    {
      "epoch": 17.020405123622282,
      "grad_norm": 0.0006085077184252441,
      "learning_rate": 3.3053081694811137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66320200,
      "step": 114275
    },
    {
      "epoch": 17.02114983616324,
      "grad_norm": 0.0025416866410523653,
      "learning_rate": 3.303693600966676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66323208,
      "step": 114280
    },
    {
      "epoch": 17.0218945487042,
      "grad_norm": 4.221194103593007e-05,
      "learning_rate": 3.3020793989892774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66326056,
      "step": 114285
    },
    {
      "epoch": 17.02263926124516,
      "grad_norm": 0.000154844528879039,
      "learning_rate": 3.3004655635761994e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 66329288,
      "step": 114290
    },
    {
      "epoch": 17.023383973786117,
      "grad_norm": 0.0003533627896104008,
      "learning_rate": 3.298852094754698e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66331944,
      "step": 114295
    },
    {
      "epoch": 17.024128686327078,
      "grad_norm": 1.7193166058859788e-05,
      "learning_rate": 3.29723899255204e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66335144,
      "step": 114300
    },
    {
      "epoch": 17.02487339886804,
      "grad_norm": 6.426107574952766e-05,
      "learning_rate": 3.295626256995471e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66337960,
      "step": 114305
    },
    {
      "epoch": 17.025618111408996,
      "grad_norm": 6.878132990095764e-05,
      "learning_rate": 3.294013888112235e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66340808,
      "step": 114310
    },
    {
      "epoch": 17.026362823949956,
      "grad_norm": 2.8506833587016445e-06,
      "learning_rate": 3.2924018859295746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66343592,
      "step": 114315
    },
    {
      "epoch": 17.027107536490913,
      "grad_norm": 0.3667532503604889,
      "learning_rate": 3.290790250474718e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66346504,
      "step": 114320
    },
    {
      "epoch": 17.027852249031874,
      "grad_norm": 2.03782765311189e-05,
      "learning_rate": 3.2891789817748984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66349320,
      "step": 114325
    },
    {
      "epoch": 17.028596961572834,
      "grad_norm": 1.7386275430908427e-05,
      "learning_rate": 3.287568079857331e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66352168,
      "step": 114330
    },
    {
      "epoch": 17.02934167411379,
      "grad_norm": 0.00022029990213923156,
      "learning_rate": 3.285957544749238e-06,
      "loss": 0.0478,
      "num_input_tokens_seen": 66355208,
      "step": 114335
    },
    {
      "epoch": 17.03008638665475,
      "grad_norm": 0.000912271614652127,
      "learning_rate": 3.284347376477817e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66357960,
      "step": 114340
    },
    {
      "epoch": 17.030831099195712,
      "grad_norm": 4.658188117900863e-05,
      "learning_rate": 3.2827375750702825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66360776,
      "step": 114345
    },
    {
      "epoch": 17.03157581173667,
      "grad_norm": 0.0023331590928137302,
      "learning_rate": 3.2811281405538188e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66363816,
      "step": 114350
    },
    {
      "epoch": 17.03232052427763,
      "grad_norm": 0.0003130320692434907,
      "learning_rate": 3.2795190729556254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66367048,
      "step": 114355
    },
    {
      "epoch": 17.033065236818587,
      "grad_norm": 2.915711229434237e-05,
      "learning_rate": 3.2779103723028807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66370024,
      "step": 114360
    },
    {
      "epoch": 17.033809949359547,
      "grad_norm": 8.73603712534532e-05,
      "learning_rate": 3.276302038622761e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66373160,
      "step": 114365
    },
    {
      "epoch": 17.034554661900508,
      "grad_norm": 0.0009827171452343464,
      "learning_rate": 3.2746940719424414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66375912,
      "step": 114370
    },
    {
      "epoch": 17.035299374441465,
      "grad_norm": 3.059738810406998e-05,
      "learning_rate": 3.2730864722890886e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66378600,
      "step": 114375
    },
    {
      "epoch": 17.036044086982425,
      "grad_norm": 0.000589171948377043,
      "learning_rate": 3.2714792396898534e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66381352,
      "step": 114380
    },
    {
      "epoch": 17.036788799523382,
      "grad_norm": 0.00019930278358515352,
      "learning_rate": 3.2698723741718894e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66384136,
      "step": 114385
    },
    {
      "epoch": 17.037533512064343,
      "grad_norm": 0.00046659805229865015,
      "learning_rate": 3.2682658757623526e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66386984,
      "step": 114390
    },
    {
      "epoch": 17.038278224605303,
      "grad_norm": 9.716265776660293e-05,
      "learning_rate": 3.2666597444883734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66389832,
      "step": 114395
    },
    {
      "epoch": 17.03902293714626,
      "grad_norm": 1.1001534403476398e-05,
      "learning_rate": 3.265053980377086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66392744,
      "step": 114400
    },
    {
      "epoch": 17.03976764968722,
      "grad_norm": 0.00020863204554188997,
      "learning_rate": 3.2634485834556276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66395688,
      "step": 114405
    },
    {
      "epoch": 17.04051236222818,
      "grad_norm": 4.630388048099121e-06,
      "learning_rate": 3.2618435537511066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66398568,
      "step": 114410
    },
    {
      "epoch": 17.04125707476914,
      "grad_norm": 0.00010658783139660954,
      "learning_rate": 3.2602388912906482e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66401800,
      "step": 114415
    },
    {
      "epoch": 17.0420017873101,
      "grad_norm": 0.0003935635613743216,
      "learning_rate": 3.2586345961013565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66405000,
      "step": 114420
    },
    {
      "epoch": 17.042746499851056,
      "grad_norm": 1.4567586731573101e-05,
      "learning_rate": 3.2570306682103396e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66407816,
      "step": 114425
    },
    {
      "epoch": 17.043491212392016,
      "grad_norm": 0.0012933977413922548,
      "learning_rate": 3.2554271076446873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66410440,
      "step": 114430
    },
    {
      "epoch": 17.044235924932977,
      "grad_norm": 7.972001913003623e-05,
      "learning_rate": 3.2538239144314974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66413288,
      "step": 114435
    },
    {
      "epoch": 17.044980637473934,
      "grad_norm": 0.0005205610650591552,
      "learning_rate": 3.252221088597854e-06,
      "loss": 0.1376,
      "num_input_tokens_seen": 66415976,
      "step": 114440
    },
    {
      "epoch": 17.045725350014894,
      "grad_norm": 3.833618029602803e-05,
      "learning_rate": 3.250618630170829e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66418824,
      "step": 114445
    },
    {
      "epoch": 17.046470062555855,
      "grad_norm": 0.0002612045791465789,
      "learning_rate": 3.2490165391774963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66422312,
      "step": 114450
    },
    {
      "epoch": 17.047214775096812,
      "grad_norm": 0.001431704848073423,
      "learning_rate": 3.2474148156449195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66425320,
      "step": 114455
    },
    {
      "epoch": 17.047959487637772,
      "grad_norm": 0.005053906235843897,
      "learning_rate": 3.2458134596001636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66428264,
      "step": 114460
    },
    {
      "epoch": 17.04870420017873,
      "grad_norm": 0.00018688956333789974,
      "learning_rate": 3.2442124710702764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66430952,
      "step": 114465
    },
    {
      "epoch": 17.04944891271969,
      "grad_norm": 1.2021147995255888e-05,
      "learning_rate": 3.242611850082314e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66433800,
      "step": 114470
    },
    {
      "epoch": 17.05019362526065,
      "grad_norm": 0.0007492584991268814,
      "learning_rate": 3.2410115966633044e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66436680,
      "step": 114475
    },
    {
      "epoch": 17.050938337801608,
      "grad_norm": 2.5729792469064705e-05,
      "learning_rate": 3.239411710840293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66439656,
      "step": 114480
    },
    {
      "epoch": 17.051683050342568,
      "grad_norm": 0.02127722091972828,
      "learning_rate": 3.2378121926403077e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66442600,
      "step": 114485
    },
    {
      "epoch": 17.05242776288353,
      "grad_norm": 8.135294046951458e-05,
      "learning_rate": 3.236213042090358e-06,
      "loss": 0.0793,
      "num_input_tokens_seen": 66445512,
      "step": 114490
    },
    {
      "epoch": 17.053172475424486,
      "grad_norm": 0.0010272454237565398,
      "learning_rate": 3.234614259217478e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66448296,
      "step": 114495
    },
    {
      "epoch": 17.053917187965446,
      "grad_norm": 0.0004897685721516609,
      "learning_rate": 3.2330158440486672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66451176,
      "step": 114500
    },
    {
      "epoch": 17.054661900506403,
      "grad_norm": 0.0008166219340637326,
      "learning_rate": 3.231417796610925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66453928,
      "step": 114505
    },
    {
      "epoch": 17.055406613047364,
      "grad_norm": 0.0013121140655130148,
      "learning_rate": 3.229820116931259e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66456904,
      "step": 114510
    },
    {
      "epoch": 17.056151325588324,
      "grad_norm": 6.449216743931174e-05,
      "learning_rate": 3.228222805036657e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66459944,
      "step": 114515
    },
    {
      "epoch": 17.05689603812928,
      "grad_norm": 0.005881268996745348,
      "learning_rate": 3.226625860954105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66462888,
      "step": 114520
    },
    {
      "epoch": 17.05764075067024,
      "grad_norm": 0.0006036693812347949,
      "learning_rate": 3.225029284710571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66465832,
      "step": 114525
    },
    {
      "epoch": 17.058385463211202,
      "grad_norm": 0.0023235080298036337,
      "learning_rate": 3.2234330763330432e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66468936,
      "step": 114530
    },
    {
      "epoch": 17.05913017575216,
      "grad_norm": 0.0003878682036884129,
      "learning_rate": 3.221837235848474e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66471944,
      "step": 114535
    },
    {
      "epoch": 17.05987488829312,
      "grad_norm": 1.0735078831203282e-05,
      "learning_rate": 3.220241763283838e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 66475016,
      "step": 114540
    },
    {
      "epoch": 17.060619600834077,
      "grad_norm": 0.0006435865652747452,
      "learning_rate": 3.2186466586660746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66477736,
      "step": 114545
    },
    {
      "epoch": 17.061364313375037,
      "grad_norm": 6.108795059844851e-05,
      "learning_rate": 3.2170519220221435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66480488,
      "step": 114550
    },
    {
      "epoch": 17.062109025915998,
      "grad_norm": 0.0004325457848608494,
      "learning_rate": 3.2154575533789753e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66483400,
      "step": 114555
    },
    {
      "epoch": 17.062853738456955,
      "grad_norm": 0.0003755302750505507,
      "learning_rate": 3.2138635527635186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66486344,
      "step": 114560
    },
    {
      "epoch": 17.063598450997915,
      "grad_norm": 8.02915237727575e-05,
      "learning_rate": 3.2122699202026927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66489256,
      "step": 114565
    },
    {
      "epoch": 17.064343163538872,
      "grad_norm": 0.0009421638678759336,
      "learning_rate": 3.2106766557234243e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66492264,
      "step": 114570
    },
    {
      "epoch": 17.065087876079833,
      "grad_norm": 0.0001449056580895558,
      "learning_rate": 3.209083759352627e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66494824,
      "step": 114575
    },
    {
      "epoch": 17.065832588620793,
      "grad_norm": 0.0016509613487869501,
      "learning_rate": 3.2074912311172046e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66498056,
      "step": 114580
    },
    {
      "epoch": 17.06657730116175,
      "grad_norm": 0.005943818483501673,
      "learning_rate": 3.2058990710440773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66501352,
      "step": 114585
    },
    {
      "epoch": 17.06732201370271,
      "grad_norm": 0.0007309412467293441,
      "learning_rate": 3.2043072791601293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66504776,
      "step": 114590
    },
    {
      "epoch": 17.06806672624367,
      "grad_norm": 2.5198874027410056e-06,
      "learning_rate": 3.202715855492261e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66507624,
      "step": 114595
    },
    {
      "epoch": 17.06881143878463,
      "grad_norm": 0.00020588598272297531,
      "learning_rate": 3.201124800067357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66510504,
      "step": 114600
    },
    {
      "epoch": 17.06955615132559,
      "grad_norm": 0.0008397705387324095,
      "learning_rate": 3.1995341129122864e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66513704,
      "step": 114605
    },
    {
      "epoch": 17.070300863866546,
      "grad_norm": 0.00019079077173955739,
      "learning_rate": 3.197943794053937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66516424,
      "step": 114610
    },
    {
      "epoch": 17.071045576407506,
      "grad_norm": 0.003189156297594309,
      "learning_rate": 3.196353843519162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66519368,
      "step": 114615
    },
    {
      "epoch": 17.071790288948467,
      "grad_norm": 0.00016385377966798842,
      "learning_rate": 3.1947642613348344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66522248,
      "step": 114620
    },
    {
      "epoch": 17.072535001489424,
      "grad_norm": 2.0628591300919652e-05,
      "learning_rate": 3.193175047527797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66524712,
      "step": 114625
    },
    {
      "epoch": 17.073279714030384,
      "grad_norm": 0.00021004522568546236,
      "learning_rate": 3.1915862021249105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66528008,
      "step": 114630
    },
    {
      "epoch": 17.074024426571345,
      "grad_norm": 0.00021608706447295845,
      "learning_rate": 3.18999772515301e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66530792,
      "step": 114635
    },
    {
      "epoch": 17.074769139112302,
      "grad_norm": 0.0003657758061308414,
      "learning_rate": 3.1884096166389292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66533672,
      "step": 114640
    },
    {
      "epoch": 17.075513851653263,
      "grad_norm": 0.0008370930445380509,
      "learning_rate": 3.1868218766095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66536488,
      "step": 114645
    },
    {
      "epoch": 17.07625856419422,
      "grad_norm": 6.013121037540259e-06,
      "learning_rate": 3.1852345050915415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66539560,
      "step": 114650
    },
    {
      "epoch": 17.07700327673518,
      "grad_norm": 7.911706234153826e-06,
      "learning_rate": 3.1836475021118804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66542280,
      "step": 114655
    },
    {
      "epoch": 17.07774798927614,
      "grad_norm": 4.1076127672567964e-05,
      "learning_rate": 3.1820608676973144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66545256,
      "step": 114660
    },
    {
      "epoch": 17.078492701817098,
      "grad_norm": 0.0012455831747502089,
      "learning_rate": 3.180474601874661e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66547976,
      "step": 114665
    },
    {
      "epoch": 17.079237414358058,
      "grad_norm": 4.2223138734698296e-05,
      "learning_rate": 3.1788887046707072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66550568,
      "step": 114670
    },
    {
      "epoch": 17.07998212689902,
      "grad_norm": 0.0006148943211883307,
      "learning_rate": 3.177303176112256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66553480,
      "step": 114675
    },
    {
      "epoch": 17.080726839439976,
      "grad_norm": 0.00032025156542658806,
      "learning_rate": 3.1757180162260897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66556424,
      "step": 114680
    },
    {
      "epoch": 17.081471551980936,
      "grad_norm": 2.643557127157692e-05,
      "learning_rate": 3.174133225038978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66559176,
      "step": 114685
    },
    {
      "epoch": 17.082216264521893,
      "grad_norm": 0.0002001620887313038,
      "learning_rate": 3.17254880257771e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66561928,
      "step": 114690
    },
    {
      "epoch": 17.082960977062854,
      "grad_norm": 3.643003583420068e-05,
      "learning_rate": 3.1709647488690404e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66564904,
      "step": 114695
    },
    {
      "epoch": 17.083705689603814,
      "grad_norm": 4.71396378998179e-06,
      "learning_rate": 3.1693810639397412e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66567944,
      "step": 114700
    },
    {
      "epoch": 17.08445040214477,
      "grad_norm": 2.0826020772801712e-05,
      "learning_rate": 3.1677977478165588e-06,
      "loss": 0.0423,
      "num_input_tokens_seen": 66570760,
      "step": 114705
    },
    {
      "epoch": 17.08519511468573,
      "grad_norm": 0.001440562424249947,
      "learning_rate": 3.166214800526246e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66573608,
      "step": 114710
    },
    {
      "epoch": 17.085939827226692,
      "grad_norm": 0.00012908788630738854,
      "learning_rate": 3.1646322220955372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66576488,
      "step": 114715
    },
    {
      "epoch": 17.08668453976765,
      "grad_norm": 0.0005266153020784259,
      "learning_rate": 3.16305001255118e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66579720,
      "step": 114720
    },
    {
      "epoch": 17.08742925230861,
      "grad_norm": 0.00018683045345824212,
      "learning_rate": 3.1614681719199015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66582760,
      "step": 114725
    },
    {
      "epoch": 17.088173964849567,
      "grad_norm": 0.00011568632908165455,
      "learning_rate": 3.1598867002284148e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66585480,
      "step": 114730
    },
    {
      "epoch": 17.088918677390527,
      "grad_norm": 0.0008566663018427789,
      "learning_rate": 3.15830559750345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66588392,
      "step": 114735
    },
    {
      "epoch": 17.089663389931488,
      "grad_norm": 1.4593758351111319e-05,
      "learning_rate": 3.1567248637717066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66591272,
      "step": 114740
    },
    {
      "epoch": 17.090408102472445,
      "grad_norm": 0.00027114772819913924,
      "learning_rate": 3.1551444990599033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66594056,
      "step": 114745
    },
    {
      "epoch": 17.091152815013405,
      "grad_norm": 0.00034310322371311486,
      "learning_rate": 3.1535645033947265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66597160,
      "step": 114750
    },
    {
      "epoch": 17.091897527554362,
      "grad_norm": 8.834343316266313e-05,
      "learning_rate": 3.15198487680288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66600040,
      "step": 114755
    },
    {
      "epoch": 17.092642240095323,
      "grad_norm": 7.862090569688007e-05,
      "learning_rate": 3.150405619311042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66603432,
      "step": 114760
    },
    {
      "epoch": 17.093386952636283,
      "grad_norm": 0.014403472654521465,
      "learning_rate": 3.148826730945889e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66606088,
      "step": 114765
    },
    {
      "epoch": 17.09413166517724,
      "grad_norm": 3.077111978200264e-05,
      "learning_rate": 3.147248211734105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66608968,
      "step": 114770
    },
    {
      "epoch": 17.0948763777182,
      "grad_norm": 9.952201799023896e-05,
      "learning_rate": 3.145670061702352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66611688,
      "step": 114775
    },
    {
      "epoch": 17.09562109025916,
      "grad_norm": 8.280337351607159e-05,
      "learning_rate": 3.144092280877292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66614440,
      "step": 114780
    },
    {
      "epoch": 17.09636580280012,
      "grad_norm": 5.4526099120266736e-06,
      "learning_rate": 3.1425148692855734e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 66617448,
      "step": 114785
    },
    {
      "epoch": 17.09711051534108,
      "grad_norm": 0.00015792783233337104,
      "learning_rate": 3.1409378269538574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66620168,
      "step": 114790
    },
    {
      "epoch": 17.097855227882036,
      "grad_norm": 0.00019347883062437177,
      "learning_rate": 3.1393611539087765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66622888,
      "step": 114795
    },
    {
      "epoch": 17.098599940422996,
      "grad_norm": 0.0013969771098345518,
      "learning_rate": 3.1377848501769724e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66625768,
      "step": 114800
    },
    {
      "epoch": 17.099344652963957,
      "grad_norm": 0.013072787784039974,
      "learning_rate": 3.136208915785077e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66628840,
      "step": 114805
    },
    {
      "epoch": 17.100089365504914,
      "grad_norm": 0.0008218929287977517,
      "learning_rate": 3.1346333507597027e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66631976,
      "step": 114810
    },
    {
      "epoch": 17.100834078045875,
      "grad_norm": 0.0001901349169202149,
      "learning_rate": 3.1330581551274827e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66634632,
      "step": 114815
    },
    {
      "epoch": 17.101578790586835,
      "grad_norm": 0.0007953643216751516,
      "learning_rate": 3.1314833289150138e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66637480,
      "step": 114820
    },
    {
      "epoch": 17.102323503127792,
      "grad_norm": 0.0219438299536705,
      "learning_rate": 3.129908872148912e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 66640040,
      "step": 114825
    },
    {
      "epoch": 17.103068215668753,
      "grad_norm": 0.0010705060558393598,
      "learning_rate": 3.128334784855774e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66643048,
      "step": 114830
    },
    {
      "epoch": 17.10381292820971,
      "grad_norm": 0.002537201391533017,
      "learning_rate": 3.126761067062184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66646312,
      "step": 114835
    },
    {
      "epoch": 17.10455764075067,
      "grad_norm": 2.5655321223894134e-05,
      "learning_rate": 3.125187718794742e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 66649224,
      "step": 114840
    },
    {
      "epoch": 17.10530235329163,
      "grad_norm": 0.0027997586876153946,
      "learning_rate": 3.1236147400800194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66652104,
      "step": 114845
    },
    {
      "epoch": 17.106047065832588,
      "grad_norm": 0.00027300172951072454,
      "learning_rate": 3.1220421309445913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66654888,
      "step": 114850
    },
    {
      "epoch": 17.106791778373548,
      "grad_norm": 0.000374489784007892,
      "learning_rate": 3.1204698914150205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66657768,
      "step": 114855
    },
    {
      "epoch": 17.10753649091451,
      "grad_norm": 4.691000503953546e-05,
      "learning_rate": 3.11889802151788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66660680,
      "step": 114860
    },
    {
      "epoch": 17.108281203455466,
      "grad_norm": 0.010991589166224003,
      "learning_rate": 3.117326521279712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66663496,
      "step": 114865
    },
    {
      "epoch": 17.109025915996426,
      "grad_norm": 0.0004499018541537225,
      "learning_rate": 3.1157553907270766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66666472,
      "step": 114870
    },
    {
      "epoch": 17.109770628537383,
      "grad_norm": 0.00012599238834809512,
      "learning_rate": 3.1141846298865074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66669320,
      "step": 114875
    },
    {
      "epoch": 17.110515341078344,
      "grad_norm": 8.350641292054206e-05,
      "learning_rate": 3.11261423878455e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66672200,
      "step": 114880
    },
    {
      "epoch": 17.111260053619304,
      "grad_norm": 0.014081117697060108,
      "learning_rate": 3.111044217447731e-06,
      "loss": 0.0021,
      "num_input_tokens_seen": 66675048,
      "step": 114885
    },
    {
      "epoch": 17.11200476616026,
      "grad_norm": 0.00042308698175475,
      "learning_rate": 3.1094745659025674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66677960,
      "step": 114890
    },
    {
      "epoch": 17.11274947870122,
      "grad_norm": 0.00022018830350134522,
      "learning_rate": 3.1079052841755857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66680872,
      "step": 114895
    },
    {
      "epoch": 17.113494191242182,
      "grad_norm": 0.0004931092844344676,
      "learning_rate": 3.1063363722932975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66683784,
      "step": 114900
    },
    {
      "epoch": 17.11423890378314,
      "grad_norm": 3.191070936736651e-05,
      "learning_rate": 3.1047678302822016e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66686472,
      "step": 114905
    },
    {
      "epoch": 17.1149836163241,
      "grad_norm": 0.0002726289676502347,
      "learning_rate": 3.1031996581687955e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66689512,
      "step": 114910
    },
    {
      "epoch": 17.115728328865057,
      "grad_norm": 7.440861372742802e-05,
      "learning_rate": 3.101631855979581e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66692296,
      "step": 114915
    },
    {
      "epoch": 17.116473041406017,
      "grad_norm": 8.763150981394574e-05,
      "learning_rate": 3.100064423741042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66694984,
      "step": 114920
    },
    {
      "epoch": 17.117217753946978,
      "grad_norm": 5.425123617897043e-06,
      "learning_rate": 3.098497361479649e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66697928,
      "step": 114925
    },
    {
      "epoch": 17.117962466487935,
      "grad_norm": 2.418720214336645e-06,
      "learning_rate": 3.0969306692218897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66700680,
      "step": 114930
    },
    {
      "epoch": 17.118707179028895,
      "grad_norm": 0.0007500990759581327,
      "learning_rate": 3.0953643469942173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66703400,
      "step": 114935
    },
    {
      "epoch": 17.119451891569852,
      "grad_norm": 8.575517131248489e-05,
      "learning_rate": 3.093798394823111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66706280,
      "step": 114940
    },
    {
      "epoch": 17.120196604110813,
      "grad_norm": 0.0007936725742183626,
      "learning_rate": 3.0922328127350076e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66709320,
      "step": 114945
    },
    {
      "epoch": 17.120941316651773,
      "grad_norm": 1.5070637346070725e-05,
      "learning_rate": 3.090667600756372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66712072,
      "step": 114950
    },
    {
      "epoch": 17.12168602919273,
      "grad_norm": 0.00016246511950157583,
      "learning_rate": 3.089102758913634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66714696,
      "step": 114955
    },
    {
      "epoch": 17.12243074173369,
      "grad_norm": 0.00014744969666935503,
      "learning_rate": 3.087538287233241e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66717640,
      "step": 114960
    },
    {
      "epoch": 17.12317545427465,
      "grad_norm": 3.475592893664725e-05,
      "learning_rate": 3.0859741857416193e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66720328,
      "step": 114965
    },
    {
      "epoch": 17.12392016681561,
      "grad_norm": 0.0002890449541155249,
      "learning_rate": 3.0844104544651893e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66723176,
      "step": 114970
    },
    {
      "epoch": 17.12466487935657,
      "grad_norm": 0.0014973600627854466,
      "learning_rate": 3.082847093430369e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66726280,
      "step": 114975
    },
    {
      "epoch": 17.125409591897526,
      "grad_norm": 0.00026741300825960934,
      "learning_rate": 3.0812841026635705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66729192,
      "step": 114980
    },
    {
      "epoch": 17.126154304438487,
      "grad_norm": 2.961119207611773e-05,
      "learning_rate": 3.079721482191203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66732072,
      "step": 114985
    },
    {
      "epoch": 17.126899016979447,
      "grad_norm": 6.680178921669722e-05,
      "learning_rate": 3.0781592320396568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66735080,
      "step": 114990
    },
    {
      "epoch": 17.127643729520404,
      "grad_norm": 0.0001056784822139889,
      "learning_rate": 3.076597352235333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66738216,
      "step": 114995
    },
    {
      "epoch": 17.128388442061365,
      "grad_norm": 0.0033290493302047253,
      "learning_rate": 3.075035842804619e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66741288,
      "step": 115000
    },
    {
      "epoch": 17.129133154602325,
      "grad_norm": 0.00020977317763026804,
      "learning_rate": 3.073474703773885e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66744424,
      "step": 115005
    },
    {
      "epoch": 17.129877867143282,
      "grad_norm": 2.361553197260946e-05,
      "learning_rate": 3.0719139351695125e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66747272,
      "step": 115010
    },
    {
      "epoch": 17.130622579684243,
      "grad_norm": 3.446844493737444e-05,
      "learning_rate": 3.070353537017867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66750376,
      "step": 115015
    },
    {
      "epoch": 17.1313672922252,
      "grad_norm": 5.909118408453651e-05,
      "learning_rate": 3.0687935093453106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66753416,
      "step": 115020
    },
    {
      "epoch": 17.13211200476616,
      "grad_norm": 0.000856092432513833,
      "learning_rate": 3.0672338521781975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66756008,
      "step": 115025
    },
    {
      "epoch": 17.13285671730712,
      "grad_norm": 0.0001710399956209585,
      "learning_rate": 3.0656745655428783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66758760,
      "step": 115030
    },
    {
      "epoch": 17.133601429848078,
      "grad_norm": 8.8612585386727e-05,
      "learning_rate": 3.0641156494656957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66761896,
      "step": 115035
    },
    {
      "epoch": 17.134346142389038,
      "grad_norm": 0.0009234101744368672,
      "learning_rate": 3.062557103972985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66764776,
      "step": 115040
    },
    {
      "epoch": 17.13509085493,
      "grad_norm": 0.004125312436372042,
      "learning_rate": 3.0609989290910775e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66767336,
      "step": 115045
    },
    {
      "epoch": 17.135835567470956,
      "grad_norm": 0.0005966090830042958,
      "learning_rate": 3.059441124846288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66770184,
      "step": 115050
    },
    {
      "epoch": 17.136580280011916,
      "grad_norm": 1.8669141354621388e-05,
      "learning_rate": 3.0578836912649458e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66773256,
      "step": 115055
    },
    {
      "epoch": 17.137324992552873,
      "grad_norm": 0.0003286652790848166,
      "learning_rate": 3.0563266283733517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66776040,
      "step": 115060
    },
    {
      "epoch": 17.138069705093834,
      "grad_norm": 0.00035092889447696507,
      "learning_rate": 3.054769936197824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66778824,
      "step": 115065
    },
    {
      "epoch": 17.138814417634794,
      "grad_norm": 1.8007638573180884e-05,
      "learning_rate": 3.0532136147646496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66781800,
      "step": 115070
    },
    {
      "epoch": 17.13955913017575,
      "grad_norm": 0.00015884356980677694,
      "learning_rate": 3.05165766410013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66784808,
      "step": 115075
    },
    {
      "epoch": 17.140303842716712,
      "grad_norm": 0.0019266139715909958,
      "learning_rate": 3.050102084230541e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66787912,
      "step": 115080
    },
    {
      "epoch": 17.14104855525767,
      "grad_norm": 9.745195711730048e-05,
      "learning_rate": 3.0485468751821735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66791048,
      "step": 115085
    },
    {
      "epoch": 17.14179326779863,
      "grad_norm": 6.757540541002527e-05,
      "learning_rate": 3.046992036981294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66794184,
      "step": 115090
    },
    {
      "epoch": 17.14253798033959,
      "grad_norm": 6.34352836641483e-05,
      "learning_rate": 3.0454375696541694e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66797256,
      "step": 115095
    },
    {
      "epoch": 17.143282692880547,
      "grad_norm": 0.0002485990698914975,
      "learning_rate": 3.0438834732270686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66800392,
      "step": 115100
    },
    {
      "epoch": 17.144027405421507,
      "grad_norm": 0.000157790636876598,
      "learning_rate": 3.0423297477262415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66803208,
      "step": 115105
    },
    {
      "epoch": 17.144772117962468,
      "grad_norm": 0.011102455668151379,
      "learning_rate": 3.0407763931779354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66806216,
      "step": 115110
    },
    {
      "epoch": 17.145516830503425,
      "grad_norm": 0.0002669747918844223,
      "learning_rate": 3.039223409608391e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66809096,
      "step": 115115
    },
    {
      "epoch": 17.146261543044385,
      "grad_norm": 0.0001891233550850302,
      "learning_rate": 3.0376707970438513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66811880,
      "step": 115120
    },
    {
      "epoch": 17.147006255585342,
      "grad_norm": 0.0001255457755178213,
      "learning_rate": 3.036118555510539e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66814568,
      "step": 115125
    },
    {
      "epoch": 17.147750968126303,
      "grad_norm": 7.228139111248311e-06,
      "learning_rate": 3.0345666850346787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66817576,
      "step": 115130
    },
    {
      "epoch": 17.148495680667263,
      "grad_norm": 8.755762246437371e-05,
      "learning_rate": 3.033015185642493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66820264,
      "step": 115135
    },
    {
      "epoch": 17.14924039320822,
      "grad_norm": 0.00023299024906009436,
      "learning_rate": 3.0314640573601864e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66823112,
      "step": 115140
    },
    {
      "epoch": 17.14998510574918,
      "grad_norm": 0.0017857542261481285,
      "learning_rate": 3.029913300213971e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66826216,
      "step": 115145
    },
    {
      "epoch": 17.15072981829014,
      "grad_norm": 0.0002021013933699578,
      "learning_rate": 3.0283629142300347e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66829000,
      "step": 115150
    },
    {
      "epoch": 17.1514745308311,
      "grad_norm": 9.30158857954666e-05,
      "learning_rate": 3.0268128994345807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66832008,
      "step": 115155
    },
    {
      "epoch": 17.15221924337206,
      "grad_norm": 0.00016490438429173082,
      "learning_rate": 3.0252632558537913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66835048,
      "step": 115160
    },
    {
      "epoch": 17.152963955913016,
      "grad_norm": 5.955192136752885e-06,
      "learning_rate": 3.0237139835138402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66837832,
      "step": 115165
    },
    {
      "epoch": 17.153708668453977,
      "grad_norm": 0.0004026695678476244,
      "learning_rate": 3.0221650824409114e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66840776,
      "step": 115170
    },
    {
      "epoch": 17.154453380994937,
      "grad_norm": 0.00016606108692940325,
      "learning_rate": 3.0206165526611654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66843848,
      "step": 115175
    },
    {
      "epoch": 17.155198093535894,
      "grad_norm": 0.00037864246405661106,
      "learning_rate": 3.0190683942007637e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66846728,
      "step": 115180
    },
    {
      "epoch": 17.155942806076855,
      "grad_norm": 7.038823969196528e-05,
      "learning_rate": 3.017520607085858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66849416,
      "step": 115185
    },
    {
      "epoch": 17.156687518617815,
      "grad_norm": 3.133658174192533e-05,
      "learning_rate": 3.0159731913426027e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66852200,
      "step": 115190
    },
    {
      "epoch": 17.157432231158772,
      "grad_norm": 1.7110922271967866e-05,
      "learning_rate": 3.014426146997132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66855176,
      "step": 115195
    },
    {
      "epoch": 17.158176943699733,
      "grad_norm": 5.756864538852824e-06,
      "learning_rate": 3.0128794740755916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66857992,
      "step": 115200
    },
    {
      "epoch": 17.15892165624069,
      "grad_norm": 0.0028440847527235746,
      "learning_rate": 3.0113331726041055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66860712,
      "step": 115205
    },
    {
      "epoch": 17.15966636878165,
      "grad_norm": 5.0152775656897575e-05,
      "learning_rate": 3.0097872426087914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66863944,
      "step": 115210
    },
    {
      "epoch": 17.16041108132261,
      "grad_norm": 0.0008797100745141506,
      "learning_rate": 3.0082416841157783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66866568,
      "step": 115215
    },
    {
      "epoch": 17.161155793863568,
      "grad_norm": 9.486552238464355,
      "learning_rate": 3.006696497151165e-06,
      "loss": 0.0412,
      "num_input_tokens_seen": 66869512,
      "step": 115220
    },
    {
      "epoch": 17.16190050640453,
      "grad_norm": 1.686768518993631e-05,
      "learning_rate": 3.005151681741067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66872680,
      "step": 115225
    },
    {
      "epoch": 17.16264521894549,
      "grad_norm": 0.0004445748927537352,
      "learning_rate": 3.0036072379115737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66875720,
      "step": 115230
    },
    {
      "epoch": 17.163389931486446,
      "grad_norm": 3.1153755116974935e-05,
      "learning_rate": 3.0020631656887845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66878856,
      "step": 115235
    },
    {
      "epoch": 17.164134644027406,
      "grad_norm": 4.776281356811523,
      "learning_rate": 3.000519465098772e-06,
      "loss": 0.0766,
      "num_input_tokens_seen": 66881672,
      "step": 115240
    },
    {
      "epoch": 17.164879356568363,
      "grad_norm": 55.682430267333984,
      "learning_rate": 2.9989761361676306e-06,
      "loss": 0.1066,
      "num_input_tokens_seen": 66884520,
      "step": 115245
    },
    {
      "epoch": 17.165624069109324,
      "grad_norm": 5.318034527590498e-05,
      "learning_rate": 2.997433178921427e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66887368,
      "step": 115250
    },
    {
      "epoch": 17.166368781650284,
      "grad_norm": 0.0015916475094854832,
      "learning_rate": 2.995890593386222e-06,
      "loss": 0.1376,
      "num_input_tokens_seen": 66890280,
      "step": 115255
    },
    {
      "epoch": 17.16711349419124,
      "grad_norm": 0.00033650468685664237,
      "learning_rate": 2.9943483795880854e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66893128,
      "step": 115260
    },
    {
      "epoch": 17.167858206732202,
      "grad_norm": 0.000420266849687323,
      "learning_rate": 2.992806537553064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66895912,
      "step": 115265
    },
    {
      "epoch": 17.16860291927316,
      "grad_norm": 0.00017526633746456355,
      "learning_rate": 2.9912650673072113e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66898728,
      "step": 115270
    },
    {
      "epoch": 17.16934763181412,
      "grad_norm": 0.00010581315291346982,
      "learning_rate": 2.989723968876565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66901736,
      "step": 115275
    },
    {
      "epoch": 17.17009234435508,
      "grad_norm": 5.330463682184927e-05,
      "learning_rate": 2.9881832422871654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66904488,
      "step": 115280
    },
    {
      "epoch": 17.170837056896037,
      "grad_norm": 5.962944487691857e-05,
      "learning_rate": 2.986642887565036e-06,
      "loss": 0.2594,
      "num_input_tokens_seen": 66907144,
      "step": 115285
    },
    {
      "epoch": 17.171581769436997,
      "grad_norm": 5.110048005008139e-05,
      "learning_rate": 2.9851029047362008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66909960,
      "step": 115290
    },
    {
      "epoch": 17.172326481977958,
      "grad_norm": 0.0019585690461099148,
      "learning_rate": 2.98356329382668e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66912648,
      "step": 115295
    },
    {
      "epoch": 17.173071194518915,
      "grad_norm": 0.00036543168243952096,
      "learning_rate": 2.9820240548624814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66915528,
      "step": 115300
    },
    {
      "epoch": 17.173815907059875,
      "grad_norm": 2.618893176986603e-06,
      "learning_rate": 2.9804851878696054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66918440,
      "step": 115305
    },
    {
      "epoch": 17.174560619600832,
      "grad_norm": 1.3618779121316038e-05,
      "learning_rate": 2.9789466928740515e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66921576,
      "step": 115310
    },
    {
      "epoch": 17.175305332141793,
      "grad_norm": 0.000499309622682631,
      "learning_rate": 2.9774085699018158e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66924488,
      "step": 115315
    },
    {
      "epoch": 17.176050044682754,
      "grad_norm": 8.532661013305187e-06,
      "learning_rate": 2.9758708189788736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66927432,
      "step": 115320
    },
    {
      "epoch": 17.17679475722371,
      "grad_norm": 0.0007799626910127699,
      "learning_rate": 2.9743334401312133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66930120,
      "step": 115325
    },
    {
      "epoch": 17.17753946976467,
      "grad_norm": 2.9905988412792794e-05,
      "learning_rate": 2.9727964333848056e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66933096,
      "step": 115330
    },
    {
      "epoch": 17.17828418230563,
      "grad_norm": 0.0011281194165349007,
      "learning_rate": 2.9712597987656105e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66935976,
      "step": 115335
    },
    {
      "epoch": 17.17902889484659,
      "grad_norm": 0.0002473427739460021,
      "learning_rate": 2.9697235362995955e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66938632,
      "step": 115340
    },
    {
      "epoch": 17.17977360738755,
      "grad_norm": 0.0014617078704759479,
      "learning_rate": 2.9681876460127073e-06,
      "loss": 0.0088,
      "num_input_tokens_seen": 66941704,
      "step": 115345
    },
    {
      "epoch": 17.180518319928506,
      "grad_norm": 0.0009519088198430836,
      "learning_rate": 2.9666521279309023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66944424,
      "step": 115350
    },
    {
      "epoch": 17.181263032469467,
      "grad_norm": 0.00035933140316046774,
      "learning_rate": 2.965116982080107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66947368,
      "step": 115355
    },
    {
      "epoch": 17.182007745010427,
      "grad_norm": 0.00018676687614060938,
      "learning_rate": 2.9635822084862737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66949832,
      "step": 115360
    },
    {
      "epoch": 17.182752457551384,
      "grad_norm": 0.00028848263900727034,
      "learning_rate": 2.9620478071753223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66953064,
      "step": 115365
    },
    {
      "epoch": 17.183497170092345,
      "grad_norm": 5.2885141485603526e-05,
      "learning_rate": 2.9605137781731713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66955880,
      "step": 115370
    },
    {
      "epoch": 17.184241882633305,
      "grad_norm": 0.0005157054984010756,
      "learning_rate": 2.9589801215057445e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66958600,
      "step": 115375
    },
    {
      "epoch": 17.184986595174262,
      "grad_norm": 8.45109680085443e-05,
      "learning_rate": 2.9574468371989378e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66961832,
      "step": 115380
    },
    {
      "epoch": 17.185731307715223,
      "grad_norm": 0.0076486701145768166,
      "learning_rate": 2.955913925278672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66965032,
      "step": 115385
    },
    {
      "epoch": 17.18647602025618,
      "grad_norm": 4.949255526298657e-05,
      "learning_rate": 2.95438138577083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66967784,
      "step": 115390
    },
    {
      "epoch": 17.18722073279714,
      "grad_norm": 7.33826236682944e-05,
      "learning_rate": 2.952849218701312e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66970344,
      "step": 115395
    },
    {
      "epoch": 17.1879654453381,
      "grad_norm": 0.011341209523379803,
      "learning_rate": 2.951317424095995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66973096,
      "step": 115400
    },
    {
      "epoch": 17.188710157879058,
      "grad_norm": 5.127743861521594e-05,
      "learning_rate": 2.9497860019807643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66976072,
      "step": 115405
    },
    {
      "epoch": 17.18945487042002,
      "grad_norm": 0.00013937237963546067,
      "learning_rate": 2.948254952381491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66978856,
      "step": 115410
    },
    {
      "epoch": 17.19019958296098,
      "grad_norm": 0.0003383983566891402,
      "learning_rate": 2.946724275324031e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66981832,
      "step": 115415
    },
    {
      "epoch": 17.190944295501936,
      "grad_norm": 3.282118996139616e-05,
      "learning_rate": 2.9451939708342564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66984616,
      "step": 115420
    },
    {
      "epoch": 17.191689008042896,
      "grad_norm": 0.0004150132299400866,
      "learning_rate": 2.9436640389380073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66987368,
      "step": 115425
    },
    {
      "epoch": 17.192433720583853,
      "grad_norm": 0.0006453818059526384,
      "learning_rate": 2.9421344796611435e-06,
      "loss": 0.0119,
      "num_input_tokens_seen": 66990024,
      "step": 115430
    },
    {
      "epoch": 17.193178433124814,
      "grad_norm": 0.0002943442959804088,
      "learning_rate": 2.9406052930295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66992968,
      "step": 115435
    },
    {
      "epoch": 17.193923145665774,
      "grad_norm": 6.283162656472996e-05,
      "learning_rate": 2.9390764790689085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66995912,
      "step": 115440
    },
    {
      "epoch": 17.19466785820673,
      "grad_norm": 1.826817424444016e-05,
      "learning_rate": 2.9375480378051987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 66998824,
      "step": 115445
    },
    {
      "epoch": 17.195412570747692,
      "grad_norm": 6.0577971453312784e-05,
      "learning_rate": 2.9360199692641864e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67001768,
      "step": 115450
    },
    {
      "epoch": 17.19615728328865,
      "grad_norm": 0.0043393876403570175,
      "learning_rate": 2.9344922734716977e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67004680,
      "step": 115455
    },
    {
      "epoch": 17.19690199582961,
      "grad_norm": 0.00011611024820012972,
      "learning_rate": 2.932964950453529e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67007368,
      "step": 115460
    },
    {
      "epoch": 17.19764670837057,
      "grad_norm": 1.3168493751436472e-05,
      "learning_rate": 2.9314380002354953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67010568,
      "step": 115465
    },
    {
      "epoch": 17.198391420911527,
      "grad_norm": 0.0007318824646063149,
      "learning_rate": 2.9299114228433816e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67013864,
      "step": 115470
    },
    {
      "epoch": 17.199136133452487,
      "grad_norm": 0.0003524035564623773,
      "learning_rate": 2.9283852183029898e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67017096,
      "step": 115475
    },
    {
      "epoch": 17.199880845993448,
      "grad_norm": 0.0006108948728069663,
      "learning_rate": 2.9268593866400907e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67019976,
      "step": 115480
    },
    {
      "epoch": 17.200625558534405,
      "grad_norm": 0.0004114242037758231,
      "learning_rate": 2.9253339278804748e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67022632,
      "step": 115485
    },
    {
      "epoch": 17.201370271075366,
      "grad_norm": 0.003924270626157522,
      "learning_rate": 2.923808842049905e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67025608,
      "step": 115490
    },
    {
      "epoch": 17.202114983616323,
      "grad_norm": 0.015603391453623772,
      "learning_rate": 2.922284129174141e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67028680,
      "step": 115495
    },
    {
      "epoch": 17.202859696157283,
      "grad_norm": 0.00022482148779090494,
      "learning_rate": 2.920759789278957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67031560,
      "step": 115500
    },
    {
      "epoch": 17.203604408698244,
      "grad_norm": 0.0001654675870668143,
      "learning_rate": 2.919235822390093e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67034824,
      "step": 115505
    },
    {
      "epoch": 17.2043491212392,
      "grad_norm": 4.35857982665766e-05,
      "learning_rate": 2.9177122285332982e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67037480,
      "step": 115510
    },
    {
      "epoch": 17.20509383378016,
      "grad_norm": 9.541309555061162e-05,
      "learning_rate": 2.9161890077343074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67040232,
      "step": 115515
    },
    {
      "epoch": 17.20583854632112,
      "grad_norm": 0.0002454910718370229,
      "learning_rate": 2.914666160018864e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67042920,
      "step": 115520
    },
    {
      "epoch": 17.20658325886208,
      "grad_norm": 0.0006164891528896987,
      "learning_rate": 2.9131436854126894e-06,
      "loss": 0.0008,
      "num_input_tokens_seen": 67046024,
      "step": 115525
    },
    {
      "epoch": 17.20732797140304,
      "grad_norm": 7.042111246846616e-05,
      "learning_rate": 2.9116215839414986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67048904,
      "step": 115530
    },
    {
      "epoch": 17.208072683943996,
      "grad_norm": 7.85047304816544e-05,
      "learning_rate": 2.9100998556310153e-06,
      "loss": 0.0006,
      "num_input_tokens_seen": 67051912,
      "step": 115535
    },
    {
      "epoch": 17.208817396484957,
      "grad_norm": 1.648463512538001e-05,
      "learning_rate": 2.9085785005069394e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67054568,
      "step": 115540
    },
    {
      "epoch": 17.209562109025917,
      "grad_norm": 0.00037399466964416206,
      "learning_rate": 2.907057518594983e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67057384,
      "step": 115545
    },
    {
      "epoch": 17.210306821566874,
      "grad_norm": 5.904785939492285e-05,
      "learning_rate": 2.9055369099208306e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67060392,
      "step": 115550
    },
    {
      "epoch": 17.211051534107835,
      "grad_norm": 0.0001593945053173229,
      "learning_rate": 2.904016674510179e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67062952,
      "step": 115555
    },
    {
      "epoch": 17.211796246648795,
      "grad_norm": 9.250009316019714e-05,
      "learning_rate": 2.9024968123887107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67065672,
      "step": 115560
    },
    {
      "epoch": 17.212540959189752,
      "grad_norm": 4.797721703653224e-05,
      "learning_rate": 2.900977323582099e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67068648,
      "step": 115565
    },
    {
      "epoch": 17.213285671730713,
      "grad_norm": 0.00012010896898573264,
      "learning_rate": 2.8994582081160155e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67071560,
      "step": 115570
    },
    {
      "epoch": 17.21403038427167,
      "grad_norm": 0.0006422426085919142,
      "learning_rate": 2.897939466016117e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 67074408,
      "step": 115575
    },
    {
      "epoch": 17.21477509681263,
      "grad_norm": 0.0004269663186278194,
      "learning_rate": 2.8964210973080745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67077128,
      "step": 115580
    },
    {
      "epoch": 17.21551980935359,
      "grad_norm": 1.696522831916809,
      "learning_rate": 2.8949031020175264e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67080264,
      "step": 115585
    },
    {
      "epoch": 17.216264521894548,
      "grad_norm": 0.0007615653448738158,
      "learning_rate": 2.89338548017013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67083112,
      "step": 115590
    },
    {
      "epoch": 17.21700923443551,
      "grad_norm": 0.000135374502860941,
      "learning_rate": 2.8918682317915115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67085832,
      "step": 115595
    },
    {
      "epoch": 17.217753946976465,
      "grad_norm": 1.4940244909666944e-05,
      "learning_rate": 2.890351356907314e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 67088616,
      "step": 115600
    },
    {
      "epoch": 17.218498659517426,
      "grad_norm": 0.0003919793525710702,
      "learning_rate": 2.8888348555431625e-06,
      "loss": 0.0113,
      "num_input_tokens_seen": 67091464,
      "step": 115605
    },
    {
      "epoch": 17.219243372058386,
      "grad_norm": 0.0006034234538674355,
      "learning_rate": 2.887318727724664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67094248,
      "step": 115610
    },
    {
      "epoch": 17.219988084599343,
      "grad_norm": 0.44454798102378845,
      "learning_rate": 2.88580297347745e-06,
      "loss": 0.0019,
      "num_input_tokens_seen": 67096968,
      "step": 115615
    },
    {
      "epoch": 17.220732797140304,
      "grad_norm": 0.000664856459479779,
      "learning_rate": 2.884287592827112e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67099880,
      "step": 115620
    },
    {
      "epoch": 17.221477509681264,
      "grad_norm": 3.606139580369927e-05,
      "learning_rate": 2.882772585799262e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67102600,
      "step": 115625
    },
    {
      "epoch": 17.22222222222222,
      "grad_norm": 0.00014292477862909436,
      "learning_rate": 2.8812579524194916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67105224,
      "step": 115630
    },
    {
      "epoch": 17.222966934763182,
      "grad_norm": 8.112105570035055e-05,
      "learning_rate": 2.879743692713388e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67108296,
      "step": 115635
    },
    {
      "epoch": 17.22371164730414,
      "grad_norm": 9.566263906890526e-05,
      "learning_rate": 2.8782298067065256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67111336,
      "step": 115640
    },
    {
      "epoch": 17.2244563598451,
      "grad_norm": 0.00018786471628118306,
      "learning_rate": 2.8767162944244918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67114280,
      "step": 115645
    },
    {
      "epoch": 17.22520107238606,
      "grad_norm": 3.8802012568339705e-05,
      "learning_rate": 2.875203155892853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67117000,
      "step": 115650
    },
    {
      "epoch": 17.225945784927017,
      "grad_norm": 0.00012738384248223156,
      "learning_rate": 2.8736903911371652e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67119912,
      "step": 115655
    },
    {
      "epoch": 17.226690497467978,
      "grad_norm": 2.8098313123336993e-05,
      "learning_rate": 2.8721780001829956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67122984,
      "step": 115660
    },
    {
      "epoch": 17.227435210008938,
      "grad_norm": 0.002102928701788187,
      "learning_rate": 2.870665983055881e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67125960,
      "step": 115665
    },
    {
      "epoch": 17.228179922549895,
      "grad_norm": 8.494017674820498e-05,
      "learning_rate": 2.8691543397813824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67128968,
      "step": 115670
    },
    {
      "epoch": 17.228924635090856,
      "grad_norm": 0.0001883316581370309,
      "learning_rate": 2.8676430703850206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67131848,
      "step": 115675
    },
    {
      "epoch": 17.229669347631813,
      "grad_norm": 1.7340336853521876e-05,
      "learning_rate": 2.8661321748923416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67134504,
      "step": 115680
    },
    {
      "epoch": 17.230414060172773,
      "grad_norm": 0.0005518259713426232,
      "learning_rate": 2.8646216533288556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67137608,
      "step": 115685
    },
    {
      "epoch": 17.231158772713734,
      "grad_norm": 3.768916940316558e-05,
      "learning_rate": 2.863111505720098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67140808,
      "step": 115690
    },
    {
      "epoch": 17.23190348525469,
      "grad_norm": 0.00024000596022233367,
      "learning_rate": 2.8616017320915704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67143784,
      "step": 115695
    },
    {
      "epoch": 17.23264819779565,
      "grad_norm": 2.6566551696305396e-06,
      "learning_rate": 2.8600923324687807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67146920,
      "step": 115700
    },
    {
      "epoch": 17.23339291033661,
      "grad_norm": 0.02177499420940876,
      "learning_rate": 2.85858330687723e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67149640,
      "step": 115705
    },
    {
      "epoch": 17.23413762287757,
      "grad_norm": 0.00034161866642534733,
      "learning_rate": 2.8570746553424065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67152456,
      "step": 115710
    },
    {
      "epoch": 17.23488233541853,
      "grad_norm": 8.390984294237569e-05,
      "learning_rate": 2.8555663778898066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67155336,
      "step": 115715
    },
    {
      "epoch": 17.235627047959486,
      "grad_norm": 0.004002584610134363,
      "learning_rate": 2.854058474544899e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67157992,
      "step": 115720
    },
    {
      "epoch": 17.236371760500447,
      "grad_norm": 0.00047459540655836463,
      "learning_rate": 2.852550945333174e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67161384,
      "step": 115725
    },
    {
      "epoch": 17.237116473041407,
      "grad_norm": 0.00010869541438296437,
      "learning_rate": 2.851043790280089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67164200,
      "step": 115730
    },
    {
      "epoch": 17.237861185582364,
      "grad_norm": 7.826129876775667e-05,
      "learning_rate": 2.849537009411102e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67166952,
      "step": 115735
    },
    {
      "epoch": 17.238605898123325,
      "grad_norm": 8.013435581233352e-05,
      "learning_rate": 2.8480306027516807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67169672,
      "step": 115740
    },
    {
      "epoch": 17.239350610664285,
      "grad_norm": 9.088856131711509e-06,
      "learning_rate": 2.8465245703272607e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67172744,
      "step": 115745
    },
    {
      "epoch": 17.240095323205242,
      "grad_norm": 0.00014702336920890957,
      "learning_rate": 2.8450189121632998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67175656,
      "step": 115750
    },
    {
      "epoch": 17.240840035746203,
      "grad_norm": 5.8653546147979796e-05,
      "learning_rate": 2.8435136282852217e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67178536,
      "step": 115755
    },
    {
      "epoch": 17.24158474828716,
      "grad_norm": 0.0027000277768820524,
      "learning_rate": 2.842008718718467e-06,
      "loss": 0.1098,
      "num_input_tokens_seen": 67181448,
      "step": 115760
    },
    {
      "epoch": 17.24232946082812,
      "grad_norm": 1.3986739759275224e-05,
      "learning_rate": 2.840504183488457e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67184456,
      "step": 115765
    },
    {
      "epoch": 17.24307417336908,
      "grad_norm": 0.0001299656432820484,
      "learning_rate": 2.8390000226206025e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67187368,
      "step": 115770
    },
    {
      "epoch": 17.243818885910038,
      "grad_norm": 0.00014667613140773028,
      "learning_rate": 2.837496236140322e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67190280,
      "step": 115775
    },
    {
      "epoch": 17.244563598451,
      "grad_norm": 0.00017773783474694937,
      "learning_rate": 2.835992824073011e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67193256,
      "step": 115780
    },
    {
      "epoch": 17.245308310991955,
      "grad_norm": 1.679435263213236e-05,
      "learning_rate": 2.8344897864440805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67196072,
      "step": 115785
    },
    {
      "epoch": 17.246053023532916,
      "grad_norm": 2.4583254344179295e-05,
      "learning_rate": 2.832987123278913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67198856,
      "step": 115790
    },
    {
      "epoch": 17.246797736073876,
      "grad_norm": 7.615417416673154e-05,
      "learning_rate": 2.8314848346029017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67201928,
      "step": 115795
    },
    {
      "epoch": 17.247542448614833,
      "grad_norm": 0.0018194832373410463,
      "learning_rate": 2.829982920441421e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67204520,
      "step": 115800
    },
    {
      "epoch": 17.248287161155794,
      "grad_norm": 0.0006525380304083228,
      "learning_rate": 2.8284813808198473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67207432,
      "step": 115805
    },
    {
      "epoch": 17.249031873696755,
      "grad_norm": 4.965325933881104e-05,
      "learning_rate": 2.82698021576355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67210472,
      "step": 115810
    },
    {
      "epoch": 17.24977658623771,
      "grad_norm": 0.0022230471950024366,
      "learning_rate": 2.825479425297878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67213416,
      "step": 115815
    },
    {
      "epoch": 17.250521298778672,
      "grad_norm": 0.0003316590446047485,
      "learning_rate": 2.823979009448202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67216424,
      "step": 115820
    },
    {
      "epoch": 17.25126601131963,
      "grad_norm": 0.0002896493242587894,
      "learning_rate": 2.8224789682398556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67219528,
      "step": 115825
    },
    {
      "epoch": 17.25201072386059,
      "grad_norm": 0.0005752646247856319,
      "learning_rate": 2.8209793016981927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67222120,
      "step": 115830
    },
    {
      "epoch": 17.25275543640155,
      "grad_norm": 2.1497568013728596e-05,
      "learning_rate": 2.8194800098485407e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67225000,
      "step": 115835
    },
    {
      "epoch": 17.253500148942507,
      "grad_norm": 9.878021046461072e-06,
      "learning_rate": 2.817981092716232e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67227688,
      "step": 115840
    },
    {
      "epoch": 17.254244861483468,
      "grad_norm": 9.308756125392392e-05,
      "learning_rate": 2.8164825503265825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67230600,
      "step": 115845
    },
    {
      "epoch": 17.254989574024428,
      "grad_norm": 0.00017078545351978391,
      "learning_rate": 2.8149843827049186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67233736,
      "step": 115850
    },
    {
      "epoch": 17.255734286565385,
      "grad_norm": 4.903231911157491e-06,
      "learning_rate": 2.813486589876549e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67236712,
      "step": 115855
    },
    {
      "epoch": 17.256478999106346,
      "grad_norm": 4.646123852580786e-05,
      "learning_rate": 2.8119891718667664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67239528,
      "step": 115860
    },
    {
      "epoch": 17.257223711647303,
      "grad_norm": 7.506727797590429e-06,
      "learning_rate": 2.8104921287008785e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67242376,
      "step": 115865
    },
    {
      "epoch": 17.257968424188263,
      "grad_norm": 1.0948152521450538e-05,
      "learning_rate": 2.8089954604041734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67245320,
      "step": 115870
    },
    {
      "epoch": 17.258713136729224,
      "grad_norm": 4.52462954854127e-05,
      "learning_rate": 2.807499167001937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67248232,
      "step": 115875
    },
    {
      "epoch": 17.25945784927018,
      "grad_norm": 9.369035979034379e-05,
      "learning_rate": 2.8060032485194453e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67251112,
      "step": 115880
    },
    {
      "epoch": 17.26020256181114,
      "grad_norm": 0.0005266495863907039,
      "learning_rate": 2.8045077049819733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67253832,
      "step": 115885
    },
    {
      "epoch": 17.2609472743521,
      "grad_norm": 0.0043924241326749325,
      "learning_rate": 2.8030125364147868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67256808,
      "step": 115890
    },
    {
      "epoch": 17.26169198689306,
      "grad_norm": 0.00013083225348964334,
      "learning_rate": 2.8015177428431433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67259656,
      "step": 115895
    },
    {
      "epoch": 17.26243669943402,
      "grad_norm": 0.002054207492619753,
      "learning_rate": 2.8000233242922973e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67262440,
      "step": 115900
    },
    {
      "epoch": 17.263181411974976,
      "grad_norm": 0.0005573926027864218,
      "learning_rate": 2.7985292807874873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67265192,
      "step": 115905
    },
    {
      "epoch": 17.263926124515937,
      "grad_norm": 0.005096895154565573,
      "learning_rate": 2.797035612353968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67267976,
      "step": 115910
    },
    {
      "epoch": 17.264670837056897,
      "grad_norm": 0.0001438138133380562,
      "learning_rate": 2.7955423190169585e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67271080,
      "step": 115915
    },
    {
      "epoch": 17.265415549597854,
      "grad_norm": 1.0915209713857621e-05,
      "learning_rate": 2.794049400801699e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67274312,
      "step": 115920
    },
    {
      "epoch": 17.266160262138815,
      "grad_norm": 0.002029321389272809,
      "learning_rate": 2.792556857733403e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67277416,
      "step": 115925
    },
    {
      "epoch": 17.266904974679775,
      "grad_norm": 2.6069212253787555e-05,
      "learning_rate": 2.7910646898372916e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67280552,
      "step": 115930
    },
    {
      "epoch": 17.267649687220732,
      "grad_norm": 2.2120757421362214e-05,
      "learning_rate": 2.7895728971385706e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67283592,
      "step": 115935
    },
    {
      "epoch": 17.268394399761693,
      "grad_norm": 0.0009906429331749678,
      "learning_rate": 2.7880814796624355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67286344,
      "step": 115940
    },
    {
      "epoch": 17.26913911230265,
      "grad_norm": 4.362165054772049e-05,
      "learning_rate": 2.7865904374340947e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67289448,
      "step": 115945
    },
    {
      "epoch": 17.26988382484361,
      "grad_norm": 0.0006275725900195539,
      "learning_rate": 2.7850997704787244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67292584,
      "step": 115950
    },
    {
      "epoch": 17.27062853738457,
      "grad_norm": 2.6003965103882365e-05,
      "learning_rate": 2.783609478821525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67295688,
      "step": 115955
    },
    {
      "epoch": 17.271373249925528,
      "grad_norm": 1.4392438970389776e-05,
      "learning_rate": 2.782119562487662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67298760,
      "step": 115960
    },
    {
      "epoch": 17.27211796246649,
      "grad_norm": 4.180952237220481e-05,
      "learning_rate": 2.7806300215023063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67301768,
      "step": 115965
    },
    {
      "epoch": 17.272862675007445,
      "grad_norm": 0.0002637199650052935,
      "learning_rate": 2.7791408558906245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67304264,
      "step": 115970
    },
    {
      "epoch": 17.273607387548406,
      "grad_norm": 0.00010306719195796177,
      "learning_rate": 2.777652065677766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67307400,
      "step": 115975
    },
    {
      "epoch": 17.274352100089367,
      "grad_norm": 4.3045882193837315e-05,
      "learning_rate": 2.7761636508888995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67310120,
      "step": 115980
    },
    {
      "epoch": 17.275096812630323,
      "grad_norm": 0.00013074884191155434,
      "learning_rate": 2.774675611549152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67312840,
      "step": 115985
    },
    {
      "epoch": 17.275841525171284,
      "grad_norm": 7.810876559233293e-05,
      "learning_rate": 2.773187947683678e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67315592,
      "step": 115990
    },
    {
      "epoch": 17.276586237712245,
      "grad_norm": 0.00040990818524733186,
      "learning_rate": 2.7717006593175997e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67318600,
      "step": 115995
    },
    {
      "epoch": 17.2773309502532,
      "grad_norm": 0.04722796753048897,
      "learning_rate": 2.7702137464760497e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67321384,
      "step": 116000
    },
    {
      "epoch": 17.278075662794162,
      "grad_norm": 6.371054769260809e-05,
      "learning_rate": 2.768727209184141e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67324264,
      "step": 116005
    },
    {
      "epoch": 17.27882037533512,
      "grad_norm": 6.13277152297087e-05,
      "learning_rate": 2.767241047466998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67327368,
      "step": 116010
    },
    {
      "epoch": 17.27956508787608,
      "grad_norm": 0.0013496949104592204,
      "learning_rate": 2.765755261349717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67330216,
      "step": 116015
    },
    {
      "epoch": 17.28030980041704,
      "grad_norm": 0.0001948745921254158,
      "learning_rate": 2.764269850857401e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67333480,
      "step": 116020
    },
    {
      "epoch": 17.281054512957997,
      "grad_norm": 0.0003594358859118074,
      "learning_rate": 2.7627848160151513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67336200,
      "step": 116025
    },
    {
      "epoch": 17.281799225498958,
      "grad_norm": 0.0003774033975787461,
      "learning_rate": 2.7613001568480514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67339112,
      "step": 116030
    },
    {
      "epoch": 17.282543938039918,
      "grad_norm": 0.02082596905529499,
      "learning_rate": 2.759815873381183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67341896,
      "step": 116035
    },
    {
      "epoch": 17.283288650580875,
      "grad_norm": 3.39909820468165e-05,
      "learning_rate": 2.7583319656396155e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67344744,
      "step": 116040
    },
    {
      "epoch": 17.284033363121836,
      "grad_norm": 4.1939849324990064e-05,
      "learning_rate": 2.756848433648429e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67347944,
      "step": 116045
    },
    {
      "epoch": 17.284778075662793,
      "grad_norm": 1.556382267153822e-05,
      "learning_rate": 2.755365277432681e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67350792,
      "step": 116050
    },
    {
      "epoch": 17.285522788203753,
      "grad_norm": 3.067497891606763e-05,
      "learning_rate": 2.753882497017424e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67354152,
      "step": 116055
    },
    {
      "epoch": 17.286267500744714,
      "grad_norm": 8.19878769107163e-05,
      "learning_rate": 2.7524000924277178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67356904,
      "step": 116060
    },
    {
      "epoch": 17.28701221328567,
      "grad_norm": 3.4904067433672026e-05,
      "learning_rate": 2.7509180636885927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67359752,
      "step": 116065
    },
    {
      "epoch": 17.28775692582663,
      "grad_norm": 9.070926353160758e-06,
      "learning_rate": 2.7494364108251016e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67362504,
      "step": 116070
    },
    {
      "epoch": 17.288501638367592,
      "grad_norm": 0.0009525066707283258,
      "learning_rate": 2.747955133862262e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67365320,
      "step": 116075
    },
    {
      "epoch": 17.28924635090855,
      "grad_norm": 4.8827045247890055e-05,
      "learning_rate": 2.746474232825111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67367816,
      "step": 116080
    },
    {
      "epoch": 17.28999106344951,
      "grad_norm": 3.606261088862084e-05,
      "learning_rate": 2.744993707738655e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67370856,
      "step": 116085
    },
    {
      "epoch": 17.290735775990466,
      "grad_norm": 0.0005589699139818549,
      "learning_rate": 2.7435135586279165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67373480,
      "step": 116090
    },
    {
      "epoch": 17.291480488531427,
      "grad_norm": 9.93300782283768e-05,
      "learning_rate": 2.7420337855178944e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67376552,
      "step": 116095
    },
    {
      "epoch": 17.292225201072387,
      "grad_norm": 4.7796376748010516e-05,
      "learning_rate": 2.7405543884335887e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67379080,
      "step": 116100
    },
    {
      "epoch": 17.292969913613344,
      "grad_norm": 0.00038346395012922585,
      "learning_rate": 2.739075367399996e-06,
      "loss": 0.0115,
      "num_input_tokens_seen": 67381928,
      "step": 116105
    },
    {
      "epoch": 17.293714626154305,
      "grad_norm": 3.690027733682655e-05,
      "learning_rate": 2.7375967224420928e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67384904,
      "step": 116110
    },
    {
      "epoch": 17.294459338695262,
      "grad_norm": 0.000630167021881789,
      "learning_rate": 2.736118453584871e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67387784,
      "step": 116115
    },
    {
      "epoch": 17.295204051236222,
      "grad_norm": 8.99950373423053e-06,
      "learning_rate": 2.7346405608532965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67390696,
      "step": 116120
    },
    {
      "epoch": 17.295948763777183,
      "grad_norm": 1.2990155482839327e-05,
      "learning_rate": 2.7331630442723466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67393608,
      "step": 116125
    },
    {
      "epoch": 17.29669347631814,
      "grad_norm": 0.010183560661971569,
      "learning_rate": 2.7316859038669736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67396520,
      "step": 116130
    },
    {
      "epoch": 17.2974381888591,
      "grad_norm": 0.0023603832814842463,
      "learning_rate": 2.7302091396621294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67399592,
      "step": 116135
    },
    {
      "epoch": 17.29818290140006,
      "grad_norm": 7.072991866152734e-05,
      "learning_rate": 2.7287327516827748e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67402440,
      "step": 116140
    },
    {
      "epoch": 17.298927613941018,
      "grad_norm": 0.0003367960744071752,
      "learning_rate": 2.7272567399538375e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67405128,
      "step": 116145
    },
    {
      "epoch": 17.29967232648198,
      "grad_norm": 0.16047269105911255,
      "learning_rate": 2.725781104500269e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 67408136,
      "step": 116150
    },
    {
      "epoch": 17.300417039022935,
      "grad_norm": 9.25068452488631e-05,
      "learning_rate": 2.7243058453469835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67411112,
      "step": 116155
    },
    {
      "epoch": 17.301161751563896,
      "grad_norm": 0.00017232853861059994,
      "learning_rate": 2.722830962518913e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 67414120,
      "step": 116160
    },
    {
      "epoch": 17.301906464104857,
      "grad_norm": 0.000272692326689139,
      "learning_rate": 2.7213564560409743e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67416840,
      "step": 116165
    },
    {
      "epoch": 17.302651176645814,
      "grad_norm": 1.3593229596153833e-05,
      "learning_rate": 2.7198823259380777e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67419528,
      "step": 116170
    },
    {
      "epoch": 17.303395889186774,
      "grad_norm": 0.000727406470105052,
      "learning_rate": 2.7184085722351205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67422408,
      "step": 116175
    },
    {
      "epoch": 17.304140601727735,
      "grad_norm": 2.7300350666046143,
      "learning_rate": 2.7169351949570017e-06,
      "loss": 0.0065,
      "num_input_tokens_seen": 67425352,
      "step": 116180
    },
    {
      "epoch": 17.30488531426869,
      "grad_norm": 0.00039570030639879405,
      "learning_rate": 2.7154621941286206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67428392,
      "step": 116185
    },
    {
      "epoch": 17.305630026809652,
      "grad_norm": 1.2884414900327101e-05,
      "learning_rate": 2.7139895697748496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67431208,
      "step": 116190
    },
    {
      "epoch": 17.30637473935061,
      "grad_norm": 0.00022318350966088474,
      "learning_rate": 2.7125173219205824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67433832,
      "step": 116195
    },
    {
      "epoch": 17.30711945189157,
      "grad_norm": 0.00048353077727369964,
      "learning_rate": 2.711045450590677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67436808,
      "step": 116200
    },
    {
      "epoch": 17.30786416443253,
      "grad_norm": 5.8896021073451266e-05,
      "learning_rate": 2.7095739558100074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67439784,
      "step": 116205
    },
    {
      "epoch": 17.308608876973487,
      "grad_norm": 0.0009234069148078561,
      "learning_rate": 2.708102837603435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67442632,
      "step": 116210
    },
    {
      "epoch": 17.309353589514448,
      "grad_norm": 0.006698887329548597,
      "learning_rate": 2.706632095995801e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67445672,
      "step": 116215
    },
    {
      "epoch": 17.31009830205541,
      "grad_norm": 2.6444295144756325e-05,
      "learning_rate": 2.7051617310119653e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67448488,
      "step": 116220
    },
    {
      "epoch": 17.310843014596365,
      "grad_norm": 0.00021036883117631078,
      "learning_rate": 2.7036917426767615e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67451336,
      "step": 116225
    },
    {
      "epoch": 17.311587727137326,
      "grad_norm": 0.0007974408799782395,
      "learning_rate": 2.702222131015028e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67454152,
      "step": 116230
    },
    {
      "epoch": 17.312332439678283,
      "grad_norm": 0.007672371808439493,
      "learning_rate": 2.700752896051581e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67456712,
      "step": 116235
    },
    {
      "epoch": 17.313077152219243,
      "grad_norm": 0.0004940453800372779,
      "learning_rate": 2.699284037811256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67459688,
      "step": 116240
    },
    {
      "epoch": 17.313821864760204,
      "grad_norm": 2.8114785891375504e-05,
      "learning_rate": 2.6978155563188583e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67462440,
      "step": 116245
    },
    {
      "epoch": 17.31456657730116,
      "grad_norm": 0.00025980090140365064,
      "learning_rate": 2.6963474515992044e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67465640,
      "step": 116250
    },
    {
      "epoch": 17.31531128984212,
      "grad_norm": 0.00042512628715485334,
      "learning_rate": 2.6948797236770907e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67468776,
      "step": 116255
    },
    {
      "epoch": 17.316056002383082,
      "grad_norm": 0.0002161934826290235,
      "learning_rate": 2.6934123725773088e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67471656,
      "step": 116260
    },
    {
      "epoch": 17.31680071492404,
      "grad_norm": 0.00025896047009155154,
      "learning_rate": 2.6919453983246577e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67474504,
      "step": 116265
    },
    {
      "epoch": 17.317545427465,
      "grad_norm": 0.0007219354156404734,
      "learning_rate": 2.690478800943913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67477416,
      "step": 116270
    },
    {
      "epoch": 17.318290140005956,
      "grad_norm": 0.00016255906666629016,
      "learning_rate": 2.68901258045986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67480072,
      "step": 116275
    },
    {
      "epoch": 17.319034852546917,
      "grad_norm": 0.00010989426664309576,
      "learning_rate": 2.6875467368972563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67482696,
      "step": 116280
    },
    {
      "epoch": 17.319779565087877,
      "grad_norm": 0.0004367572837509215,
      "learning_rate": 2.6860812702808795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67485608,
      "step": 116285
    },
    {
      "epoch": 17.320524277628834,
      "grad_norm": 0.00043779565021395683,
      "learning_rate": 2.6846161806354826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67488520,
      "step": 116290
    },
    {
      "epoch": 17.321268990169795,
      "grad_norm": 2.452128319418989e-05,
      "learning_rate": 2.6831514679858115e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67491272,
      "step": 116295
    },
    {
      "epoch": 17.322013702710752,
      "grad_norm": 0.0006428053602576256,
      "learning_rate": 2.6816871323566165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67494216,
      "step": 116300
    },
    {
      "epoch": 17.322758415251712,
      "grad_norm": 0.00041989091550931334,
      "learning_rate": 2.6802231737726307e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67497032,
      "step": 116305
    },
    {
      "epoch": 17.323503127792673,
      "grad_norm": 6.920664873177884e-06,
      "learning_rate": 2.6787595922585924e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67500072,
      "step": 116310
    },
    {
      "epoch": 17.32424784033363,
      "grad_norm": 0.00032011402072384953,
      "learning_rate": 2.6772963878392177e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67503016,
      "step": 116315
    },
    {
      "epoch": 17.32499255287459,
      "grad_norm": 1.5061132216942497e-05,
      "learning_rate": 2.67583356053924e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67506120,
      "step": 116320
    },
    {
      "epoch": 17.32573726541555,
      "grad_norm": 0.001547483028843999,
      "learning_rate": 2.6743711103833614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67509000,
      "step": 116325
    },
    {
      "epoch": 17.326481977956508,
      "grad_norm": 0.0005405672127380967,
      "learning_rate": 2.6729090373962957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67511944,
      "step": 116330
    },
    {
      "epoch": 17.32722669049747,
      "grad_norm": 5.321652679413091e-06,
      "learning_rate": 2.67144734160274e-06,
      "loss": 0.04,
      "num_input_tokens_seen": 67514728,
      "step": 116335
    },
    {
      "epoch": 17.327971403038426,
      "grad_norm": 0.00012553558917716146,
      "learning_rate": 2.669986023027382e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67517928,
      "step": 116340
    },
    {
      "epoch": 17.328716115579386,
      "grad_norm": 0.0016254967777058482,
      "learning_rate": 2.6685250816949196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67521032,
      "step": 116345
    },
    {
      "epoch": 17.329460828120347,
      "grad_norm": 1.907698424474802e-05,
      "learning_rate": 2.6670645176300246e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67523976,
      "step": 116350
    },
    {
      "epoch": 17.330205540661304,
      "grad_norm": 6.335417128866538e-05,
      "learning_rate": 2.6656043308573826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67526888,
      "step": 116355
    },
    {
      "epoch": 17.330950253202264,
      "grad_norm": 0.0015449903439730406,
      "learning_rate": 2.664144521401654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67529672,
      "step": 116360
    },
    {
      "epoch": 17.331694965743225,
      "grad_norm": 0.0019517102045938373,
      "learning_rate": 2.6626850892875033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67532712,
      "step": 116365
    },
    {
      "epoch": 17.33243967828418,
      "grad_norm": 9.638092888053507e-05,
      "learning_rate": 2.6612260345395797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67535432,
      "step": 116370
    },
    {
      "epoch": 17.333184390825142,
      "grad_norm": 0.27510571479797363,
      "learning_rate": 2.6597673571825436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67538344,
      "step": 116375
    },
    {
      "epoch": 17.3339291033661,
      "grad_norm": 0.00015172851271927357,
      "learning_rate": 2.658309057241032e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67541544,
      "step": 116380
    },
    {
      "epoch": 17.33467381590706,
      "grad_norm": 1.4827111044724006e-05,
      "learning_rate": 2.6568511347396795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67544328,
      "step": 116385
    },
    {
      "epoch": 17.33541852844802,
      "grad_norm": 4.316692866268568e-05,
      "learning_rate": 2.6553935897031203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67547272,
      "step": 116390
    },
    {
      "epoch": 17.336163240988977,
      "grad_norm": 0.000324627966620028,
      "learning_rate": 2.6539364221559725e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67549992,
      "step": 116395
    },
    {
      "epoch": 17.336907953529938,
      "grad_norm": 0.000256635423284024,
      "learning_rate": 2.652479632122862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67553448,
      "step": 116400
    },
    {
      "epoch": 17.3376526660709,
      "grad_norm": 4.211174382362515e-05,
      "learning_rate": 2.65102321962839e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67556232,
      "step": 116405
    },
    {
      "epoch": 17.338397378611855,
      "grad_norm": 0.0007499669445678592,
      "learning_rate": 2.6495671846971716e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67559272,
      "step": 116410
    },
    {
      "epoch": 17.339142091152816,
      "grad_norm": 0.00025999420904554427,
      "learning_rate": 2.6481115273538e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67562184,
      "step": 116415
    },
    {
      "epoch": 17.339886803693773,
      "grad_norm": 0.00011769583215937018,
      "learning_rate": 2.6466562476228612e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67565160,
      "step": 116420
    },
    {
      "epoch": 17.340631516234733,
      "grad_norm": 0.0008737252792343497,
      "learning_rate": 2.645201345528953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67567976,
      "step": 116425
    },
    {
      "epoch": 17.341376228775694,
      "grad_norm": 7.189330517576309e-06,
      "learning_rate": 2.643746821096646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67570728,
      "step": 116430
    },
    {
      "epoch": 17.34212094131665,
      "grad_norm": 0.0006867216434329748,
      "learning_rate": 2.6422926743505132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67573832,
      "step": 116435
    },
    {
      "epoch": 17.34286565385761,
      "grad_norm": 9.111288090934977e-05,
      "learning_rate": 2.6408389053151185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67576840,
      "step": 116440
    },
    {
      "epoch": 17.343610366398572,
      "grad_norm": 8.091243216767907e-06,
      "learning_rate": 2.6393855140150304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67580008,
      "step": 116445
    },
    {
      "epoch": 17.34435507893953,
      "grad_norm": 3.1463652703678235e-05,
      "learning_rate": 2.6379325004747937e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67582856,
      "step": 116450
    },
    {
      "epoch": 17.34509979148049,
      "grad_norm": 4.0060520404949784e-05,
      "learning_rate": 2.636479864718966e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67585768,
      "step": 116455
    },
    {
      "epoch": 17.345844504021446,
      "grad_norm": 0.0003200177161488682,
      "learning_rate": 2.635027606772078e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67589192,
      "step": 116460
    },
    {
      "epoch": 17.346589216562407,
      "grad_norm": 0.00014530308544635773,
      "learning_rate": 2.633575726658666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67592040,
      "step": 116465
    },
    {
      "epoch": 17.347333929103367,
      "grad_norm": 0.002676354255527258,
      "learning_rate": 2.632124224403262e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 67595080,
      "step": 116470
    },
    {
      "epoch": 17.348078641644324,
      "grad_norm": 0.00019058700127061456,
      "learning_rate": 2.6306731000303842e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67597992,
      "step": 116475
    },
    {
      "epoch": 17.348823354185285,
      "grad_norm": 0.00039689417462795973,
      "learning_rate": 2.6292223535645507e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67600936,
      "step": 116480
    },
    {
      "epoch": 17.349568066726242,
      "grad_norm": 0.0001931708538904786,
      "learning_rate": 2.627771985030264e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67603720,
      "step": 116485
    },
    {
      "epoch": 17.350312779267203,
      "grad_norm": 0.000541721296031028,
      "learning_rate": 2.6263219944520383e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67606536,
      "step": 116490
    },
    {
      "epoch": 17.351057491808163,
      "grad_norm": 6.747844054189045e-06,
      "learning_rate": 2.6248723818543625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67609480,
      "step": 116495
    },
    {
      "epoch": 17.35180220434912,
      "grad_norm": 0.00031531325657851994,
      "learning_rate": 2.6234231472617276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67612264,
      "step": 116500
    },
    {
      "epoch": 17.35254691689008,
      "grad_norm": 4.628384704119526e-05,
      "learning_rate": 2.6219742906986143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67615048,
      "step": 116505
    },
    {
      "epoch": 17.35329162943104,
      "grad_norm": 7.644938887096941e-05,
      "learning_rate": 2.6205258121894976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67618056,
      "step": 116510
    },
    {
      "epoch": 17.354036341971998,
      "grad_norm": 0.0005404378171078861,
      "learning_rate": 2.619077711758858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67620840,
      "step": 116515
    },
    {
      "epoch": 17.35478105451296,
      "grad_norm": 0.0004257760592736304,
      "learning_rate": 2.6176299894311444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67623688,
      "step": 116520
    },
    {
      "epoch": 17.355525767053916,
      "grad_norm": 0.00020953427883796394,
      "learning_rate": 2.616182645230833e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67626696,
      "step": 116525
    },
    {
      "epoch": 17.356270479594876,
      "grad_norm": 8.162760059349239e-05,
      "learning_rate": 2.614735679182359e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67629576,
      "step": 116530
    },
    {
      "epoch": 17.357015192135837,
      "grad_norm": 3.139593536616303e-05,
      "learning_rate": 2.6132890913101783e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67632648,
      "step": 116535
    },
    {
      "epoch": 17.357759904676794,
      "grad_norm": 0.00021406063751783222,
      "learning_rate": 2.6118428816387265e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67635336,
      "step": 116540
    },
    {
      "epoch": 17.358504617217754,
      "grad_norm": 4.148384505242575e-06,
      "learning_rate": 2.610397050192431e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67638216,
      "step": 116545
    },
    {
      "epoch": 17.359249329758715,
      "grad_norm": 0.00021378460223786533,
      "learning_rate": 2.6089515969957263e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67641128,
      "step": 116550
    },
    {
      "epoch": 17.35999404229967,
      "grad_norm": 0.0004129259323235601,
      "learning_rate": 2.607506522073025e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67643816,
      "step": 116555
    },
    {
      "epoch": 17.360738754840632,
      "grad_norm": 0.00042600202141329646,
      "learning_rate": 2.606061825448744e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67647080,
      "step": 116560
    },
    {
      "epoch": 17.36148346738159,
      "grad_norm": 6.700835365336388e-05,
      "learning_rate": 2.6046175071472835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67649896,
      "step": 116565
    },
    {
      "epoch": 17.36222817992255,
      "grad_norm": 0.0001278296986129135,
      "learning_rate": 2.603173567193054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67653032,
      "step": 116570
    },
    {
      "epoch": 17.36297289246351,
      "grad_norm": 0.0006304794806055725,
      "learning_rate": 2.601730005610442e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67656168,
      "step": 116575
    },
    {
      "epoch": 17.363717605004467,
      "grad_norm": 0.0008306250674650073,
      "learning_rate": 2.6002868224238334e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67658952,
      "step": 116580
    },
    {
      "epoch": 17.364462317545428,
      "grad_norm": 5.67478946322808e-06,
      "learning_rate": 2.5988440176576172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67662184,
      "step": 116585
    },
    {
      "epoch": 17.36520703008639,
      "grad_norm": 0.00021849622135050595,
      "learning_rate": 2.5974015913361597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67665192,
      "step": 116590
    },
    {
      "epoch": 17.365951742627345,
      "grad_norm": 4.799073576577939e-05,
      "learning_rate": 2.5959595434838363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67668136,
      "step": 116595
    },
    {
      "epoch": 17.366696455168306,
      "grad_norm": 3.6758679925696924e-05,
      "learning_rate": 2.594517874125005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67670920,
      "step": 116600
    },
    {
      "epoch": 17.367441167709263,
      "grad_norm": 0.00011812571756308898,
      "learning_rate": 2.5930765832840238e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67673512,
      "step": 116605
    },
    {
      "epoch": 17.368185880250223,
      "grad_norm": 0.00036981204175390303,
      "learning_rate": 2.5916356709852373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67676744,
      "step": 116610
    },
    {
      "epoch": 17.368930592791184,
      "grad_norm": 0.0012214761227369308,
      "learning_rate": 2.5901951372529933e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67679528,
      "step": 116615
    },
    {
      "epoch": 17.36967530533214,
      "grad_norm": 0.0011816747719421983,
      "learning_rate": 2.5887549821116297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67682440,
      "step": 116620
    },
    {
      "epoch": 17.3704200178731,
      "grad_norm": 4.447667015483603e-05,
      "learning_rate": 2.5873152055854694e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67685544,
      "step": 116625
    },
    {
      "epoch": 17.37116473041406,
      "grad_norm": 4.3837262637680396e-05,
      "learning_rate": 2.5858758076988425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67688200,
      "step": 116630
    },
    {
      "epoch": 17.37190944295502,
      "grad_norm": 6.178433977765962e-05,
      "learning_rate": 2.5844367884760577e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67690888,
      "step": 116635
    },
    {
      "epoch": 17.37265415549598,
      "grad_norm": 5.2171581046422943e-05,
      "learning_rate": 2.5829981479414346e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67693960,
      "step": 116640
    },
    {
      "epoch": 17.373398868036936,
      "grad_norm": 9.455371036892757e-05,
      "learning_rate": 2.58155988611927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67696968,
      "step": 116645
    },
    {
      "epoch": 17.374143580577897,
      "grad_norm": 0.0027860193513333797,
      "learning_rate": 2.580122003033872e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67699688,
      "step": 116650
    },
    {
      "epoch": 17.374888293118858,
      "grad_norm": 3.780092447414063e-05,
      "learning_rate": 2.578684498709524e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67702408,
      "step": 116655
    },
    {
      "epoch": 17.375633005659815,
      "grad_norm": 0.002383703598752618,
      "learning_rate": 2.5772473731705106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67705384,
      "step": 116660
    },
    {
      "epoch": 17.376377718200775,
      "grad_norm": 0.00021757351350970566,
      "learning_rate": 2.5758106264411193e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67708488,
      "step": 116665
    },
    {
      "epoch": 17.377122430741732,
      "grad_norm": 0.0006346426089294255,
      "learning_rate": 2.574374258545609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67711560,
      "step": 116670
    },
    {
      "epoch": 17.377867143282693,
      "grad_norm": 0.0009010314242914319,
      "learning_rate": 2.5729382695082572e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67714184,
      "step": 116675
    },
    {
      "epoch": 17.378611855823653,
      "grad_norm": 0.011786248534917831,
      "learning_rate": 2.5715026593533172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67717416,
      "step": 116680
    },
    {
      "epoch": 17.37935656836461,
      "grad_norm": 0.0002863488916773349,
      "learning_rate": 2.5700674281050496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67720200,
      "step": 116685
    },
    {
      "epoch": 17.38010128090557,
      "grad_norm": 3.5719478130340576,
      "learning_rate": 2.568632575787694e-06,
      "loss": 0.0206,
      "num_input_tokens_seen": 67722984,
      "step": 116690
    },
    {
      "epoch": 17.38084599344653,
      "grad_norm": 0.00010309385106666014,
      "learning_rate": 2.567198102425494e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67725736,
      "step": 116695
    },
    {
      "epoch": 17.381590705987488,
      "grad_norm": 0.0004440839111339301,
      "learning_rate": 2.5657640080426815e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67728552,
      "step": 116700
    },
    {
      "epoch": 17.38233541852845,
      "grad_norm": 5.8200770581606776e-05,
      "learning_rate": 2.5643302926634804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67731336,
      "step": 116705
    },
    {
      "epoch": 17.383080131069406,
      "grad_norm": 0.0002011383039643988,
      "learning_rate": 2.562896956312122e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67734216,
      "step": 116710
    },
    {
      "epoch": 17.383824843610366,
      "grad_norm": 4.236961103742942e-06,
      "learning_rate": 2.5614639990128113e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67737032,
      "step": 116715
    },
    {
      "epoch": 17.384569556151327,
      "grad_norm": 2.294780824740883e-05,
      "learning_rate": 2.560031420789763e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67739816,
      "step": 116720
    },
    {
      "epoch": 17.385314268692284,
      "grad_norm": 3.8709858927177265e-06,
      "learning_rate": 2.558599221667174e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67742664,
      "step": 116725
    },
    {
      "epoch": 17.386058981233244,
      "grad_norm": 0.00010313323582522571,
      "learning_rate": 2.557167401669247e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67745576,
      "step": 116730
    },
    {
      "epoch": 17.386803693774205,
      "grad_norm": 0.00020321978081483394,
      "learning_rate": 2.555735960820169e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67748200,
      "step": 116735
    },
    {
      "epoch": 17.38754840631516,
      "grad_norm": 2.4515402401448227e-05,
      "learning_rate": 2.554304899144111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67751176,
      "step": 116740
    },
    {
      "epoch": 17.388293118856122,
      "grad_norm": 0.0001136305509135127,
      "learning_rate": 2.552874216665269e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 67753960,
      "step": 116745
    },
    {
      "epoch": 17.38903783139708,
      "grad_norm": 1.5173513020272367e-05,
      "learning_rate": 2.5514439134077945e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67756584,
      "step": 116750
    },
    {
      "epoch": 17.38978254393804,
      "grad_norm": 8.022053407330532e-06,
      "learning_rate": 2.5500139893958663e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67759816,
      "step": 116755
    },
    {
      "epoch": 17.390527256479,
      "grad_norm": 6.606286660826299e-06,
      "learning_rate": 2.5485844446536316e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 67762536,
      "step": 116760
    },
    {
      "epoch": 17.391271969019957,
      "grad_norm": 1.5611971321050078e-05,
      "learning_rate": 2.5471552792052463e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67765480,
      "step": 116765
    },
    {
      "epoch": 17.392016681560918,
      "grad_norm": 1.8668077245820314e-05,
      "learning_rate": 2.545726493074849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67768168,
      "step": 116770
    },
    {
      "epoch": 17.39276139410188,
      "grad_norm": 0.00023144361330196261,
      "learning_rate": 2.544298086286584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67770824,
      "step": 116775
    },
    {
      "epoch": 17.393506106642835,
      "grad_norm": 1.3885818589187693e-05,
      "learning_rate": 2.54287005886458e-06,
      "loss": 0.0426,
      "num_input_tokens_seen": 67773864,
      "step": 116780
    },
    {
      "epoch": 17.394250819183796,
      "grad_norm": 0.00017973504145629704,
      "learning_rate": 2.541442410832959e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67776552,
      "step": 116785
    },
    {
      "epoch": 17.394995531724753,
      "grad_norm": 0.13198591768741608,
      "learning_rate": 2.540015142215846e-06,
      "loss": 0.0618,
      "num_input_tokens_seen": 67779272,
      "step": 116790
    },
    {
      "epoch": 17.395740244265713,
      "grad_norm": 0.00011560478014871478,
      "learning_rate": 2.5385882530373438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67781992,
      "step": 116795
    },
    {
      "epoch": 17.396484956806674,
      "grad_norm": 0.00040850567165762186,
      "learning_rate": 2.53716174332157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67784840,
      "step": 116800
    },
    {
      "epoch": 17.39722966934763,
      "grad_norm": 0.0001700680295471102,
      "learning_rate": 2.535735613092613e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67787816,
      "step": 116805
    },
    {
      "epoch": 17.39797438188859,
      "grad_norm": 0.0005505493027158082,
      "learning_rate": 2.5343098623745787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67790824,
      "step": 116810
    },
    {
      "epoch": 17.39871909442955,
      "grad_norm": 8.8331771621597e-06,
      "learning_rate": 2.532884491191542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67793544,
      "step": 116815
    },
    {
      "epoch": 17.39946380697051,
      "grad_norm": 0.00010446060332469642,
      "learning_rate": 2.5314594995675845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67796328,
      "step": 116820
    },
    {
      "epoch": 17.40020851951147,
      "grad_norm": 0.0003114825231023133,
      "learning_rate": 2.530034887526789e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67799304,
      "step": 116825
    },
    {
      "epoch": 17.400953232052427,
      "grad_norm": 0.0004695662937592715,
      "learning_rate": 2.5286106550932164e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67802344,
      "step": 116830
    },
    {
      "epoch": 17.401697944593387,
      "grad_norm": 8.169539796654135e-05,
      "learning_rate": 2.527186802290926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67805064,
      "step": 116835
    },
    {
      "epoch": 17.402442657134348,
      "grad_norm": 4.256223292031791e-06,
      "learning_rate": 2.525763329143971e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67808168,
      "step": 116840
    },
    {
      "epoch": 17.403187369675305,
      "grad_norm": 7.858190656406805e-06,
      "learning_rate": 2.5243402356764063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67811144,
      "step": 116845
    },
    {
      "epoch": 17.403932082216265,
      "grad_norm": 2.936912096629385e-05,
      "learning_rate": 2.522917521912266e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67814088,
      "step": 116850
    },
    {
      "epoch": 17.404676794757222,
      "grad_norm": 1.0562056559138e-05,
      "learning_rate": 2.5214951878755944e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67817032,
      "step": 116855
    },
    {
      "epoch": 17.405421507298183,
      "grad_norm": 8.96318942977814e-06,
      "learning_rate": 2.520073233590414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67819784,
      "step": 116860
    },
    {
      "epoch": 17.406166219839143,
      "grad_norm": 5.047245940659195e-05,
      "learning_rate": 2.5186516590807453e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67822920,
      "step": 116865
    },
    {
      "epoch": 17.4069109323801,
      "grad_norm": 0.0002551967045292258,
      "learning_rate": 2.5172304643706123e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67826120,
      "step": 116870
    },
    {
      "epoch": 17.40765564492106,
      "grad_norm": 3.928825855255127,
      "learning_rate": 2.515809649484016e-06,
      "loss": 0.0208,
      "num_input_tokens_seen": 67829160,
      "step": 116875
    },
    {
      "epoch": 17.40840035746202,
      "grad_norm": 4.755204827233683e-06,
      "learning_rate": 2.5143892144449676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67832072,
      "step": 116880
    },
    {
      "epoch": 17.409145070002978,
      "grad_norm": 8.87294445419684e-05,
      "learning_rate": 2.512969159277459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67834984,
      "step": 116885
    },
    {
      "epoch": 17.40988978254394,
      "grad_norm": 2.248891905765049e-05,
      "learning_rate": 2.511549484005485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67838184,
      "step": 116890
    },
    {
      "epoch": 17.410634495084896,
      "grad_norm": 2.502660936443135e-05,
      "learning_rate": 2.5101301886530177e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67840968,
      "step": 116895
    },
    {
      "epoch": 17.411379207625856,
      "grad_norm": 4.574894410325214e-05,
      "learning_rate": 2.508711273244052e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67844008,
      "step": 116900
    },
    {
      "epoch": 17.412123920166817,
      "grad_norm": 0.0003204240638297051,
      "learning_rate": 2.5072927378025467e-06,
      "loss": 0.0917,
      "num_input_tokens_seen": 67846856,
      "step": 116905
    },
    {
      "epoch": 17.412868632707774,
      "grad_norm": 6.768337334506214e-05,
      "learning_rate": 2.505874582352466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67849672,
      "step": 116910
    },
    {
      "epoch": 17.413613345248734,
      "grad_norm": 0.0309754665941,
      "learning_rate": 2.5044568069177794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67852616,
      "step": 116915
    },
    {
      "epoch": 17.414358057789695,
      "grad_norm": 0.00016326057084370404,
      "learning_rate": 2.503039411522423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67855720,
      "step": 116920
    },
    {
      "epoch": 17.415102770330652,
      "grad_norm": 0.009097752161324024,
      "learning_rate": 2.501622396190359e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 67858472,
      "step": 116925
    },
    {
      "epoch": 17.415847482871612,
      "grad_norm": 0.0064801787957549095,
      "learning_rate": 2.500205760945512e-06,
      "loss": 0.0703,
      "num_input_tokens_seen": 67861512,
      "step": 116930
    },
    {
      "epoch": 17.41659219541257,
      "grad_norm": 3.8115354982437566e-05,
      "learning_rate": 2.4987895058118244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67864488,
      "step": 116935
    },
    {
      "epoch": 17.41733690795353,
      "grad_norm": 0.0016843543853610754,
      "learning_rate": 2.4973736308132214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67867496,
      "step": 116940
    },
    {
      "epoch": 17.41808162049449,
      "grad_norm": 0.00015436418470926583,
      "learning_rate": 2.4959581359736137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67870664,
      "step": 116945
    },
    {
      "epoch": 17.418826333035447,
      "grad_norm": 6.895987098687328e-06,
      "learning_rate": 2.494543021316928e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67873384,
      "step": 116950
    },
    {
      "epoch": 17.419571045576408,
      "grad_norm": 40.60027313232422,
      "learning_rate": 2.4931282868670634e-06,
      "loss": 0.0376,
      "num_input_tokens_seen": 67876616,
      "step": 116955
    },
    {
      "epoch": 17.42031575811737,
      "grad_norm": 0.0001455644378438592,
      "learning_rate": 2.4917139326479213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67879816,
      "step": 116960
    },
    {
      "epoch": 17.421060470658325,
      "grad_norm": 2.0690929886768572e-05,
      "learning_rate": 2.4902999586833897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67882952,
      "step": 116965
    },
    {
      "epoch": 17.421805183199286,
      "grad_norm": 0.0002682213962543756,
      "learning_rate": 2.48888636499737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67886920,
      "step": 116970
    },
    {
      "epoch": 17.422549895740243,
      "grad_norm": 1.3030537957092747e-05,
      "learning_rate": 2.4874731516137283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67889704,
      "step": 116975
    },
    {
      "epoch": 17.423294608281203,
      "grad_norm": 1.5142674783419352e-05,
      "learning_rate": 2.486060318556352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67892584,
      "step": 116980
    },
    {
      "epoch": 17.424039320822164,
      "grad_norm": 4.398056989884935e-05,
      "learning_rate": 2.4846478658491075e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67895336,
      "step": 116985
    },
    {
      "epoch": 17.42478403336312,
      "grad_norm": 3.182377258781344e-05,
      "learning_rate": 2.483235793515845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67898152,
      "step": 116990
    },
    {
      "epoch": 17.42552874590408,
      "grad_norm": 2.9149297915864736e-05,
      "learning_rate": 2.4818241015804376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67900712,
      "step": 116995
    },
    {
      "epoch": 17.42627345844504,
      "grad_norm": 0.0003579686162993312,
      "learning_rate": 2.480412790066719e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67903464,
      "step": 117000
    },
    {
      "epoch": 17.427018170986,
      "grad_norm": 9.585407497070264e-06,
      "learning_rate": 2.479001858998542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67906472,
      "step": 117005
    },
    {
      "epoch": 17.42776288352696,
      "grad_norm": 9.817731552175246e-06,
      "learning_rate": 2.4775913083997348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67909608,
      "step": 117010
    },
    {
      "epoch": 17.428507596067917,
      "grad_norm": 1.3191217476560269e-05,
      "learning_rate": 2.476181138294137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67912296,
      "step": 117015
    },
    {
      "epoch": 17.429252308608877,
      "grad_norm": 8.051663826336153e-06,
      "learning_rate": 2.474771348705568e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67915080,
      "step": 117020
    },
    {
      "epoch": 17.429997021149838,
      "grad_norm": 0.000514600716996938,
      "learning_rate": 2.4733619396578422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67917864,
      "step": 117025
    },
    {
      "epoch": 17.430741733690795,
      "grad_norm": 4.056749457959086e-05,
      "learning_rate": 2.4719529111747715e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67920424,
      "step": 117030
    },
    {
      "epoch": 17.431486446231755,
      "grad_norm": 0.002022949978709221,
      "learning_rate": 2.470544263280153e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67923528,
      "step": 117035
    },
    {
      "epoch": 17.432231158772712,
      "grad_norm": 0.0002710266853682697,
      "learning_rate": 2.4691359959977985e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67926504,
      "step": 117040
    },
    {
      "epoch": 17.432975871313673,
      "grad_norm": 5.879297532374039e-05,
      "learning_rate": 2.467728109351486e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67929512,
      "step": 117045
    },
    {
      "epoch": 17.433720583854633,
      "grad_norm": 0.00014896242646500468,
      "learning_rate": 2.466320603365013e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 67932488,
      "step": 117050
    },
    {
      "epoch": 17.43446529639559,
      "grad_norm": 4.973610703018494e-05,
      "learning_rate": 2.4649134780621446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67935432,
      "step": 117055
    },
    {
      "epoch": 17.43521000893655,
      "grad_norm": 8.261154289357364e-05,
      "learning_rate": 2.463506733466667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67938216,
      "step": 117060
    },
    {
      "epoch": 17.43595472147751,
      "grad_norm": 0.00020921608665958047,
      "learning_rate": 2.4621003696023354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67941096,
      "step": 117065
    },
    {
      "epoch": 17.43669943401847,
      "grad_norm": 0.00028171183657832444,
      "learning_rate": 2.4606943864929064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67943784,
      "step": 117070
    },
    {
      "epoch": 17.43744414655943,
      "grad_norm": 1.894617162179202e-05,
      "learning_rate": 2.459288784162142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67946536,
      "step": 117075
    },
    {
      "epoch": 17.438188859100386,
      "grad_norm": 1.429720487067243e-05,
      "learning_rate": 2.457883562633781e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67949480,
      "step": 117080
    },
    {
      "epoch": 17.438933571641346,
      "grad_norm": 9.096188477997202e-06,
      "learning_rate": 2.456478721931571e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67952200,
      "step": 117085
    },
    {
      "epoch": 17.439678284182307,
      "grad_norm": 0.00019078745390288532,
      "learning_rate": 2.4550742620792404e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67955304,
      "step": 117090
    },
    {
      "epoch": 17.440422996723264,
      "grad_norm": 0.00013128036516718566,
      "learning_rate": 2.4536701831005177e-06,
      "loss": 0.2125,
      "num_input_tokens_seen": 67958152,
      "step": 117095
    },
    {
      "epoch": 17.441167709264224,
      "grad_norm": 3.806560562225059e-05,
      "learning_rate": 2.4522664850191223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67961096,
      "step": 117100
    },
    {
      "epoch": 17.441912421805185,
      "grad_norm": 9.491916716797277e-05,
      "learning_rate": 2.4508631678587635e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67964040,
      "step": 117105
    },
    {
      "epoch": 17.442657134346142,
      "grad_norm": 0.0008638032013550401,
      "learning_rate": 2.4494602316431554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67966696,
      "step": 117110
    },
    {
      "epoch": 17.443401846887102,
      "grad_norm": 0.0010256888344883919,
      "learning_rate": 2.4480576763959956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67970088,
      "step": 117115
    },
    {
      "epoch": 17.44414655942806,
      "grad_norm": 0.00013892508286517113,
      "learning_rate": 2.4466555021409848e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67972744,
      "step": 117120
    },
    {
      "epoch": 17.44489127196902,
      "grad_norm": 0.0006786261219531298,
      "learning_rate": 2.445253708901801e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67975688,
      "step": 117125
    },
    {
      "epoch": 17.44563598450998,
      "grad_norm": 1.322858952335082e-05,
      "learning_rate": 2.443852296702137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67978792,
      "step": 117130
    },
    {
      "epoch": 17.446380697050937,
      "grad_norm": 7.149259181460366e-05,
      "learning_rate": 2.4424512655656597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67981448,
      "step": 117135
    },
    {
      "epoch": 17.447125409591898,
      "grad_norm": 0.0004899219493381679,
      "learning_rate": 2.4410506155160467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67984328,
      "step": 117140
    },
    {
      "epoch": 17.447870122132855,
      "grad_norm": 0.00014574411034118384,
      "learning_rate": 2.439650346576955e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67987272,
      "step": 117145
    },
    {
      "epoch": 17.448614834673815,
      "grad_norm": 0.00062355468980968,
      "learning_rate": 2.438250458772037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67990184,
      "step": 117150
    },
    {
      "epoch": 17.449359547214776,
      "grad_norm": 0.0006072389078326523,
      "learning_rate": 2.436850952124953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67992808,
      "step": 117155
    },
    {
      "epoch": 17.450104259755733,
      "grad_norm": 5.490006060426822e-06,
      "learning_rate": 2.435451826659338e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67995976,
      "step": 117160
    },
    {
      "epoch": 17.450848972296694,
      "grad_norm": 0.0005933553329668939,
      "learning_rate": 2.4340530823988292e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 67998728,
      "step": 117165
    },
    {
      "epoch": 17.451593684837654,
      "grad_norm": 2.931721246568486e-05,
      "learning_rate": 2.4326547193670556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68001384,
      "step": 117170
    },
    {
      "epoch": 17.45233839737861,
      "grad_norm": 1.8403175999992527e-05,
      "learning_rate": 2.4312567375876503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68004040,
      "step": 117175
    },
    {
      "epoch": 17.45308310991957,
      "grad_norm": 0.00041962688555940986,
      "learning_rate": 2.4298591370842227e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68006952,
      "step": 117180
    },
    {
      "epoch": 17.45382782246053,
      "grad_norm": 3.9681734051555395e-05,
      "learning_rate": 2.4284619178803814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68009608,
      "step": 117185
    },
    {
      "epoch": 17.45457253500149,
      "grad_norm": 1.0125559128937311e-05,
      "learning_rate": 2.427065079999741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68012520,
      "step": 117190
    },
    {
      "epoch": 17.45531724754245,
      "grad_norm": 0.0003412005607970059,
      "learning_rate": 2.4256686234658877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68015304,
      "step": 117195
    },
    {
      "epoch": 17.456061960083407,
      "grad_norm": 0.00019718865223694593,
      "learning_rate": 2.4242725483024252e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68018120,
      "step": 117200
    },
    {
      "epoch": 17.456806672624367,
      "grad_norm": 19.287736892700195,
      "learning_rate": 2.4228768545329267e-06,
      "loss": 0.0132,
      "num_input_tokens_seen": 68021480,
      "step": 117205
    },
    {
      "epoch": 17.457551385165328,
      "grad_norm": 0.0003451322263572365,
      "learning_rate": 2.421481542180984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68024360,
      "step": 117210
    },
    {
      "epoch": 17.458296097706285,
      "grad_norm": 3.277810537838377e-05,
      "learning_rate": 2.4200866112701643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68027624,
      "step": 117215
    },
    {
      "epoch": 17.459040810247245,
      "grad_norm": 0.0005051795742474496,
      "learning_rate": 2.4186920618240294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68030568,
      "step": 117220
    },
    {
      "epoch": 17.459785522788202,
      "grad_norm": 0.0005040378891862929,
      "learning_rate": 2.417297893866138e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68033416,
      "step": 117225
    },
    {
      "epoch": 17.460530235329163,
      "grad_norm": 2.9732695111306384e-05,
      "learning_rate": 2.41590410742005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68036424,
      "step": 117230
    },
    {
      "epoch": 17.461274947870123,
      "grad_norm": 0.00021231206483207643,
      "learning_rate": 2.4145107025093095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68039432,
      "step": 117235
    },
    {
      "epoch": 17.46201966041108,
      "grad_norm": 0.000282427849015221,
      "learning_rate": 2.4131176791574504e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68042120,
      "step": 117240
    },
    {
      "epoch": 17.46276437295204,
      "grad_norm": 2.2175981939653866e-05,
      "learning_rate": 2.4117250373880184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68044904,
      "step": 117245
    },
    {
      "epoch": 17.463509085493,
      "grad_norm": 5.771371434093453e-05,
      "learning_rate": 2.4103327772245275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68047976,
      "step": 117250
    },
    {
      "epoch": 17.46425379803396,
      "grad_norm": 6.512801337521523e-05,
      "learning_rate": 2.408940898690512e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68051112,
      "step": 117255
    },
    {
      "epoch": 17.46499851057492,
      "grad_norm": 3.6058299883734435e-05,
      "learning_rate": 2.407549401809478e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68054184,
      "step": 117260
    },
    {
      "epoch": 17.465743223115876,
      "grad_norm": 0.00019305998284835368,
      "learning_rate": 2.4061582866049285e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68056936,
      "step": 117265
    },
    {
      "epoch": 17.466487935656836,
      "grad_norm": 0.00015588753740303218,
      "learning_rate": 2.4047675531003787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68059880,
      "step": 117270
    },
    {
      "epoch": 17.467232648197797,
      "grad_norm": 8.662928848934826e-06,
      "learning_rate": 2.4033772013193123e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68062824,
      "step": 117275
    },
    {
      "epoch": 17.467977360738754,
      "grad_norm": 0.0003534354327712208,
      "learning_rate": 2.4019872312852244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68065224,
      "step": 117280
    },
    {
      "epoch": 17.468722073279714,
      "grad_norm": 9.318206139141694e-06,
      "learning_rate": 2.400597643021596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68068200,
      "step": 117285
    },
    {
      "epoch": 17.469466785820675,
      "grad_norm": 3.868706335197203e-05,
      "learning_rate": 2.3992084365519004e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68071144,
      "step": 117290
    },
    {
      "epoch": 17.470211498361632,
      "grad_norm": 0.00023334383149631321,
      "learning_rate": 2.3978196118996043e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68074216,
      "step": 117295
    },
    {
      "epoch": 17.470956210902592,
      "grad_norm": 6.258655048441142e-05,
      "learning_rate": 2.3964311690881786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68077256,
      "step": 117300
    },
    {
      "epoch": 17.47170092344355,
      "grad_norm": 0.00012538029113784432,
      "learning_rate": 2.3950431081410734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68080232,
      "step": 117305
    },
    {
      "epoch": 17.47244563598451,
      "grad_norm": 8.466155122732744e-05,
      "learning_rate": 2.393655429081737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68083432,
      "step": 117310
    },
    {
      "epoch": 17.47319034852547,
      "grad_norm": 1.473058910050895e-05,
      "learning_rate": 2.3922681319336197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68086440,
      "step": 117315
    },
    {
      "epoch": 17.473935061066427,
      "grad_norm": 0.00022725474264007062,
      "learning_rate": 2.3908812167201532e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68089192,
      "step": 117320
    },
    {
      "epoch": 17.474679773607388,
      "grad_norm": 0.00023829283600207418,
      "learning_rate": 2.3894946834647713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68092200,
      "step": 117325
    },
    {
      "epoch": 17.47542448614835,
      "grad_norm": 0.00010188730084337294,
      "learning_rate": 2.3881085321908912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68095432,
      "step": 117330
    },
    {
      "epoch": 17.476169198689306,
      "grad_norm": 0.000123955964227207,
      "learning_rate": 2.3867227629219417e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68098376,
      "step": 117335
    },
    {
      "epoch": 17.476913911230266,
      "grad_norm": 2.607151327538304e-05,
      "learning_rate": 2.385337375681329e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68101352,
      "step": 117340
    },
    {
      "epoch": 17.477658623771223,
      "grad_norm": 0.00020424413378350437,
      "learning_rate": 2.383952370492451e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68104104,
      "step": 117345
    },
    {
      "epoch": 17.478403336312184,
      "grad_norm": 5.905477155465633e-05,
      "learning_rate": 2.3825677473787168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68106984,
      "step": 117350
    },
    {
      "epoch": 17.479148048853144,
      "grad_norm": 0.00097965681925416,
      "learning_rate": 2.381183506363513e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68110248,
      "step": 117355
    },
    {
      "epoch": 17.4798927613941,
      "grad_norm": 0.00017786482931114733,
      "learning_rate": 2.3797996474702267e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68113320,
      "step": 117360
    },
    {
      "epoch": 17.48063747393506,
      "grad_norm": 0.009491764940321445,
      "learning_rate": 2.378416170722228e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68116232,
      "step": 117365
    },
    {
      "epoch": 17.48138218647602,
      "grad_norm": 3.9562786696478724e-05,
      "learning_rate": 2.3770330761429012e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 68119368,
      "step": 117370
    },
    {
      "epoch": 17.48212689901698,
      "grad_norm": 2.5180250304401852e-05,
      "learning_rate": 2.375650363755605e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68122504,
      "step": 117375
    },
    {
      "epoch": 17.48287161155794,
      "grad_norm": 0.0002083800354739651,
      "learning_rate": 2.3742680335837042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68125352,
      "step": 117380
    },
    {
      "epoch": 17.483616324098897,
      "grad_norm": 2.0082528862985782e-05,
      "learning_rate": 2.3728860856505526e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68128008,
      "step": 117385
    },
    {
      "epoch": 17.484361036639857,
      "grad_norm": 5.408038123277947e-05,
      "learning_rate": 2.371504519979484e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68130696,
      "step": 117390
    },
    {
      "epoch": 17.485105749180818,
      "grad_norm": 1.3751338883594144e-05,
      "learning_rate": 2.3701233365938547e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 68133384,
      "step": 117395
    },
    {
      "epoch": 17.485850461721775,
      "grad_norm": 2.5984825697378255e-05,
      "learning_rate": 2.368742535516988e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68136424,
      "step": 117400
    },
    {
      "epoch": 17.486595174262735,
      "grad_norm": 1.0334739272366278e-05,
      "learning_rate": 2.3673621167722202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68139176,
      "step": 117405
    },
    {
      "epoch": 17.487339886803692,
      "grad_norm": 3.342553827678785e-05,
      "learning_rate": 2.3659820803828586e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68141928,
      "step": 117410
    },
    {
      "epoch": 17.488084599344653,
      "grad_norm": 5.782897278550081e-05,
      "learning_rate": 2.364602426372234e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68145000,
      "step": 117415
    },
    {
      "epoch": 17.488829311885613,
      "grad_norm": 1.8906690456788056e-05,
      "learning_rate": 2.3632231547636443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68147848,
      "step": 117420
    },
    {
      "epoch": 17.48957402442657,
      "grad_norm": 0.0033862506970763206,
      "learning_rate": 2.3618442655803903e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68150760,
      "step": 117425
    },
    {
      "epoch": 17.49031873696753,
      "grad_norm": 8.30219651106745e-05,
      "learning_rate": 2.36046575884577e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68153704,
      "step": 117430
    },
    {
      "epoch": 17.49106344950849,
      "grad_norm": 0.0002855130296666175,
      "learning_rate": 2.359087634583068e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 68156712,
      "step": 117435
    },
    {
      "epoch": 17.49180816204945,
      "grad_norm": 8.30219651106745e-05,
      "learning_rate": 2.357709892815574e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68159816,
      "step": 117440
    },
    {
      "epoch": 17.49255287459041,
      "grad_norm": 0.00019987237465102226,
      "learning_rate": 2.356332533566552e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68162920,
      "step": 117445
    },
    {
      "epoch": 17.493297587131366,
      "grad_norm": 0.0007272032089531422,
      "learning_rate": 2.354955556859284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68166056,
      "step": 117450
    },
    {
      "epoch": 17.494042299672326,
      "grad_norm": 0.0003029883373528719,
      "learning_rate": 2.3535789627170205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68168936,
      "step": 117455
    },
    {
      "epoch": 17.494787012213287,
      "grad_norm": 5.564394450630061e-05,
      "learning_rate": 2.3522027511630297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68171720,
      "step": 117460
    },
    {
      "epoch": 17.495531724754244,
      "grad_norm": 9.68414587987354e-06,
      "learning_rate": 2.350826922220553e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68174568,
      "step": 117465
    },
    {
      "epoch": 17.496276437295204,
      "grad_norm": 9.565960681356955e-06,
      "learning_rate": 2.349451475912834e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68177704,
      "step": 117470
    },
    {
      "epoch": 17.497021149836165,
      "grad_norm": 0.00019424365018494427,
      "learning_rate": 2.3480764122631143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68180520,
      "step": 117475
    },
    {
      "epoch": 17.497765862377122,
      "grad_norm": 0.000423437129938975,
      "learning_rate": 2.3467017312946175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68183368,
      "step": 117480
    },
    {
      "epoch": 17.498510574918082,
      "grad_norm": 0.0021822939161211252,
      "learning_rate": 2.345327433030575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68186152,
      "step": 117485
    },
    {
      "epoch": 17.49925528745904,
      "grad_norm": 1.6824926206027158e-05,
      "learning_rate": 2.343953517494202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68189064,
      "step": 117490
    },
    {
      "epoch": 17.5,
      "grad_norm": 5.2013507229276e-05,
      "learning_rate": 2.3425799847087066e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68191976,
      "step": 117495
    },
    {
      "epoch": 17.50074471254096,
      "grad_norm": 1.6813079128041863e-05,
      "learning_rate": 2.341206834697288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68194632,
      "step": 117500
    },
    {
      "epoch": 17.501489425081918,
      "grad_norm": 0.0023792420979589224,
      "learning_rate": 2.339834067483157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68197480,
      "step": 117505
    },
    {
      "epoch": 17.502234137622878,
      "grad_norm": 4.511221959546674e-06,
      "learning_rate": 2.338461683089499e-06,
      "loss": 0.0766,
      "num_input_tokens_seen": 68200520,
      "step": 117510
    },
    {
      "epoch": 17.502978850163835,
      "grad_norm": 5.8584821090335026e-05,
      "learning_rate": 2.337089681539495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68203336,
      "step": 117515
    },
    {
      "epoch": 17.503723562704796,
      "grad_norm": 2.552745627326658e-06,
      "learning_rate": 2.335718062856329e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68206376,
      "step": 117520
    },
    {
      "epoch": 17.504468275245756,
      "grad_norm": 1.59122864715755e-05,
      "learning_rate": 2.334346827063169e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68209160,
      "step": 117525
    },
    {
      "epoch": 17.505212987786713,
      "grad_norm": 0.00019676158262882382,
      "learning_rate": 2.332975974183185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68212168,
      "step": 117530
    },
    {
      "epoch": 17.505957700327674,
      "grad_norm": 0.002037712140008807,
      "learning_rate": 2.331605504239534e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68214760,
      "step": 117535
    },
    {
      "epoch": 17.506702412868634,
      "grad_norm": 6.0457958170445636e-05,
      "learning_rate": 2.330235417255369e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68217480,
      "step": 117540
    },
    {
      "epoch": 17.50744712540959,
      "grad_norm": 0.0010643349960446358,
      "learning_rate": 2.3288657132538387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68220360,
      "step": 117545
    },
    {
      "epoch": 17.50819183795055,
      "grad_norm": 0.00016701119602657855,
      "learning_rate": 2.32749639225808e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68223112,
      "step": 117550
    },
    {
      "epoch": 17.50893655049151,
      "grad_norm": 0.0007085033576004207,
      "learning_rate": 2.3261274542912213e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68225896,
      "step": 117555
    },
    {
      "epoch": 17.50968126303247,
      "grad_norm": 2.183683136536274e-05,
      "learning_rate": 2.3247588993764e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68228360,
      "step": 117560
    },
    {
      "epoch": 17.51042597557343,
      "grad_norm": 4.578922380460426e-05,
      "learning_rate": 2.3233907275367283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68231176,
      "step": 117565
    },
    {
      "epoch": 17.511170688114387,
      "grad_norm": 0.0001549490261822939,
      "learning_rate": 2.3220229387953207e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68233992,
      "step": 117570
    },
    {
      "epoch": 17.511915400655347,
      "grad_norm": 0.0014041217509657145,
      "learning_rate": 2.3206555331752922e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68236904,
      "step": 117575
    },
    {
      "epoch": 17.512660113196308,
      "grad_norm": 0.0006302306428551674,
      "learning_rate": 2.3192885106997327e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68239752,
      "step": 117580
    },
    {
      "epoch": 17.513404825737265,
      "grad_norm": 0.0005428598378784955,
      "learning_rate": 2.3179218713917456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68242536,
      "step": 117585
    },
    {
      "epoch": 17.514149538278225,
      "grad_norm": 3.585444574127905e-05,
      "learning_rate": 2.3165556152744154e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68245288,
      "step": 117590
    },
    {
      "epoch": 17.514894250819182,
      "grad_norm": 0.00011035065836040303,
      "learning_rate": 2.3151897423708214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68248200,
      "step": 117595
    },
    {
      "epoch": 17.515638963360143,
      "grad_norm": 1.2392386452120263e-05,
      "learning_rate": 2.3138242527040416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68250920,
      "step": 117600
    },
    {
      "epoch": 17.516383675901103,
      "grad_norm": 1.3690190826309845e-05,
      "learning_rate": 2.3124591462971414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68253832,
      "step": 117605
    },
    {
      "epoch": 17.51712838844206,
      "grad_norm": 1.2156728189438581e-05,
      "learning_rate": 2.3110944231731907e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68256712,
      "step": 117610
    },
    {
      "epoch": 17.51787310098302,
      "grad_norm": 7.58833994041197e-05,
      "learning_rate": 2.309730083355238e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68259624,
      "step": 117615
    },
    {
      "epoch": 17.51861781352398,
      "grad_norm": 4.4835760490968823e-05,
      "learning_rate": 2.3083661268663376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68262248,
      "step": 117620
    },
    {
      "epoch": 17.51936252606494,
      "grad_norm": 0.0001429314725100994,
      "learning_rate": 2.3070025537295257e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68265128,
      "step": 117625
    },
    {
      "epoch": 17.5201072386059,
      "grad_norm": 0.008840926922857761,
      "learning_rate": 2.3056393639678374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68267944,
      "step": 117630
    },
    {
      "epoch": 17.520851951146856,
      "grad_norm": 2.2116360923973843e-05,
      "learning_rate": 2.3042765576043124e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68270760,
      "step": 117635
    },
    {
      "epoch": 17.521596663687816,
      "grad_norm": 5.2998522733105347e-05,
      "learning_rate": 2.3029141346619624e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68273448,
      "step": 117640
    },
    {
      "epoch": 17.522341376228777,
      "grad_norm": 0.00010273901716573164,
      "learning_rate": 2.301552095163814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68276104,
      "step": 117645
    },
    {
      "epoch": 17.523086088769734,
      "grad_norm": 0.00032617003307677805,
      "learning_rate": 2.3001904391328683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68278760,
      "step": 117650
    },
    {
      "epoch": 17.523830801310694,
      "grad_norm": 0.003314638277515769,
      "learning_rate": 2.2988291665921396e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68281576,
      "step": 117655
    },
    {
      "epoch": 17.52457551385165,
      "grad_norm": 0.0004214071959722787,
      "learning_rate": 2.2974682775646157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68284488,
      "step": 117660
    },
    {
      "epoch": 17.525320226392612,
      "grad_norm": 2.4392253180849366e-05,
      "learning_rate": 2.2961077720732943e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68287080,
      "step": 117665
    },
    {
      "epoch": 17.526064938933573,
      "grad_norm": 0.00021465789177455008,
      "learning_rate": 2.2947476501411573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68290088,
      "step": 117670
    },
    {
      "epoch": 17.52680965147453,
      "grad_norm": 0.0002908404276240617,
      "learning_rate": 2.293387911791178e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 68293032,
      "step": 117675
    },
    {
      "epoch": 17.52755436401549,
      "grad_norm": 0.00034668357693590224,
      "learning_rate": 2.2920285570463386e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68295912,
      "step": 117680
    },
    {
      "epoch": 17.52829907655645,
      "grad_norm": 5.258912278804928e-05,
      "learning_rate": 2.2906695859295946e-06,
      "loss": 0.0047,
      "num_input_tokens_seen": 68298856,
      "step": 117685
    },
    {
      "epoch": 17.529043789097408,
      "grad_norm": 7.367751823039725e-05,
      "learning_rate": 2.2893109984639086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68301352,
      "step": 117690
    },
    {
      "epoch": 17.529788501638368,
      "grad_norm": 2.9050250304862857e-05,
      "learning_rate": 2.287952794672227e-06,
      "loss": 0.0038,
      "num_input_tokens_seen": 68304328,
      "step": 117695
    },
    {
      "epoch": 17.530533214179325,
      "grad_norm": 0.003680673660710454,
      "learning_rate": 2.2865949745775024e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68307688,
      "step": 117700
    },
    {
      "epoch": 17.531277926720286,
      "grad_norm": 3.2521463708690135e-06,
      "learning_rate": 2.2852375382026727e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68310312,
      "step": 117705
    },
    {
      "epoch": 17.532022639261246,
      "grad_norm": 0.0013224880676716566,
      "learning_rate": 2.2838804855706606e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68313032,
      "step": 117710
    },
    {
      "epoch": 17.532767351802203,
      "grad_norm": 0.000580290739890188,
      "learning_rate": 2.282523816704407e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68316040,
      "step": 117715
    },
    {
      "epoch": 17.533512064343164,
      "grad_norm": 0.00010001508780987933,
      "learning_rate": 2.2811675316268212e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68318856,
      "step": 117720
    },
    {
      "epoch": 17.534256776884124,
      "grad_norm": 3.490125891403295e-05,
      "learning_rate": 2.279811630360823e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68321704,
      "step": 117725
    },
    {
      "epoch": 17.53500148942508,
      "grad_norm": 4.227734461892396e-05,
      "learning_rate": 2.2784561129293086e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 68324584,
      "step": 117730
    },
    {
      "epoch": 17.53574620196604,
      "grad_norm": 5.1551520300563425e-05,
      "learning_rate": 2.2771009793551927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68327208,
      "step": 117735
    },
    {
      "epoch": 17.536490914507,
      "grad_norm": 7.177063525887206e-05,
      "learning_rate": 2.275746229661355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68329864,
      "step": 117740
    },
    {
      "epoch": 17.53723562704796,
      "grad_norm": 2.886501169996336e-05,
      "learning_rate": 2.2743918638706952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68332488,
      "step": 117745
    },
    {
      "epoch": 17.53798033958892,
      "grad_norm": 0.0010551025625318289,
      "learning_rate": 2.2730378820060847e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68335432,
      "step": 117750
    },
    {
      "epoch": 17.538725052129877,
      "grad_norm": 0.0001401800982421264,
      "learning_rate": 2.271684284090403e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68338312,
      "step": 117755
    },
    {
      "epoch": 17.539469764670837,
      "grad_norm": 0.005443895235657692,
      "learning_rate": 2.270331070146514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68341352,
      "step": 117760
    },
    {
      "epoch": 17.540214477211798,
      "grad_norm": 0.0006479437579400837,
      "learning_rate": 2.2689782401972783e-06,
      "loss": 0.0861,
      "num_input_tokens_seen": 68344360,
      "step": 117765
    },
    {
      "epoch": 17.540959189752755,
      "grad_norm": 0.00043642541277222335,
      "learning_rate": 2.2676257942655544e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68347432,
      "step": 117770
    },
    {
      "epoch": 17.541703902293715,
      "grad_norm": 2.6138757675653324e-05,
      "learning_rate": 2.266273732374183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68350184,
      "step": 117775
    },
    {
      "epoch": 17.542448614834672,
      "grad_norm": 2.1104702682350762e-05,
      "learning_rate": 2.2649220545460176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68353000,
      "step": 117780
    },
    {
      "epoch": 17.543193327375633,
      "grad_norm": 5.702771886717528e-05,
      "learning_rate": 2.2635707608038877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68355720,
      "step": 117785
    },
    {
      "epoch": 17.543938039916593,
      "grad_norm": 0.005471452604979277,
      "learning_rate": 2.262219851170616e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68358536,
      "step": 117790
    },
    {
      "epoch": 17.54468275245755,
      "grad_norm": 8.82987842487637e-06,
      "learning_rate": 2.260869325669035e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68361192,
      "step": 117795
    },
    {
      "epoch": 17.54542746499851,
      "grad_norm": 0.0002980946737807244,
      "learning_rate": 2.259519184321951e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68364136,
      "step": 117800
    },
    {
      "epoch": 17.54617217753947,
      "grad_norm": 4.51710402558092e-05,
      "learning_rate": 2.2581694271521817e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68367144,
      "step": 117805
    },
    {
      "epoch": 17.54691689008043,
      "grad_norm": 0.00012260739458724856,
      "learning_rate": 2.2568200541825236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68370216,
      "step": 117810
    },
    {
      "epoch": 17.54766160262139,
      "grad_norm": 2.354300522711128e-05,
      "learning_rate": 2.2554710654357796e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68373096,
      "step": 117815
    },
    {
      "epoch": 17.548406315162346,
      "grad_norm": 5.775934550911188e-05,
      "learning_rate": 2.254122460934735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68376040,
      "step": 117820
    },
    {
      "epoch": 17.549151027703306,
      "grad_norm": 0.00012490044173318893,
      "learning_rate": 2.2527742407021742e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68378856,
      "step": 117825
    },
    {
      "epoch": 17.549895740244267,
      "grad_norm": 0.00014450307935476303,
      "learning_rate": 2.251426404760873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68382024,
      "step": 117830
    },
    {
      "epoch": 17.550640452785224,
      "grad_norm": 3.210212162230164e-05,
      "learning_rate": 2.250078953133597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68385000,
      "step": 117835
    },
    {
      "epoch": 17.551385165326185,
      "grad_norm": 0.0016453333664685488,
      "learning_rate": 2.2487318858431193e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68388040,
      "step": 117840
    },
    {
      "epoch": 17.552129877867145,
      "grad_norm": 1.969198820006568e-05,
      "learning_rate": 2.247385202912189e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68391208,
      "step": 117845
    },
    {
      "epoch": 17.552874590408102,
      "grad_norm": 0.002228375291451812,
      "learning_rate": 2.246038904363565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68394184,
      "step": 117850
    },
    {
      "epoch": 17.553619302949063,
      "grad_norm": 0.007145353592932224,
      "learning_rate": 2.2446929902199847e-06,
      "loss": 0.1035,
      "num_input_tokens_seen": 68397096,
      "step": 117855
    },
    {
      "epoch": 17.55436401549002,
      "grad_norm": 5.200607847655192e-05,
      "learning_rate": 2.2433474605041917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68400104,
      "step": 117860
    },
    {
      "epoch": 17.55510872803098,
      "grad_norm": 8.976487879408523e-05,
      "learning_rate": 2.242002315238917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68402856,
      "step": 117865
    },
    {
      "epoch": 17.55585344057194,
      "grad_norm": 0.0001026534810080193,
      "learning_rate": 2.240657554446876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68405640,
      "step": 117870
    },
    {
      "epoch": 17.556598153112898,
      "grad_norm": 0.0002494052750989795,
      "learning_rate": 2.239313178150798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68408360,
      "step": 117875
    },
    {
      "epoch": 17.557342865653858,
      "grad_norm": 7.838708370400127e-06,
      "learning_rate": 2.2379691863733927e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68411304,
      "step": 117880
    },
    {
      "epoch": 17.558087578194815,
      "grad_norm": 5.7225232012569904e-05,
      "learning_rate": 2.236625579137358e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68414344,
      "step": 117885
    },
    {
      "epoch": 17.558832290735776,
      "grad_norm": 4.1644470911705866e-05,
      "learning_rate": 2.235282356465404e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68417096,
      "step": 117890
    },
    {
      "epoch": 17.559577003276736,
      "grad_norm": 6.012464655213989e-05,
      "learning_rate": 2.233939518380218e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68419976,
      "step": 117895
    },
    {
      "epoch": 17.560321715817693,
      "grad_norm": 1.603963210072834e-05,
      "learning_rate": 2.232597064904479e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68422824,
      "step": 117900
    },
    {
      "epoch": 17.561066428358654,
      "grad_norm": 7.37132431822829e-05,
      "learning_rate": 2.2312549960608804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68425704,
      "step": 117905
    },
    {
      "epoch": 17.561811140899614,
      "grad_norm": 2.470512845320627e-05,
      "learning_rate": 2.2299133118720837e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68428648,
      "step": 117910
    },
    {
      "epoch": 17.56255585344057,
      "grad_norm": 0.00012233031156938523,
      "learning_rate": 2.228572012360758e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68431368,
      "step": 117915
    },
    {
      "epoch": 17.56330056598153,
      "grad_norm": 4.6027267671888694e-05,
      "learning_rate": 2.2272310975495673e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68434184,
      "step": 117920
    },
    {
      "epoch": 17.56404527852249,
      "grad_norm": 0.00020224841136951,
      "learning_rate": 2.2258905674611556e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68436968,
      "step": 117925
    },
    {
      "epoch": 17.56478999106345,
      "grad_norm": 0.00033153066760860384,
      "learning_rate": 2.224550422118185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68440232,
      "step": 117930
    },
    {
      "epoch": 17.56553470360441,
      "grad_norm": 0.0001402489433530718,
      "learning_rate": 2.223210661543279e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68442984,
      "step": 117935
    },
    {
      "epoch": 17.566279416145367,
      "grad_norm": 0.0008215050329454243,
      "learning_rate": 2.221871285759086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68445960,
      "step": 117940
    },
    {
      "epoch": 17.567024128686327,
      "grad_norm": 0.0013488143449649215,
      "learning_rate": 2.2205322947882245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68448904,
      "step": 117945
    },
    {
      "epoch": 17.567768841227288,
      "grad_norm": 0.00019668902677949518,
      "learning_rate": 2.2191936886533206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68451656,
      "step": 117950
    },
    {
      "epoch": 17.568513553768245,
      "grad_norm": 0.0010331225348636508,
      "learning_rate": 2.2178554673769863e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68454472,
      "step": 117955
    },
    {
      "epoch": 17.569258266309205,
      "grad_norm": 4.980028097634204e-05,
      "learning_rate": 2.216517630981821e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68457672,
      "step": 117960
    },
    {
      "epoch": 17.570002978850162,
      "grad_norm": 0.0002545114839449525,
      "learning_rate": 2.215180179490442e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68460616,
      "step": 117965
    },
    {
      "epoch": 17.570747691391123,
      "grad_norm": 5.3984345868229866e-05,
      "learning_rate": 2.2138431129254318e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68463688,
      "step": 117970
    },
    {
      "epoch": 17.571492403932083,
      "grad_norm": 8.626770977571141e-06,
      "learning_rate": 2.2125064313093857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68466664,
      "step": 117975
    },
    {
      "epoch": 17.57223711647304,
      "grad_norm": 4.604150035447674e-06,
      "learning_rate": 2.2111701346648806e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68469800,
      "step": 117980
    },
    {
      "epoch": 17.572981829014,
      "grad_norm": 0.0005472169723361731,
      "learning_rate": 2.209834223014498e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68472584,
      "step": 117985
    },
    {
      "epoch": 17.57372654155496,
      "grad_norm": 0.000773346284404397,
      "learning_rate": 2.2084986963808036e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68475656,
      "step": 117990
    },
    {
      "epoch": 17.57447125409592,
      "grad_norm": 4.08753112424165e-05,
      "learning_rate": 2.2071635547863565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68478568,
      "step": 117995
    },
    {
      "epoch": 17.57521596663688,
      "grad_norm": 0.00016982961096800864,
      "learning_rate": 2.2058287982537175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68481576,
      "step": 118000
    },
    {
      "epoch": 17.575960679177836,
      "grad_norm": 0.00012674726895056665,
      "learning_rate": 2.2044944268054315e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68484680,
      "step": 118005
    },
    {
      "epoch": 17.576705391718797,
      "grad_norm": 0.0007018281612545252,
      "learning_rate": 2.203160440464047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68487432,
      "step": 118010
    },
    {
      "epoch": 17.577450104259757,
      "grad_norm": 3.719909000210464e-05,
      "learning_rate": 2.2018268392520998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68490184,
      "step": 118015
    },
    {
      "epoch": 17.578194816800714,
      "grad_norm": 0.0001369481033179909,
      "learning_rate": 2.2004936231921153e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68492936,
      "step": 118020
    },
    {
      "epoch": 17.578939529341675,
      "grad_norm": 0.00012641114881262183,
      "learning_rate": 2.1991607923066176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68495816,
      "step": 118025
    },
    {
      "epoch": 17.57968424188263,
      "grad_norm": 0.0001473976590204984,
      "learning_rate": 2.197828346618122e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68498728,
      "step": 118030
    },
    {
      "epoch": 17.580428954423592,
      "grad_norm": 9.120784670813009e-05,
      "learning_rate": 2.196496286149144e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68501512,
      "step": 118035
    },
    {
      "epoch": 17.581173666964553,
      "grad_norm": 1.4903295777912717e-05,
      "learning_rate": 2.195164610922182e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68504328,
      "step": 118040
    },
    {
      "epoch": 17.58191837950551,
      "grad_norm": 5.480205800267868e-05,
      "learning_rate": 2.1938333209597373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68507304,
      "step": 118045
    },
    {
      "epoch": 17.58266309204647,
      "grad_norm": 0.0001979294465854764,
      "learning_rate": 2.1925024162842978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68510408,
      "step": 118050
    },
    {
      "epoch": 17.58340780458743,
      "grad_norm": 0.000514292623847723,
      "learning_rate": 2.1911718969183535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68513448,
      "step": 118055
    },
    {
      "epoch": 17.584152517128388,
      "grad_norm": 0.00013793226389680058,
      "learning_rate": 2.189841762884376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68516328,
      "step": 118060
    },
    {
      "epoch": 17.584897229669348,
      "grad_norm": 1.2722553947241977e-05,
      "learning_rate": 2.188512014204841e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68519240,
      "step": 118065
    },
    {
      "epoch": 17.585641942210305,
      "grad_norm": 8.209825864469167e-06,
      "learning_rate": 2.1871826509022086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68522056,
      "step": 118070
    },
    {
      "epoch": 17.586386654751266,
      "grad_norm": 4.651225481211441e-06,
      "learning_rate": 2.1858536729989388e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68525032,
      "step": 118075
    },
    {
      "epoch": 17.587131367292226,
      "grad_norm": 0.0028890431858599186,
      "learning_rate": 2.1845250805174854e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68528008,
      "step": 118080
    },
    {
      "epoch": 17.587876079833183,
      "grad_norm": 0.00036552175879478455,
      "learning_rate": 2.183196873480295e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68531176,
      "step": 118085
    },
    {
      "epoch": 17.588620792374144,
      "grad_norm": 0.0010134534677490592,
      "learning_rate": 2.1818690519098018e-06,
      "loss": 0.0021,
      "num_input_tokens_seen": 68533864,
      "step": 118090
    },
    {
      "epoch": 17.589365504915104,
      "grad_norm": 0.0005104130832478404,
      "learning_rate": 2.1805416158284355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68536680,
      "step": 118095
    },
    {
      "epoch": 17.59011021745606,
      "grad_norm": 0.000123188117868267,
      "learning_rate": 2.1792145652586305e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68539496,
      "step": 118100
    },
    {
      "epoch": 17.590854929997022,
      "grad_norm": 0.005326130893081427,
      "learning_rate": 2.177887900222797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68542696,
      "step": 118105
    },
    {
      "epoch": 17.59159964253798,
      "grad_norm": 4.450760752661154e-05,
      "learning_rate": 2.176561620743356e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68545640,
      "step": 118110
    },
    {
      "epoch": 17.59234435507894,
      "grad_norm": 0.00013577872596215457,
      "learning_rate": 2.1752357268427086e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68548168,
      "step": 118115
    },
    {
      "epoch": 17.5930890676199,
      "grad_norm": 4.5423212213790976e-06,
      "learning_rate": 2.173910218543254e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68551080,
      "step": 118120
    },
    {
      "epoch": 17.593833780160857,
      "grad_norm": 0.0016351762460544705,
      "learning_rate": 2.172585095867391e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68554184,
      "step": 118125
    },
    {
      "epoch": 17.594578492701817,
      "grad_norm": 9.042230522027239e-05,
      "learning_rate": 2.1712603588374956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68557032,
      "step": 118130
    },
    {
      "epoch": 17.595323205242778,
      "grad_norm": 0.0005168758216314018,
      "learning_rate": 2.169936007475959e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68559816,
      "step": 118135
    },
    {
      "epoch": 17.596067917783735,
      "grad_norm": 5.9651327319443226e-05,
      "learning_rate": 2.1686120418051457e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68562632,
      "step": 118140
    },
    {
      "epoch": 17.596812630324695,
      "grad_norm": 2.0348306861706078e-05,
      "learning_rate": 2.167288461847433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68566056,
      "step": 118145
    },
    {
      "epoch": 17.597557342865652,
      "grad_norm": 8.532387437298894e-05,
      "learning_rate": 2.165965267625175e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68568936,
      "step": 118150
    },
    {
      "epoch": 17.598302055406613,
      "grad_norm": 5.889761450816877e-05,
      "learning_rate": 2.164642459160726e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68571752,
      "step": 118155
    },
    {
      "epoch": 17.599046767947573,
      "grad_norm": 0.09420830011367798,
      "learning_rate": 2.163320036476435e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68574632,
      "step": 118160
    },
    {
      "epoch": 17.59979148048853,
      "grad_norm": 0.0004493416054174304,
      "learning_rate": 2.1619979995946365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68577384,
      "step": 118165
    },
    {
      "epoch": 17.60053619302949,
      "grad_norm": 2.704300823097583e-05,
      "learning_rate": 2.160676348537674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68580520,
      "step": 118170
    },
    {
      "epoch": 17.601280905570448,
      "grad_norm": 0.00015492427337449044,
      "learning_rate": 2.159355083327866e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68582888,
      "step": 118175
    },
    {
      "epoch": 17.60202561811141,
      "grad_norm": 3.687242860905826e-05,
      "learning_rate": 2.158034203987547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68585896,
      "step": 118180
    },
    {
      "epoch": 17.60277033065237,
      "grad_norm": 0.0012624107766896486,
      "learning_rate": 2.1567137105390183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68588520,
      "step": 118185
    },
    {
      "epoch": 17.603515043193326,
      "grad_norm": 0.00028198942891322076,
      "learning_rate": 2.155393603004602e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68591464,
      "step": 118190
    },
    {
      "epoch": 17.604259755734287,
      "grad_norm": 0.00019368853827472776,
      "learning_rate": 2.15407388140659e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68594408,
      "step": 118195
    },
    {
      "epoch": 17.605004468275247,
      "grad_norm": 3.946334254578687e-05,
      "learning_rate": 2.1527545457672743e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68596936,
      "step": 118200
    },
    {
      "epoch": 17.605749180816204,
      "grad_norm": 0.01759418472647667,
      "learning_rate": 2.1514355961089583e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68600008,
      "step": 118205
    },
    {
      "epoch": 17.606493893357165,
      "grad_norm": 0.0019105087267234921,
      "learning_rate": 2.1501170324539134e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68602696,
      "step": 118210
    },
    {
      "epoch": 17.60723860589812,
      "grad_norm": 6.85824215906905e-06,
      "learning_rate": 2.1487988548244133e-06,
      "loss": 0.017,
      "num_input_tokens_seen": 68605544,
      "step": 118215
    },
    {
      "epoch": 17.607983318439082,
      "grad_norm": 1.184127995657036e-05,
      "learning_rate": 2.1474810632427344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68608456,
      "step": 118220
    },
    {
      "epoch": 17.608728030980043,
      "grad_norm": 0.00035418473999015987,
      "learning_rate": 2.1461636577311373e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68611208,
      "step": 118225
    },
    {
      "epoch": 17.609472743521,
      "grad_norm": 3.0559491278836504e-05,
      "learning_rate": 2.1448466383118786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68614312,
      "step": 118230
    },
    {
      "epoch": 17.61021745606196,
      "grad_norm": 7.491363794542849e-05,
      "learning_rate": 2.143530005007202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68617096,
      "step": 118235
    },
    {
      "epoch": 17.61096216860292,
      "grad_norm": 3.6456560337683186e-05,
      "learning_rate": 2.142213757839362e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68620168,
      "step": 118240
    },
    {
      "epoch": 17.611706881143878,
      "grad_norm": 6.581864909094293e-06,
      "learning_rate": 2.140897896830582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68623080,
      "step": 118245
    },
    {
      "epoch": 17.61245159368484,
      "grad_norm": 0.00018444505985826254,
      "learning_rate": 2.139582422003106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68625960,
      "step": 118250
    },
    {
      "epoch": 17.613196306225795,
      "grad_norm": 0.001438455656170845,
      "learning_rate": 2.138267333379146e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68628584,
      "step": 118255
    },
    {
      "epoch": 17.613941018766756,
      "grad_norm": 1.7001615560729988e-05,
      "learning_rate": 2.1369526309809263e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68631560,
      "step": 118260
    },
    {
      "epoch": 17.614685731307716,
      "grad_norm": 0.0020558557007461786,
      "learning_rate": 2.1356383148306515e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68634824,
      "step": 118265
    },
    {
      "epoch": 17.615430443848673,
      "grad_norm": 3.6587054637493566e-05,
      "learning_rate": 2.134324384950531e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68637608,
      "step": 118270
    },
    {
      "epoch": 17.616175156389634,
      "grad_norm": 8.210944361053407e-05,
      "learning_rate": 2.1330108413627647e-06,
      "loss": 0.0007,
      "num_input_tokens_seen": 68640680,
      "step": 118275
    },
    {
      "epoch": 17.616919868930594,
      "grad_norm": 0.0005342354415915906,
      "learning_rate": 2.131697684089537e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68643368,
      "step": 118280
    },
    {
      "epoch": 17.61766458147155,
      "grad_norm": 5.8856006944552064e-05,
      "learning_rate": 2.1303849131530357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68646376,
      "step": 118285
    },
    {
      "epoch": 17.618409294012512,
      "grad_norm": 8.443374099442735e-05,
      "learning_rate": 2.129072528575432e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 68649096,
      "step": 118290
    },
    {
      "epoch": 17.61915400655347,
      "grad_norm": 1.4707382433698513e-05,
      "learning_rate": 2.1277605303789057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68652552,
      "step": 118295
    },
    {
      "epoch": 17.61989871909443,
      "grad_norm": 0.00045084638986736536,
      "learning_rate": 2.126448918585619e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68655624,
      "step": 118300
    },
    {
      "epoch": 17.62064343163539,
      "grad_norm": 2.1240686692181043e-05,
      "learning_rate": 2.12513769321773e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68658472,
      "step": 118305
    },
    {
      "epoch": 17.621388144176347,
      "grad_norm": 1.545754639664665e-05,
      "learning_rate": 2.123826854297395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68661416,
      "step": 118310
    },
    {
      "epoch": 17.622132856717307,
      "grad_norm": 0.00014112418284639716,
      "learning_rate": 2.1225164018467468e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68664392,
      "step": 118315
    },
    {
      "epoch": 17.622877569258268,
      "grad_norm": 7.86086093285121e-05,
      "learning_rate": 2.1212063358879374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68667272,
      "step": 118320
    },
    {
      "epoch": 17.623622281799225,
      "grad_norm": 6.483038760052295e-06,
      "learning_rate": 2.1198966564430935e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68670344,
      "step": 118325
    },
    {
      "epoch": 17.624366994340185,
      "grad_norm": 0.00034142652293667197,
      "learning_rate": 2.1185873635343413e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68673512,
      "step": 118330
    },
    {
      "epoch": 17.625111706881142,
      "grad_norm": 6.784459401387721e-05,
      "learning_rate": 2.1172784571837965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68676648,
      "step": 118335
    },
    {
      "epoch": 17.625856419422103,
      "grad_norm": 1.8099382941727526e-05,
      "learning_rate": 2.115969937413581e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68679496,
      "step": 118340
    },
    {
      "epoch": 17.626601131963064,
      "grad_norm": 7.113860647223191e-06,
      "learning_rate": 2.1146618042457935e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68682312,
      "step": 118345
    },
    {
      "epoch": 17.62734584450402,
      "grad_norm": 1.7068226952687837e-05,
      "learning_rate": 2.113354057702535e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68685320,
      "step": 118350
    },
    {
      "epoch": 17.62809055704498,
      "grad_norm": 7.256910521391546e-06,
      "learning_rate": 2.1120466978059e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68688200,
      "step": 118355
    },
    {
      "epoch": 17.62883526958594,
      "grad_norm": 0.0005136056570336223,
      "learning_rate": 2.1107397245779705e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 68690824,
      "step": 118360
    },
    {
      "epoch": 17.6295799821269,
      "grad_norm": 0.0002479773829691112,
      "learning_rate": 2.109433138040834e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68693704,
      "step": 118365
    },
    {
      "epoch": 17.63032469466786,
      "grad_norm": 5.344055352907162e-06,
      "learning_rate": 2.1081269382165536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68696584,
      "step": 118370
    },
    {
      "epoch": 17.631069407208816,
      "grad_norm": 2.3608105038874783e-05,
      "learning_rate": 2.1068211251272063e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68699432,
      "step": 118375
    },
    {
      "epoch": 17.631814119749777,
      "grad_norm": 2.2102854927652515e-05,
      "learning_rate": 2.105515698794844e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68702760,
      "step": 118380
    },
    {
      "epoch": 17.632558832290737,
      "grad_norm": 0.00011218102008569986,
      "learning_rate": 2.104210659241532e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68705608,
      "step": 118385
    },
    {
      "epoch": 17.633303544831694,
      "grad_norm": 6.356191533996025e-06,
      "learning_rate": 2.102906006489308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68708488,
      "step": 118390
    },
    {
      "epoch": 17.634048257372655,
      "grad_norm": 0.0002193991676904261,
      "learning_rate": 2.1016017405602135e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68711368,
      "step": 118395
    },
    {
      "epoch": 17.63479296991361,
      "grad_norm": 3.732455297722481e-05,
      "learning_rate": 2.100297861476286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68714344,
      "step": 118400
    },
    {
      "epoch": 17.635537682454572,
      "grad_norm": 6.965227839828003e-06,
      "learning_rate": 2.0989943692595495e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68717256,
      "step": 118405
    },
    {
      "epoch": 17.636282394995533,
      "grad_norm": 0.0002870015741791576,
      "learning_rate": 2.0976912639320336e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 68720168,
      "step": 118410
    },
    {
      "epoch": 17.63702710753649,
      "grad_norm": 4.7318546421593055e-05,
      "learning_rate": 2.096388545515743e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68722984,
      "step": 118415
    },
    {
      "epoch": 17.63777182007745,
      "grad_norm": 0.007061141077429056,
      "learning_rate": 2.095086214032693e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68725896,
      "step": 118420
    },
    {
      "epoch": 17.63851653261841,
      "grad_norm": 9.9380040410324e-06,
      "learning_rate": 2.0937842695048754e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68729064,
      "step": 118425
    },
    {
      "epoch": 17.639261245159368,
      "grad_norm": 5.535586751648225e-05,
      "learning_rate": 2.0924827119542965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68732104,
      "step": 118430
    },
    {
      "epoch": 17.64000595770033,
      "grad_norm": 3.021908469236223e-06,
      "learning_rate": 2.0911815414029423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68734888,
      "step": 118435
    },
    {
      "epoch": 17.640750670241285,
      "grad_norm": 4.002344940090552e-05,
      "learning_rate": 2.089880757872786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68738024,
      "step": 118440
    },
    {
      "epoch": 17.641495382782246,
      "grad_norm": 1.8140733573090984e-06,
      "learning_rate": 2.088580361385814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68740904,
      "step": 118445
    },
    {
      "epoch": 17.642240095323206,
      "grad_norm": 2.2097821783972904e-05,
      "learning_rate": 2.0872803519639856e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68743912,
      "step": 118450
    },
    {
      "epoch": 17.642984807864163,
      "grad_norm": 2.4700877474970184e-05,
      "learning_rate": 2.085980729629275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68746792,
      "step": 118455
    },
    {
      "epoch": 17.643729520405124,
      "grad_norm": 4.024722511530854e-05,
      "learning_rate": 2.084681494403623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68749448,
      "step": 118460
    },
    {
      "epoch": 17.644474232946084,
      "grad_norm": 3.1044903153087944e-05,
      "learning_rate": 2.0833826463089957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68752552,
      "step": 118465
    },
    {
      "epoch": 17.64521894548704,
      "grad_norm": 0.0001835244329413399,
      "learning_rate": 2.0820841853673252e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68755912,
      "step": 118470
    },
    {
      "epoch": 17.645963658028002,
      "grad_norm": 9.73956412053667e-05,
      "learning_rate": 2.080786111600544e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68758728,
      "step": 118475
    },
    {
      "epoch": 17.64670837056896,
      "grad_norm": 2.974294693558477e-05,
      "learning_rate": 2.079488425030593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68761416,
      "step": 118480
    },
    {
      "epoch": 17.64745308310992,
      "grad_norm": 0.00031596454209648073,
      "learning_rate": 2.0781911256793905e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68764360,
      "step": 118485
    },
    {
      "epoch": 17.64819779565088,
      "grad_norm": 0.0004709975910373032,
      "learning_rate": 2.076894213568853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68767304,
      "step": 118490
    },
    {
      "epoch": 17.648942508191837,
      "grad_norm": 6.153100548544899e-05,
      "learning_rate": 2.0755976887208815e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68770632,
      "step": 118495
    },
    {
      "epoch": 17.649687220732797,
      "grad_norm": 9.458944077778142e-06,
      "learning_rate": 2.0743015511573952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68773608,
      "step": 118500
    },
    {
      "epoch": 17.650431933273758,
      "grad_norm": 1.2856851753895171e-05,
      "learning_rate": 2.0730058009002793e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68776648,
      "step": 118505
    },
    {
      "epoch": 17.651176645814715,
      "grad_norm": 1.089541274268413e-05,
      "learning_rate": 2.0717104379714304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68779528,
      "step": 118510
    },
    {
      "epoch": 17.651921358355676,
      "grad_norm": 0.0001083926617866382,
      "learning_rate": 2.070415462392733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68782376,
      "step": 118515
    },
    {
      "epoch": 17.652666070896633,
      "grad_norm": 0.00047172122867777944,
      "learning_rate": 2.0691208741860562e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68784904,
      "step": 118520
    },
    {
      "epoch": 17.653410783437593,
      "grad_norm": 3.2071868190541863e-05,
      "learning_rate": 2.06782667337328e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68787464,
      "step": 118525
    },
    {
      "epoch": 17.654155495978554,
      "grad_norm": 2.2508464098791592e-05,
      "learning_rate": 2.0665328599762613e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68790184,
      "step": 118530
    },
    {
      "epoch": 17.65490020851951,
      "grad_norm": 0.0004144423292018473,
      "learning_rate": 2.0652394340168664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68793160,
      "step": 118535
    },
    {
      "epoch": 17.65564492106047,
      "grad_norm": 5.481156404130161e-05,
      "learning_rate": 2.0639463955169414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68796328,
      "step": 118540
    },
    {
      "epoch": 17.656389633601428,
      "grad_norm": 4.308672487240983e-06,
      "learning_rate": 2.0626537444983274e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68799080,
      "step": 118545
    },
    {
      "epoch": 17.65713434614239,
      "grad_norm": 8.131669164868072e-05,
      "learning_rate": 2.061361480982868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68802024,
      "step": 118550
    },
    {
      "epoch": 17.65787905868335,
      "grad_norm": 7.362954784184694e-05,
      "learning_rate": 2.060069604992393e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68804872,
      "step": 118555
    },
    {
      "epoch": 17.658623771224306,
      "grad_norm": 7.90490594226867e-05,
      "learning_rate": 2.058778116548729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68807848,
      "step": 118560
    },
    {
      "epoch": 17.659368483765267,
      "grad_norm": 0.001754582510329783,
      "learning_rate": 2.057487015673684e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68810696,
      "step": 118565
    },
    {
      "epoch": 17.660113196306227,
      "grad_norm": 0.0004098015488125384,
      "learning_rate": 2.0561963023890853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68813704,
      "step": 118570
    },
    {
      "epoch": 17.660857908847184,
      "grad_norm": 1.9667397282319143e-05,
      "learning_rate": 2.0549059767167255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68816520,
      "step": 118575
    },
    {
      "epoch": 17.661602621388145,
      "grad_norm": 0.00021017937979195267,
      "learning_rate": 2.053616038678416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68819560,
      "step": 118580
    },
    {
      "epoch": 17.6623473339291,
      "grad_norm": 0.0035070308949798346,
      "learning_rate": 2.0523264882959357e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 68822696,
      "step": 118585
    },
    {
      "epoch": 17.663092046470062,
      "grad_norm": 6.475470581790432e-05,
      "learning_rate": 2.051037325591079e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68825384,
      "step": 118590
    },
    {
      "epoch": 17.663836759011023,
      "grad_norm": 0.00013657612726092339,
      "learning_rate": 2.0497485505856256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68828328,
      "step": 118595
    },
    {
      "epoch": 17.66458147155198,
      "grad_norm": 4.839494522457244e-06,
      "learning_rate": 2.0484601633013383e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68831112,
      "step": 118600
    },
    {
      "epoch": 17.66532618409294,
      "grad_norm": 1.1157339940837119e-05,
      "learning_rate": 2.0471721637599944e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68833864,
      "step": 118605
    },
    {
      "epoch": 17.6660708966339,
      "grad_norm": 5.900649193790741e-05,
      "learning_rate": 2.0458845519833487e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68836744,
      "step": 118610
    },
    {
      "epoch": 17.666815609174858,
      "grad_norm": 0.00015440942661371082,
      "learning_rate": 2.044597327993153e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68839496,
      "step": 118615
    },
    {
      "epoch": 17.66756032171582,
      "grad_norm": 8.395641634706408e-05,
      "learning_rate": 2.0433104918111514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68842536,
      "step": 118620
    },
    {
      "epoch": 17.668305034256775,
      "grad_norm": 4.626948430086486e-05,
      "learning_rate": 2.0420240434590925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68845384,
      "step": 118625
    },
    {
      "epoch": 17.669049746797736,
      "grad_norm": 0.0001934580213855952,
      "learning_rate": 2.0407379829587013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68848264,
      "step": 118630
    },
    {
      "epoch": 17.669794459338696,
      "grad_norm": 0.0003693858743645251,
      "learning_rate": 2.039452310331705e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68851304,
      "step": 118635
    },
    {
      "epoch": 17.670539171879653,
      "grad_norm": 6.178183684824035e-05,
      "learning_rate": 2.0381670255998297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68854216,
      "step": 118640
    },
    {
      "epoch": 17.671283884420614,
      "grad_norm": 0.0005623156321235001,
      "learning_rate": 2.0368821287847785e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68857192,
      "step": 118645
    },
    {
      "epoch": 17.672028596961574,
      "grad_norm": 0.0001222145656356588,
      "learning_rate": 2.035597619908272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68860488,
      "step": 118650
    },
    {
      "epoch": 17.67277330950253,
      "grad_norm": 0.00012126621004426852,
      "learning_rate": 2.0343134989919995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68863816,
      "step": 118655
    },
    {
      "epoch": 17.673518022043492,
      "grad_norm": 1.2428396075847559e-05,
      "learning_rate": 2.033029766057662e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68868360,
      "step": 118660
    },
    {
      "epoch": 17.67426273458445,
      "grad_norm": 2.4577466319897212e-05,
      "learning_rate": 2.03174642112694e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68870824,
      "step": 118665
    },
    {
      "epoch": 17.67500744712541,
      "grad_norm": 0.0001314697292400524,
      "learning_rate": 2.0304634642215215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68873736,
      "step": 118670
    },
    {
      "epoch": 17.67575215966637,
      "grad_norm": 0.0011974368244409561,
      "learning_rate": 2.029180895363081e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68876936,
      "step": 118675
    },
    {
      "epoch": 17.676496872207327,
      "grad_norm": 1.0137935532839037e-05,
      "learning_rate": 2.0278987145732786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68879976,
      "step": 118680
    },
    {
      "epoch": 17.677241584748288,
      "grad_norm": 1.548000545881223e-05,
      "learning_rate": 2.0266169218737836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68882664,
      "step": 118685
    },
    {
      "epoch": 17.677986297289245,
      "grad_norm": 2.273986319778487e-05,
      "learning_rate": 2.0253355172862394e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68885608,
      "step": 118690
    },
    {
      "epoch": 17.678731009830205,
      "grad_norm": 0.10139571130275726,
      "learning_rate": 2.0240545008323064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68888616,
      "step": 118695
    },
    {
      "epoch": 17.679475722371166,
      "grad_norm": 3.337928865221329e-05,
      "learning_rate": 2.0227738725336176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68891400,
      "step": 118700
    },
    {
      "epoch": 17.680220434912123,
      "grad_norm": 1.0137656317965593e-05,
      "learning_rate": 2.0214936324118137e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68893960,
      "step": 118705
    },
    {
      "epoch": 17.680965147453083,
      "grad_norm": 2.4843862775014713e-05,
      "learning_rate": 2.0202137804885196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68896808,
      "step": 118710
    },
    {
      "epoch": 17.681709859994044,
      "grad_norm": 0.00025862554321065545,
      "learning_rate": 2.018934316785359e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68899752,
      "step": 118715
    },
    {
      "epoch": 17.682454572535,
      "grad_norm": 2.44780421780888e-05,
      "learning_rate": 2.017655241323946e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68902472,
      "step": 118720
    },
    {
      "epoch": 17.68319928507596,
      "grad_norm": 3.149166514049284e-05,
      "learning_rate": 2.016376554125887e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68905448,
      "step": 118725
    },
    {
      "epoch": 17.683943997616918,
      "grad_norm": 2.4507987745892024e-06,
      "learning_rate": 2.0150982552127913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68908072,
      "step": 118730
    },
    {
      "epoch": 17.68468871015788,
      "grad_norm": 0.00010845084761967883,
      "learning_rate": 2.0138203446062433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68910888,
      "step": 118735
    },
    {
      "epoch": 17.68543342269884,
      "grad_norm": 1.2442677871149499e-05,
      "learning_rate": 2.0125428223278453e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68913768,
      "step": 118740
    },
    {
      "epoch": 17.686178135239796,
      "grad_norm": 5.660289752995595e-05,
      "learning_rate": 2.011265688399172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68916552,
      "step": 118745
    },
    {
      "epoch": 17.686922847780757,
      "grad_norm": 0.00015488051576539874,
      "learning_rate": 2.009988942841798e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68919432,
      "step": 118750
    },
    {
      "epoch": 17.687667560321717,
      "grad_norm": 5.999587756377878e-06,
      "learning_rate": 2.008712585677297e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68922216,
      "step": 118755
    },
    {
      "epoch": 17.688412272862674,
      "grad_norm": 0.0006634764722548425,
      "learning_rate": 2.007436616927225e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68925032,
      "step": 118760
    },
    {
      "epoch": 17.689156985403635,
      "grad_norm": 1.449078627047129e-05,
      "learning_rate": 2.006161036613147e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68927944,
      "step": 118765
    },
    {
      "epoch": 17.68990169794459,
      "grad_norm": 2.6267089197062887e-06,
      "learning_rate": 2.0048858447566045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68931048,
      "step": 118770
    },
    {
      "epoch": 17.690646410485552,
      "grad_norm": 0.00011421860835980624,
      "learning_rate": 2.003611041379147e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68933992,
      "step": 118775
    },
    {
      "epoch": 17.691391123026513,
      "grad_norm": 5.391083959693788e-06,
      "learning_rate": 2.0023366265023074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68936904,
      "step": 118780
    },
    {
      "epoch": 17.69213583556747,
      "grad_norm": 3.0243320452427724e-06,
      "learning_rate": 2.0010626001476184e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68939944,
      "step": 118785
    },
    {
      "epoch": 17.69288054810843,
      "grad_norm": 0.0005027883453294635,
      "learning_rate": 1.999788962336599e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68942984,
      "step": 118790
    },
    {
      "epoch": 17.69362526064939,
      "grad_norm": 0.00010565879347268492,
      "learning_rate": 1.9985157130907707e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68945608,
      "step": 118795
    },
    {
      "epoch": 17.694369973190348,
      "grad_norm": 6.666620265605161e-06,
      "learning_rate": 1.997242852431644e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68949032,
      "step": 118800
    },
    {
      "epoch": 17.69511468573131,
      "grad_norm": 4.728985913970973e-06,
      "learning_rate": 1.9959703803807156e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68951912,
      "step": 118805
    },
    {
      "epoch": 17.695859398272265,
      "grad_norm": 6.183196546771796e-06,
      "learning_rate": 1.994698296959491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68954888,
      "step": 118810
    },
    {
      "epoch": 17.696604110813226,
      "grad_norm": 4.411501140566543e-05,
      "learning_rate": 1.9934266021894575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68957576,
      "step": 118815
    },
    {
      "epoch": 17.697348823354186,
      "grad_norm": 7.998705405043438e-05,
      "learning_rate": 1.9921552960920994e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68960392,
      "step": 118820
    },
    {
      "epoch": 17.698093535895143,
      "grad_norm": 1.2041693480568938e-05,
      "learning_rate": 1.990884378688887e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68963144,
      "step": 118825
    },
    {
      "epoch": 17.698838248436104,
      "grad_norm": 0.00014702767657581717,
      "learning_rate": 1.989613850001304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68966440,
      "step": 118830
    },
    {
      "epoch": 17.699582960977065,
      "grad_norm": 0.00018770803580991924,
      "learning_rate": 1.988343710050808e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68969160,
      "step": 118835
    },
    {
      "epoch": 17.70032767351802,
      "grad_norm": 3.21062839248043e-06,
      "learning_rate": 1.987073958858851e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68972072,
      "step": 118840
    },
    {
      "epoch": 17.701072386058982,
      "grad_norm": 0.0001360861788270995,
      "learning_rate": 1.985804596446897e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68974856,
      "step": 118845
    },
    {
      "epoch": 17.70181709859994,
      "grad_norm": 0.002272546524181962,
      "learning_rate": 1.984535622836378e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68977544,
      "step": 118850
    },
    {
      "epoch": 17.7025618111409,
      "grad_norm": 7.708234079473186e-06,
      "learning_rate": 1.983267038048742e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68980520,
      "step": 118855
    },
    {
      "epoch": 17.70330652368186,
      "grad_norm": 4.784958218806423e-05,
      "learning_rate": 1.981998842105412e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68983336,
      "step": 118860
    },
    {
      "epoch": 17.704051236222817,
      "grad_norm": 0.010858605615794659,
      "learning_rate": 1.980731035027822e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68986632,
      "step": 118865
    },
    {
      "epoch": 17.704795948763778,
      "grad_norm": 0.0003177719481755048,
      "learning_rate": 1.979463616837385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68989416,
      "step": 118870
    },
    {
      "epoch": 17.705540661304738,
      "grad_norm": 1.60775725817075e-05,
      "learning_rate": 1.9781965875555087e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68992136,
      "step": 118875
    },
    {
      "epoch": 17.706285373845695,
      "grad_norm": 0.00031190545996651053,
      "learning_rate": 1.976929947203607e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68994728,
      "step": 118880
    },
    {
      "epoch": 17.707030086386656,
      "grad_norm": 6.699065852444619e-05,
      "learning_rate": 1.9756636958030733e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 68997576,
      "step": 118885
    },
    {
      "epoch": 17.707774798927613,
      "grad_norm": 0.0002545419556554407,
      "learning_rate": 1.9743978333753023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69000360,
      "step": 118890
    },
    {
      "epoch": 17.708519511468573,
      "grad_norm": 5.912834967602976e-05,
      "learning_rate": 1.9731323599416736e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69003272,
      "step": 118895
    },
    {
      "epoch": 17.709264224009534,
      "grad_norm": 9.620885975891724e-06,
      "learning_rate": 1.9718672755235728e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69006184,
      "step": 118900
    },
    {
      "epoch": 17.71000893655049,
      "grad_norm": 0.00029256095876917243,
      "learning_rate": 1.9706025801423666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69009192,
      "step": 118905
    },
    {
      "epoch": 17.71075364909145,
      "grad_norm": 0.03043821081519127,
      "learning_rate": 1.969338273819429e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69012360,
      "step": 118910
    },
    {
      "epoch": 17.711498361632408,
      "grad_norm": 3.0366978535312228e-05,
      "learning_rate": 1.9680743565761107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69015304,
      "step": 118915
    },
    {
      "epoch": 17.71224307417337,
      "grad_norm": 0.011084463447332382,
      "learning_rate": 1.9668108284337654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69018536,
      "step": 118920
    },
    {
      "epoch": 17.71298778671433,
      "grad_norm": 5.872226756764576e-05,
      "learning_rate": 1.9655476894137465e-06,
      "loss": 0.1969,
      "num_input_tokens_seen": 69021288,
      "step": 118925
    },
    {
      "epoch": 17.713732499255286,
      "grad_norm": 5.0101584747608285e-06,
      "learning_rate": 1.9642849395373836e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69024072,
      "step": 118930
    },
    {
      "epoch": 17.714477211796247,
      "grad_norm": 4.018932486360427e-06,
      "learning_rate": 1.963022578826018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69026984,
      "step": 118935
    },
    {
      "epoch": 17.715221924337207,
      "grad_norm": 0.00015040449216030538,
      "learning_rate": 1.961760607300972e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69029832,
      "step": 118940
    },
    {
      "epoch": 17.715966636878164,
      "grad_norm": 7.474113317584852e-06,
      "learning_rate": 1.960499024983564e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69033160,
      "step": 118945
    },
    {
      "epoch": 17.716711349419125,
      "grad_norm": 0.0002495671797078103,
      "learning_rate": 1.9592378318951054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69036136,
      "step": 118950
    },
    {
      "epoch": 17.717456061960082,
      "grad_norm": 2.5170704248012044e-05,
      "learning_rate": 1.957977028056912e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69039272,
      "step": 118955
    },
    {
      "epoch": 17.718200774501042,
      "grad_norm": 0.0002270682161906734,
      "learning_rate": 1.9567166134902752e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69042024,
      "step": 118960
    },
    {
      "epoch": 17.718945487042003,
      "grad_norm": 3.650425924206502e-06,
      "learning_rate": 1.955456588216489e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69044744,
      "step": 118965
    },
    {
      "epoch": 17.71969019958296,
      "grad_norm": 0.00044491273001767695,
      "learning_rate": 1.9541969522568456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69047688,
      "step": 118970
    },
    {
      "epoch": 17.72043491212392,
      "grad_norm": 4.4612886995309964e-05,
      "learning_rate": 1.9529377056326183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69050600,
      "step": 118975
    },
    {
      "epoch": 17.72117962466488,
      "grad_norm": 0.00014001615636516362,
      "learning_rate": 1.951678848365088e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69053192,
      "step": 118980
    },
    {
      "epoch": 17.721924337205838,
      "grad_norm": 5.503158536157571e-05,
      "learning_rate": 1.950420380475515e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 69056136,
      "step": 118985
    },
    {
      "epoch": 17.7226690497468,
      "grad_norm": 0.00011725525837391615,
      "learning_rate": 1.949162301985166e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 69059048,
      "step": 118990
    },
    {
      "epoch": 17.723413762287755,
      "grad_norm": 0.00010753865353763103,
      "learning_rate": 1.947904612915294e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69062344,
      "step": 118995
    },
    {
      "epoch": 17.724158474828716,
      "grad_norm": 0.000152178734424524,
      "learning_rate": 1.9466473132871392e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69065192,
      "step": 119000
    },
    {
      "epoch": 17.724903187369677,
      "grad_norm": 9.097066140384413e-06,
      "learning_rate": 1.945390403121952e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69067912,
      "step": 119005
    },
    {
      "epoch": 17.725647899910633,
      "grad_norm": 2.6220584459224483e-06,
      "learning_rate": 1.944133882440963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69070760,
      "step": 119010
    },
    {
      "epoch": 17.726392612451594,
      "grad_norm": 0.00015731221355963498,
      "learning_rate": 1.9428777512653957e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69073448,
      "step": 119015
    },
    {
      "epoch": 17.727137324992555,
      "grad_norm": 2.8571808798005804e-05,
      "learning_rate": 1.941622009616473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69076168,
      "step": 119020
    },
    {
      "epoch": 17.72788203753351,
      "grad_norm": 4.9871123337652534e-05,
      "learning_rate": 1.9403666575154163e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69078920,
      "step": 119025
    },
    {
      "epoch": 17.728626750074472,
      "grad_norm": 0.0007386149954982102,
      "learning_rate": 1.9391116949834227e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69081512,
      "step": 119030
    },
    {
      "epoch": 17.72937146261543,
      "grad_norm": 2.4110733647830784e-05,
      "learning_rate": 1.937857122041703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69084488,
      "step": 119035
    },
    {
      "epoch": 17.73011617515639,
      "grad_norm": 0.00012411238276399672,
      "learning_rate": 1.936602938711449e-06,
      "loss": 0.0087,
      "num_input_tokens_seen": 69087592,
      "step": 119040
    },
    {
      "epoch": 17.73086088769735,
      "grad_norm": 0.0060021476820111275,
      "learning_rate": 1.93534914501384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69090600,
      "step": 119045
    },
    {
      "epoch": 17.731605600238307,
      "grad_norm": 0.00029221034492366016,
      "learning_rate": 1.934095740970074e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69094376,
      "step": 119050
    },
    {
      "epoch": 17.732350312779268,
      "grad_norm": 9.21756072784774e-05,
      "learning_rate": 1.932842726601311e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69097352,
      "step": 119055
    },
    {
      "epoch": 17.733095025320225,
      "grad_norm": 3.961500624427572e-05,
      "learning_rate": 1.931590101928729e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69100264,
      "step": 119060
    },
    {
      "epoch": 17.733839737861185,
      "grad_norm": 0.00042283342918381095,
      "learning_rate": 1.9303378669734834e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69103240,
      "step": 119065
    },
    {
      "epoch": 17.734584450402146,
      "grad_norm": 7.347563951043412e-06,
      "learning_rate": 1.9290860217567374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69106184,
      "step": 119070
    },
    {
      "epoch": 17.735329162943103,
      "grad_norm": 0.00010266401659464464,
      "learning_rate": 1.9278345662996356e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69108872,
      "step": 119075
    },
    {
      "epoch": 17.736073875484063,
      "grad_norm": 8.839727343001869e-06,
      "learning_rate": 1.926583500623316e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69111880,
      "step": 119080
    },
    {
      "epoch": 17.736818588025024,
      "grad_norm": 0.0025602849200367928,
      "learning_rate": 1.925332824748921e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69114888,
      "step": 119085
    },
    {
      "epoch": 17.73756330056598,
      "grad_norm": 0.00018277087656315416,
      "learning_rate": 1.9240825386975692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69117800,
      "step": 119090
    },
    {
      "epoch": 17.73830801310694,
      "grad_norm": 0.0044658430851995945,
      "learning_rate": 1.9228326424903966e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69120648,
      "step": 119095
    },
    {
      "epoch": 17.7390527256479,
      "grad_norm": 8.846513810567558e-05,
      "learning_rate": 1.9215831361485054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69123464,
      "step": 119100
    },
    {
      "epoch": 17.73979743818886,
      "grad_norm": 0.0002238559245597571,
      "learning_rate": 1.920334019693015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69126312,
      "step": 119105
    },
    {
      "epoch": 17.74054215072982,
      "grad_norm": 9.889234934234992e-05,
      "learning_rate": 1.9190852931450204e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69129320,
      "step": 119110
    },
    {
      "epoch": 17.741286863270776,
      "grad_norm": 9.136142580246087e-06,
      "learning_rate": 1.917836956525626e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69132104,
      "step": 119115
    },
    {
      "epoch": 17.742031575811737,
      "grad_norm": 6.124775245552883e-05,
      "learning_rate": 1.916589009855918e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69134984,
      "step": 119120
    },
    {
      "epoch": 17.742776288352697,
      "grad_norm": 0.0004499960341490805,
      "learning_rate": 1.9153414531569713e-06,
      "loss": 0.0451,
      "num_input_tokens_seen": 69137928,
      "step": 119125
    },
    {
      "epoch": 17.743521000893654,
      "grad_norm": 0.00920468382537365,
      "learning_rate": 1.9140942864498747e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69140680,
      "step": 119130
    },
    {
      "epoch": 17.744265713434615,
      "grad_norm": 1.664961382630281e-05,
      "learning_rate": 1.912847509755686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69143688,
      "step": 119135
    },
    {
      "epoch": 17.745010425975572,
      "grad_norm": 3.356880188221112e-05,
      "learning_rate": 1.911601123095477e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69146728,
      "step": 119140
    },
    {
      "epoch": 17.745755138516532,
      "grad_norm": 0.001852487912401557,
      "learning_rate": 1.910355126490304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69149800,
      "step": 119145
    },
    {
      "epoch": 17.746499851057493,
      "grad_norm": 3.95562601624988e-05,
      "learning_rate": 1.909109519961211e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69152776,
      "step": 119150
    },
    {
      "epoch": 17.74724456359845,
      "grad_norm": 0.00020189088536426425,
      "learning_rate": 1.907864303529247e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69155560,
      "step": 119155
    },
    {
      "epoch": 17.74798927613941,
      "grad_norm": 0.00011594373791012913,
      "learning_rate": 1.9066194772154379e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69158216,
      "step": 119160
    },
    {
      "epoch": 17.74873398868037,
      "grad_norm": 0.00011314893345115706,
      "learning_rate": 1.90537504104083e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69161064,
      "step": 119165
    },
    {
      "epoch": 17.749478701221328,
      "grad_norm": 5.661422619596124e-05,
      "learning_rate": 1.9041309950264319e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69163816,
      "step": 119170
    },
    {
      "epoch": 17.75022341376229,
      "grad_norm": 9.2347972895368e-06,
      "learning_rate": 1.902887339193271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69166696,
      "step": 119175
    },
    {
      "epoch": 17.750968126303245,
      "grad_norm": 0.0008958106045611203,
      "learning_rate": 1.9016440735623503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69169800,
      "step": 119180
    },
    {
      "epoch": 17.751712838844206,
      "grad_norm": 0.0006927420035935938,
      "learning_rate": 1.9004011981546804e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69172680,
      "step": 119185
    },
    {
      "epoch": 17.752457551385167,
      "grad_norm": 0.0011406273115426302,
      "learning_rate": 1.8991587129912531e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69175656,
      "step": 119190
    },
    {
      "epoch": 17.753202263926124,
      "grad_norm": 0.00027093166136182845,
      "learning_rate": 1.8979166180930625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69178440,
      "step": 119195
    },
    {
      "epoch": 17.753946976467084,
      "grad_norm": 0.00018584408098831773,
      "learning_rate": 1.896674913481089e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69181416,
      "step": 119200
    },
    {
      "epoch": 17.75469168900804,
      "grad_norm": 1.3711704013985582e-05,
      "learning_rate": 1.8954335991763107e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69184584,
      "step": 119205
    },
    {
      "epoch": 17.755436401549,
      "grad_norm": 4.415938747115433e-05,
      "learning_rate": 1.8941926751997018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69187240,
      "step": 119210
    },
    {
      "epoch": 17.756181114089962,
      "grad_norm": 0.0012698291102424264,
      "learning_rate": 1.8929521415722267e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69190152,
      "step": 119215
    },
    {
      "epoch": 17.75692582663092,
      "grad_norm": 0.007727454416453838,
      "learning_rate": 1.8917119983148378e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 69192904,
      "step": 119220
    },
    {
      "epoch": 17.75767053917188,
      "grad_norm": 5.8539708334137686e-06,
      "learning_rate": 1.8904722454484825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69195688,
      "step": 119225
    },
    {
      "epoch": 17.75841525171284,
      "grad_norm": 0.0001414943253621459,
      "learning_rate": 1.8892328829941186e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69198472,
      "step": 119230
    },
    {
      "epoch": 17.759159964253797,
      "grad_norm": 2.8137203116784804e-05,
      "learning_rate": 1.8879939109726713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69201160,
      "step": 119235
    },
    {
      "epoch": 17.759904676794758,
      "grad_norm": 0.0031322657596319914,
      "learning_rate": 1.8867553294050795e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69204328,
      "step": 119240
    },
    {
      "epoch": 17.76064938933572,
      "grad_norm": 1.1122301657451317e-05,
      "learning_rate": 1.8855171383122677e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69207272,
      "step": 119245
    },
    {
      "epoch": 17.761394101876675,
      "grad_norm": 4.334220193413785e-06,
      "learning_rate": 1.8842793377151446e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69209992,
      "step": 119250
    },
    {
      "epoch": 17.762138814417636,
      "grad_norm": 4.506614641286433e-05,
      "learning_rate": 1.8830419276346352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69212744,
      "step": 119255
    },
    {
      "epoch": 17.762883526958593,
      "grad_norm": 6.633340672124177e-05,
      "learning_rate": 1.8818049080916305e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69215560,
      "step": 119260
    },
    {
      "epoch": 17.763628239499553,
      "grad_norm": 0.0002688764070626348,
      "learning_rate": 1.8805682791070422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69218504,
      "step": 119265
    },
    {
      "epoch": 17.764372952040514,
      "grad_norm": 3.380837370059453e-05,
      "learning_rate": 1.8793320407017534e-06,
      "loss": 0.0017,
      "num_input_tokens_seen": 69221416,
      "step": 119270
    },
    {
      "epoch": 17.76511766458147,
      "grad_norm": 1.0226585800410248e-05,
      "learning_rate": 1.8780961928966528e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69224360,
      "step": 119275
    },
    {
      "epoch": 17.76586237712243,
      "grad_norm": 0.03314434736967087,
      "learning_rate": 1.8768607357126128e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 69227272,
      "step": 119280
    },
    {
      "epoch": 17.76660708966339,
      "grad_norm": 3.759279934456572e-05,
      "learning_rate": 1.875625669170511e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69230120,
      "step": 119285
    },
    {
      "epoch": 17.76735180220435,
      "grad_norm": 1.614455322851427e-05,
      "learning_rate": 1.874390993291214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69233224,
      "step": 119290
    },
    {
      "epoch": 17.76809651474531,
      "grad_norm": 5.6474855227861553e-05,
      "learning_rate": 1.8731567080955692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69236104,
      "step": 119295
    },
    {
      "epoch": 17.768841227286266,
      "grad_norm": 0.00017655624833423644,
      "learning_rate": 1.871922813604443e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69239080,
      "step": 119300
    },
    {
      "epoch": 17.769585939827227,
      "grad_norm": 3.9646583900321275e-06,
      "learning_rate": 1.870689309838672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69241896,
      "step": 119305
    },
    {
      "epoch": 17.770330652368187,
      "grad_norm": 5.586573388427496e-05,
      "learning_rate": 1.8694561968191e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69244616,
      "step": 119310
    },
    {
      "epoch": 17.771075364909144,
      "grad_norm": 0.00028741249116137624,
      "learning_rate": 1.8682234745665522e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69247368,
      "step": 119315
    },
    {
      "epoch": 17.771820077450105,
      "grad_norm": 0.00025504245422780514,
      "learning_rate": 1.866991143101865e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69250248,
      "step": 119320
    },
    {
      "epoch": 17.772564789991062,
      "grad_norm": 0.00010849266254808754,
      "learning_rate": 1.8657592024458491e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69253160,
      "step": 119325
    },
    {
      "epoch": 17.773309502532022,
      "grad_norm": 3.3526748666190542e-06,
      "learning_rate": 1.8645276526193162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69255976,
      "step": 119330
    },
    {
      "epoch": 17.774054215072983,
      "grad_norm": 0.000281600485322997,
      "learning_rate": 1.8632964936430768e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69258504,
      "step": 119335
    },
    {
      "epoch": 17.77479892761394,
      "grad_norm": 0.0011624390026554465,
      "learning_rate": 1.8620657255379314e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69261576,
      "step": 119340
    },
    {
      "epoch": 17.7755436401549,
      "grad_norm": 0.0022890965919941664,
      "learning_rate": 1.860835348324666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69264488,
      "step": 119345
    },
    {
      "epoch": 17.77628835269586,
      "grad_norm": 0.0012207289692014456,
      "learning_rate": 1.8596053620240667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69267528,
      "step": 119350
    },
    {
      "epoch": 17.777033065236818,
      "grad_norm": 1.3746158401772846e-05,
      "learning_rate": 1.8583757666569196e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69270408,
      "step": 119355
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 9.070853411685675e-05,
      "learning_rate": 1.8571465622439943e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69273288,
      "step": 119360
    },
    {
      "epoch": 17.778522490318736,
      "grad_norm": 1.7507791199022904e-05,
      "learning_rate": 1.8559177488060547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69276200,
      "step": 119365
    },
    {
      "epoch": 17.779267202859696,
      "grad_norm": 3.0397770842682803e-06,
      "learning_rate": 1.854689326363862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69278984,
      "step": 119370
    },
    {
      "epoch": 17.780011915400657,
      "grad_norm": 0.0008461648249067366,
      "learning_rate": 1.8534612949381691e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69281960,
      "step": 119375
    },
    {
      "epoch": 17.780756627941614,
      "grad_norm": 3.75848394469358e-05,
      "learning_rate": 1.8522336545497232e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69284712,
      "step": 119380
    },
    {
      "epoch": 17.781501340482574,
      "grad_norm": 0.00012078331201337278,
      "learning_rate": 1.8510064052192604e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69287656,
      "step": 119385
    },
    {
      "epoch": 17.782246053023535,
      "grad_norm": 2.7277341359877028e-05,
      "learning_rate": 1.8497795469675227e-06,
      "loss": 0.006,
      "num_input_tokens_seen": 69290472,
      "step": 119390
    },
    {
      "epoch": 17.78299076556449,
      "grad_norm": 0.00021467084297910333,
      "learning_rate": 1.848553079815224e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69293128,
      "step": 119395
    },
    {
      "epoch": 17.783735478105452,
      "grad_norm": 5.374364718591096e-06,
      "learning_rate": 1.8473270037830975e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69295752,
      "step": 119400
    },
    {
      "epoch": 17.78448019064641,
      "grad_norm": 0.00011141095455968753,
      "learning_rate": 1.8461013188918492e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69298408,
      "step": 119405
    },
    {
      "epoch": 17.78522490318737,
      "grad_norm": 5.082281404611422e-06,
      "learning_rate": 1.8448760251621844e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69301192,
      "step": 119410
    },
    {
      "epoch": 17.78596961572833,
      "grad_norm": 3.3378968510078266e-05,
      "learning_rate": 1.843651122614809e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69304008,
      "step": 119415
    },
    {
      "epoch": 17.786714328269287,
      "grad_norm": 0.0001469925045967102,
      "learning_rate": 1.8424266112704064e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69306856,
      "step": 119420
    },
    {
      "epoch": 17.787459040810248,
      "grad_norm": 0.002352373208850622,
      "learning_rate": 1.841202491149674e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69309768,
      "step": 119425
    },
    {
      "epoch": 17.788203753351205,
      "grad_norm": 1.5176260603766423e-05,
      "learning_rate": 1.839978762273284e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69312456,
      "step": 119430
    },
    {
      "epoch": 17.788948465892165,
      "grad_norm": 1.673467158980202e-05,
      "learning_rate": 1.838755424661917e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69315336,
      "step": 119435
    },
    {
      "epoch": 17.789693178433126,
      "grad_norm": 9.753858648764435e-06,
      "learning_rate": 1.8375324783362402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69318120,
      "step": 119440
    },
    {
      "epoch": 17.790437890974083,
      "grad_norm": 5.8681278460426256e-05,
      "learning_rate": 1.8363099233169034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69321064,
      "step": 119445
    },
    {
      "epoch": 17.791182603515043,
      "grad_norm": 0.0003535178548190743,
      "learning_rate": 1.8350877596245735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69324008,
      "step": 119450
    },
    {
      "epoch": 17.791927316056004,
      "grad_norm": 8.697190060047433e-05,
      "learning_rate": 1.8338659872798896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69327048,
      "step": 119455
    },
    {
      "epoch": 17.79267202859696,
      "grad_norm": 0.0002736224851105362,
      "learning_rate": 1.8326446063034964e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69329768,
      "step": 119460
    },
    {
      "epoch": 17.79341674113792,
      "grad_norm": 5.5889606301207095e-05,
      "learning_rate": 1.8314236167160243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69332840,
      "step": 119465
    },
    {
      "epoch": 17.79416145367888,
      "grad_norm": 9.054483234649524e-05,
      "learning_rate": 1.8302030185381042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69335624,
      "step": 119470
    },
    {
      "epoch": 17.79490616621984,
      "grad_norm": 7.785756315570325e-05,
      "learning_rate": 1.8289828117903584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69338216,
      "step": 119475
    },
    {
      "epoch": 17.7956508787608,
      "grad_norm": 0.00012649470590986311,
      "learning_rate": 1.8277629964933958e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 69340936,
      "step": 119480
    },
    {
      "epoch": 17.796395591301756,
      "grad_norm": 8.980460552265868e-05,
      "learning_rate": 1.8265435726678271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69343976,
      "step": 119485
    },
    {
      "epoch": 17.797140303842717,
      "grad_norm": 5.543324732570909e-05,
      "learning_rate": 1.8253245403342472e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69346856,
      "step": 119490
    },
    {
      "epoch": 17.797885016383677,
      "grad_norm": 2.8099154860683484e-06,
      "learning_rate": 1.824105899513262e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69349896,
      "step": 119495
    },
    {
      "epoch": 17.798629728924634,
      "grad_norm": 7.00534219504334e-05,
      "learning_rate": 1.8228876502254465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69352808,
      "step": 119500
    },
    {
      "epoch": 17.799374441465595,
      "grad_norm": 9.166874406218994e-06,
      "learning_rate": 1.8216697924913928e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69355560,
      "step": 119505
    },
    {
      "epoch": 17.800119154006552,
      "grad_norm": 8.469774002151098e-06,
      "learning_rate": 1.8204523263316647e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69358376,
      "step": 119510
    },
    {
      "epoch": 17.800863866547513,
      "grad_norm": 3.385384616194642e-06,
      "learning_rate": 1.8192352517668432e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69361608,
      "step": 119515
    },
    {
      "epoch": 17.801608579088473,
      "grad_norm": 5.929588951403275e-05,
      "learning_rate": 1.818018568817481e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69365384,
      "step": 119520
    },
    {
      "epoch": 17.80235329162943,
      "grad_norm": 0.00021314388141036034,
      "learning_rate": 1.8168022775041288e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69368200,
      "step": 119525
    },
    {
      "epoch": 17.80309800417039,
      "grad_norm": 6.8189001467544585e-06,
      "learning_rate": 1.8155863778473447e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69370888,
      "step": 119530
    },
    {
      "epoch": 17.80384271671135,
      "grad_norm": 0.00020673705148510635,
      "learning_rate": 1.8143708698676597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69373768,
      "step": 119535
    },
    {
      "epoch": 17.804587429252308,
      "grad_norm": 0.00012215909373480827,
      "learning_rate": 1.8131557535856214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69377000,
      "step": 119540
    },
    {
      "epoch": 17.80533214179327,
      "grad_norm": 2.647813516887254e-06,
      "learning_rate": 1.8119410290217465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69379688,
      "step": 119545
    },
    {
      "epoch": 17.806076854334226,
      "grad_norm": 0.00019827650976367295,
      "learning_rate": 1.810726696196563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69382632,
      "step": 119550
    },
    {
      "epoch": 17.806821566875186,
      "grad_norm": 2.9244134566397406e-05,
      "learning_rate": 1.8095127551305797e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69385640,
      "step": 119555
    },
    {
      "epoch": 17.807566279416147,
      "grad_norm": 9.751187462825328e-06,
      "learning_rate": 1.8082992058443132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69388616,
      "step": 119560
    },
    {
      "epoch": 17.808310991957104,
      "grad_norm": 0.000184430624358356,
      "learning_rate": 1.8070860483582585e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69391624,
      "step": 119565
    },
    {
      "epoch": 17.809055704498064,
      "grad_norm": 1.0308000128134154e-05,
      "learning_rate": 1.8058732826929104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69394472,
      "step": 119570
    },
    {
      "epoch": 17.80980041703902,
      "grad_norm": 1.954797698999755e-05,
      "learning_rate": 1.8046609088687633e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69397288,
      "step": 119575
    },
    {
      "epoch": 17.81054512957998,
      "grad_norm": 0.0001250678615178913,
      "learning_rate": 1.8034489269062899e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69400360,
      "step": 119580
    },
    {
      "epoch": 17.811289842120942,
      "grad_norm": 2.1397554519353434e-05,
      "learning_rate": 1.8022373368259765e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69403304,
      "step": 119585
    },
    {
      "epoch": 17.8120345546619,
      "grad_norm": 3.482043030089699e-05,
      "learning_rate": 1.801026138648282e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69406056,
      "step": 119590
    },
    {
      "epoch": 17.81277926720286,
      "grad_norm": 0.00012796078226529062,
      "learning_rate": 1.7998153323936755e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69409000,
      "step": 119595
    },
    {
      "epoch": 17.81352397974382,
      "grad_norm": 0.00011772463767556474,
      "learning_rate": 1.798604918082611e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69412136,
      "step": 119600
    },
    {
      "epoch": 17.814268692284777,
      "grad_norm": 4.591262404574081e-05,
      "learning_rate": 1.7973948957355352e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69414984,
      "step": 119605
    },
    {
      "epoch": 17.815013404825738,
      "grad_norm": 0.0005427696742117405,
      "learning_rate": 1.796185265372885e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69417736,
      "step": 119610
    },
    {
      "epoch": 17.815758117366695,
      "grad_norm": 9.435628271603491e-06,
      "learning_rate": 1.7949760270151078e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69420648,
      "step": 119615
    },
    {
      "epoch": 17.816502829907655,
      "grad_norm": 2.161938937206287e-05,
      "learning_rate": 1.7937671806826262e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69423848,
      "step": 119620
    },
    {
      "epoch": 17.817247542448616,
      "grad_norm": 4.725725739262998e-05,
      "learning_rate": 1.792558726395857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69426568,
      "step": 119625
    },
    {
      "epoch": 17.817992254989573,
      "grad_norm": 0.00020574560039676726,
      "learning_rate": 1.791350664175223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69429320,
      "step": 119630
    },
    {
      "epoch": 17.818736967530533,
      "grad_norm": 0.2841598689556122,
      "learning_rate": 1.7901429940411301e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 69432424,
      "step": 119635
    },
    {
      "epoch": 17.819481680071494,
      "grad_norm": 5.292635250953026e-06,
      "learning_rate": 1.788935716013987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69435528,
      "step": 119640
    },
    {
      "epoch": 17.82022639261245,
      "grad_norm": 1.655585947446525e-05,
      "learning_rate": 1.7877288301141826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69438536,
      "step": 119645
    },
    {
      "epoch": 17.82097110515341,
      "grad_norm": 3.600661875680089e-05,
      "learning_rate": 1.7865223363621037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69441512,
      "step": 119650
    },
    {
      "epoch": 17.82171581769437,
      "grad_norm": 3.0971248634159565e-05,
      "learning_rate": 1.7853162347781394e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69444424,
      "step": 119655
    },
    {
      "epoch": 17.82246053023533,
      "grad_norm": 8.360742867807858e-06,
      "learning_rate": 1.7841105253826596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69447144,
      "step": 119660
    },
    {
      "epoch": 17.82320524277629,
      "grad_norm": 6.155094160931185e-05,
      "learning_rate": 1.7829052081960423e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69450024,
      "step": 119665
    },
    {
      "epoch": 17.823949955317246,
      "grad_norm": 0.0014534859219565988,
      "learning_rate": 1.7817002832386436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69453064,
      "step": 119670
    },
    {
      "epoch": 17.824694667858207,
      "grad_norm": 0.00024267977278213948,
      "learning_rate": 1.7804957505308224e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69456072,
      "step": 119675
    },
    {
      "epoch": 17.825439380399168,
      "grad_norm": 7.790072231728118e-06,
      "learning_rate": 1.7792916100929258e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69458824,
      "step": 119680
    },
    {
      "epoch": 17.826184092940125,
      "grad_norm": 0.00036128744250163436,
      "learning_rate": 1.7780878619452905e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69461800,
      "step": 119685
    },
    {
      "epoch": 17.826928805481085,
      "grad_norm": 8.250532118836418e-06,
      "learning_rate": 1.7768845061082646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69464584,
      "step": 119690
    },
    {
      "epoch": 17.827673518022042,
      "grad_norm": 4.5957885959069245e-06,
      "learning_rate": 1.7756815426021673e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69467336,
      "step": 119695
    },
    {
      "epoch": 17.828418230563003,
      "grad_norm": 0.00045244695502333343,
      "learning_rate": 1.7744789714473325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69470120,
      "step": 119700
    },
    {
      "epoch": 17.829162943103963,
      "grad_norm": 8.321524546772707e-06,
      "learning_rate": 1.7732767926640636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69473096,
      "step": 119705
    },
    {
      "epoch": 17.82990765564492,
      "grad_norm": 5.056905592937255e-06,
      "learning_rate": 1.7720750062726831e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69476104,
      "step": 119710
    },
    {
      "epoch": 17.83065236818588,
      "grad_norm": 1.3114449757267721e-05,
      "learning_rate": 1.7708736122934805e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69478824,
      "step": 119715
    },
    {
      "epoch": 17.83139708072684,
      "grad_norm": 0.0002605715999379754,
      "learning_rate": 1.7696726107467643e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69481704,
      "step": 119720
    },
    {
      "epoch": 17.832141793267798,
      "grad_norm": 1.3831388059770688e-05,
      "learning_rate": 1.768472001652821e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69484520,
      "step": 119725
    },
    {
      "epoch": 17.83288650580876,
      "grad_norm": 0.0001037729816744104,
      "learning_rate": 1.7672717850319264e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 69487336,
      "step": 119730
    },
    {
      "epoch": 17.833631218349716,
      "grad_norm": 0.0004853368445765227,
      "learning_rate": 1.766071960904367e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69490312,
      "step": 119735
    },
    {
      "epoch": 17.834375930890676,
      "grad_norm": 1.928540768858511e-05,
      "learning_rate": 1.7648725292904067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69493320,
      "step": 119740
    },
    {
      "epoch": 17.835120643431637,
      "grad_norm": 8.162578524206765e-06,
      "learning_rate": 1.7636734902103102e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69496232,
      "step": 119745
    },
    {
      "epoch": 17.835865355972594,
      "grad_norm": 4.784532939083874e-05,
      "learning_rate": 1.7624748436843308e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69499176,
      "step": 119750
    },
    {
      "epoch": 17.836610068513554,
      "grad_norm": 0.00016023237549234182,
      "learning_rate": 1.7612765897327244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69502472,
      "step": 119755
    },
    {
      "epoch": 17.837354781054515,
      "grad_norm": 2.014871824940201e-05,
      "learning_rate": 1.7600787283757303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69505512,
      "step": 119760
    },
    {
      "epoch": 17.83809949359547,
      "grad_norm": 0.00020830874564126134,
      "learning_rate": 1.7588812596335824e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69508360,
      "step": 119765
    },
    {
      "epoch": 17.838844206136432,
      "grad_norm": 4.97114124300424e-05,
      "learning_rate": 1.7576841835265202e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69511272,
      "step": 119770
    },
    {
      "epoch": 17.83958891867739,
      "grad_norm": 7.344124605879188e-05,
      "learning_rate": 1.756487500074755e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69514056,
      "step": 119775
    },
    {
      "epoch": 17.84033363121835,
      "grad_norm": 4.07353654736653e-05,
      "learning_rate": 1.7552912092985153e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69516936,
      "step": 119780
    },
    {
      "epoch": 17.84107834375931,
      "grad_norm": 4.905390596832149e-05,
      "learning_rate": 1.7540953112180014e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69519976,
      "step": 119785
    },
    {
      "epoch": 17.841823056300267,
      "grad_norm": 5.530285761778941e-06,
      "learning_rate": 1.752899805853425e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69522792,
      "step": 119790
    },
    {
      "epoch": 17.842567768841228,
      "grad_norm": 0.004855644889175892,
      "learning_rate": 1.7517046932249758e-06,
      "loss": 0.0183,
      "num_input_tokens_seen": 69525544,
      "step": 119795
    },
    {
      "epoch": 17.843312481382185,
      "grad_norm": 1.1173201528436039e-05,
      "learning_rate": 1.7505099733528514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69528616,
      "step": 119800
    },
    {
      "epoch": 17.844057193923145,
      "grad_norm": 0.00015476340195164084,
      "learning_rate": 1.7493156462572296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69531304,
      "step": 119805
    },
    {
      "epoch": 17.844801906464106,
      "grad_norm": 4.511725273914635e-05,
      "learning_rate": 1.7481217119582921e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69534056,
      "step": 119810
    },
    {
      "epoch": 17.845546619005063,
      "grad_norm": 0.000133088935399428,
      "learning_rate": 1.746928170476203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69537064,
      "step": 119815
    },
    {
      "epoch": 17.846291331546023,
      "grad_norm": 9.492946264799684e-05,
      "learning_rate": 1.7457350218311269e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69540072,
      "step": 119820
    },
    {
      "epoch": 17.847036044086984,
      "grad_norm": 5.926546236878494e-06,
      "learning_rate": 1.7445422660432254e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 69543080,
      "step": 119825
    },
    {
      "epoch": 17.84778075662794,
      "grad_norm": 2.5906882001436315e-05,
      "learning_rate": 1.7433499031326434e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69546248,
      "step": 119830
    },
    {
      "epoch": 17.8485254691689,
      "grad_norm": 0.0008174420800060034,
      "learning_rate": 1.7421579331195314e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69549320,
      "step": 119835
    },
    {
      "epoch": 17.84927018170986,
      "grad_norm": 1.334993839263916,
      "learning_rate": 1.7409663560240209e-06,
      "loss": 0.0032,
      "num_input_tokens_seen": 69552232,
      "step": 119840
    },
    {
      "epoch": 17.85001489425082,
      "grad_norm": 0.00020000169752165675,
      "learning_rate": 1.7397751718662452e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69554952,
      "step": 119845
    },
    {
      "epoch": 17.85075960679178,
      "grad_norm": 0.005479711107909679,
      "learning_rate": 1.7385843806663304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69557768,
      "step": 119850
    },
    {
      "epoch": 17.851504319332737,
      "grad_norm": 3.318538801977411e-05,
      "learning_rate": 1.7373939824443853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69560776,
      "step": 119855
    },
    {
      "epoch": 17.852249031873697,
      "grad_norm": 1.2083134606655221e-05,
      "learning_rate": 1.7362039772205296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69563528,
      "step": 119860
    },
    {
      "epoch": 17.852993744414658,
      "grad_norm": 3.966940766986227e-06,
      "learning_rate": 1.7350143650148587e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69566376,
      "step": 119865
    },
    {
      "epoch": 17.853738456955615,
      "grad_norm": 2.9143855499569327e-05,
      "learning_rate": 1.7338251458474786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69569160,
      "step": 119870
    },
    {
      "epoch": 17.854483169496575,
      "grad_norm": 5.129808414494619e-06,
      "learning_rate": 1.7326363197384788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69571848,
      "step": 119875
    },
    {
      "epoch": 17.855227882037532,
      "grad_norm": 1.3961468539491761e-05,
      "learning_rate": 1.7314478867079376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69574504,
      "step": 119880
    },
    {
      "epoch": 17.855972594578493,
      "grad_norm": 4.370370152173564e-05,
      "learning_rate": 1.7302598467759362e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69577320,
      "step": 119885
    },
    {
      "epoch": 17.856717307119453,
      "grad_norm": 4.5198696170700714e-05,
      "learning_rate": 1.729072199962542e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69580168,
      "step": 119890
    },
    {
      "epoch": 17.85746201966041,
      "grad_norm": 2.627932008181233e-05,
      "learning_rate": 1.7278849462878223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69583112,
      "step": 119895
    },
    {
      "epoch": 17.85820673220137,
      "grad_norm": 5.236420111032203e-05,
      "learning_rate": 1.7266980857718328e-06,
      "loss": 0.0532,
      "num_input_tokens_seen": 69585832,
      "step": 119900
    },
    {
      "epoch": 17.85895144474233,
      "grad_norm": 1.0701372957555577e-05,
      "learning_rate": 1.7255116184346277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69588648,
      "step": 119905
    },
    {
      "epoch": 17.859696157283288,
      "grad_norm": 2.5337083116028225e-06,
      "learning_rate": 1.724325544296243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69591400,
      "step": 119910
    },
    {
      "epoch": 17.86044086982425,
      "grad_norm": 0.00165088742505759,
      "learning_rate": 1.7231398633767272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69594408,
      "step": 119915
    },
    {
      "epoch": 17.861185582365206,
      "grad_norm": 2.7107780624646693e-05,
      "learning_rate": 1.7219545756961025e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69597128,
      "step": 119920
    },
    {
      "epoch": 17.861930294906166,
      "grad_norm": 4.224853910272941e-06,
      "learning_rate": 1.7207696812744007e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69600168,
      "step": 119925
    },
    {
      "epoch": 17.862675007447127,
      "grad_norm": 0.0003877040871884674,
      "learning_rate": 1.719585180131636e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69603304,
      "step": 119930
    },
    {
      "epoch": 17.863419719988084,
      "grad_norm": 4.8189886001637205e-05,
      "learning_rate": 1.7184010722878146e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 69606184,
      "step": 119935
    },
    {
      "epoch": 17.864164432529044,
      "grad_norm": 2.47247917286586e-05,
      "learning_rate": 1.7172173577629459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69609096,
      "step": 119940
    },
    {
      "epoch": 17.86490914507,
      "grad_norm": 4.12528697779635e-06,
      "learning_rate": 1.7160340365770272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69612104,
      "step": 119945
    },
    {
      "epoch": 17.865653857610962,
      "grad_norm": 4.9666563427308574e-05,
      "learning_rate": 1.7148511087500485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69614888,
      "step": 119950
    },
    {
      "epoch": 17.866398570151922,
      "grad_norm": 2.8125195967731997e-05,
      "learning_rate": 1.7136685743019909e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69617800,
      "step": 119955
    },
    {
      "epoch": 17.86714328269288,
      "grad_norm": 0.00018732658645603806,
      "learning_rate": 1.7124864332528412e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69620808,
      "step": 119960
    },
    {
      "epoch": 17.86788799523384,
      "grad_norm": 2.3189075363916345e-05,
      "learning_rate": 1.7113046856225611e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69623720,
      "step": 119965
    },
    {
      "epoch": 17.8686327077748,
      "grad_norm": 1.828047061280813e-05,
      "learning_rate": 1.7101233314311181e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69626536,
      "step": 119970
    },
    {
      "epoch": 17.869377420315757,
      "grad_norm": 4.193912900518626e-06,
      "learning_rate": 1.7089423706984742e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69629448,
      "step": 119975
    },
    {
      "epoch": 17.870122132856718,
      "grad_norm": 3.682178430608474e-05,
      "learning_rate": 1.7077618034445714e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69632360,
      "step": 119980
    },
    {
      "epoch": 17.870866845397675,
      "grad_norm": 6.300630957412068e-06,
      "learning_rate": 1.706581629689366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69635464,
      "step": 119985
    },
    {
      "epoch": 17.871611557938635,
      "grad_norm": 1.379525383526925e-05,
      "learning_rate": 1.705401849452784e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69638056,
      "step": 119990
    },
    {
      "epoch": 17.872356270479596,
      "grad_norm": 0.00010386908252257854,
      "learning_rate": 1.7042224627547676e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69641288,
      "step": 119995
    },
    {
      "epoch": 17.873100983020553,
      "grad_norm": 4.220761184114963e-06,
      "learning_rate": 1.7030434696152342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69644296,
      "step": 120000
    },
    {
      "epoch": 17.873845695561513,
      "grad_norm": 5.877926741959527e-05,
      "learning_rate": 1.701864870054104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69647144,
      "step": 120005
    },
    {
      "epoch": 17.874590408102474,
      "grad_norm": 0.00031651038443669677,
      "learning_rate": 1.700686664091286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69649992,
      "step": 120010
    },
    {
      "epoch": 17.87533512064343,
      "grad_norm": 0.00011835922487080097,
      "learning_rate": 1.6995088517466867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69653096,
      "step": 120015
    },
    {
      "epoch": 17.87607983318439,
      "grad_norm": 3.6008914321428165e-05,
      "learning_rate": 1.6983314330402039e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69656264,
      "step": 120020
    },
    {
      "epoch": 17.87682454572535,
      "grad_norm": 4.4392286326910835e-06,
      "learning_rate": 1.6971544079917273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69659272,
      "step": 120025
    },
    {
      "epoch": 17.87756925826631,
      "grad_norm": 0.00029804272344335914,
      "learning_rate": 1.6959777766211437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69662312,
      "step": 120030
    },
    {
      "epoch": 17.87831397080727,
      "grad_norm": 5.2767558372579515e-05,
      "learning_rate": 1.6948015389483291e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69665096,
      "step": 120035
    },
    {
      "epoch": 17.879058683348227,
      "grad_norm": 0.00013186894648242742,
      "learning_rate": 1.6936256949931618e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69668200,
      "step": 120040
    },
    {
      "epoch": 17.879803395889187,
      "grad_norm": 8.141383295878768e-05,
      "learning_rate": 1.692450244775498e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69671208,
      "step": 120045
    },
    {
      "epoch": 17.880548108430148,
      "grad_norm": 6.077046782593243e-05,
      "learning_rate": 1.6912751883151945e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69674088,
      "step": 120050
    },
    {
      "epoch": 17.881292820971105,
      "grad_norm": 0.00010274686064803973,
      "learning_rate": 1.6901005256321128e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69676872,
      "step": 120055
    },
    {
      "epoch": 17.882037533512065,
      "grad_norm": 3.6955816540285014e-06,
      "learning_rate": 1.6889262567460846e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69679848,
      "step": 120060
    },
    {
      "epoch": 17.882782246053022,
      "grad_norm": 9.96742437564535e-06,
      "learning_rate": 1.6877523816769603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69682728,
      "step": 120065
    },
    {
      "epoch": 17.883526958593983,
      "grad_norm": 0.0034435929264873266,
      "learning_rate": 1.6865789004445686e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69685704,
      "step": 120070
    },
    {
      "epoch": 17.884271671134943,
      "grad_norm": 1.8344502677791752e-05,
      "learning_rate": 1.6854058130687272e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69688328,
      "step": 120075
    },
    {
      "epoch": 17.8850163836759,
      "grad_norm": 9.343269994133152e-06,
      "learning_rate": 1.684233119569259e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69691112,
      "step": 120080
    },
    {
      "epoch": 17.88576109621686,
      "grad_norm": 0.00018218775221612304,
      "learning_rate": 1.683060819965976e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69693960,
      "step": 120085
    },
    {
      "epoch": 17.886505808757818,
      "grad_norm": 6.417490112653468e-06,
      "learning_rate": 1.6818889142786842e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69696968,
      "step": 120090
    },
    {
      "epoch": 17.88725052129878,
      "grad_norm": 4.522046583588235e-05,
      "learning_rate": 1.6807174025271737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69699912,
      "step": 120095
    },
    {
      "epoch": 17.88799523383974,
      "grad_norm": 3.531165930326097e-05,
      "learning_rate": 1.6795462847312481e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69702984,
      "step": 120100
    },
    {
      "epoch": 17.888739946380696,
      "grad_norm": 4.788259502674919e-06,
      "learning_rate": 1.6783755609106804e-06,
      "loss": 0.0005,
      "num_input_tokens_seen": 69705736,
      "step": 120105
    },
    {
      "epoch": 17.889484658921656,
      "grad_norm": 5.429879092844203e-05,
      "learning_rate": 1.6772052310852605e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69708808,
      "step": 120110
    },
    {
      "epoch": 17.890229371462617,
      "grad_norm": 2.9554348657256924e-05,
      "learning_rate": 1.6760352952747472e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69711784,
      "step": 120115
    },
    {
      "epoch": 17.890974084003574,
      "grad_norm": 6.809402839280665e-05,
      "learning_rate": 1.6748657534989194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69714632,
      "step": 120120
    },
    {
      "epoch": 17.891718796544534,
      "grad_norm": 1.4042116163182072e-05,
      "learning_rate": 1.673696605777525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69717736,
      "step": 120125
    },
    {
      "epoch": 17.89246350908549,
      "grad_norm": 7.334056863328442e-05,
      "learning_rate": 1.6725278521303178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69720296,
      "step": 120130
    },
    {
      "epoch": 17.893208221626452,
      "grad_norm": 0.0003538991149980575,
      "learning_rate": 1.6713594925770459e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69723176,
      "step": 120135
    },
    {
      "epoch": 17.893952934167412,
      "grad_norm": 1.330267059529433e-05,
      "learning_rate": 1.6701915271374436e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69725672,
      "step": 120140
    },
    {
      "epoch": 17.89469764670837,
      "grad_norm": 5.591016815742478e-05,
      "learning_rate": 1.6690239558312476e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69728456,
      "step": 120145
    },
    {
      "epoch": 17.89544235924933,
      "grad_norm": 2.379918669248582e-06,
      "learning_rate": 1.667856778678173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69731400,
      "step": 120150
    },
    {
      "epoch": 17.89618707179029,
      "grad_norm": 8.368814633286092e-06,
      "learning_rate": 1.6666899956979483e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69734312,
      "step": 120155
    },
    {
      "epoch": 17.896931784331247,
      "grad_norm": 0.024386735633015633,
      "learning_rate": 1.665523606910277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69737096,
      "step": 120160
    },
    {
      "epoch": 17.897676496872208,
      "grad_norm": 5.838872766616987e-06,
      "learning_rate": 1.6643576123348741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69739976,
      "step": 120165
    },
    {
      "epoch": 17.898421209413165,
      "grad_norm": 4.685743260779418e-05,
      "learning_rate": 1.6631920119914296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69742856,
      "step": 120170
    },
    {
      "epoch": 17.899165921954125,
      "grad_norm": 8.967837493401021e-05,
      "learning_rate": 1.6620268058996357e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69745512,
      "step": 120175
    },
    {
      "epoch": 17.899910634495086,
      "grad_norm": 7.123265822883695e-05,
      "learning_rate": 1.6608619940791826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69748488,
      "step": 120180
    },
    {
      "epoch": 17.900655347036043,
      "grad_norm": 7.611381442984566e-05,
      "learning_rate": 1.6596975765497403e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69751464,
      "step": 120185
    },
    {
      "epoch": 17.901400059577004,
      "grad_norm": 0.0001645658048801124,
      "learning_rate": 1.6585335533309903e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69754536,
      "step": 120190
    },
    {
      "epoch": 17.902144772117964,
      "grad_norm": 2.743385084613692e-05,
      "learning_rate": 1.6573699244425895e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69757384,
      "step": 120195
    },
    {
      "epoch": 17.90288948465892,
      "grad_norm": 1.4398637176782358e-05,
      "learning_rate": 1.6562066899042023e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69760328,
      "step": 120200
    },
    {
      "epoch": 17.90363419719988,
      "grad_norm": 0.0034875054843723774,
      "learning_rate": 1.655043849735477e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69763208,
      "step": 120205
    },
    {
      "epoch": 17.90437890974084,
      "grad_norm": 9.406712342752144e-05,
      "learning_rate": 1.653881403956062e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69766184,
      "step": 120210
    },
    {
      "epoch": 17.9051236222818,
      "grad_norm": 5.273890110402135e-06,
      "learning_rate": 1.6527193525855911e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69769160,
      "step": 120215
    },
    {
      "epoch": 17.90586833482276,
      "grad_norm": 1.4022228242538404e-05,
      "learning_rate": 1.6515576956436906e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69771848,
      "step": 120220
    },
    {
      "epoch": 17.906613047363717,
      "grad_norm": 0.00012276276538614184,
      "learning_rate": 1.6503964331500004e-06,
      "loss": 0.1906,
      "num_input_tokens_seen": 69774632,
      "step": 120225
    },
    {
      "epoch": 17.907357759904677,
      "grad_norm": 1.3926535757491365e-05,
      "learning_rate": 1.649235565124127e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69777896,
      "step": 120230
    },
    {
      "epoch": 17.908102472445638,
      "grad_norm": 3.408672682780889e-06,
      "learning_rate": 1.648075091585688e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69780744,
      "step": 120235
    },
    {
      "epoch": 17.908847184986595,
      "grad_norm": 3.329687160658068e-06,
      "learning_rate": 1.6469150125542843e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69783624,
      "step": 120240
    },
    {
      "epoch": 17.909591897527555,
      "grad_norm": 6.979009776841849e-05,
      "learning_rate": 1.6457553280495168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69786280,
      "step": 120245
    },
    {
      "epoch": 17.910336610068512,
      "grad_norm": 0.00010519889474380761,
      "learning_rate": 1.6445960380909814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69789160,
      "step": 120250
    },
    {
      "epoch": 17.911081322609473,
      "grad_norm": 3.1715058867121115e-05,
      "learning_rate": 1.6434371426982508e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69791784,
      "step": 120255
    },
    {
      "epoch": 17.911826035150433,
      "grad_norm": 3.5347111406736076e-06,
      "learning_rate": 1.642278641890918e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 69794760,
      "step": 120260
    },
    {
      "epoch": 17.91257074769139,
      "grad_norm": 2.542062611610163e-05,
      "learning_rate": 1.641120535688548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69797512,
      "step": 120265
    },
    {
      "epoch": 17.91331546023235,
      "grad_norm": 3.597339673433453e-05,
      "learning_rate": 1.6399628241106996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69800392,
      "step": 120270
    },
    {
      "epoch": 17.91406017277331,
      "grad_norm": 1.73516855284106e-05,
      "learning_rate": 1.638805507176941e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69803304,
      "step": 120275
    },
    {
      "epoch": 17.91480488531427,
      "grad_norm": 3.381664282642305e-05,
      "learning_rate": 1.637648584906823e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69806312,
      "step": 120280
    },
    {
      "epoch": 17.91554959785523,
      "grad_norm": 0.0001433024590369314,
      "learning_rate": 1.6364920573198856e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69809256,
      "step": 120285
    },
    {
      "epoch": 17.916294310396186,
      "grad_norm": 6.231523457245203e-06,
      "learning_rate": 1.6353359244356658e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69812456,
      "step": 120290
    },
    {
      "epoch": 17.917039022937146,
      "grad_norm": 2.453601609886391e-06,
      "learning_rate": 1.634180186273701e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69815528,
      "step": 120295
    },
    {
      "epoch": 17.917783735478107,
      "grad_norm": 1.2807521670765709e-05,
      "learning_rate": 1.6330248428535117e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69818440,
      "step": 120300
    },
    {
      "epoch": 17.918528448019064,
      "grad_norm": 2.7254262022324838e-05,
      "learning_rate": 1.6318698941946237e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69821160,
      "step": 120305
    },
    {
      "epoch": 17.919273160560024,
      "grad_norm": 3.220582220819779e-05,
      "learning_rate": 1.6307153403165382e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69824168,
      "step": 120310
    },
    {
      "epoch": 17.92001787310098,
      "grad_norm": 6.297858635662124e-05,
      "learning_rate": 1.6295611812387673e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69826664,
      "step": 120315
    },
    {
      "epoch": 17.920762585641942,
      "grad_norm": 2.1869100237381645e-06,
      "learning_rate": 1.6284074169808067e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69829544,
      "step": 120320
    },
    {
      "epoch": 17.921507298182902,
      "grad_norm": 3.556529190973379e-05,
      "learning_rate": 1.6272540475621518e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69832488,
      "step": 120325
    },
    {
      "epoch": 17.92225201072386,
      "grad_norm": 1.0737500815594103e-05,
      "learning_rate": 1.6261010730022842e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69835240,
      "step": 120330
    },
    {
      "epoch": 17.92299672326482,
      "grad_norm": 7.663214091735426e-06,
      "learning_rate": 1.6249484933206853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69838184,
      "step": 120335
    },
    {
      "epoch": 17.92374143580578,
      "grad_norm": 3.1064228096511215e-05,
      "learning_rate": 1.6237963085368236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69841128,
      "step": 120340
    },
    {
      "epoch": 17.924486148346737,
      "grad_norm": 8.215568232117221e-05,
      "learning_rate": 1.6226445186701577e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69843912,
      "step": 120345
    },
    {
      "epoch": 17.925230860887698,
      "grad_norm": 0.0004843530768994242,
      "learning_rate": 1.6214931237401588e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69846824,
      "step": 120350
    },
    {
      "epoch": 17.925975573428655,
      "grad_norm": 0.00012216540926601738,
      "learning_rate": 1.6203421237662692e-06,
      "loss": 0.03,
      "num_input_tokens_seen": 69849608,
      "step": 120355
    },
    {
      "epoch": 17.926720285969616,
      "grad_norm": 3.508948429953307e-05,
      "learning_rate": 1.619191518767943e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69852744,
      "step": 120360
    },
    {
      "epoch": 17.927464998510576,
      "grad_norm": 6.408408808056265e-05,
      "learning_rate": 1.618041308764609e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69855784,
      "step": 120365
    },
    {
      "epoch": 17.928209711051533,
      "grad_norm": 4.6158686018316075e-05,
      "learning_rate": 1.6168914937757019e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69858632,
      "step": 120370
    },
    {
      "epoch": 17.928954423592494,
      "grad_norm": 7.753202953608707e-05,
      "learning_rate": 1.6157420738206503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69861544,
      "step": 120375
    },
    {
      "epoch": 17.929699136133454,
      "grad_norm": 7.668765465496108e-05,
      "learning_rate": 1.6145930489188666e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69864296,
      "step": 120380
    },
    {
      "epoch": 17.93044384867441,
      "grad_norm": 0.0003630378341767937,
      "learning_rate": 1.6134444190897685e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69867080,
      "step": 120385
    },
    {
      "epoch": 17.93118856121537,
      "grad_norm": 2.1736170310759917e-05,
      "learning_rate": 1.6122961843527546e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69870184,
      "step": 120390
    },
    {
      "epoch": 17.93193327375633,
      "grad_norm": 8.622346285847016e-06,
      "learning_rate": 1.6111483447272286e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69873000,
      "step": 120395
    },
    {
      "epoch": 17.93267798629729,
      "grad_norm": 0.002475364599376917,
      "learning_rate": 1.6100009002325806e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69876008,
      "step": 120400
    },
    {
      "epoch": 17.93342269883825,
      "grad_norm": 4.339930819696747e-05,
      "learning_rate": 1.608853850888195e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69878888,
      "step": 120405
    },
    {
      "epoch": 17.934167411379207,
      "grad_norm": 9.31362865230767e-06,
      "learning_rate": 1.6077071967134511e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69881800,
      "step": 120410
    },
    {
      "epoch": 17.934912123920167,
      "grad_norm": 7.108787031029351e-06,
      "learning_rate": 1.6065609377277136e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69884456,
      "step": 120415
    },
    {
      "epoch": 17.935656836461128,
      "grad_norm": 3.056649075006135e-05,
      "learning_rate": 1.6054150739503587e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69887144,
      "step": 120420
    },
    {
      "epoch": 17.936401549002085,
      "grad_norm": 4.623726908903336e-06,
      "learning_rate": 1.604269605400735e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69890120,
      "step": 120425
    },
    {
      "epoch": 17.937146261543045,
      "grad_norm": 0.0004523182869888842,
      "learning_rate": 1.6031245320982018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69893000,
      "step": 120430
    },
    {
      "epoch": 17.937890974084002,
      "grad_norm": 2.248147029604297e-05,
      "learning_rate": 1.601979854062094e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69895848,
      "step": 120435
    },
    {
      "epoch": 17.938635686624963,
      "grad_norm": 6.871490768389776e-06,
      "learning_rate": 1.6008355713117623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69898696,
      "step": 120440
    },
    {
      "epoch": 17.939380399165923,
      "grad_norm": 4.8852376494323835e-05,
      "learning_rate": 1.599691683866525e-06,
      "loss": 0.0022,
      "num_input_tokens_seen": 69901640,
      "step": 120445
    },
    {
      "epoch": 17.94012511170688,
      "grad_norm": 8.789681305643171e-05,
      "learning_rate": 1.5985481917457217e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69904680,
      "step": 120450
    },
    {
      "epoch": 17.94086982424784,
      "grad_norm": 2.5751942303031683e-06,
      "learning_rate": 1.5974050949686597e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69907624,
      "step": 120455
    },
    {
      "epoch": 17.941614536788798,
      "grad_norm": 9.254005817638244e-06,
      "learning_rate": 1.5962623935546483e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69910408,
      "step": 120460
    },
    {
      "epoch": 17.94235924932976,
      "grad_norm": 1.794371996766131e-06,
      "learning_rate": 1.5951200875230055e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69913736,
      "step": 120465
    },
    {
      "epoch": 17.94310396187072,
      "grad_norm": 0.0002365554973948747,
      "learning_rate": 1.5939781768930185e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69916360,
      "step": 120470
    },
    {
      "epoch": 17.943848674411676,
      "grad_norm": 5.217204034124734e-06,
      "learning_rate": 1.59283666168398e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69919080,
      "step": 120475
    },
    {
      "epoch": 17.944593386952636,
      "grad_norm": 3.0444540243479423e-05,
      "learning_rate": 1.5916955419151725e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69921928,
      "step": 120480
    },
    {
      "epoch": 17.945338099493597,
      "grad_norm": 6.635957106482238e-05,
      "learning_rate": 1.5905548176058826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69924968,
      "step": 120485
    },
    {
      "epoch": 17.946082812034554,
      "grad_norm": 2.2720965716871433e-05,
      "learning_rate": 1.5894144887753786e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69927848,
      "step": 120490
    },
    {
      "epoch": 17.946827524575514,
      "grad_norm": 4.1316443457617424e-06,
      "learning_rate": 1.5882745554429174e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69930728,
      "step": 120495
    },
    {
      "epoch": 17.94757223711647,
      "grad_norm": 0.00018048151105176657,
      "learning_rate": 1.5871350176277667e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69933512,
      "step": 120500
    },
    {
      "epoch": 17.948316949657432,
      "grad_norm": 5.772223630629014e-06,
      "learning_rate": 1.585995875349172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69936424,
      "step": 120505
    },
    {
      "epoch": 17.949061662198392,
      "grad_norm": 2.7129097361466847e-05,
      "learning_rate": 1.5848571286263825e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69939272,
      "step": 120510
    },
    {
      "epoch": 17.94980637473935,
      "grad_norm": 0.00023897428764030337,
      "learning_rate": 1.5837187774786293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69942184,
      "step": 120515
    },
    {
      "epoch": 17.95055108728031,
      "grad_norm": 1.7270540411118418e-05,
      "learning_rate": 1.5825808219251532e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69945480,
      "step": 120520
    },
    {
      "epoch": 17.95129579982127,
      "grad_norm": 0.0006264614057727158,
      "learning_rate": 1.5814432619851687e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69948328,
      "step": 120525
    },
    {
      "epoch": 17.952040512362228,
      "grad_norm": 3.1459876481676474e-05,
      "learning_rate": 1.5803060976779026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69951144,
      "step": 120530
    },
    {
      "epoch": 17.952785224903188,
      "grad_norm": 6.242836661840556e-06,
      "learning_rate": 1.5791693290225646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69954312,
      "step": 120535
    },
    {
      "epoch": 17.953529937444145,
      "grad_norm": 2.4910086722229607e-06,
      "learning_rate": 1.5780329560383527e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69957384,
      "step": 120540
    },
    {
      "epoch": 17.954274649985106,
      "grad_norm": 2.2334888853947632e-05,
      "learning_rate": 1.5768969787444716e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69960296,
      "step": 120545
    },
    {
      "epoch": 17.955019362526066,
      "grad_norm": 5.864997092430713e-06,
      "learning_rate": 1.5757613971601054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69963464,
      "step": 120550
    },
    {
      "epoch": 17.955764075067023,
      "grad_norm": 5.904807403567247e-05,
      "learning_rate": 1.5746262113044474e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69966472,
      "step": 120555
    },
    {
      "epoch": 17.956508787607984,
      "grad_norm": 9.724002666189335e-06,
      "learning_rate": 1.5734914211966683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69969352,
      "step": 120560
    },
    {
      "epoch": 17.957253500148944,
      "grad_norm": 6.764109457435552e-06,
      "learning_rate": 1.5723570268559445e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69972232,
      "step": 120565
    },
    {
      "epoch": 17.9579982126899,
      "grad_norm": 0.0003108544333372265,
      "learning_rate": 1.5712230283014385e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69975176,
      "step": 120570
    },
    {
      "epoch": 17.95874292523086,
      "grad_norm": 0.0001025626334012486,
      "learning_rate": 1.570089425552304e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69978312,
      "step": 120575
    },
    {
      "epoch": 17.95948763777182,
      "grad_norm": 1.0651326192601118e-05,
      "learning_rate": 1.5689562186276986e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69981192,
      "step": 120580
    },
    {
      "epoch": 17.96023235031278,
      "grad_norm": 2.028653398156166e-05,
      "learning_rate": 1.567823407546759e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69984392,
      "step": 120585
    },
    {
      "epoch": 17.96097706285374,
      "grad_norm": 4.965545031154761e-06,
      "learning_rate": 1.5666909923286315e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69987048,
      "step": 120590
    },
    {
      "epoch": 17.961721775394697,
      "grad_norm": 0.0008905812283046544,
      "learning_rate": 1.5655589729924453e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69989896,
      "step": 120595
    },
    {
      "epoch": 17.962466487935657,
      "grad_norm": 1.7280085558013525e-06,
      "learning_rate": 1.564427349557318e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69992872,
      "step": 120600
    },
    {
      "epoch": 17.963211200476614,
      "grad_norm": 0.00018914487736765295,
      "learning_rate": 1.5632961220423737e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69996040,
      "step": 120605
    },
    {
      "epoch": 17.963955913017575,
      "grad_norm": 1.6082723959698342e-05,
      "learning_rate": 1.5621652904667244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 69998856,
      "step": 120610
    },
    {
      "epoch": 17.964700625558535,
      "grad_norm": 1.539238110126462e-05,
      "learning_rate": 1.5610348548494692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70001768,
      "step": 120615
    },
    {
      "epoch": 17.965445338099492,
      "grad_norm": 5.286280156724388e-06,
      "learning_rate": 1.5599048152097034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70004616,
      "step": 120620
    },
    {
      "epoch": 17.966190050640453,
      "grad_norm": 0.00018744579574558884,
      "learning_rate": 1.558775171566529e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70007560,
      "step": 120625
    },
    {
      "epoch": 17.966934763181413,
      "grad_norm": 0.00012470372894313186,
      "learning_rate": 1.5576459239390162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70010504,
      "step": 120630
    },
    {
      "epoch": 17.96767947572237,
      "grad_norm": 3.126630326732993e-05,
      "learning_rate": 1.5565170723462558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70013256,
      "step": 120635
    },
    {
      "epoch": 17.96842418826333,
      "grad_norm": 4.1472500015515834e-05,
      "learning_rate": 1.5553886168073073e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70016200,
      "step": 120640
    },
    {
      "epoch": 17.969168900804288,
      "grad_norm": 0.00012380977568682283,
      "learning_rate": 1.5542605573412444e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70019048,
      "step": 120645
    },
    {
      "epoch": 17.96991361334525,
      "grad_norm": 8.473525667795911e-05,
      "learning_rate": 1.5531328939671215e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70021768,
      "step": 120650
    },
    {
      "epoch": 17.97065832588621,
      "grad_norm": 0.0034273883793503046,
      "learning_rate": 1.552005626703984e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70024872,
      "step": 120655
    },
    {
      "epoch": 17.971403038427166,
      "grad_norm": 1.1378795534255914e-05,
      "learning_rate": 1.550878755570881e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70027816,
      "step": 120660
    },
    {
      "epoch": 17.972147750968126,
      "grad_norm": 1.1744548828573897e-05,
      "learning_rate": 1.5497522805868525e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70030792,
      "step": 120665
    },
    {
      "epoch": 17.972892463509087,
      "grad_norm": 0.00017732942069415003,
      "learning_rate": 1.5486262017709225e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70033736,
      "step": 120670
    },
    {
      "epoch": 17.973637176050044,
      "grad_norm": 0.0005339216440916061,
      "learning_rate": 1.5475005191421172e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70036968,
      "step": 120675
    },
    {
      "epoch": 17.974381888591004,
      "grad_norm": 4.598831583280116e-05,
      "learning_rate": 1.5463752327194548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70039880,
      "step": 120680
    },
    {
      "epoch": 17.97512660113196,
      "grad_norm": 7.606887083966285e-05,
      "learning_rate": 1.545250342521945e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70042888,
      "step": 120685
    },
    {
      "epoch": 17.975871313672922,
      "grad_norm": 2.7274845706415363e-06,
      "learning_rate": 1.544125848568595e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70046024,
      "step": 120690
    },
    {
      "epoch": 17.976616026213883,
      "grad_norm": 4.410264591570012e-05,
      "learning_rate": 1.5430017508783978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70049064,
      "step": 120695
    },
    {
      "epoch": 17.97736073875484,
      "grad_norm": 5.71347391087329e-06,
      "learning_rate": 1.541878049470344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70051816,
      "step": 120700
    },
    {
      "epoch": 17.9781054512958,
      "grad_norm": 2.4095195840345696e-05,
      "learning_rate": 1.5407547443634206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70054984,
      "step": 120705
    },
    {
      "epoch": 17.97885016383676,
      "grad_norm": 1.236154366779374e-05,
      "learning_rate": 1.5396318355765993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70058024,
      "step": 120710
    },
    {
      "epoch": 17.979594876377718,
      "grad_norm": 2.174851033487357e-06,
      "learning_rate": 1.538509323128859e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70060840,
      "step": 120715
    },
    {
      "epoch": 17.980339588918678,
      "grad_norm": 4.624709617928602e-06,
      "learning_rate": 1.5373872070391536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70063528,
      "step": 120720
    },
    {
      "epoch": 17.981084301459635,
      "grad_norm": 3.768404349102639e-05,
      "learning_rate": 1.5362654873264493e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70066440,
      "step": 120725
    },
    {
      "epoch": 17.981829014000596,
      "grad_norm": 1.9843626432702877e-05,
      "learning_rate": 1.5351441640096941e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70069288,
      "step": 120730
    },
    {
      "epoch": 17.982573726541556,
      "grad_norm": 4.65814555354882e-05,
      "learning_rate": 1.5340232371078262e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70072264,
      "step": 120735
    },
    {
      "epoch": 17.983318439082513,
      "grad_norm": 4.8633293772581965e-05,
      "learning_rate": 1.5329027066397884e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70075272,
      "step": 120740
    },
    {
      "epoch": 17.984063151623474,
      "grad_norm": 2.747133476077579e-05,
      "learning_rate": 1.5317825726245045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70078024,
      "step": 120745
    },
    {
      "epoch": 17.984807864164434,
      "grad_norm": 2.7987620342173614e-05,
      "learning_rate": 1.5306628350809037e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70081096,
      "step": 120750
    },
    {
      "epoch": 17.98555257670539,
      "grad_norm": 9.361748197989073e-06,
      "learning_rate": 1.529543494027899e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70084008,
      "step": 120755
    },
    {
      "epoch": 17.98629728924635,
      "grad_norm": 7.929430466901977e-06,
      "learning_rate": 1.5284245494844057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70086792,
      "step": 120760
    },
    {
      "epoch": 17.98704200178731,
      "grad_norm": 8.126803550112527e-06,
      "learning_rate": 1.5273060014693224e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70089672,
      "step": 120765
    },
    {
      "epoch": 17.98778671432827,
      "grad_norm": 0.00018002420256379992,
      "learning_rate": 1.526187850001548e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70092424,
      "step": 120770
    },
    {
      "epoch": 17.98853142686923,
      "grad_norm": 3.718100288097048e-06,
      "learning_rate": 1.5250700950999758e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70095528,
      "step": 120775
    },
    {
      "epoch": 17.989276139410187,
      "grad_norm": 0.0001361478352919221,
      "learning_rate": 1.5239527367834794e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70098472,
      "step": 120780
    },
    {
      "epoch": 17.990020851951147,
      "grad_norm": 4.538328539638314e-06,
      "learning_rate": 1.5228357750709465e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70101416,
      "step": 120785
    },
    {
      "epoch": 17.990765564492108,
      "grad_norm": 1.5016757060948294e-05,
      "learning_rate": 1.5217192099812372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70104328,
      "step": 120790
    },
    {
      "epoch": 17.991510277033065,
      "grad_norm": 2.2593997073272476e-06,
      "learning_rate": 1.5206030415332223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70107112,
      "step": 120795
    },
    {
      "epoch": 17.992254989574025,
      "grad_norm": 5.900026735616848e-05,
      "learning_rate": 1.519487269745759e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70110088,
      "step": 120800
    },
    {
      "epoch": 17.992999702114982,
      "grad_norm": 0.0011242454638704658,
      "learning_rate": 1.5183718946376907e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70114056,
      "step": 120805
    },
    {
      "epoch": 17.993744414655943,
      "grad_norm": 5.636164132738486e-06,
      "learning_rate": 1.5172569162278661e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70116808,
      "step": 120810
    },
    {
      "epoch": 17.994489127196903,
      "grad_norm": 3.540092075127177e-05,
      "learning_rate": 1.5161423345351116e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70119592,
      "step": 120815
    },
    {
      "epoch": 17.99523383973786,
      "grad_norm": 0.00015940151934046298,
      "learning_rate": 1.515028149578271e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70122536,
      "step": 120820
    },
    {
      "epoch": 17.99597855227882,
      "grad_norm": 0.000545113580301404,
      "learning_rate": 1.5139143613761565e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70125672,
      "step": 120825
    },
    {
      "epoch": 17.996723264819778,
      "grad_norm": 6.123125331214396e-06,
      "learning_rate": 1.5128009699475948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70128392,
      "step": 120830
    },
    {
      "epoch": 17.99746797736074,
      "grad_norm": 5.015335773350671e-06,
      "learning_rate": 1.5116879753113822e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70131208,
      "step": 120835
    },
    {
      "epoch": 17.9982126899017,
      "grad_norm": 5.2246257837396115e-05,
      "learning_rate": 1.510575377486334e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70133800,
      "step": 120840
    },
    {
      "epoch": 17.998957402442656,
      "grad_norm": 1.6752746887505054e-05,
      "learning_rate": 1.5094631764912354e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70136584,
      "step": 120845
    },
    {
      "epoch": 17.999702114983616,
      "grad_norm": 6.147019121272024e-06,
      "learning_rate": 1.5083513723448877e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70139176,
      "step": 120850
    },
    {
      "epoch": 18.0,
      "eval_loss": 3.199291467666626,
      "eval_runtime": 49.1309,
      "eval_samples_per_second": 60.736,
      "eval_steps_per_second": 15.184,
      "num_input_tokens_seen": 70140040,
      "step": 120852
    },
    {
      "epoch": 18.000446827524577,
      "grad_norm": 4.3174627535336185e-06,
      "learning_rate": 1.507239965066068e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70141768,
      "step": 120855
    },
    {
      "epoch": 18.001191540065534,
      "grad_norm": 1.0297355402144603e-05,
      "learning_rate": 1.506128954673547e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70145032,
      "step": 120860
    },
    {
      "epoch": 18.001936252606495,
      "grad_norm": 1.78448754013516e-05,
      "learning_rate": 1.505018341186104e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70147816,
      "step": 120865
    },
    {
      "epoch": 18.00268096514745,
      "grad_norm": 2.1773355911136605e-05,
      "learning_rate": 1.5039081246224967e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70150696,
      "step": 120870
    },
    {
      "epoch": 18.003425677688412,
      "grad_norm": 1.0607778676785529e-05,
      "learning_rate": 1.502798305001482e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70153544,
      "step": 120875
    },
    {
      "epoch": 18.004170390229373,
      "grad_norm": 5.061506453785114e-05,
      "learning_rate": 1.5016888823418035e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70156616,
      "step": 120880
    },
    {
      "epoch": 18.00491510277033,
      "grad_norm": 0.00022681789414491504,
      "learning_rate": 1.5005798566622125e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70159560,
      "step": 120885
    },
    {
      "epoch": 18.00565981531129,
      "grad_norm": 1.507706997472269e-06,
      "learning_rate": 1.4994712279814415e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70162312,
      "step": 120890
    },
    {
      "epoch": 18.00640452785225,
      "grad_norm": 8.490103209624067e-05,
      "learning_rate": 1.4983629963182143e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70165320,
      "step": 120895
    },
    {
      "epoch": 18.007149240393208,
      "grad_norm": 2.288606447109487e-05,
      "learning_rate": 1.4972551616912633e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70168424,
      "step": 120900
    },
    {
      "epoch": 18.007893952934168,
      "grad_norm": 1.9959843484684825e-06,
      "learning_rate": 1.4961477241192956e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70171144,
      "step": 120905
    },
    {
      "epoch": 18.008638665475125,
      "grad_norm": 0.0002113733789883554,
      "learning_rate": 1.4950406836210267e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70174024,
      "step": 120910
    },
    {
      "epoch": 18.009383378016086,
      "grad_norm": 5.019354648538865e-05,
      "learning_rate": 1.493934040215153e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70176872,
      "step": 120915
    },
    {
      "epoch": 18.010128090557046,
      "grad_norm": 0.0007669187616556883,
      "learning_rate": 1.492827793920376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70179624,
      "step": 120920
    },
    {
      "epoch": 18.010872803098003,
      "grad_norm": 0.0006093480042181909,
      "learning_rate": 1.4917219447553838e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70182664,
      "step": 120925
    },
    {
      "epoch": 18.011617515638964,
      "grad_norm": 0.0006013024831190705,
      "learning_rate": 1.49061649273885e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70185640,
      "step": 120930
    },
    {
      "epoch": 18.012362228179924,
      "grad_norm": 4.1824914660537615e-06,
      "learning_rate": 1.4895114378894625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70188360,
      "step": 120935
    },
    {
      "epoch": 18.01310694072088,
      "grad_norm": 3.0748303743166616e-06,
      "learning_rate": 1.4884067802258845e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70191304,
      "step": 120940
    },
    {
      "epoch": 18.013851653261842,
      "grad_norm": 2.3645673081773566e-06,
      "learning_rate": 1.4873025197667756e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70194120,
      "step": 120945
    },
    {
      "epoch": 18.0145963658028,
      "grad_norm": 3.162150824209675e-05,
      "learning_rate": 1.4861986565307935e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70196872,
      "step": 120950
    },
    {
      "epoch": 18.01534107834376,
      "grad_norm": 0.0001021240750560537,
      "learning_rate": 1.4850951905365868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70199880,
      "step": 120955
    },
    {
      "epoch": 18.01608579088472,
      "grad_norm": 3.105201585640316e-06,
      "learning_rate": 1.4839921218027935e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70202664,
      "step": 120960
    },
    {
      "epoch": 18.016830503425677,
      "grad_norm": 2.8496384402387775e-05,
      "learning_rate": 1.4828894503480601e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70205832,
      "step": 120965
    },
    {
      "epoch": 18.017575215966637,
      "grad_norm": 4.349131813796703e-06,
      "learning_rate": 1.4817871761910047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70208744,
      "step": 120970
    },
    {
      "epoch": 18.018319928507594,
      "grad_norm": 6.676390330540016e-05,
      "learning_rate": 1.4806852993502485e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70211720,
      "step": 120975
    },
    {
      "epoch": 18.019064641048555,
      "grad_norm": 2.2151431039674208e-05,
      "learning_rate": 1.4795838198444157e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70214760,
      "step": 120980
    },
    {
      "epoch": 18.019809353589515,
      "grad_norm": 3.980893779953476e-06,
      "learning_rate": 1.4784827376921052e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70217704,
      "step": 120985
    },
    {
      "epoch": 18.020554066130472,
      "grad_norm": 1.6725696696084924e-05,
      "learning_rate": 1.4773820529119243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70220616,
      "step": 120990
    },
    {
      "epoch": 18.021298778671433,
      "grad_norm": 0.0006718200165778399,
      "learning_rate": 1.4762817655224664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70223496,
      "step": 120995
    },
    {
      "epoch": 18.022043491212393,
      "grad_norm": 2.5040963009814732e-05,
      "learning_rate": 1.4751818755423225e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70226312,
      "step": 121000
    },
    {
      "epoch": 18.02278820375335,
      "grad_norm": 0.0006304698181338608,
      "learning_rate": 1.4740823829900664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70229224,
      "step": 121005
    },
    {
      "epoch": 18.02353291629431,
      "grad_norm": 6.797218702558894e-06,
      "learning_rate": 1.4729832878842803e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70231912,
      "step": 121010
    },
    {
      "epoch": 18.024277628835268,
      "grad_norm": 0.0002413270267425105,
      "learning_rate": 1.4718845902435303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70234408,
      "step": 121015
    },
    {
      "epoch": 18.02502234137623,
      "grad_norm": 7.698598892602604e-06,
      "learning_rate": 1.4707862900863734e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70237288,
      "step": 121020
    },
    {
      "epoch": 18.02576705391719,
      "grad_norm": 1.216406872117659e-05,
      "learning_rate": 1.4696883874313727e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70239944,
      "step": 121025
    },
    {
      "epoch": 18.026511766458146,
      "grad_norm": 0.0026698806323111057,
      "learning_rate": 1.4685908822970663e-06,
      "loss": 0.0034,
      "num_input_tokens_seen": 70242920,
      "step": 121030
    },
    {
      "epoch": 18.027256478999107,
      "grad_norm": 1.5255362995958421e-05,
      "learning_rate": 1.4674937747020057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70245960,
      "step": 121035
    },
    {
      "epoch": 18.028001191540067,
      "grad_norm": 0.0001630149781703949,
      "learning_rate": 1.4663970646647152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70248680,
      "step": 121040
    },
    {
      "epoch": 18.028745904081024,
      "grad_norm": 6.98614094289951e-05,
      "learning_rate": 1.4653007522037325e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70251528,
      "step": 121045
    },
    {
      "epoch": 18.029490616621985,
      "grad_norm": 2.34326466852508e-06,
      "learning_rate": 1.4642048373375712e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70254280,
      "step": 121050
    },
    {
      "epoch": 18.03023532916294,
      "grad_norm": 1.6928939658100717e-05,
      "learning_rate": 1.4631093200847517e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70257224,
      "step": 121055
    },
    {
      "epoch": 18.030980041703902,
      "grad_norm": 4.029520823678467e-06,
      "learning_rate": 1.4620142004637766e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70260392,
      "step": 121060
    },
    {
      "epoch": 18.031724754244863,
      "grad_norm": 6.995377043494955e-05,
      "learning_rate": 1.4609194784931502e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70263048,
      "step": 121065
    },
    {
      "epoch": 18.03246946678582,
      "grad_norm": 0.0005193641409277916,
      "learning_rate": 1.459825154191366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70265704,
      "step": 121070
    },
    {
      "epoch": 18.03321417932678,
      "grad_norm": 0.00018730902229435742,
      "learning_rate": 1.4587312275769065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70268904,
      "step": 121075
    },
    {
      "epoch": 18.03395889186774,
      "grad_norm": 7.577037467854097e-05,
      "learning_rate": 1.4576376986682598e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70271688,
      "step": 121080
    },
    {
      "epoch": 18.034703604408698,
      "grad_norm": 0.00011559436097741127,
      "learning_rate": 1.4565445674838919e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70274632,
      "step": 121085
    },
    {
      "epoch": 18.035448316949658,
      "grad_norm": 0.0010455379961058497,
      "learning_rate": 1.455451834042279e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70277384,
      "step": 121090
    },
    {
      "epoch": 18.036193029490615,
      "grad_norm": 2.0840052457060665e-05,
      "learning_rate": 1.4543594983618792e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70280200,
      "step": 121095
    },
    {
      "epoch": 18.036937742031576,
      "grad_norm": 2.3266911739483476e-05,
      "learning_rate": 1.4532675604611412e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70283112,
      "step": 121100
    },
    {
      "epoch": 18.037682454572536,
      "grad_norm": 1.859792973846197e-05,
      "learning_rate": 1.45217602035852e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70286152,
      "step": 121105
    },
    {
      "epoch": 18.038427167113493,
      "grad_norm": 2.9599825211334974e-05,
      "learning_rate": 1.451084878072448e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70288808,
      "step": 121110
    },
    {
      "epoch": 18.039171879654454,
      "grad_norm": 4.848129265155876e-06,
      "learning_rate": 1.4499941336213657e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70291528,
      "step": 121115
    },
    {
      "epoch": 18.039916592195414,
      "grad_norm": 4.5791963202646e-05,
      "learning_rate": 1.448903787023692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70294408,
      "step": 121120
    },
    {
      "epoch": 18.04066130473637,
      "grad_norm": 4.636889570974745e-06,
      "learning_rate": 1.4478138382978595e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70297256,
      "step": 121125
    },
    {
      "epoch": 18.041406017277332,
      "grad_norm": 3.5259645301266573e-06,
      "learning_rate": 1.4467242874622726e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70300264,
      "step": 121130
    },
    {
      "epoch": 18.04215072981829,
      "grad_norm": 8.375911420444027e-06,
      "learning_rate": 1.445635134535342e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70303272,
      "step": 121135
    },
    {
      "epoch": 18.04289544235925,
      "grad_norm": 4.0205686673289165e-05,
      "learning_rate": 1.4445463795354664e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70306216,
      "step": 121140
    },
    {
      "epoch": 18.04364015490021,
      "grad_norm": 0.0010751619702205062,
      "learning_rate": 1.443458022481034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70309128,
      "step": 121145
    },
    {
      "epoch": 18.044384867441167,
      "grad_norm": 5.014667476643808e-05,
      "learning_rate": 1.4423700633904414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70312168,
      "step": 121150
    },
    {
      "epoch": 18.045129579982127,
      "grad_norm": 6.721346380800242e-06,
      "learning_rate": 1.4412825022820598e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70314856,
      "step": 121155
    },
    {
      "epoch": 18.045874292523084,
      "grad_norm": 8.68965798872523e-06,
      "learning_rate": 1.440195339174269e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70317896,
      "step": 121160
    },
    {
      "epoch": 18.046619005064045,
      "grad_norm": 0.00023106459411792457,
      "learning_rate": 1.4391085740854293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70320584,
      "step": 121165
    },
    {
      "epoch": 18.047363717605005,
      "grad_norm": 6.177687737363158e-06,
      "learning_rate": 1.4380222070339095e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70323592,
      "step": 121170
    },
    {
      "epoch": 18.048108430145962,
      "grad_norm": 0.044953830540180206,
      "learning_rate": 1.4369362380380558e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 70326440,
      "step": 121175
    },
    {
      "epoch": 18.048853142686923,
      "grad_norm": 5.3200343245407566e-05,
      "learning_rate": 1.435850667116212e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70329576,
      "step": 121180
    },
    {
      "epoch": 18.049597855227884,
      "grad_norm": 4.710201028501615e-05,
      "learning_rate": 1.4347654942867245e-06,
      "loss": 0.001,
      "num_input_tokens_seen": 70332680,
      "step": 121185
    },
    {
      "epoch": 18.05034256776884,
      "grad_norm": 3.4306090128666256e-06,
      "learning_rate": 1.4336807195679203e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70335368,
      "step": 121190
    },
    {
      "epoch": 18.0510872803098,
      "grad_norm": 9.707277786219493e-05,
      "learning_rate": 1.4325963429781347e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70338184,
      "step": 121195
    },
    {
      "epoch": 18.051831992850758,
      "grad_norm": 1.5001220390331582e-06,
      "learning_rate": 1.4315123645356782e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70341160,
      "step": 121200
    },
    {
      "epoch": 18.05257670539172,
      "grad_norm": 3.997914245701395e-05,
      "learning_rate": 1.4304287842588665e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70343752,
      "step": 121205
    },
    {
      "epoch": 18.05332141793268,
      "grad_norm": 3.654411921161227e-05,
      "learning_rate": 1.4293456021660018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70346632,
      "step": 121210
    },
    {
      "epoch": 18.054066130473636,
      "grad_norm": 0.0004736936534754932,
      "learning_rate": 1.4282628182753915e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70349384,
      "step": 121215
    },
    {
      "epoch": 18.054810843014597,
      "grad_norm": 0.0006586313247680664,
      "learning_rate": 1.4271804326053239e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70352424,
      "step": 121220
    },
    {
      "epoch": 18.055555555555557,
      "grad_norm": 5.201641670282697e-06,
      "learning_rate": 1.4260984451740815e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70355496,
      "step": 121225
    },
    {
      "epoch": 18.056300268096514,
      "grad_norm": 7.612428453285247e-05,
      "learning_rate": 1.4250168559999499e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70358248,
      "step": 121230
    },
    {
      "epoch": 18.057044980637475,
      "grad_norm": 3.988950084021781e-06,
      "learning_rate": 1.423935665101192e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70361032,
      "step": 121235
    },
    {
      "epoch": 18.05778969317843,
      "grad_norm": 0.00010538153583183885,
      "learning_rate": 1.422854872496085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70363880,
      "step": 121240
    },
    {
      "epoch": 18.058534405719392,
      "grad_norm": 2.8650994863710366e-05,
      "learning_rate": 1.421774478202878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70367016,
      "step": 121245
    },
    {
      "epoch": 18.059279118260353,
      "grad_norm": 0.0002701695484574884,
      "learning_rate": 1.4206944822398316e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70370088,
      "step": 121250
    },
    {
      "epoch": 18.06002383080131,
      "grad_norm": 2.0563140424201265e-05,
      "learning_rate": 1.4196148846251867e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70373288,
      "step": 121255
    },
    {
      "epoch": 18.06076854334227,
      "grad_norm": 7.976751476235222e-06,
      "learning_rate": 1.4185356853771787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70376232,
      "step": 121260
    },
    {
      "epoch": 18.06151325588323,
      "grad_norm": 2.7786929422290996e-05,
      "learning_rate": 1.4174568845140457e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70379464,
      "step": 121265
    },
    {
      "epoch": 18.062257968424188,
      "grad_norm": 2.209934791608248e-05,
      "learning_rate": 1.416378482054012e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70382472,
      "step": 121270
    },
    {
      "epoch": 18.06300268096515,
      "grad_norm": 2.042643063759897e-05,
      "learning_rate": 1.4153004780152939e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70385416,
      "step": 121275
    },
    {
      "epoch": 18.063747393506105,
      "grad_norm": 2.798711648210883e-05,
      "learning_rate": 1.414222872416099e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70388104,
      "step": 121280
    },
    {
      "epoch": 18.064492106047066,
      "grad_norm": 6.222252704901621e-05,
      "learning_rate": 1.4131456652746428e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70391304,
      "step": 121285
    },
    {
      "epoch": 18.065236818588026,
      "grad_norm": 2.8704084797936957e-06,
      "learning_rate": 1.4120688566091112e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70394216,
      "step": 121290
    },
    {
      "epoch": 18.065981531128983,
      "grad_norm": 4.0426246414426714e-05,
      "learning_rate": 1.410992446437709e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70396968,
      "step": 121295
    },
    {
      "epoch": 18.066726243669944,
      "grad_norm": 2.9561346309492365e-05,
      "learning_rate": 1.4099164347786132e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70400040,
      "step": 121300
    },
    {
      "epoch": 18.0674709562109,
      "grad_norm": 3.1591422157362103e-05,
      "learning_rate": 1.408840821650001e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70402664,
      "step": 121305
    },
    {
      "epoch": 18.06821566875186,
      "grad_norm": 1.623630123503972e-05,
      "learning_rate": 1.4077656070700496e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70405512,
      "step": 121310
    },
    {
      "epoch": 18.068960381292822,
      "grad_norm": 3.2528789688512916e-06,
      "learning_rate": 1.4066907910569166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70408328,
      "step": 121315
    },
    {
      "epoch": 18.06970509383378,
      "grad_norm": 8.547204743081238e-06,
      "learning_rate": 1.4056163736287682e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70411624,
      "step": 121320
    },
    {
      "epoch": 18.07044980637474,
      "grad_norm": 2.3411466827383265e-05,
      "learning_rate": 1.4045423548037478e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70414408,
      "step": 121325
    },
    {
      "epoch": 18.0711945189157,
      "grad_norm": 8.486935257678851e-06,
      "learning_rate": 1.4034687346000052e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70417288,
      "step": 121330
    },
    {
      "epoch": 18.071939231456657,
      "grad_norm": 7.2999910116777755e-06,
      "learning_rate": 1.4023955130356758e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70420072,
      "step": 121335
    },
    {
      "epoch": 18.072683943997617,
      "grad_norm": 4.7689150960650295e-05,
      "learning_rate": 1.4013226901288868e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70422984,
      "step": 121340
    },
    {
      "epoch": 18.073428656538574,
      "grad_norm": 2.537292402848834e-06,
      "learning_rate": 1.400250265897768e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70425800,
      "step": 121345
    },
    {
      "epoch": 18.074173369079535,
      "grad_norm": 8.309645636472851e-05,
      "learning_rate": 1.3991782403604353e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70428872,
      "step": 121350
    },
    {
      "epoch": 18.074918081620496,
      "grad_norm": 0.0001698278938420117,
      "learning_rate": 1.3981066135349995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70431880,
      "step": 121355
    },
    {
      "epoch": 18.075662794161452,
      "grad_norm": 5.230956230661832e-05,
      "learning_rate": 1.397035385439563e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70435080,
      "step": 121360
    },
    {
      "epoch": 18.076407506702413,
      "grad_norm": 6.259724159463076e-06,
      "learning_rate": 1.3959645560922275e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70438152,
      "step": 121365
    },
    {
      "epoch": 18.077152219243374,
      "grad_norm": 0.002032082062214613,
      "learning_rate": 1.3948941255110787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70441256,
      "step": 121370
    },
    {
      "epoch": 18.07789693178433,
      "grad_norm": 1.0915238817688078e-05,
      "learning_rate": 1.393824093714205e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70444008,
      "step": 121375
    },
    {
      "epoch": 18.07864164432529,
      "grad_norm": 1.9939432604587637e-05,
      "learning_rate": 1.3927544607196807e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70446728,
      "step": 121380
    },
    {
      "epoch": 18.079386356866248,
      "grad_norm": 3.0505880204145797e-06,
      "learning_rate": 1.3916852265455722e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70449576,
      "step": 121385
    },
    {
      "epoch": 18.08013106940721,
      "grad_norm": 2.3360520572168753e-05,
      "learning_rate": 1.3906163912099506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70452488,
      "step": 121390
    },
    {
      "epoch": 18.08087578194817,
      "grad_norm": 1.106961371988291e-05,
      "learning_rate": 1.3895479547308716e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70455400,
      "step": 121395
    },
    {
      "epoch": 18.081620494489126,
      "grad_norm": 0.00018010706116911024,
      "learning_rate": 1.3884799171263841e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70458312,
      "step": 121400
    },
    {
      "epoch": 18.082365207030087,
      "grad_norm": 2.401082156211487e-06,
      "learning_rate": 1.3874122784145239e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70460936,
      "step": 121405
    },
    {
      "epoch": 18.083109919571047,
      "grad_norm": 2.288339237566106e-05,
      "learning_rate": 1.3863450386133402e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70463592,
      "step": 121410
    },
    {
      "epoch": 18.083854632112004,
      "grad_norm": 1.9121000605082372e-06,
      "learning_rate": 1.385278197740858e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70466408,
      "step": 121415
    },
    {
      "epoch": 18.084599344652965,
      "grad_norm": 0.00021104529150761664,
      "learning_rate": 1.384211755815093e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70469544,
      "step": 121420
    },
    {
      "epoch": 18.08534405719392,
      "grad_norm": 5.389968282543123e-05,
      "learning_rate": 1.3831457128540753e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70472392,
      "step": 121425
    },
    {
      "epoch": 18.086088769734882,
      "grad_norm": 6.788061000406742e-05,
      "learning_rate": 1.3820800688758018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70475048,
      "step": 121430
    },
    {
      "epoch": 18.086833482275843,
      "grad_norm": 1.2740001693600789e-05,
      "learning_rate": 1.3810148238982857e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70478120,
      "step": 121435
    },
    {
      "epoch": 18.0875781948168,
      "grad_norm": 2.5511833882774226e-05,
      "learning_rate": 1.3799499779395152e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70481032,
      "step": 121440
    },
    {
      "epoch": 18.08832290735776,
      "grad_norm": 0.00044031874858774245,
      "learning_rate": 1.3788855310174876e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70484040,
      "step": 121445
    },
    {
      "epoch": 18.08906761989872,
      "grad_norm": 4.587400781019824e-06,
      "learning_rate": 1.3778214831501767e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70486856,
      "step": 121450
    },
    {
      "epoch": 18.089812332439678,
      "grad_norm": 4.4938133214600384e-05,
      "learning_rate": 1.3767578343555688e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70489736,
      "step": 121455
    },
    {
      "epoch": 18.09055704498064,
      "grad_norm": 6.889584619784728e-05,
      "learning_rate": 1.3756945846516267e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70492584,
      "step": 121460
    },
    {
      "epoch": 18.091301757521595,
      "grad_norm": 3.4742239222396165e-05,
      "learning_rate": 1.3746317340563142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70495592,
      "step": 121465
    },
    {
      "epoch": 18.092046470062556,
      "grad_norm": 0.00011487674782983959,
      "learning_rate": 1.3735692825875861e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70498504,
      "step": 121470
    },
    {
      "epoch": 18.092791182603516,
      "grad_norm": 0.00017330641276203096,
      "learning_rate": 1.3725072302633895e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70501544,
      "step": 121475
    },
    {
      "epoch": 18.093535895144473,
      "grad_norm": 3.1559320632368326e-06,
      "learning_rate": 1.371445577101671e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70504328,
      "step": 121480
    },
    {
      "epoch": 18.094280607685434,
      "grad_norm": 3.370800186530687e-05,
      "learning_rate": 1.3703843231203634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70507176,
      "step": 121485
    },
    {
      "epoch": 18.09502532022639,
      "grad_norm": 1.1906082363566384e-05,
      "learning_rate": 1.3693234683373997e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70510024,
      "step": 121490
    },
    {
      "epoch": 18.09577003276735,
      "grad_norm": 8.47518676891923e-05,
      "learning_rate": 1.3682630127706958e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70512904,
      "step": 121495
    },
    {
      "epoch": 18.096514745308312,
      "grad_norm": 3.4895103908638703e-06,
      "learning_rate": 1.3672029564381711e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70515784,
      "step": 121500
    },
    {
      "epoch": 18.09725945784927,
      "grad_norm": 9.144207069766708e-06,
      "learning_rate": 1.3661432993577333e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70518888,
      "step": 121505
    },
    {
      "epoch": 18.09800417039023,
      "grad_norm": 4.611928034137236e-06,
      "learning_rate": 1.365084041547282e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70521640,
      "step": 121510
    },
    {
      "epoch": 18.09874888293119,
      "grad_norm": 1.0251324056298472e-05,
      "learning_rate": 1.364025183024717e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70524680,
      "step": 121515
    },
    {
      "epoch": 18.099493595472147,
      "grad_norm": 3.597689646994695e-05,
      "learning_rate": 1.3629667238079208e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70527464,
      "step": 121520
    },
    {
      "epoch": 18.100238308013108,
      "grad_norm": 0.00019697888637892902,
      "learning_rate": 1.361908663914782e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70530504,
      "step": 121525
    },
    {
      "epoch": 18.100983020554064,
      "grad_norm": 6.265644060476916e-06,
      "learning_rate": 1.3608510033631728e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70533320,
      "step": 121530
    },
    {
      "epoch": 18.101727733095025,
      "grad_norm": 8.26197338104248,
      "learning_rate": 1.3597937421709588e-06,
      "loss": 0.059,
      "num_input_tokens_seen": 70536200,
      "step": 121535
    },
    {
      "epoch": 18.102472445635986,
      "grad_norm": 6.638170816586353e-06,
      "learning_rate": 1.358736880356004e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70539336,
      "step": 121540
    },
    {
      "epoch": 18.103217158176943,
      "grad_norm": 3.3763171813916415e-05,
      "learning_rate": 1.3576804179361552e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70542408,
      "step": 121545
    },
    {
      "epoch": 18.103961870717903,
      "grad_norm": 0.0016460067126899958,
      "learning_rate": 1.356624354929273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70545320,
      "step": 121550
    },
    {
      "epoch": 18.104706583258864,
      "grad_norm": 0.00018270195869263262,
      "learning_rate": 1.3555686913531874e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70547752,
      "step": 121555
    },
    {
      "epoch": 18.10545129579982,
      "grad_norm": 2.218092959083151e-05,
      "learning_rate": 1.3545134272257426e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70550632,
      "step": 121560
    },
    {
      "epoch": 18.10619600834078,
      "grad_norm": 4.135327799303923e-06,
      "learning_rate": 1.3534585625647578e-06,
      "loss": 0.0076,
      "num_input_tokens_seen": 70554248,
      "step": 121565
    },
    {
      "epoch": 18.106940720881738,
      "grad_norm": 1.9284019799670205e-05,
      "learning_rate": 1.3524040973880575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70557032,
      "step": 121570
    },
    {
      "epoch": 18.1076854334227,
      "grad_norm": 7.212104264908703e-06,
      "learning_rate": 1.3513500317134582e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70560104,
      "step": 121575
    },
    {
      "epoch": 18.10843014596366,
      "grad_norm": 0.005832077004015446,
      "learning_rate": 1.3502963655587619e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70563144,
      "step": 121580
    },
    {
      "epoch": 18.109174858504616,
      "grad_norm": 8.91465515451273e-06,
      "learning_rate": 1.3492430989417742e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70565736,
      "step": 121585
    },
    {
      "epoch": 18.109919571045577,
      "grad_norm": 1.8903709133155644e-05,
      "learning_rate": 1.3481902318802835e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70568744,
      "step": 121590
    },
    {
      "epoch": 18.110664283586537,
      "grad_norm": 3.19859600494965e-06,
      "learning_rate": 1.3471377643920841e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70571400,
      "step": 121595
    },
    {
      "epoch": 18.111408996127494,
      "grad_norm": 1.5101762073754799e-05,
      "learning_rate": 1.346085696494953e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70574216,
      "step": 121600
    },
    {
      "epoch": 18.112153708668455,
      "grad_norm": 9.709781807032414e-06,
      "learning_rate": 1.3450340282066625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70577224,
      "step": 121605
    },
    {
      "epoch": 18.11289842120941,
      "grad_norm": 2.388345092185773e-05,
      "learning_rate": 1.3439827595449761e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70580072,
      "step": 121610
    },
    {
      "epoch": 18.113643133750372,
      "grad_norm": 1.2774536116921809e-05,
      "learning_rate": 1.3429318905276627e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70582760,
      "step": 121615
    },
    {
      "epoch": 18.114387846291333,
      "grad_norm": 2.4714599931030534e-06,
      "learning_rate": 1.3418814211724695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70585608,
      "step": 121620
    },
    {
      "epoch": 18.11513255883229,
      "grad_norm": 4.055027147842338e-06,
      "learning_rate": 1.3408313514971432e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70588456,
      "step": 121625
    },
    {
      "epoch": 18.11587727137325,
      "grad_norm": 8.445353887509555e-05,
      "learning_rate": 1.3397816815194281e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70591368,
      "step": 121630
    },
    {
      "epoch": 18.11662198391421,
      "grad_norm": 1.596922447788529e-05,
      "learning_rate": 1.3387324112570488e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70594120,
      "step": 121635
    },
    {
      "epoch": 18.117366696455168,
      "grad_norm": 0.0005088380421511829,
      "learning_rate": 1.3376835407277437e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70596968,
      "step": 121640
    },
    {
      "epoch": 18.11811140899613,
      "grad_norm": 0.00012614435399882495,
      "learning_rate": 1.3366350699492214e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70600040,
      "step": 121645
    },
    {
      "epoch": 18.118856121537085,
      "grad_norm": 5.9958674683002755e-05,
      "learning_rate": 1.3355869989392005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70603048,
      "step": 121650
    },
    {
      "epoch": 18.119600834078046,
      "grad_norm": 0.00038871695869602263,
      "learning_rate": 1.3345393277153896e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70605960,
      "step": 121655
    },
    {
      "epoch": 18.120345546619006,
      "grad_norm": 1.1492403245938476e-05,
      "learning_rate": 1.3334920562954822e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70608712,
      "step": 121660
    },
    {
      "epoch": 18.121090259159963,
      "grad_norm": 0.02532440423965454,
      "learning_rate": 1.332445184697173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70611464,
      "step": 121665
    },
    {
      "epoch": 18.121834971700924,
      "grad_norm": 0.0009579100296832621,
      "learning_rate": 1.3313987129381422e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70614408,
      "step": 121670
    },
    {
      "epoch": 18.12257968424188,
      "grad_norm": 0.0001787422806955874,
      "learning_rate": 1.3303526410360811e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70617384,
      "step": 121675
    },
    {
      "epoch": 18.12332439678284,
      "grad_norm": 2.101601603499148e-05,
      "learning_rate": 1.3293069690086506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70620232,
      "step": 121680
    },
    {
      "epoch": 18.124069109323802,
      "grad_norm": 7.374331744358642e-06,
      "learning_rate": 1.3282616968735256e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70622952,
      "step": 121685
    },
    {
      "epoch": 18.12481382186476,
      "grad_norm": 2.0764982764376327e-06,
      "learning_rate": 1.3272168246483557e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70625832,
      "step": 121690
    },
    {
      "epoch": 18.12555853440572,
      "grad_norm": 7.31841464585159e-06,
      "learning_rate": 1.3261723523508018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70628904,
      "step": 121695
    },
    {
      "epoch": 18.12630324694668,
      "grad_norm": 8.283589704660699e-05,
      "learning_rate": 1.3251282799985026e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70631784,
      "step": 121700
    },
    {
      "epoch": 18.127047959487637,
      "grad_norm": 2.9950633688713424e-05,
      "learning_rate": 1.3240846076090996e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70634856,
      "step": 121705
    },
    {
      "epoch": 18.127792672028598,
      "grad_norm": 0.00011805388930952176,
      "learning_rate": 1.3230413352002259e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70637928,
      "step": 121710
    },
    {
      "epoch": 18.128537384569555,
      "grad_norm": 6.6509410316939466e-06,
      "learning_rate": 1.3219984627895005e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70640840,
      "step": 121715
    },
    {
      "epoch": 18.129282097110515,
      "grad_norm": 2.002713017645874e-06,
      "learning_rate": 1.3209559903945483e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70643752,
      "step": 121720
    },
    {
      "epoch": 18.130026809651476,
      "grad_norm": 2.2868847736390308e-05,
      "learning_rate": 1.3199139180329806e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70646728,
      "step": 121725
    },
    {
      "epoch": 18.130771522192433,
      "grad_norm": 0.00012108289956813678,
      "learning_rate": 1.3188722457223995e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70649512,
      "step": 121730
    },
    {
      "epoch": 18.131516234733393,
      "grad_norm": 1.0183778613281902e-05,
      "learning_rate": 1.3178309734803968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70652232,
      "step": 121735
    },
    {
      "epoch": 18.132260947274354,
      "grad_norm": 1.8976976207341067e-05,
      "learning_rate": 1.3167901013245775e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70655048,
      "step": 121740
    },
    {
      "epoch": 18.13300565981531,
      "grad_norm": 0.00014861630916129798,
      "learning_rate": 1.3157496292725169e-06,
      "loss": 0.0021,
      "num_input_tokens_seen": 70657928,
      "step": 121745
    },
    {
      "epoch": 18.13375037235627,
      "grad_norm": 5.3211715567158535e-06,
      "learning_rate": 1.3147095573417923e-06,
      "loss": 0.003,
      "num_input_tokens_seen": 70660840,
      "step": 121750
    },
    {
      "epoch": 18.134495084897228,
      "grad_norm": 0.00016734542441554368,
      "learning_rate": 1.3136698855499812e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70663752,
      "step": 121755
    },
    {
      "epoch": 18.13523979743819,
      "grad_norm": 7.77590976213105e-05,
      "learning_rate": 1.3126306139146394e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70666504,
      "step": 121760
    },
    {
      "epoch": 18.13598450997915,
      "grad_norm": 6.303114332695259e-06,
      "learning_rate": 1.3115917424533303e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70669320,
      "step": 121765
    },
    {
      "epoch": 18.136729222520106,
      "grad_norm": 1.14725626190193e-05,
      "learning_rate": 1.310553271183601e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70672648,
      "step": 121770
    },
    {
      "epoch": 18.137473935061067,
      "grad_norm": 3.349837470523198e-06,
      "learning_rate": 1.3095152001230015e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70675752,
      "step": 121775
    },
    {
      "epoch": 18.138218647602027,
      "grad_norm": 4.935208835377125e-06,
      "learning_rate": 1.308477529289065e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70678504,
      "step": 121780
    },
    {
      "epoch": 18.138963360142984,
      "grad_norm": 1.43157076308853e-05,
      "learning_rate": 1.3074402586993162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70681576,
      "step": 121785
    },
    {
      "epoch": 18.139708072683945,
      "grad_norm": 6.663714884780347e-05,
      "learning_rate": 1.3064033883712883e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70684648,
      "step": 121790
    },
    {
      "epoch": 18.140452785224902,
      "grad_norm": 0.0021426379680633545,
      "learning_rate": 1.3053669183224954e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70687208,
      "step": 121795
    },
    {
      "epoch": 18.141197497765862,
      "grad_norm": 1.9951066860812716e-05,
      "learning_rate": 1.3043308485704454e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70690440,
      "step": 121800
    },
    {
      "epoch": 18.141942210306823,
      "grad_norm": 1.311944561166456e-05,
      "learning_rate": 1.303295179132638e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70693384,
      "step": 121805
    },
    {
      "epoch": 18.14268692284778,
      "grad_norm": 0.0002273357822559774,
      "learning_rate": 1.3022599100265791e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70696200,
      "step": 121810
    },
    {
      "epoch": 18.14343163538874,
      "grad_norm": 1.0474141163285822e-05,
      "learning_rate": 1.3012250412697519e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70699368,
      "step": 121815
    },
    {
      "epoch": 18.1441763479297,
      "grad_norm": 5.0290836952626705e-05,
      "learning_rate": 1.300190572879642e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70702632,
      "step": 121820
    },
    {
      "epoch": 18.144921060470658,
      "grad_norm": 3.479583483567694e-06,
      "learning_rate": 1.2991565048737248e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70705576,
      "step": 121825
    },
    {
      "epoch": 18.14566577301162,
      "grad_norm": 4.0334503864869475e-05,
      "learning_rate": 1.2981228372694692e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70708520,
      "step": 121830
    },
    {
      "epoch": 18.146410485552575,
      "grad_norm": 3.749595271074213e-05,
      "learning_rate": 1.2970895700843394e-06,
      "loss": 0.0003,
      "num_input_tokens_seen": 70711144,
      "step": 121835
    },
    {
      "epoch": 18.147155198093536,
      "grad_norm": 3.2126686164701823e-06,
      "learning_rate": 1.296056703335788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70714312,
      "step": 121840
    },
    {
      "epoch": 18.147899910634496,
      "grad_norm": 4.590053140418604e-05,
      "learning_rate": 1.2950242370412702e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70716968,
      "step": 121845
    },
    {
      "epoch": 18.148644623175453,
      "grad_norm": 8.851392522046808e-06,
      "learning_rate": 1.2939921712182223e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70719688,
      "step": 121850
    },
    {
      "epoch": 18.149389335716414,
      "grad_norm": 1.2596797205333132e-05,
      "learning_rate": 1.2929605058840889e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70722472,
      "step": 121855
    },
    {
      "epoch": 18.15013404825737,
      "grad_norm": 8.252307452494279e-06,
      "learning_rate": 1.2919292410562889e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70725256,
      "step": 121860
    },
    {
      "epoch": 18.15087876079833,
      "grad_norm": 1.8686265548240044e-06,
      "learning_rate": 1.2908983767522504e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70728072,
      "step": 121865
    },
    {
      "epoch": 18.151623473339292,
      "grad_norm": 2.5002222173498012e-05,
      "learning_rate": 1.289867912989387e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70731336,
      "step": 121870
    },
    {
      "epoch": 18.15236818588025,
      "grad_norm": 3.822048711299431e-06,
      "learning_rate": 1.2888378497851045e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70734408,
      "step": 121875
    },
    {
      "epoch": 18.15311289842121,
      "grad_norm": 4.515824912232347e-05,
      "learning_rate": 1.2878081871568082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70737416,
      "step": 121880
    },
    {
      "epoch": 18.15385761096217,
      "grad_norm": 4.232213086652337e-06,
      "learning_rate": 1.2867789251218925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70740200,
      "step": 121885
    },
    {
      "epoch": 18.154602323503127,
      "grad_norm": 6.782118816772709e-06,
      "learning_rate": 1.2857500636977466e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70743176,
      "step": 121890
    },
    {
      "epoch": 18.155347036044088,
      "grad_norm": 1.7902122635859996e-05,
      "learning_rate": 1.2847216029017506e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70746024,
      "step": 121895
    },
    {
      "epoch": 18.156091748585045,
      "grad_norm": 3.622335134423338e-05,
      "learning_rate": 1.2836935427512826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70748840,
      "step": 121900
    },
    {
      "epoch": 18.156836461126005,
      "grad_norm": 2.8178130378364585e-05,
      "learning_rate": 1.2826658832637062e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70751656,
      "step": 121905
    },
    {
      "epoch": 18.157581173666966,
      "grad_norm": 0.00011035681382054463,
      "learning_rate": 1.2816386244563827e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70754344,
      "step": 121910
    },
    {
      "epoch": 18.158325886207923,
      "grad_norm": 1.307434922637185e-05,
      "learning_rate": 1.2806117663466704e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70757192,
      "step": 121915
    },
    {
      "epoch": 18.159070598748883,
      "grad_norm": 2.8349863896437455e-06,
      "learning_rate": 1.279585308951914e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70760040,
      "step": 121920
    },
    {
      "epoch": 18.159815311289844,
      "grad_norm": 1.5943803646223387e-06,
      "learning_rate": 1.2785592522894573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70762856,
      "step": 121925
    },
    {
      "epoch": 18.1605600238308,
      "grad_norm": 1.612726555322297e-05,
      "learning_rate": 1.2775335963766317e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70765832,
      "step": 121930
    },
    {
      "epoch": 18.16130473637176,
      "grad_norm": 2.621125076984754e-06,
      "learning_rate": 1.2765083412307672e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70768744,
      "step": 121935
    },
    {
      "epoch": 18.162049448912718,
      "grad_norm": 9.886553016258404e-05,
      "learning_rate": 1.2754834868691834e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70771944,
      "step": 121940
    },
    {
      "epoch": 18.16279416145368,
      "grad_norm": 1.3372207831707783e-05,
      "learning_rate": 1.2744590333091888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70774632,
      "step": 121945
    },
    {
      "epoch": 18.16353887399464,
      "grad_norm": 1.279900607187301e-05,
      "learning_rate": 1.2734349805680974e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70777576,
      "step": 121950
    },
    {
      "epoch": 18.164283586535596,
      "grad_norm": 8.767305189394392e-06,
      "learning_rate": 1.2724113286632061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70780360,
      "step": 121955
    },
    {
      "epoch": 18.165028299076557,
      "grad_norm": 2.772454172372818e-05,
      "learning_rate": 1.2713880776118126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70782888,
      "step": 121960
    },
    {
      "epoch": 18.165773011617517,
      "grad_norm": 0.0018477652920410037,
      "learning_rate": 1.2703652274311973e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70785704,
      "step": 121965
    },
    {
      "epoch": 18.166517724158474,
      "grad_norm": 6.173810106702149e-05,
      "learning_rate": 1.2693427781386464e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70788328,
      "step": 121970
    },
    {
      "epoch": 18.167262436699435,
      "grad_norm": 1.718822750262916e-05,
      "learning_rate": 1.2683207297514293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70791496,
      "step": 121975
    },
    {
      "epoch": 18.168007149240392,
      "grad_norm": 5.347560090740444e-06,
      "learning_rate": 1.267299082286816e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70794344,
      "step": 121980
    },
    {
      "epoch": 18.168751861781352,
      "grad_norm": 0.00032348016975447536,
      "learning_rate": 1.2662778357620614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70797256,
      "step": 121985
    },
    {
      "epoch": 18.169496574322313,
      "grad_norm": 5.331979537004372e-06,
      "learning_rate": 1.2652569901944244e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70800040,
      "step": 121990
    },
    {
      "epoch": 18.17024128686327,
      "grad_norm": 9.138339009950869e-06,
      "learning_rate": 1.2642365456011467e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70803112,
      "step": 121995
    },
    {
      "epoch": 18.17098599940423,
      "grad_norm": 1.9449791579972953e-05,
      "learning_rate": 1.2632165019994646e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70805832,
      "step": 122000
    },
    {
      "epoch": 18.171730711945187,
      "grad_norm": 5.383925781643484e-06,
      "learning_rate": 1.262196859406617e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70808680,
      "step": 122005
    },
    {
      "epoch": 18.172475424486148,
      "grad_norm": 7.021888905001106e-06,
      "learning_rate": 1.261177617839826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70811720,
      "step": 122010
    },
    {
      "epoch": 18.17322013702711,
      "grad_norm": 4.773791260959115e-06,
      "learning_rate": 1.2601587773163142e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70814664,
      "step": 122015
    },
    {
      "epoch": 18.173964849568065,
      "grad_norm": 1.024329958454473e-05,
      "learning_rate": 1.259140337853293e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70817480,
      "step": 122020
    },
    {
      "epoch": 18.174709562109026,
      "grad_norm": 0.0004421994090080261,
      "learning_rate": 1.258122299467962e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70820104,
      "step": 122025
    },
    {
      "epoch": 18.175454274649987,
      "grad_norm": 0.00035565136931836605,
      "learning_rate": 1.2571046621775273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70822856,
      "step": 122030
    },
    {
      "epoch": 18.176198987190944,
      "grad_norm": 2.520787893445231e-05,
      "learning_rate": 1.2560874259991778e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70825544,
      "step": 122035
    },
    {
      "epoch": 18.176943699731904,
      "grad_norm": 2.256001789646689e-05,
      "learning_rate": 1.2550705909500998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70828616,
      "step": 122040
    },
    {
      "epoch": 18.17768841227286,
      "grad_norm": 9.904670878313482e-05,
      "learning_rate": 1.2540541570474684e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70831656,
      "step": 122045
    },
    {
      "epoch": 18.17843312481382,
      "grad_norm": 2.51416986429831e-06,
      "learning_rate": 1.2530381243084616e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70834600,
      "step": 122050
    },
    {
      "epoch": 18.179177837354782,
      "grad_norm": 2.0614992536138743e-05,
      "learning_rate": 1.2520224927502405e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70837736,
      "step": 122055
    },
    {
      "epoch": 18.17992254989574,
      "grad_norm": 1.0008901881519705e-05,
      "learning_rate": 1.251007262389961e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70840456,
      "step": 122060
    },
    {
      "epoch": 18.1806672624367,
      "grad_norm": 7.71310442360118e-06,
      "learning_rate": 1.2499924332447788e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70843272,
      "step": 122065
    },
    {
      "epoch": 18.18141197497766,
      "grad_norm": 1.2657449588004965e-05,
      "learning_rate": 1.24897800533183e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70846184,
      "step": 122070
    },
    {
      "epoch": 18.182156687518617,
      "grad_norm": 4.360358070698567e-05,
      "learning_rate": 1.247963978668265e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70848936,
      "step": 122075
    },
    {
      "epoch": 18.182901400059578,
      "grad_norm": 5.343237717170268e-06,
      "learning_rate": 1.2469503532712008e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70851720,
      "step": 122080
    },
    {
      "epoch": 18.183646112600535,
      "grad_norm": 7.342221942963079e-05,
      "learning_rate": 1.2459371291577759e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70854536,
      "step": 122085
    },
    {
      "epoch": 18.184390825141495,
      "grad_norm": 9.922698154696263e-06,
      "learning_rate": 1.2449243063450967e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70857256,
      "step": 122090
    },
    {
      "epoch": 18.185135537682456,
      "grad_norm": 7.982362149050459e-05,
      "learning_rate": 1.2439118848502796e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70860040,
      "step": 122095
    },
    {
      "epoch": 18.185880250223413,
      "grad_norm": 4.516694389167242e-06,
      "learning_rate": 1.2428998646904277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70862792,
      "step": 122100
    },
    {
      "epoch": 18.186624962764373,
      "grad_norm": 1.285396319872234e-05,
      "learning_rate": 1.241888245882633e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70865768,
      "step": 122105
    },
    {
      "epoch": 18.187369675305334,
      "grad_norm": 4.900206022284692e-06,
      "learning_rate": 1.240877028443993e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70868872,
      "step": 122110
    },
    {
      "epoch": 18.18811438784629,
      "grad_norm": 9.52168647927465e-06,
      "learning_rate": 1.2398662123915827e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70872008,
      "step": 122115
    },
    {
      "epoch": 18.18885910038725,
      "grad_norm": 3.770065177377546e-06,
      "learning_rate": 1.2388557977424915e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 70875080,
      "step": 122120
    },
    {
      "epoch": 18.18960381292821,
      "grad_norm": 3.107898010057397e-05,
      "learning_rate": 1.2378457845137775e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70877768,
      "step": 122125
    },
    {
      "epoch": 18.19034852546917,
      "grad_norm": 5.647205398418009e-05,
      "learning_rate": 1.236836172722511e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70880616,
      "step": 122130
    },
    {
      "epoch": 18.19109323801013,
      "grad_norm": 2.2836800326331286e-06,
      "learning_rate": 1.2358269623857416e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70883496,
      "step": 122135
    },
    {
      "epoch": 18.191837950551086,
      "grad_norm": 6.994513114477741e-06,
      "learning_rate": 1.2348181535205283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70886440,
      "step": 122140
    },
    {
      "epoch": 18.192582663092047,
      "grad_norm": 7.406627992168069e-05,
      "learning_rate": 1.2338097461439047e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70889256,
      "step": 122145
    },
    {
      "epoch": 18.193327375633007,
      "grad_norm": 4.8183621402131394e-05,
      "learning_rate": 1.2328017402729098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70892456,
      "step": 122150
    },
    {
      "epoch": 18.194072088173964,
      "grad_norm": 0.0005323563236743212,
      "learning_rate": 1.2317941359245744e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70895080,
      "step": 122155
    },
    {
      "epoch": 18.194816800714925,
      "grad_norm": 2.4933337954280432e-06,
      "learning_rate": 1.2307869331159182e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70897800,
      "step": 122160
    },
    {
      "epoch": 18.195561513255882,
      "grad_norm": 0.0003161231579724699,
      "learning_rate": 1.229780131863964e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70900680,
      "step": 122165
    },
    {
      "epoch": 18.196306225796842,
      "grad_norm": 0.0033548325300216675,
      "learning_rate": 1.2287737321857118e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70903368,
      "step": 122170
    },
    {
      "epoch": 18.197050938337803,
      "grad_norm": 5.3608015150530264e-05,
      "learning_rate": 1.2277677340981675e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70906248,
      "step": 122175
    },
    {
      "epoch": 18.19779565087876,
      "grad_norm": 4.099126726941904e-06,
      "learning_rate": 1.2267621376183286e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 70909544,
      "step": 122180
    },
    {
      "epoch": 18.19854036341972,
      "grad_norm": 2.5097453544731252e-05,
      "learning_rate": 1.2257569427631789e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70912264,
      "step": 122185
    },
    {
      "epoch": 18.199285075960677,
      "grad_norm": 7.503810775233433e-05,
      "learning_rate": 1.2247521495497043e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70915336,
      "step": 122190
    },
    {
      "epoch": 18.200029788501638,
      "grad_norm": 2.9466598789440468e-05,
      "learning_rate": 1.223747757994878e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70918184,
      "step": 122195
    },
    {
      "epoch": 18.2007745010426,
      "grad_norm": 7.293742328329245e-06,
      "learning_rate": 1.2227437681156695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70920840,
      "step": 122200
    },
    {
      "epoch": 18.201519213583556,
      "grad_norm": 3.4608154237503186e-05,
      "learning_rate": 1.2217401799290345e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70924136,
      "step": 122205
    },
    {
      "epoch": 18.202263926124516,
      "grad_norm": 2.3009759388514794e-05,
      "learning_rate": 1.2207369934519347e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70927240,
      "step": 122210
    },
    {
      "epoch": 18.203008638665477,
      "grad_norm": 9.144866635324433e-05,
      "learning_rate": 1.2197342087013146e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70930216,
      "step": 122215
    },
    {
      "epoch": 18.203753351206434,
      "grad_norm": 5.076353409094736e-05,
      "learning_rate": 1.2187318256941166e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70933064,
      "step": 122220
    },
    {
      "epoch": 18.204498063747394,
      "grad_norm": 0.0006675245822407305,
      "learning_rate": 1.2177298444472741e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70936104,
      "step": 122225
    },
    {
      "epoch": 18.20524277628835,
      "grad_norm": 7.421696500387043e-05,
      "learning_rate": 1.2167282649777123e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70939048,
      "step": 122230
    },
    {
      "epoch": 18.20598748882931,
      "grad_norm": 0.00017352384747937322,
      "learning_rate": 1.2157270873023596e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70942280,
      "step": 122235
    },
    {
      "epoch": 18.206732201370272,
      "grad_norm": 0.0001910180872073397,
      "learning_rate": 1.2147263114381191e-06,
      "loss": 0.0111,
      "num_input_tokens_seen": 70945128,
      "step": 122240
    },
    {
      "epoch": 18.20747691391123,
      "grad_norm": 6.323612524283817e-06,
      "learning_rate": 1.213725937401905e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70948168,
      "step": 122245
    },
    {
      "epoch": 18.20822162645219,
      "grad_norm": 0.00021442021534312516,
      "learning_rate": 1.2127259652106149e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70951016,
      "step": 122250
    },
    {
      "epoch": 18.20896633899315,
      "grad_norm": 6.380259583238512e-05,
      "learning_rate": 1.2117263948811464e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70953928,
      "step": 122255
    },
    {
      "epoch": 18.209711051534107,
      "grad_norm": 1.9418681404204108e-05,
      "learning_rate": 1.2107272264303831e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70956968,
      "step": 122260
    },
    {
      "epoch": 18.210455764075068,
      "grad_norm": 1.2244491699675564e-05,
      "learning_rate": 1.2097284598752034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70960296,
      "step": 122265
    },
    {
      "epoch": 18.211200476616025,
      "grad_norm": 2.8818332793889567e-05,
      "learning_rate": 1.2087300952324826e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70963016,
      "step": 122270
    },
    {
      "epoch": 18.211945189156985,
      "grad_norm": 3.982327598350821e-06,
      "learning_rate": 1.2077321325190849e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70965768,
      "step": 122275
    },
    {
      "epoch": 18.212689901697946,
      "grad_norm": 1.857448114606086e-05,
      "learning_rate": 1.206734571751872e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70968616,
      "step": 122280
    },
    {
      "epoch": 18.213434614238903,
      "grad_norm": 6.717928044963628e-06,
      "learning_rate": 1.2057374129476968e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70971592,
      "step": 122285
    },
    {
      "epoch": 18.214179326779863,
      "grad_norm": 3.327814283693442e-06,
      "learning_rate": 1.2047406561234042e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70974696,
      "step": 122290
    },
    {
      "epoch": 18.214924039320824,
      "grad_norm": 5.315577709552599e-06,
      "learning_rate": 1.203744301295831e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70977576,
      "step": 122295
    },
    {
      "epoch": 18.21566875186178,
      "grad_norm": 0.001164969289675355,
      "learning_rate": 1.2027483484818165e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70980168,
      "step": 122300
    },
    {
      "epoch": 18.21641346440274,
      "grad_norm": 4.812958195543615e-06,
      "learning_rate": 1.2017527976981828e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70982984,
      "step": 122305
    },
    {
      "epoch": 18.2171581769437,
      "grad_norm": 2.6798519684234634e-05,
      "learning_rate": 1.200757648961745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70986024,
      "step": 122310
    },
    {
      "epoch": 18.21790288948466,
      "grad_norm": 3.209984060958959e-05,
      "learning_rate": 1.1997629022893198e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70988648,
      "step": 122315
    },
    {
      "epoch": 18.21864760202562,
      "grad_norm": 8.644958870718256e-05,
      "learning_rate": 1.1987685576977131e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70991816,
      "step": 122320
    },
    {
      "epoch": 18.219392314566576,
      "grad_norm": 4.08022096962668e-05,
      "learning_rate": 1.19777461520372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70994984,
      "step": 122325
    },
    {
      "epoch": 18.220137027107537,
      "grad_norm": 1.2730464732157998e-05,
      "learning_rate": 1.19678107482413e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 70997928,
      "step": 122330
    },
    {
      "epoch": 18.220881739648497,
      "grad_norm": 1.2862669791502412e-05,
      "learning_rate": 1.1957879365757346e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71001096,
      "step": 122335
    },
    {
      "epoch": 18.221626452189454,
      "grad_norm": 1.1139170965179801e-05,
      "learning_rate": 1.1947952004753044e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71004040,
      "step": 122340
    },
    {
      "epoch": 18.222371164730415,
      "grad_norm": 7.163226200646022e-06,
      "learning_rate": 1.1938028665396173e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71007208,
      "step": 122345
    },
    {
      "epoch": 18.223115877271372,
      "grad_norm": 6.0134243540233e-06,
      "learning_rate": 1.1928109347854377e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71009896,
      "step": 122350
    },
    {
      "epoch": 18.223860589812332,
      "grad_norm": 1.5136675756366458e-05,
      "learning_rate": 1.1918194052295162e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71012776,
      "step": 122355
    },
    {
      "epoch": 18.224605302353293,
      "grad_norm": 0.009380741976201534,
      "learning_rate": 1.1908282778886115e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71015592,
      "step": 122360
    },
    {
      "epoch": 18.22535001489425,
      "grad_norm": 9.27199380384991e-06,
      "learning_rate": 1.1898375527794603e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71018536,
      "step": 122365
    },
    {
      "epoch": 18.22609472743521,
      "grad_norm": 6.556350399478106e-06,
      "learning_rate": 1.1888472299188102e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71021448,
      "step": 122370
    },
    {
      "epoch": 18.226839439976168,
      "grad_norm": 5.356620022212155e-05,
      "learning_rate": 1.1878573093233814e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71024264,
      "step": 122375
    },
    {
      "epoch": 18.227584152517128,
      "grad_norm": 4.5748715820082e-06,
      "learning_rate": 1.1868677910099018e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71027272,
      "step": 122380
    },
    {
      "epoch": 18.22832886505809,
      "grad_norm": 6.881442459416576e-06,
      "learning_rate": 1.1858786749950919e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71030120,
      "step": 122385
    },
    {
      "epoch": 18.229073577599046,
      "grad_norm": 0.00013018021127209067,
      "learning_rate": 1.184889961295657e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71033384,
      "step": 122390
    },
    {
      "epoch": 18.229818290140006,
      "grad_norm": 2.7219755793339573e-05,
      "learning_rate": 1.1839016499283013e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71036136,
      "step": 122395
    },
    {
      "epoch": 18.230563002680967,
      "grad_norm": 0.0005739043699577451,
      "learning_rate": 1.1829137409097191e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71038888,
      "step": 122400
    },
    {
      "epoch": 18.231307715221924,
      "grad_norm": 1.673181031947024e-05,
      "learning_rate": 1.1819262342566056e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71042120,
      "step": 122405
    },
    {
      "epoch": 18.232052427762884,
      "grad_norm": 0.0001069270001607947,
      "learning_rate": 1.1809391299856365e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71045064,
      "step": 122410
    },
    {
      "epoch": 18.23279714030384,
      "grad_norm": 3.0545477784471586e-05,
      "learning_rate": 1.1799524281134983e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71047976,
      "step": 122415
    },
    {
      "epoch": 18.2335418528448,
      "grad_norm": 7.286857726285234e-05,
      "learning_rate": 1.1789661286568472e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71050888,
      "step": 122420
    },
    {
      "epoch": 18.234286565385762,
      "grad_norm": 0.00010069375275634229,
      "learning_rate": 1.1779802316323585e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71054056,
      "step": 122425
    },
    {
      "epoch": 18.23503127792672,
      "grad_norm": 1.2038844033668283e-05,
      "learning_rate": 1.176994737056683e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71056744,
      "step": 122430
    },
    {
      "epoch": 18.23577599046768,
      "grad_norm": 0.00021792715415358543,
      "learning_rate": 1.176009644946463e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71059720,
      "step": 122435
    },
    {
      "epoch": 18.23652070300864,
      "grad_norm": 0.0001493497984483838,
      "learning_rate": 1.1750249553183518e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71062408,
      "step": 122440
    },
    {
      "epoch": 18.237265415549597,
      "grad_norm": 1.7443304386688396e-05,
      "learning_rate": 1.1740406681889748e-06,
      "loss": 0.0097,
      "num_input_tokens_seen": 71065576,
      "step": 122445
    },
    {
      "epoch": 18.238010128090558,
      "grad_norm": 1.9497178072924726e-05,
      "learning_rate": 1.173056783574969e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71068232,
      "step": 122450
    },
    {
      "epoch": 18.238754840631515,
      "grad_norm": 4.495115263125626e-06,
      "learning_rate": 1.1720733014929514e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71071112,
      "step": 122455
    },
    {
      "epoch": 18.239499553172475,
      "grad_norm": 9.06882414710708e-05,
      "learning_rate": 1.1710902219595366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71074024,
      "step": 122460
    },
    {
      "epoch": 18.240244265713436,
      "grad_norm": 1.786591747077182e-05,
      "learning_rate": 1.1701075449913363e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71077000,
      "step": 122465
    },
    {
      "epoch": 18.240988978254393,
      "grad_norm": 1.0963553904730361e-05,
      "learning_rate": 1.1691252706049456e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71080072,
      "step": 122470
    },
    {
      "epoch": 18.241733690795353,
      "grad_norm": 1.929761674546171e-05,
      "learning_rate": 1.168143398816965e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71082824,
      "step": 122475
    },
    {
      "epoch": 18.242478403336314,
      "grad_norm": 3.221552833565511e-05,
      "learning_rate": 1.1671619296439785e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71085640,
      "step": 122480
    },
    {
      "epoch": 18.24322311587727,
      "grad_norm": 6.555358413606882e-05,
      "learning_rate": 1.16618086310257e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71088520,
      "step": 122485
    },
    {
      "epoch": 18.24396782841823,
      "grad_norm": 4.0435552364215255e-05,
      "learning_rate": 1.1652001992093097e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71091528,
      "step": 122490
    },
    {
      "epoch": 18.24471254095919,
      "grad_norm": 3.4640892408788204e-05,
      "learning_rate": 1.1642199379807706e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71094216,
      "step": 122495
    },
    {
      "epoch": 18.24545725350015,
      "grad_norm": 2.495432818250265e-05,
      "learning_rate": 1.1632400794335084e-06,
      "loss": 0.0004,
      "num_input_tokens_seen": 71097160,
      "step": 122500
    },
    {
      "epoch": 18.24620196604111,
      "grad_norm": 1.8757370980893029e-06,
      "learning_rate": 1.16226062358408e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71100008,
      "step": 122505
    },
    {
      "epoch": 18.246946678582066,
      "grad_norm": 5.159061402082443e-06,
      "learning_rate": 1.1612815704490298e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71102728,
      "step": 122510
    },
    {
      "epoch": 18.247691391123027,
      "grad_norm": 1.0461341844347771e-05,
      "learning_rate": 1.1603029200448978e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71105544,
      "step": 122515
    },
    {
      "epoch": 18.248436103663984,
      "grad_norm": 2.0907909856759943e-06,
      "learning_rate": 1.1593246723882206e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71108712,
      "step": 122520
    },
    {
      "epoch": 18.249180816204944,
      "grad_norm": 1.716022779874038e-05,
      "learning_rate": 1.158346827495524e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71111464,
      "step": 122525
    },
    {
      "epoch": 18.249925528745905,
      "grad_norm": 3.420875827941927e-06,
      "learning_rate": 1.1573693853833224e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71114504,
      "step": 122530
    },
    {
      "epoch": 18.250670241286862,
      "grad_norm": 8.236516805482097e-06,
      "learning_rate": 1.156392346068133e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71117448,
      "step": 122535
    },
    {
      "epoch": 18.251414953827823,
      "grad_norm": 1.857666575233452e-05,
      "learning_rate": 1.1554157095664625e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71120616,
      "step": 122540
    },
    {
      "epoch": 18.252159666368783,
      "grad_norm": 0.0057432996109128,
      "learning_rate": 1.1544394758948112e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71123464,
      "step": 122545
    },
    {
      "epoch": 18.25290437890974,
      "grad_norm": 8.805552170088049e-06,
      "learning_rate": 1.1534636450696634e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71126344,
      "step": 122550
    },
    {
      "epoch": 18.2536490914507,
      "grad_norm": 2.5914237994584255e-05,
      "learning_rate": 1.1524882171075168e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71129320,
      "step": 122555
    },
    {
      "epoch": 18.254393803991658,
      "grad_norm": 1.015688667393988e-05,
      "learning_rate": 1.151513192024839e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71132424,
      "step": 122560
    },
    {
      "epoch": 18.255138516532618,
      "grad_norm": 0.00017816817853599787,
      "learning_rate": 1.150538569838111e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71135464,
      "step": 122565
    },
    {
      "epoch": 18.25588322907358,
      "grad_norm": 1.777178840711713e-05,
      "learning_rate": 1.1495643505637922e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71138664,
      "step": 122570
    },
    {
      "epoch": 18.256627941614536,
      "grad_norm": 3.1068706448422745e-05,
      "learning_rate": 1.148590534218344e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71141896,
      "step": 122575
    },
    {
      "epoch": 18.257372654155496,
      "grad_norm": 1.5719837392680347e-05,
      "learning_rate": 1.1476171208182146e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71144712,
      "step": 122580
    },
    {
      "epoch": 18.258117366696457,
      "grad_norm": 1.1591841939662118e-05,
      "learning_rate": 1.1466441103798575e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71147720,
      "step": 122585
    },
    {
      "epoch": 18.258862079237414,
      "grad_norm": 3.516634702682495,
      "learning_rate": 1.1456715029197012e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 71150824,
      "step": 122590
    },
    {
      "epoch": 18.259606791778374,
      "grad_norm": 0.00011049155000364408,
      "learning_rate": 1.1446992984541827e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71153896,
      "step": 122595
    },
    {
      "epoch": 18.26035150431933,
      "grad_norm": 2.5969849957618862e-05,
      "learning_rate": 1.143727496999722e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71156680,
      "step": 122600
    },
    {
      "epoch": 18.26109621686029,
      "grad_norm": 0.00024714399478398263,
      "learning_rate": 1.1427560985727392e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71160264,
      "step": 122605
    },
    {
      "epoch": 18.261840929401252,
      "grad_norm": 2.5281424314016476e-05,
      "learning_rate": 1.1417851031896438e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71163368,
      "step": 122610
    },
    {
      "epoch": 18.26258564194221,
      "grad_norm": 9.744517592480406e-05,
      "learning_rate": 1.140814510866839e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71166216,
      "step": 122615
    },
    {
      "epoch": 18.26333035448317,
      "grad_norm": 1.5577845260850154e-05,
      "learning_rate": 1.1398443216207282e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71169320,
      "step": 122620
    },
    {
      "epoch": 18.26407506702413,
      "grad_norm": 3.389834091649391e-05,
      "learning_rate": 1.138874535467696e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71172200,
      "step": 122625
    },
    {
      "epoch": 18.264819779565087,
      "grad_norm": 1.1067041668866295e-05,
      "learning_rate": 1.1379051524241236e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71175112,
      "step": 122630
    },
    {
      "epoch": 18.265564492106048,
      "grad_norm": 0.00042228683014400303,
      "learning_rate": 1.1369361725063948e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71178216,
      "step": 122635
    },
    {
      "epoch": 18.266309204647005,
      "grad_norm": 1.1735837688320316e-05,
      "learning_rate": 1.1359675957308745e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71181352,
      "step": 122640
    },
    {
      "epoch": 18.267053917187965,
      "grad_norm": 6.293081696640002e-06,
      "learning_rate": 1.1349994221139276e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71184424,
      "step": 122645
    },
    {
      "epoch": 18.267798629728926,
      "grad_norm": 7.418525910907192e-06,
      "learning_rate": 1.134031651671913e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71187304,
      "step": 122650
    },
    {
      "epoch": 18.268543342269883,
      "grad_norm": 0.0001793496630853042,
      "learning_rate": 1.133064284421176e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71190088,
      "step": 122655
    },
    {
      "epoch": 18.269288054810843,
      "grad_norm": 2.955865056719631e-06,
      "learning_rate": 1.132097320378056e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71192872,
      "step": 122660
    },
    {
      "epoch": 18.270032767351804,
      "grad_norm": 6.584814855159493e-06,
      "learning_rate": 1.1311307595588987e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71195464,
      "step": 122665
    },
    {
      "epoch": 18.27077747989276,
      "grad_norm": 9.208580195263494e-06,
      "learning_rate": 1.130164601980027e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71198504,
      "step": 122670
    },
    {
      "epoch": 18.27152219243372,
      "grad_norm": 0.004547927528619766,
      "learning_rate": 1.1291988476577614e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71201640,
      "step": 122675
    },
    {
      "epoch": 18.27226690497468,
      "grad_norm": 2.2286529201664962e-05,
      "learning_rate": 1.1282334966084246e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71204520,
      "step": 122680
    },
    {
      "epoch": 18.27301161751564,
      "grad_norm": 6.133377610240132e-06,
      "learning_rate": 1.1272685488483148e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71207528,
      "step": 122685
    },
    {
      "epoch": 18.2737563300566,
      "grad_norm": 1.578343471919652e-05,
      "learning_rate": 1.126304004393744e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71210408,
      "step": 122690
    },
    {
      "epoch": 18.274501042597556,
      "grad_norm": 4.471860665944405e-05,
      "learning_rate": 1.125339863261002e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71213128,
      "step": 122695
    },
    {
      "epoch": 18.275245755138517,
      "grad_norm": 8.981073733593803e-06,
      "learning_rate": 1.1243761254663781e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71216200,
      "step": 122700
    },
    {
      "epoch": 18.275990467679474,
      "grad_norm": 1.0870736332435627e-05,
      "learning_rate": 1.1234127910261543e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71218984,
      "step": 122705
    },
    {
      "epoch": 18.276735180220435,
      "grad_norm": 2.5932340577128343e-06,
      "learning_rate": 1.1224498599566009e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71222024,
      "step": 122710
    },
    {
      "epoch": 18.277479892761395,
      "grad_norm": 7.410434136545518e-06,
      "learning_rate": 1.1214873322739933e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71224872,
      "step": 122715
    },
    {
      "epoch": 18.278224605302352,
      "grad_norm": 2.2587337298318744e-05,
      "learning_rate": 1.1205252079945882e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71227880,
      "step": 122720
    },
    {
      "epoch": 18.278969317843313,
      "grad_norm": 8.942109161580447e-06,
      "learning_rate": 1.1195634871346395e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71231112,
      "step": 122725
    },
    {
      "epoch": 18.279714030384273,
      "grad_norm": 2.9104869099683128e-05,
      "learning_rate": 1.1186021697103893e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71233768,
      "step": 122730
    },
    {
      "epoch": 18.28045874292523,
      "grad_norm": 3.065764076382038e-06,
      "learning_rate": 1.1176412557380888e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71236520,
      "step": 122735
    },
    {
      "epoch": 18.28120345546619,
      "grad_norm": 4.585091664921492e-05,
      "learning_rate": 1.116680745233961e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71239464,
      "step": 122740
    },
    {
      "epoch": 18.281948168007148,
      "grad_norm": 7.82125789555721e-06,
      "learning_rate": 1.1157206382142433e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71242312,
      "step": 122745
    },
    {
      "epoch": 18.282692880548108,
      "grad_norm": 6.079806553316303e-06,
      "learning_rate": 1.1147609346951526e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71244904,
      "step": 122750
    },
    {
      "epoch": 18.28343759308907,
      "grad_norm": 2.601555024739355e-05,
      "learning_rate": 1.113801634692893e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71247848,
      "step": 122755
    },
    {
      "epoch": 18.284182305630026,
      "grad_norm": 5.270657129585743e-05,
      "learning_rate": 1.1128427382236823e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71251016,
      "step": 122760
    },
    {
      "epoch": 18.284927018170986,
      "grad_norm": 1.2488003449107055e-05,
      "learning_rate": 1.1118842453037126e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71254088,
      "step": 122765
    },
    {
      "epoch": 18.285671730711947,
      "grad_norm": 1.8742488464340568e-05,
      "learning_rate": 1.1109261559491823e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71256872,
      "step": 122770
    },
    {
      "epoch": 18.286416443252904,
      "grad_norm": 1.38022051032749e-05,
      "learning_rate": 1.109968470176273e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71259688,
      "step": 122775
    },
    {
      "epoch": 18.287161155793864,
      "grad_norm": 1.6040099581005052e-05,
      "learning_rate": 1.109011188001169e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71262408,
      "step": 122780
    },
    {
      "epoch": 18.28790586833482,
      "grad_norm": 2.0932200186507544e-06,
      "learning_rate": 1.1080543094400374e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71265128,
      "step": 122785
    },
    {
      "epoch": 18.28865058087578,
      "grad_norm": 5.422632966656238e-06,
      "learning_rate": 1.1070978345090494e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71268232,
      "step": 122790
    },
    {
      "epoch": 18.289395293416742,
      "grad_norm": 4.805993739864789e-06,
      "learning_rate": 1.1061417632243554e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71271112,
      "step": 122795
    },
    {
      "epoch": 18.2901400059577,
      "grad_norm": 4.5146007323637605e-06,
      "learning_rate": 1.105186095602112e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 71273768,
      "step": 122800
    },
    {
      "epoch": 18.29088471849866,
      "grad_norm": 7.920034840935841e-05,
      "learning_rate": 1.1042308316584649e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71276744,
      "step": 122805
    },
    {
      "epoch": 18.29162943103962,
      "grad_norm": 2.1443051082314923e-05,
      "learning_rate": 1.1032759714095481e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71279528,
      "step": 122810
    },
    {
      "epoch": 18.292374143580577,
      "grad_norm": 3.9822996768634766e-05,
      "learning_rate": 1.1023215148714988e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71282216,
      "step": 122815
    },
    {
      "epoch": 18.293118856121538,
      "grad_norm": 1.147614329966018e-05,
      "learning_rate": 1.1013674620604376e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71285000,
      "step": 122820
    },
    {
      "epoch": 18.293863568662495,
      "grad_norm": 6.514596316264942e-05,
      "learning_rate": 1.1004138129924874e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71287976,
      "step": 122825
    },
    {
      "epoch": 18.294608281203455,
      "grad_norm": 7.69424696045462e-06,
      "learning_rate": 1.0994605676837521e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71290888,
      "step": 122830
    },
    {
      "epoch": 18.295352993744416,
      "grad_norm": 6.779804243706167e-05,
      "learning_rate": 1.0985077261503384e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71293736,
      "step": 122835
    },
    {
      "epoch": 18.296097706285373,
      "grad_norm": 1.0282267794536892e-05,
      "learning_rate": 1.0975552884083473e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71296424,
      "step": 122840
    },
    {
      "epoch": 18.296842418826333,
      "grad_norm": 5.0203085265820846e-05,
      "learning_rate": 1.096603254473863e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71299144,
      "step": 122845
    },
    {
      "epoch": 18.297587131367294,
      "grad_norm": 2.5205577003362123e-06,
      "learning_rate": 1.0956516243629754e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71302120,
      "step": 122850
    },
    {
      "epoch": 18.29833184390825,
      "grad_norm": 6.584043148905039e-05,
      "learning_rate": 1.094700398091758e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71305288,
      "step": 122855
    },
    {
      "epoch": 18.29907655644921,
      "grad_norm": 3.581964483601041e-05,
      "learning_rate": 1.093749575676281e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71308008,
      "step": 122860
    },
    {
      "epoch": 18.29982126899017,
      "grad_norm": 8.096735655271914e-06,
      "learning_rate": 1.092799157132604e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71310888,
      "step": 122865
    },
    {
      "epoch": 18.30056598153113,
      "grad_norm": 4.244574301992543e-05,
      "learning_rate": 1.091849142476792e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71313576,
      "step": 122870
    },
    {
      "epoch": 18.30131069407209,
      "grad_norm": 3.3735645956767257e-06,
      "learning_rate": 1.0908995317248898e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71316168,
      "step": 122875
    },
    {
      "epoch": 18.302055406613047,
      "grad_norm": 3.731612378032878e-05,
      "learning_rate": 1.0899503248929355e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71318888,
      "step": 122880
    },
    {
      "epoch": 18.302800119154007,
      "grad_norm": 7.416706921503646e-06,
      "learning_rate": 1.0890015219969713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71321736,
      "step": 122885
    },
    {
      "epoch": 18.303544831694964,
      "grad_norm": 3.65818914360716e-06,
      "learning_rate": 1.0880531230530233e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71324552,
      "step": 122890
    },
    {
      "epoch": 18.304289544235925,
      "grad_norm": 3.1896468044578796e-06,
      "learning_rate": 1.0871051280771178e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71327304,
      "step": 122895
    },
    {
      "epoch": 18.305034256776885,
      "grad_norm": 0.0003126697847619653,
      "learning_rate": 1.0861575370852612e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71330312,
      "step": 122900
    },
    {
      "epoch": 18.305778969317842,
      "grad_norm": 5.480210529640317e-05,
      "learning_rate": 1.085210350093474e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71332968,
      "step": 122905
    },
    {
      "epoch": 18.306523681858803,
      "grad_norm": 2.89308991341386e-06,
      "learning_rate": 1.084263567117752e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71335720,
      "step": 122910
    },
    {
      "epoch": 18.307268394399763,
      "grad_norm": 9.897034033201635e-05,
      "learning_rate": 1.083317188174085e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71338664,
      "step": 122915
    },
    {
      "epoch": 18.30801310694072,
      "grad_norm": 3.8024622881493997e-06,
      "learning_rate": 1.0823712132784713e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71341736,
      "step": 122920
    },
    {
      "epoch": 18.30875781948168,
      "grad_norm": 8.45627801027149e-06,
      "learning_rate": 1.0814256424468872e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71344840,
      "step": 122925
    },
    {
      "epoch": 18.309502532022638,
      "grad_norm": 4.973528120899573e-06,
      "learning_rate": 1.0804804756953057e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71347656,
      "step": 122930
    },
    {
      "epoch": 18.310247244563598,
      "grad_norm": 5.679031346517149e-06,
      "learning_rate": 1.079535713039695e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71350536,
      "step": 122935
    },
    {
      "epoch": 18.31099195710456,
      "grad_norm": 1.2531786524050403e-05,
      "learning_rate": 1.078591354496017e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71353192,
      "step": 122940
    },
    {
      "epoch": 18.311736669645516,
      "grad_norm": 0.0002318455372005701,
      "learning_rate": 1.0776474000802255e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71356136,
      "step": 122945
    },
    {
      "epoch": 18.312481382186476,
      "grad_norm": 5.107913239044137e-05,
      "learning_rate": 1.0767038498082694e-06,
      "loss": 0.0001,
      "num_input_tokens_seen": 71359208,
      "step": 122950
    },
    {
      "epoch": 18.313226094727437,
      "grad_norm": 4.6119446778902784e-05,
      "learning_rate": 1.0757607036960853e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71362376,
      "step": 122955
    },
    {
      "epoch": 18.313970807268394,
      "grad_norm": 1.9730337953660637e-05,
      "learning_rate": 1.0748179617596082e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71365256,
      "step": 122960
    },
    {
      "epoch": 18.314715519809354,
      "grad_norm": 5.3411535191116855e-05,
      "learning_rate": 1.0738756240147668e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71368168,
      "step": 122965
    },
    {
      "epoch": 18.31546023235031,
      "grad_norm": 1.5401752534671687e-05,
      "learning_rate": 1.0729336904774762e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71370824,
      "step": 122970
    },
    {
      "epoch": 18.316204944891272,
      "grad_norm": 6.864245369797572e-05,
      "learning_rate": 1.071992161163654e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71373672,
      "step": 122975
    },
    {
      "epoch": 18.316949657432232,
      "grad_norm": 4.735223683383083e-06,
      "learning_rate": 1.0710510360892072e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71376744,
      "step": 122980
    },
    {
      "epoch": 18.31769436997319,
      "grad_norm": 2.877744373108726e-05,
      "learning_rate": 1.0701103152700343e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71380104,
      "step": 122985
    },
    {
      "epoch": 18.31843908251415,
      "grad_norm": 8.80449624673929e-06,
      "learning_rate": 1.0691699987220194e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71383240,
      "step": 122990
    },
    {
      "epoch": 18.31918379505511,
      "grad_norm": 4.9566027882974595e-05,
      "learning_rate": 1.068230086461061e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71386408,
      "step": 122995
    },
    {
      "epoch": 18.319928507596067,
      "grad_norm": 9.041539306053892e-05,
      "learning_rate": 1.067290578503033e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71389224,
      "step": 123000
    },
    {
      "epoch": 18.320673220137028,
      "grad_norm": 3.262438258389011e-05,
      "learning_rate": 1.0663514748637998e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71392456,
      "step": 123005
    },
    {
      "epoch": 18.321417932677985,
      "grad_norm": 7.145382551243529e-05,
      "learning_rate": 1.0654127755592381e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71395464,
      "step": 123010
    },
    {
      "epoch": 18.322162645218945,
      "grad_norm": 2.2886822989676148e-05,
      "learning_rate": 1.0644744806051988e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71398568,
      "step": 123015
    },
    {
      "epoch": 18.322907357759906,
      "grad_norm": 1.8844786609406583e-05,
      "learning_rate": 1.0635365900175414e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71401448,
      "step": 123020
    },
    {
      "epoch": 18.323652070300863,
      "grad_norm": 2.2345868728734786e-06,
      "learning_rate": 1.062599103812098e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71404168,
      "step": 123025
    },
    {
      "epoch": 18.324396782841823,
      "grad_norm": 2.2256572265177965e-05,
      "learning_rate": 1.0616620220047197e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71406952,
      "step": 123030
    },
    {
      "epoch": 18.32514149538278,
      "grad_norm": 2.2982965674600564e-05,
      "learning_rate": 1.0607253446112324e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71409704,
      "step": 123035
    },
    {
      "epoch": 18.32588620792374,
      "grad_norm": 5.7573470257921144e-05,
      "learning_rate": 1.0597890716474545e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71412648,
      "step": 123040
    },
    {
      "epoch": 18.3266309204647,
      "grad_norm": 4.677133802033495e-06,
      "learning_rate": 1.058853203129212e-06,
      "loss": 0.0002,
      "num_input_tokens_seen": 71415560,
      "step": 123045
    },
    {
      "epoch": 18.32737563300566,
      "grad_norm": 2.1055861907370854e-06,
      "learning_rate": 1.0579177390723116e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71418536,
      "step": 123050
    },
    {
      "epoch": 18.32812034554662,
      "grad_norm": 5.535305535886437e-05,
      "learning_rate": 1.0569826794925602e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71421512,
      "step": 123055
    },
    {
      "epoch": 18.32886505808758,
      "grad_norm": 0.00029251689556986094,
      "learning_rate": 1.0560480244057452e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71424072,
      "step": 123060
    },
    {
      "epoch": 18.329609770628537,
      "grad_norm": 0.00037283659912645817,
      "learning_rate": 1.0551137738276678e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71427016,
      "step": 123065
    },
    {
      "epoch": 18.330354483169497,
      "grad_norm": 4.520686707110144e-05,
      "learning_rate": 1.0541799277741071e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71429864,
      "step": 123070
    },
    {
      "epoch": 18.331099195710454,
      "grad_norm": 6.457166455220431e-05,
      "learning_rate": 1.0532464862608366e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71432808,
      "step": 123075
    },
    {
      "epoch": 18.331843908251415,
      "grad_norm": 1.2280360351724084e-05,
      "learning_rate": 1.0523134493036296e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71435720,
      "step": 123080
    },
    {
      "epoch": 18.332588620792375,
      "grad_norm": 7.551628368673846e-05,
      "learning_rate": 1.051380816918243e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71438568,
      "step": 123085
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.00014373884187079966,
      "learning_rate": 1.0504485891204452e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71441256,
      "step": 123090
    },
    {
      "epoch": 18.334078045874293,
      "grad_norm": 3.1667361326981336e-05,
      "learning_rate": 1.0495167659259703e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71444136,
      "step": 123095
    },
    {
      "epoch": 18.334822758415253,
      "grad_norm": 2.800866695906734e-06,
      "learning_rate": 1.0485853473505724e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71447176,
      "step": 123100
    },
    {
      "epoch": 18.33556747095621,
      "grad_norm": 2.6104619337274926e-06,
      "learning_rate": 1.0476543334099781e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71449928,
      "step": 123105
    },
    {
      "epoch": 18.33631218349717,
      "grad_norm": 8.372100637643598e-06,
      "learning_rate": 1.0467237241199218e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71452616,
      "step": 123110
    },
    {
      "epoch": 18.337056896038128,
      "grad_norm": 1.1460585483291652e-05,
      "learning_rate": 1.0457935194961245e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71455720,
      "step": 123115
    },
    {
      "epoch": 18.33780160857909,
      "grad_norm": 0.000278774939943105,
      "learning_rate": 1.044863719554298e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71458824,
      "step": 123120
    },
    {
      "epoch": 18.33854632112005,
      "grad_norm": 2.5224953787983395e-06,
      "learning_rate": 1.0439343243101558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71461672,
      "step": 123125
    },
    {
      "epoch": 18.339291033661006,
      "grad_norm": 2.8831173040089197e-05,
      "learning_rate": 1.04300533377939e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71464712,
      "step": 123130
    },
    {
      "epoch": 18.340035746201966,
      "grad_norm": 1.7409091014997102e-05,
      "learning_rate": 1.0420767479777022e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71467656,
      "step": 123135
    },
    {
      "epoch": 18.340780458742927,
      "grad_norm": 0.00018699072825256735,
      "learning_rate": 1.0411485669207772e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71470472,
      "step": 123140
    },
    {
      "epoch": 18.341525171283884,
      "grad_norm": 7.218497921712697e-05,
      "learning_rate": 1.0402207906242966e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71473192,
      "step": 123145
    },
    {
      "epoch": 18.342269883824844,
      "grad_norm": 7.031307177385315e-06,
      "learning_rate": 1.0392934191039372e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71476136,
      "step": 123150
    },
    {
      "epoch": 18.3430145963658,
      "grad_norm": 1.150889238488162e-05,
      "learning_rate": 1.0383664523753584e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71478760,
      "step": 123155
    },
    {
      "epoch": 18.343759308906762,
      "grad_norm": 8.770739441388287e-06,
      "learning_rate": 1.0374398904542283e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71481480,
      "step": 123160
    },
    {
      "epoch": 18.344504021447722,
      "grad_norm": 0.0002569373173173517,
      "learning_rate": 1.0365137333561925e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71484680,
      "step": 123165
    },
    {
      "epoch": 18.34524873398868,
      "grad_norm": 1.2310360034462065e-05,
      "learning_rate": 1.0355879810969054e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71487560,
      "step": 123170
    },
    {
      "epoch": 18.34599344652964,
      "grad_norm": 3.6596524296328425e-05,
      "learning_rate": 1.0346626336920019e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71490760,
      "step": 123175
    },
    {
      "epoch": 18.3467381590706,
      "grad_norm": 2.7183061320101842e-05,
      "learning_rate": 1.0337376911571161e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71493608,
      "step": 123180
    },
    {
      "epoch": 18.347482871611557,
      "grad_norm": 2.6442678517923923e-06,
      "learning_rate": 1.032813153507875e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71496680,
      "step": 123185
    },
    {
      "epoch": 18.348227584152518,
      "grad_norm": 2.8525328161776997e-05,
      "learning_rate": 1.0318890207598963e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71499560,
      "step": 123190
    },
    {
      "epoch": 18.348972296693475,
      "grad_norm": 4.870023258263245e-05,
      "learning_rate": 1.0309652929287926e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71502792,
      "step": 123195
    },
    {
      "epoch": 18.349717009234435,
      "grad_norm": 2.204002157668583e-05,
      "learning_rate": 1.0300419700301684e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71505544,
      "step": 123200
    },
    {
      "epoch": 18.350461721775396,
      "grad_norm": 1.1377158443792723e-05,
      "learning_rate": 1.0291190520796246e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71508232,
      "step": 123205
    },
    {
      "epoch": 18.351206434316353,
      "grad_norm": 4.504929620452458e-06,
      "learning_rate": 1.028196539092746e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71511080,
      "step": 123210
    },
    {
      "epoch": 18.351951146857314,
      "grad_norm": 1.781951868906617e-05,
      "learning_rate": 1.027274431085129e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71513832,
      "step": 123215
    },
    {
      "epoch": 18.35269585939827,
      "grad_norm": 1.4605767319153529e-05,
      "learning_rate": 1.0263527280723411e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71516616,
      "step": 123220
    },
    {
      "epoch": 18.35344057193923,
      "grad_norm": 4.374618129077135e-06,
      "learning_rate": 1.025431430069962e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71519336,
      "step": 123225
    },
    {
      "epoch": 18.35418528448019,
      "grad_norm": 1.5602327039232478e-05,
      "learning_rate": 1.0245105370935536e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71522152,
      "step": 123230
    },
    {
      "epoch": 18.35492999702115,
      "grad_norm": 3.4125082493119407e-06,
      "learning_rate": 1.0235900491586652e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71525160,
      "step": 123235
    },
    {
      "epoch": 18.35567470956211,
      "grad_norm": 8.38823507365305e-06,
      "learning_rate": 1.022669966280862e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71527944,
      "step": 123240
    },
    {
      "epoch": 18.35641942210307,
      "grad_norm": 5.4446436479338445e-06,
      "learning_rate": 1.021750288475673e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71530792,
      "step": 123245
    },
    {
      "epoch": 18.357164134644027,
      "grad_norm": 2.5607732823118567e-05,
      "learning_rate": 1.0208310157586497e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71533768,
      "step": 123250
    },
    {
      "epoch": 18.357908847184987,
      "grad_norm": 5.514652002602816e-06,
      "learning_rate": 1.0199121481453106e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71536936,
      "step": 123255
    },
    {
      "epoch": 18.358653559725944,
      "grad_norm": 3.508702320687007e-06,
      "learning_rate": 1.0189936856511873e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71539752,
      "step": 123260
    },
    {
      "epoch": 18.359398272266905,
      "grad_norm": 1.1279371392447501e-05,
      "learning_rate": 1.018075628291787e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71542984,
      "step": 123265
    },
    {
      "epoch": 18.360142984807865,
      "grad_norm": 2.9619985070894472e-05,
      "learning_rate": 1.0171579760826279e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71545640,
      "step": 123270
    },
    {
      "epoch": 18.360887697348822,
      "grad_norm": 3.0079634598223493e-05,
      "learning_rate": 1.0162407290392112e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71548424,
      "step": 123275
    },
    {
      "epoch": 18.361632409889783,
      "grad_norm": 1.2218611118441913e-05,
      "learning_rate": 1.0153238871770277e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71551048,
      "step": 123280
    },
    {
      "epoch": 18.362377122430743,
      "grad_norm": 3.0442490242421627e-05,
      "learning_rate": 1.014407450511573e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71554312,
      "step": 123285
    },
    {
      "epoch": 18.3631218349717,
      "grad_norm": 2.8751258014381165e-06,
      "learning_rate": 1.013491419058324e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71557000,
      "step": 123290
    },
    {
      "epoch": 18.36386654751266,
      "grad_norm": 3.788158574025147e-05,
      "learning_rate": 1.0125757928327623e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71559688,
      "step": 123295
    },
    {
      "epoch": 18.364611260053618,
      "grad_norm": 3.609873147070175e-06,
      "learning_rate": 1.011660571850348e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71562504,
      "step": 123300
    },
    {
      "epoch": 18.36535597259458,
      "grad_norm": 6.428236247302266e-06,
      "learning_rate": 1.010745756126552e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71565192,
      "step": 123305
    },
    {
      "epoch": 18.36610068513554,
      "grad_norm": 3.151852070004679e-05,
      "learning_rate": 1.0098313456768233e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71569288,
      "step": 123310
    },
    {
      "epoch": 18.366845397676496,
      "grad_norm": 0.00020832069276366383,
      "learning_rate": 1.008917340516613e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71572520,
      "step": 123315
    },
    {
      "epoch": 18.367590110217456,
      "grad_norm": 2.592671080492437e-05,
      "learning_rate": 1.008003740661359e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71575432,
      "step": 123320
    },
    {
      "epoch": 18.368334822758417,
      "grad_norm": 3.545771505741868e-06,
      "learning_rate": 1.007090546126499e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71578408,
      "step": 123325
    },
    {
      "epoch": 18.369079535299374,
      "grad_norm": 2.913456683018012e-06,
      "learning_rate": 1.0061777569274593e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71581256,
      "step": 123330
    },
    {
      "epoch": 18.369824247840334,
      "grad_norm": 2.748258521023672e-05,
      "learning_rate": 1.0052653730796558e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71584104,
      "step": 123335
    },
    {
      "epoch": 18.37056896038129,
      "grad_norm": 3.6760861803486478e-06,
      "learning_rate": 1.004353394598509e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71586984,
      "step": 123340
    },
    {
      "epoch": 18.371313672922252,
      "grad_norm": 1.2812314707844052e-05,
      "learning_rate": 1.0034418214994235e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71589640,
      "step": 123345
    },
    {
      "epoch": 18.372058385463212,
      "grad_norm": 1.954343133547809e-05,
      "learning_rate": 1.0025306537978007e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71592904,
      "step": 123350
    },
    {
      "epoch": 18.37280309800417,
      "grad_norm": 3.6402158002601936e-05,
      "learning_rate": 1.001619891509034e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71596232,
      "step": 123355
    },
    {
      "epoch": 18.37354781054513,
      "grad_norm": 1.2887260709248949e-05,
      "learning_rate": 1.000709534648503e-06,
      "loss": 0.0,
      "num_input_tokens_seen": 71598984,
      "step": 123360
    },
    {
      "epoch": 18.37429252308609,
      "grad_norm": 3.764802386285737e-06,
      "learning_rate": 9.997995832315977e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71601832,
      "step": 123365
    },
    {
      "epoch": 18.375037235627047,
      "grad_norm": 3.8507992030645255e-06,
      "learning_rate": 9.988900372736808e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71604840,
      "step": 123370
    },
    {
      "epoch": 18.375781948168008,
      "grad_norm": 8.734396942600142e-06,
      "learning_rate": 9.979808967901267e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71607784,
      "step": 123375
    },
    {
      "epoch": 18.376526660708965,
      "grad_norm": 1.0564237527432851e-05,
      "learning_rate": 9.97072161796292e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71610888,
      "step": 123380
    },
    {
      "epoch": 18.377271373249926,
      "grad_norm": 1.1574025847949088e-05,
      "learning_rate": 9.961638323075284e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71613768,
      "step": 123385
    },
    {
      "epoch": 18.378016085790886,
      "grad_norm": 1.8789622117765248e-05,
      "learning_rate": 9.952559083391765e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71616456,
      "step": 123390
    },
    {
      "epoch": 18.378760798331843,
      "grad_norm": 9.461296031076927e-06,
      "learning_rate": 9.943483899065798e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71619368,
      "step": 123395
    },
    {
      "epoch": 18.379505510872804,
      "grad_norm": 2.5356834157719277e-05,
      "learning_rate": 9.9344127702507e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 71622024,
      "step": 123400
    },
    {
      "epoch": 18.38025022341376,
      "grad_norm": 2.051034698524745e-06,
      "learning_rate": 9.925345697099686e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71624968,
      "step": 123405
    },
    {
      "epoch": 18.38099493595472,
      "grad_norm": 1.5871804862399586e-05,
      "learning_rate": 9.916282679765965e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71627656,
      "step": 123410
    },
    {
      "epoch": 18.38173964849568,
      "grad_norm": 6.482471235358389e-06,
      "learning_rate": 9.907223718402608e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71630536,
      "step": 123415
    },
    {
      "epoch": 18.38248436103664,
      "grad_norm": 1.4142181498755235e-05,
      "learning_rate": 9.898168813162744e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71633544,
      "step": 123420
    },
    {
      "epoch": 18.3832290735776,
      "grad_norm": 1.972493237190065e-06,
      "learning_rate": 9.889117964199252e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71636232,
      "step": 123425
    },
    {
      "epoch": 18.38397378611856,
      "grad_norm": 2.189731276303064e-05,
      "learning_rate": 9.880071171665089e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71638760,
      "step": 123430
    },
    {
      "epoch": 18.384718498659517,
      "grad_norm": 3.852949703286868e-06,
      "learning_rate": 9.871028435713081e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71641672,
      "step": 123435
    },
    {
      "epoch": 18.385463211200477,
      "grad_norm": 3.6565703339874744e-05,
      "learning_rate": 9.861989756495965e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71644552,
      "step": 123440
    },
    {
      "epoch": 18.386207923741434,
      "grad_norm": 3.3711570722516626e-05,
      "learning_rate": 9.852955134166481e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71647112,
      "step": 123445
    },
    {
      "epoch": 18.386952636282395,
      "grad_norm": 2.9868242563679814e-06,
      "learning_rate": 9.843924568877282e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71649704,
      "step": 123450
    },
    {
      "epoch": 18.387697348823355,
      "grad_norm": 7.577722135465592e-05,
      "learning_rate": 9.834898060780861e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71652488,
      "step": 123455
    },
    {
      "epoch": 18.388442061364312,
      "grad_norm": 3.5725840916711604e-06,
      "learning_rate": 9.825875610029733e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71655336,
      "step": 123460
    },
    {
      "epoch": 18.389186773905273,
      "grad_norm": 1.4912822734913789e-05,
      "learning_rate": 9.81685721677636e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71658376,
      "step": 123465
    },
    {
      "epoch": 18.389931486446233,
      "grad_norm": 1.5768871890031733e-05,
      "learning_rate": 9.807842881173034e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71661192,
      "step": 123470
    },
    {
      "epoch": 18.39067619898719,
      "grad_norm": 3.4854947443818673e-05,
      "learning_rate": 9.79883260337211e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71664200,
      "step": 123475
    },
    {
      "epoch": 18.39142091152815,
      "grad_norm": 3.4410877560731024e-06,
      "learning_rate": 9.789826383525796e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71667048,
      "step": 123480
    },
    {
      "epoch": 18.392165624069108,
      "grad_norm": 7.412842023768462e-06,
      "learning_rate": 9.780824221786195e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71669960,
      "step": 123485
    },
    {
      "epoch": 18.39291033661007,
      "grad_norm": 1.2662824701692443e-05,
      "learning_rate": 9.771826118305432e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71673032,
      "step": 123490
    },
    {
      "epoch": 18.39365504915103,
      "grad_norm": 0.0010612929472699761,
      "learning_rate": 9.762832073235501e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71675720,
      "step": 123495
    },
    {
      "epoch": 18.394399761691986,
      "grad_norm": 5.070889983471716e-06,
      "learning_rate": 9.75384208672836e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71678920,
      "step": 123500
    },
    {
      "epoch": 18.395144474232946,
      "grad_norm": 5.92634933127556e-06,
      "learning_rate": 9.744856158935888e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71681864,
      "step": 123505
    },
    {
      "epoch": 18.395889186773907,
      "grad_norm": 6.906574071763316e-06,
      "learning_rate": 9.735874290009884e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71684744,
      "step": 123510
    },
    {
      "epoch": 18.396633899314864,
      "grad_norm": 2.7724092888092855e-06,
      "learning_rate": 9.72689648010211e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71687592,
      "step": 123515
    },
    {
      "epoch": 18.397378611855824,
      "grad_norm": 5.245449301582994e-06,
      "learning_rate": 9.717922729364198e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71690312,
      "step": 123520
    },
    {
      "epoch": 18.39812332439678,
      "grad_norm": 7.288083907042164e-06,
      "learning_rate": 9.708953037947804e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71693288,
      "step": 123525
    },
    {
      "epoch": 18.398868036937742,
      "grad_norm": 1.385635641781846e-05,
      "learning_rate": 9.699987406004364e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71696296,
      "step": 123530
    },
    {
      "epoch": 18.399612749478703,
      "grad_norm": 9.803908142203e-06,
      "learning_rate": 9.691025833685446e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71699176,
      "step": 123535
    },
    {
      "epoch": 18.40035746201966,
      "grad_norm": 3.104530151176732e-06,
      "learning_rate": 9.68206832114238e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71701768,
      "step": 123540
    },
    {
      "epoch": 18.40110217456062,
      "grad_norm": 5.165926995687187e-05,
      "learning_rate": 9.673114868526568e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71704872,
      "step": 123545
    },
    {
      "epoch": 18.401846887101577,
      "grad_norm": 0.0005260942270979285,
      "learning_rate": 9.664165475989168e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71707848,
      "step": 123550
    },
    {
      "epoch": 18.402591599642538,
      "grad_norm": 2.959535049740225e-05,
      "learning_rate": 9.655220143681476e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 71710824,
      "step": 123555
    },
    {
      "epoch": 18.403336312183498,
      "grad_norm": 4.996080861019436e-06,
      "learning_rate": 9.646278871754539e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71713704,
      "step": 123560
    },
    {
      "epoch": 18.404081024724455,
      "grad_norm": 2.851864110198221e-06,
      "learning_rate": 9.637341660359428e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71716232,
      "step": 123565
    },
    {
      "epoch": 18.404825737265416,
      "grad_norm": 7.848216228012461e-06,
      "learning_rate": 9.628408509647164e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71718792,
      "step": 123570
    },
    {
      "epoch": 18.405570449806376,
      "grad_norm": 4.456660917639965e-06,
      "learning_rate": 9.619479419768596e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71721736,
      "step": 123575
    },
    {
      "epoch": 18.406315162347333,
      "grad_norm": 5.2437167141761165e-06,
      "learning_rate": 9.610554390874632e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71724488,
      "step": 123580
    },
    {
      "epoch": 18.407059874888294,
      "grad_norm": 0.00012695070472545922,
      "learning_rate": 9.60163342311604e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71727176,
      "step": 123585
    },
    {
      "epoch": 18.40780458742925,
      "grad_norm": 1.689258533588145e-05,
      "learning_rate": 9.592716516643536e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71729736,
      "step": 123590
    },
    {
      "epoch": 18.40854929997021,
      "grad_norm": 5.80154919589404e-05,
      "learning_rate": 9.583803671607743e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71732552,
      "step": 123595
    },
    {
      "epoch": 18.40929401251117,
      "grad_norm": 4.6429930080194026e-05,
      "learning_rate": 9.574894888159186e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71735432,
      "step": 123600
    },
    {
      "epoch": 18.41003872505213,
      "grad_norm": 5.3791456593899056e-05,
      "learning_rate": 9.565990166448463e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71738440,
      "step": 123605
    },
    {
      "epoch": 18.41078343759309,
      "grad_norm": 8.343015906575602e-06,
      "learning_rate": 9.557089506625954e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71741352,
      "step": 123610
    },
    {
      "epoch": 18.41152815013405,
      "grad_norm": 2.134021451638546e-05,
      "learning_rate": 9.54819290884207e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71744104,
      "step": 123615
    },
    {
      "epoch": 18.412272862675007,
      "grad_norm": 3.2909242690948304e-06,
      "learning_rate": 9.539300373247045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71746984,
      "step": 123620
    },
    {
      "epoch": 18.413017575215967,
      "grad_norm": 3.421859219088219e-05,
      "learning_rate": 9.530411899991182e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71749800,
      "step": 123625
    },
    {
      "epoch": 18.413762287756924,
      "grad_norm": 8.462160622002557e-06,
      "learning_rate": 9.521527489224552e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71752840,
      "step": 123630
    },
    {
      "epoch": 18.414507000297885,
      "grad_norm": 6.699787263642065e-06,
      "learning_rate": 9.512647141097369e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71755880,
      "step": 123635
    },
    {
      "epoch": 18.415251712838845,
      "grad_norm": 4.191879725112813e-06,
      "learning_rate": 9.503770855759569e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71758728,
      "step": 123640
    },
    {
      "epoch": 18.415996425379802,
      "grad_norm": 5.9563441027421504e-05,
      "learning_rate": 9.494898633361144e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71761544,
      "step": 123645
    },
    {
      "epoch": 18.416741137920763,
      "grad_norm": 3.4752883948385715e-06,
      "learning_rate": 9.486030474051944e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71764360,
      "step": 123650
    },
    {
      "epoch": 18.417485850461723,
      "grad_norm": 7.366706540778978e-06,
      "learning_rate": 9.477166377981822e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71767560,
      "step": 123655
    },
    {
      "epoch": 18.41823056300268,
      "grad_norm": 0.0003500605234876275,
      "learning_rate": 9.468306345300548e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71769992,
      "step": 123660
    },
    {
      "epoch": 18.41897527554364,
      "grad_norm": 7.2578272920509335e-06,
      "learning_rate": 9.459450376157697e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71773096,
      "step": 123665
    },
    {
      "epoch": 18.419719988084598,
      "grad_norm": 4.372607236291515e-06,
      "learning_rate": 9.450598470703037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71775912,
      "step": 123670
    },
    {
      "epoch": 18.42046470062556,
      "grad_norm": 1.576709109940566e-05,
      "learning_rate": 9.441750629086004e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71779240,
      "step": 123675
    },
    {
      "epoch": 18.42120941316652,
      "grad_norm": 3.586835873647942e-06,
      "learning_rate": 9.432906851456064e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71782088,
      "step": 123680
    },
    {
      "epoch": 18.421954125707476,
      "grad_norm": 5.8740974964166526e-06,
      "learning_rate": 9.424067137962705e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71785128,
      "step": 123685
    },
    {
      "epoch": 18.422698838248436,
      "grad_norm": 4.443319539859658e-06,
      "learning_rate": 9.4152314887552e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71788040,
      "step": 123690
    },
    {
      "epoch": 18.423443550789397,
      "grad_norm": 3.118063978035934e-05,
      "learning_rate": 9.406399903982844e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71790888,
      "step": 123695
    },
    {
      "epoch": 18.424188263330354,
      "grad_norm": 0.0025133832823485136,
      "learning_rate": 9.397572383794823e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71793928,
      "step": 123700
    },
    {
      "epoch": 18.424932975871315,
      "grad_norm": 0.001103684538975358,
      "learning_rate": 9.388748928340296e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71796840,
      "step": 123705
    },
    {
      "epoch": 18.42567768841227,
      "grad_norm": 0.0005087853642180562,
      "learning_rate": 9.379929537768339e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71799880,
      "step": 123710
    },
    {
      "epoch": 18.426422400953232,
      "grad_norm": 1.5033746421977412e-05,
      "learning_rate": 9.371114212227889e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71802824,
      "step": 123715
    },
    {
      "epoch": 18.427167113494193,
      "grad_norm": 1.4421580999623984e-05,
      "learning_rate": 9.362302951867907e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71805704,
      "step": 123720
    },
    {
      "epoch": 18.42791182603515,
      "grad_norm": 4.138628810324008e-06,
      "learning_rate": 9.353495756837222e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71808616,
      "step": 123725
    },
    {
      "epoch": 18.42865653857611,
      "grad_norm": 0.0001874300214694813,
      "learning_rate": 9.344692627284657e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71811240,
      "step": 123730
    },
    {
      "epoch": 18.42940125111707,
      "grad_norm": 7.790720701450482e-06,
      "learning_rate": 9.335893563358899e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71814024,
      "step": 123735
    },
    {
      "epoch": 18.430145963658028,
      "grad_norm": 5.10223571836832e-06,
      "learning_rate": 9.327098565208636e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71817352,
      "step": 123740
    },
    {
      "epoch": 18.430890676198988,
      "grad_norm": 1.5370218534371816e-05,
      "learning_rate": 9.318307632982415e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71820328,
      "step": 123745
    },
    {
      "epoch": 18.431635388739945,
      "grad_norm": 2.670400363058434e-06,
      "learning_rate": 9.309520766828811e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71823080,
      "step": 123750
    },
    {
      "epoch": 18.432380101280906,
      "grad_norm": 8.109174086712301e-05,
      "learning_rate": 9.300737966896206e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71825864,
      "step": 123755
    },
    {
      "epoch": 18.433124813821866,
      "grad_norm": 2.527950300645898e-06,
      "learning_rate": 9.291959233332981e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71828584,
      "step": 123760
    },
    {
      "epoch": 18.433869526362823,
      "grad_norm": 1.1645646736724302e-05,
      "learning_rate": 9.28318456628749e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71831368,
      "step": 123765
    },
    {
      "epoch": 18.434614238903784,
      "grad_norm": 1.0826043762790505e-05,
      "learning_rate": 9.274413965907919e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71834376,
      "step": 123770
    },
    {
      "epoch": 18.43535895144474,
      "grad_norm": 8.219034498324618e-06,
      "learning_rate": 9.265647432342455e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71837416,
      "step": 123775
    },
    {
      "epoch": 18.4361036639857,
      "grad_norm": 2.137549381586723e-05,
      "learning_rate": 9.256884965739232e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71840712,
      "step": 123780
    },
    {
      "epoch": 18.43684837652666,
      "grad_norm": 8.364567293028813e-06,
      "learning_rate": 9.248126566246267e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71843560,
      "step": 123785
    },
    {
      "epoch": 18.43759308906762,
      "grad_norm": 0.00028679423849098384,
      "learning_rate": 9.239372234011473e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71846440,
      "step": 123790
    },
    {
      "epoch": 18.43833780160858,
      "grad_norm": 7.240549894049764e-05,
      "learning_rate": 9.230621969182812e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71849480,
      "step": 123795
    },
    {
      "epoch": 18.43908251414954,
      "grad_norm": 2.8223303161212243e-05,
      "learning_rate": 9.221875771908084e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71852328,
      "step": 123800
    },
    {
      "epoch": 18.439827226690497,
      "grad_norm": 0.0014241304015740752,
      "learning_rate": 9.213133642335031e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71855272,
      "step": 123805
    },
    {
      "epoch": 18.440571939231457,
      "grad_norm": 7.189714779087808e-06,
      "learning_rate": 9.204395580611397e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71858216,
      "step": 123810
    },
    {
      "epoch": 18.441316651772414,
      "grad_norm": 3.6058879686606815e-06,
      "learning_rate": 9.195661586884729e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71861416,
      "step": 123815
    },
    {
      "epoch": 18.442061364313375,
      "grad_norm": 1.136987248173682e-05,
      "learning_rate": 9.186931661302634e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71864040,
      "step": 123820
    },
    {
      "epoch": 18.442806076854335,
      "grad_norm": 7.625332727911882e-06,
      "learning_rate": 9.178205804012546e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71866728,
      "step": 123825
    },
    {
      "epoch": 18.443550789395292,
      "grad_norm": 1.0060191016236786e-05,
      "learning_rate": 9.16948401516196e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71869672,
      "step": 123830
    },
    {
      "epoch": 18.444295501936253,
      "grad_norm": 0.00027026189491152763,
      "learning_rate": 9.160766294898148e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71872648,
      "step": 123835
    },
    {
      "epoch": 18.445040214477213,
      "grad_norm": 3.0568739930458833e-06,
      "learning_rate": 9.152052643368408e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71875496,
      "step": 123840
    },
    {
      "epoch": 18.44578492701817,
      "grad_norm": 0.04886995255947113,
      "learning_rate": 9.143343060719956e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 71878056,
      "step": 123845
    },
    {
      "epoch": 18.44652963955913,
      "grad_norm": 2.939392516054795e-06,
      "learning_rate": 9.13463754709995e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71880712,
      "step": 123850
    },
    {
      "epoch": 18.447274352100088,
      "grad_norm": 3.915811703336658e-06,
      "learning_rate": 9.125936102655414e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71883784,
      "step": 123855
    },
    {
      "epoch": 18.44801906464105,
      "grad_norm": 1.150338357547298e-05,
      "learning_rate": 9.117238727533367e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71886696,
      "step": 123860
    },
    {
      "epoch": 18.44876377718201,
      "grad_norm": 2.360228063480463e-05,
      "learning_rate": 9.108545421880776e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71889608,
      "step": 123865
    },
    {
      "epoch": 18.449508489722966,
      "grad_norm": 1.0807316357386298e-05,
      "learning_rate": 9.09985618584444e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71892520,
      "step": 123870
    },
    {
      "epoch": 18.450253202263927,
      "grad_norm": 2.87017724076577e-06,
      "learning_rate": 9.091171019571215e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71895144,
      "step": 123875
    },
    {
      "epoch": 18.450997914804887,
      "grad_norm": 9.790703188627958e-06,
      "learning_rate": 9.082489923207815e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71898056,
      "step": 123880
    },
    {
      "epoch": 18.451742627345844,
      "grad_norm": 4.831055775866844e-06,
      "learning_rate": 9.073812896900874e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71900616,
      "step": 123885
    },
    {
      "epoch": 18.452487339886805,
      "grad_norm": 1.8501635850043385e-06,
      "learning_rate": 9.065139940797024e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71903880,
      "step": 123890
    },
    {
      "epoch": 18.45323205242776,
      "grad_norm": 3.4040360787912505e-06,
      "learning_rate": 9.056471055042732e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71906728,
      "step": 123895
    },
    {
      "epoch": 18.453976764968722,
      "grad_norm": 0.00018195738084614277,
      "learning_rate": 9.04780623978449e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71909608,
      "step": 123900
    },
    {
      "epoch": 18.454721477509683,
      "grad_norm": 3.301236802144558e-06,
      "learning_rate": 9.039145495168655e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 71912840,
      "step": 123905
    },
    {
      "epoch": 18.45546619005064,
      "grad_norm": 5.2849354688078165e-06,
      "learning_rate": 9.030488821341554e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71915560,
      "step": 123910
    },
    {
      "epoch": 18.4562109025916,
      "grad_norm": 6.553397270181449e-06,
      "learning_rate": 9.021836218449459e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71918536,
      "step": 123915
    },
    {
      "epoch": 18.456955615132557,
      "grad_norm": 4.114203420613194e-06,
      "learning_rate": 9.01318768663853e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71921512,
      "step": 123920
    },
    {
      "epoch": 18.457700327673518,
      "grad_norm": 4.9295456847175956e-05,
      "learning_rate": 9.004543226054846e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71924328,
      "step": 123925
    },
    {
      "epoch": 18.458445040214478,
      "grad_norm": 6.103620762587525e-06,
      "learning_rate": 8.995902836844455e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71926920,
      "step": 123930
    },
    {
      "epoch": 18.459189752755435,
      "grad_norm": 3.5928801480622496e-06,
      "learning_rate": 8.987266519153353e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71929800,
      "step": 123935
    },
    {
      "epoch": 18.459934465296396,
      "grad_norm": 1.047529985953588e-05,
      "learning_rate": 8.978634273127424e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71932680,
      "step": 123940
    },
    {
      "epoch": 18.460679177837356,
      "grad_norm": 1.5642108337488025e-05,
      "learning_rate": 8.97000609891252e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71935560,
      "step": 123945
    },
    {
      "epoch": 18.461423890378313,
      "grad_norm": 0.0008972305804491043,
      "learning_rate": 8.961381996654361e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71938408,
      "step": 123950
    },
    {
      "epoch": 18.462168602919274,
      "grad_norm": 8.89898874447681e-05,
      "learning_rate": 8.952761966498691e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71941192,
      "step": 123955
    },
    {
      "epoch": 18.46291331546023,
      "grad_norm": 1.8150949472328648e-05,
      "learning_rate": 8.944146008591143e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71943848,
      "step": 123960
    },
    {
      "epoch": 18.46365802800119,
      "grad_norm": 0.0002595265978015959,
      "learning_rate": 8.93553412307721e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71946792,
      "step": 123965
    },
    {
      "epoch": 18.464402740542152,
      "grad_norm": 3.1239962936524535e-06,
      "learning_rate": 8.926926310102445e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71949832,
      "step": 123970
    },
    {
      "epoch": 18.46514745308311,
      "grad_norm": 1.76973899215227e-05,
      "learning_rate": 8.918322569812259e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71952744,
      "step": 123975
    },
    {
      "epoch": 18.46589216562407,
      "grad_norm": 9.72940688370727e-06,
      "learning_rate": 8.909722902351924e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71955624,
      "step": 123980
    },
    {
      "epoch": 18.46663687816503,
      "grad_norm": 5.560688805417158e-06,
      "learning_rate": 8.901127307866852e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71958216,
      "step": 123985
    },
    {
      "epoch": 18.467381590705987,
      "grad_norm": 1.856378162301553e-06,
      "learning_rate": 8.892535786502176e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71961096,
      "step": 123990
    },
    {
      "epoch": 18.468126303246947,
      "grad_norm": 0.00021956287673674524,
      "learning_rate": 8.883948338403058e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71963720,
      "step": 123995
    },
    {
      "epoch": 18.468871015787904,
      "grad_norm": 6.732700057909824e-06,
      "learning_rate": 8.87536496371455e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71966344,
      "step": 124000
    },
    {
      "epoch": 18.469615728328865,
      "grad_norm": 5.0927908887388185e-05,
      "learning_rate": 8.866785662581728e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71969256,
      "step": 124005
    },
    {
      "epoch": 18.470360440869825,
      "grad_norm": 0.0008793410961516201,
      "learning_rate": 8.858210435149422e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71972040,
      "step": 124010
    },
    {
      "epoch": 18.471105153410782,
      "grad_norm": 2.863504278138862e-06,
      "learning_rate": 8.849639281562628e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71974856,
      "step": 124015
    },
    {
      "epoch": 18.471849865951743,
      "grad_norm": 4.816263754037209e-06,
      "learning_rate": 8.841072201966033e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71977992,
      "step": 124020
    },
    {
      "epoch": 18.472594578492703,
      "grad_norm": 0.00010679138358682394,
      "learning_rate": 8.83250919650444e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71980808,
      "step": 124025
    },
    {
      "epoch": 18.47333929103366,
      "grad_norm": 1.0441646736580878e-05,
      "learning_rate": 8.823950265322484e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71983784,
      "step": 124030
    },
    {
      "epoch": 18.47408400357462,
      "grad_norm": 5.806628905702382e-06,
      "learning_rate": 8.815395408564797e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71986888,
      "step": 124035
    },
    {
      "epoch": 18.474828716115578,
      "grad_norm": 0.0001446143869543448,
      "learning_rate": 8.806844626375848e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71989736,
      "step": 124040
    },
    {
      "epoch": 18.47557342865654,
      "grad_norm": 2.0236680029483978e-06,
      "learning_rate": 8.798297918900162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71992136,
      "step": 124045
    },
    {
      "epoch": 18.4763181411975,
      "grad_norm": 2.475781684552203e-06,
      "learning_rate": 8.789755286282065e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71995016,
      "step": 124050
    },
    {
      "epoch": 18.477062853738456,
      "grad_norm": 1.0459783879923634e-05,
      "learning_rate": 8.781216728665859e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 71997992,
      "step": 124055
    },
    {
      "epoch": 18.477807566279417,
      "grad_norm": 2.3366246750811115e-06,
      "learning_rate": 8.772682246195873e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72000936,
      "step": 124060
    },
    {
      "epoch": 18.478552278820374,
      "grad_norm": 7.988478500919882e-06,
      "learning_rate": 8.764151839016216e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72003944,
      "step": 124065
    },
    {
      "epoch": 18.479296991361334,
      "grad_norm": 4.479931249079527e-06,
      "learning_rate": 8.755625507271076e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72007016,
      "step": 124070
    },
    {
      "epoch": 18.480041703902295,
      "grad_norm": 1.4636599189543631e-05,
      "learning_rate": 8.747103251104394e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72010120,
      "step": 124075
    },
    {
      "epoch": 18.48078641644325,
      "grad_norm": 1.922465344250668e-05,
      "learning_rate": 8.738585070660249e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72013256,
      "step": 124080
    },
    {
      "epoch": 18.481531128984212,
      "grad_norm": 0.00021299728541634977,
      "learning_rate": 8.730070966082499e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72016488,
      "step": 124085
    },
    {
      "epoch": 18.482275841525173,
      "grad_norm": 0.00029334521968849003,
      "learning_rate": 8.721560937514972e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72019656,
      "step": 124090
    },
    {
      "epoch": 18.48302055406613,
      "grad_norm": 7.917781476862729e-05,
      "learning_rate": 8.71305498510147e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72022632,
      "step": 124095
    },
    {
      "epoch": 18.48376526660709,
      "grad_norm": 0.00011024706327589229,
      "learning_rate": 8.70455310898563e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72025288,
      "step": 124100
    },
    {
      "epoch": 18.484509979148047,
      "grad_norm": 1.8923019524663687e-05,
      "learning_rate": 8.696055309311169e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72027880,
      "step": 124105
    },
    {
      "epoch": 18.485254691689008,
      "grad_norm": 1.0209319952991791e-05,
      "learning_rate": 8.687561586221582e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72031016,
      "step": 124110
    },
    {
      "epoch": 18.48599940422997,
      "grad_norm": 3.641967850853689e-05,
      "learning_rate": 8.679071939860394e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72033640,
      "step": 124115
    },
    {
      "epoch": 18.486744116770925,
      "grad_norm": 4.764777258969843e-06,
      "learning_rate": 8.67058637037102e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72036680,
      "step": 124120
    },
    {
      "epoch": 18.487488829311886,
      "grad_norm": 1.924250136653427e-05,
      "learning_rate": 8.662104877896788e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72039528,
      "step": 124125
    },
    {
      "epoch": 18.488233541852846,
      "grad_norm": 1.6125069350891863e-06,
      "learning_rate": 8.653627462581027e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72042056,
      "step": 124130
    },
    {
      "epoch": 18.488978254393803,
      "grad_norm": 6.0627362472587265e-06,
      "learning_rate": 8.645154124566929e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72045064,
      "step": 124135
    },
    {
      "epoch": 18.489722966934764,
      "grad_norm": 3.382837121534976e-06,
      "learning_rate": 8.636684863997657e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72048168,
      "step": 124140
    },
    {
      "epoch": 18.49046767947572,
      "grad_norm": 4.187358626950299e-06,
      "learning_rate": 8.628219681016264e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72051112,
      "step": 124145
    },
    {
      "epoch": 18.49121239201668,
      "grad_norm": 7.029894277366111e-06,
      "learning_rate": 8.619758575765801e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72054024,
      "step": 124150
    },
    {
      "epoch": 18.491957104557642,
      "grad_norm": 1.3577900972450152e-05,
      "learning_rate": 8.611301548389155e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72056776,
      "step": 124155
    },
    {
      "epoch": 18.4927018170986,
      "grad_norm": 2.8078900413675e-06,
      "learning_rate": 8.602848599029267e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72059560,
      "step": 124160
    },
    {
      "epoch": 18.49344652963956,
      "grad_norm": 8.207345672417432e-06,
      "learning_rate": 8.59439972782894e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72062216,
      "step": 124165
    },
    {
      "epoch": 18.49419124218052,
      "grad_norm": 5.002477337257005e-06,
      "learning_rate": 8.585954934930806e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72064968,
      "step": 124170
    },
    {
      "epoch": 18.494935954721477,
      "grad_norm": 2.4366418074350804e-05,
      "learning_rate": 8.577514220477644e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72068008,
      "step": 124175
    },
    {
      "epoch": 18.495680667262437,
      "grad_norm": 1.1859779078804422e-05,
      "learning_rate": 8.569077584612006e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72071048,
      "step": 124180
    },
    {
      "epoch": 18.496425379803394,
      "grad_norm": 1.9572898963815533e-05,
      "learning_rate": 8.560645027476416e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72073928,
      "step": 124185
    },
    {
      "epoch": 18.497170092344355,
      "grad_norm": 3.7210429582046345e-06,
      "learning_rate": 8.552216549213316e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72076616,
      "step": 124190
    },
    {
      "epoch": 18.497914804885315,
      "grad_norm": 2.501453309378121e-06,
      "learning_rate": 8.543792149965174e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72079368,
      "step": 124195
    },
    {
      "epoch": 18.498659517426272,
      "grad_norm": 2.1333949916879646e-05,
      "learning_rate": 8.535371829874239e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72082088,
      "step": 124200
    },
    {
      "epoch": 18.499404229967233,
      "grad_norm": 4.513201929512434e-05,
      "learning_rate": 8.52695558908273e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72084904,
      "step": 124205
    },
    {
      "epoch": 18.500148942508194,
      "grad_norm": 5.117464024806395e-05,
      "learning_rate": 8.51854342773295e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72087944,
      "step": 124210
    },
    {
      "epoch": 18.50089365504915,
      "grad_norm": 3.833162190858275e-05,
      "learning_rate": 8.510135345966897e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72090888,
      "step": 124215
    },
    {
      "epoch": 18.50163836759011,
      "grad_norm": 1.0082907465402968e-05,
      "learning_rate": 8.501731343926706e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72093576,
      "step": 124220
    },
    {
      "epoch": 18.502383080131068,
      "grad_norm": 0.00033797911601141095,
      "learning_rate": 8.493331421754291e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72096232,
      "step": 124225
    },
    {
      "epoch": 18.50312779267203,
      "grad_norm": 0.00014675753482151777,
      "learning_rate": 8.484935579591596e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72099464,
      "step": 124230
    },
    {
      "epoch": 18.50387250521299,
      "grad_norm": 6.18790772932698e-06,
      "learning_rate": 8.476543817580451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72102344,
      "step": 124235
    },
    {
      "epoch": 18.504617217753946,
      "grad_norm": 1.3218435015005525e-05,
      "learning_rate": 8.468156135862631e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72105160,
      "step": 124240
    },
    {
      "epoch": 18.505361930294907,
      "grad_norm": 4.007798452221323e-06,
      "learning_rate": 8.45977253457983e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72108552,
      "step": 124245
    },
    {
      "epoch": 18.506106642835867,
      "grad_norm": 5.205035449762363e-06,
      "learning_rate": 8.451393013873682e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72111656,
      "step": 124250
    },
    {
      "epoch": 18.506851355376824,
      "grad_norm": 1.2438372323231306e-05,
      "learning_rate": 8.443017573885769e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72114600,
      "step": 124255
    },
    {
      "epoch": 18.507596067917785,
      "grad_norm": 4.0219224501925055e-06,
      "learning_rate": 8.434646214757536e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72117480,
      "step": 124260
    },
    {
      "epoch": 18.50834078045874,
      "grad_norm": 2.0556803974614013e-06,
      "learning_rate": 8.42627893663045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72120264,
      "step": 124265
    },
    {
      "epoch": 18.509085492999702,
      "grad_norm": 0.0009444289025850594,
      "learning_rate": 8.417915739645815e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72123016,
      "step": 124270
    },
    {
      "epoch": 18.509830205540663,
      "grad_norm": 1.676637475611642e-05,
      "learning_rate": 8.40955662394502e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72126056,
      "step": 124275
    },
    {
      "epoch": 18.51057491808162,
      "grad_norm": 1.9349576177773997e-05,
      "learning_rate": 8.401201589669227e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72128936,
      "step": 124280
    },
    {
      "epoch": 18.51131963062258,
      "grad_norm": 5.564481853070902e-06,
      "learning_rate": 8.392850636959521e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72131624,
      "step": 124285
    },
    {
      "epoch": 18.512064343163537,
      "grad_norm": 3.3276837712037377e-06,
      "learning_rate": 8.384503765957091e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72134600,
      "step": 124290
    },
    {
      "epoch": 18.512809055704498,
      "grad_norm": 6.122424110799329e-06,
      "learning_rate": 8.376160976802882e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72137512,
      "step": 124295
    },
    {
      "epoch": 18.51355376824546,
      "grad_norm": 2.0001380107714795e-05,
      "learning_rate": 8.367822269637892e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72140328,
      "step": 124300
    },
    {
      "epoch": 18.514298480786415,
      "grad_norm": 4.978048764314735e-06,
      "learning_rate": 8.359487644602954e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72142984,
      "step": 124305
    },
    {
      "epoch": 18.515043193327376,
      "grad_norm": 5.214599514147267e-05,
      "learning_rate": 8.351157101838842e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72145768,
      "step": 124310
    },
    {
      "epoch": 18.515787905868336,
      "grad_norm": 7.153764454415068e-05,
      "learning_rate": 8.34283064148636e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72148712,
      "step": 124315
    },
    {
      "epoch": 18.516532618409293,
      "grad_norm": 1.949064426298719e-05,
      "learning_rate": 8.334508263686147e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72151560,
      "step": 124320
    },
    {
      "epoch": 18.517277330950254,
      "grad_norm": 1.5167662240855861e-05,
      "learning_rate": 8.326189968578785e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72154568,
      "step": 124325
    },
    {
      "epoch": 18.51802204349121,
      "grad_norm": 1.2687316484516487e-05,
      "learning_rate": 8.317875756304827e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72157256,
      "step": 124330
    },
    {
      "epoch": 18.51876675603217,
      "grad_norm": 1.8388145690551028e-06,
      "learning_rate": 8.309565627004717e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72160200,
      "step": 124335
    },
    {
      "epoch": 18.519511468573132,
      "grad_norm": 6.681411832687445e-06,
      "learning_rate": 8.301259580818843e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72162856,
      "step": 124340
    },
    {
      "epoch": 18.52025618111409,
      "grad_norm": 1.341544611932477e-05,
      "learning_rate": 8.292957617887537e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72165800,
      "step": 124345
    },
    {
      "epoch": 18.52100089365505,
      "grad_norm": 1.6142108506755903e-05,
      "learning_rate": 8.284659738351047e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72168680,
      "step": 124350
    },
    {
      "epoch": 18.52174560619601,
      "grad_norm": 5.583676102105528e-05,
      "learning_rate": 8.276365942349595e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72171592,
      "step": 124355
    },
    {
      "epoch": 18.522490318736967,
      "grad_norm": 8.507042366545647e-06,
      "learning_rate": 8.268076230023264e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72174376,
      "step": 124360
    },
    {
      "epoch": 18.523235031277927,
      "grad_norm": 7.452666523022344e-06,
      "learning_rate": 8.259790601512052e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72177448,
      "step": 124365
    },
    {
      "epoch": 18.523979743818884,
      "grad_norm": 6.259840301936492e-05,
      "learning_rate": 8.251509056956042e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72180232,
      "step": 124370
    },
    {
      "epoch": 18.524724456359845,
      "grad_norm": 3.585496961022727e-05,
      "learning_rate": 8.243231596495066e-07,
      "loss": 0.1035,
      "num_input_tokens_seen": 72183176,
      "step": 124375
    },
    {
      "epoch": 18.525469168900806,
      "grad_norm": 1.3306453183759004e-05,
      "learning_rate": 8.234958220268985e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72186280,
      "step": 124380
    },
    {
      "epoch": 18.526213881441763,
      "grad_norm": 1.5736528439447284e-05,
      "learning_rate": 8.22668892841752e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72189000,
      "step": 124385
    },
    {
      "epoch": 18.526958593982723,
      "grad_norm": 3.858228228637017e-05,
      "learning_rate": 8.218423721080476e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72191688,
      "step": 124390
    },
    {
      "epoch": 18.527703306523684,
      "grad_norm": 1.1681743671942968e-05,
      "learning_rate": 8.21016259839738e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72194696,
      "step": 124395
    },
    {
      "epoch": 18.52844801906464,
      "grad_norm": 4.5167984353611246e-05,
      "learning_rate": 8.201905560507872e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72197768,
      "step": 124400
    },
    {
      "epoch": 18.5291927316056,
      "grad_norm": 6.940562889212742e-05,
      "learning_rate": 8.193652607551422e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72200488,
      "step": 124405
    },
    {
      "epoch": 18.529937444146558,
      "grad_norm": 6.399809990398353e-06,
      "learning_rate": 8.185403739667419e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72203144,
      "step": 124410
    },
    {
      "epoch": 18.53068215668752,
      "grad_norm": 3.5292364373162854e-06,
      "learning_rate": 8.177158956995279e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72205896,
      "step": 124415
    },
    {
      "epoch": 18.53142686922848,
      "grad_norm": 1.5943212929414585e-05,
      "learning_rate": 8.168918259674224e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72208680,
      "step": 124420
    },
    {
      "epoch": 18.532171581769436,
      "grad_norm": 0.00017516521620564163,
      "learning_rate": 8.16068164784356e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72211304,
      "step": 124425
    },
    {
      "epoch": 18.532916294310397,
      "grad_norm": 1.4183422536007129e-05,
      "learning_rate": 8.152449121642342e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72213864,
      "step": 124430
    },
    {
      "epoch": 18.533661006851354,
      "grad_norm": 4.152034762228141e-06,
      "learning_rate": 8.144220681209708e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72216872,
      "step": 124435
    },
    {
      "epoch": 18.534405719392314,
      "grad_norm": 2.2767890186514705e-06,
      "learning_rate": 8.135996326684686e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72219912,
      "step": 124440
    },
    {
      "epoch": 18.535150431933275,
      "grad_norm": 4.1334146771987434e-06,
      "learning_rate": 8.127776058206166e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72223144,
      "step": 124445
    },
    {
      "epoch": 18.53589514447423,
      "grad_norm": 4.903655280941166e-05,
      "learning_rate": 8.119559875913036e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72226088,
      "step": 124450
    },
    {
      "epoch": 18.536639857015192,
      "grad_norm": 0.00026443396927788854,
      "learning_rate": 8.111347779944101e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72229032,
      "step": 124455
    },
    {
      "epoch": 18.537384569556153,
      "grad_norm": 5.7055833167396486e-05,
      "learning_rate": 8.103139770438112e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72232008,
      "step": 124460
    },
    {
      "epoch": 18.53812928209711,
      "grad_norm": 9.57701777224429e-05,
      "learning_rate": 8.09493584753368e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72234984,
      "step": 124465
    },
    {
      "epoch": 18.53887399463807,
      "grad_norm": 3.0692310247104615e-05,
      "learning_rate": 8.0867360113695e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72237832,
      "step": 124470
    },
    {
      "epoch": 18.539618707179027,
      "grad_norm": 3.354804721311666e-05,
      "learning_rate": 8.078540262084017e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72240584,
      "step": 124475
    },
    {
      "epoch": 18.540363419719988,
      "grad_norm": 6.733561167493463e-05,
      "learning_rate": 8.07034859981573e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72243176,
      "step": 124480
    },
    {
      "epoch": 18.54110813226095,
      "grad_norm": 9.130671060120221e-06,
      "learning_rate": 8.062161024703029e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72245928,
      "step": 124485
    },
    {
      "epoch": 18.541852844801905,
      "grad_norm": 5.745933776779566e-06,
      "learning_rate": 8.053977536884194e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72248648,
      "step": 124490
    },
    {
      "epoch": 18.542597557342866,
      "grad_norm": 9.979789865610655e-06,
      "learning_rate": 8.045798136497529e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72251208,
      "step": 124495
    },
    {
      "epoch": 18.543342269883826,
      "grad_norm": 6.768842922610929e-06,
      "learning_rate": 8.037622823681174e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72254120,
      "step": 124500
    },
    {
      "epoch": 18.544086982424783,
      "grad_norm": 0.0003097600711043924,
      "learning_rate": 8.029451598573267e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72257032,
      "step": 124505
    },
    {
      "epoch": 18.544831694965744,
      "grad_norm": 5.637797949020751e-05,
      "learning_rate": 8.021284461311867e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72259944,
      "step": 124510
    },
    {
      "epoch": 18.5455764075067,
      "grad_norm": 6.960720202187076e-05,
      "learning_rate": 8.013121412034919e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72262792,
      "step": 124515
    },
    {
      "epoch": 18.54632112004766,
      "grad_norm": 3.9370415834127925e-06,
      "learning_rate": 8.004962450880338e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72265928,
      "step": 124520
    },
    {
      "epoch": 18.547065832588622,
      "grad_norm": 0.0013119794894009829,
      "learning_rate": 7.99680757798596e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72268680,
      "step": 124525
    },
    {
      "epoch": 18.54781054512958,
      "grad_norm": 1.0153607945539989e-05,
      "learning_rate": 7.988656793489563e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72271528,
      "step": 124530
    },
    {
      "epoch": 18.54855525767054,
      "grad_norm": 6.842398306616815e-06,
      "learning_rate": 7.980510097528815e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72274664,
      "step": 124535
    },
    {
      "epoch": 18.5492999702115,
      "grad_norm": 3.3270342100877315e-05,
      "learning_rate": 7.972367490241412e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72277448,
      "step": 124540
    },
    {
      "epoch": 18.550044682752457,
      "grad_norm": 9.73887654254213e-06,
      "learning_rate": 7.964228971764826e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72280520,
      "step": 124545
    },
    {
      "epoch": 18.550789395293418,
      "grad_norm": 1.781852733984124e-05,
      "learning_rate": 7.956094542236642e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72283176,
      "step": 124550
    },
    {
      "epoch": 18.551534107834375,
      "grad_norm": 1.6700123524060473e-05,
      "learning_rate": 7.947964201794223e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72286376,
      "step": 124555
    },
    {
      "epoch": 18.552278820375335,
      "grad_norm": 3.952242332161404e-05,
      "learning_rate": 7.93983795057493e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72289640,
      "step": 124560
    },
    {
      "epoch": 18.553023532916296,
      "grad_norm": 8.12220878287917e-06,
      "learning_rate": 7.931715788716071e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72292680,
      "step": 124565
    },
    {
      "epoch": 18.553768245457253,
      "grad_norm": 0.00020966863667126745,
      "learning_rate": 7.923597716354841e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72295400,
      "step": 124570
    },
    {
      "epoch": 18.554512957998213,
      "grad_norm": 7.657323294552043e-06,
      "learning_rate": 7.915483733628382e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72298376,
      "step": 124575
    },
    {
      "epoch": 18.55525767053917,
      "grad_norm": 1.3761902664555237e-05,
      "learning_rate": 7.907373840673804e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72301064,
      "step": 124580
    },
    {
      "epoch": 18.55600238308013,
      "grad_norm": 1.5852514479774982e-05,
      "learning_rate": 7.899268037628082e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72303816,
      "step": 124585
    },
    {
      "epoch": 18.55674709562109,
      "grad_norm": 1.946076281456044e-06,
      "learning_rate": 7.891166324628163e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72306568,
      "step": 124590
    },
    {
      "epoch": 18.557491808162048,
      "grad_norm": 0.00013615172065328807,
      "learning_rate": 7.883068701810936e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72309416,
      "step": 124595
    },
    {
      "epoch": 18.55823652070301,
      "grad_norm": 4.852293386647943e-06,
      "learning_rate": 7.874975169313181e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72312392,
      "step": 124600
    },
    {
      "epoch": 18.55898123324397,
      "grad_norm": 6.827694960520603e-06,
      "learning_rate": 7.866885727271594e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72315432,
      "step": 124605
    },
    {
      "epoch": 18.559725945784926,
      "grad_norm": 3.190510369677213e-06,
      "learning_rate": 7.858800375822928e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72318248,
      "step": 124610
    },
    {
      "epoch": 18.560470658325887,
      "grad_norm": 0.0013340298319235444,
      "learning_rate": 7.850719115103683e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72321032,
      "step": 124615
    },
    {
      "epoch": 18.561215370866844,
      "grad_norm": 3.2580830975348363e-06,
      "learning_rate": 7.842641945250473e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72323688,
      "step": 124620
    },
    {
      "epoch": 18.561960083407804,
      "grad_norm": 0.00010068860137835145,
      "learning_rate": 7.834568866399688e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72326952,
      "step": 124625
    },
    {
      "epoch": 18.562704795948765,
      "grad_norm": 5.283806785882916e-06,
      "learning_rate": 7.826499878687749e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72329704,
      "step": 124630
    },
    {
      "epoch": 18.56344950848972,
      "grad_norm": 0.0008588191121816635,
      "learning_rate": 7.81843498225096e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72332232,
      "step": 124635
    },
    {
      "epoch": 18.564194221030682,
      "grad_norm": 4.9623631639406085e-05,
      "learning_rate": 7.810374177225549e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72335112,
      "step": 124640
    },
    {
      "epoch": 18.564938933571643,
      "grad_norm": 3.6956422263756394e-05,
      "learning_rate": 7.802317463747738e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72338056,
      "step": 124645
    },
    {
      "epoch": 18.5656836461126,
      "grad_norm": 0.0031823026947677135,
      "learning_rate": 7.794264841953613e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72341096,
      "step": 124650
    },
    {
      "epoch": 18.56642835865356,
      "grad_norm": 2.1275361632433487e-06,
      "learning_rate": 7.786216311979233e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72344200,
      "step": 124655
    },
    {
      "epoch": 18.567173071194517,
      "grad_norm": 3.6580647702066926e-06,
      "learning_rate": 7.778171873960516e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72347016,
      "step": 124660
    },
    {
      "epoch": 18.567917783735478,
      "grad_norm": 9.589973342372105e-05,
      "learning_rate": 7.770131528033409e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72349768,
      "step": 124665
    },
    {
      "epoch": 18.56866249627644,
      "grad_norm": 3.723430199897848e-05,
      "learning_rate": 7.762095274333747e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72352520,
      "step": 124670
    },
    {
      "epoch": 18.569407208817395,
      "grad_norm": 3.759734909181134e-06,
      "learning_rate": 7.754063112997284e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72355560,
      "step": 124675
    },
    {
      "epoch": 18.570151921358356,
      "grad_norm": 3.729377340278006e-06,
      "learning_rate": 7.746035044159688e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72358280,
      "step": 124680
    },
    {
      "epoch": 18.570896633899316,
      "grad_norm": 0.00038196094101294875,
      "learning_rate": 7.738011067956658e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72361000,
      "step": 124685
    },
    {
      "epoch": 18.571641346440273,
      "grad_norm": 3.892883614753373e-05,
      "learning_rate": 7.729991184523722e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72363944,
      "step": 124690
    },
    {
      "epoch": 18.572386058981234,
      "grad_norm": 9.074153240362648e-06,
      "learning_rate": 7.7219753939963e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72366792,
      "step": 124695
    },
    {
      "epoch": 18.57313077152219,
      "grad_norm": 1.364403942716308e-05,
      "learning_rate": 7.713963696509896e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72369448,
      "step": 124700
    },
    {
      "epoch": 18.57387548406315,
      "grad_norm": 2.4840061087161303e-05,
      "learning_rate": 7.705956092199818e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72372104,
      "step": 124705
    },
    {
      "epoch": 18.574620196604112,
      "grad_norm": 5.403409886639565e-06,
      "learning_rate": 7.697952581201373e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72375272,
      "step": 124710
    },
    {
      "epoch": 18.57536490914507,
      "grad_norm": 8.879896995495073e-06,
      "learning_rate": 7.689953163649704e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72378088,
      "step": 124715
    },
    {
      "epoch": 18.57610962168603,
      "grad_norm": 1.7891221432364546e-05,
      "learning_rate": 7.681957839680065e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72380840,
      "step": 124720
    },
    {
      "epoch": 18.57685433422699,
      "grad_norm": 2.6949466700898483e-05,
      "learning_rate": 7.67396660942743e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72383656,
      "step": 124725
    },
    {
      "epoch": 18.577599046767947,
      "grad_norm": 2.004830639634747e-05,
      "learning_rate": 7.66597947302683e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72386408,
      "step": 124730
    },
    {
      "epoch": 18.578343759308908,
      "grad_norm": 1.0976697012665682e-05,
      "learning_rate": 7.65799643061324e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72389384,
      "step": 124735
    },
    {
      "epoch": 18.579088471849865,
      "grad_norm": 2.5020162865985185e-05,
      "learning_rate": 7.65001748232147e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72392296,
      "step": 124740
    },
    {
      "epoch": 18.579833184390825,
      "grad_norm": 4.8663237066648435e-06,
      "learning_rate": 7.642042628286355e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72395496,
      "step": 124745
    },
    {
      "epoch": 18.580577896931786,
      "grad_norm": 8.109802365652286e-06,
      "learning_rate": 7.634071868642595e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72398248,
      "step": 124750
    },
    {
      "epoch": 18.581322609472743,
      "grad_norm": 0.000631466624327004,
      "learning_rate": 7.626105203524886e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72401032,
      "step": 124755
    },
    {
      "epoch": 18.582067322013703,
      "grad_norm": 2.575927646830678e-05,
      "learning_rate": 7.61814263306776e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72403784,
      "step": 124760
    },
    {
      "epoch": 18.582812034554664,
      "grad_norm": 0.0011194966500625014,
      "learning_rate": 7.610184157405803e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72406440,
      "step": 124765
    },
    {
      "epoch": 18.58355674709562,
      "grad_norm": 1.5049544344947208e-05,
      "learning_rate": 7.602229776673409e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72409352,
      "step": 124770
    },
    {
      "epoch": 18.58430145963658,
      "grad_norm": 4.544046987575712e-06,
      "learning_rate": 7.594279491004997e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72412168,
      "step": 124775
    },
    {
      "epoch": 18.585046172177538,
      "grad_norm": 6.948975624254672e-06,
      "learning_rate": 7.586333300534876e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72414984,
      "step": 124780
    },
    {
      "epoch": 18.5857908847185,
      "grad_norm": 6.848181510576978e-05,
      "learning_rate": 7.578391205397218e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72417832,
      "step": 124785
    },
    {
      "epoch": 18.58653559725946,
      "grad_norm": 0.00012947761570103467,
      "learning_rate": 7.570453205726303e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72420584,
      "step": 124790
    },
    {
      "epoch": 18.587280309800416,
      "grad_norm": 6.124570063548163e-06,
      "learning_rate": 7.562519301656162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72423336,
      "step": 124795
    },
    {
      "epoch": 18.588025022341377,
      "grad_norm": 6.256111373659223e-05,
      "learning_rate": 7.554589493320885e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72426280,
      "step": 124800
    },
    {
      "epoch": 18.588769734882334,
      "grad_norm": 0.00019452112610451877,
      "learning_rate": 7.54666378085439e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72429256,
      "step": 124805
    },
    {
      "epoch": 18.589514447423294,
      "grad_norm": 6.083132120693335e-06,
      "learning_rate": 7.538742164390572e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72432520,
      "step": 124810
    },
    {
      "epoch": 18.590259159964255,
      "grad_norm": 2.4942697564256378e-05,
      "learning_rate": 7.530824644063295e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72435688,
      "step": 124815
    },
    {
      "epoch": 18.591003872505212,
      "grad_norm": 2.1960868252790533e-06,
      "learning_rate": 7.522911220006285e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72438792,
      "step": 124820
    },
    {
      "epoch": 18.591748585046172,
      "grad_norm": 3.708264557644725e-05,
      "learning_rate": 7.515001892353268e-07,
      "loss": 0.0284,
      "num_input_tokens_seen": 72441608,
      "step": 124825
    },
    {
      "epoch": 18.592493297587133,
      "grad_norm": 1.0766515515570063e-05,
      "learning_rate": 7.507096661237834e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72444488,
      "step": 124830
    },
    {
      "epoch": 18.59323801012809,
      "grad_norm": 7.371413175860653e-06,
      "learning_rate": 7.499195526793567e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72447432,
      "step": 124835
    },
    {
      "epoch": 18.59398272266905,
      "grad_norm": 0.00043492604163475335,
      "learning_rate": 7.491298489153919e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72450280,
      "step": 124840
    },
    {
      "epoch": 18.594727435210007,
      "grad_norm": 1.1538690159795806e-05,
      "learning_rate": 7.483405548452283e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72452936,
      "step": 124845
    },
    {
      "epoch": 18.595472147750968,
      "grad_norm": 1.0362577086198144e-05,
      "learning_rate": 7.47551670482205e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72456008,
      "step": 124850
    },
    {
      "epoch": 18.59621686029193,
      "grad_norm": 1.747541500662919e-05,
      "learning_rate": 7.467631958396448e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72458856,
      "step": 124855
    },
    {
      "epoch": 18.596961572832885,
      "grad_norm": 1.3439077520160936e-05,
      "learning_rate": 7.459751309308733e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72461832,
      "step": 124860
    },
    {
      "epoch": 18.597706285373846,
      "grad_norm": 5.497266101883724e-05,
      "learning_rate": 7.451874757691991e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72464776,
      "step": 124865
    },
    {
      "epoch": 18.598450997914806,
      "grad_norm": 4.252625149092637e-05,
      "learning_rate": 7.444002303679309e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72467848,
      "step": 124870
    },
    {
      "epoch": 18.599195710455763,
      "grad_norm": 0.00010874551662709564,
      "learning_rate": 7.436133947403695e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72470600,
      "step": 124875
    },
    {
      "epoch": 18.599940422996724,
      "grad_norm": 5.7500128605170175e-06,
      "learning_rate": 7.428269688998068e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72473640,
      "step": 124880
    },
    {
      "epoch": 18.60068513553768,
      "grad_norm": 7.21583728591213e-06,
      "learning_rate": 7.420409528595296e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72476808,
      "step": 124885
    },
    {
      "epoch": 18.60142984807864,
      "grad_norm": 3.5465027394820936e-06,
      "learning_rate": 7.412553466328131e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72479336,
      "step": 124890
    },
    {
      "epoch": 18.602174560619602,
      "grad_norm": 5.8948053265339695e-06,
      "learning_rate": 7.404701502329331e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72482792,
      "step": 124895
    },
    {
      "epoch": 18.60291927316056,
      "grad_norm": 3.00600422633579e-05,
      "learning_rate": 7.396853636731537e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72485864,
      "step": 124900
    },
    {
      "epoch": 18.60366398570152,
      "grad_norm": 1.006879119813675e-05,
      "learning_rate": 7.389009869667341e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72488552,
      "step": 124905
    },
    {
      "epoch": 18.60440869824248,
      "grad_norm": 1.1067356354033109e-05,
      "learning_rate": 7.381170201269244e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72491272,
      "step": 124910
    },
    {
      "epoch": 18.605153410783437,
      "grad_norm": 6.845847565273289e-06,
      "learning_rate": 7.373334631669698e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72493928,
      "step": 124915
    },
    {
      "epoch": 18.605898123324398,
      "grad_norm": 1.981236209758208e-06,
      "learning_rate": 7.365503161001013e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72496840,
      "step": 124920
    },
    {
      "epoch": 18.606642835865355,
      "grad_norm": 5.8828682085732e-06,
      "learning_rate": 7.357675789395613e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72499944,
      "step": 124925
    },
    {
      "epoch": 18.607387548406315,
      "grad_norm": 9.237385529559106e-05,
      "learning_rate": 7.349852516985639e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72503016,
      "step": 124930
    },
    {
      "epoch": 18.608132260947276,
      "grad_norm": 3.387747938177199e-06,
      "learning_rate": 7.342033343903293e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72506376,
      "step": 124935
    },
    {
      "epoch": 18.608876973488233,
      "grad_norm": 1.2481107660278212e-05,
      "learning_rate": 7.33421827028069e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72509160,
      "step": 124940
    },
    {
      "epoch": 18.609621686029193,
      "grad_norm": 5.591465742327273e-05,
      "learning_rate": 7.326407296249782e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72511720,
      "step": 124945
    },
    {
      "epoch": 18.61036639857015,
      "grad_norm": 1.5035524484119378e-05,
      "learning_rate": 7.318600421942628e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 72515144,
      "step": 124950
    },
    {
      "epoch": 18.61111111111111,
      "grad_norm": 5.546794454858173e-06,
      "learning_rate": 7.310797647491041e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72517800,
      "step": 124955
    },
    {
      "epoch": 18.61185582365207,
      "grad_norm": 5.043036253482569e-06,
      "learning_rate": 7.302998973026887e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72520936,
      "step": 124960
    },
    {
      "epoch": 18.61260053619303,
      "grad_norm": 1.0191423825745005e-05,
      "learning_rate": 7.295204398681893e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72523912,
      "step": 124965
    },
    {
      "epoch": 18.61334524873399,
      "grad_norm": 1.9580716980271973e-05,
      "learning_rate": 7.287413924587733e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72526600,
      "step": 124970
    },
    {
      "epoch": 18.61408996127495,
      "grad_norm": 7.927822480269242e-06,
      "learning_rate": 7.279627550876051e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72529224,
      "step": 124975
    },
    {
      "epoch": 18.614834673815906,
      "grad_norm": 0.0011411597952246666,
      "learning_rate": 7.27184527767838e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72531848,
      "step": 124980
    },
    {
      "epoch": 18.615579386356867,
      "grad_norm": 0.00014032800390850753,
      "learning_rate": 7.264067105126199e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72534952,
      "step": 124985
    },
    {
      "epoch": 18.616324098897824,
      "grad_norm": 1.4656637176813092e-05,
      "learning_rate": 7.256293033350847e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72537768,
      "step": 124990
    },
    {
      "epoch": 18.617068811438784,
      "grad_norm": 4.3050986278103665e-06,
      "learning_rate": 7.248523062483748e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72540360,
      "step": 124995
    },
    {
      "epoch": 18.617813523979745,
      "grad_norm": 1.3951898836239707e-05,
      "learning_rate": 7.2407571926561e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72542888,
      "step": 125000
    },
    {
      "epoch": 18.618558236520702,
      "grad_norm": 0.00010879922047024593,
      "learning_rate": 7.232995423999162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72545800,
      "step": 125005
    },
    {
      "epoch": 18.619302949061662,
      "grad_norm": 1.1230904419790022e-05,
      "learning_rate": 7.225237756644021e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72548552,
      "step": 125010
    },
    {
      "epoch": 18.620047661602623,
      "grad_norm": 5.211955340200802e-06,
      "learning_rate": 7.217484190721712e-07,
      "loss": 0.0004,
      "num_input_tokens_seen": 72551752,
      "step": 125015
    },
    {
      "epoch": 18.62079237414358,
      "grad_norm": 1.979759690584615e-05,
      "learning_rate": 7.209734726363299e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72554792,
      "step": 125020
    },
    {
      "epoch": 18.62153708668454,
      "grad_norm": 0.0002749854465946555,
      "learning_rate": 7.201989363699618e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72557768,
      "step": 125025
    },
    {
      "epoch": 18.622281799225497,
      "grad_norm": 3.7710522065026453e-06,
      "learning_rate": 7.194248102861594e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72560616,
      "step": 125030
    },
    {
      "epoch": 18.623026511766458,
      "grad_norm": 6.187813596625347e-06,
      "learning_rate": 7.186510943979957e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72563336,
      "step": 125035
    },
    {
      "epoch": 18.62377122430742,
      "grad_norm": 1.0691072930057999e-05,
      "learning_rate": 7.178777887185434e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72566472,
      "step": 125040
    },
    {
      "epoch": 18.624515936848375,
      "grad_norm": 1.6872598280315287e-05,
      "learning_rate": 7.17104893260867e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72569448,
      "step": 125045
    },
    {
      "epoch": 18.625260649389336,
      "grad_norm": 3.6308818380348384e-05,
      "learning_rate": 7.16332408038023e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72572328,
      "step": 125050
    },
    {
      "epoch": 18.626005361930297,
      "grad_norm": 2.5177461793646216e-05,
      "learning_rate": 7.155603330630617e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72575336,
      "step": 125055
    },
    {
      "epoch": 18.626750074471254,
      "grad_norm": 0.00010385378845967352,
      "learning_rate": 7.147886683490256e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72578696,
      "step": 125060
    },
    {
      "epoch": 18.627494787012214,
      "grad_norm": 1.8933760657091625e-05,
      "learning_rate": 7.140174139089545e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72581448,
      "step": 125065
    },
    {
      "epoch": 18.62823949955317,
      "grad_norm": 3.4306911402381957e-05,
      "learning_rate": 7.132465697558737e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72584328,
      "step": 125070
    },
    {
      "epoch": 18.62898421209413,
      "grad_norm": 7.541057129856199e-05,
      "learning_rate": 7.124761359028121e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72587144,
      "step": 125075
    },
    {
      "epoch": 18.629728924635092,
      "grad_norm": 3.28449641529005e-05,
      "learning_rate": 7.117061123627783e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72589896,
      "step": 125080
    },
    {
      "epoch": 18.63047363717605,
      "grad_norm": 1.3504692105925642e-05,
      "learning_rate": 7.109364991487872e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72592808,
      "step": 125085
    },
    {
      "epoch": 18.63121834971701,
      "grad_norm": 4.607864866557065e-06,
      "learning_rate": 7.101672962738365e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72595592,
      "step": 125090
    },
    {
      "epoch": 18.631963062257967,
      "grad_norm": 3.3190397061844124e-06,
      "learning_rate": 7.093985037509188e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72598792,
      "step": 125095
    },
    {
      "epoch": 18.632707774798927,
      "grad_norm": 0.0003206210385542363,
      "learning_rate": 7.086301215930291e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72601768,
      "step": 125100
    },
    {
      "epoch": 18.633452487339888,
      "grad_norm": 0.00026082602562382817,
      "learning_rate": 7.078621498131461e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72604744,
      "step": 125105
    },
    {
      "epoch": 18.634197199880845,
      "grad_norm": 9.717945431475528e-06,
      "learning_rate": 7.070945884242397e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72607816,
      "step": 125110
    },
    {
      "epoch": 18.634941912421805,
      "grad_norm": 1.833908390835859e-05,
      "learning_rate": 7.063274374392803e-07,
      "loss": 0.0024,
      "num_input_tokens_seen": 72610856,
      "step": 125115
    },
    {
      "epoch": 18.635686624962766,
      "grad_norm": 5.762096407124773e-06,
      "learning_rate": 7.055606968712297e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72614120,
      "step": 125120
    },
    {
      "epoch": 18.636431337503723,
      "grad_norm": 5.23637245350983e-05,
      "learning_rate": 7.047943667330386e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72617192,
      "step": 125125
    },
    {
      "epoch": 18.637176050044683,
      "grad_norm": 0.2236126959323883,
      "learning_rate": 7.040284470376523e-07,
      "loss": 0.0029,
      "num_input_tokens_seen": 72620008,
      "step": 125130
    },
    {
      "epoch": 18.63792076258564,
      "grad_norm": 0.00043139353510923684,
      "learning_rate": 7.032629377980133e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72622952,
      "step": 125135
    },
    {
      "epoch": 18.6386654751266,
      "grad_norm": 5.419376066129189e-06,
      "learning_rate": 7.024978390270526e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72625800,
      "step": 125140
    },
    {
      "epoch": 18.63941018766756,
      "grad_norm": 5.034640707890503e-06,
      "learning_rate": 7.017331507376962e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72628616,
      "step": 125145
    },
    {
      "epoch": 18.64015490020852,
      "grad_norm": 2.629318714753026e-06,
      "learning_rate": 7.009688729428615e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72631304,
      "step": 125150
    },
    {
      "epoch": 18.64089961274948,
      "grad_norm": 6.355282675940543e-05,
      "learning_rate": 7.002050056554632e-07,
      "loss": 0.0032,
      "num_input_tokens_seen": 72634248,
      "step": 125155
    },
    {
      "epoch": 18.64164432529044,
      "grad_norm": 0.00031215843046084046,
      "learning_rate": 6.994415488884021e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72637128,
      "step": 125160
    },
    {
      "epoch": 18.642389037831396,
      "grad_norm": 7.268317858688533e-06,
      "learning_rate": 6.986785026545789e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72640072,
      "step": 125165
    },
    {
      "epoch": 18.643133750372357,
      "grad_norm": 4.021105996798724e-05,
      "learning_rate": 6.979158669668862e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72642824,
      "step": 125170
    },
    {
      "epoch": 18.643878462913314,
      "grad_norm": 2.805810254358221e-06,
      "learning_rate": 6.971536418382052e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72645704,
      "step": 125175
    },
    {
      "epoch": 18.644623175454274,
      "grad_norm": 9.116638466366567e-06,
      "learning_rate": 6.963918272814119e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72648648,
      "step": 125180
    },
    {
      "epoch": 18.645367887995235,
      "grad_norm": 4.758795967063634e-06,
      "learning_rate": 6.956304233093736e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72651432,
      "step": 125185
    },
    {
      "epoch": 18.646112600536192,
      "grad_norm": 0.00017355474119540304,
      "learning_rate": 6.948694299349634e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72654280,
      "step": 125190
    },
    {
      "epoch": 18.646857313077152,
      "grad_norm": 2.5857927994366037e-06,
      "learning_rate": 6.941088471710266e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72657256,
      "step": 125195
    },
    {
      "epoch": 18.647602025618113,
      "grad_norm": 1.5326133507187478e-05,
      "learning_rate": 6.933486750304197e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72659976,
      "step": 125200
    },
    {
      "epoch": 18.64834673815907,
      "grad_norm": 0.00013777198910247535,
      "learning_rate": 6.92588913525985e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72663272,
      "step": 125205
    },
    {
      "epoch": 18.64909145070003,
      "grad_norm": 8.325592716573738e-06,
      "learning_rate": 6.918295626705512e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72665960,
      "step": 125210
    },
    {
      "epoch": 18.649836163240987,
      "grad_norm": 7.704786185058765e-06,
      "learning_rate": 6.910706224769553e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72668712,
      "step": 125215
    },
    {
      "epoch": 18.650580875781948,
      "grad_norm": 0.00010948639828711748,
      "learning_rate": 6.903120929580092e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72671496,
      "step": 125220
    },
    {
      "epoch": 18.65132558832291,
      "grad_norm": 3.890239895554259e-06,
      "learning_rate": 6.895539741265389e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72674248,
      "step": 125225
    },
    {
      "epoch": 18.652070300863866,
      "grad_norm": 2.855625280062668e-05,
      "learning_rate": 6.887962659953423e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72677096,
      "step": 125230
    },
    {
      "epoch": 18.652815013404826,
      "grad_norm": 7.071114850987215e-06,
      "learning_rate": 6.88038968577226e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72679656,
      "step": 125235
    },
    {
      "epoch": 18.653559725945787,
      "grad_norm": 3.6236302548786625e-05,
      "learning_rate": 6.872820818849823e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72682472,
      "step": 125240
    },
    {
      "epoch": 18.654304438486744,
      "grad_norm": 7.07871004124172e-05,
      "learning_rate": 6.865256059313985e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72685544,
      "step": 125245
    },
    {
      "epoch": 18.655049151027704,
      "grad_norm": 2.686032757992507e-06,
      "learning_rate": 6.857695407292503e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72688424,
      "step": 125250
    },
    {
      "epoch": 18.65579386356866,
      "grad_norm": 9.083867917070165e-05,
      "learning_rate": 6.850138862913136e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72691368,
      "step": 125255
    },
    {
      "epoch": 18.65653857610962,
      "grad_norm": 1.5458308553206734e-05,
      "learning_rate": 6.842586426303588e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72694280,
      "step": 125260
    },
    {
      "epoch": 18.657283288650582,
      "grad_norm": 9.825224879023153e-06,
      "learning_rate": 6.835038097591367e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72696968,
      "step": 125265
    },
    {
      "epoch": 18.65802800119154,
      "grad_norm": 4.544186231214553e-05,
      "learning_rate": 6.82749387690404e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72699816,
      "step": 125270
    },
    {
      "epoch": 18.6587727137325,
      "grad_norm": 7.173402264015749e-05,
      "learning_rate": 6.819953764369058e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72702856,
      "step": 125275
    },
    {
      "epoch": 18.65951742627346,
      "grad_norm": 0.005750552285462618,
      "learning_rate": 6.812417760113821e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72705928,
      "step": 125280
    },
    {
      "epoch": 18.660262138814417,
      "grad_norm": 8.158101991284639e-06,
      "learning_rate": 6.804885864265587e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72708680,
      "step": 125285
    },
    {
      "epoch": 18.661006851355378,
      "grad_norm": 6.364139153447468e-06,
      "learning_rate": 6.79735807695167e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72711624,
      "step": 125290
    },
    {
      "epoch": 18.661751563896335,
      "grad_norm": 3.547129381331615e-05,
      "learning_rate": 6.789834398299194e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72714600,
      "step": 125295
    },
    {
      "epoch": 18.662496276437295,
      "grad_norm": 5.063932985649444e-05,
      "learning_rate": 6.782314828435249e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 72717352,
      "step": 125300
    },
    {
      "epoch": 18.663240988978256,
      "grad_norm": 4.559984154184349e-05,
      "learning_rate": 6.774799367486956e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72720456,
      "step": 125305
    },
    {
      "epoch": 18.663985701519213,
      "grad_norm": 0.00014774390729144216,
      "learning_rate": 6.767288015581186e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72723240,
      "step": 125310
    },
    {
      "epoch": 18.664730414060173,
      "grad_norm": 4.329357125243405e-06,
      "learning_rate": 6.759780772844892e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72726280,
      "step": 125315
    },
    {
      "epoch": 18.66547512660113,
      "grad_norm": 5.052071628597332e-06,
      "learning_rate": 6.752277639404863e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72729160,
      "step": 125320
    },
    {
      "epoch": 18.66621983914209,
      "grad_norm": 0.0009380244882777333,
      "learning_rate": 6.744778615387914e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 72731944,
      "step": 125325
    },
    {
      "epoch": 18.66696455168305,
      "grad_norm": 1.9885363144567236e-05,
      "learning_rate": 6.737283700920666e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72734568,
      "step": 125330
    },
    {
      "epoch": 18.66770926422401,
      "grad_norm": 6.563258921232773e-06,
      "learning_rate": 6.729792896129767e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72737736,
      "step": 125335
    },
    {
      "epoch": 18.66845397676497,
      "grad_norm": 4.9643299462331925e-06,
      "learning_rate": 6.722306201141781e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72740488,
      "step": 125340
    },
    {
      "epoch": 18.66919868930593,
      "grad_norm": 0.00011971937055932358,
      "learning_rate": 6.714823616083165e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72744104,
      "step": 125345
    },
    {
      "epoch": 18.669943401846886,
      "grad_norm": 1.4075978469918482e-05,
      "learning_rate": 6.707345141080345e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72747272,
      "step": 125350
    },
    {
      "epoch": 18.670688114387847,
      "grad_norm": 5.753790446760831e-06,
      "learning_rate": 6.699870776259637e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72750024,
      "step": 125355
    },
    {
      "epoch": 18.671432826928804,
      "grad_norm": 8.044613423408009e-06,
      "learning_rate": 6.692400521747355e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72752744,
      "step": 125360
    },
    {
      "epoch": 18.672177539469764,
      "grad_norm": 1.8071623344440013e-05,
      "learning_rate": 6.684934377669705e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72755624,
      "step": 125365
    },
    {
      "epoch": 18.672922252010725,
      "grad_norm": 0.00025222060503438115,
      "learning_rate": 6.67747234415278e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72758472,
      "step": 125370
    },
    {
      "epoch": 18.673666964551682,
      "grad_norm": 0.00012238927592989057,
      "learning_rate": 6.670014421322618e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72761000,
      "step": 125375
    },
    {
      "epoch": 18.674411677092642,
      "grad_norm": 7.507994450861588e-05,
      "learning_rate": 6.662560609305285e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72764072,
      "step": 125380
    },
    {
      "epoch": 18.675156389633603,
      "grad_norm": 4.368971713120118e-05,
      "learning_rate": 6.655110908226681e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72767080,
      "step": 125385
    },
    {
      "epoch": 18.67590110217456,
      "grad_norm": 0.0002624574117362499,
      "learning_rate": 6.647665318212621e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72769992,
      "step": 125390
    },
    {
      "epoch": 18.67664581471552,
      "grad_norm": 0.00028314735391177237,
      "learning_rate": 6.640223839388948e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72772648,
      "step": 125395
    },
    {
      "epoch": 18.677390527256478,
      "grad_norm": 4.242147406330332e-05,
      "learning_rate": 6.632786471881342e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72775432,
      "step": 125400
    },
    {
      "epoch": 18.678135239797438,
      "grad_norm": 2.5322678993688896e-06,
      "learning_rate": 6.625353215815478e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72778472,
      "step": 125405
    },
    {
      "epoch": 18.6788799523384,
      "grad_norm": 1.5915660696919076e-05,
      "learning_rate": 6.617924071316894e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72781512,
      "step": 125410
    },
    {
      "epoch": 18.679624664879356,
      "grad_norm": 0.0021202689968049526,
      "learning_rate": 6.610499038511131e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72784168,
      "step": 125415
    },
    {
      "epoch": 18.680369377420316,
      "grad_norm": 0.009603993035852909,
      "learning_rate": 6.603078117523615e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72787304,
      "step": 125420
    },
    {
      "epoch": 18.681114089961277,
      "grad_norm": 1.1587931112444494e-05,
      "learning_rate": 6.595661308479717e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72789960,
      "step": 125425
    },
    {
      "epoch": 18.681858802502234,
      "grad_norm": 4.052563599543646e-05,
      "learning_rate": 6.588248611504755e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72792744,
      "step": 125430
    },
    {
      "epoch": 18.682603515043194,
      "grad_norm": 5.020457592763705e-06,
      "learning_rate": 6.580840026723934e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72795624,
      "step": 125435
    },
    {
      "epoch": 18.68334822758415,
      "grad_norm": 4.731650551548228e-05,
      "learning_rate": 6.573435554262403e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72798408,
      "step": 125440
    },
    {
      "epoch": 18.68409294012511,
      "grad_norm": 4.020316737296525e-06,
      "learning_rate": 6.566035194245257e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72801224,
      "step": 125445
    },
    {
      "epoch": 18.684837652666072,
      "grad_norm": 4.345838897279464e-05,
      "learning_rate": 6.558638946797563e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72803912,
      "step": 125450
    },
    {
      "epoch": 18.68558236520703,
      "grad_norm": 3.7691543184337206e-06,
      "learning_rate": 6.551246812044248e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72806664,
      "step": 125455
    },
    {
      "epoch": 18.68632707774799,
      "grad_norm": 0.00030617156880907714,
      "learning_rate": 6.543858790110158e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72809576,
      "step": 125460
    },
    {
      "epoch": 18.687071790288947,
      "grad_norm": 1.476779561926378e-05,
      "learning_rate": 6.536474881120164e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72812296,
      "step": 125465
    },
    {
      "epoch": 18.687816502829907,
      "grad_norm": 1.3356328054214828e-05,
      "learning_rate": 6.529095085198944e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72815336,
      "step": 125470
    },
    {
      "epoch": 18.688561215370868,
      "grad_norm": 1.799583333195187e-05,
      "learning_rate": 6.521719402471233e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72818472,
      "step": 125475
    },
    {
      "epoch": 18.689305927911825,
      "grad_norm": 0.0001924565149238333,
      "learning_rate": 6.514347833061596e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72821384,
      "step": 125480
    },
    {
      "epoch": 18.690050640452785,
      "grad_norm": 0.00010120866500074044,
      "learning_rate": 6.506980377094601e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72824104,
      "step": 125485
    },
    {
      "epoch": 18.690795352993746,
      "grad_norm": 2.072983988909982e-05,
      "learning_rate": 6.499617034694705e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72826856,
      "step": 125490
    },
    {
      "epoch": 18.691540065534703,
      "grad_norm": 6.011553068674402e-06,
      "learning_rate": 6.492257805986279e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72829704,
      "step": 125495
    },
    {
      "epoch": 18.692284778075663,
      "grad_norm": 2.1951732378511224e-06,
      "learning_rate": 6.48490269109367e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72832744,
      "step": 125500
    },
    {
      "epoch": 18.69302949061662,
      "grad_norm": 4.669424379244447e-05,
      "learning_rate": 6.477551690141165e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72835624,
      "step": 125505
    },
    {
      "epoch": 18.69377420315758,
      "grad_norm": 5.947672889305977e-06,
      "learning_rate": 6.470204803252888e-07,
      "loss": 0.0051,
      "num_input_tokens_seen": 72838728,
      "step": 125510
    },
    {
      "epoch": 18.69451891569854,
      "grad_norm": 4.230553713568952e-06,
      "learning_rate": 6.462862030552991e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72841608,
      "step": 125515
    },
    {
      "epoch": 18.6952636282395,
      "grad_norm": 6.833366114733508e-06,
      "learning_rate": 6.455523372165512e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72844456,
      "step": 125520
    },
    {
      "epoch": 18.69600834078046,
      "grad_norm": 9.636938557378016e-06,
      "learning_rate": 6.448188828214435e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72847240,
      "step": 125525
    },
    {
      "epoch": 18.69675305332142,
      "grad_norm": 4.370021542854374e-06,
      "learning_rate": 6.44085839882369e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72850088,
      "step": 125530
    },
    {
      "epoch": 18.697497765862376,
      "grad_norm": 7.135558007576037e-06,
      "learning_rate": 6.433532084117122e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72852936,
      "step": 125535
    },
    {
      "epoch": 18.698242478403337,
      "grad_norm": 7.208189799712272e-06,
      "learning_rate": 6.426209884218437e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72856072,
      "step": 125540
    },
    {
      "epoch": 18.698987190944294,
      "grad_norm": 3.89211254514521e-06,
      "learning_rate": 6.418891799251397e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72859112,
      "step": 125545
    },
    {
      "epoch": 18.699731903485254,
      "grad_norm": 2.968678018078208e-06,
      "learning_rate": 6.411577829339599e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72861672,
      "step": 125550
    },
    {
      "epoch": 18.700476616026215,
      "grad_norm": 4.4103493564762175e-05,
      "learning_rate": 6.404267974606637e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72864616,
      "step": 125555
    },
    {
      "epoch": 18.701221328567172,
      "grad_norm": 8.238731425080914e-06,
      "learning_rate": 6.396962235175968e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72867656,
      "step": 125560
    },
    {
      "epoch": 18.701966041108133,
      "grad_norm": 2.0268305888748728e-05,
      "learning_rate": 6.38966061117105e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72870760,
      "step": 125565
    },
    {
      "epoch": 18.702710753649093,
      "grad_norm": 1.1762644135160372e-05,
      "learning_rate": 6.382363102715255e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72873704,
      "step": 125570
    },
    {
      "epoch": 18.70345546619005,
      "grad_norm": 9.170787052426022e-06,
      "learning_rate": 6.375069709931792e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72876488,
      "step": 125575
    },
    {
      "epoch": 18.70420017873101,
      "grad_norm": 3.946030574297765e-06,
      "learning_rate": 6.367780432943948e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72879368,
      "step": 125580
    },
    {
      "epoch": 18.704944891271968,
      "grad_norm": 1.33214816742111e-05,
      "learning_rate": 6.360495271874794e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72882504,
      "step": 125585
    },
    {
      "epoch": 18.705689603812928,
      "grad_norm": 0.0001514827599748969,
      "learning_rate": 6.353214226847482e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72885480,
      "step": 125590
    },
    {
      "epoch": 18.70643431635389,
      "grad_norm": 1.8069587895297445e-05,
      "learning_rate": 6.345937297984966e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72888296,
      "step": 125595
    },
    {
      "epoch": 18.707179028894846,
      "grad_norm": 1.8563044932307093e-06,
      "learning_rate": 6.338664485410206e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72891176,
      "step": 125600
    },
    {
      "epoch": 18.707923741435806,
      "grad_norm": 1.4480170648312196e-05,
      "learning_rate": 6.331395789246048e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72893864,
      "step": 125605
    },
    {
      "epoch": 18.708668453976763,
      "grad_norm": 1.7324407963315025e-05,
      "learning_rate": 6.324131209615336e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72896808,
      "step": 125610
    },
    {
      "epoch": 18.709413166517724,
      "grad_norm": 4.903818989987485e-06,
      "learning_rate": 6.316870746640751e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72899688,
      "step": 125615
    },
    {
      "epoch": 18.710157879058684,
      "grad_norm": 4.55500367024797e-06,
      "learning_rate": 6.309614400444946e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72902504,
      "step": 125620
    },
    {
      "epoch": 18.71090259159964,
      "grad_norm": 5.146266630617902e-06,
      "learning_rate": 6.302362171150572e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72905256,
      "step": 125625
    },
    {
      "epoch": 18.7116473041406,
      "grad_norm": 5.101956958242226e-06,
      "learning_rate": 6.295114058880059e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72907976,
      "step": 125630
    },
    {
      "epoch": 18.712392016681562,
      "grad_norm": 4.536723281489685e-06,
      "learning_rate": 6.287870063755946e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72910824,
      "step": 125635
    },
    {
      "epoch": 18.71313672922252,
      "grad_norm": 3.4449414670234546e-05,
      "learning_rate": 6.280630185900555e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72913704,
      "step": 125640
    },
    {
      "epoch": 18.71388144176348,
      "grad_norm": 3.7215359043329954e-06,
      "learning_rate": 6.273394425436202e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72916904,
      "step": 125645
    },
    {
      "epoch": 18.714626154304437,
      "grad_norm": 1.7569786905369256e-06,
      "learning_rate": 6.26616278248518e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72919816,
      "step": 125650
    },
    {
      "epoch": 18.715370866845397,
      "grad_norm": 1.221938418893842e-05,
      "learning_rate": 6.258935257169557e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72922504,
      "step": 125655
    },
    {
      "epoch": 18.716115579386358,
      "grad_norm": 2.7295973268337548e-05,
      "learning_rate": 6.251711849611513e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72925288,
      "step": 125660
    },
    {
      "epoch": 18.716860291927315,
      "grad_norm": 3.790357368416153e-05,
      "learning_rate": 6.244492559933063e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72928200,
      "step": 125665
    },
    {
      "epoch": 18.717605004468275,
      "grad_norm": 2.3416669137077406e-05,
      "learning_rate": 6.237277388256191e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72931368,
      "step": 125670
    },
    {
      "epoch": 18.718349717009236,
      "grad_norm": 1.6066098396549933e-05,
      "learning_rate": 6.230066334702744e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72934184,
      "step": 125675
    },
    {
      "epoch": 18.719094429550193,
      "grad_norm": 7.520443614339456e-05,
      "learning_rate": 6.22285939939457e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72937064,
      "step": 125680
    },
    {
      "epoch": 18.719839142091153,
      "grad_norm": 4.6683608161401935e-06,
      "learning_rate": 6.215656582453433e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72939944,
      "step": 125685
    },
    {
      "epoch": 18.72058385463211,
      "grad_norm": 7.52692994865356e-06,
      "learning_rate": 6.208457884001012e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72943208,
      "step": 125690
    },
    {
      "epoch": 18.72132856717307,
      "grad_norm": 2.009911804634612e-05,
      "learning_rate": 6.201263304158905e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72945928,
      "step": 125695
    },
    {
      "epoch": 18.72207327971403,
      "grad_norm": 3.206624342055875e-06,
      "learning_rate": 6.194072843048681e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72948904,
      "step": 125700
    },
    {
      "epoch": 18.72281799225499,
      "grad_norm": 1.0003094757848885e-05,
      "learning_rate": 6.1868865007918e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72951912,
      "step": 125705
    },
    {
      "epoch": 18.72356270479595,
      "grad_norm": 7.058517894620309e-06,
      "learning_rate": 6.179704277509662e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72954824,
      "step": 125710
    },
    {
      "epoch": 18.72430741733691,
      "grad_norm": 0.00018707486742641777,
      "learning_rate": 6.172526173323617e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72957672,
      "step": 125715
    },
    {
      "epoch": 18.725052129877866,
      "grad_norm": 8.47755200084066e-06,
      "learning_rate": 6.165352188354928e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72960584,
      "step": 125720
    },
    {
      "epoch": 18.725796842418827,
      "grad_norm": 2.8425611162674613e-05,
      "learning_rate": 6.158182322724804e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72963496,
      "step": 125725
    },
    {
      "epoch": 18.726541554959784,
      "grad_norm": 1.4321305570774712e-05,
      "learning_rate": 6.151016576554341e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72966344,
      "step": 125730
    },
    {
      "epoch": 18.727286267500745,
      "grad_norm": 2.764352029771544e-05,
      "learning_rate": 6.143854949964611e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72969032,
      "step": 125735
    },
    {
      "epoch": 18.728030980041705,
      "grad_norm": 1.5328932931879535e-05,
      "learning_rate": 6.136697443076628e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72971784,
      "step": 125740
    },
    {
      "epoch": 18.728775692582662,
      "grad_norm": 6.750866305083036e-05,
      "learning_rate": 6.129544056011266e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72974568,
      "step": 125745
    },
    {
      "epoch": 18.729520405123623,
      "grad_norm": 7.219744020403596e-06,
      "learning_rate": 6.122394788889402e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72977416,
      "step": 125750
    },
    {
      "epoch": 18.730265117664583,
      "grad_norm": 2.403197640887811e-06,
      "learning_rate": 6.115249641831828e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72980264,
      "step": 125755
    },
    {
      "epoch": 18.73100983020554,
      "grad_norm": 3.9757132981321774e-06,
      "learning_rate": 6.108108614959224e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72983208,
      "step": 125760
    },
    {
      "epoch": 18.7317545427465,
      "grad_norm": 7.344184268731624e-06,
      "learning_rate": 6.100971708392272e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72985992,
      "step": 125765
    },
    {
      "epoch": 18.732499255287458,
      "grad_norm": 2.8054600988980383e-06,
      "learning_rate": 6.093838922251488e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72988968,
      "step": 125770
    },
    {
      "epoch": 18.733243967828418,
      "grad_norm": 3.2205127808992984e-06,
      "learning_rate": 6.086710256657413e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72992232,
      "step": 125775
    },
    {
      "epoch": 18.73398868036938,
      "grad_norm": 7.854314389987849e-06,
      "learning_rate": 6.079585711730451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72995016,
      "step": 125780
    },
    {
      "epoch": 18.734733392910336,
      "grad_norm": 1.6976877304841764e-05,
      "learning_rate": 6.072465287591005e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 72997928,
      "step": 125785
    },
    {
      "epoch": 18.735478105451296,
      "grad_norm": 9.974444401450455e-05,
      "learning_rate": 6.065348984359314e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73001000,
      "step": 125790
    },
    {
      "epoch": 18.736222817992257,
      "grad_norm": 1.1912127774849068e-05,
      "learning_rate": 6.058236802155643e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73003688,
      "step": 125795
    },
    {
      "epoch": 18.736967530533214,
      "grad_norm": 6.746111466782168e-05,
      "learning_rate": 6.051128741100115e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73006536,
      "step": 125800
    },
    {
      "epoch": 18.737712243074174,
      "grad_norm": 2.0416882762219757e-05,
      "learning_rate": 6.044024801312831e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73009416,
      "step": 125805
    },
    {
      "epoch": 18.73845695561513,
      "grad_norm": 2.242073605884798e-05,
      "learning_rate": 6.036924982913805e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73012296,
      "step": 125810
    },
    {
      "epoch": 18.739201668156092,
      "grad_norm": 2.7365502319298685e-05,
      "learning_rate": 6.029829286022998e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73015016,
      "step": 125815
    },
    {
      "epoch": 18.739946380697052,
      "grad_norm": 4.158358206041157e-05,
      "learning_rate": 6.022737710760256e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73017992,
      "step": 125820
    },
    {
      "epoch": 18.74069109323801,
      "grad_norm": 8.823313692118973e-06,
      "learning_rate": 6.015650257245348e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73020680,
      "step": 125825
    },
    {
      "epoch": 18.74143580577897,
      "grad_norm": 7.233291398733854e-06,
      "learning_rate": 6.008566925598119e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73023752,
      "step": 125830
    },
    {
      "epoch": 18.742180518319927,
      "grad_norm": 8.835195330902934e-05,
      "learning_rate": 6.001487715938142e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73026984,
      "step": 125835
    },
    {
      "epoch": 18.742925230860887,
      "grad_norm": 2.598466380732134e-06,
      "learning_rate": 5.994412628385043e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73029832,
      "step": 125840
    },
    {
      "epoch": 18.743669943401848,
      "grad_norm": 1.0683986147341784e-05,
      "learning_rate": 5.987341663058338e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73032584,
      "step": 125845
    },
    {
      "epoch": 18.744414655942805,
      "grad_norm": 4.2158117139479145e-05,
      "learning_rate": 5.980274820077514e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73035560,
      "step": 125850
    },
    {
      "epoch": 18.745159368483765,
      "grad_norm": 2.4574825147283264e-05,
      "learning_rate": 5.97321209956192e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73038216,
      "step": 125855
    },
    {
      "epoch": 18.745904081024726,
      "grad_norm": 3.508727968437597e-05,
      "learning_rate": 5.966153501630877e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73041160,
      "step": 125860
    },
    {
      "epoch": 18.746648793565683,
      "grad_norm": 3.2152845506061567e-06,
      "learning_rate": 5.95909902640368e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 73044232,
      "step": 125865
    },
    {
      "epoch": 18.747393506106643,
      "grad_norm": 0.00019722306751646101,
      "learning_rate": 5.952048673999427e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73046920,
      "step": 125870
    },
    {
      "epoch": 18.7481382186476,
      "grad_norm": 1.330702070845291e-05,
      "learning_rate": 5.945002444537329e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73049832,
      "step": 125875
    },
    {
      "epoch": 18.74888293118856,
      "grad_norm": 3.0997568956081523e-06,
      "learning_rate": 5.937960338136317e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73052808,
      "step": 125880
    },
    {
      "epoch": 18.74962764372952,
      "grad_norm": 0.00011150357022415847,
      "learning_rate": 5.930922354915436e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73055496,
      "step": 125885
    },
    {
      "epoch": 18.75037235627048,
      "grad_norm": 0.00016586993297096342,
      "learning_rate": 5.923888494993562e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73058248,
      "step": 125890
    },
    {
      "epoch": 18.75111706881144,
      "grad_norm": 7.675980668864213e-06,
      "learning_rate": 5.916858758489519e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73060808,
      "step": 125895
    },
    {
      "epoch": 18.7518617813524,
      "grad_norm": 7.1805447987571824e-06,
      "learning_rate": 5.90983314552207e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73063656,
      "step": 125900
    },
    {
      "epoch": 18.752606493893357,
      "grad_norm": 4.4240268834983e-06,
      "learning_rate": 5.902811656209927e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73066536,
      "step": 125905
    },
    {
      "epoch": 18.753351206434317,
      "grad_norm": 0.00034613232128322124,
      "learning_rate": 5.895794290671691e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73069416,
      "step": 125910
    },
    {
      "epoch": 18.754095918975274,
      "grad_norm": 3.617685069912113e-05,
      "learning_rate": 5.888781049025877e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73072040,
      "step": 125915
    },
    {
      "epoch": 18.754840631516235,
      "grad_norm": 1.9603750843089074e-05,
      "learning_rate": 5.881771931391028e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73075016,
      "step": 125920
    },
    {
      "epoch": 18.755585344057195,
      "grad_norm": 0.0001323696633335203,
      "learning_rate": 5.874766937885523e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73077704,
      "step": 125925
    },
    {
      "epoch": 18.756330056598152,
      "grad_norm": 2.762228723440785e-05,
      "learning_rate": 5.867766068627739e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73080552,
      "step": 125930
    },
    {
      "epoch": 18.757074769139113,
      "grad_norm": 2.226993728982052e-06,
      "learning_rate": 5.860769323735887e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73083560,
      "step": 125935
    },
    {
      "epoch": 18.757819481680073,
      "grad_norm": 3.8606958696618676e-05,
      "learning_rate": 5.853776703328207e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73086504,
      "step": 125940
    },
    {
      "epoch": 18.75856419422103,
      "grad_norm": 1.3547473827202339e-05,
      "learning_rate": 5.846788207522852e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73089736,
      "step": 125945
    },
    {
      "epoch": 18.75930890676199,
      "grad_norm": 1.318768863711739e-05,
      "learning_rate": 5.83980383643784e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73092776,
      "step": 125950
    },
    {
      "epoch": 18.760053619302948,
      "grad_norm": 7.622600605827756e-06,
      "learning_rate": 5.832823590191216e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73095688,
      "step": 125955
    },
    {
      "epoch": 18.760798331843908,
      "grad_norm": 5.4687056945113e-06,
      "learning_rate": 5.825847468900858e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73098376,
      "step": 125960
    },
    {
      "epoch": 18.76154304438487,
      "grad_norm": 7.137734883144731e-06,
      "learning_rate": 5.81887547268467e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73101384,
      "step": 125965
    },
    {
      "epoch": 18.762287756925826,
      "grad_norm": 0.0010166220599785447,
      "learning_rate": 5.811907601660393e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73104776,
      "step": 125970
    },
    {
      "epoch": 18.763032469466786,
      "grad_norm": 7.798842489137314e-06,
      "learning_rate": 5.804943855945738e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73107816,
      "step": 125975
    },
    {
      "epoch": 18.763777182007743,
      "grad_norm": 0.00017870178271550685,
      "learning_rate": 5.797984235658388e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73111208,
      "step": 125980
    },
    {
      "epoch": 18.764521894548704,
      "grad_norm": 9.167445568891708e-06,
      "learning_rate": 5.791028740915888e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73114056,
      "step": 125985
    },
    {
      "epoch": 18.765266607089664,
      "grad_norm": 3.124338763882406e-05,
      "learning_rate": 5.784077371835756e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73117032,
      "step": 125990
    },
    {
      "epoch": 18.76601131963062,
      "grad_norm": 1.180289746116614e-05,
      "learning_rate": 5.777130128535396e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73120008,
      "step": 125995
    },
    {
      "epoch": 18.766756032171582,
      "grad_norm": 2.5592587462597294e-06,
      "learning_rate": 5.770187011132244e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73122920,
      "step": 126000
    },
    {
      "epoch": 18.767500744712542,
      "grad_norm": 1.982901267183479e-05,
      "learning_rate": 5.763248019743539e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73125832,
      "step": 126005
    },
    {
      "epoch": 18.7682454572535,
      "grad_norm": 0.00033579685259610415,
      "learning_rate": 5.756313154486547e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73128904,
      "step": 126010
    },
    {
      "epoch": 18.76899016979446,
      "grad_norm": 3.448972347541712e-05,
      "learning_rate": 5.7493824154784e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73131688,
      "step": 126015
    },
    {
      "epoch": 18.769734882335417,
      "grad_norm": 1.9518980479915626e-05,
      "learning_rate": 5.742455802836166e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73134408,
      "step": 126020
    },
    {
      "epoch": 18.770479594876377,
      "grad_norm": 6.829787889728323e-05,
      "learning_rate": 5.735533316676922e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73137224,
      "step": 126025
    },
    {
      "epoch": 18.771224307417338,
      "grad_norm": 7.141923560993746e-06,
      "learning_rate": 5.728614957117573e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73139912,
      "step": 126030
    },
    {
      "epoch": 18.771969019958295,
      "grad_norm": 5.722418336517876e-06,
      "learning_rate": 5.721700724274997e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73142728,
      "step": 126035
    },
    {
      "epoch": 18.772713732499255,
      "grad_norm": 7.115498010534793e-05,
      "learning_rate": 5.714790618266019e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73145704,
      "step": 126040
    },
    {
      "epoch": 18.773458445040216,
      "grad_norm": 2.1550189558183774e-05,
      "learning_rate": 5.707884639207406e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73148680,
      "step": 126045
    },
    {
      "epoch": 18.774203157581173,
      "grad_norm": 4.318020273785805e-06,
      "learning_rate": 5.700982787215759e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73151816,
      "step": 126050
    },
    {
      "epoch": 18.774947870122134,
      "grad_norm": 1.567802974022925e-05,
      "learning_rate": 5.694085062407705e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73155176,
      "step": 126055
    },
    {
      "epoch": 18.77569258266309,
      "grad_norm": 0.00018502117018215358,
      "learning_rate": 5.687191464899821e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73158152,
      "step": 126060
    },
    {
      "epoch": 18.77643729520405,
      "grad_norm": 2.6350437110522762e-05,
      "learning_rate": 5.680301994808485e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73161160,
      "step": 126065
    },
    {
      "epoch": 18.77718200774501,
      "grad_norm": 2.1224257579888217e-05,
      "learning_rate": 5.673416652250158e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73164232,
      "step": 126070
    },
    {
      "epoch": 18.77792672028597,
      "grad_norm": 5.497291112988023e-06,
      "learning_rate": 5.666535437341108e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73167176,
      "step": 126075
    },
    {
      "epoch": 18.77867143282693,
      "grad_norm": 9.788017632672563e-05,
      "learning_rate": 5.659658350197661e-07,
      "loss": 0.1469,
      "num_input_tokens_seen": 73169896,
      "step": 126080
    },
    {
      "epoch": 18.77941614536789,
      "grad_norm": 3.592983375710901e-06,
      "learning_rate": 5.652785390935889e-07,
      "loss": 0.0189,
      "num_input_tokens_seen": 73172776,
      "step": 126085
    },
    {
      "epoch": 18.780160857908847,
      "grad_norm": 1.2747201253660023e-05,
      "learning_rate": 5.645916559672004e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73175752,
      "step": 126090
    },
    {
      "epoch": 18.780905570449807,
      "grad_norm": 0.0001277060218853876,
      "learning_rate": 5.639051856522026e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73178696,
      "step": 126095
    },
    {
      "epoch": 18.781650282990764,
      "grad_norm": 7.877695679781027e-06,
      "learning_rate": 5.63219128160189e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73181448,
      "step": 126100
    },
    {
      "epoch": 18.782394995531725,
      "grad_norm": 2.4614860194560606e-06,
      "learning_rate": 5.625334835027502e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73184328,
      "step": 126105
    },
    {
      "epoch": 18.783139708072685,
      "grad_norm": 3.4350770874880254e-05,
      "learning_rate": 5.618482516914714e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73186984,
      "step": 126110
    },
    {
      "epoch": 18.783884420613642,
      "grad_norm": 1.4878430192766245e-05,
      "learning_rate": 5.611634327379295e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73189864,
      "step": 126115
    },
    {
      "epoch": 18.784629133154603,
      "grad_norm": 5.685842097591376e-06,
      "learning_rate": 5.60479026653693e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73192872,
      "step": 126120
    },
    {
      "epoch": 18.785373845695563,
      "grad_norm": 0.00016481411876156926,
      "learning_rate": 5.59795033450325e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73196072,
      "step": 126125
    },
    {
      "epoch": 18.78611855823652,
      "grad_norm": 7.453134912793757e-06,
      "learning_rate": 5.591114531393771e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73199112,
      "step": 126130
    },
    {
      "epoch": 18.78686327077748,
      "grad_norm": 6.542680239363108e-06,
      "learning_rate": 5.584282857324014e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73201800,
      "step": 126135
    },
    {
      "epoch": 18.787607983318438,
      "grad_norm": 3.482680403976701e-05,
      "learning_rate": 5.577455312409413e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73204584,
      "step": 126140
    },
    {
      "epoch": 18.7883526958594,
      "grad_norm": 0.0021123047918081284,
      "learning_rate": 5.570631896765239e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73207304,
      "step": 126145
    },
    {
      "epoch": 18.78909740840036,
      "grad_norm": 4.393704512040131e-05,
      "learning_rate": 5.563812610506841e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73209992,
      "step": 126150
    },
    {
      "epoch": 18.789842120941316,
      "grad_norm": 2.5350029318360612e-05,
      "learning_rate": 5.556997453749379e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73213128,
      "step": 126155
    },
    {
      "epoch": 18.790586833482276,
      "grad_norm": 6.810670129198115e-06,
      "learning_rate": 5.550186426608039e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73216264,
      "step": 126160
    },
    {
      "epoch": 18.791331546023237,
      "grad_norm": 1.5016889847174753e-05,
      "learning_rate": 5.543379529197839e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73219112,
      "step": 126165
    },
    {
      "epoch": 18.792076258564194,
      "grad_norm": 6.713956099702045e-05,
      "learning_rate": 5.536576761633772e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73222184,
      "step": 126170
    },
    {
      "epoch": 18.792820971105154,
      "grad_norm": 8.377309313800652e-06,
      "learning_rate": 5.529778124030799e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73224872,
      "step": 126175
    },
    {
      "epoch": 18.79356568364611,
      "grad_norm": 8.11639620224014e-06,
      "learning_rate": 5.522983616503746e-07,
      "loss": 0.0561,
      "num_input_tokens_seen": 73227816,
      "step": 126180
    },
    {
      "epoch": 18.794310396187072,
      "grad_norm": 1.07794621726498e-05,
      "learning_rate": 5.51619323916741e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73230472,
      "step": 126185
    },
    {
      "epoch": 18.795055108728032,
      "grad_norm": 1.7435140762245283e-05,
      "learning_rate": 5.509406992136479e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73233384,
      "step": 126190
    },
    {
      "epoch": 18.79579982126899,
      "grad_norm": 3.3316213375655934e-05,
      "learning_rate": 5.502624875525664e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73236520,
      "step": 126195
    },
    {
      "epoch": 18.79654453380995,
      "grad_norm": 4.030773197882809e-05,
      "learning_rate": 5.495846889449485e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73239528,
      "step": 126200
    },
    {
      "epoch": 18.797289246350907,
      "grad_norm": 9.094939741771668e-06,
      "learning_rate": 5.48907303402249e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73242504,
      "step": 126205
    },
    {
      "epoch": 18.798033958891867,
      "grad_norm": 1.207948662340641e-05,
      "learning_rate": 5.48230330935906e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73245288,
      "step": 126210
    },
    {
      "epoch": 18.798778671432828,
      "grad_norm": 0.00012514532136265188,
      "learning_rate": 5.475537715573631e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73248232,
      "step": 126215
    },
    {
      "epoch": 18.799523383973785,
      "grad_norm": 4.520838047028519e-05,
      "learning_rate": 5.468776252780472e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73251112,
      "step": 126220
    },
    {
      "epoch": 18.800268096514746,
      "grad_norm": 1.0453185495862272e-05,
      "learning_rate": 5.46201892109377e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73253928,
      "step": 126225
    },
    {
      "epoch": 18.801012809055706,
      "grad_norm": 7.351527892751619e-05,
      "learning_rate": 5.455265720627767e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73257032,
      "step": 126230
    },
    {
      "epoch": 18.801757521596663,
      "grad_norm": 7.062424265313894e-05,
      "learning_rate": 5.448516651496482e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73259752,
      "step": 126235
    },
    {
      "epoch": 18.802502234137624,
      "grad_norm": 2.055222648777999e-05,
      "learning_rate": 5.441771713813992e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73262568,
      "step": 126240
    },
    {
      "epoch": 18.80324694667858,
      "grad_norm": 3.439093052293174e-05,
      "learning_rate": 5.435030907694149e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73265768,
      "step": 126245
    },
    {
      "epoch": 18.80399165921954,
      "grad_norm": 5.000044620828703e-05,
      "learning_rate": 5.428294233250947e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73268584,
      "step": 126250
    },
    {
      "epoch": 18.8047363717605,
      "grad_norm": 4.7901303332764655e-06,
      "learning_rate": 5.421561690598126e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73271400,
      "step": 126255
    },
    {
      "epoch": 18.80548108430146,
      "grad_norm": 0.009936877526342869,
      "learning_rate": 5.414833279849429e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73274056,
      "step": 126260
    },
    {
      "epoch": 18.80622579684242,
      "grad_norm": 2.1694581846531946e-06,
      "learning_rate": 5.408109001118544e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73277064,
      "step": 126265
    },
    {
      "epoch": 18.80697050938338,
      "grad_norm": 5.48741945749498e-06,
      "learning_rate": 5.401388854519046e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73279752,
      "step": 126270
    },
    {
      "epoch": 18.807715221924337,
      "grad_norm": 3.237723831261974e-06,
      "learning_rate": 5.394672840164511e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73282568,
      "step": 126275
    },
    {
      "epoch": 18.808459934465297,
      "grad_norm": 0.002584471832960844,
      "learning_rate": 5.387960958168375e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73285224,
      "step": 126280
    },
    {
      "epoch": 18.809204647006254,
      "grad_norm": 2.3217264697450446e-06,
      "learning_rate": 5.381253208644021e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73288232,
      "step": 126285
    },
    {
      "epoch": 18.809949359547215,
      "grad_norm": 5.781425898021553e-06,
      "learning_rate": 5.374549591704747e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73291240,
      "step": 126290
    },
    {
      "epoch": 18.810694072088175,
      "grad_norm": 0.00017893339099828154,
      "learning_rate": 5.367850107463879e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73294184,
      "step": 126295
    },
    {
      "epoch": 18.811438784629132,
      "grad_norm": 3.877090875903377e-06,
      "learning_rate": 5.36115475603452e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73297352,
      "step": 126300
    },
    {
      "epoch": 18.812183497170093,
      "grad_norm": 4.049197741551325e-05,
      "learning_rate": 5.354463537529831e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73300104,
      "step": 126305
    },
    {
      "epoch": 18.812928209711053,
      "grad_norm": 0.000183373354957439,
      "learning_rate": 5.347776452062831e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73303144,
      "step": 126310
    },
    {
      "epoch": 18.81367292225201,
      "grad_norm": 5.255622454569675e-06,
      "learning_rate": 5.341093499746485e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73306216,
      "step": 126315
    },
    {
      "epoch": 18.81441763479297,
      "grad_norm": 1.559634256409481e-05,
      "learning_rate": 5.334414680693705e-07,
      "loss": 0.0007,
      "num_input_tokens_seen": 73309224,
      "step": 126320
    },
    {
      "epoch": 18.815162347333928,
      "grad_norm": 1.5163251191552263e-05,
      "learning_rate": 5.327739995017316e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73312264,
      "step": 126325
    },
    {
      "epoch": 18.81590705987489,
      "grad_norm": 3.0995399811217794e-06,
      "learning_rate": 5.32106944283009e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73315144,
      "step": 126330
    },
    {
      "epoch": 18.81665177241585,
      "grad_norm": 1.430904467270011e-05,
      "learning_rate": 5.31440302424474e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73318216,
      "step": 126335
    },
    {
      "epoch": 18.817396484956806,
      "grad_norm": 8.88964677869808e-06,
      "learning_rate": 5.307740739373818e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73321192,
      "step": 126340
    },
    {
      "epoch": 18.818141197497766,
      "grad_norm": 2.2933591026230715e-06,
      "learning_rate": 5.301082588329953e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73324424,
      "step": 126345
    },
    {
      "epoch": 18.818885910038723,
      "grad_norm": 8.652504220663104e-06,
      "learning_rate": 5.294428571225585e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73327400,
      "step": 126350
    },
    {
      "epoch": 18.819630622579684,
      "grad_norm": 3.215405286027817e-06,
      "learning_rate": 5.287778688173151e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73330120,
      "step": 126355
    },
    {
      "epoch": 18.820375335120644,
      "grad_norm": 7.247775556606939e-06,
      "learning_rate": 5.281132939284977e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73332840,
      "step": 126360
    },
    {
      "epoch": 18.8211200476616,
      "grad_norm": 4.818974502995843e-06,
      "learning_rate": 5.274491324673309e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73335816,
      "step": 126365
    },
    {
      "epoch": 18.821864760202562,
      "grad_norm": 4.456682290765457e-05,
      "learning_rate": 5.267853844450416e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73338696,
      "step": 126370
    },
    {
      "epoch": 18.822609472743522,
      "grad_norm": 6.926301011844771e-06,
      "learning_rate": 5.261220498728403e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73342792,
      "step": 126375
    },
    {
      "epoch": 18.82335418528448,
      "grad_norm": 2.007624789257534e-05,
      "learning_rate": 5.254591287619348e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73345512,
      "step": 126380
    },
    {
      "epoch": 18.82409889782544,
      "grad_norm": 4.3873664253624156e-05,
      "learning_rate": 5.247966211235161e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73348328,
      "step": 126385
    },
    {
      "epoch": 18.824843610366397,
      "grad_norm": 4.4632724893745035e-05,
      "learning_rate": 5.241345269687864e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73351560,
      "step": 126390
    },
    {
      "epoch": 18.825588322907358,
      "grad_norm": 8.970167073130142e-06,
      "learning_rate": 5.234728463089284e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73354152,
      "step": 126395
    },
    {
      "epoch": 18.826333035448318,
      "grad_norm": 4.578674179356312e-06,
      "learning_rate": 5.228115791551191e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73356872,
      "step": 126400
    },
    {
      "epoch": 18.827077747989275,
      "grad_norm": 1.7089272660086863e-05,
      "learning_rate": 5.221507255185304e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73359976,
      "step": 126405
    },
    {
      "epoch": 18.827822460530236,
      "grad_norm": 1.2977375263290014e-05,
      "learning_rate": 5.214902854103282e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73362888,
      "step": 126410
    },
    {
      "epoch": 18.828567173071196,
      "grad_norm": 0.000591602991335094,
      "learning_rate": 5.208302588416647e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73366312,
      "step": 126415
    },
    {
      "epoch": 18.829311885612153,
      "grad_norm": 0.00010544776887400076,
      "learning_rate": 5.201706458236977e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73369608,
      "step": 126420
    },
    {
      "epoch": 18.830056598153114,
      "grad_norm": 3.079387397519895e-06,
      "learning_rate": 5.195114463675682e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73372264,
      "step": 126425
    },
    {
      "epoch": 18.83080131069407,
      "grad_norm": 2.691215058803209e-06,
      "learning_rate": 5.188526604844118e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73375368,
      "step": 126430
    },
    {
      "epoch": 18.83154602323503,
      "grad_norm": 0.00019444084318820387,
      "learning_rate": 5.181942881853585e-07,
      "loss": 0.0646,
      "num_input_tokens_seen": 73378280,
      "step": 126435
    },
    {
      "epoch": 18.83229073577599,
      "grad_norm": 4.498600901570171e-06,
      "learning_rate": 5.1753632948153e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73381192,
      "step": 126440
    },
    {
      "epoch": 18.83303544831695,
      "grad_norm": 1.0956314326904248e-05,
      "learning_rate": 5.168787843840423e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73384136,
      "step": 126445
    },
    {
      "epoch": 18.83378016085791,
      "grad_norm": 4.00362114305608e-05,
      "learning_rate": 5.162216529040004e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73387016,
      "step": 126450
    },
    {
      "epoch": 18.83452487339887,
      "grad_norm": 0.007450983859598637,
      "learning_rate": 5.155649350525149e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73390152,
      "step": 126455
    },
    {
      "epoch": 18.835269585939827,
      "grad_norm": 5.528737347049173e-06,
      "learning_rate": 5.149086308406742e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73392968,
      "step": 126460
    },
    {
      "epoch": 18.836014298480787,
      "grad_norm": 1.3028581633989234e-05,
      "learning_rate": 5.142527402795638e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73395688,
      "step": 126465
    },
    {
      "epoch": 18.836759011021744,
      "grad_norm": 1.1713017556758132e-05,
      "learning_rate": 5.135972633802694e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73398920,
      "step": 126470
    },
    {
      "epoch": 18.837503723562705,
      "grad_norm": 7.786003698129207e-05,
      "learning_rate": 5.129422001538597e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73401992,
      "step": 126475
    },
    {
      "epoch": 18.838248436103665,
      "grad_norm": 0.0006156004383228719,
      "learning_rate": 5.122875506114067e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73405128,
      "step": 126480
    },
    {
      "epoch": 18.838993148644622,
      "grad_norm": 1.3238391147751827e-05,
      "learning_rate": 5.116333147639651e-07,
      "loss": 0.056,
      "num_input_tokens_seen": 73408072,
      "step": 126485
    },
    {
      "epoch": 18.839737861185583,
      "grad_norm": 3.062289033550769e-05,
      "learning_rate": 5.109794926225903e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73410760,
      "step": 126490
    },
    {
      "epoch": 18.84048257372654,
      "grad_norm": 1.6050162230385467e-05,
      "learning_rate": 5.103260841983287e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73413672,
      "step": 126495
    },
    {
      "epoch": 18.8412272862675,
      "grad_norm": 1.5871377399889752e-05,
      "learning_rate": 5.096730895022189e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73416616,
      "step": 126500
    },
    {
      "epoch": 18.84197199880846,
      "grad_norm": 6.843898518127389e-06,
      "learning_rate": 5.090205085452909e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73419400,
      "step": 126505
    },
    {
      "epoch": 18.842716711349418,
      "grad_norm": 2.11260103242239e-05,
      "learning_rate": 5.083683413385665e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73422440,
      "step": 126510
    },
    {
      "epoch": 18.84346142389038,
      "grad_norm": 0.00291691767051816,
      "learning_rate": 5.077165878930701e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73425576,
      "step": 126515
    },
    {
      "epoch": 18.84420613643134,
      "grad_norm": 0.00015386891027446836,
      "learning_rate": 5.070652482198069e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73428648,
      "step": 126520
    },
    {
      "epoch": 18.844950848972296,
      "grad_norm": 3.660098445834592e-05,
      "learning_rate": 5.064143223297845e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73431496,
      "step": 126525
    },
    {
      "epoch": 18.845695561513256,
      "grad_norm": 1.062982755684061e-05,
      "learning_rate": 5.057638102339945e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73434216,
      "step": 126530
    },
    {
      "epoch": 18.846440274054213,
      "grad_norm": 0.0009388979524374008,
      "learning_rate": 5.051137119434362e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73437224,
      "step": 126535
    },
    {
      "epoch": 18.847184986595174,
      "grad_norm": 1.4394886420632247e-05,
      "learning_rate": 5.044640274690815e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73440072,
      "step": 126540
    },
    {
      "epoch": 18.847929699136134,
      "grad_norm": 3.191918494849233e-06,
      "learning_rate": 5.038147568219131e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73442984,
      "step": 126545
    },
    {
      "epoch": 18.84867441167709,
      "grad_norm": 2.9031612029939424e-06,
      "learning_rate": 5.031659000128974e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73445832,
      "step": 126550
    },
    {
      "epoch": 18.849419124218052,
      "grad_norm": 0.0006936759455129504,
      "learning_rate": 5.02517457052995e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73448648,
      "step": 126555
    },
    {
      "epoch": 18.850163836759013,
      "grad_norm": 3.276398638263345e-05,
      "learning_rate": 5.018694279531638e-07,
      "loss": 0.0194,
      "num_input_tokens_seen": 73451816,
      "step": 126560
    },
    {
      "epoch": 18.85090854929997,
      "grad_norm": 0.00013169561862014234,
      "learning_rate": 5.012218127243478e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73454600,
      "step": 126565
    },
    {
      "epoch": 18.85165326184093,
      "grad_norm": 7.4251220212318e-05,
      "learning_rate": 5.005746113774912e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 73457448,
      "step": 126570
    },
    {
      "epoch": 18.852397974381887,
      "grad_norm": 2.0551566194626503e-05,
      "learning_rate": 4.999278239235267e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 73460520,
      "step": 126575
    },
    {
      "epoch": 18.853142686922848,
      "grad_norm": 1.0055110578832682e-05,
      "learning_rate": 4.992814503733817e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73463912,
      "step": 126580
    },
    {
      "epoch": 18.853887399463808,
      "grad_norm": 6.799604761908995e-06,
      "learning_rate": 4.986354907379726e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73466792,
      "step": 126585
    },
    {
      "epoch": 18.854632112004765,
      "grad_norm": 2.184656295867171e-06,
      "learning_rate": 4.979899450282155e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73469832,
      "step": 126590
    },
    {
      "epoch": 18.855376824545726,
      "grad_norm": 2.1633772121276706e-05,
      "learning_rate": 4.973448132550157e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73472680,
      "step": 126595
    },
    {
      "epoch": 18.856121537086686,
      "grad_norm": 0.0004976178170181811,
      "learning_rate": 4.967000954292728e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73475656,
      "step": 126600
    },
    {
      "epoch": 18.856866249627643,
      "grad_norm": 7.809885573806241e-05,
      "learning_rate": 4.96055791561878e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73478760,
      "step": 126605
    },
    {
      "epoch": 18.857610962168604,
      "grad_norm": 1.7940892576007172e-05,
      "learning_rate": 4.954119016637115e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73481768,
      "step": 126610
    },
    {
      "epoch": 18.85835567470956,
      "grad_norm": 5.9000685723731294e-05,
      "learning_rate": 4.94768425745662e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73484456,
      "step": 126615
    },
    {
      "epoch": 18.85910038725052,
      "grad_norm": 7.735877261438873e-06,
      "learning_rate": 4.9412536381859e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73487624,
      "step": 126620
    },
    {
      "epoch": 18.85984509979148,
      "grad_norm": 3.2361861030949512e-06,
      "learning_rate": 4.934827158933647e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73490632,
      "step": 126625
    },
    {
      "epoch": 18.86058981233244,
      "grad_norm": 3.160819460390485e-06,
      "learning_rate": 4.928404819808413e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73493192,
      "step": 126630
    },
    {
      "epoch": 18.8613345248734,
      "grad_norm": 1.8401568013359793e-05,
      "learning_rate": 4.921986620918723e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73496136,
      "step": 126635
    },
    {
      "epoch": 18.86207923741436,
      "grad_norm": 4.6941549953771755e-06,
      "learning_rate": 4.915572562372961e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73499016,
      "step": 126640
    },
    {
      "epoch": 18.862823949955317,
      "grad_norm": 2.457072014294681e-06,
      "learning_rate": 4.909162644279486e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73501928,
      "step": 126645
    },
    {
      "epoch": 18.863568662496277,
      "grad_norm": 9.230558134731837e-06,
      "learning_rate": 4.902756866746627e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73504872,
      "step": 126650
    },
    {
      "epoch": 18.864313375037234,
      "grad_norm": 7.163940608734265e-05,
      "learning_rate": 4.896355229882576e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73507752,
      "step": 126655
    },
    {
      "epoch": 18.865058087578195,
      "grad_norm": 1.0137414392374922e-05,
      "learning_rate": 4.889957733795525e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73510600,
      "step": 126660
    },
    {
      "epoch": 18.865802800119155,
      "grad_norm": 0.04563342034816742,
      "learning_rate": 4.883564378593497e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 73513608,
      "step": 126665
    },
    {
      "epoch": 18.866547512660112,
      "grad_norm": 4.073582204000559e-06,
      "learning_rate": 4.877175164384518e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73516648,
      "step": 126670
    },
    {
      "epoch": 18.867292225201073,
      "grad_norm": 6.141432095319033e-06,
      "learning_rate": 4.870790091276555e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73519464,
      "step": 126675
    },
    {
      "epoch": 18.868036937742033,
      "grad_norm": 4.1560724639566615e-06,
      "learning_rate": 4.864409159377415e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73522408,
      "step": 126680
    },
    {
      "epoch": 18.86878165028299,
      "grad_norm": 6.215333996806294e-06,
      "learning_rate": 4.858032368794979e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73525544,
      "step": 126685
    },
    {
      "epoch": 18.86952636282395,
      "grad_norm": 2.8538830520119518e-05,
      "learning_rate": 4.851659719636915e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73528296,
      "step": 126690
    },
    {
      "epoch": 18.870271075364908,
      "grad_norm": 1.623150092200376e-05,
      "learning_rate": 4.845291212010883e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73531048,
      "step": 126695
    },
    {
      "epoch": 18.87101578790587,
      "grad_norm": 8.700536272954196e-05,
      "learning_rate": 4.838926846024522e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73533960,
      "step": 126700
    },
    {
      "epoch": 18.87176050044683,
      "grad_norm": 0.00018189924594480544,
      "learning_rate": 4.832566621785329e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73536680,
      "step": 126705
    },
    {
      "epoch": 18.872505212987786,
      "grad_norm": 3.510561327857431e-06,
      "learning_rate": 4.826210539400744e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73539656,
      "step": 126710
    },
    {
      "epoch": 18.873249925528746,
      "grad_norm": 5.756875907536596e-06,
      "learning_rate": 4.819858598978127e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73542440,
      "step": 126715
    },
    {
      "epoch": 18.873994638069703,
      "grad_norm": 5.728876203647815e-06,
      "learning_rate": 4.81351080062481e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73545544,
      "step": 126720
    },
    {
      "epoch": 18.874739350610664,
      "grad_norm": 6.5970380092039704e-06,
      "learning_rate": 4.807167144448039e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73548488,
      "step": 126725
    },
    {
      "epoch": 18.875484063151625,
      "grad_norm": 1.2173028153483756e-05,
      "learning_rate": 4.800827630554977e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73551272,
      "step": 126730
    },
    {
      "epoch": 18.87622877569258,
      "grad_norm": 3.8222446164581925e-05,
      "learning_rate": 4.794492259052708e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73554408,
      "step": 126735
    },
    {
      "epoch": 18.876973488233542,
      "grad_norm": 1.2770029570674524e-05,
      "learning_rate": 4.788161030048282e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73557352,
      "step": 126740
    },
    {
      "epoch": 18.877718200774503,
      "grad_norm": 1.9356239135959186e-05,
      "learning_rate": 4.781833943648672e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73560456,
      "step": 126745
    },
    {
      "epoch": 18.87846291331546,
      "grad_norm": 1.1252843250986189e-05,
      "learning_rate": 4.775510999960736e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73563528,
      "step": 126750
    },
    {
      "epoch": 18.87920762585642,
      "grad_norm": 3.334806751809083e-05,
      "learning_rate": 4.769192199091305e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73566472,
      "step": 126755
    },
    {
      "epoch": 18.879952338397377,
      "grad_norm": 4.711989731731592e-06,
      "learning_rate": 4.7628775411471536e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73569352,
      "step": 126760
    },
    {
      "epoch": 18.880697050938338,
      "grad_norm": 1.7839354313764488e-06,
      "learning_rate": 4.7565670262349207e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73572136,
      "step": 126765
    },
    {
      "epoch": 18.881441763479298,
      "grad_norm": 3.6724375149788102e-06,
      "learning_rate": 4.750260654461214e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73574888,
      "step": 126770
    },
    {
      "epoch": 18.882186476020255,
      "grad_norm": 8.999341844173614e-06,
      "learning_rate": 4.743958425932615e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73577448,
      "step": 126775
    },
    {
      "epoch": 18.882931188561216,
      "grad_norm": 3.270601882832125e-05,
      "learning_rate": 4.737660340755595e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73580552,
      "step": 126780
    },
    {
      "epoch": 18.883675901102176,
      "grad_norm": 3.7912000152573455e-06,
      "learning_rate": 4.731366399036485e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73583560,
      "step": 126785
    },
    {
      "epoch": 18.884420613643133,
      "grad_norm": 0.00012869680358562618,
      "learning_rate": 4.7250766008816726e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73586600,
      "step": 126790
    },
    {
      "epoch": 18.885165326184094,
      "grad_norm": 2.9011702281422913e-05,
      "learning_rate": 4.7187909463974054e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73589864,
      "step": 126795
    },
    {
      "epoch": 18.88591003872505,
      "grad_norm": 2.365764339629095e-05,
      "learning_rate": 4.712509435689877e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73592520,
      "step": 126800
    },
    {
      "epoch": 18.88665475126601,
      "grad_norm": 3.3943929338420276e-06,
      "learning_rate": 4.706232068865196e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73595400,
      "step": 126805
    },
    {
      "epoch": 18.88739946380697,
      "grad_norm": 1.5506519048358314e-05,
      "learning_rate": 4.6999588460294177e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73598344,
      "step": 126810
    },
    {
      "epoch": 18.88814417634793,
      "grad_norm": 3.815053787548095e-06,
      "learning_rate": 4.6936897672885117e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73601192,
      "step": 126815
    },
    {
      "epoch": 18.88888888888889,
      "grad_norm": 9.369067811348941e-06,
      "learning_rate": 4.6874248327484494e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73603784,
      "step": 126820
    },
    {
      "epoch": 18.88963360142985,
      "grad_norm": 7.202196229627589e-06,
      "learning_rate": 4.681164042514979e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73606632,
      "step": 126825
    },
    {
      "epoch": 18.890378313970807,
      "grad_norm": 3.1815229704079684e-06,
      "learning_rate": 4.674907396693934e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73609736,
      "step": 126830
    },
    {
      "epoch": 18.891123026511767,
      "grad_norm": 2.1106052372488193e-06,
      "learning_rate": 4.668654895390978e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73612424,
      "step": 126835
    },
    {
      "epoch": 18.891867739052724,
      "grad_norm": 2.095479067065753e-05,
      "learning_rate": 4.66240653871175e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73615368,
      "step": 126840
    },
    {
      "epoch": 18.892612451593685,
      "grad_norm": 4.956845805281773e-05,
      "learning_rate": 4.6561623267618037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73618152,
      "step": 126845
    },
    {
      "epoch": 18.893357164134645,
      "grad_norm": 0.00010641490371199325,
      "learning_rate": 4.6499222596466386e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73620840,
      "step": 126850
    },
    {
      "epoch": 18.894101876675602,
      "grad_norm": 4.868100859312108e-06,
      "learning_rate": 4.6436863374716976e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73623976,
      "step": 126855
    },
    {
      "epoch": 18.894846589216563,
      "grad_norm": 1.3897541975893546e-05,
      "learning_rate": 4.6374545603423134e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73626824,
      "step": 126860
    },
    {
      "epoch": 18.89559130175752,
      "grad_norm": 2.5924632609530818e-06,
      "learning_rate": 4.6312269283637357e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73629864,
      "step": 126865
    },
    {
      "epoch": 18.89633601429848,
      "grad_norm": 1.412311121384846e-05,
      "learning_rate": 4.6250034416411845e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73632520,
      "step": 126870
    },
    {
      "epoch": 18.89708072683944,
      "grad_norm": 5.77867467654869e-06,
      "learning_rate": 4.618784100279827e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73635400,
      "step": 126875
    },
    {
      "epoch": 18.897825439380398,
      "grad_norm": 8.783951670920942e-06,
      "learning_rate": 4.6125689043847453e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73638216,
      "step": 126880
    },
    {
      "epoch": 18.89857015192136,
      "grad_norm": 0.00027790083549916744,
      "learning_rate": 4.606357854060855e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73641064,
      "step": 126885
    },
    {
      "epoch": 18.89931486446232,
      "grad_norm": 1.0431162991153542e-05,
      "learning_rate": 4.6001509494131846e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73644040,
      "step": 126890
    },
    {
      "epoch": 18.900059577003276,
      "grad_norm": 9.993791172746569e-05,
      "learning_rate": 4.5939481905465655e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73646824,
      "step": 126895
    },
    {
      "epoch": 18.900804289544237,
      "grad_norm": 2.547844997025095e-05,
      "learning_rate": 4.5877495775657476e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73649672,
      "step": 126900
    },
    {
      "epoch": 18.901549002085194,
      "grad_norm": 3.5193870644434355e-06,
      "learning_rate": 4.5815551105754804e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73652584,
      "step": 126905
    },
    {
      "epoch": 18.902293714626154,
      "grad_norm": 4.2234742068103515e-06,
      "learning_rate": 4.575364789680375e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73655368,
      "step": 126910
    },
    {
      "epoch": 18.903038427167115,
      "grad_norm": 0.0008316352032124996,
      "learning_rate": 4.5691786149850977e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73658184,
      "step": 126915
    },
    {
      "epoch": 18.90378313970807,
      "grad_norm": 2.4191924239858054e-05,
      "learning_rate": 4.562996586594037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73661256,
      "step": 126920
    },
    {
      "epoch": 18.904527852249032,
      "grad_norm": 2.9107477530487813e-05,
      "learning_rate": 4.5568187046117484e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73663976,
      "step": 126925
    },
    {
      "epoch": 18.905272564789993,
      "grad_norm": 7.806693247403018e-06,
      "learning_rate": 4.550644969142537e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73666952,
      "step": 126930
    },
    {
      "epoch": 18.90601727733095,
      "grad_norm": 7.1850026870379224e-06,
      "learning_rate": 4.544475380290708e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73669992,
      "step": 126935
    },
    {
      "epoch": 18.90676198987191,
      "grad_norm": 1.699306994851213e-05,
      "learning_rate": 4.538309938160512e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73673096,
      "step": 126940
    },
    {
      "epoch": 18.907506702412867,
      "grad_norm": 0.00017374634626321495,
      "learning_rate": 4.532148642856088e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73676488,
      "step": 126945
    },
    {
      "epoch": 18.908251414953828,
      "grad_norm": 2.6121517748833867e-06,
      "learning_rate": 4.5259914944815184e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73679528,
      "step": 126950
    },
    {
      "epoch": 18.908996127494788,
      "grad_norm": 0.0002791910956148058,
      "learning_rate": 4.519838493140832e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73682344,
      "step": 126955
    },
    {
      "epoch": 18.909740840035745,
      "grad_norm": 1.8190590708400123e-05,
      "learning_rate": 4.513689638938001e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73685512,
      "step": 126960
    },
    {
      "epoch": 18.910485552576706,
      "grad_norm": 2.453983142913785e-06,
      "learning_rate": 4.507544931976887e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73688328,
      "step": 126965
    },
    {
      "epoch": 18.911230265117666,
      "grad_norm": 2.7718142519006506e-05,
      "learning_rate": 4.501404372361295e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73691240,
      "step": 126970
    },
    {
      "epoch": 18.911974977658623,
      "grad_norm": 1.1790422831836622e-05,
      "learning_rate": 4.495267960194921e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73694600,
      "step": 126975
    },
    {
      "epoch": 18.912719690199584,
      "grad_norm": 1.1170208381372504e-05,
      "learning_rate": 4.4891356955815145e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73697480,
      "step": 126980
    },
    {
      "epoch": 18.91346440274054,
      "grad_norm": 3.892279346473515e-05,
      "learning_rate": 4.483007578624632e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73700328,
      "step": 126985
    },
    {
      "epoch": 18.9142091152815,
      "grad_norm": 1.935478940140456e-05,
      "learning_rate": 4.476883609427773e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73703112,
      "step": 126990
    },
    {
      "epoch": 18.914953827822462,
      "grad_norm": 2.302825123479124e-06,
      "learning_rate": 4.4707637880944675e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73706120,
      "step": 126995
    },
    {
      "epoch": 18.91569854036342,
      "grad_norm": 9.478705760557204e-05,
      "learning_rate": 4.4646481147280206e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73709352,
      "step": 127000
    },
    {
      "epoch": 18.91644325290438,
      "grad_norm": 2.5595409169909544e-05,
      "learning_rate": 4.458536589431822e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73712232,
      "step": 127005
    },
    {
      "epoch": 18.917187965445336,
      "grad_norm": 1.8677275193113019e-06,
      "learning_rate": 4.4524292123090673e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73715336,
      "step": 127010
    },
    {
      "epoch": 18.917932677986297,
      "grad_norm": 9.220276115229353e-05,
      "learning_rate": 4.4463259834630066e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73717960,
      "step": 127015
    },
    {
      "epoch": 18.918677390527257,
      "grad_norm": 0.0011255142744630575,
      "learning_rate": 4.440226902996669e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73720840,
      "step": 127020
    },
    {
      "epoch": 18.919422103068214,
      "grad_norm": 2.4436103558400646e-06,
      "learning_rate": 4.4341319710131115e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73723816,
      "step": 127025
    },
    {
      "epoch": 18.920166815609175,
      "grad_norm": 3.8717353163519874e-05,
      "learning_rate": 4.428041187615306e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73726824,
      "step": 127030
    },
    {
      "epoch": 18.920911528150135,
      "grad_norm": 3.4186964512628037e-06,
      "learning_rate": 4.421954552906199e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73730056,
      "step": 127035
    },
    {
      "epoch": 18.921656240691092,
      "grad_norm": 3.183558146702126e-05,
      "learning_rate": 4.415872066988541e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73732968,
      "step": 127040
    },
    {
      "epoch": 18.922400953232053,
      "grad_norm": 3.0810995212959824e-06,
      "learning_rate": 4.4097937299651115e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73735720,
      "step": 127045
    },
    {
      "epoch": 18.92314566577301,
      "grad_norm": 3.62026366929058e-05,
      "learning_rate": 4.4037195419386336e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73738920,
      "step": 127050
    },
    {
      "epoch": 18.92389037831397,
      "grad_norm": 2.4518525606254116e-05,
      "learning_rate": 4.3976495030116915e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73741736,
      "step": 127055
    },
    {
      "epoch": 18.92463509085493,
      "grad_norm": 2.3837401386117563e-05,
      "learning_rate": 4.3915836132868426e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73744328,
      "step": 127060
    },
    {
      "epoch": 18.925379803395888,
      "grad_norm": 5.1239658205304295e-06,
      "learning_rate": 4.3855218728665883e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73747272,
      "step": 127065
    },
    {
      "epoch": 18.92612451593685,
      "grad_norm": 2.4740361368458252e-06,
      "learning_rate": 4.3794642818532905e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73750088,
      "step": 127070
    },
    {
      "epoch": 18.92686922847781,
      "grad_norm": 1.0725770152930636e-05,
      "learning_rate": 4.3734108403493125e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73753096,
      "step": 127075
    },
    {
      "epoch": 18.927613941018766,
      "grad_norm": 5.065670848125592e-06,
      "learning_rate": 4.3673615484568776e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73755944,
      "step": 127080
    },
    {
      "epoch": 18.928358653559727,
      "grad_norm": 2.064928366962704e-06,
      "learning_rate": 4.3613164062782653e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73758760,
      "step": 127085
    },
    {
      "epoch": 18.929103366100684,
      "grad_norm": 4.355967575975228e-06,
      "learning_rate": 4.3552754139155327e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73761768,
      "step": 127090
    },
    {
      "epoch": 18.929848078641644,
      "grad_norm": 1.7949994798982516e-05,
      "learning_rate": 4.3492385714707927e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73764520,
      "step": 127095
    },
    {
      "epoch": 18.930592791182605,
      "grad_norm": 4.730396540253423e-06,
      "learning_rate": 4.343205879045964e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73767688,
      "step": 127100
    },
    {
      "epoch": 18.93133750372356,
      "grad_norm": 8.083202374109533e-06,
      "learning_rate": 4.3371773367429924e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73770792,
      "step": 127105
    },
    {
      "epoch": 18.932082216264522,
      "grad_norm": 0.001420379732735455,
      "learning_rate": 4.331152944663769e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73773832,
      "step": 127110
    },
    {
      "epoch": 18.932826928805483,
      "grad_norm": 3.1608110475644935e-06,
      "learning_rate": 4.3251327029099897e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73776584,
      "step": 127115
    },
    {
      "epoch": 18.93357164134644,
      "grad_norm": 5.22688205819577e-05,
      "learning_rate": 4.319116611583407e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73780136,
      "step": 127120
    },
    {
      "epoch": 18.9343163538874,
      "grad_norm": 0.00971614383161068,
      "learning_rate": 4.3131046707856613e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73783304,
      "step": 127125
    },
    {
      "epoch": 18.935061066428357,
      "grad_norm": 7.61004457672243e-06,
      "learning_rate": 4.307096880618311e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73785992,
      "step": 127130
    },
    {
      "epoch": 18.935805778969318,
      "grad_norm": 7.236825331347063e-05,
      "learning_rate": 4.30109324118283e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73788936,
      "step": 127135
    },
    {
      "epoch": 18.93655049151028,
      "grad_norm": 0.00014055076462682337,
      "learning_rate": 4.295093752580664e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73791880,
      "step": 127140
    },
    {
      "epoch": 18.937295204051235,
      "grad_norm": 3.486483183223754e-05,
      "learning_rate": 4.289098414913206e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73795112,
      "step": 127145
    },
    {
      "epoch": 18.938039916592196,
      "grad_norm": 6.55572148389183e-06,
      "learning_rate": 4.283107228281652e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73797800,
      "step": 127150
    },
    {
      "epoch": 18.938784629133156,
      "grad_norm": 1.7463373296777718e-05,
      "learning_rate": 4.277120192787282e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73801064,
      "step": 127155
    },
    {
      "epoch": 18.939529341674113,
      "grad_norm": 1.6299683920806274e-05,
      "learning_rate": 4.271137308531237e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73803848,
      "step": 127160
    },
    {
      "epoch": 18.940274054215074,
      "grad_norm": 2.3945613065734506e-06,
      "learning_rate": 4.265158575614575e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73806472,
      "step": 127165
    },
    {
      "epoch": 18.94101876675603,
      "grad_norm": 0.0029564974829554558,
      "learning_rate": 4.259183994138299e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73809160,
      "step": 127170
    },
    {
      "epoch": 18.94176347929699,
      "grad_norm": 3.281024874013383e-06,
      "learning_rate": 4.2532135642033565e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73811976,
      "step": 127175
    },
    {
      "epoch": 18.942508191837952,
      "grad_norm": 9.951245374395512e-06,
      "learning_rate": 4.2472472859105827e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73815080,
      "step": 127180
    },
    {
      "epoch": 18.94325290437891,
      "grad_norm": 1.1886519132531248e-05,
      "learning_rate": 4.241285159360814e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73817800,
      "step": 127185
    },
    {
      "epoch": 18.94399761691987,
      "grad_norm": 6.977538305363851e-06,
      "learning_rate": 4.235327184654747e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73820456,
      "step": 127190
    },
    {
      "epoch": 18.94474232946083,
      "grad_norm": 6.975364613026613e-06,
      "learning_rate": 4.229373361893024e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73823208,
      "step": 127195
    },
    {
      "epoch": 18.945487042001787,
      "grad_norm": 4.42518103227485e-05,
      "learning_rate": 4.223423691176287e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73826024,
      "step": 127200
    },
    {
      "epoch": 18.946231754542747,
      "grad_norm": 0.00013475735613610595,
      "learning_rate": 4.2174781726049826e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73828936,
      "step": 127205
    },
    {
      "epoch": 18.946976467083704,
      "grad_norm": 1.0031632882601116e-05,
      "learning_rate": 4.2115368062796147e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73831496,
      "step": 127210
    },
    {
      "epoch": 18.947721179624665,
      "grad_norm": 3.45949774782639e-05,
      "learning_rate": 4.205599592300491e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73834344,
      "step": 127215
    },
    {
      "epoch": 18.948465892165625,
      "grad_norm": 2.0143223082413897e-05,
      "learning_rate": 4.199666530767948e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73837320,
      "step": 127220
    },
    {
      "epoch": 18.949210604706582,
      "grad_norm": 4.965071639162488e-06,
      "learning_rate": 4.19373762178224e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73840296,
      "step": 127225
    },
    {
      "epoch": 18.949955317247543,
      "grad_norm": 3.902817297785077e-06,
      "learning_rate": 4.187812865443508e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73843048,
      "step": 127230
    },
    {
      "epoch": 18.9507000297885,
      "grad_norm": 2.129514996340731e-06,
      "learning_rate": 4.1818922618518386e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73846024,
      "step": 127235
    },
    {
      "epoch": 18.95144474232946,
      "grad_norm": 1.76188004843425e-05,
      "learning_rate": 4.175975811107263e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73848712,
      "step": 127240
    },
    {
      "epoch": 18.95218945487042,
      "grad_norm": 2.2499089027405716e-05,
      "learning_rate": 4.17006351330973e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73851560,
      "step": 127245
    },
    {
      "epoch": 18.952934167411378,
      "grad_norm": 2.9504939448088408e-05,
      "learning_rate": 4.164155368559103e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73854216,
      "step": 127250
    },
    {
      "epoch": 18.95367887995234,
      "grad_norm": 2.7614483769866638e-05,
      "learning_rate": 4.1582513769552467e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73857128,
      "step": 127255
    },
    {
      "epoch": 18.9544235924933,
      "grad_norm": 3.64629813702777e-05,
      "learning_rate": 4.1523515385978317e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73859720,
      "step": 127260
    },
    {
      "epoch": 18.955168305034256,
      "grad_norm": 1.32865470732213e-05,
      "learning_rate": 4.1464558535866117e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73862440,
      "step": 127265
    },
    {
      "epoch": 18.955913017575217,
      "grad_norm": 4.835736035602167e-06,
      "learning_rate": 4.140564322021145e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73865064,
      "step": 127270
    },
    {
      "epoch": 18.956657730116174,
      "grad_norm": 1.559319753141608e-05,
      "learning_rate": 4.1346769440009094e-07,
      "loss": 0.0003,
      "num_input_tokens_seen": 73868200,
      "step": 127275
    },
    {
      "epoch": 18.957402442657134,
      "grad_norm": 0.0023498611990362406,
      "learning_rate": 4.12879371962549e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73871272,
      "step": 127280
    },
    {
      "epoch": 18.958147155198095,
      "grad_norm": 1.188829992315732e-05,
      "learning_rate": 4.1229146489941416e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73874248,
      "step": 127285
    },
    {
      "epoch": 18.95889186773905,
      "grad_norm": 1.9954293293267256e-06,
      "learning_rate": 4.1170397322063125e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73877032,
      "step": 127290
    },
    {
      "epoch": 18.959636580280012,
      "grad_norm": 5.287573003442958e-05,
      "learning_rate": 4.111168969361173e-07,
      "loss": 0.0052,
      "num_input_tokens_seen": 73879944,
      "step": 127295
    },
    {
      "epoch": 18.960381292820973,
      "grad_norm": 3.43394567607902e-05,
      "learning_rate": 4.1053023605579223e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73882632,
      "step": 127300
    },
    {
      "epoch": 18.96112600536193,
      "grad_norm": 0.00016365722694899887,
      "learning_rate": 4.0994399058956743e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 73885256,
      "step": 127305
    },
    {
      "epoch": 18.96187071790289,
      "grad_norm": 0.0003437897248659283,
      "learning_rate": 4.0935816054734343e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73888008,
      "step": 127310
    },
    {
      "epoch": 18.962615430443847,
      "grad_norm": 3.84729264624184e-06,
      "learning_rate": 4.0877274593902335e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73890984,
      "step": 127315
    },
    {
      "epoch": 18.963360142984808,
      "grad_norm": 1.3260609193821438e-05,
      "learning_rate": 4.0818774677449377e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73893832,
      "step": 127320
    },
    {
      "epoch": 18.96410485552577,
      "grad_norm": 2.489417056494858e-06,
      "learning_rate": 4.0760316306363844e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73896520,
      "step": 127325
    },
    {
      "epoch": 18.964849568066725,
      "grad_norm": 1.163119486591313e-05,
      "learning_rate": 4.0701899481633277e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73899304,
      "step": 127330
    },
    {
      "epoch": 18.965594280607686,
      "grad_norm": 1.2451685506675858e-05,
      "learning_rate": 4.0643524204244665e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73902184,
      "step": 127335
    },
    {
      "epoch": 18.966338993148646,
      "grad_norm": 2.6069046725751832e-06,
      "learning_rate": 4.0585190475184166e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73905352,
      "step": 127340
    },
    {
      "epoch": 18.967083705689603,
      "grad_norm": 2.880687816286809e-06,
      "learning_rate": 4.05268982954371e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73907912,
      "step": 127345
    },
    {
      "epoch": 18.967828418230564,
      "grad_norm": 2.886714537453372e-05,
      "learning_rate": 4.0468647665988513e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73910952,
      "step": 127350
    },
    {
      "epoch": 18.96857313077152,
      "grad_norm": 3.2881091556191677e-06,
      "learning_rate": 4.041043858782234e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73913800,
      "step": 127355
    },
    {
      "epoch": 18.96931784331248,
      "grad_norm": 0.002697672927752137,
      "learning_rate": 4.0352271061921966e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73916776,
      "step": 127360
    },
    {
      "epoch": 18.970062555853442,
      "grad_norm": 6.199851213750662e-06,
      "learning_rate": 4.0294145089270205e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73919688,
      "step": 127365
    },
    {
      "epoch": 18.9708072683944,
      "grad_norm": 2.4315975224453723e-06,
      "learning_rate": 4.0236060670848783e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73922632,
      "step": 127370
    },
    {
      "epoch": 18.97155198093536,
      "grad_norm": 1.1601696314755827e-05,
      "learning_rate": 4.0178017807639136e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73925512,
      "step": 127375
    },
    {
      "epoch": 18.972296693476316,
      "grad_norm": 0.00011390214785933495,
      "learning_rate": 4.012001650062186e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73928584,
      "step": 127380
    },
    {
      "epoch": 18.973041406017277,
      "grad_norm": 1.1162361261085607e-05,
      "learning_rate": 4.0062056750776734e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73931208,
      "step": 127385
    },
    {
      "epoch": 18.973786118558237,
      "grad_norm": 4.4652151700574905e-06,
      "learning_rate": 4.000413855908297e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73934088,
      "step": 127390
    },
    {
      "epoch": 18.974530831099194,
      "grad_norm": 2.5141695005004294e-05,
      "learning_rate": 3.9946261926519233e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73936840,
      "step": 127395
    },
    {
      "epoch": 18.975275543640155,
      "grad_norm": 0.0033204923383891582,
      "learning_rate": 3.9888426854063075e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73939624,
      "step": 127400
    },
    {
      "epoch": 18.976020256181116,
      "grad_norm": 0.0002096973330480978,
      "learning_rate": 3.9830633342691494e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73942728,
      "step": 127405
    },
    {
      "epoch": 18.976764968722073,
      "grad_norm": 6.084143478801707e-06,
      "learning_rate": 3.9772881393380923e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73945704,
      "step": 127410
    },
    {
      "epoch": 18.977509681263033,
      "grad_norm": 1.3796622624795418e-05,
      "learning_rate": 3.9715171007107256e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73948328,
      "step": 127415
    },
    {
      "epoch": 18.97825439380399,
      "grad_norm": 0.00016024295473471284,
      "learning_rate": 3.9657502184844983e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73951048,
      "step": 127420
    },
    {
      "epoch": 18.97899910634495,
      "grad_norm": 5.565887931879843e-06,
      "learning_rate": 3.959987492756889e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73953768,
      "step": 127425
    },
    {
      "epoch": 18.97974381888591,
      "grad_norm": 2.4110195226967335e-05,
      "learning_rate": 3.9542289236252363e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73956680,
      "step": 127430
    },
    {
      "epoch": 18.980488531426868,
      "grad_norm": 3.152981662424281e-05,
      "learning_rate": 3.948474511186767e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73959624,
      "step": 127435
    },
    {
      "epoch": 18.98123324396783,
      "grad_norm": 5.153716301720124e-06,
      "learning_rate": 3.9427242555387935e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73962824,
      "step": 127440
    },
    {
      "epoch": 18.98197795650879,
      "grad_norm": 4.752460517920554e-05,
      "learning_rate": 3.936978156778376e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73965480,
      "step": 127445
    },
    {
      "epoch": 18.982722669049746,
      "grad_norm": 2.3873917598393746e-06,
      "learning_rate": 3.9312362150026594e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73968584,
      "step": 127450
    },
    {
      "epoch": 18.983467381590707,
      "grad_norm": 1.164226978289662e-05,
      "learning_rate": 3.925498430308594e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73971592,
      "step": 127455
    },
    {
      "epoch": 18.984212094131664,
      "grad_norm": 6.894211765029468e-06,
      "learning_rate": 3.91976480279313e-07,
      "loss": 0.0003,
      "num_input_tokens_seen": 73974472,
      "step": 127460
    },
    {
      "epoch": 18.984956806672624,
      "grad_norm": 1.402950056217378e-05,
      "learning_rate": 3.914035332553162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73977288,
      "step": 127465
    },
    {
      "epoch": 18.985701519213585,
      "grad_norm": 3.502576646496891e-06,
      "learning_rate": 3.9083100196854183e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73980040,
      "step": 127470
    },
    {
      "epoch": 18.98644623175454,
      "grad_norm": 0.00010139322694158182,
      "learning_rate": 3.9025888642866827e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73982760,
      "step": 127475
    },
    {
      "epoch": 18.987190944295502,
      "grad_norm": 1.4562937394657638e-05,
      "learning_rate": 3.896871866453572e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73985512,
      "step": 127480
    },
    {
      "epoch": 18.987935656836463,
      "grad_norm": 2.1251720681902952e-05,
      "learning_rate": 3.891159026282704e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73988424,
      "step": 127485
    },
    {
      "epoch": 18.98868036937742,
      "grad_norm": 3.647380481197615e-06,
      "learning_rate": 3.885450343870556e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73991048,
      "step": 127490
    },
    {
      "epoch": 18.98942508191838,
      "grad_norm": 2.499974289094098e-05,
      "learning_rate": 3.8797458193135793e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73993960,
      "step": 127495
    },
    {
      "epoch": 18.990169794459337,
      "grad_norm": 5.724129096051911e-06,
      "learning_rate": 3.8740454527081693e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 73997064,
      "step": 127500
    },
    {
      "epoch": 18.990914507000298,
      "grad_norm": 2.443819903419353e-05,
      "learning_rate": 3.8683492441506097e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74000040,
      "step": 127505
    },
    {
      "epoch": 18.99165921954126,
      "grad_norm": 3.879716132360045e-06,
      "learning_rate": 3.862657193737129e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74002984,
      "step": 127510
    },
    {
      "epoch": 18.992403932082215,
      "grad_norm": 2.3371203496935777e-06,
      "learning_rate": 3.856969301563873e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74005736,
      "step": 127515
    },
    {
      "epoch": 18.993148644623176,
      "grad_norm": 1.3221912013250403e-05,
      "learning_rate": 3.8512855677269586e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74008392,
      "step": 127520
    },
    {
      "epoch": 18.993893357164133,
      "grad_norm": 1.2187098036520183e-05,
      "learning_rate": 3.845605992322393e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74011304,
      "step": 127525
    },
    {
      "epoch": 18.994638069705093,
      "grad_norm": 1.747320311551448e-06,
      "learning_rate": 3.8399305754461546e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74013864,
      "step": 127530
    },
    {
      "epoch": 18.995382782246054,
      "grad_norm": 8.05206764198374e-06,
      "learning_rate": 3.834259317194083e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74016840,
      "step": 127535
    },
    {
      "epoch": 18.99612749478701,
      "grad_norm": 0.00025101748178713024,
      "learning_rate": 3.828592217662047e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74019720,
      "step": 127540
    },
    {
      "epoch": 18.99687220732797,
      "grad_norm": 9.133629646385089e-06,
      "learning_rate": 3.8229292769457193e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74022664,
      "step": 127545
    },
    {
      "epoch": 18.997616919868932,
      "grad_norm": 2.207560783062945e-06,
      "learning_rate": 3.8172704951408013e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74025288,
      "step": 127550
    },
    {
      "epoch": 18.99836163240989,
      "grad_norm": 1.0076171747641638e-05,
      "learning_rate": 3.811615872342883e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74028296,
      "step": 127555
    },
    {
      "epoch": 18.99910634495085,
      "grad_norm": 0.0007684219162911177,
      "learning_rate": 3.805965408647527e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74031880,
      "step": 127560
    },
    {
      "epoch": 18.999851057491806,
      "grad_norm": 6.89773196427268e-06,
      "learning_rate": 3.8003191041501575e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74034984,
      "step": 127565
    },
    {
      "epoch": 19.0,
      "eval_loss": 3.370239019393921,
      "eval_runtime": 49.1347,
      "eval_samples_per_second": 60.731,
      "eval_steps_per_second": 15.183,
      "num_input_tokens_seen": 74035080,
      "step": 127566
    },
    {
      "epoch": 19.000595770032767,
      "grad_norm": 2.2064370568841696e-05,
      "learning_rate": 3.794676958946142e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74037288,
      "step": 127570
    },
    {
      "epoch": 19.001340482573728,
      "grad_norm": 6.440082415792858e-06,
      "learning_rate": 3.7890389731308486e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74040392,
      "step": 127575
    },
    {
      "epoch": 19.002085195114685,
      "grad_norm": 7.034946065687109e-06,
      "learning_rate": 3.783405146799479e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74043080,
      "step": 127580
    },
    {
      "epoch": 19.002829907655645,
      "grad_norm": 2.3708153094048612e-05,
      "learning_rate": 3.777775480047263e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74045768,
      "step": 127585
    },
    {
      "epoch": 19.003574620196606,
      "grad_norm": 7.746147275611293e-06,
      "learning_rate": 3.772149972969291e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74048392,
      "step": 127590
    },
    {
      "epoch": 19.004319332737563,
      "grad_norm": 2.673111566764419e-06,
      "learning_rate": 3.76652862566057e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74051336,
      "step": 127595
    },
    {
      "epoch": 19.005064045278523,
      "grad_norm": 0.00011830969742732123,
      "learning_rate": 3.7609114382160803e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74054312,
      "step": 127600
    },
    {
      "epoch": 19.00580875781948,
      "grad_norm": 4.454411737242481e-06,
      "learning_rate": 3.7552984107307177e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74057544,
      "step": 127605
    },
    {
      "epoch": 19.00655347036044,
      "grad_norm": 0.005784385837614536,
      "learning_rate": 3.7496895432993505e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74060680,
      "step": 127610
    },
    {
      "epoch": 19.0072981829014,
      "grad_norm": 0.00010685224697226658,
      "learning_rate": 3.7440848360166813e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74063560,
      "step": 127615
    },
    {
      "epoch": 19.008042895442358,
      "grad_norm": 1.2322147995291743e-05,
      "learning_rate": 3.738484288977412e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74066664,
      "step": 127620
    },
    {
      "epoch": 19.00878760798332,
      "grad_norm": 5.146588136994978e-06,
      "learning_rate": 3.7328879022761886e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74069448,
      "step": 127625
    },
    {
      "epoch": 19.00953232052428,
      "grad_norm": 6.216762267285958e-05,
      "learning_rate": 3.7272956760075197e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74072072,
      "step": 127630
    },
    {
      "epoch": 19.010277033065236,
      "grad_norm": 2.2345784600474872e-05,
      "learning_rate": 3.7217076102658845e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74074984,
      "step": 127635
    },
    {
      "epoch": 19.011021745606197,
      "grad_norm": 1.066987715603318e-05,
      "learning_rate": 3.7161237051456796e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74077576,
      "step": 127640
    },
    {
      "epoch": 19.011766458147154,
      "grad_norm": 3.535123369147186e-06,
      "learning_rate": 3.710543960741275e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74080424,
      "step": 127645
    },
    {
      "epoch": 19.012511170688114,
      "grad_norm": 9.417259207111783e-06,
      "learning_rate": 3.7049683771468723e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74083240,
      "step": 127650
    },
    {
      "epoch": 19.013255883229075,
      "grad_norm": 3.1778454285813496e-05,
      "learning_rate": 3.6993969544567575e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74085928,
      "step": 127655
    },
    {
      "epoch": 19.01400059577003,
      "grad_norm": 2.533651695557637e-06,
      "learning_rate": 3.693829692764966e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74088648,
      "step": 127660
    },
    {
      "epoch": 19.014745308310992,
      "grad_norm": 0.0002183664037147537,
      "learning_rate": 3.68826659216559e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74091560,
      "step": 127665
    },
    {
      "epoch": 19.015490020851953,
      "grad_norm": 0.00011218168947380036,
      "learning_rate": 3.682707652752637e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74094376,
      "step": 127670
    },
    {
      "epoch": 19.01623473339291,
      "grad_norm": 0.00021132371330168098,
      "learning_rate": 3.677152874619949e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74097288,
      "step": 127675
    },
    {
      "epoch": 19.01697944593387,
      "grad_norm": 1.1757651009247638e-05,
      "learning_rate": 3.671602257861451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74100136,
      "step": 127680
    },
    {
      "epoch": 19.017724158474827,
      "grad_norm": 1.7185286196763627e-05,
      "learning_rate": 3.666055802570845e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74102984,
      "step": 127685
    },
    {
      "epoch": 19.018468871015788,
      "grad_norm": 1.3720118658966385e-05,
      "learning_rate": 3.6605135088418895e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74105992,
      "step": 127690
    },
    {
      "epoch": 19.01921358355675,
      "grad_norm": 2.542814581829589e-05,
      "learning_rate": 3.654975376768205e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74109224,
      "step": 127695
    },
    {
      "epoch": 19.019958296097705,
      "grad_norm": 3.5361924801691202e-06,
      "learning_rate": 3.649441406443327e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74112200,
      "step": 127700
    },
    {
      "epoch": 19.020703008638666,
      "grad_norm": 6.900434527778998e-06,
      "learning_rate": 3.643911597960736e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74115016,
      "step": 127705
    },
    {
      "epoch": 19.021447721179623,
      "grad_norm": 3.2227992505795555e-06,
      "learning_rate": 3.6383859514138864e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74117864,
      "step": 127710
    },
    {
      "epoch": 19.022192433720583,
      "grad_norm": 4.2383535401313566e-06,
      "learning_rate": 3.6328644668961187e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74120552,
      "step": 127715
    },
    {
      "epoch": 19.022937146261544,
      "grad_norm": 6.835727617726661e-06,
      "learning_rate": 3.6273471445006923e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74123400,
      "step": 127720
    },
    {
      "epoch": 19.0236818588025,
      "grad_norm": 1.5052182789077051e-05,
      "learning_rate": 3.621833984320838e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74126376,
      "step": 127725
    },
    {
      "epoch": 19.02442657134346,
      "grad_norm": 6.58518256386742e-05,
      "learning_rate": 3.616324986449676e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74129352,
      "step": 127730
    },
    {
      "epoch": 19.025171283884422,
      "grad_norm": 1.0046827810583636e-05,
      "learning_rate": 3.6108201509803263e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74132232,
      "step": 127735
    },
    {
      "epoch": 19.02591599642538,
      "grad_norm": 6.230997769307578e-06,
      "learning_rate": 3.605319478005714e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74134856,
      "step": 127740
    },
    {
      "epoch": 19.02666070896634,
      "grad_norm": 3.2251775792246917e-06,
      "learning_rate": 3.599822967618849e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74138216,
      "step": 127745
    },
    {
      "epoch": 19.027405421507297,
      "grad_norm": 0.0003408570191822946,
      "learning_rate": 3.594330619912517e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74141000,
      "step": 127750
    },
    {
      "epoch": 19.028150134048257,
      "grad_norm": 4.504902335611405e-06,
      "learning_rate": 3.5888424349795615e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74144232,
      "step": 127755
    },
    {
      "epoch": 19.028894846589218,
      "grad_norm": 0.00010042480425909162,
      "learning_rate": 3.5833584129126574e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74146856,
      "step": 127760
    },
    {
      "epoch": 19.029639559130175,
      "grad_norm": 2.8246392957953503e-06,
      "learning_rate": 3.5778785538044255e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74149992,
      "step": 127765
    },
    {
      "epoch": 19.030384271671135,
      "grad_norm": 6.999297966103768e-06,
      "learning_rate": 3.572402857747542e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74152872,
      "step": 127770
    },
    {
      "epoch": 19.031128984212096,
      "grad_norm": 8.732911737752147e-06,
      "learning_rate": 3.566931324834405e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74155720,
      "step": 127775
    },
    {
      "epoch": 19.031873696753053,
      "grad_norm": 6.531339749926701e-06,
      "learning_rate": 3.5614639551575235e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74159016,
      "step": 127780
    },
    {
      "epoch": 19.032618409294013,
      "grad_norm": 6.572249276359798e-06,
      "learning_rate": 3.5560007488092404e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74161896,
      "step": 127785
    },
    {
      "epoch": 19.03336312183497,
      "grad_norm": 2.579816646175459e-05,
      "learning_rate": 3.5505417058818437e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74164520,
      "step": 127790
    },
    {
      "epoch": 19.03410783437593,
      "grad_norm": 1.3844021850673016e-05,
      "learning_rate": 3.545086826467592e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74167560,
      "step": 127795
    },
    {
      "epoch": 19.03485254691689,
      "grad_norm": 4.040135536342859e-06,
      "learning_rate": 3.5396361106585787e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74170248,
      "step": 127800
    },
    {
      "epoch": 19.035597259457848,
      "grad_norm": 2.0482431864365935e-05,
      "learning_rate": 3.534189558546924e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74173320,
      "step": 127805
    },
    {
      "epoch": 19.03634197199881,
      "grad_norm": 1.3700659110327251e-05,
      "learning_rate": 3.5287471702246386e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74176392,
      "step": 127810
    },
    {
      "epoch": 19.03708668453977,
      "grad_norm": 0.0010778155410662293,
      "learning_rate": 3.5233089457837045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74179496,
      "step": 127815
    },
    {
      "epoch": 19.037831397080726,
      "grad_norm": 1.0405921784695238e-05,
      "learning_rate": 3.517874885315936e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74182152,
      "step": 127820
    },
    {
      "epoch": 19.038576109621687,
      "grad_norm": 3.421679502935149e-05,
      "learning_rate": 3.5124449889131495e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74184872,
      "step": 127825
    },
    {
      "epoch": 19.039320822162644,
      "grad_norm": 0.0006559028988704085,
      "learning_rate": 3.5070192566671046e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74188008,
      "step": 127830
    },
    {
      "epoch": 19.040065534703604,
      "grad_norm": 0.00013845755893271416,
      "learning_rate": 3.5015976886694226e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74190760,
      "step": 127835
    },
    {
      "epoch": 19.040810247244565,
      "grad_norm": 0.0015969631494954228,
      "learning_rate": 3.496180285011724e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74193544,
      "step": 127840
    },
    {
      "epoch": 19.041554959785522,
      "grad_norm": 0.0003028466599062085,
      "learning_rate": 3.49076704578552e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74196328,
      "step": 127845
    },
    {
      "epoch": 19.042299672326482,
      "grad_norm": 3.2571028896200005e-06,
      "learning_rate": 3.4853579710822923e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74199048,
      "step": 127850
    },
    {
      "epoch": 19.043044384867443,
      "grad_norm": 1.5699366485932842e-05,
      "learning_rate": 3.4799530609933575e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74202280,
      "step": 127855
    },
    {
      "epoch": 19.0437890974084,
      "grad_norm": 4.885802809440065e-06,
      "learning_rate": 3.474552315610086e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74205032,
      "step": 127860
    },
    {
      "epoch": 19.04453380994936,
      "grad_norm": 0.002948041306808591,
      "learning_rate": 3.4691557350236827e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74207976,
      "step": 127865
    },
    {
      "epoch": 19.045278522490317,
      "grad_norm": 3.562533311196603e-05,
      "learning_rate": 3.4637633193253525e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74210888,
      "step": 127870
    },
    {
      "epoch": 19.046023235031278,
      "grad_norm": 3.940724127460271e-05,
      "learning_rate": 3.458375068606162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74213544,
      "step": 127875
    },
    {
      "epoch": 19.04676794757224,
      "grad_norm": 3.0200901164789684e-05,
      "learning_rate": 3.4529909829571494e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74216648,
      "step": 127880
    },
    {
      "epoch": 19.047512660113195,
      "grad_norm": 7.933533925097436e-05,
      "learning_rate": 3.447611062469269e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 74219432,
      "step": 127885
    },
    {
      "epoch": 19.048257372654156,
      "grad_norm": 6.58552598906681e-05,
      "learning_rate": 3.442235307233449e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74222216,
      "step": 127890
    },
    {
      "epoch": 19.049002085195113,
      "grad_norm": 4.29247575084446e-06,
      "learning_rate": 3.4368637173404494e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74225128,
      "step": 127895
    },
    {
      "epoch": 19.049746797736073,
      "grad_norm": 3.4351714930380695e-06,
      "learning_rate": 3.4314962928810315e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74227880,
      "step": 127900
    },
    {
      "epoch": 19.050491510277034,
      "grad_norm": 2.6566626729618292e-06,
      "learning_rate": 3.426133033945872e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74230824,
      "step": 127905
    },
    {
      "epoch": 19.05123622281799,
      "grad_norm": 3.925627424905542e-06,
      "learning_rate": 3.420773940625621e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74233576,
      "step": 127910
    },
    {
      "epoch": 19.05198093535895,
      "grad_norm": 2.082056744256988e-05,
      "learning_rate": 3.415419013010762e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74236424,
      "step": 127915
    },
    {
      "epoch": 19.052725647899912,
      "grad_norm": 7.781289241393097e-06,
      "learning_rate": 3.410068251191806e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74239400,
      "step": 127920
    },
    {
      "epoch": 19.05347036044087,
      "grad_norm": 0.00013239189865998924,
      "learning_rate": 3.4047216552590687e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74242312,
      "step": 127925
    },
    {
      "epoch": 19.05421507298183,
      "grad_norm": 0.0003129382384940982,
      "learning_rate": 3.399379225302979e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74245416,
      "step": 127930
    },
    {
      "epoch": 19.054959785522787,
      "grad_norm": 2.8949887109774863e-06,
      "learning_rate": 3.3940409614137135e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74248008,
      "step": 127935
    },
    {
      "epoch": 19.055704498063747,
      "grad_norm": 0.0033708044793456793,
      "learning_rate": 3.3887068636815346e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74250760,
      "step": 127940
    },
    {
      "epoch": 19.056449210604708,
      "grad_norm": 2.4188990209950134e-05,
      "learning_rate": 3.3833769321964527e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74253832,
      "step": 127945
    },
    {
      "epoch": 19.057193923145665,
      "grad_norm": 6.7487389969755895e-06,
      "learning_rate": 3.378051167048618e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74256744,
      "step": 127950
    },
    {
      "epoch": 19.057938635686625,
      "grad_norm": 1.1609548892010935e-05,
      "learning_rate": 3.3727295683279314e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74259240,
      "step": 127955
    },
    {
      "epoch": 19.058683348227586,
      "grad_norm": 0.0002656836004462093,
      "learning_rate": 3.367412136124321e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74262024,
      "step": 127960
    },
    {
      "epoch": 19.059428060768543,
      "grad_norm": 0.00014381443907041103,
      "learning_rate": 3.3620988705276023e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74265128,
      "step": 127965
    },
    {
      "epoch": 19.060172773309503,
      "grad_norm": 1.6998670616885647e-05,
      "learning_rate": 3.3567897716275663e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74268328,
      "step": 127970
    },
    {
      "epoch": 19.06091748585046,
      "grad_norm": 0.003076699795201421,
      "learning_rate": 3.351484839513891e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74271112,
      "step": 127975
    },
    {
      "epoch": 19.06166219839142,
      "grad_norm": 2.2297255782177672e-05,
      "learning_rate": 3.3461840742761707e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74273832,
      "step": 127980
    },
    {
      "epoch": 19.06240691093238,
      "grad_norm": 5.2814204536844045e-05,
      "learning_rate": 3.340887476004001e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74276456,
      "step": 127985
    },
    {
      "epoch": 19.06315162347334,
      "grad_norm": 1.3818033039569855e-05,
      "learning_rate": 3.3355950447868657e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74279208,
      "step": 127990
    },
    {
      "epoch": 19.0638963360143,
      "grad_norm": 8.791098480287474e-06,
      "learning_rate": 3.3303067807141095e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74282056,
      "step": 127995
    },
    {
      "epoch": 19.06464104855526,
      "grad_norm": 4.4603879359783605e-05,
      "learning_rate": 3.325022683875162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74284712,
      "step": 128000
    },
    {
      "epoch": 19.065385761096216,
      "grad_norm": 9.194802260026336e-06,
      "learning_rate": 3.319742754359201e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74287944,
      "step": 128005
    },
    {
      "epoch": 19.066130473637177,
      "grad_norm": 3.6326564440969378e-06,
      "learning_rate": 3.314466992255516e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74290664,
      "step": 128010
    },
    {
      "epoch": 19.066875186178134,
      "grad_norm": 2.8499795007519424e-05,
      "learning_rate": 3.309195397653148e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74293576,
      "step": 128015
    },
    {
      "epoch": 19.067619898719094,
      "grad_norm": 0.00012733237235806882,
      "learning_rate": 3.3039279706412465e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74296456,
      "step": 128020
    },
    {
      "epoch": 19.068364611260055,
      "grad_norm": 2.9066814022371545e-05,
      "learning_rate": 3.2986647113087134e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74299304,
      "step": 128025
    },
    {
      "epoch": 19.069109323801012,
      "grad_norm": 1.2182718819531146e-05,
      "learning_rate": 3.293405619744533e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74302280,
      "step": 128030
    },
    {
      "epoch": 19.069854036341972,
      "grad_norm": 4.15231670558569e-06,
      "learning_rate": 3.288150696037523e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74305032,
      "step": 128035
    },
    {
      "epoch": 19.070598748882933,
      "grad_norm": 3.9819082303438336e-05,
      "learning_rate": 3.282899940276418e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74308168,
      "step": 128040
    },
    {
      "epoch": 19.07134346142389,
      "grad_norm": 3.7630157748935744e-05,
      "learning_rate": 3.2776533525500085e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74310952,
      "step": 128045
    },
    {
      "epoch": 19.07208817396485,
      "grad_norm": 1.0967141861328855e-05,
      "learning_rate": 3.272410932946862e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74313864,
      "step": 128050
    },
    {
      "epoch": 19.072832886505807,
      "grad_norm": 2.104638042510487e-05,
      "learning_rate": 3.267172681555575e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74316712,
      "step": 128055
    },
    {
      "epoch": 19.073577599046768,
      "grad_norm": 7.971749255375471e-06,
      "learning_rate": 3.261938598464631e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74319496,
      "step": 128060
    },
    {
      "epoch": 19.07432231158773,
      "grad_norm": 8.358570994460024e-06,
      "learning_rate": 3.256708683762488e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74322312,
      "step": 128065
    },
    {
      "epoch": 19.075067024128685,
      "grad_norm": 0.0003367162134964019,
      "learning_rate": 3.2514829375374643e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74325096,
      "step": 128070
    },
    {
      "epoch": 19.075811736669646,
      "grad_norm": 5.2673702157335356e-05,
      "learning_rate": 3.24626135987785e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74327976,
      "step": 128075
    },
    {
      "epoch": 19.076556449210603,
      "grad_norm": 7.234374061226845e-05,
      "learning_rate": 3.2410439508718527e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74330856,
      "step": 128080
    },
    {
      "epoch": 19.077301161751564,
      "grad_norm": 4.146556238993071e-05,
      "learning_rate": 3.2358307106076234e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74333864,
      "step": 128085
    },
    {
      "epoch": 19.078045874292524,
      "grad_norm": 0.0004459805495571345,
      "learning_rate": 3.2306216391732593e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74336904,
      "step": 128090
    },
    {
      "epoch": 19.07879058683348,
      "grad_norm": 1.2747324944939464e-05,
      "learning_rate": 3.225416736656689e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74339688,
      "step": 128095
    },
    {
      "epoch": 19.07953529937444,
      "grad_norm": 0.0029971443582326174,
      "learning_rate": 3.220216003145926e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74342664,
      "step": 128100
    },
    {
      "epoch": 19.080280011915402,
      "grad_norm": 8.652895485283807e-05,
      "learning_rate": 3.215019438728789e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74345352,
      "step": 128105
    },
    {
      "epoch": 19.08102472445636,
      "grad_norm": 8.765028724155854e-06,
      "learning_rate": 3.209827043493097e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74348136,
      "step": 128110
    },
    {
      "epoch": 19.08176943699732,
      "grad_norm": 1.4765575542696752e-05,
      "learning_rate": 3.204638817526528e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74351016,
      "step": 128115
    },
    {
      "epoch": 19.082514149538277,
      "grad_norm": 8.30447970656678e-06,
      "learning_rate": 3.1994547609167644e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74353896,
      "step": 128120
    },
    {
      "epoch": 19.083258862079237,
      "grad_norm": 3.894248220603913e-05,
      "learning_rate": 3.194274873751374e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74356936,
      "step": 128125
    },
    {
      "epoch": 19.084003574620198,
      "grad_norm": 7.97192296886351e-06,
      "learning_rate": 3.189099156117842e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74359784,
      "step": 128130
    },
    {
      "epoch": 19.084748287161155,
      "grad_norm": 3.293359259259887e-05,
      "learning_rate": 3.1839276081036816e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74363016,
      "step": 128135
    },
    {
      "epoch": 19.085492999702115,
      "grad_norm": 9.801544365473092e-06,
      "learning_rate": 3.1787602297961574e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74366184,
      "step": 128140
    },
    {
      "epoch": 19.086237712243076,
      "grad_norm": 5.892371063964674e-06,
      "learning_rate": 3.1735970212826705e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74369128,
      "step": 128145
    },
    {
      "epoch": 19.086982424784033,
      "grad_norm": 3.713159685503342e-06,
      "learning_rate": 3.168437982650374e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74372360,
      "step": 128150
    },
    {
      "epoch": 19.087727137324993,
      "grad_norm": 0.0004324923502281308,
      "learning_rate": 3.1632831139864763e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74375368,
      "step": 128155
    },
    {
      "epoch": 19.08847184986595,
      "grad_norm": 6.04949764237972e-06,
      "learning_rate": 3.158132415378018e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74378056,
      "step": 128160
    },
    {
      "epoch": 19.08921656240691,
      "grad_norm": 0.00011266131332376972,
      "learning_rate": 3.152985886912013e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74381032,
      "step": 128165
    },
    {
      "epoch": 19.08996127494787,
      "grad_norm": 2.7556559416552773e-06,
      "learning_rate": 3.1478435286754483e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74383624,
      "step": 128170
    },
    {
      "epoch": 19.09070598748883,
      "grad_norm": 9.755919018061832e-05,
      "learning_rate": 3.14270534075517e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74386600,
      "step": 128175
    },
    {
      "epoch": 19.09145070002979,
      "grad_norm": 1.203303054353455e-05,
      "learning_rate": 3.137571323237998e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74389640,
      "step": 128180
    },
    {
      "epoch": 19.09219541257075,
      "grad_norm": 6.960335213079816e-06,
      "learning_rate": 3.13244147621064e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74392520,
      "step": 128185
    },
    {
      "epoch": 19.092940125111706,
      "grad_norm": 1.0967183698085137e-05,
      "learning_rate": 3.1273157997598056e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74395464,
      "step": 128190
    },
    {
      "epoch": 19.093684837652667,
      "grad_norm": 7.887863830546848e-06,
      "learning_rate": 3.122194293972064e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74398024,
      "step": 128195
    },
    {
      "epoch": 19.094429550193624,
      "grad_norm": 4.913391876470996e-06,
      "learning_rate": 3.117076958933901e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74400936,
      "step": 128200
    },
    {
      "epoch": 19.095174262734584,
      "grad_norm": 3.49980327882804e-05,
      "learning_rate": 3.111963794731831e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74403656,
      "step": 128205
    },
    {
      "epoch": 19.095918975275545,
      "grad_norm": 5.7471092986816075e-06,
      "learning_rate": 3.106854801452175e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74406760,
      "step": 128210
    },
    {
      "epoch": 19.096663687816502,
      "grad_norm": 3.1292222502088407e-06,
      "learning_rate": 3.1017499791813067e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74409576,
      "step": 128215
    },
    {
      "epoch": 19.097408400357462,
      "grad_norm": 5.555185907724081e-06,
      "learning_rate": 3.096649328005435e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 74412424,
      "step": 128220
    },
    {
      "epoch": 19.098153112898423,
      "grad_norm": 8.978197001852095e-05,
      "learning_rate": 3.091552848010715e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74415208,
      "step": 128225
    },
    {
      "epoch": 19.09889782543938,
      "grad_norm": 0.00012878108827862889,
      "learning_rate": 3.08646053928327e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74417992,
      "step": 128230
    },
    {
      "epoch": 19.09964253798034,
      "grad_norm": 8.126745223999023,
      "learning_rate": 3.081372401909116e-07,
      "loss": 0.0265,
      "num_input_tokens_seen": 74420744,
      "step": 128235
    },
    {
      "epoch": 19.100387250521297,
      "grad_norm": 3.371580078237457e-06,
      "learning_rate": 3.076288435974239e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74423560,
      "step": 128240
    },
    {
      "epoch": 19.101131963062258,
      "grad_norm": 0.0005620980518870056,
      "learning_rate": 3.071208641564488e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74426344,
      "step": 128245
    },
    {
      "epoch": 19.10187667560322,
      "grad_norm": 8.699807949597016e-06,
      "learning_rate": 3.06613301876571e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74429160,
      "step": 128250
    },
    {
      "epoch": 19.102621388144176,
      "grad_norm": 9.919922013068572e-05,
      "learning_rate": 3.0610615676636144e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74432232,
      "step": 128255
    },
    {
      "epoch": 19.103366100685136,
      "grad_norm": 3.7256331779644825e-06,
      "learning_rate": 3.0559942883439387e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74434856,
      "step": 128260
    },
    {
      "epoch": 19.104110813226093,
      "grad_norm": 4.0815237298374996e-05,
      "learning_rate": 3.0509311808922526e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74437704,
      "step": 128265
    },
    {
      "epoch": 19.104855525767054,
      "grad_norm": 0.00016103235248010606,
      "learning_rate": 3.045872245394099e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74440136,
      "step": 128270
    },
    {
      "epoch": 19.105600238308014,
      "grad_norm": 1.9856715880450793e-05,
      "learning_rate": 3.0408174819349377e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74442984,
      "step": 128275
    },
    {
      "epoch": 19.10634495084897,
      "grad_norm": 1.279477419302566e-05,
      "learning_rate": 3.035766890600145e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74445864,
      "step": 128280
    },
    {
      "epoch": 19.10708966338993,
      "grad_norm": 1.2536698704934679e-05,
      "learning_rate": 3.030720471475096e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74448936,
      "step": 128285
    },
    {
      "epoch": 19.107834375930892,
      "grad_norm": 9.135506843449548e-06,
      "learning_rate": 3.025678224645001e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74451720,
      "step": 128290
    },
    {
      "epoch": 19.10857908847185,
      "grad_norm": 6.176256283652037e-05,
      "learning_rate": 3.02064015019507e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74454696,
      "step": 128295
    },
    {
      "epoch": 19.10932380101281,
      "grad_norm": 4.154680573265068e-05,
      "learning_rate": 3.015606248210401e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74457672,
      "step": 128300
    },
    {
      "epoch": 19.110068513553767,
      "grad_norm": 1.6739990314817987e-05,
      "learning_rate": 3.010576518776037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74460168,
      "step": 128305
    },
    {
      "epoch": 19.110813226094727,
      "grad_norm": 0.00030532825621776283,
      "learning_rate": 3.005550961976938e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74463368,
      "step": 128310
    },
    {
      "epoch": 19.111557938635688,
      "grad_norm": 1.7916491970026982e-06,
      "learning_rate": 3.0005295778980647e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74466344,
      "step": 128315
    },
    {
      "epoch": 19.112302651176645,
      "grad_norm": 0.00036597426515072584,
      "learning_rate": 2.9955123666241814e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74469512,
      "step": 128320
    },
    {
      "epoch": 19.113047363717605,
      "grad_norm": 3.628429567470448e-06,
      "learning_rate": 2.990499328240054e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74472488,
      "step": 128325
    },
    {
      "epoch": 19.113792076258566,
      "grad_norm": 1.550236629555002e-05,
      "learning_rate": 2.9854904628304206e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74475496,
      "step": 128330
    },
    {
      "epoch": 19.114536788799523,
      "grad_norm": 7.544224445155123e-06,
      "learning_rate": 2.980485770479824e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74478344,
      "step": 128335
    },
    {
      "epoch": 19.115281501340483,
      "grad_norm": 2.6395905479148496e-06,
      "learning_rate": 2.975485251272919e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74481224,
      "step": 128340
    },
    {
      "epoch": 19.11602621388144,
      "grad_norm": 0.00030858974787406623,
      "learning_rate": 2.970488905294083e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74484072,
      "step": 128345
    },
    {
      "epoch": 19.1167709264224,
      "grad_norm": 1.7986856164498022e-06,
      "learning_rate": 2.965496732627804e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74486696,
      "step": 128350
    },
    {
      "epoch": 19.11751563896336,
      "grad_norm": 0.013924721628427505,
      "learning_rate": 2.960508733358375e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74489640,
      "step": 128355
    },
    {
      "epoch": 19.11826035150432,
      "grad_norm": 2.9452824037434766e-06,
      "learning_rate": 2.955524907570062e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74492808,
      "step": 128360
    },
    {
      "epoch": 19.11900506404528,
      "grad_norm": 5.369277459976729e-06,
      "learning_rate": 2.950545255347076e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74495688,
      "step": 128365
    },
    {
      "epoch": 19.11974977658624,
      "grad_norm": 6.850513727840735e-06,
      "learning_rate": 2.9455697767735155e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74498696,
      "step": 128370
    },
    {
      "epoch": 19.120494489127196,
      "grad_norm": 1.0881183698074892e-05,
      "learning_rate": 2.9405984719334814e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74501416,
      "step": 128375
    },
    {
      "epoch": 19.121239201668157,
      "grad_norm": 7.6107116910861805e-06,
      "learning_rate": 2.935631340910933e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74504168,
      "step": 128380
    },
    {
      "epoch": 19.121983914209114,
      "grad_norm": 0.0001485411630710587,
      "learning_rate": 2.930668383789775e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74507176,
      "step": 128385
    },
    {
      "epoch": 19.122728626750074,
      "grad_norm": 0.00021900809952057898,
      "learning_rate": 2.925709600653859e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74510120,
      "step": 128390
    },
    {
      "epoch": 19.123473339291035,
      "grad_norm": 0.00023696391144767404,
      "learning_rate": 2.9207549915870045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74512936,
      "step": 128395
    },
    {
      "epoch": 19.124218051831992,
      "grad_norm": 7.617420124006458e-06,
      "learning_rate": 2.915804556672841e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74516200,
      "step": 128400
    },
    {
      "epoch": 19.124962764372953,
      "grad_norm": 7.686954631935805e-06,
      "learning_rate": 2.9108582959950504e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74518856,
      "step": 128405
    },
    {
      "epoch": 19.12570747691391,
      "grad_norm": 0.00023043756664264947,
      "learning_rate": 2.9059162096371773e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74521768,
      "step": 128410
    },
    {
      "epoch": 19.12645218945487,
      "grad_norm": 1.2985243301955052e-05,
      "learning_rate": 2.9009782976827106e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74524520,
      "step": 128415
    },
    {
      "epoch": 19.12719690199583,
      "grad_norm": 4.5188582589617e-05,
      "learning_rate": 2.896044560215083e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74527144,
      "step": 128420
    },
    {
      "epoch": 19.127941614536788,
      "grad_norm": 4.9741465772967786e-06,
      "learning_rate": 2.891114997317618e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74530248,
      "step": 128425
    },
    {
      "epoch": 19.128686327077748,
      "grad_norm": 2.6307536245440133e-05,
      "learning_rate": 2.8861896090736365e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74533224,
      "step": 128430
    },
    {
      "epoch": 19.12943103961871,
      "grad_norm": 2.803574170684442e-05,
      "learning_rate": 2.881268395566322e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74536008,
      "step": 128435
    },
    {
      "epoch": 19.130175752159666,
      "grad_norm": 0.00017729547107592225,
      "learning_rate": 2.8763513568788036e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74538952,
      "step": 128440
    },
    {
      "epoch": 19.130920464700626,
      "grad_norm": 3.3508031265228055e-06,
      "learning_rate": 2.871438493094153e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74541704,
      "step": 128445
    },
    {
      "epoch": 19.131665177241583,
      "grad_norm": 2.6562467610347085e-05,
      "learning_rate": 2.866529804295387e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74544552,
      "step": 128450
    },
    {
      "epoch": 19.132409889782544,
      "grad_norm": 5.030333704780787e-05,
      "learning_rate": 2.8616252905654393e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74547496,
      "step": 128455
    },
    {
      "epoch": 19.133154602323504,
      "grad_norm": 2.3663596948608756e-05,
      "learning_rate": 2.856724951987161e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74550280,
      "step": 128460
    },
    {
      "epoch": 19.13389931486446,
      "grad_norm": 1.2363249879854266e-05,
      "learning_rate": 2.851828788643318e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74553288,
      "step": 128465
    },
    {
      "epoch": 19.13464402740542,
      "grad_norm": 6.647352711297572e-05,
      "learning_rate": 2.846936800616623e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74556392,
      "step": 128470
    },
    {
      "epoch": 19.135388739946382,
      "grad_norm": 3.96096629629028e-06,
      "learning_rate": 2.8420489879897595e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74559336,
      "step": 128475
    },
    {
      "epoch": 19.13613345248734,
      "grad_norm": 0.0001882390060927719,
      "learning_rate": 2.8371653508452725e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74562312,
      "step": 128480
    },
    {
      "epoch": 19.1368781650283,
      "grad_norm": 0.01639452762901783,
      "learning_rate": 2.832285889265651e-07,
      "loss": 0.0404,
      "num_input_tokens_seen": 74565160,
      "step": 128485
    },
    {
      "epoch": 19.137622877569257,
      "grad_norm": 1.8545175407780334e-05,
      "learning_rate": 2.827410603333386e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74567912,
      "step": 128490
    },
    {
      "epoch": 19.138367590110217,
      "grad_norm": 1.7774619891497423e-06,
      "learning_rate": 2.8225394931307715e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74570920,
      "step": 128495
    },
    {
      "epoch": 19.139112302651178,
      "grad_norm": 2.6839672955247806e-06,
      "learning_rate": 2.817672558740131e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74573576,
      "step": 128500
    },
    {
      "epoch": 19.139857015192135,
      "grad_norm": 4.242390787112527e-06,
      "learning_rate": 2.812809800243704e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74576552,
      "step": 128505
    },
    {
      "epoch": 19.140601727733095,
      "grad_norm": 6.442199264711235e-06,
      "learning_rate": 2.80795121772362e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74579784,
      "step": 128510
    },
    {
      "epoch": 19.141346440274056,
      "grad_norm": 0.00011313841241644695,
      "learning_rate": 2.803096811261979e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74582504,
      "step": 128515
    },
    {
      "epoch": 19.142091152815013,
      "grad_norm": 2.0437610146473162e-05,
      "learning_rate": 2.7982465809407443e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74585512,
      "step": 128520
    },
    {
      "epoch": 19.142835865355973,
      "grad_norm": 2.9070239179418422e-05,
      "learning_rate": 2.793400526841933e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74588200,
      "step": 128525
    },
    {
      "epoch": 19.14358057789693,
      "grad_norm": 8.316029561683536e-05,
      "learning_rate": 2.7885586490473127e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74591048,
      "step": 128530
    },
    {
      "epoch": 19.14432529043789,
      "grad_norm": 5.32763351657195e-06,
      "learning_rate": 2.7837209476387903e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74593992,
      "step": 128535
    },
    {
      "epoch": 19.14507000297885,
      "grad_norm": 2.469446826580679e-06,
      "learning_rate": 2.7788874226980233e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74596744,
      "step": 128540
    },
    {
      "epoch": 19.14581471551981,
      "grad_norm": 3.196775423930376e-06,
      "learning_rate": 2.774058074306696e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74599336,
      "step": 128545
    },
    {
      "epoch": 19.14655942806077,
      "grad_norm": 2.8032015961798606e-06,
      "learning_rate": 2.7692329025463816e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74602088,
      "step": 128550
    },
    {
      "epoch": 19.14730414060173,
      "grad_norm": 4.195342171442462e-06,
      "learning_rate": 2.7644119074986263e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74605096,
      "step": 128555
    },
    {
      "epoch": 19.148048853142686,
      "grad_norm": 3.8667644730594475e-06,
      "learning_rate": 2.7595950892448374e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74608104,
      "step": 128560
    },
    {
      "epoch": 19.148793565683647,
      "grad_norm": 1.855491427704692e-05,
      "learning_rate": 2.754782447866394e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74611304,
      "step": 128565
    },
    {
      "epoch": 19.149538278224604,
      "grad_norm": 0.00021016098617110401,
      "learning_rate": 2.7499739834446204e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74614088,
      "step": 128570
    },
    {
      "epoch": 19.150282990765565,
      "grad_norm": 2.9091894248267636e-05,
      "learning_rate": 2.745169696060729e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74616936,
      "step": 128575
    },
    {
      "epoch": 19.151027703306525,
      "grad_norm": 1.1846462257381063e-05,
      "learning_rate": 2.7403695857959046e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74619752,
      "step": 128580
    },
    {
      "epoch": 19.151772415847482,
      "grad_norm": 6.300704626482911e-06,
      "learning_rate": 2.735573652731249e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74622632,
      "step": 128585
    },
    {
      "epoch": 19.152517128388443,
      "grad_norm": 0.0001192740019178018,
      "learning_rate": 2.730781896947754e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74625736,
      "step": 128590
    },
    {
      "epoch": 19.1532618409294,
      "grad_norm": 4.759035618917551e-06,
      "learning_rate": 2.7259943185263813e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74628744,
      "step": 128595
    },
    {
      "epoch": 19.15400655347036,
      "grad_norm": 0.00021694417227990925,
      "learning_rate": 2.7212109175480114e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74631368,
      "step": 128600
    },
    {
      "epoch": 19.15475126601132,
      "grad_norm": 0.000809481309261173,
      "learning_rate": 2.7164316940934966e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74634024,
      "step": 128605
    },
    {
      "epoch": 19.155495978552278,
      "grad_norm": 3.484220724203624e-05,
      "learning_rate": 2.7116566482434936e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74636904,
      "step": 128610
    },
    {
      "epoch": 19.156240691093238,
      "grad_norm": 5.034521564084571e-06,
      "learning_rate": 2.706885780078744e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74639944,
      "step": 128615
    },
    {
      "epoch": 19.1569854036342,
      "grad_norm": 4.8800861804920714e-06,
      "learning_rate": 2.7021190896798223e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74642760,
      "step": 128620
    },
    {
      "epoch": 19.157730116175156,
      "grad_norm": 2.6059526589961024e-06,
      "learning_rate": 2.6973565771272746e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74645704,
      "step": 128625
    },
    {
      "epoch": 19.158474828716116,
      "grad_norm": 2.0299690731917508e-05,
      "learning_rate": 2.6925982425015097e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74648776,
      "step": 128630
    },
    {
      "epoch": 19.159219541257073,
      "grad_norm": 3.04330878861947e-05,
      "learning_rate": 2.6878440858829626e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74651720,
      "step": 128635
    },
    {
      "epoch": 19.159964253798034,
      "grad_norm": 3.7339123082347214e-05,
      "learning_rate": 2.68309410735193e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74654376,
      "step": 128640
    },
    {
      "epoch": 19.160708966338994,
      "grad_norm": 2.7545747798285447e-06,
      "learning_rate": 2.678348306988626e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74657448,
      "step": 128645
    },
    {
      "epoch": 19.16145367887995,
      "grad_norm": 2.5910355816449737e-06,
      "learning_rate": 2.67360668487332e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74660616,
      "step": 128650
    },
    {
      "epoch": 19.16219839142091,
      "grad_norm": 1.9623798834800255e-06,
      "learning_rate": 2.6688692410860025e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74663496,
      "step": 128655
    },
    {
      "epoch": 19.162943103961872,
      "grad_norm": 0.002941895043477416,
      "learning_rate": 2.664135975706805e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74666376,
      "step": 128660
    },
    {
      "epoch": 19.16368781650283,
      "grad_norm": 4.9456407396064606e-06,
      "learning_rate": 2.659406888815608e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74669224,
      "step": 128665
    },
    {
      "epoch": 19.16443252904379,
      "grad_norm": 0.0011266435030847788,
      "learning_rate": 2.6546819804923737e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74672264,
      "step": 128670
    },
    {
      "epoch": 19.165177241584747,
      "grad_norm": 4.157575858698692e-06,
      "learning_rate": 2.6499612508169016e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74675464,
      "step": 128675
    },
    {
      "epoch": 19.165921954125707,
      "grad_norm": 4.789754711964633e-06,
      "learning_rate": 2.645244699868932e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74678376,
      "step": 128680
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 5.406861873780144e-06,
      "learning_rate": 2.6405323277281514e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74681096,
      "step": 128685
    },
    {
      "epoch": 19.167411379207625,
      "grad_norm": 3.065353666897863e-05,
      "learning_rate": 2.6358241344741906e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 74684200,
      "step": 128690
    },
    {
      "epoch": 19.168156091748585,
      "grad_norm": 1.1880637430294883e-05,
      "learning_rate": 2.6311201201865423e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74687048,
      "step": 128695
    },
    {
      "epoch": 19.168900804289546,
      "grad_norm": 1.2738802979583852e-05,
      "learning_rate": 2.626420284944725e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74689768,
      "step": 128700
    },
    {
      "epoch": 19.169645516830503,
      "grad_norm": 1.4845419173070695e-05,
      "learning_rate": 2.6217246288281205e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74692808,
      "step": 128705
    },
    {
      "epoch": 19.170390229371463,
      "grad_norm": 2.623344926178106e-06,
      "learning_rate": 2.6170331519160264e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74695688,
      "step": 128710
    },
    {
      "epoch": 19.17113494191242,
      "grad_norm": 3.4132872315240093e-06,
      "learning_rate": 2.61234585428774e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74698600,
      "step": 128715
    },
    {
      "epoch": 19.17187965445338,
      "grad_norm": 0.00016587451682426035,
      "learning_rate": 2.607662736022448e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74701384,
      "step": 128720
    },
    {
      "epoch": 19.17262436699434,
      "grad_norm": 0.0006353351636789739,
      "learning_rate": 2.6029837971992545e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74704296,
      "step": 128725
    },
    {
      "epoch": 19.1733690795353,
      "grad_norm": 2.0712914192699827e-05,
      "learning_rate": 2.5983090378972064e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74707528,
      "step": 128730
    },
    {
      "epoch": 19.17411379207626,
      "grad_norm": 0.00018290798470843583,
      "learning_rate": 2.5936384581952686e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74710184,
      "step": 128735
    },
    {
      "epoch": 19.17485850461722,
      "grad_norm": 0.00044771484681405127,
      "learning_rate": 2.5889720581723506e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74713128,
      "step": 128740
    },
    {
      "epoch": 19.175603217158177,
      "grad_norm": 2.3189747935248306e-06,
      "learning_rate": 2.584309837907306e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74716008,
      "step": 128745
    },
    {
      "epoch": 19.176347929699137,
      "grad_norm": 2.0009476429549977e-05,
      "learning_rate": 2.5796517974789045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74718888,
      "step": 128750
    },
    {
      "epoch": 19.177092642240094,
      "grad_norm": 1.4419976650970057e-05,
      "learning_rate": 2.5749979369657783e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74721640,
      "step": 128755
    },
    {
      "epoch": 19.177837354781055,
      "grad_norm": 1.7579886844032444e-05,
      "learning_rate": 2.570348256446614e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74724616,
      "step": 128760
    },
    {
      "epoch": 19.178582067322015,
      "grad_norm": 6.144980034150649e-06,
      "learning_rate": 2.5657027559999327e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 74727368,
      "step": 128765
    },
    {
      "epoch": 19.179326779862972,
      "grad_norm": 4.405625440995209e-05,
      "learning_rate": 2.561061435704226e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74730312,
      "step": 128770
    },
    {
      "epoch": 19.180071492403933,
      "grad_norm": 7.751995872240514e-05,
      "learning_rate": 2.556424295637905e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74733064,
      "step": 128775
    },
    {
      "epoch": 19.18081620494489,
      "grad_norm": 9.739511369843967e-06,
      "learning_rate": 2.5517913358792945e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74735688,
      "step": 128780
    },
    {
      "epoch": 19.18156091748585,
      "grad_norm": 7.513393029512372e-06,
      "learning_rate": 2.547162556506694e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74738408,
      "step": 128785
    },
    {
      "epoch": 19.18230563002681,
      "grad_norm": 1.246025840373477e-05,
      "learning_rate": 2.5425379575982343e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74741320,
      "step": 128790
    },
    {
      "epoch": 19.183050342567768,
      "grad_norm": 5.229284397501033e-06,
      "learning_rate": 2.537917539232132e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74744200,
      "step": 128795
    },
    {
      "epoch": 19.183795055108728,
      "grad_norm": 0.0001537398638902232,
      "learning_rate": 2.5333013014864073e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74747144,
      "step": 128800
    },
    {
      "epoch": 19.18453976764969,
      "grad_norm": 2.879265366573236e-06,
      "learning_rate": 2.528689244439025e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74749608,
      "step": 128805
    },
    {
      "epoch": 19.185284480190646,
      "grad_norm": 1.3695726920559537e-05,
      "learning_rate": 2.524081368167924e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74752424,
      "step": 128810
    },
    {
      "epoch": 19.186029192731606,
      "grad_norm": 2.206662429671269e-06,
      "learning_rate": 2.5194776727509584e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74755368,
      "step": 128815
    },
    {
      "epoch": 19.186773905272563,
      "grad_norm": 3.4334880183450878e-06,
      "learning_rate": 2.5148781582658986e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74758280,
      "step": 128820
    },
    {
      "epoch": 19.187518617813524,
      "grad_norm": 0.0002818878274410963,
      "learning_rate": 2.5102828247904055e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74761224,
      "step": 128825
    },
    {
      "epoch": 19.188263330354484,
      "grad_norm": 9.409724953002296e-06,
      "learning_rate": 2.5056916724021663e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74764584,
      "step": 128830
    },
    {
      "epoch": 19.18900804289544,
      "grad_norm": 0.0030815040227025747,
      "learning_rate": 2.5011047011787026e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74767528,
      "step": 128835
    },
    {
      "epoch": 19.189752755436402,
      "grad_norm": 9.119744390773121e-06,
      "learning_rate": 2.4965219111975635e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74770664,
      "step": 128840
    },
    {
      "epoch": 19.190497467977362,
      "grad_norm": 2.2399053705157712e-05,
      "learning_rate": 2.491943302536104e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74773512,
      "step": 128845
    },
    {
      "epoch": 19.19124218051832,
      "grad_norm": 0.00022449652897194028,
      "learning_rate": 2.487368875271706e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74776360,
      "step": 128850
    },
    {
      "epoch": 19.19198689305928,
      "grad_norm": 2.181553099944722e-05,
      "learning_rate": 2.4827986294816696e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74779368,
      "step": 128855
    },
    {
      "epoch": 19.192731605600237,
      "grad_norm": 0.0002702976344153285,
      "learning_rate": 2.478232565243183e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74781896,
      "step": 128860
    },
    {
      "epoch": 19.193476318141197,
      "grad_norm": 0.00010854037100216374,
      "learning_rate": 2.4736706826333775e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74784840,
      "step": 128865
    },
    {
      "epoch": 19.194221030682158,
      "grad_norm": 5.447021976578981e-05,
      "learning_rate": 2.4691129817293324e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74787912,
      "step": 128870
    },
    {
      "epoch": 19.194965743223115,
      "grad_norm": 3.2577800084254704e-06,
      "learning_rate": 2.4645594626080405e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74791112,
      "step": 128875
    },
    {
      "epoch": 19.195710455764075,
      "grad_norm": 1.2269602848391514e-05,
      "learning_rate": 2.460010125346468e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74793800,
      "step": 128880
    },
    {
      "epoch": 19.196455168305036,
      "grad_norm": 4.694070958066732e-05,
      "learning_rate": 2.455464970021415e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74796488,
      "step": 128885
    },
    {
      "epoch": 19.197199880845993,
      "grad_norm": 4.165327936789254e-06,
      "learning_rate": 2.450923996709681e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74799656,
      "step": 128890
    },
    {
      "epoch": 19.197944593386953,
      "grad_norm": 2.9763377824565396e-05,
      "learning_rate": 2.446387205487982e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74802248,
      "step": 128895
    },
    {
      "epoch": 19.19868930592791,
      "grad_norm": 4.622206688509323e-06,
      "learning_rate": 2.44185459643298e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74805032,
      "step": 128900
    },
    {
      "epoch": 19.19943401846887,
      "grad_norm": 3.478251164779067e-05,
      "learning_rate": 2.4373261696212237e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74808008,
      "step": 128905
    },
    {
      "epoch": 19.20017873100983,
      "grad_norm": 4.1693620005389675e-06,
      "learning_rate": 2.4328019251292355e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74810728,
      "step": 128910
    },
    {
      "epoch": 19.20092344355079,
      "grad_norm": 1.1004384759871755e-05,
      "learning_rate": 2.4282818630334547e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74813480,
      "step": 128915
    },
    {
      "epoch": 19.20166815609175,
      "grad_norm": 4.5474720536731184e-05,
      "learning_rate": 2.4237659834102364e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74816776,
      "step": 128920
    },
    {
      "epoch": 19.202412868632706,
      "grad_norm": 3.5060122627328383e-06,
      "learning_rate": 2.4192542863358534e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74819400,
      "step": 128925
    },
    {
      "epoch": 19.203157581173667,
      "grad_norm": 9.364241122966632e-06,
      "learning_rate": 2.4147467718865227e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74822632,
      "step": 128930
    },
    {
      "epoch": 19.203902293714627,
      "grad_norm": 2.47946081799455e-05,
      "learning_rate": 2.410243440138432e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74825512,
      "step": 128935
    },
    {
      "epoch": 19.204647006255584,
      "grad_norm": 1.518088629381964e-05,
      "learning_rate": 2.405744291167633e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74828456,
      "step": 128940
    },
    {
      "epoch": 19.205391718796545,
      "grad_norm": 0.00015731692838016897,
      "learning_rate": 2.4012493250501476e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74831336,
      "step": 128945
    },
    {
      "epoch": 19.206136431337505,
      "grad_norm": 6.520213355543092e-05,
      "learning_rate": 2.3967585418619153e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74834376,
      "step": 128950
    },
    {
      "epoch": 19.206881143878462,
      "grad_norm": 3.0894367228029296e-05,
      "learning_rate": 2.392271941678792e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74837512,
      "step": 128955
    },
    {
      "epoch": 19.207625856419423,
      "grad_norm": 2.6140951376874e-06,
      "learning_rate": 2.387789524576578e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74840136,
      "step": 128960
    },
    {
      "epoch": 19.20837056896038,
      "grad_norm": 4.079181508132024e-06,
      "learning_rate": 2.383311290630963e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74843048,
      "step": 128965
    },
    {
      "epoch": 19.20911528150134,
      "grad_norm": 2.483365278749261e-06,
      "learning_rate": 2.3788372399176638e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74845768,
      "step": 128970
    },
    {
      "epoch": 19.2098599940423,
      "grad_norm": 2.9689490474993363e-06,
      "learning_rate": 2.3743673725122318e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74848584,
      "step": 128975
    },
    {
      "epoch": 19.210604706583258,
      "grad_norm": 2.5576161988283275e-06,
      "learning_rate": 2.3699016884901893e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74851752,
      "step": 128980
    },
    {
      "epoch": 19.21134941912422,
      "grad_norm": 0.00012842373689636588,
      "learning_rate": 2.365440187926976e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74854888,
      "step": 128985
    },
    {
      "epoch": 19.21209413166518,
      "grad_norm": 2.7097644306195434e-06,
      "learning_rate": 2.3609828708979765e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74858152,
      "step": 128990
    },
    {
      "epoch": 19.212838844206136,
      "grad_norm": 1.7381858924636617e-05,
      "learning_rate": 2.3565297374784635e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74861128,
      "step": 128995
    },
    {
      "epoch": 19.213583556747096,
      "grad_norm": 1.6789092114777304e-05,
      "learning_rate": 2.35208078774371e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74863784,
      "step": 129000
    },
    {
      "epoch": 19.214328269288053,
      "grad_norm": 1.0751748959592078e-05,
      "learning_rate": 2.3476360217688508e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74867016,
      "step": 129005
    },
    {
      "epoch": 19.215072981829014,
      "grad_norm": 2.7171074634679826e-06,
      "learning_rate": 2.3431954396289645e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74869992,
      "step": 129010
    },
    {
      "epoch": 19.215817694369974,
      "grad_norm": 0.00014153668598737568,
      "learning_rate": 2.3387590413991022e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74872808,
      "step": 129015
    },
    {
      "epoch": 19.21656240691093,
      "grad_norm": 1.3194330676924437e-05,
      "learning_rate": 2.3343268271541764e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74875624,
      "step": 129020
    },
    {
      "epoch": 19.217307119451892,
      "grad_norm": 4.2236326407874e-05,
      "learning_rate": 2.329898796969099e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74878472,
      "step": 129025
    },
    {
      "epoch": 19.218051831992852,
      "grad_norm": 0.00017443241085857153,
      "learning_rate": 2.3254749509186434e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74881352,
      "step": 129030
    },
    {
      "epoch": 19.21879654453381,
      "grad_norm": 1.5497136701014824e-05,
      "learning_rate": 2.321055289077584e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74884520,
      "step": 129035
    },
    {
      "epoch": 19.21954125707477,
      "grad_norm": 0.0001299733412452042,
      "learning_rate": 2.3166398115205545e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74887336,
      "step": 129040
    },
    {
      "epoch": 19.220285969615727,
      "grad_norm": 1.1700885806931183e-05,
      "learning_rate": 2.3122285183221627e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74890152,
      "step": 129045
    },
    {
      "epoch": 19.221030682156687,
      "grad_norm": 0.0015617161989212036,
      "learning_rate": 2.3078214095569318e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74893192,
      "step": 129050
    },
    {
      "epoch": 19.221775394697648,
      "grad_norm": 3.2358111639041454e-05,
      "learning_rate": 2.3034184852993025e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74895976,
      "step": 129055
    },
    {
      "epoch": 19.222520107238605,
      "grad_norm": 4.595549853547709e-06,
      "learning_rate": 2.2990197456236873e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74898824,
      "step": 129060
    },
    {
      "epoch": 19.223264819779565,
      "grad_norm": 0.0009718830697238445,
      "learning_rate": 2.2946251906043604e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74901864,
      "step": 129065
    },
    {
      "epoch": 19.224009532320526,
      "grad_norm": 3.922290488844737e-06,
      "learning_rate": 2.2902348203155955e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74904872,
      "step": 129070
    },
    {
      "epoch": 19.224754244861483,
      "grad_norm": 3.691099436764489e-06,
      "learning_rate": 2.2858486348315555e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74907496,
      "step": 129075
    },
    {
      "epoch": 19.225498957402444,
      "grad_norm": 1.8045460819848813e-05,
      "learning_rate": 2.281466634226348e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74910472,
      "step": 129080
    },
    {
      "epoch": 19.2262436699434,
      "grad_norm": 9.240784493158571e-06,
      "learning_rate": 2.277088818573969e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74913160,
      "step": 129085
    },
    {
      "epoch": 19.22698838248436,
      "grad_norm": 3.149289477732964e-05,
      "learning_rate": 2.2727151879484155e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74915944,
      "step": 129090
    },
    {
      "epoch": 19.22773309502532,
      "grad_norm": 4.6900870074750856e-05,
      "learning_rate": 2.2683457424235722e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74918792,
      "step": 129095
    },
    {
      "epoch": 19.22847780756628,
      "grad_norm": 1.265760056412546e-05,
      "learning_rate": 2.2639804820732135e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74921992,
      "step": 129100
    },
    {
      "epoch": 19.22922252010724,
      "grad_norm": 5.047795639256947e-06,
      "learning_rate": 2.259619406971142e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74924776,
      "step": 129105
    },
    {
      "epoch": 19.229967232648196,
      "grad_norm": 2.708430884013069e-06,
      "learning_rate": 2.2552625171909925e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74927816,
      "step": 129110
    },
    {
      "epoch": 19.230711945189157,
      "grad_norm": 5.178141236683587e-06,
      "learning_rate": 2.250909812806401e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74930440,
      "step": 129115
    },
    {
      "epoch": 19.231456657730117,
      "grad_norm": 3.2208720313064987e-06,
      "learning_rate": 2.246561293890892e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74933128,
      "step": 129120
    },
    {
      "epoch": 19.232201370271074,
      "grad_norm": 1.588525810802821e-05,
      "learning_rate": 2.2422169605178788e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74935816,
      "step": 129125
    },
    {
      "epoch": 19.232946082812035,
      "grad_norm": 2.099430093949195e-05,
      "learning_rate": 2.2378768127608584e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74938728,
      "step": 129130
    },
    {
      "epoch": 19.233690795352995,
      "grad_norm": 7.543371793872211e-06,
      "learning_rate": 2.23354085069305e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74941544,
      "step": 129135
    },
    {
      "epoch": 19.234435507893952,
      "grad_norm": 3.105782298007398e-06,
      "learning_rate": 2.2292090743877836e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74944392,
      "step": 129140
    },
    {
      "epoch": 19.235180220434913,
      "grad_norm": 5.720812168874545e-06,
      "learning_rate": 2.2248814839181953e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74947048,
      "step": 129145
    },
    {
      "epoch": 19.23592493297587,
      "grad_norm": 7.992438622750342e-05,
      "learning_rate": 2.2205580793573932e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74949992,
      "step": 129150
    },
    {
      "epoch": 19.23666964551683,
      "grad_norm": 3.1638526252208976e-06,
      "learning_rate": 2.2162388607784578e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74953256,
      "step": 129155
    },
    {
      "epoch": 19.23741435805779,
      "grad_norm": 1.77634888132161e-06,
      "learning_rate": 2.2119238282543032e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74956424,
      "step": 129160
    },
    {
      "epoch": 19.238159070598748,
      "grad_norm": 2.13476232602261e-06,
      "learning_rate": 2.2076129818578706e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74959336,
      "step": 129165
    },
    {
      "epoch": 19.23890378313971,
      "grad_norm": 8.723398786969483e-05,
      "learning_rate": 2.203306321661963e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74962248,
      "step": 129170
    },
    {
      "epoch": 19.23964849568067,
      "grad_norm": 2.720550355661544e-06,
      "learning_rate": 2.1990038477393559e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74964968,
      "step": 129175
    },
    {
      "epoch": 19.240393208221626,
      "grad_norm": 9.253792086383328e-06,
      "learning_rate": 2.1947055601627132e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74967880,
      "step": 129180
    },
    {
      "epoch": 19.241137920762586,
      "grad_norm": 1.9004441128345206e-05,
      "learning_rate": 2.190411459004671e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74970600,
      "step": 129185
    },
    {
      "epoch": 19.241882633303543,
      "grad_norm": 1.243388578586746e-05,
      "learning_rate": 2.1861215443377547e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74973608,
      "step": 129190
    },
    {
      "epoch": 19.242627345844504,
      "grad_norm": 3.457192360656336e-05,
      "learning_rate": 2.1818358162344622e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74976424,
      "step": 129195
    },
    {
      "epoch": 19.243372058385464,
      "grad_norm": 1.9698741198226344e-06,
      "learning_rate": 2.1775542747671795e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74979464,
      "step": 129200
    },
    {
      "epoch": 19.24411677092642,
      "grad_norm": 9.898390089801978e-06,
      "learning_rate": 2.173276920008238e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74982216,
      "step": 129205
    },
    {
      "epoch": 19.244861483467382,
      "grad_norm": 6.214057975739706e-06,
      "learning_rate": 2.1690037520299134e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74985320,
      "step": 129210
    },
    {
      "epoch": 19.245606196008342,
      "grad_norm": 7.79535184847191e-06,
      "learning_rate": 2.1647347709043696e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74988136,
      "step": 129215
    },
    {
      "epoch": 19.2463509085493,
      "grad_norm": 4.337416157795815e-06,
      "learning_rate": 2.160469976703744e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74991400,
      "step": 129220
    },
    {
      "epoch": 19.24709562109026,
      "grad_norm": 7.381386240012944e-06,
      "learning_rate": 2.1562093695000897e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74994376,
      "step": 129225
    },
    {
      "epoch": 19.247840333631217,
      "grad_norm": 1.3508830306818709e-05,
      "learning_rate": 2.1519529493654045e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 74997224,
      "step": 129230
    },
    {
      "epoch": 19.248585046172177,
      "grad_norm": 2.7097371457784902e-06,
      "learning_rate": 2.14770071637152e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75000136,
      "step": 129235
    },
    {
      "epoch": 19.249329758713138,
      "grad_norm": 5.027349106967449e-05,
      "learning_rate": 2.143452670590379e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75003016,
      "step": 129240
    },
    {
      "epoch": 19.250074471254095,
      "grad_norm": 9.064699042937718e-06,
      "learning_rate": 2.1392088120936737e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75006152,
      "step": 129245
    },
    {
      "epoch": 19.250819183795056,
      "grad_norm": 7.568622095277533e-05,
      "learning_rate": 2.1349691409530968e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75009192,
      "step": 129250
    },
    {
      "epoch": 19.251563896336016,
      "grad_norm": 3.078204463236034e-05,
      "learning_rate": 2.1307336572403415e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75012072,
      "step": 129255
    },
    {
      "epoch": 19.252308608876973,
      "grad_norm": 7.757895218674093e-06,
      "learning_rate": 2.1265023610268776e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75015208,
      "step": 129260
    },
    {
      "epoch": 19.253053321417934,
      "grad_norm": 0.00034452963154762983,
      "learning_rate": 2.1222752523842594e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75018056,
      "step": 129265
    },
    {
      "epoch": 19.25379803395889,
      "grad_norm": 8.435962627117988e-06,
      "learning_rate": 2.1180523313838462e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75020744,
      "step": 129270
    },
    {
      "epoch": 19.25454274649985,
      "grad_norm": 4.2512197978794575e-05,
      "learning_rate": 2.1138335980970258e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75023752,
      "step": 129275
    },
    {
      "epoch": 19.25528745904081,
      "grad_norm": 2.3027207134873606e-05,
      "learning_rate": 2.1096190525950464e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75026440,
      "step": 129280
    },
    {
      "epoch": 19.25603217158177,
      "grad_norm": 0.007056510075926781,
      "learning_rate": 2.1054086949491013e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75029704,
      "step": 129285
    },
    {
      "epoch": 19.25677688412273,
      "grad_norm": 0.00012409633200149983,
      "learning_rate": 2.101202525230328e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75032776,
      "step": 129290
    },
    {
      "epoch": 19.257521596663686,
      "grad_norm": 0.0001609090977581218,
      "learning_rate": 2.0970005435097807e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75035976,
      "step": 129295
    },
    {
      "epoch": 19.258266309204647,
      "grad_norm": 3.15893157676328e-05,
      "learning_rate": 2.0928027498584579e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75038760,
      "step": 129300
    },
    {
      "epoch": 19.259011021745607,
      "grad_norm": 5.63647381568444e-06,
      "learning_rate": 2.0886091443472477e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75041352,
      "step": 129305
    },
    {
      "epoch": 19.259755734286564,
      "grad_norm": 6.287773430813104e-06,
      "learning_rate": 2.084419727047038e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75044360,
      "step": 129310
    },
    {
      "epoch": 19.260500446827525,
      "grad_norm": 2.5446340714552207e-06,
      "learning_rate": 2.0802344980285771e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75047496,
      "step": 129315
    },
    {
      "epoch": 19.261245159368485,
      "grad_norm": 1.7340982594760135e-05,
      "learning_rate": 2.0760534573626144e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75050632,
      "step": 129320
    },
    {
      "epoch": 19.261989871909442,
      "grad_norm": 0.0008066273294389248,
      "learning_rate": 2.0718766051197048e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75053864,
      "step": 129325
    },
    {
      "epoch": 19.262734584450403,
      "grad_norm": 8.096469173324294e-06,
      "learning_rate": 2.0677039413704857e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75056872,
      "step": 129330
    },
    {
      "epoch": 19.26347929699136,
      "grad_norm": 0.00014494937204290181,
      "learning_rate": 2.063535466185429e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75060040,
      "step": 129335
    },
    {
      "epoch": 19.26422400953232,
      "grad_norm": 2.2167034330777824e-05,
      "learning_rate": 2.0593711796349225e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75063080,
      "step": 129340
    },
    {
      "epoch": 19.26496872207328,
      "grad_norm": 6.656021923845401e-06,
      "learning_rate": 2.0552110817893544e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75065992,
      "step": 129345
    },
    {
      "epoch": 19.265713434614238,
      "grad_norm": 1.5558672430415754e-06,
      "learning_rate": 2.051055172719002e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75068712,
      "step": 129350
    },
    {
      "epoch": 19.2664581471552,
      "grad_norm": 0.0002596143167465925,
      "learning_rate": 2.0469034524940588e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75071464,
      "step": 129355
    },
    {
      "epoch": 19.26720285969616,
      "grad_norm": 0.0005489446339197457,
      "learning_rate": 2.0427559211846915e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75074312,
      "step": 129360
    },
    {
      "epoch": 19.267947572237116,
      "grad_norm": 0.0022319999989122152,
      "learning_rate": 2.0386125788609266e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75077224,
      "step": 129365
    },
    {
      "epoch": 19.268692284778076,
      "grad_norm": 3.6484793781710323e-06,
      "learning_rate": 2.034473425592792e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75079976,
      "step": 129370
    },
    {
      "epoch": 19.269436997319033,
      "grad_norm": 5.1116894610458985e-05,
      "learning_rate": 2.0303384614502042e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75082920,
      "step": 129375
    },
    {
      "epoch": 19.270181709859994,
      "grad_norm": 4.6273262341856025e-06,
      "learning_rate": 2.0262076865030232e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75085800,
      "step": 129380
    },
    {
      "epoch": 19.270926422400954,
      "grad_norm": 1.7935550204128958e-05,
      "learning_rate": 2.022081100821055e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75088520,
      "step": 129385
    },
    {
      "epoch": 19.27167113494191,
      "grad_norm": 3.3277217426075367e-06,
      "learning_rate": 2.0179587044739655e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75091368,
      "step": 129390
    },
    {
      "epoch": 19.272415847482872,
      "grad_norm": 1.8567222923593363e-06,
      "learning_rate": 2.0138404975314495e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75094152,
      "step": 129395
    },
    {
      "epoch": 19.273160560023832,
      "grad_norm": 0.0002225623611593619,
      "learning_rate": 2.0097264800630344e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75097032,
      "step": 129400
    },
    {
      "epoch": 19.27390527256479,
      "grad_norm": 6.9785282903467305e-06,
      "learning_rate": 2.0056166521382759e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75099912,
      "step": 129405
    },
    {
      "epoch": 19.27464998510575,
      "grad_norm": 0.034582991153001785,
      "learning_rate": 2.0015110138265624e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75103080,
      "step": 129410
    },
    {
      "epoch": 19.275394697646707,
      "grad_norm": 1.2541046089609154e-05,
      "learning_rate": 1.997409565197228e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75106056,
      "step": 129415
    },
    {
      "epoch": 19.276139410187668,
      "grad_norm": 2.2195854398887604e-05,
      "learning_rate": 1.9933123063196335e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75109096,
      "step": 129420
    },
    {
      "epoch": 19.276884122728628,
      "grad_norm": 2.689083521545399e-05,
      "learning_rate": 1.9892192372629737e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75111976,
      "step": 129425
    },
    {
      "epoch": 19.277628835269585,
      "grad_norm": 1.5378636817331426e-05,
      "learning_rate": 1.9851303580963599e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75114952,
      "step": 129430
    },
    {
      "epoch": 19.278373547810546,
      "grad_norm": 3.405124880373478e-05,
      "learning_rate": 1.9810456688889313e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75117768,
      "step": 129435
    },
    {
      "epoch": 19.279118260351503,
      "grad_norm": 9.136615517491009e-06,
      "learning_rate": 1.9769651697096326e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75120872,
      "step": 129440
    },
    {
      "epoch": 19.279862972892463,
      "grad_norm": 0.0014466001885011792,
      "learning_rate": 1.9728888606274365e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75123944,
      "step": 129445
    },
    {
      "epoch": 19.280607685433424,
      "grad_norm": 1.1000491213053465e-05,
      "learning_rate": 1.9688167417112047e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75126632,
      "step": 129450
    },
    {
      "epoch": 19.28135239797438,
      "grad_norm": 1.474016153224511e-05,
      "learning_rate": 1.9647488130297154e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75129480,
      "step": 129455
    },
    {
      "epoch": 19.28209711051534,
      "grad_norm": 7.096914032445056e-06,
      "learning_rate": 1.960685074651719e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75132680,
      "step": 129460
    },
    {
      "epoch": 19.2828418230563,
      "grad_norm": 3.954604108002968e-05,
      "learning_rate": 1.9566255266458278e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75135496,
      "step": 129465
    },
    {
      "epoch": 19.28358653559726,
      "grad_norm": 8.583354065194726e-05,
      "learning_rate": 1.9525701690806807e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75138568,
      "step": 129470
    },
    {
      "epoch": 19.28433124813822,
      "grad_norm": 1.59974952111952e-05,
      "learning_rate": 1.948519002024751e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75141800,
      "step": 129475
    },
    {
      "epoch": 19.285075960679176,
      "grad_norm": 0.00041483022505417466,
      "learning_rate": 1.9444720255464844e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75145288,
      "step": 129480
    },
    {
      "epoch": 19.285820673220137,
      "grad_norm": 2.9823868317180313e-05,
      "learning_rate": 1.940429239714242e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75148232,
      "step": 129485
    },
    {
      "epoch": 19.286565385761097,
      "grad_norm": 0.0003739380044862628,
      "learning_rate": 1.936390644596303e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75151016,
      "step": 129490
    },
    {
      "epoch": 19.287310098302054,
      "grad_norm": 5.870583663636353e-06,
      "learning_rate": 1.932356240260974e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75153832,
      "step": 129495
    },
    {
      "epoch": 19.288054810843015,
      "grad_norm": 2.7642886379908305e-06,
      "learning_rate": 1.9283260267763115e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75156808,
      "step": 129500
    },
    {
      "epoch": 19.288799523383975,
      "grad_norm": 4.042827185912756e-06,
      "learning_rate": 1.924300004210483e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75160008,
      "step": 129505
    },
    {
      "epoch": 19.289544235924932,
      "grad_norm": 3.3051592254196294e-06,
      "learning_rate": 1.9202781726314622e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75162824,
      "step": 129510
    },
    {
      "epoch": 19.290288948465893,
      "grad_norm": 0.00011654180707409978,
      "learning_rate": 1.9162605321072224e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75165608,
      "step": 129515
    },
    {
      "epoch": 19.29103366100685,
      "grad_norm": 2.5185920549120056e-06,
      "learning_rate": 1.9122470827055984e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75168488,
      "step": 129520
    },
    {
      "epoch": 19.29177837354781,
      "grad_norm": 3.3343196264468133e-05,
      "learning_rate": 1.9082378244944242e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75171272,
      "step": 129525
    },
    {
      "epoch": 19.29252308608877,
      "grad_norm": 3.3861999781947816e-06,
      "learning_rate": 1.9042327575414242e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75173992,
      "step": 129530
    },
    {
      "epoch": 19.293267798629728,
      "grad_norm": 5.2586324272851925e-06,
      "learning_rate": 1.9002318819142661e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75177000,
      "step": 129535
    },
    {
      "epoch": 19.29401251117069,
      "grad_norm": 0.00010435592412250116,
      "learning_rate": 1.8962351976805348e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75180072,
      "step": 129540
    },
    {
      "epoch": 19.29475722371165,
      "grad_norm": 5.987401436868822e-06,
      "learning_rate": 1.892242704907732e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75182696,
      "step": 129545
    },
    {
      "epoch": 19.295501936252606,
      "grad_norm": 5.6172750191763043e-05,
      "learning_rate": 1.888254403663331e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75185800,
      "step": 129550
    },
    {
      "epoch": 19.296246648793566,
      "grad_norm": 7.3256692303402815e-06,
      "learning_rate": 1.884270294014695e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75188872,
      "step": 129555
    },
    {
      "epoch": 19.296991361334523,
      "grad_norm": 6.385577307810308e-06,
      "learning_rate": 1.880290376029159e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75191976,
      "step": 129560
    },
    {
      "epoch": 19.297736073875484,
      "grad_norm": 2.953534476546338e-06,
      "learning_rate": 1.8763146497739194e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75194888,
      "step": 129565
    },
    {
      "epoch": 19.298480786416444,
      "grad_norm": 7.26725920685567e-05,
      "learning_rate": 1.872343115316144e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75197864,
      "step": 129570
    },
    {
      "epoch": 19.2992254989574,
      "grad_norm": 5.96531617702567e-06,
      "learning_rate": 1.8683757727229745e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75200712,
      "step": 129575
    },
    {
      "epoch": 19.299970211498362,
      "grad_norm": 7.461312634404749e-06,
      "learning_rate": 1.864412622061412e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75203688,
      "step": 129580
    },
    {
      "epoch": 19.300714924039323,
      "grad_norm": 5.774267629021779e-05,
      "learning_rate": 1.8604536633984037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75206600,
      "step": 129585
    },
    {
      "epoch": 19.30145963658028,
      "grad_norm": 3.5507241591403726e-06,
      "learning_rate": 1.8564988968008124e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75209288,
      "step": 129590
    },
    {
      "epoch": 19.30220434912124,
      "grad_norm": 1.1579891179280821e-05,
      "learning_rate": 1.8525483223354734e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75212552,
      "step": 129595
    },
    {
      "epoch": 19.302949061662197,
      "grad_norm": 7.83138966653496e-06,
      "learning_rate": 1.848601940069139e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75215400,
      "step": 129600
    },
    {
      "epoch": 19.303693774203158,
      "grad_norm": 3.629628918133676e-05,
      "learning_rate": 1.8446597500684503e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75218120,
      "step": 129605
    },
    {
      "epoch": 19.304438486744118,
      "grad_norm": 3.709715383592993e-05,
      "learning_rate": 1.8407217524000486e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75221256,
      "step": 129610
    },
    {
      "epoch": 19.305183199285075,
      "grad_norm": 3.0577004963561194e-06,
      "learning_rate": 1.8367879471304084e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75224232,
      "step": 129615
    },
    {
      "epoch": 19.305927911826036,
      "grad_norm": 1.0936408216366544e-05,
      "learning_rate": 1.832858334326032e-07,
      "loss": 0.002,
      "num_input_tokens_seen": 75227016,
      "step": 129620
    },
    {
      "epoch": 19.306672624366993,
      "grad_norm": 0.0002513230429030955,
      "learning_rate": 1.828932914053255e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75229832,
      "step": 129625
    },
    {
      "epoch": 19.307417336907953,
      "grad_norm": 0.0008569117053411901,
      "learning_rate": 1.8250116863784694e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75232904,
      "step": 129630
    },
    {
      "epoch": 19.308162049448914,
      "grad_norm": 5.248512934485916e-06,
      "learning_rate": 1.8210946513678439e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75235688,
      "step": 129635
    },
    {
      "epoch": 19.30890676198987,
      "grad_norm": 3.2868474590941332e-06,
      "learning_rate": 1.8171818090876037e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75238440,
      "step": 129640
    },
    {
      "epoch": 19.30965147453083,
      "grad_norm": 5.7801120419753715e-05,
      "learning_rate": 1.8132731596038345e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75240968,
      "step": 129645
    },
    {
      "epoch": 19.31039618707179,
      "grad_norm": 1.1889820598298684e-05,
      "learning_rate": 1.8093687029825666e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75243816,
      "step": 129650
    },
    {
      "epoch": 19.31114089961275,
      "grad_norm": 5.364601020119153e-05,
      "learning_rate": 1.8054684392897758e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75246888,
      "step": 129655
    },
    {
      "epoch": 19.31188561215371,
      "grad_norm": 5.051732387073571e-06,
      "learning_rate": 1.8015723685913255e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75249992,
      "step": 129660
    },
    {
      "epoch": 19.312630324694666,
      "grad_norm": 0.004432728514075279,
      "learning_rate": 1.797680490953052e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75252808,
      "step": 129665
    },
    {
      "epoch": 19.313375037235627,
      "grad_norm": 3.3516873827466043e-06,
      "learning_rate": 1.7937928064407085e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75255528,
      "step": 129670
    },
    {
      "epoch": 19.314119749776587,
      "grad_norm": 4.533926585281733e-06,
      "learning_rate": 1.7899093151199643e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75258376,
      "step": 129675
    },
    {
      "epoch": 19.314864462317544,
      "grad_norm": 5.517211320693605e-06,
      "learning_rate": 1.7860300170564613e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75261192,
      "step": 129680
    },
    {
      "epoch": 19.315609174858505,
      "grad_norm": 7.555478805443272e-05,
      "learning_rate": 1.7821549123156755e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75264072,
      "step": 129685
    },
    {
      "epoch": 19.316353887399465,
      "grad_norm": 7.539575744885951e-05,
      "learning_rate": 1.7782840009631375e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75267144,
      "step": 129690
    },
    {
      "epoch": 19.317098599940422,
      "grad_norm": 3.567204112187028e-05,
      "learning_rate": 1.7744172830641835e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75270152,
      "step": 129695
    },
    {
      "epoch": 19.317843312481383,
      "grad_norm": 4.053429620398674e-06,
      "learning_rate": 1.7705547586841785e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75272872,
      "step": 129700
    },
    {
      "epoch": 19.31858802502234,
      "grad_norm": 1.0770273547677789e-05,
      "learning_rate": 1.7666964278883202e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75275784,
      "step": 129705
    },
    {
      "epoch": 19.3193327375633,
      "grad_norm": 0.00043293138151057065,
      "learning_rate": 1.7628422907418894e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75278856,
      "step": 129710
    },
    {
      "epoch": 19.32007745010426,
      "grad_norm": 0.00046942889457568526,
      "learning_rate": 1.7589923473098902e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75281864,
      "step": 129715
    },
    {
      "epoch": 19.320822162645218,
      "grad_norm": 0.00013740385475102812,
      "learning_rate": 1.7551465976574643e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75285000,
      "step": 129720
    },
    {
      "epoch": 19.32156687518618,
      "grad_norm": 5.743606016039848e-05,
      "learning_rate": 1.7513050418495047e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75287944,
      "step": 129725
    },
    {
      "epoch": 19.32231158772714,
      "grad_norm": 0.00018875881505664438,
      "learning_rate": 1.7474676799509314e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75291208,
      "step": 129730
    },
    {
      "epoch": 19.323056300268096,
      "grad_norm": 0.0002421295503154397,
      "learning_rate": 1.7436345120266095e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75294280,
      "step": 129735
    },
    {
      "epoch": 19.323801012809056,
      "grad_norm": 2.4436960757157067e-06,
      "learning_rate": 1.739805538141237e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75297096,
      "step": 129740
    },
    {
      "epoch": 19.324545725350013,
      "grad_norm": 3.7412096389743965e-06,
      "learning_rate": 1.73598075835954e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75300104,
      "step": 129745
    },
    {
      "epoch": 19.325290437890974,
      "grad_norm": 2.463859345880337e-06,
      "learning_rate": 1.7321601727461334e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75302984,
      "step": 129750
    },
    {
      "epoch": 19.326035150431935,
      "grad_norm": 7.136849944799906e-06,
      "learning_rate": 1.7283437813655489e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75306280,
      "step": 129755
    },
    {
      "epoch": 19.32677986297289,
      "grad_norm": 9.657297596277203e-06,
      "learning_rate": 1.7245315842822352e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75308904,
      "step": 129760
    },
    {
      "epoch": 19.327524575513852,
      "grad_norm": 0.027251165360212326,
      "learning_rate": 1.720723581560668e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75312040,
      "step": 129765
    },
    {
      "epoch": 19.328269288054813,
      "grad_norm": 2.2534472918778192e-06,
      "learning_rate": 1.716919773265102e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 75314984,
      "step": 129770
    },
    {
      "epoch": 19.32901400059577,
      "grad_norm": 2.936238615802722e-06,
      "learning_rate": 1.7131201594598468e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75317864,
      "step": 129775
    },
    {
      "epoch": 19.32975871313673,
      "grad_norm": 8.647963113617152e-06,
      "learning_rate": 1.709324740209073e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75320488,
      "step": 129780
    },
    {
      "epoch": 19.330503425677687,
      "grad_norm": 8.663930202601478e-06,
      "learning_rate": 1.7055335155769238e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75323240,
      "step": 129785
    },
    {
      "epoch": 19.331248138218648,
      "grad_norm": 7.430290861520916e-05,
      "learning_rate": 1.7017464856274033e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75326184,
      "step": 129790
    },
    {
      "epoch": 19.331992850759608,
      "grad_norm": 0.00020837632473558187,
      "learning_rate": 1.6979636504245445e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75329192,
      "step": 129795
    },
    {
      "epoch": 19.332737563300565,
      "grad_norm": 0.0012141228653490543,
      "learning_rate": 1.6941850100322122e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75332200,
      "step": 129800
    },
    {
      "epoch": 19.333482275841526,
      "grad_norm": 2.0281930119381286e-05,
      "learning_rate": 1.6904105645142444e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75334856,
      "step": 129805
    },
    {
      "epoch": 19.334226988382483,
      "grad_norm": 3.3600570077396696e-06,
      "learning_rate": 1.686640313934451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75337736,
      "step": 129810
    },
    {
      "epoch": 19.334971700923443,
      "grad_norm": 5.14392650075024e-06,
      "learning_rate": 1.6828742583564762e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75340552,
      "step": 129815
    },
    {
      "epoch": 19.335716413464404,
      "grad_norm": 1.1878971236001235e-05,
      "learning_rate": 1.6791123978439626e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75343720,
      "step": 129820
    },
    {
      "epoch": 19.33646112600536,
      "grad_norm": 4.225671000313014e-05,
      "learning_rate": 1.6753547324604713e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75346568,
      "step": 129825
    },
    {
      "epoch": 19.33720583854632,
      "grad_norm": 4.510560302151134e-06,
      "learning_rate": 1.671601262269451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75349416,
      "step": 129830
    },
    {
      "epoch": 19.337950551087282,
      "grad_norm": 4.574818376568146e-06,
      "learning_rate": 1.6678519873343789e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75351944,
      "step": 129835
    },
    {
      "epoch": 19.33869526362824,
      "grad_norm": 2.1821711015945766e-06,
      "learning_rate": 1.66410690771851e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75354824,
      "step": 129840
    },
    {
      "epoch": 19.3394399761692,
      "grad_norm": 2.346050678170286e-05,
      "learning_rate": 1.6603660234851825e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75357800,
      "step": 129845
    },
    {
      "epoch": 19.340184688710156,
      "grad_norm": 0.006837382446974516,
      "learning_rate": 1.656629334697568e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75360648,
      "step": 129850
    },
    {
      "epoch": 19.340929401251117,
      "grad_norm": 1.0951028343697544e-05,
      "learning_rate": 1.6528968414188107e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75363592,
      "step": 129855
    },
    {
      "epoch": 19.341674113792077,
      "grad_norm": 2.6469288059161045e-06,
      "learning_rate": 1.6491685437119154e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75366504,
      "step": 129860
    },
    {
      "epoch": 19.342418826333034,
      "grad_norm": 0.000152467648149468,
      "learning_rate": 1.6454444416399428e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75369416,
      "step": 129865
    },
    {
      "epoch": 19.343163538873995,
      "grad_norm": 6.1850746533309575e-06,
      "learning_rate": 1.6417245352657317e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75372104,
      "step": 129870
    },
    {
      "epoch": 19.343908251414955,
      "grad_norm": 7.834963071218226e-06,
      "learning_rate": 1.638008824652204e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75375048,
      "step": 129875
    },
    {
      "epoch": 19.344652963955912,
      "grad_norm": 8.035946848394815e-06,
      "learning_rate": 1.6342973098620872e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75378056,
      "step": 129880
    },
    {
      "epoch": 19.345397676496873,
      "grad_norm": 6.759231473552063e-05,
      "learning_rate": 1.6305899909580814e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75381448,
      "step": 129885
    },
    {
      "epoch": 19.34614238903783,
      "grad_norm": 2.7812209737021476e-05,
      "learning_rate": 1.6268868680028026e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75384040,
      "step": 129890
    },
    {
      "epoch": 19.34688710157879,
      "grad_norm": 2.2918211470823735e-05,
      "learning_rate": 1.623187941058868e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75387368,
      "step": 129895
    },
    {
      "epoch": 19.34763181411975,
      "grad_norm": 4.4624357542488724e-05,
      "learning_rate": 1.6194932101886995e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75390504,
      "step": 129900
    },
    {
      "epoch": 19.348376526660708,
      "grad_norm": 9.344040336145554e-06,
      "learning_rate": 1.615802675454775e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75393416,
      "step": 129905
    },
    {
      "epoch": 19.34912123920167,
      "grad_norm": 2.857532535927021e-06,
      "learning_rate": 1.6121163369194335e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75396456,
      "step": 129910
    },
    {
      "epoch": 19.34986595174263,
      "grad_norm": 8.217467438953463e-06,
      "learning_rate": 1.6084341946449033e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75399208,
      "step": 129915
    },
    {
      "epoch": 19.350610664283586,
      "grad_norm": 3.5549214771890547e-06,
      "learning_rate": 1.6047562486934398e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75401800,
      "step": 129920
    },
    {
      "epoch": 19.351355376824547,
      "grad_norm": 7.985843694768846e-06,
      "learning_rate": 1.60108249912716e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75404872,
      "step": 129925
    },
    {
      "epoch": 19.352100089365504,
      "grad_norm": 2.1656369426636957e-05,
      "learning_rate": 1.5974129460081255e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75407400,
      "step": 129930
    },
    {
      "epoch": 19.352844801906464,
      "grad_norm": 1.6320085705956444e-05,
      "learning_rate": 1.5937475893983423e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75410280,
      "step": 129935
    },
    {
      "epoch": 19.353589514447425,
      "grad_norm": 6.296060746535659e-05,
      "learning_rate": 1.5900864293597328e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75413224,
      "step": 129940
    },
    {
      "epoch": 19.35433422698838,
      "grad_norm": 1.6979884094325826e-05,
      "learning_rate": 1.5864294659541367e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75416136,
      "step": 129945
    },
    {
      "epoch": 19.355078939529342,
      "grad_norm": 1.398738913849229e-05,
      "learning_rate": 1.5827766992433378e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75418824,
      "step": 129950
    },
    {
      "epoch": 19.3558236520703,
      "grad_norm": 2.3551272533950396e-05,
      "learning_rate": 1.5791281292890093e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75421736,
      "step": 129955
    },
    {
      "epoch": 19.35656836461126,
      "grad_norm": 8.186875675164629e-06,
      "learning_rate": 1.575483756152879e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75424712,
      "step": 129960
    },
    {
      "epoch": 19.35731307715222,
      "grad_norm": 4.733982223115163e-06,
      "learning_rate": 1.5718435798964538e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75427528,
      "step": 129965
    },
    {
      "epoch": 19.358057789693177,
      "grad_norm": 1.5384288417408243e-05,
      "learning_rate": 1.5682076005812118e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75430632,
      "step": 129970
    },
    {
      "epoch": 19.358802502234138,
      "grad_norm": 4.593957055476494e-05,
      "learning_rate": 1.564575818268632e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75433608,
      "step": 129975
    },
    {
      "epoch": 19.359547214775098,
      "grad_norm": 2.3448583306162618e-05,
      "learning_rate": 1.5609482330200265e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75436328,
      "step": 129980
    },
    {
      "epoch": 19.360291927316055,
      "grad_norm": 9.028668500832282e-06,
      "learning_rate": 1.5573248448967072e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75439208,
      "step": 129985
    },
    {
      "epoch": 19.361036639857016,
      "grad_norm": 2.3953944037202746e-06,
      "learning_rate": 1.5537056539598748e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75442632,
      "step": 129990
    },
    {
      "epoch": 19.361781352397973,
      "grad_norm": 6.92477187840268e-05,
      "learning_rate": 1.5500906602706756e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75445288,
      "step": 129995
    },
    {
      "epoch": 19.362526064938933,
      "grad_norm": 2.3569155018776655e-06,
      "learning_rate": 1.546479863890199e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75448616,
      "step": 130000
    },
    {
      "epoch": 19.363270777479894,
      "grad_norm": 2.259427128592506e-05,
      "learning_rate": 1.542873264879424e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75451624,
      "step": 130005
    },
    {
      "epoch": 19.36401549002085,
      "grad_norm": 3.3297665140707977e-06,
      "learning_rate": 1.5392708632992748e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75454664,
      "step": 130010
    },
    {
      "epoch": 19.36476020256181,
      "grad_norm": 2.0032488464494236e-05,
      "learning_rate": 1.5356726592106185e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75457544,
      "step": 130015
    },
    {
      "epoch": 19.365504915102772,
      "grad_norm": 1.526890991954133e-05,
      "learning_rate": 1.5320786526742682e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75460616,
      "step": 130020
    },
    {
      "epoch": 19.36624962764373,
      "grad_norm": 6.941326864762232e-05,
      "learning_rate": 1.5284888437508972e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75463560,
      "step": 130025
    },
    {
      "epoch": 19.36699434018469,
      "grad_norm": 1.254926792171318e-05,
      "learning_rate": 1.5249032325011514e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75466600,
      "step": 130030
    },
    {
      "epoch": 19.367739052725646,
      "grad_norm": 3.158142135362141e-05,
      "learning_rate": 1.5213218189856492e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75469704,
      "step": 130035
    },
    {
      "epoch": 19.368483765266607,
      "grad_norm": 2.4071476218523458e-05,
      "learning_rate": 1.5177446032648702e-07,
      "loss": 0.0001,
      "num_input_tokens_seen": 75472488,
      "step": 130040
    },
    {
      "epoch": 19.369228477807567,
      "grad_norm": 8.959638762462419e-06,
      "learning_rate": 1.5141715853992654e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75475560,
      "step": 130045
    },
    {
      "epoch": 19.369973190348524,
      "grad_norm": 7.281277066795155e-05,
      "learning_rate": 1.510602765449176e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75478216,
      "step": 130050
    },
    {
      "epoch": 19.370717902889485,
      "grad_norm": 4.860510671278462e-05,
      "learning_rate": 1.507038143474887e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75481160,
      "step": 130055
    },
    {
      "epoch": 19.371462615430445,
      "grad_norm": 7.901096068962943e-06,
      "learning_rate": 1.5034777195366278e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75484232,
      "step": 130060
    },
    {
      "epoch": 19.372207327971402,
      "grad_norm": 1.90607133845333e-05,
      "learning_rate": 1.4999214936945726e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75486920,
      "step": 130065
    },
    {
      "epoch": 19.372952040512363,
      "grad_norm": 4.288805484975455e-06,
      "learning_rate": 1.496369466008757e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75489992,
      "step": 130070
    },
    {
      "epoch": 19.37369675305332,
      "grad_norm": 2.4173534711735556e-06,
      "learning_rate": 1.4928216365392157e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75492712,
      "step": 130075
    },
    {
      "epoch": 19.37444146559428,
      "grad_norm": 1.0055497114080936e-05,
      "learning_rate": 1.489278005345901e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75495592,
      "step": 130080
    },
    {
      "epoch": 19.37518617813524,
      "grad_norm": 0.0016555379843339324,
      "learning_rate": 1.485738572488654e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75498376,
      "step": 130085
    },
    {
      "epoch": 19.375930890676198,
      "grad_norm": 4.6713848860235885e-05,
      "learning_rate": 1.4822033380272603e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75501480,
      "step": 130090
    },
    {
      "epoch": 19.37667560321716,
      "grad_norm": 6.189028499647975e-05,
      "learning_rate": 1.47867230202145e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75504360,
      "step": 130095
    },
    {
      "epoch": 19.37742031575812,
      "grad_norm": 7.585176717839204e-06,
      "learning_rate": 1.4751454645309248e-07,
      "loss": 0.0021,
      "num_input_tokens_seen": 75507144,
      "step": 130100
    },
    {
      "epoch": 19.378165028299076,
      "grad_norm": 5.5312477343250066e-05,
      "learning_rate": 1.471622825615193e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75509960,
      "step": 130105
    },
    {
      "epoch": 19.378909740840037,
      "grad_norm": 8.824131327855866e-06,
      "learning_rate": 1.4681043853338184e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75512744,
      "step": 130110
    },
    {
      "epoch": 19.379654453380994,
      "grad_norm": 9.95796435745433e-05,
      "learning_rate": 1.4645901437461972e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75515528,
      "step": 130115
    },
    {
      "epoch": 19.380399165921954,
      "grad_norm": 2.2018883100827225e-05,
      "learning_rate": 1.4610801009117548e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75518344,
      "step": 130120
    },
    {
      "epoch": 19.381143878462915,
      "grad_norm": 6.92564353812486e-05,
      "learning_rate": 1.4575742568897488e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75521320,
      "step": 130125
    },
    {
      "epoch": 19.38188859100387,
      "grad_norm": 5.9703493207052816e-06,
      "learning_rate": 1.45407261173941e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75524168,
      "step": 130130
    },
    {
      "epoch": 19.382633303544832,
      "grad_norm": 8.882530892151408e-06,
      "learning_rate": 1.4505751655199405e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75527240,
      "step": 130135
    },
    {
      "epoch": 19.38337801608579,
      "grad_norm": 1.1577343684621155e-05,
      "learning_rate": 1.4470819182903493e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75529960,
      "step": 130140
    },
    {
      "epoch": 19.38412272862675,
      "grad_norm": 8.008051736396737e-06,
      "learning_rate": 1.443592870109728e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75532648,
      "step": 130145
    },
    {
      "epoch": 19.38486744116771,
      "grad_norm": 1.5697612980147824e-05,
      "learning_rate": 1.4401080210369454e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75535560,
      "step": 130150
    },
    {
      "epoch": 19.385612153708667,
      "grad_norm": 0.0029291994869709015,
      "learning_rate": 1.4366273711309275e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75538888,
      "step": 130155
    },
    {
      "epoch": 19.386356866249628,
      "grad_norm": 0.0001878977782325819,
      "learning_rate": 1.43315092045046e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75541704,
      "step": 130160
    },
    {
      "epoch": 19.38710157879059,
      "grad_norm": 5.280663572193589e-06,
      "learning_rate": 1.429678669054274e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75544680,
      "step": 130165
    },
    {
      "epoch": 19.387846291331545,
      "grad_norm": 0.0004317821003496647,
      "learning_rate": 1.4262106170010447e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75547688,
      "step": 130170
    },
    {
      "epoch": 19.388591003872506,
      "grad_norm": 0.00010737203410826623,
      "learning_rate": 1.4227467643493364e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75550920,
      "step": 130175
    },
    {
      "epoch": 19.389335716413463,
      "grad_norm": 2.6936165795632405e-06,
      "learning_rate": 1.4192871111576856e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75553672,
      "step": 130180
    },
    {
      "epoch": 19.390080428954423,
      "grad_norm": 2.3910948584671132e-05,
      "learning_rate": 1.4158316574845175e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75556616,
      "step": 130185
    },
    {
      "epoch": 19.390825141495384,
      "grad_norm": 5.846439762535738e-06,
      "learning_rate": 1.4123804033882305e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75559752,
      "step": 130190
    },
    {
      "epoch": 19.39156985403634,
      "grad_norm": 0.00022521530627273023,
      "learning_rate": 1.4089333489271384e-07,
      "loss": 0.0011,
      "num_input_tokens_seen": 75562728,
      "step": 130195
    },
    {
      "epoch": 19.3923145665773,
      "grad_norm": 1.3363236575969495e-05,
      "learning_rate": 1.405490494159445e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75565960,
      "step": 130200
    },
    {
      "epoch": 19.393059279118262,
      "grad_norm": 7.120299414964393e-05,
      "learning_rate": 1.4020518391433258e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75568936,
      "step": 130205
    },
    {
      "epoch": 19.39380399165922,
      "grad_norm": 3.7887673443037784e-06,
      "learning_rate": 1.398617383936901e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75571592,
      "step": 130210
    },
    {
      "epoch": 19.39454870420018,
      "grad_norm": 4.214616637909785e-06,
      "learning_rate": 1.395187128598152e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75574344,
      "step": 130215
    },
    {
      "epoch": 19.395293416741136,
      "grad_norm": 3.998786996817216e-05,
      "learning_rate": 1.3917610731850328e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75577160,
      "step": 130220
    },
    {
      "epoch": 19.396038129282097,
      "grad_norm": 5.986547421343857e-06,
      "learning_rate": 1.3883392177554688e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75579944,
      "step": 130225
    },
    {
      "epoch": 19.396782841823057,
      "grad_norm": 2.952168415504275e-06,
      "learning_rate": 1.3849215623672197e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75583080,
      "step": 130230
    },
    {
      "epoch": 19.397527554364014,
      "grad_norm": 2.643401785462629e-05,
      "learning_rate": 1.3815081070780167e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75585800,
      "step": 130235
    },
    {
      "epoch": 19.398272266904975,
      "grad_norm": 9.517195576336235e-05,
      "learning_rate": 1.378098851945564e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75588328,
      "step": 130240
    },
    {
      "epoch": 19.399016979445936,
      "grad_norm": 6.9933798840793315e-06,
      "learning_rate": 1.3746937970274543e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75590920,
      "step": 130245
    },
    {
      "epoch": 19.399761691986892,
      "grad_norm": 7.557450771855656e-06,
      "learning_rate": 1.3712929423812247e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75593768,
      "step": 130250
    },
    {
      "epoch": 19.400506404527853,
      "grad_norm": 7.01690487403539e-06,
      "learning_rate": 1.3678962880642465e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75596456,
      "step": 130255
    },
    {
      "epoch": 19.40125111706881,
      "grad_norm": 7.390626251435606e-06,
      "learning_rate": 1.3645038341340011e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75599240,
      "step": 130260
    },
    {
      "epoch": 19.40199582960977,
      "grad_norm": 2.3713309929007664e-06,
      "learning_rate": 1.361115580647748e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75602120,
      "step": 130265
    },
    {
      "epoch": 19.40274054215073,
      "grad_norm": 1.538323522254359e-05,
      "learning_rate": 1.357731527662748e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75604904,
      "step": 130270
    },
    {
      "epoch": 19.403485254691688,
      "grad_norm": 2.1068246496724896e-05,
      "learning_rate": 1.3543516752361763e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75607624,
      "step": 130275
    },
    {
      "epoch": 19.40422996723265,
      "grad_norm": 0.0003775020595639944,
      "learning_rate": 1.3509760234251267e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75610856,
      "step": 130280
    },
    {
      "epoch": 19.40497467977361,
      "grad_norm": 1.5731708117527887e-05,
      "learning_rate": 1.3476045722865815e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75613640,
      "step": 130285
    },
    {
      "epoch": 19.405719392314566,
      "grad_norm": 0.0001440069463569671,
      "learning_rate": 1.3442373218775784e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75616424,
      "step": 130290
    },
    {
      "epoch": 19.406464104855527,
      "grad_norm": 3.663047664304031e-06,
      "learning_rate": 1.340874272254933e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75619336,
      "step": 130295
    },
    {
      "epoch": 19.407208817396484,
      "grad_norm": 1.6679972759447992e-05,
      "learning_rate": 1.3375154234755162e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75622312,
      "step": 130300
    },
    {
      "epoch": 19.407953529937444,
      "grad_norm": 1.705518297967501e-05,
      "learning_rate": 1.3341607755960327e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75625224,
      "step": 130305
    },
    {
      "epoch": 19.408698242478405,
      "grad_norm": 1.6475600205012597e-05,
      "learning_rate": 1.3308103286731598e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75628168,
      "step": 130310
    },
    {
      "epoch": 19.40944295501936,
      "grad_norm": 2.617235168145271e-06,
      "learning_rate": 1.3274640827635187e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75631080,
      "step": 130315
    },
    {
      "epoch": 19.410187667560322,
      "grad_norm": 2.181978925364092e-05,
      "learning_rate": 1.3241220379236473e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75634088,
      "step": 130320
    },
    {
      "epoch": 19.41093238010128,
      "grad_norm": 1.7069771274691448e-05,
      "learning_rate": 1.320784194209973e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75637352,
      "step": 130325
    },
    {
      "epoch": 19.41167709264224,
      "grad_norm": 3.734205620276043e-06,
      "learning_rate": 1.3174505516789226e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75640232,
      "step": 130330
    },
    {
      "epoch": 19.4124218051832,
      "grad_norm": 2.0972527636331506e-05,
      "learning_rate": 1.3141211103867845e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75643048,
      "step": 130335
    },
    {
      "epoch": 19.413166517724157,
      "grad_norm": 1.9860322936438024e-05,
      "learning_rate": 1.3107958703898193e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75645704,
      "step": 130340
    },
    {
      "epoch": 19.413911230265118,
      "grad_norm": 3.00164902000688e-06,
      "learning_rate": 1.3074748317442042e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75648232,
      "step": 130345
    },
    {
      "epoch": 19.41465594280608,
      "grad_norm": 2.388768280070508e-06,
      "learning_rate": 1.3041579945060335e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75650856,
      "step": 130350
    },
    {
      "epoch": 19.415400655347035,
      "grad_norm": 1.8777989680529572e-05,
      "learning_rate": 1.3008453587313453e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75653800,
      "step": 130355
    },
    {
      "epoch": 19.416145367887996,
      "grad_norm": 2.4031662178458646e-05,
      "learning_rate": 1.2975369244761226e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75656648,
      "step": 130360
    },
    {
      "epoch": 19.416890080428953,
      "grad_norm": 1.7333277355646715e-05,
      "learning_rate": 1.2942326917962377e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75659656,
      "step": 130365
    },
    {
      "epoch": 19.417634792969913,
      "grad_norm": 0.00020124563889112324,
      "learning_rate": 1.290932660747507e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75662792,
      "step": 130370
    },
    {
      "epoch": 19.418379505510874,
      "grad_norm": 3.6490462662186474e-05,
      "learning_rate": 1.287636831385719e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75665704,
      "step": 130375
    },
    {
      "epoch": 19.41912421805183,
      "grad_norm": 2.555498440415249e-06,
      "learning_rate": 1.2843452037664962e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75668840,
      "step": 130380
    },
    {
      "epoch": 19.41986893059279,
      "grad_norm": 1.6303107258863747e-05,
      "learning_rate": 1.281057777945488e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75671880,
      "step": 130385
    },
    {
      "epoch": 19.420613643133752,
      "grad_norm": 3.229555659345351e-05,
      "learning_rate": 1.2777745539782337e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75674632,
      "step": 130390
    },
    {
      "epoch": 19.42135835567471,
      "grad_norm": 3.729053560164175e-06,
      "learning_rate": 1.274495531920189e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75677256,
      "step": 130395
    },
    {
      "epoch": 19.42210306821567,
      "grad_norm": 2.0685731215053238e-05,
      "learning_rate": 1.2712207118267262e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75679912,
      "step": 130400
    },
    {
      "epoch": 19.422847780756626,
      "grad_norm": 8.80215156939812e-05,
      "learning_rate": 1.2679500937532173e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75682952,
      "step": 130405
    },
    {
      "epoch": 19.423592493297587,
      "grad_norm": 3.512304374453379e-06,
      "learning_rate": 1.2646836777548688e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75685832,
      "step": 130410
    },
    {
      "epoch": 19.424337205838548,
      "grad_norm": 7.084695425874088e-06,
      "learning_rate": 1.2614214638869137e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75688776,
      "step": 130415
    },
    {
      "epoch": 19.425081918379504,
      "grad_norm": 4.933351192448754e-06,
      "learning_rate": 1.2581634522044194e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75691784,
      "step": 130420
    },
    {
      "epoch": 19.425826630920465,
      "grad_norm": 5.917191083426587e-05,
      "learning_rate": 1.254909642762453e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75694600,
      "step": 130425
    },
    {
      "epoch": 19.426571343461426,
      "grad_norm": 0.000505508272908628,
      "learning_rate": 1.2516600356159701e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75697480,
      "step": 130430
    },
    {
      "epoch": 19.427316056002383,
      "grad_norm": 2.798709465423599e-05,
      "learning_rate": 1.248414630819872e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75700168,
      "step": 130435
    },
    {
      "epoch": 19.428060768543343,
      "grad_norm": 2.54656265497033e-06,
      "learning_rate": 1.2451734284289752e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75703400,
      "step": 130440
    },
    {
      "epoch": 19.4288054810843,
      "grad_norm": 0.00011732251732610166,
      "learning_rate": 1.2419364284980696e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75706376,
      "step": 130445
    },
    {
      "epoch": 19.42955019362526,
      "grad_norm": 3.207438567187637e-05,
      "learning_rate": 1.2387036310818334e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75709384,
      "step": 130450
    },
    {
      "epoch": 19.43029490616622,
      "grad_norm": 2.7971286726824474e-06,
      "learning_rate": 1.2354750362348344e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75712488,
      "step": 130455
    },
    {
      "epoch": 19.431039618707178,
      "grad_norm": 2.1962327082292177e-05,
      "learning_rate": 1.2322506440116676e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75715496,
      "step": 130460
    },
    {
      "epoch": 19.43178433124814,
      "grad_norm": 3.709025259013288e-05,
      "learning_rate": 1.2290304544668174e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75718440,
      "step": 130465
    },
    {
      "epoch": 19.432529043789096,
      "grad_norm": 4.049097242386779e-06,
      "learning_rate": 1.2258144676546291e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75721160,
      "step": 130470
    },
    {
      "epoch": 19.433273756330056,
      "grad_norm": 2.537530781410169e-05,
      "learning_rate": 1.2226026836294756e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75723912,
      "step": 130475
    },
    {
      "epoch": 19.434018468871017,
      "grad_norm": 9.19920603337232e-06,
      "learning_rate": 1.2193951024455918e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75726952,
      "step": 130480
    },
    {
      "epoch": 19.434763181411974,
      "grad_norm": 0.00074386055348441,
      "learning_rate": 1.216191724157184e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75730056,
      "step": 130485
    },
    {
      "epoch": 19.435507893952934,
      "grad_norm": 8.194859401555732e-05,
      "learning_rate": 1.212992548818348e-07,
      "loss": 0.0244,
      "num_input_tokens_seen": 75732776,
      "step": 130490
    },
    {
      "epoch": 19.436252606493895,
      "grad_norm": 7.884723345341627e-06,
      "learning_rate": 1.2097975764831516e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75735592,
      "step": 130495
    },
    {
      "epoch": 19.43699731903485,
      "grad_norm": 3.909881343133748e-06,
      "learning_rate": 1.206606807205579e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75738664,
      "step": 130500
    },
    {
      "epoch": 19.437742031575812,
      "grad_norm": 4.689577326644212e-05,
      "learning_rate": 1.2034202410395324e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75741576,
      "step": 130505
    },
    {
      "epoch": 19.43848674411677,
      "grad_norm": 0.0019494016887620091,
      "learning_rate": 1.200237878038829e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75744520,
      "step": 130510
    },
    {
      "epoch": 19.43923145665773,
      "grad_norm": 3.3548310511832824e-06,
      "learning_rate": 1.197059718257204e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75747688,
      "step": 130515
    },
    {
      "epoch": 19.43997616919869,
      "grad_norm": 6.517376459669322e-05,
      "learning_rate": 1.19388576174842e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75750408,
      "step": 130520
    },
    {
      "epoch": 19.440720881739647,
      "grad_norm": 9.314559974882286e-06,
      "learning_rate": 1.1907160085660451e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75753256,
      "step": 130525
    },
    {
      "epoch": 19.441465594280608,
      "grad_norm": 3.015892161783995e-06,
      "learning_rate": 1.1875504587636477e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75755880,
      "step": 130530
    },
    {
      "epoch": 19.44221030682157,
      "grad_norm": 5.36018778802827e-05,
      "learning_rate": 1.1843891123947126e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75758856,
      "step": 130535
    },
    {
      "epoch": 19.442955019362525,
      "grad_norm": 1.1624476428551134e-05,
      "learning_rate": 1.1812319695126416e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75761896,
      "step": 130540
    },
    {
      "epoch": 19.443699731903486,
      "grad_norm": 0.0008994479430839419,
      "learning_rate": 1.1780790301707533e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75764488,
      "step": 130545
    },
    {
      "epoch": 19.444444444444443,
      "grad_norm": 8.496346708852798e-05,
      "learning_rate": 1.1749302944223384e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75767208,
      "step": 130550
    },
    {
      "epoch": 19.445189156985403,
      "grad_norm": 3.264849146944471e-05,
      "learning_rate": 1.1717857623205764e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75770088,
      "step": 130555
    },
    {
      "epoch": 19.445933869526364,
      "grad_norm": 8.129049092531204e-06,
      "learning_rate": 1.1686454339185915e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75773384,
      "step": 130560
    },
    {
      "epoch": 19.44667858206732,
      "grad_norm": 1.3728890735364985e-05,
      "learning_rate": 1.1655093092694525e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75776424,
      "step": 130565
    },
    {
      "epoch": 19.44742329460828,
      "grad_norm": 3.187110678481986e-06,
      "learning_rate": 1.1623773884261169e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75779432,
      "step": 130570
    },
    {
      "epoch": 19.448168007149242,
      "grad_norm": 2.534085615479853e-05,
      "learning_rate": 1.1592496714415147e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75782536,
      "step": 130575
    },
    {
      "epoch": 19.4489127196902,
      "grad_norm": 4.847936907026451e-06,
      "learning_rate": 1.1561261583684924e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75785416,
      "step": 130580
    },
    {
      "epoch": 19.44965743223116,
      "grad_norm": 2.724712203416857e-06,
      "learning_rate": 1.1530068492597856e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75788456,
      "step": 130585
    },
    {
      "epoch": 19.450402144772116,
      "grad_norm": 2.851684939741972e-06,
      "learning_rate": 1.1498917441681023e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75791144,
      "step": 130590
    },
    {
      "epoch": 19.451146857313077,
      "grad_norm": 3.1669180771132233e-06,
      "learning_rate": 1.1467808431460947e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75794056,
      "step": 130595
    },
    {
      "epoch": 19.451891569854038,
      "grad_norm": 8.5754509200342e-05,
      "learning_rate": 1.143674146246304e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75797096,
      "step": 130600
    },
    {
      "epoch": 19.452636282394995,
      "grad_norm": 5.637533467961475e-05,
      "learning_rate": 1.1405716535212163e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75799912,
      "step": 130605
    },
    {
      "epoch": 19.453380994935955,
      "grad_norm": 2.1968019154883223e-06,
      "learning_rate": 1.1374733650232338e-07,
      "loss": 0.0056,
      "num_input_tokens_seen": 75803048,
      "step": 130610
    },
    {
      "epoch": 19.454125707476916,
      "grad_norm": 1.3197961379773915e-05,
      "learning_rate": 1.1343792808047038e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75806536,
      "step": 130615
    },
    {
      "epoch": 19.454870420017873,
      "grad_norm": 2.1813834791828413e-06,
      "learning_rate": 1.1312894009179176e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75809416,
      "step": 130620
    },
    {
      "epoch": 19.455615132558833,
      "grad_norm": 0.0001997163490159437,
      "learning_rate": 1.1282037254150279e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75812168,
      "step": 130625
    },
    {
      "epoch": 19.45635984509979,
      "grad_norm": 0.00022004873608238995,
      "learning_rate": 1.1251222543482154e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75815272,
      "step": 130630
    },
    {
      "epoch": 19.45710455764075,
      "grad_norm": 5.282520760374609e-06,
      "learning_rate": 1.1220449877694938e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75817896,
      "step": 130635
    },
    {
      "epoch": 19.45784927018171,
      "grad_norm": 1.8903629097621888e-05,
      "learning_rate": 1.1189719257309051e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75820584,
      "step": 130640
    },
    {
      "epoch": 19.458593982722668,
      "grad_norm": 0.0005540013080462813,
      "learning_rate": 1.1159030682843242e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75823560,
      "step": 130645
    },
    {
      "epoch": 19.45933869526363,
      "grad_norm": 1.3220374967204407e-05,
      "learning_rate": 1.1128384154815984e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75827592,
      "step": 130650
    },
    {
      "epoch": 19.46008340780459,
      "grad_norm": 5.800702183478279e-06,
      "learning_rate": 1.1097779673745201e-07,
      "loss": 0.0002,
      "num_input_tokens_seen": 75830312,
      "step": 130655
    },
    {
      "epoch": 19.460828120345546,
      "grad_norm": 0.00028072070563212037,
      "learning_rate": 1.1067217240147698e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75833352,
      "step": 130660
    },
    {
      "epoch": 19.461572832886507,
      "grad_norm": 4.401043406687677e-05,
      "learning_rate": 1.1036696854540007e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75836168,
      "step": 130665
    },
    {
      "epoch": 19.462317545427464,
      "grad_norm": 9.644422789278906e-06,
      "learning_rate": 1.100621851743755e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75839016,
      "step": 130670
    },
    {
      "epoch": 19.463062257968424,
      "grad_norm": 4.620506661012769e-05,
      "learning_rate": 1.0975782229355469e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75842184,
      "step": 130675
    },
    {
      "epoch": 19.463806970509385,
      "grad_norm": 2.7247212983638747e-06,
      "learning_rate": 1.0945387990807798e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75845064,
      "step": 130680
    },
    {
      "epoch": 19.464551683050342,
      "grad_norm": 2.1804618882015347e-05,
      "learning_rate": 1.0915035802308016e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75847816,
      "step": 130685
    },
    {
      "epoch": 19.465296395591302,
      "grad_norm": 3.149937037960626e-05,
      "learning_rate": 1.0884725664368766e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75850792,
      "step": 130690
    },
    {
      "epoch": 19.46604110813226,
      "grad_norm": 3.8136417970235925e-06,
      "learning_rate": 1.0854457577502419e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75853736,
      "step": 130695
    },
    {
      "epoch": 19.46678582067322,
      "grad_norm": 2.9525499485316686e-06,
      "learning_rate": 1.0824231542220232e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75856488,
      "step": 130700
    },
    {
      "epoch": 19.46753053321418,
      "grad_norm": 1.0643886525940616e-05,
      "learning_rate": 1.0794047559032627e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75859400,
      "step": 130705
    },
    {
      "epoch": 19.468275245755137,
      "grad_norm": 2.736257556534838e-05,
      "learning_rate": 1.0763905628449478e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75862344,
      "step": 130710
    },
    {
      "epoch": 19.469019958296098,
      "grad_norm": 5.265461732051335e-05,
      "learning_rate": 1.0733805750980653e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75865096,
      "step": 130715
    },
    {
      "epoch": 19.46976467083706,
      "grad_norm": 5.908462753723143e-06,
      "learning_rate": 1.07037479271338e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75867816,
      "step": 130720
    },
    {
      "epoch": 19.470509383378015,
      "grad_norm": 5.08693337906152e-05,
      "learning_rate": 1.0673732157417404e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75870600,
      "step": 130725
    },
    {
      "epoch": 19.471254095918976,
      "grad_norm": 4.7647394239902496e-05,
      "learning_rate": 1.0643758442338004e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75873416,
      "step": 130730
    },
    {
      "epoch": 19.471998808459933,
      "grad_norm": 1.894894194265362e-05,
      "learning_rate": 1.0613826782402414e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75876328,
      "step": 130735
    },
    {
      "epoch": 19.472743521000893,
      "grad_norm": 0.00022161380911711603,
      "learning_rate": 1.0583937178116066e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75879304,
      "step": 130740
    },
    {
      "epoch": 19.473488233541854,
      "grad_norm": 4.0573500882601365e-05,
      "learning_rate": 1.055408962998411e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75882056,
      "step": 130745
    },
    {
      "epoch": 19.47423294608281,
      "grad_norm": 2.682287959032692e-05,
      "learning_rate": 1.0524284138510588e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75884808,
      "step": 130750
    },
    {
      "epoch": 19.47497765862377,
      "grad_norm": 1.8104608898283914e-05,
      "learning_rate": 1.0494520704198985e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75887432,
      "step": 130755
    },
    {
      "epoch": 19.475722371164732,
      "grad_norm": 2.092312797685736e-06,
      "learning_rate": 1.0464799327552232e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75890376,
      "step": 130760
    },
    {
      "epoch": 19.47646708370569,
      "grad_norm": 4.496462679526303e-06,
      "learning_rate": 1.043512000907243e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75894024,
      "step": 130765
    },
    {
      "epoch": 19.47721179624665,
      "grad_norm": 1.0716498763940763e-05,
      "learning_rate": 1.040548274926112e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75896680,
      "step": 130770
    },
    {
      "epoch": 19.477956508787607,
      "grad_norm": 0.1582982987165451,
      "learning_rate": 1.0375887548618735e-07,
      "loss": 0.0004,
      "num_input_tokens_seen": 75899528,
      "step": 130775
    },
    {
      "epoch": 19.478701221328567,
      "grad_norm": 9.409539416083135e-06,
      "learning_rate": 1.034633440764543e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75902312,
      "step": 130780
    },
    {
      "epoch": 19.479445933869528,
      "grad_norm": 1.879338378785178e-05,
      "learning_rate": 1.031682332684053e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75905064,
      "step": 130785
    },
    {
      "epoch": 19.480190646410485,
      "grad_norm": 1.5117173461476341e-05,
      "learning_rate": 1.0287354306702524e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75907912,
      "step": 130790
    },
    {
      "epoch": 19.480935358951445,
      "grad_norm": 7.189245934569044e-06,
      "learning_rate": 1.0257927347729068e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75910888,
      "step": 130795
    },
    {
      "epoch": 19.481680071492406,
      "grad_norm": 4.29281953984173e-06,
      "learning_rate": 1.0228542450417545e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75913800,
      "step": 130800
    },
    {
      "epoch": 19.482424784033363,
      "grad_norm": 1.929054815263953e-05,
      "learning_rate": 1.0199199615264499e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75916872,
      "step": 130805
    },
    {
      "epoch": 19.483169496574323,
      "grad_norm": 3.6646022635977715e-05,
      "learning_rate": 1.0169898842765091e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75919688,
      "step": 130810
    },
    {
      "epoch": 19.48391420911528,
      "grad_norm": 4.8103775043273345e-05,
      "learning_rate": 1.0140640133415036e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75922664,
      "step": 130815
    },
    {
      "epoch": 19.48465892165624,
      "grad_norm": 5.4299603107210714e-06,
      "learning_rate": 1.0111423487708105e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75925512,
      "step": 130820
    },
    {
      "epoch": 19.4854036341972,
      "grad_norm": 9.818987564358395e-06,
      "learning_rate": 1.008224890613807e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75928168,
      "step": 130825
    },
    {
      "epoch": 19.486148346738158,
      "grad_norm": 8.400853403145447e-06,
      "learning_rate": 1.0053116389197592e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75930952,
      "step": 130830
    },
    {
      "epoch": 19.48689305927912,
      "grad_norm": 0.000460276089143008,
      "learning_rate": 1.0024025937379333e-07,
      "loss": 0.0,
      "num_input_tokens_seen": 75933864,
      "step": 130835
    },
    {
      "epoch": 19.487637771820076,
      "grad_norm": 1.0277496585331392e-05,
      "learning_rate": 9.994977551174289e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75936744,
      "step": 130840
    },
    {
      "epoch": 19.488382484361036,
      "grad_norm": 2.617704558360856e-05,
      "learning_rate": 9.965971231073456e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75939592,
      "step": 130845
    },
    {
      "epoch": 19.489127196901997,
      "grad_norm": 7.73602459958056e-06,
      "learning_rate": 9.937006977566998e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75942600,
      "step": 130850
    },
    {
      "epoch": 19.489871909442954,
      "grad_norm": 3.998906322522089e-05,
      "learning_rate": 9.90808479114369e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75945384,
      "step": 130855
    },
    {
      "epoch": 19.490616621983914,
      "grad_norm": 3.0879407859174535e-05,
      "learning_rate": 9.879204672292586e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75948296,
      "step": 130860
    },
    {
      "epoch": 19.491361334524875,
      "grad_norm": 2.570199649198912e-05,
      "learning_rate": 9.850366621501628e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75951016,
      "step": 130865
    },
    {
      "epoch": 19.492106047065832,
      "grad_norm": 5.560518548008986e-05,
      "learning_rate": 9.82157063925765e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75953768,
      "step": 130870
    },
    {
      "epoch": 19.492850759606792,
      "grad_norm": 1.32351451611612e-05,
      "learning_rate": 9.792816726047482e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75956680,
      "step": 130875
    },
    {
      "epoch": 19.49359547214775,
      "grad_norm": 4.412403086462291e-06,
      "learning_rate": 9.764104882356572e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75959464,
      "step": 130880
    },
    {
      "epoch": 19.49434018468871,
      "grad_norm": 5.878358024347108e-06,
      "learning_rate": 9.735435108670088e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75962280,
      "step": 130885
    },
    {
      "epoch": 19.49508489722967,
      "grad_norm": 3.092960696449154e-06,
      "learning_rate": 9.70680740547264e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 75965352,
      "step": 130890
    },
    {
      "epoch": 19.495829609770627,
      "grad_norm": 3.915475190297002e-06,
      "learning_rate": 9.67822177324773e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75968264,
      "step": 130895
    },
    {
      "epoch": 19.496574322311588,
      "grad_norm": 8.744939805183094e-06,
      "learning_rate": 9.64967821247803e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75971176,
      "step": 130900
    },
    {
      "epoch": 19.49731903485255,
      "grad_norm": 1.9680910554598086e-06,
      "learning_rate": 9.621176723645931e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75974120,
      "step": 130905
    },
    {
      "epoch": 19.498063747393505,
      "grad_norm": 0.0003645367396529764,
      "learning_rate": 9.59271730723299e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75976872,
      "step": 130910
    },
    {
      "epoch": 19.498808459934466,
      "grad_norm": 0.00011014693882316351,
      "learning_rate": 9.564299963719936e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75979720,
      "step": 130915
    },
    {
      "epoch": 19.499553172475423,
      "grad_norm": 3.888166247634217e-05,
      "learning_rate": 9.53592469358694e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75982536,
      "step": 130920
    },
    {
      "epoch": 19.500297885016384,
      "grad_norm": 2.155651782231871e-05,
      "learning_rate": 9.507591497313063e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75985160,
      "step": 130925
    },
    {
      "epoch": 19.501042597557344,
      "grad_norm": 4.267379335942678e-05,
      "learning_rate": 9.479300375377365e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75988104,
      "step": 130930
    },
    {
      "epoch": 19.5017873100983,
      "grad_norm": 2.416517963865772e-05,
      "learning_rate": 9.451051328257799e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75990792,
      "step": 130935
    },
    {
      "epoch": 19.50253202263926,
      "grad_norm": 2.332200892851688e-06,
      "learning_rate": 9.422844356431481e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75993544,
      "step": 130940
    },
    {
      "epoch": 19.503276735180222,
      "grad_norm": 0.0002209481899626553,
      "learning_rate": 9.3946794603747e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75996392,
      "step": 130945
    },
    {
      "epoch": 19.50402144772118,
      "grad_norm": 0.0016292160144075751,
      "learning_rate": 9.366556640563462e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 75999208,
      "step": 130950
    },
    {
      "epoch": 19.50476616026214,
      "grad_norm": 0.00014355622988659889,
      "learning_rate": 9.338475897472942e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76002120,
      "step": 130955
    },
    {
      "epoch": 19.505510872803097,
      "grad_norm": 6.641897925874218e-06,
      "learning_rate": 9.310437231577207e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76005192,
      "step": 130960
    },
    {
      "epoch": 19.506255585344057,
      "grad_norm": 8.665245695738122e-05,
      "learning_rate": 9.282440643350598e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76008008,
      "step": 130965
    },
    {
      "epoch": 19.507000297885018,
      "grad_norm": 6.369340553646907e-06,
      "learning_rate": 9.254486133265517e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76011048,
      "step": 130970
    },
    {
      "epoch": 19.507745010425975,
      "grad_norm": 0.00018972701218444854,
      "learning_rate": 9.226573701794361e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76013832,
      "step": 130975
    },
    {
      "epoch": 19.508489722966935,
      "grad_norm": 0.00020068595767952502,
      "learning_rate": 9.198703349408977e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76016872,
      "step": 130980
    },
    {
      "epoch": 19.509234435507892,
      "grad_norm": 2.7685712211678037e-06,
      "learning_rate": 9.170875076579821e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76019624,
      "step": 130985
    },
    {
      "epoch": 19.509979148048853,
      "grad_norm": 8.827076817397028e-05,
      "learning_rate": 9.143088883777073e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76022568,
      "step": 130990
    },
    {
      "epoch": 19.510723860589813,
      "grad_norm": 4.323876964917872e-06,
      "learning_rate": 9.115344771470357e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76025704,
      "step": 130995
    },
    {
      "epoch": 19.51146857313077,
      "grad_norm": 4.262759102857672e-05,
      "learning_rate": 9.087642740128188e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76028520,
      "step": 131000
    },
    {
      "epoch": 19.51221328567173,
      "grad_norm": 2.796600028887042e-06,
      "learning_rate": 9.059982790218801e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76031464,
      "step": 131005
    },
    {
      "epoch": 19.51295799821269,
      "grad_norm": 0.00025547825498506427,
      "learning_rate": 9.032364922209047e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76034312,
      "step": 131010
    },
    {
      "epoch": 19.51370271075365,
      "grad_norm": 2.5051488137251e-06,
      "learning_rate": 9.00478913656605e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76036936,
      "step": 131015
    },
    {
      "epoch": 19.51444742329461,
      "grad_norm": 5.578848868026398e-05,
      "learning_rate": 8.977255433755272e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76039816,
      "step": 131020
    },
    {
      "epoch": 19.515192135835566,
      "grad_norm": 1.3386933460424189e-05,
      "learning_rate": 8.949763814242173e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76042696,
      "step": 131025
    },
    {
      "epoch": 19.515936848376526,
      "grad_norm": 2.9309992441994837e-06,
      "learning_rate": 8.922314278490829e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76045640,
      "step": 131030
    },
    {
      "epoch": 19.516681560917487,
      "grad_norm": 1.5260889995261095e-05,
      "learning_rate": 8.89490682696531e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76048360,
      "step": 131035
    },
    {
      "epoch": 19.517426273458444,
      "grad_norm": 0.0011639322619885206,
      "learning_rate": 8.867541460128304e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76051112,
      "step": 131040
    },
    {
      "epoch": 19.518170985999404,
      "grad_norm": 5.1787583288387395e-06,
      "learning_rate": 8.840218178442494e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76054056,
      "step": 131045
    },
    {
      "epoch": 19.518915698540365,
      "grad_norm": 5.633757155010244e-06,
      "learning_rate": 8.81293698236918e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76057288,
      "step": 131050
    },
    {
      "epoch": 19.519660411081322,
      "grad_norm": 1.5057023119879887e-05,
      "learning_rate": 8.785697872369381e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76060264,
      "step": 131055
    },
    {
      "epoch": 19.520405123622282,
      "grad_norm": 8.161916775861755e-05,
      "learning_rate": 8.758500848903283e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76063144,
      "step": 131060
    },
    {
      "epoch": 19.52114983616324,
      "grad_norm": 3.932815161533654e-06,
      "learning_rate": 8.731345912430245e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76066344,
      "step": 131065
    },
    {
      "epoch": 19.5218945487042,
      "grad_norm": 0.0014433565083891153,
      "learning_rate": 8.704233063409339e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76069160,
      "step": 131070
    },
    {
      "epoch": 19.52263926124516,
      "grad_norm": 0.0001479160855524242,
      "learning_rate": 8.677162302298258e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76072168,
      "step": 131075
    },
    {
      "epoch": 19.523383973786117,
      "grad_norm": 1.4843613826087676e-05,
      "learning_rate": 8.650133629554413e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76075048,
      "step": 131080
    },
    {
      "epoch": 19.524128686327078,
      "grad_norm": 5.357056124921655e-06,
      "learning_rate": 8.623147045634383e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76078152,
      "step": 131085
    },
    {
      "epoch": 19.52487339886804,
      "grad_norm": 1.2936933671880979e-05,
      "learning_rate": 8.596202550994193e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76081224,
      "step": 131090
    },
    {
      "epoch": 19.525618111408996,
      "grad_norm": 3.825914973276667e-05,
      "learning_rate": 8.569300146089032e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76084424,
      "step": 131095
    },
    {
      "epoch": 19.526362823949956,
      "grad_norm": 7.019417807896389e-06,
      "learning_rate": 8.542439831373539e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76087144,
      "step": 131100
    },
    {
      "epoch": 19.527107536490913,
      "grad_norm": 3.291317625553347e-06,
      "learning_rate": 8.515621607301239e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76090088,
      "step": 131105
    },
    {
      "epoch": 19.527852249031874,
      "grad_norm": 9.23321204027161e-05,
      "learning_rate": 8.488845474325102e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76092936,
      "step": 131110
    },
    {
      "epoch": 19.528596961572834,
      "grad_norm": 2.173776238123537e-06,
      "learning_rate": 8.462111432897823e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76096200,
      "step": 131115
    },
    {
      "epoch": 19.52934167411379,
      "grad_norm": 3.831850790447788e-06,
      "learning_rate": 8.435419483470707e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76099432,
      "step": 131120
    },
    {
      "epoch": 19.53008638665475,
      "grad_norm": 4.027993782074191e-05,
      "learning_rate": 8.408769626495061e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76102280,
      "step": 131125
    },
    {
      "epoch": 19.530831099195712,
      "grad_norm": 1.777024749571865e-06,
      "learning_rate": 8.382161862420801e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76105096,
      "step": 131130
    },
    {
      "epoch": 19.53157581173667,
      "grad_norm": 0.00017792634025681764,
      "learning_rate": 8.355596191697845e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76107880,
      "step": 131135
    },
    {
      "epoch": 19.53232052427763,
      "grad_norm": 1.1583658306335565e-05,
      "learning_rate": 8.329072614774446e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76110600,
      "step": 131140
    },
    {
      "epoch": 19.533065236818587,
      "grad_norm": 3.248893790441798e-06,
      "learning_rate": 8.302591132098857e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76113544,
      "step": 131145
    },
    {
      "epoch": 19.533809949359547,
      "grad_norm": 4.89788089907961e-06,
      "learning_rate": 8.276151744118777e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76116552,
      "step": 131150
    },
    {
      "epoch": 19.534554661900508,
      "grad_norm": 3.774584547500126e-05,
      "learning_rate": 8.249754451280512e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76119272,
      "step": 131155
    },
    {
      "epoch": 19.535299374441465,
      "grad_norm": 2.1217589164734818e-05,
      "learning_rate": 8.223399254030095e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76121960,
      "step": 131160
    },
    {
      "epoch": 19.536044086982425,
      "grad_norm": 9.144094292423688e-06,
      "learning_rate": 8.197086152812728e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76124616,
      "step": 131165
    },
    {
      "epoch": 19.536788799523386,
      "grad_norm": 5.5631444411119446e-05,
      "learning_rate": 8.17081514807333e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76127560,
      "step": 131170
    },
    {
      "epoch": 19.537533512064343,
      "grad_norm": 2.0704033886431716e-05,
      "learning_rate": 8.144586240255159e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76130600,
      "step": 131175
    },
    {
      "epoch": 19.538278224605303,
      "grad_norm": 7.97953634901205e-06,
      "learning_rate": 8.118399429801749e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76133512,
      "step": 131180
    },
    {
      "epoch": 19.53902293714626,
      "grad_norm": 5.013836471334798e-06,
      "learning_rate": 8.092254717155246e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76136424,
      "step": 131185
    },
    {
      "epoch": 19.53976764968722,
      "grad_norm": 1.5416306268889457e-05,
      "learning_rate": 8.066152102757518e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76139336,
      "step": 131190
    },
    {
      "epoch": 19.54051236222818,
      "grad_norm": 4.666102540795691e-05,
      "learning_rate": 8.040091587049325e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76142504,
      "step": 131195
    },
    {
      "epoch": 19.54125707476914,
      "grad_norm": 4.804242053069174e-06,
      "learning_rate": 8.014073170471149e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76145320,
      "step": 131200
    },
    {
      "epoch": 19.5420017873101,
      "grad_norm": 2.3954735297593288e-05,
      "learning_rate": 7.988096853462634e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76148136,
      "step": 131205
    },
    {
      "epoch": 19.542746499851056,
      "grad_norm": 1.0821735486388206e-05,
      "learning_rate": 7.962162636462323e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76151240,
      "step": 131210
    },
    {
      "epoch": 19.543491212392016,
      "grad_norm": 4.232630817568861e-05,
      "learning_rate": 7.936270519908473e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76154408,
      "step": 131215
    },
    {
      "epoch": 19.544235924932977,
      "grad_norm": 4.495342182053719e-06,
      "learning_rate": 7.910420504238514e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76157288,
      "step": 131220
    },
    {
      "epoch": 19.544980637473934,
      "grad_norm": 1.5610057744197547e-05,
      "learning_rate": 7.88461258988904e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76160264,
      "step": 131225
    },
    {
      "epoch": 19.545725350014894,
      "grad_norm": 0.00013289961498230696,
      "learning_rate": 7.858846777296369e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76163176,
      "step": 131230
    },
    {
      "epoch": 19.546470062555855,
      "grad_norm": 5.65342315894668e-06,
      "learning_rate": 7.833123066895432e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76166056,
      "step": 131235
    },
    {
      "epoch": 19.547214775096812,
      "grad_norm": 1.609517858014442e-05,
      "learning_rate": 7.807441459121156e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76169064,
      "step": 131240
    },
    {
      "epoch": 19.547959487637772,
      "grad_norm": 9.569017856847495e-05,
      "learning_rate": 7.781801954406809e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76172200,
      "step": 131245
    },
    {
      "epoch": 19.54870420017873,
      "grad_norm": 1.1960075426031835e-05,
      "learning_rate": 7.756204553186208e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76175144,
      "step": 131250
    },
    {
      "epoch": 19.54944891271969,
      "grad_norm": 5.628827420878224e-05,
      "learning_rate": 7.730649255891509e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76178088,
      "step": 131255
    },
    {
      "epoch": 19.55019362526065,
      "grad_norm": 4.7714015636302065e-06,
      "learning_rate": 7.705136062954587e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76181288,
      "step": 131260
    },
    {
      "epoch": 19.550938337801608,
      "grad_norm": 0.00012176697782706469,
      "learning_rate": 7.679664974806212e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76183976,
      "step": 131265
    },
    {
      "epoch": 19.551683050342568,
      "grad_norm": 4.7098375944187865e-05,
      "learning_rate": 7.654235991876867e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76186920,
      "step": 131270
    },
    {
      "epoch": 19.55242776288353,
      "grad_norm": 3.582614453989663e-06,
      "learning_rate": 7.628849114596214e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76189640,
      "step": 131275
    },
    {
      "epoch": 19.553172475424486,
      "grad_norm": 3.256610580137931e-05,
      "learning_rate": 7.603504343392798e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76192616,
      "step": 131280
    },
    {
      "epoch": 19.553917187965446,
      "grad_norm": 5.748663625126937e-06,
      "learning_rate": 7.578201678694885e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76195528,
      "step": 131285
    },
    {
      "epoch": 19.554661900506403,
      "grad_norm": 3.912415650120238e-06,
      "learning_rate": 7.55294112093019e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76198504,
      "step": 131290
    },
    {
      "epoch": 19.555406613047364,
      "grad_norm": 1.812584559957031e-05,
      "learning_rate": 7.527722670525594e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76201736,
      "step": 131295
    },
    {
      "epoch": 19.556151325588324,
      "grad_norm": 5.730125849368051e-05,
      "learning_rate": 7.50254632790659e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76204616,
      "step": 131300
    },
    {
      "epoch": 19.55689603812928,
      "grad_norm": 7.678627298446372e-05,
      "learning_rate": 7.477412093498947e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76207432,
      "step": 131305
    },
    {
      "epoch": 19.55764075067024,
      "grad_norm": 2.0320005205576308e-05,
      "learning_rate": 7.452319967727328e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76210344,
      "step": 131310
    },
    {
      "epoch": 19.558385463211202,
      "grad_norm": 4.6986533561721444e-05,
      "learning_rate": 7.427269951015004e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76213096,
      "step": 131315
    },
    {
      "epoch": 19.55913017575216,
      "grad_norm": 5.937703008385142e-06,
      "learning_rate": 7.402262043785801e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76215912,
      "step": 131320
    },
    {
      "epoch": 19.55987488829312,
      "grad_norm": 8.816601621219888e-06,
      "learning_rate": 7.377296246462162e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76218952,
      "step": 131325
    },
    {
      "epoch": 19.560619600834077,
      "grad_norm": 2.7436686650617048e-05,
      "learning_rate": 7.352372559465693e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76222184,
      "step": 131330
    },
    {
      "epoch": 19.561364313375037,
      "grad_norm": 0.0001487263507442549,
      "learning_rate": 7.327490983217444e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76225096,
      "step": 131335
    },
    {
      "epoch": 19.562109025915998,
      "grad_norm": 1.0886024028877728e-05,
      "learning_rate": 7.302651518137638e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76227944,
      "step": 131340
    },
    {
      "epoch": 19.562853738456955,
      "grad_norm": 3.6239032397133997e-06,
      "learning_rate": 7.277854164646214e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76231176,
      "step": 131345
    },
    {
      "epoch": 19.563598450997915,
      "grad_norm": 1.799178426153958e-05,
      "learning_rate": 7.253098923162005e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76234120,
      "step": 131350
    },
    {
      "epoch": 19.564343163538872,
      "grad_norm": 1.3149176083970815e-05,
      "learning_rate": 7.22838579410301e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76237064,
      "step": 131355
    },
    {
      "epoch": 19.565087876079833,
      "grad_norm": 3.676358755910769e-05,
      "learning_rate": 7.20371477788695e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76240328,
      "step": 131360
    },
    {
      "epoch": 19.565832588620793,
      "grad_norm": 0.0005607046186923981,
      "learning_rate": 7.179085874930713e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76243176,
      "step": 131365
    },
    {
      "epoch": 19.56657730116175,
      "grad_norm": 2.4816126824589446e-06,
      "learning_rate": 7.154499085650079e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76246216,
      "step": 131370
    },
    {
      "epoch": 19.56732201370271,
      "grad_norm": 4.439810709300218e-06,
      "learning_rate": 7.129954410460548e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76248840,
      "step": 131375
    },
    {
      "epoch": 19.56806672624367,
      "grad_norm": 7.676870154682547e-06,
      "learning_rate": 7.105451849777067e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76251752,
      "step": 131380
    },
    {
      "epoch": 19.56881143878463,
      "grad_norm": 7.84349595051026e-06,
      "learning_rate": 7.080991404012915e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76254312,
      "step": 131385
    },
    {
      "epoch": 19.56955615132559,
      "grad_norm": 1.0883912182180211e-05,
      "learning_rate": 7.056573073581929e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76257096,
      "step": 131390
    },
    {
      "epoch": 19.570300863866546,
      "grad_norm": 1.6147670976351947e-05,
      "learning_rate": 7.032196858896279e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76260104,
      "step": 131395
    },
    {
      "epoch": 19.571045576407506,
      "grad_norm": 1.4100824046181515e-05,
      "learning_rate": 7.007862760368133e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76262824,
      "step": 131400
    },
    {
      "epoch": 19.571790288948467,
      "grad_norm": 6.380772902048193e-06,
      "learning_rate": 6.983570778408277e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76265640,
      "step": 131405
    },
    {
      "epoch": 19.572535001489424,
      "grad_norm": 2.92728582280688e-05,
      "learning_rate": 6.959320913427492e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76268904,
      "step": 131410
    },
    {
      "epoch": 19.573279714030384,
      "grad_norm": 4.015199010609649e-05,
      "learning_rate": 6.935113165834616e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76271944,
      "step": 131415
    },
    {
      "epoch": 19.574024426571345,
      "grad_norm": 3.0258161132223904e-06,
      "learning_rate": 6.910947536039603e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76274984,
      "step": 131420
    },
    {
      "epoch": 19.574769139112302,
      "grad_norm": 6.053440301911905e-06,
      "learning_rate": 6.886824024450178e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76278216,
      "step": 131425
    },
    {
      "epoch": 19.575513851653263,
      "grad_norm": 6.42492977931397e-06,
      "learning_rate": 6.862742631473795e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76281000,
      "step": 131430
    },
    {
      "epoch": 19.57625856419422,
      "grad_norm": 0.0003544228966347873,
      "learning_rate": 6.838703357517628e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76284008,
      "step": 131435
    },
    {
      "epoch": 19.57700327673518,
      "grad_norm": 2.394013063167222e-05,
      "learning_rate": 6.814706202987465e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76286536,
      "step": 131440
    },
    {
      "epoch": 19.57774798927614,
      "grad_norm": 3.399049546715105e-06,
      "learning_rate": 6.79075116828909e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76289320,
      "step": 131445
    },
    {
      "epoch": 19.578492701817098,
      "grad_norm": 4.175321009824984e-06,
      "learning_rate": 6.766838253826902e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76292232,
      "step": 131450
    },
    {
      "epoch": 19.579237414358058,
      "grad_norm": 5.685062205884606e-06,
      "learning_rate": 6.742967460005023e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76294856,
      "step": 131455
    },
    {
      "epoch": 19.57998212689902,
      "grad_norm": 0.0006597157916985452,
      "learning_rate": 6.719138787226464e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76297736,
      "step": 131460
    },
    {
      "epoch": 19.580726839439976,
      "grad_norm": 4.601142791216262e-06,
      "learning_rate": 6.695352235894237e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76300456,
      "step": 131465
    },
    {
      "epoch": 19.581471551980936,
      "grad_norm": 1.602807969902642e-05,
      "learning_rate": 6.671607806409963e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76303432,
      "step": 131470
    },
    {
      "epoch": 19.582216264521893,
      "grad_norm": 3.472909384072409e-06,
      "learning_rate": 6.647905499174712e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76306472,
      "step": 131475
    },
    {
      "epoch": 19.582960977062854,
      "grad_norm": 6.046082944521913e-06,
      "learning_rate": 6.624245314588994e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76309352,
      "step": 131480
    },
    {
      "epoch": 19.583705689603814,
      "grad_norm": 3.149766052956693e-05,
      "learning_rate": 6.600627253052216e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76311912,
      "step": 131485
    },
    {
      "epoch": 19.58445040214477,
      "grad_norm": 3.993215614173096e-06,
      "learning_rate": 6.577051314964055e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76314600,
      "step": 131490
    },
    {
      "epoch": 19.58519511468573,
      "grad_norm": 2.9082948458380997e-05,
      "learning_rate": 6.55351750072225e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76317384,
      "step": 131495
    },
    {
      "epoch": 19.58593982722669,
      "grad_norm": 3.2996676964103244e-06,
      "learning_rate": 6.530025810724539e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76320232,
      "step": 131500
    },
    {
      "epoch": 19.58668453976765,
      "grad_norm": 4.537718723440776e-06,
      "learning_rate": 6.506576245367824e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76322792,
      "step": 131505
    },
    {
      "epoch": 19.58742925230861,
      "grad_norm": 2.392430587860872e-06,
      "learning_rate": 6.483168805047901e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76325544,
      "step": 131510
    },
    {
      "epoch": 19.588173964849567,
      "grad_norm": 0.00011294099385850132,
      "learning_rate": 6.459803490160843e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76328264,
      "step": 131515
    },
    {
      "epoch": 19.588918677390527,
      "grad_norm": 1.5063810678839218e-05,
      "learning_rate": 6.436480301101055e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76331144,
      "step": 131520
    },
    {
      "epoch": 19.589663389931488,
      "grad_norm": 1.6707434042473324e-05,
      "learning_rate": 6.413199238262668e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76334184,
      "step": 131525
    },
    {
      "epoch": 19.590408102472445,
      "grad_norm": 2.5898305011651246e-06,
      "learning_rate": 6.389960302038978e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76336808,
      "step": 131530
    },
    {
      "epoch": 19.591152815013405,
      "grad_norm": 6.53767983749276e-06,
      "learning_rate": 6.366763492822448e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76339720,
      "step": 131535
    },
    {
      "epoch": 19.591897527554362,
      "grad_norm": 0.00033928139600902796,
      "learning_rate": 6.343608811004986e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76342536,
      "step": 131540
    },
    {
      "epoch": 19.592642240095323,
      "grad_norm": 2.121643592545297e-05,
      "learning_rate": 6.320496256977671e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76345448,
      "step": 131545
    },
    {
      "epoch": 19.593386952636283,
      "grad_norm": 9.721388050820678e-05,
      "learning_rate": 6.297425831131299e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76348136,
      "step": 131550
    },
    {
      "epoch": 19.59413166517724,
      "grad_norm": 3.51685521309264e-05,
      "learning_rate": 6.274397533855281e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76351112,
      "step": 131555
    },
    {
      "epoch": 19.5948763777182,
      "grad_norm": 0.0006345898727886379,
      "learning_rate": 6.251411365539029e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76354056,
      "step": 131560
    },
    {
      "epoch": 19.59562109025916,
      "grad_norm": 3.184541128575802e-05,
      "learning_rate": 6.228467326570286e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76356584,
      "step": 131565
    },
    {
      "epoch": 19.59636580280012,
      "grad_norm": 3.3489498036942678e-06,
      "learning_rate": 6.205565417337356e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76359688,
      "step": 131570
    },
    {
      "epoch": 19.59711051534108,
      "grad_norm": 4.338292910688324e-06,
      "learning_rate": 6.182705638226872e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76362728,
      "step": 131575
    },
    {
      "epoch": 19.597855227882036,
      "grad_norm": 8.476393304590601e-06,
      "learning_rate": 6.159887989624635e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76365512,
      "step": 131580
    },
    {
      "epoch": 19.598599940422996,
      "grad_norm": 2.4437006231892155e-06,
      "learning_rate": 6.137112471916729e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76368296,
      "step": 131585
    },
    {
      "epoch": 19.599344652963957,
      "grad_norm": 3.965926225646399e-06,
      "learning_rate": 6.114379085487565e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76371112,
      "step": 131590
    },
    {
      "epoch": 19.600089365504914,
      "grad_norm": 3.4071529171342263e-06,
      "learning_rate": 6.091687830721282e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76374216,
      "step": 131595
    },
    {
      "epoch": 19.600834078045875,
      "grad_norm": 0.0006194073357619345,
      "learning_rate": 6.069038708001462e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76377128,
      "step": 131600
    },
    {
      "epoch": 19.601578790586835,
      "grad_norm": 2.48288761213189e-05,
      "learning_rate": 6.046431717710299e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76379816,
      "step": 131605
    },
    {
      "epoch": 19.602323503127792,
      "grad_norm": 0.00042571392259560525,
      "learning_rate": 6.023866860229988e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76382728,
      "step": 131610
    },
    {
      "epoch": 19.603068215668753,
      "grad_norm": 1.2229496860527433e-05,
      "learning_rate": 6.001344135941611e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76385768,
      "step": 131615
    },
    {
      "epoch": 19.60381292820971,
      "grad_norm": 3.51739640791493e-06,
      "learning_rate": 5.9788635452257e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76388776,
      "step": 131620
    },
    {
      "epoch": 19.60455764075067,
      "grad_norm": 5.820844307891093e-06,
      "learning_rate": 5.9564250884622255e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76391656,
      "step": 131625
    },
    {
      "epoch": 19.60530235329163,
      "grad_norm": 2.743744153121952e-05,
      "learning_rate": 5.934028766030053e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76394664,
      "step": 131630
    },
    {
      "epoch": 19.606047065832588,
      "grad_norm": 2.044889924945892e-06,
      "learning_rate": 5.911674578307491e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76397544,
      "step": 131635
    },
    {
      "epoch": 19.606791778373548,
      "grad_norm": 1.021301250148099e-05,
      "learning_rate": 5.88936252567257e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76400328,
      "step": 131640
    },
    {
      "epoch": 19.60753649091451,
      "grad_norm": 3.575214941520244e-05,
      "learning_rate": 5.8670926085016564e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76403176,
      "step": 131645
    },
    {
      "epoch": 19.608281203455466,
      "grad_norm": 0.0001342392060905695,
      "learning_rate": 5.8448648271713925e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76406312,
      "step": 131650
    },
    {
      "epoch": 19.609025915996426,
      "grad_norm": 6.12093645031564e-05,
      "learning_rate": 5.822679182057311e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76409256,
      "step": 131655
    },
    {
      "epoch": 19.609770628537383,
      "grad_norm": 4.259255092620151e-06,
      "learning_rate": 5.8005356735341135e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76412008,
      "step": 131660
    },
    {
      "epoch": 19.610515341078344,
      "grad_norm": 3.871481112582842e-06,
      "learning_rate": 5.7784343019759436e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76414792,
      "step": 131665
    },
    {
      "epoch": 19.611260053619304,
      "grad_norm": 2.98184750135988e-05,
      "learning_rate": 5.756375067755837e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76417896,
      "step": 131670
    },
    {
      "epoch": 19.61200476616026,
      "grad_norm": 9.77095896814717e-06,
      "learning_rate": 5.7343579712468286e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76421160,
      "step": 131675
    },
    {
      "epoch": 19.61274947870122,
      "grad_norm": 1.1030915629817173e-05,
      "learning_rate": 5.712383012820843e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76423976,
      "step": 131680
    },
    {
      "epoch": 19.613494191242182,
      "grad_norm": 6.791305622755317e-06,
      "learning_rate": 5.6904501928489726e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76426664,
      "step": 131685
    },
    {
      "epoch": 19.61423890378314,
      "grad_norm": 3.6935558455297723e-05,
      "learning_rate": 5.668559511702032e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76429160,
      "step": 131690
    },
    {
      "epoch": 19.6149836163241,
      "grad_norm": 6.747126008121995e-06,
      "learning_rate": 5.646710969749447e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76431880,
      "step": 131695
    },
    {
      "epoch": 19.615728328865057,
      "grad_norm": 0.0008114689844660461,
      "learning_rate": 5.6249045673606446e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76434696,
      "step": 131700
    },
    {
      "epoch": 19.616473041406017,
      "grad_norm": 3.681826228785212e-06,
      "learning_rate": 5.603140304903942e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76437512,
      "step": 131705
    },
    {
      "epoch": 19.617217753946978,
      "grad_norm": 5.272275757306488e-06,
      "learning_rate": 5.581418182746823e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76440424,
      "step": 131710
    },
    {
      "epoch": 19.617962466487935,
      "grad_norm": 1.7332935385638848e-05,
      "learning_rate": 5.55973820125677e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76443368,
      "step": 131715
    },
    {
      "epoch": 19.618707179028895,
      "grad_norm": 0.00028390574152581394,
      "learning_rate": 5.538100360799325e-08,
      "loss": 0.0011,
      "num_input_tokens_seen": 76446248,
      "step": 131720
    },
    {
      "epoch": 19.619451891569852,
      "grad_norm": 1.3590284652309492e-05,
      "learning_rate": 5.516504661740585e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76449256,
      "step": 131725
    },
    {
      "epoch": 19.620196604110813,
      "grad_norm": 3.7238474760670215e-05,
      "learning_rate": 5.494951104445256e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76452296,
      "step": 131730
    },
    {
      "epoch": 19.620941316651773,
      "grad_norm": 9.068332474271301e-06,
      "learning_rate": 5.473439689277493e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76455304,
      "step": 131735
    },
    {
      "epoch": 19.62168602919273,
      "grad_norm": 8.838167559588328e-06,
      "learning_rate": 5.451970416600338e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76458504,
      "step": 131740
    },
    {
      "epoch": 19.62243074173369,
      "grad_norm": 4.496467954595573e-05,
      "learning_rate": 5.430543286777112e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76461320,
      "step": 131745
    },
    {
      "epoch": 19.62317545427465,
      "grad_norm": 2.468152615620056e-06,
      "learning_rate": 5.4091583001691923e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76464200,
      "step": 131750
    },
    {
      "epoch": 19.62392016681561,
      "grad_norm": 1.3775527804682497e-05,
      "learning_rate": 5.387815457138512e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76467176,
      "step": 131755
    },
    {
      "epoch": 19.62466487935657,
      "grad_norm": 3.92743731936207e-06,
      "learning_rate": 5.3665147580450604e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76470312,
      "step": 131760
    },
    {
      "epoch": 19.625409591897526,
      "grad_norm": 3.510177521093283e-06,
      "learning_rate": 5.3452562032488275e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76473224,
      "step": 131765
    },
    {
      "epoch": 19.626154304438487,
      "grad_norm": 2.141648110409733e-06,
      "learning_rate": 5.324039793109248e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76475880,
      "step": 131770
    },
    {
      "epoch": 19.626899016979447,
      "grad_norm": 3.5289810966787627e-06,
      "learning_rate": 5.302865527984369e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76478536,
      "step": 131775
    },
    {
      "epoch": 19.627643729520404,
      "grad_norm": 0.0003101871407125145,
      "learning_rate": 5.281733408232237e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76481352,
      "step": 131780
    },
    {
      "epoch": 19.628388442061365,
      "grad_norm": 0.00012323781265877187,
      "learning_rate": 5.2606434342095115e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76484136,
      "step": 131785
    },
    {
      "epoch": 19.629133154602325,
      "grad_norm": 0.00021033140365034342,
      "learning_rate": 5.2395956062728515e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76487272,
      "step": 131790
    },
    {
      "epoch": 19.629877867143282,
      "grad_norm": 1.1179882676515263e-05,
      "learning_rate": 5.218589924777528e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76490088,
      "step": 131795
    },
    {
      "epoch": 19.630622579684243,
      "grad_norm": 5.1255883590783924e-05,
      "learning_rate": 5.1976263900788136e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76493192,
      "step": 131800
    },
    {
      "epoch": 19.6313672922252,
      "grad_norm": 3.3649637316557346e-06,
      "learning_rate": 5.176705002530313e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76496360,
      "step": 131805
    },
    {
      "epoch": 19.63211200476616,
      "grad_norm": 0.0053771804086863995,
      "learning_rate": 5.155825762485911e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76499080,
      "step": 131810
    },
    {
      "epoch": 19.63285671730712,
      "grad_norm": 3.84923669116688e-06,
      "learning_rate": 5.134988670298102e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76502344,
      "step": 131815
    },
    {
      "epoch": 19.633601429848078,
      "grad_norm": 5.2300147217465565e-05,
      "learning_rate": 5.1141937263188276e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76505416,
      "step": 131820
    },
    {
      "epoch": 19.634346142389038,
      "grad_norm": 8.488394087180495e-06,
      "learning_rate": 5.093440930899751e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76508296,
      "step": 131825
    },
    {
      "epoch": 19.63509085493,
      "grad_norm": 2.4437282263534144e-05,
      "learning_rate": 5.072730284391425e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76511400,
      "step": 131830
    },
    {
      "epoch": 19.635835567470956,
      "grad_norm": 2.0783505533472635e-05,
      "learning_rate": 5.0520617871432916e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76514248,
      "step": 131835
    },
    {
      "epoch": 19.636580280011916,
      "grad_norm": 1.2376781342027243e-05,
      "learning_rate": 5.0314354395050724e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76517288,
      "step": 131840
    },
    {
      "epoch": 19.637324992552873,
      "grad_norm": 2.6768454972625477e-06,
      "learning_rate": 5.010851241824821e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76520040,
      "step": 131845
    },
    {
      "epoch": 19.638069705093834,
      "grad_norm": 5.2282783144619316e-05,
      "learning_rate": 4.990309194450593e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76523208,
      "step": 131850
    },
    {
      "epoch": 19.638814417634794,
      "grad_norm": 3.37885057888343e-06,
      "learning_rate": 4.9698092977290556e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76525800,
      "step": 131855
    },
    {
      "epoch": 19.63955913017575,
      "grad_norm": 4.054193595948163e-06,
      "learning_rate": 4.9493515520068754e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76528744,
      "step": 131860
    },
    {
      "epoch": 19.640303842716712,
      "grad_norm": 5.882956611458212e-05,
      "learning_rate": 4.92893595762961e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76531976,
      "step": 131865
    },
    {
      "epoch": 19.64104855525767,
      "grad_norm": 1.710758442641236e-05,
      "learning_rate": 4.908562514941983e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76536072,
      "step": 131870
    },
    {
      "epoch": 19.64179326779863,
      "grad_norm": 0.0006080724415369332,
      "learning_rate": 4.888231224288442e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76539112,
      "step": 131875
    },
    {
      "epoch": 19.64253798033959,
      "grad_norm": 3.006162160090753e-06,
      "learning_rate": 4.867942086012045e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76541864,
      "step": 131880
    },
    {
      "epoch": 19.643282692880547,
      "grad_norm": 4.3615973481792025e-06,
      "learning_rate": 4.847695100456129e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76544584,
      "step": 131885
    },
    {
      "epoch": 19.644027405421507,
      "grad_norm": 6.764729914721102e-05,
      "learning_rate": 4.8274902679623644e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76547304,
      "step": 131890
    },
    {
      "epoch": 19.644772117962468,
      "grad_norm": 4.429825821716804e-06,
      "learning_rate": 4.807327588871868e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76550344,
      "step": 131895
    },
    {
      "epoch": 19.645516830503425,
      "grad_norm": 3.078015652135946e-06,
      "learning_rate": 4.7872070635260333e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76553512,
      "step": 131900
    },
    {
      "epoch": 19.646261543044385,
      "grad_norm": 3.4739536204142496e-05,
      "learning_rate": 4.7671286922640335e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76556584,
      "step": 131905
    },
    {
      "epoch": 19.647006255585342,
      "grad_norm": 5.3528281569015235e-05,
      "learning_rate": 4.7470924754253184e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76559592,
      "step": 131910
    },
    {
      "epoch": 19.647750968126303,
      "grad_norm": 0.00018669539713300765,
      "learning_rate": 4.727098413348785e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76562504,
      "step": 131915
    },
    {
      "epoch": 19.648495680667263,
      "grad_norm": 3.639590067905374e-05,
      "learning_rate": 4.707146506371385e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76565512,
      "step": 131920
    },
    {
      "epoch": 19.64924039320822,
      "grad_norm": 9.01795137906447e-05,
      "learning_rate": 4.6872367548309036e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76568328,
      "step": 131925
    },
    {
      "epoch": 19.64998510574918,
      "grad_norm": 7.16390195520944e-06,
      "learning_rate": 4.6673691590634614e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76571240,
      "step": 131930
    },
    {
      "epoch": 19.65072981829014,
      "grad_norm": 3.740089596249163e-05,
      "learning_rate": 4.6475437194046237e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76573992,
      "step": 131935
    },
    {
      "epoch": 19.6514745308311,
      "grad_norm": 1.5111490938579664e-05,
      "learning_rate": 4.627760436189121e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76576872,
      "step": 131940
    },
    {
      "epoch": 19.65221924337206,
      "grad_norm": 1.2125626199122053e-05,
      "learning_rate": 4.6080193097516877e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76579784,
      "step": 131945
    },
    {
      "epoch": 19.652963955913016,
      "grad_norm": 3.1041876354720443e-05,
      "learning_rate": 4.588320340425667e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76582664,
      "step": 131950
    },
    {
      "epoch": 19.653708668453977,
      "grad_norm": 8.473125490127131e-06,
      "learning_rate": 4.5686635285432934e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76585192,
      "step": 131955
    },
    {
      "epoch": 19.654453380994937,
      "grad_norm": 2.3453927497030236e-05,
      "learning_rate": 4.5490488744376335e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76588136,
      "step": 131960
    },
    {
      "epoch": 19.655198093535894,
      "grad_norm": 3.762384949368425e-05,
      "learning_rate": 4.529476378439257e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76590952,
      "step": 131965
    },
    {
      "epoch": 19.655942806076855,
      "grad_norm": 8.773116860538721e-06,
      "learning_rate": 4.50994604087901e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76593544,
      "step": 131970
    },
    {
      "epoch": 19.656687518617815,
      "grad_norm": 5.652904746966669e-06,
      "learning_rate": 4.490457862087183e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76596712,
      "step": 131975
    },
    {
      "epoch": 19.657432231158772,
      "grad_norm": 6.070249128242722e-06,
      "learning_rate": 4.471011842392403e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76599368,
      "step": 131980
    },
    {
      "epoch": 19.658176943699733,
      "grad_norm": 1.9282881112303585e-05,
      "learning_rate": 4.451607982123851e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76602184,
      "step": 131985
    },
    {
      "epoch": 19.65892165624069,
      "grad_norm": 1.3413546184892766e-05,
      "learning_rate": 4.432246281609042e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76605352,
      "step": 131990
    },
    {
      "epoch": 19.65966636878165,
      "grad_norm": 0.0001070759681169875,
      "learning_rate": 4.4129267411749386e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76608232,
      "step": 131995
    },
    {
      "epoch": 19.66041108132261,
      "grad_norm": 1.892974069050979e-05,
      "learning_rate": 4.393649361147944e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76611240,
      "step": 132000
    },
    {
      "epoch": 19.661155793863568,
      "grad_norm": 5.51059129065834e-05,
      "learning_rate": 4.374414141853911e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76614024,
      "step": 132005
    },
    {
      "epoch": 19.66190050640453,
      "grad_norm": 0.00038198905531316996,
      "learning_rate": 4.355221083617578e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76616744,
      "step": 132010
    },
    {
      "epoch": 19.662645218945485,
      "grad_norm": 3.866795850626659e-06,
      "learning_rate": 4.336070186763685e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76619400,
      "step": 132015
    },
    {
      "epoch": 19.663389931486446,
      "grad_norm": 5.380039510782808e-06,
      "learning_rate": 4.316961451615031e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76622056,
      "step": 132020
    },
    {
      "epoch": 19.664134644027406,
      "grad_norm": 3.096792352152988e-05,
      "learning_rate": 4.297894878494968e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76624872,
      "step": 132025
    },
    {
      "epoch": 19.664879356568363,
      "grad_norm": 7.96711628936464e-06,
      "learning_rate": 4.27887046772546e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76627560,
      "step": 132030
    },
    {
      "epoch": 19.665624069109324,
      "grad_norm": 0.0019369887886568904,
      "learning_rate": 4.2598882196279165e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76630344,
      "step": 132035
    },
    {
      "epoch": 19.666368781650284,
      "grad_norm": 1.3946892067906447e-05,
      "learning_rate": 4.240948134522915e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76633064,
      "step": 132040
    },
    {
      "epoch": 19.66711349419124,
      "grad_norm": 4.645346780307591e-05,
      "learning_rate": 4.2220502127304775e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76636136,
      "step": 132045
    },
    {
      "epoch": 19.667858206732202,
      "grad_norm": 9.660327123128809e-06,
      "learning_rate": 4.2031944545700696e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76639080,
      "step": 132050
    },
    {
      "epoch": 19.66860291927316,
      "grad_norm": 5.484815119416453e-06,
      "learning_rate": 4.184380860360049e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76641736,
      "step": 132055
    },
    {
      "epoch": 19.66934763181412,
      "grad_norm": 2.2189374249137472e-06,
      "learning_rate": 4.165609430418216e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76644648,
      "step": 132060
    },
    {
      "epoch": 19.67009234435508,
      "grad_norm": 3.484727130853571e-05,
      "learning_rate": 4.1468801650618175e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76647528,
      "step": 132065
    },
    {
      "epoch": 19.670837056896037,
      "grad_norm": 3.919353548553772e-05,
      "learning_rate": 4.128193064606989e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76650408,
      "step": 132070
    },
    {
      "epoch": 19.671581769436997,
      "grad_norm": 2.5938143153325655e-06,
      "learning_rate": 4.1095481293698665e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76654024,
      "step": 132075
    },
    {
      "epoch": 19.672326481977958,
      "grad_norm": 9.508974471827969e-06,
      "learning_rate": 4.0909453596651995e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76656744,
      "step": 132080
    },
    {
      "epoch": 19.673071194518915,
      "grad_norm": 2.954215915451641e-06,
      "learning_rate": 4.0723847558071795e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76659784,
      "step": 132085
    },
    {
      "epoch": 19.673815907059875,
      "grad_norm": 6.280772595346207e-06,
      "learning_rate": 4.0538663181097224e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76662728,
      "step": 132090
    },
    {
      "epoch": 19.674560619600832,
      "grad_norm": 3.6977737636334496e-06,
      "learning_rate": 4.035390046885079e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76665704,
      "step": 132095
    },
    {
      "epoch": 19.675305332141793,
      "grad_norm": 1.3678290088137146e-05,
      "learning_rate": 4.016955942446055e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76669000,
      "step": 132100
    },
    {
      "epoch": 19.676050044682754,
      "grad_norm": 3.7478507692867424e-06,
      "learning_rate": 3.9985640051035114e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76672008,
      "step": 132105
    },
    {
      "epoch": 19.67679475722371,
      "grad_norm": 4.29084457209683e-06,
      "learning_rate": 3.980214235168589e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76674792,
      "step": 132110
    },
    {
      "epoch": 19.67753946976467,
      "grad_norm": 0.0001901101932162419,
      "learning_rate": 3.96190663295104e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76677992,
      "step": 132115
    },
    {
      "epoch": 19.67828418230563,
      "grad_norm": 1.9478531612548977e-05,
      "learning_rate": 3.943641198760062e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76680776,
      "step": 132120
    },
    {
      "epoch": 19.67902889484659,
      "grad_norm": 8.569583769713063e-06,
      "learning_rate": 3.925417932904574e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76683304,
      "step": 132125
    },
    {
      "epoch": 19.67977360738755,
      "grad_norm": 1.2308411896810867e-05,
      "learning_rate": 3.907236835692385e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76686184,
      "step": 132130
    },
    {
      "epoch": 19.680518319928506,
      "grad_norm": 3.6220965284883277e-06,
      "learning_rate": 3.8890979074301946e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76689320,
      "step": 132135
    },
    {
      "epoch": 19.681263032469467,
      "grad_norm": 2.3903450710349716e-05,
      "learning_rate": 3.8710011484249795e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76692456,
      "step": 132140
    },
    {
      "epoch": 19.682007745010427,
      "grad_norm": 3.311471346023609e-06,
      "learning_rate": 3.8529465589820514e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76695336,
      "step": 132145
    },
    {
      "epoch": 19.682752457551384,
      "grad_norm": 0.00010700715210987255,
      "learning_rate": 3.8349341394067204e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76698024,
      "step": 132150
    },
    {
      "epoch": 19.683497170092345,
      "grad_norm": 1.9920440536225215e-05,
      "learning_rate": 3.816963890003189e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76700744,
      "step": 132155
    },
    {
      "epoch": 19.684241882633305,
      "grad_norm": 7.82429015089292e-06,
      "learning_rate": 3.799035811075102e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76703592,
      "step": 132160
    },
    {
      "epoch": 19.684986595174262,
      "grad_norm": 0.00023965815489646047,
      "learning_rate": 3.7811499029252737e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76706376,
      "step": 132165
    },
    {
      "epoch": 19.685731307715223,
      "grad_norm": 0.00010384456982137635,
      "learning_rate": 3.763306165855962e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76709384,
      "step": 132170
    },
    {
      "epoch": 19.68647602025618,
      "grad_norm": 2.9899063065386144e-06,
      "learning_rate": 3.745504600168315e-08,
      "loss": 0.0002,
      "num_input_tokens_seen": 76712168,
      "step": 132175
    },
    {
      "epoch": 19.68722073279714,
      "grad_norm": 2.5766230464796536e-06,
      "learning_rate": 3.72774520616348e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76714792,
      "step": 132180
    },
    {
      "epoch": 19.6879654453381,
      "grad_norm": 8.425028681813274e-06,
      "learning_rate": 3.7100279841412177e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76717640,
      "step": 132185
    },
    {
      "epoch": 19.688710157879058,
      "grad_norm": 8.514212822774425e-05,
      "learning_rate": 3.6923529344007336e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76720200,
      "step": 132190
    },
    {
      "epoch": 19.68945487042002,
      "grad_norm": 1.6428261005785316e-05,
      "learning_rate": 3.674720057240955e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76723240,
      "step": 132195
    },
    {
      "epoch": 19.69019958296098,
      "grad_norm": 1.8974827753481804e-06,
      "learning_rate": 3.657129352959698e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76726088,
      "step": 132200
    },
    {
      "epoch": 19.690944295501936,
      "grad_norm": 2.600558900667238e-06,
      "learning_rate": 3.63958082185395e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76729352,
      "step": 132205
    },
    {
      "epoch": 19.691689008042896,
      "grad_norm": 1.2105970199627336e-05,
      "learning_rate": 3.622074464220415e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76732296,
      "step": 132210
    },
    {
      "epoch": 19.692433720583853,
      "grad_norm": 2.329899189135176e-06,
      "learning_rate": 3.604610280354692e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76735016,
      "step": 132215
    },
    {
      "epoch": 19.693178433124814,
      "grad_norm": 7.052472938084975e-05,
      "learning_rate": 3.587188270551822e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76737832,
      "step": 132220
    },
    {
      "epoch": 19.693923145665774,
      "grad_norm": 4.422021811478771e-05,
      "learning_rate": 3.569808435106292e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76741160,
      "step": 132225
    },
    {
      "epoch": 19.69466785820673,
      "grad_norm": 0.00013630356988869607,
      "learning_rate": 3.552470774311478e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76744104,
      "step": 132230
    },
    {
      "epoch": 19.695412570747692,
      "grad_norm": 4.0284056012751535e-05,
      "learning_rate": 3.535175288460479e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76746664,
      "step": 132235
    },
    {
      "epoch": 19.69615728328865,
      "grad_norm": 1.2012634215352591e-05,
      "learning_rate": 3.5179219778452846e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76749448,
      "step": 132240
    },
    {
      "epoch": 19.69690199582961,
      "grad_norm": 9.155337465927005e-05,
      "learning_rate": 3.500710842757604e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76751912,
      "step": 132245
    },
    {
      "epoch": 19.69764670837057,
      "grad_norm": 0.001290937652811408,
      "learning_rate": 3.483541883487762e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76754920,
      "step": 132250
    },
    {
      "epoch": 19.698391420911527,
      "grad_norm": 0.00011995471868431196,
      "learning_rate": 3.466415100326359e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76758152,
      "step": 132255
    },
    {
      "epoch": 19.699136133452487,
      "grad_norm": 1.836698538681958e-05,
      "learning_rate": 3.449330493562608e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76761000,
      "step": 132260
    },
    {
      "epoch": 19.699880845993448,
      "grad_norm": 1.9597026039264165e-05,
      "learning_rate": 3.4322880634851674e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76763880,
      "step": 132265
    },
    {
      "epoch": 19.700625558534405,
      "grad_norm": 4.1135363062494434e-06,
      "learning_rate": 3.415287810381584e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76766696,
      "step": 132270
    },
    {
      "epoch": 19.701370271075366,
      "grad_norm": 3.94536109524779e-05,
      "learning_rate": 3.3983297345391296e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76769672,
      "step": 132275
    },
    {
      "epoch": 19.702114983616323,
      "grad_norm": 7.339165676967241e-06,
      "learning_rate": 3.381413836244796e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76772552,
      "step": 132280
    },
    {
      "epoch": 19.702859696157283,
      "grad_norm": 1.1757730135286693e-05,
      "learning_rate": 3.36454011578391e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76775560,
      "step": 132285
    },
    {
      "epoch": 19.703604408698244,
      "grad_norm": 2.7126022814627504e-06,
      "learning_rate": 3.347708573441521e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76778472,
      "step": 132290
    },
    {
      "epoch": 19.7043491212392,
      "grad_norm": 2.79466257779859e-05,
      "learning_rate": 3.330919209502126e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76781320,
      "step": 132295
    },
    {
      "epoch": 19.70509383378016,
      "grad_norm": 0.00022364100732374936,
      "learning_rate": 3.314172024249662e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76784296,
      "step": 132300
    },
    {
      "epoch": 19.70583854632112,
      "grad_norm": 2.3052411052049138e-05,
      "learning_rate": 3.297467017966405e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76787144,
      "step": 132305
    },
    {
      "epoch": 19.70658325886208,
      "grad_norm": 0.00013278762344270945,
      "learning_rate": 3.280804190935183e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76790248,
      "step": 132310
    },
    {
      "epoch": 19.70732797140304,
      "grad_norm": 0.0001208340036100708,
      "learning_rate": 3.264183543436883e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76793256,
      "step": 132315
    },
    {
      "epoch": 19.708072683943996,
      "grad_norm": 2.6851703296415508e-06,
      "learning_rate": 3.2476050757529466e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76796264,
      "step": 132320
    },
    {
      "epoch": 19.708817396484957,
      "grad_norm": 1.0029733857663814e-05,
      "learning_rate": 3.231068788162872e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76798984,
      "step": 132325
    },
    {
      "epoch": 19.709562109025917,
      "grad_norm": 1.653008621360641e-05,
      "learning_rate": 3.214574680946436e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76801736,
      "step": 132330
    },
    {
      "epoch": 19.710306821566874,
      "grad_norm": 4.941432416671887e-05,
      "learning_rate": 3.198122754382305e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76804776,
      "step": 132335
    },
    {
      "epoch": 19.711051534107835,
      "grad_norm": 2.910081275331322e-05,
      "learning_rate": 3.181713008748033e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76807400,
      "step": 132340
    },
    {
      "epoch": 19.711796246648795,
      "grad_norm": 1.8584958525025286e-05,
      "learning_rate": 3.1653454443211774e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76810216,
      "step": 132345
    },
    {
      "epoch": 19.712540959189752,
      "grad_norm": 7.381997420452535e-05,
      "learning_rate": 3.1490200613779056e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76813160,
      "step": 132350
    },
    {
      "epoch": 19.713285671730713,
      "grad_norm": 0.04105137661099434,
      "learning_rate": 3.132736860194385e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76816168,
      "step": 132355
    },
    {
      "epoch": 19.71403038427167,
      "grad_norm": 3.2636905871186173e-06,
      "learning_rate": 3.116495841045675e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76819272,
      "step": 132360
    },
    {
      "epoch": 19.71477509681263,
      "grad_norm": 2.9466211344697513e-05,
      "learning_rate": 3.1002970042059984e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76822088,
      "step": 132365
    },
    {
      "epoch": 19.71551980935359,
      "grad_norm": 2.1817897959408583e-06,
      "learning_rate": 3.084140349949027e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76824744,
      "step": 132370
    },
    {
      "epoch": 19.716264521894548,
      "grad_norm": 9.288921356201172,
      "learning_rate": 3.0680258785478756e-08,
      "loss": 0.0353,
      "num_input_tokens_seen": 76827336,
      "step": 132375
    },
    {
      "epoch": 19.71700923443551,
      "grad_norm": 3.661273694888223e-06,
      "learning_rate": 3.051953590274548e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76830120,
      "step": 132380
    },
    {
      "epoch": 19.717753946976465,
      "grad_norm": 0.0001409946708008647,
      "learning_rate": 3.035923485400771e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76832552,
      "step": 132385
    },
    {
      "epoch": 19.718498659517426,
      "grad_norm": 2.623369937282405e-06,
      "learning_rate": 3.0199355641971626e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76835560,
      "step": 132390
    },
    {
      "epoch": 19.719243372058386,
      "grad_norm": 5.580197012022836e-06,
      "learning_rate": 3.003989826934062e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76838440,
      "step": 132395
    },
    {
      "epoch": 19.719988084599343,
      "grad_norm": 6.853647937532514e-05,
      "learning_rate": 2.9880862738804196e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76841128,
      "step": 132400
    },
    {
      "epoch": 19.720732797140304,
      "grad_norm": 1.650534977670759e-05,
      "learning_rate": 2.9722249053054653e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76844072,
      "step": 132405
    },
    {
      "epoch": 19.721477509681264,
      "grad_norm": 3.1675369882577797e-06,
      "learning_rate": 2.9564057214767627e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76847016,
      "step": 132410
    },
    {
      "epoch": 19.72222222222222,
      "grad_norm": 9.197984036291018e-05,
      "learning_rate": 2.9406287226618756e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76849800,
      "step": 132415
    },
    {
      "epoch": 19.722966934763182,
      "grad_norm": 3.454917759881937e-06,
      "learning_rate": 2.92489390912698e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76852744,
      "step": 132420
    },
    {
      "epoch": 19.72371164730414,
      "grad_norm": 0.00014270177052821964,
      "learning_rate": 2.909201281138252e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76855880,
      "step": 132425
    },
    {
      "epoch": 19.7244563598451,
      "grad_norm": 0.00017743553325999528,
      "learning_rate": 2.8935508389607568e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76858792,
      "step": 132430
    },
    {
      "epoch": 19.72520107238606,
      "grad_norm": 4.598873601935338e-06,
      "learning_rate": 2.8779425828584506e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76861672,
      "step": 132435
    },
    {
      "epoch": 19.725945784927017,
      "grad_norm": 6.568978278664872e-06,
      "learning_rate": 2.862376513095566e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76864232,
      "step": 132440
    },
    {
      "epoch": 19.726690497467978,
      "grad_norm": 1.4523153367917985e-05,
      "learning_rate": 2.846852629934671e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76867592,
      "step": 132445
    },
    {
      "epoch": 19.727435210008938,
      "grad_norm": 2.3558208340546116e-05,
      "learning_rate": 2.831370933638333e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76870792,
      "step": 132450
    },
    {
      "epoch": 19.728179922549895,
      "grad_norm": 8.109887858154252e-05,
      "learning_rate": 2.8159314244680103e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76873928,
      "step": 132455
    },
    {
      "epoch": 19.728924635090856,
      "grad_norm": 4.059325419802917e-06,
      "learning_rate": 2.800534102684327e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76876744,
      "step": 132460
    },
    {
      "epoch": 19.729669347631813,
      "grad_norm": 1.1760159395635128e-05,
      "learning_rate": 2.7851789685476304e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76879752,
      "step": 132465
    },
    {
      "epoch": 19.730414060172773,
      "grad_norm": 9.668462007539347e-05,
      "learning_rate": 2.7698660223174355e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76882792,
      "step": 132470
    },
    {
      "epoch": 19.731158772713734,
      "grad_norm": 4.03750436817063e-06,
      "learning_rate": 2.7545952642521466e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76885448,
      "step": 132475
    },
    {
      "epoch": 19.73190348525469,
      "grad_norm": 5.708364824386081e-06,
      "learning_rate": 2.7393666946098906e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76888392,
      "step": 132480
    },
    {
      "epoch": 19.73264819779565,
      "grad_norm": 5.2136729209451005e-05,
      "learning_rate": 2.7241803136479616e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76891560,
      "step": 132485
    },
    {
      "epoch": 19.73339291033661,
      "grad_norm": 2.2865038772579283e-05,
      "learning_rate": 2.7090361216230987e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76894312,
      "step": 132490
    },
    {
      "epoch": 19.73413762287757,
      "grad_norm": 0.006932866759598255,
      "learning_rate": 2.693934118790653e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76897512,
      "step": 132495
    },
    {
      "epoch": 19.73488233541853,
      "grad_norm": 2.621542307679192e-06,
      "learning_rate": 2.678874305405976e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76900264,
      "step": 132500
    },
    {
      "epoch": 19.735627047959486,
      "grad_norm": 1.0124582331627607e-05,
      "learning_rate": 2.663856681723864e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76903208,
      "step": 132505
    },
    {
      "epoch": 19.736371760500447,
      "grad_norm": 6.927703452674905e-06,
      "learning_rate": 2.6488812479974478e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76906024,
      "step": 132510
    },
    {
      "epoch": 19.737116473041407,
      "grad_norm": 5.816519114887342e-05,
      "learning_rate": 2.6339480044801355e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76908712,
      "step": 132515
    },
    {
      "epoch": 19.737861185582364,
      "grad_norm": 6.944729193492094e-06,
      "learning_rate": 2.6190569514239484e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76911432,
      "step": 132520
    },
    {
      "epoch": 19.738605898123325,
      "grad_norm": 9.635254536988214e-05,
      "learning_rate": 2.6042080890806285e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76914760,
      "step": 132525
    },
    {
      "epoch": 19.73935061066428,
      "grad_norm": 0.00012846579193137586,
      "learning_rate": 2.5894014177010872e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76917640,
      "step": 132530
    },
    {
      "epoch": 19.740095323205242,
      "grad_norm": 5.3469324484467506e-05,
      "learning_rate": 2.5746369375351242e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76920488,
      "step": 132535
    },
    {
      "epoch": 19.740840035746203,
      "grad_norm": 0.0026342705823481083,
      "learning_rate": 2.55991464883254e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76923400,
      "step": 132540
    },
    {
      "epoch": 19.74158474828716,
      "grad_norm": 7.652934073121287e-06,
      "learning_rate": 2.545234551842024e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76926120,
      "step": 132545
    },
    {
      "epoch": 19.74232946082812,
      "grad_norm": 9.063517609320115e-06,
      "learning_rate": 2.530596646811434e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76928968,
      "step": 132550
    },
    {
      "epoch": 19.74307417336908,
      "grad_norm": 9.867571861832403e-06,
      "learning_rate": 2.5160009339877944e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76931592,
      "step": 132555
    },
    {
      "epoch": 19.743818885910038,
      "grad_norm": 1.4895726053509861e-05,
      "learning_rate": 2.5014474136184075e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76934664,
      "step": 132560
    },
    {
      "epoch": 19.744563598451,
      "grad_norm": 2.8370957352308324e-06,
      "learning_rate": 2.486936085948355e-08,
      "loss": 0.0131,
      "num_input_tokens_seen": 76937576,
      "step": 132565
    },
    {
      "epoch": 19.74530831099196,
      "grad_norm": 2.260536166431848e-05,
      "learning_rate": 2.4724669512232734e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76940360,
      "step": 132570
    },
    {
      "epoch": 19.746053023532916,
      "grad_norm": 2.2174438072397606e-06,
      "learning_rate": 2.45804000968769e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76943592,
      "step": 132575
    },
    {
      "epoch": 19.746797736073876,
      "grad_norm": 3.3965243346756324e-06,
      "learning_rate": 2.4436552615850205e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76946504,
      "step": 132580
    },
    {
      "epoch": 19.747542448614833,
      "grad_norm": 6.648090220551239e-06,
      "learning_rate": 2.4293127071584043e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76949448,
      "step": 132585
    },
    {
      "epoch": 19.748287161155794,
      "grad_norm": 3.26118606608361e-05,
      "learning_rate": 2.4150123466498698e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76952232,
      "step": 132590
    },
    {
      "epoch": 19.749031873696755,
      "grad_norm": 3.7651805087079993e-06,
      "learning_rate": 2.400754180301723e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76955080,
      "step": 132595
    },
    {
      "epoch": 19.74977658623771,
      "grad_norm": 8.54104473546613e-06,
      "learning_rate": 2.38653820835405e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76957864,
      "step": 132600
    },
    {
      "epoch": 19.750521298778672,
      "grad_norm": 5.170621079741977e-06,
      "learning_rate": 2.3723644310474914e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76960936,
      "step": 132605
    },
    {
      "epoch": 19.75126601131963,
      "grad_norm": 0.041809674352407455,
      "learning_rate": 2.3582328486213e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 76963784,
      "step": 132610
    },
    {
      "epoch": 19.75201072386059,
      "grad_norm": 0.0006382004939951003,
      "learning_rate": 2.3441434613141743e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76966856,
      "step": 132615
    },
    {
      "epoch": 19.75275543640155,
      "grad_norm": 4.4419480218493845e-06,
      "learning_rate": 2.3300962693645345e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76969800,
      "step": 132620
    },
    {
      "epoch": 19.753500148942507,
      "grad_norm": 2.1462345102918334e-05,
      "learning_rate": 2.3160912730091357e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76972584,
      "step": 132625
    },
    {
      "epoch": 19.754244861483468,
      "grad_norm": 1.4773030670767184e-05,
      "learning_rate": 2.30212847248501e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76975528,
      "step": 132630
    },
    {
      "epoch": 19.754989574024428,
      "grad_norm": 4.492823336477159e-06,
      "learning_rate": 2.288207868027803e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76978376,
      "step": 132635
    },
    {
      "epoch": 19.755734286565385,
      "grad_norm": 0.0005615712143480778,
      "learning_rate": 2.2743294598726038e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76981224,
      "step": 132640
    },
    {
      "epoch": 19.756478999106346,
      "grad_norm": 2.6596364477882162e-05,
      "learning_rate": 2.260493248254225e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76984136,
      "step": 132645
    },
    {
      "epoch": 19.757223711647303,
      "grad_norm": 1.405624789185822e-05,
      "learning_rate": 2.246699233406091e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76987080,
      "step": 132650
    },
    {
      "epoch": 19.757968424188263,
      "grad_norm": 0.00167012307792902,
      "learning_rate": 2.2329474155616258e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76990088,
      "step": 132655
    },
    {
      "epoch": 19.758713136729224,
      "grad_norm": 6.328858034976292e-06,
      "learning_rate": 2.2192377949525888e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76993000,
      "step": 132660
    },
    {
      "epoch": 19.75945784927018,
      "grad_norm": 5.265989966574125e-05,
      "learning_rate": 2.205570371811294e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76995624,
      "step": 132665
    },
    {
      "epoch": 19.76020256181114,
      "grad_norm": 2.7065316317020915e-06,
      "learning_rate": 2.1919451463678353e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 76998344,
      "step": 132670
    },
    {
      "epoch": 19.7609472743521,
      "grad_norm": 3.2049101719167084e-05,
      "learning_rate": 2.178362118853139e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77001128,
      "step": 132675
    },
    {
      "epoch": 19.76169198689306,
      "grad_norm": 1.0733670933404937e-05,
      "learning_rate": 2.1648212894961884e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77004104,
      "step": 132680
    },
    {
      "epoch": 19.76243669943402,
      "grad_norm": 5.029528892919188e-06,
      "learning_rate": 2.1513226585256897e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77006984,
      "step": 132685
    },
    {
      "epoch": 19.763181411974976,
      "grad_norm": 2.184719278375269e-06,
      "learning_rate": 2.137866226170071e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77009768,
      "step": 132690
    },
    {
      "epoch": 19.763926124515937,
      "grad_norm": 2.6022339625342283e-06,
      "learning_rate": 2.1244519926566507e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77012616,
      "step": 132695
    },
    {
      "epoch": 19.764670837056897,
      "grad_norm": 2.7005705760529963e-06,
      "learning_rate": 2.111079958211637e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77015816,
      "step": 132700
    },
    {
      "epoch": 19.765415549597854,
      "grad_norm": 9.121443872572854e-05,
      "learning_rate": 2.0977501230612374e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77018728,
      "step": 132705
    },
    {
      "epoch": 19.766160262138815,
      "grad_norm": 7.634032954229042e-06,
      "learning_rate": 2.0844624874305497e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77021928,
      "step": 132710
    },
    {
      "epoch": 19.766904974679775,
      "grad_norm": 3.7409984088299097e-06,
      "learning_rate": 2.0712170515443942e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77024808,
      "step": 132715
    },
    {
      "epoch": 19.767649687220732,
      "grad_norm": 5.497219262906583e-06,
      "learning_rate": 2.0580138156259256e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77027816,
      "step": 132720
    },
    {
      "epoch": 19.768394399761693,
      "grad_norm": 4.296151746530086e-05,
      "learning_rate": 2.0448527798985762e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77030568,
      "step": 132725
    },
    {
      "epoch": 19.76913911230265,
      "grad_norm": 1.8999968233401887e-05,
      "learning_rate": 2.0317339445849458e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77033128,
      "step": 132730
    },
    {
      "epoch": 19.76988382484361,
      "grad_norm": 0.0004764192854054272,
      "learning_rate": 2.0186573099059693e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77036072,
      "step": 132735
    },
    {
      "epoch": 19.77062853738457,
      "grad_norm": 2.2346523564920062e-06,
      "learning_rate": 2.005622876083135e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77038920,
      "step": 132740
    },
    {
      "epoch": 19.771373249925528,
      "grad_norm": 9.76057071966352e-06,
      "learning_rate": 1.9926306433362683e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77041832,
      "step": 132745
    },
    {
      "epoch": 19.77211796246649,
      "grad_norm": 4.042201180709526e-05,
      "learning_rate": 1.979680611885193e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77044648,
      "step": 132750
    },
    {
      "epoch": 19.772862675007445,
      "grad_norm": 2.929746642621467e-06,
      "learning_rate": 1.9667727819486225e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77047400,
      "step": 132755
    },
    {
      "epoch": 19.773607387548406,
      "grad_norm": 0.00031979847699403763,
      "learning_rate": 1.9539071537444387e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77050184,
      "step": 132760
    },
    {
      "epoch": 19.774352100089367,
      "grad_norm": 2.092101021844428e-05,
      "learning_rate": 1.9410837274899674e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77053192,
      "step": 132765
    },
    {
      "epoch": 19.775096812630323,
      "grad_norm": 0.0007810695096850395,
      "learning_rate": 1.9283025034019797e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77056616,
      "step": 132770
    },
    {
      "epoch": 19.775841525171284,
      "grad_norm": 1.7815589671954513e-05,
      "learning_rate": 1.9155634816966916e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77059528,
      "step": 132775
    },
    {
      "epoch": 19.776586237712245,
      "grad_norm": 3.8216326174733695e-06,
      "learning_rate": 1.902866662588654e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77062536,
      "step": 132780
    },
    {
      "epoch": 19.7773309502532,
      "grad_norm": 0.0002687333326321095,
      "learning_rate": 1.890212046292972e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77065800,
      "step": 132785
    },
    {
      "epoch": 19.778075662794162,
      "grad_norm": 3.345773393448326e-06,
      "learning_rate": 1.877599633023086e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77068424,
      "step": 132790
    },
    {
      "epoch": 19.77882037533512,
      "grad_norm": 1.440545020159334e-05,
      "learning_rate": 1.865029422992437e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77071144,
      "step": 132795
    },
    {
      "epoch": 19.77956508787608,
      "grad_norm": 2.2416461433749646e-06,
      "learning_rate": 1.8525014164127996e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77074056,
      "step": 132800
    },
    {
      "epoch": 19.78030980041704,
      "grad_norm": 3.132926622129162e-06,
      "learning_rate": 1.8400156134962265e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77076616,
      "step": 132805
    },
    {
      "epoch": 19.781054512957997,
      "grad_norm": 0.00015079640434123576,
      "learning_rate": 1.82757201445366e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77079592,
      "step": 132810
    },
    {
      "epoch": 19.781799225498958,
      "grad_norm": 0.00011571853247005492,
      "learning_rate": 1.8151706194952102e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77082408,
      "step": 132815
    },
    {
      "epoch": 19.782543938039918,
      "grad_norm": 0.01913505792617798,
      "learning_rate": 1.8028114288301535e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77085192,
      "step": 132820
    },
    {
      "epoch": 19.783288650580875,
      "grad_norm": 0.00020836877229157835,
      "learning_rate": 1.7904944426677673e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77088328,
      "step": 132825
    },
    {
      "epoch": 19.784033363121836,
      "grad_norm": 1.535721094114706e-05,
      "learning_rate": 1.7782196612159406e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77091176,
      "step": 132830
    },
    {
      "epoch": 19.784778075662793,
      "grad_norm": 7.271234153449768e-06,
      "learning_rate": 1.7659870846820083e-08,
      "loss": 0.0001,
      "num_input_tokens_seen": 77094152,
      "step": 132835
    },
    {
      "epoch": 19.785522788203753,
      "grad_norm": 1.3059921002422925e-05,
      "learning_rate": 1.7537967132727483e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77097096,
      "step": 132840
    },
    {
      "epoch": 19.786267500744714,
      "grad_norm": 6.960338214412332e-05,
      "learning_rate": 1.7416485471938304e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77100264,
      "step": 132845
    },
    {
      "epoch": 19.78701221328567,
      "grad_norm": 0.000895013683475554,
      "learning_rate": 1.7295425866506453e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77103240,
      "step": 132850
    },
    {
      "epoch": 19.78775692582663,
      "grad_norm": 1.2396850252116565e-05,
      "learning_rate": 1.7174788318477518e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77106568,
      "step": 132855
    },
    {
      "epoch": 19.788501638367592,
      "grad_norm": 9.837346624408383e-06,
      "learning_rate": 1.705457282988876e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77109416,
      "step": 132860
    },
    {
      "epoch": 19.78924635090855,
      "grad_norm": 2.4458704501739703e-05,
      "learning_rate": 1.6934779402771884e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77112520,
      "step": 132865
    },
    {
      "epoch": 19.78999106344951,
      "grad_norm": 4.299263764551142e-06,
      "learning_rate": 1.681540803915027e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77115496,
      "step": 132870
    },
    {
      "epoch": 19.790735775990466,
      "grad_norm": 2.117505755450111e-05,
      "learning_rate": 1.669645874103898e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77118408,
      "step": 132875
    },
    {
      "epoch": 19.791480488531427,
      "grad_norm": 7.086468485795194e-06,
      "learning_rate": 1.6577931510450283e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77121192,
      "step": 132880
    },
    {
      "epoch": 19.792225201072387,
      "grad_norm": 1.7278320228797384e-05,
      "learning_rate": 1.6459826349385365e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77124232,
      "step": 132885
    },
    {
      "epoch": 19.792969913613344,
      "grad_norm": 3.0494860766339116e-05,
      "learning_rate": 1.6342143259839848e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77127400,
      "step": 132890
    },
    {
      "epoch": 19.793714626154305,
      "grad_norm": 1.0177868716709781e-05,
      "learning_rate": 1.622488224380103e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77130376,
      "step": 132895
    },
    {
      "epoch": 19.794459338695262,
      "grad_norm": 4.401317710289732e-06,
      "learning_rate": 1.6108043303250664e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77133128,
      "step": 132900
    },
    {
      "epoch": 19.795204051236222,
      "grad_norm": 6.4956429923768155e-06,
      "learning_rate": 1.5991626440162165e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77136040,
      "step": 132905
    },
    {
      "epoch": 19.795948763777183,
      "grad_norm": 4.531295417109504e-06,
      "learning_rate": 1.587563165650341e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77139464,
      "step": 132910
    },
    {
      "epoch": 19.79669347631814,
      "grad_norm": 1.4725713299412746e-05,
      "learning_rate": 1.5760058954233935e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77142120,
      "step": 132915
    },
    {
      "epoch": 19.7974381888591,
      "grad_norm": 1.6776459233369678e-05,
      "learning_rate": 1.564490833530219e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77145032,
      "step": 132920
    },
    {
      "epoch": 19.79818290140006,
      "grad_norm": 5.316948772815522e-06,
      "learning_rate": 1.5530179801659382e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77147880,
      "step": 132925
    },
    {
      "epoch": 19.798927613941018,
      "grad_norm": 3.7925758533674525e-06,
      "learning_rate": 1.5415873355240086e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77150696,
      "step": 132930
    },
    {
      "epoch": 19.79967232648198,
      "grad_norm": 7.383970660157502e-05,
      "learning_rate": 1.5301988997978857e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77154120,
      "step": 132935
    },
    {
      "epoch": 19.800417039022935,
      "grad_norm": 6.075450983189512e-06,
      "learning_rate": 1.5188526731793608e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77156840,
      "step": 132940
    },
    {
      "epoch": 19.801161751563896,
      "grad_norm": 0.0021099578589200974,
      "learning_rate": 1.50754865586078e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77159784,
      "step": 132945
    },
    {
      "epoch": 19.801906464104857,
      "grad_norm": 8.784581041254569e-06,
      "learning_rate": 1.4962868480325465e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77162280,
      "step": 132950
    },
    {
      "epoch": 19.802651176645814,
      "grad_norm": 7.190471023932332e-06,
      "learning_rate": 1.4850672498853413e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77165000,
      "step": 132955
    },
    {
      "epoch": 19.803395889186774,
      "grad_norm": 1.2451713701011613e-05,
      "learning_rate": 1.4738898616084573e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77168264,
      "step": 132960
    },
    {
      "epoch": 19.804140601727735,
      "grad_norm": 4.142115813010605e-06,
      "learning_rate": 1.4627546833909101e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77170888,
      "step": 132965
    },
    {
      "epoch": 19.80488531426869,
      "grad_norm": 0.00011022546823369339,
      "learning_rate": 1.4516617154206048e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77173832,
      "step": 132970
    },
    {
      "epoch": 19.805630026809652,
      "grad_norm": 0.000343494612025097,
      "learning_rate": 1.440610957885169e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77176808,
      "step": 132975
    },
    {
      "epoch": 19.80637473935061,
      "grad_norm": 5.778693321190076e-06,
      "learning_rate": 1.4296024109711203e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77179656,
      "step": 132980
    },
    {
      "epoch": 19.80711945189157,
      "grad_norm": 6.542218034155667e-05,
      "learning_rate": 1.4186360748644212e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77182600,
      "step": 132985
    },
    {
      "epoch": 19.80786416443253,
      "grad_norm": 0.022533170878887177,
      "learning_rate": 1.4077119497507562e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77185416,
      "step": 132990
    },
    {
      "epoch": 19.808608876973487,
      "grad_norm": 8.80754305399023e-06,
      "learning_rate": 1.3968300358138675e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77188520,
      "step": 132995
    },
    {
      "epoch": 19.809353589514448,
      "grad_norm": 3.063135591219179e-05,
      "learning_rate": 1.3859903332383296e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77191656,
      "step": 133000
    },
    {
      "epoch": 19.81009830205541,
      "grad_norm": 2.3037260689307004e-05,
      "learning_rate": 1.3751928422070515e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77194408,
      "step": 133005
    },
    {
      "epoch": 19.810843014596365,
      "grad_norm": 7.200033451226773e-06,
      "learning_rate": 1.3644375629023875e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77197192,
      "step": 133010
    },
    {
      "epoch": 19.811587727137326,
      "grad_norm": 6.7495043367671315e-06,
      "learning_rate": 1.3537244955061368e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77200264,
      "step": 133015
    },
    {
      "epoch": 19.812332439678283,
      "grad_norm": 2.490688757461612e-06,
      "learning_rate": 1.343053640198988e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77203048,
      "step": 133020
    },
    {
      "epoch": 19.813077152219243,
      "grad_norm": 1.1012039067281876e-05,
      "learning_rate": 1.3324249971613523e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77205992,
      "step": 133025
    },
    {
      "epoch": 19.813821864760204,
      "grad_norm": 3.5314489650772884e-05,
      "learning_rate": 1.3218385665730859e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77209000,
      "step": 133030
    },
    {
      "epoch": 19.81456657730116,
      "grad_norm": 2.554413367761299e-05,
      "learning_rate": 1.3112943486129347e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77211688,
      "step": 133035
    },
    {
      "epoch": 19.81531128984212,
      "grad_norm": 9.369505278300494e-06,
      "learning_rate": 1.3007923434585345e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77214632,
      "step": 133040
    },
    {
      "epoch": 19.816056002383082,
      "grad_norm": 1.2406495443428867e-05,
      "learning_rate": 1.290332551288076e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77217384,
      "step": 133045
    },
    {
      "epoch": 19.81680071492404,
      "grad_norm": 6.1604418988281395e-06,
      "learning_rate": 1.2799149722775294e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77220168,
      "step": 133050
    },
    {
      "epoch": 19.817545427465,
      "grad_norm": 3.177209146087989e-05,
      "learning_rate": 1.2695396066034205e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77223560,
      "step": 133055
    },
    {
      "epoch": 19.818290140005956,
      "grad_norm": 5.461322416522307e-06,
      "learning_rate": 1.2592064544408866e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77226600,
      "step": 133060
    },
    {
      "epoch": 19.819034852546917,
      "grad_norm": 0.0001036767935147509,
      "learning_rate": 1.248915515964233e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77229032,
      "step": 133065
    },
    {
      "epoch": 19.819779565087877,
      "grad_norm": 0.01334025152027607,
      "learning_rate": 1.2386667913477645e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77232040,
      "step": 133070
    },
    {
      "epoch": 19.820524277628834,
      "grad_norm": 3.996939994976856e-06,
      "learning_rate": 1.228460280764121e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77235016,
      "step": 133075
    },
    {
      "epoch": 19.821268990169795,
      "grad_norm": 4.781136885867454e-05,
      "learning_rate": 1.2182959843862196e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77237800,
      "step": 133080
    },
    {
      "epoch": 19.822013702710755,
      "grad_norm": 4.806233846466057e-06,
      "learning_rate": 1.2081739023855899e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77240616,
      "step": 133085
    },
    {
      "epoch": 19.822758415251712,
      "grad_norm": 7.064280907798093e-06,
      "learning_rate": 1.198094034933206e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77243304,
      "step": 133090
    },
    {
      "epoch": 19.823503127792673,
      "grad_norm": 3.3953097045014147e-06,
      "learning_rate": 1.1880563821992096e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77246440,
      "step": 133095
    },
    {
      "epoch": 19.82424784033363,
      "grad_norm": 0.00016112210869323462,
      "learning_rate": 1.1780609443534652e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77249512,
      "step": 133100
    },
    {
      "epoch": 19.82499255287459,
      "grad_norm": 5.554252766160062e-06,
      "learning_rate": 1.1681077215644487e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77252360,
      "step": 133105
    },
    {
      "epoch": 19.82573726541555,
      "grad_norm": 2.4481662421749206e-06,
      "learning_rate": 1.1581967140009142e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77255208,
      "step": 133110
    },
    {
      "epoch": 19.826481977956508,
      "grad_norm": 3.5962118545285193e-06,
      "learning_rate": 1.1483279218296728e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77258184,
      "step": 133115
    },
    {
      "epoch": 19.82722669049747,
      "grad_norm": 1.1666809768939856e-05,
      "learning_rate": 1.1385013452178128e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77261256,
      "step": 133120
    },
    {
      "epoch": 19.827971403038426,
      "grad_norm": 1.7090304027078673e-05,
      "learning_rate": 1.1287169843313127e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77264200,
      "step": 133125
    },
    {
      "epoch": 19.828716115579386,
      "grad_norm": 2.5238441594410688e-06,
      "learning_rate": 1.1189748393353184e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77266984,
      "step": 133130
    },
    {
      "epoch": 19.829460828120347,
      "grad_norm": 1.2698107639153022e-05,
      "learning_rate": 1.10927491039442e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77269896,
      "step": 133135
    },
    {
      "epoch": 19.830205540661304,
      "grad_norm": 8.827408237266354e-06,
      "learning_rate": 1.0996171976726532e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77272744,
      "step": 133140
    },
    {
      "epoch": 19.830950253202264,
      "grad_norm": 2.7056021281168796e-06,
      "learning_rate": 1.0900017013329434e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77275496,
      "step": 133145
    },
    {
      "epoch": 19.831694965743225,
      "grad_norm": 1.692837213340681e-05,
      "learning_rate": 1.0804284215379379e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77278536,
      "step": 133150
    },
    {
      "epoch": 19.83243967828418,
      "grad_norm": 5.007271465728991e-05,
      "learning_rate": 1.070897358449452e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77281224,
      "step": 133155
    },
    {
      "epoch": 19.833184390825142,
      "grad_norm": 7.678078691242263e-05,
      "learning_rate": 1.0614085122281902e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77284168,
      "step": 133160
    },
    {
      "epoch": 19.8339291033661,
      "grad_norm": 0.0008848861325532198,
      "learning_rate": 1.0519618830348577e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77287496,
      "step": 133165
    },
    {
      "epoch": 19.83467381590706,
      "grad_norm": 0.00019197919755242765,
      "learning_rate": 1.0425574710284936e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77290152,
      "step": 133170
    },
    {
      "epoch": 19.83541852844802,
      "grad_norm": 7.421521786454832e-06,
      "learning_rate": 1.033195276368415e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77293096,
      "step": 133175
    },
    {
      "epoch": 19.836163240988977,
      "grad_norm": 2.7148713343194686e-05,
      "learning_rate": 1.0238752992128287e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77295688,
      "step": 133180
    },
    {
      "epoch": 19.836907953529938,
      "grad_norm": 2.3609774871147238e-05,
      "learning_rate": 1.0145975397188311e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77298536,
      "step": 133185
    },
    {
      "epoch": 19.8376526660709,
      "grad_norm": 1.714302743494045e-05,
      "learning_rate": 1.0053619980435191e-08,
      "loss": 0.0,
      "num_input_tokens_seen": 77302024,
      "step": 133190
    },
    {
      "epoch": 19.838397378611855,
      "grad_norm": 2.4331196982529946e-05,
      "learning_rate": 9.961686743426012e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77305032,
      "step": 133195
    },
    {
      "epoch": 19.839142091152816,
      "grad_norm": 3.701495188579429e-06,
      "learning_rate": 9.870175687715089e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77307976,
      "step": 133200
    },
    {
      "epoch": 19.839886803693773,
      "grad_norm": 3.2161797207663767e-06,
      "learning_rate": 9.77908681485118e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77310824,
      "step": 133205
    },
    {
      "epoch": 19.840631516234733,
      "grad_norm": 4.133675975026563e-05,
      "learning_rate": 9.688420126369168e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77313864,
      "step": 133210
    },
    {
      "epoch": 19.841376228775694,
      "grad_norm": 1.303526369156316e-05,
      "learning_rate": 9.598175623801165e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77316744,
      "step": 133215
    },
    {
      "epoch": 19.84212094131665,
      "grad_norm": 3.145918753943988e-06,
      "learning_rate": 9.508353308673723e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77319624,
      "step": 133220
    },
    {
      "epoch": 19.84286565385761,
      "grad_norm": 1.106421768781729e-05,
      "learning_rate": 9.4189531825023e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77322568,
      "step": 133225
    },
    {
      "epoch": 19.843610366398572,
      "grad_norm": 1.0074482815980446e-05,
      "learning_rate": 9.329975246799571e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77325576,
      "step": 133230
    },
    {
      "epoch": 19.84435507893953,
      "grad_norm": 9.994049833039753e-06,
      "learning_rate": 9.241419503069892e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77328680,
      "step": 133235
    },
    {
      "epoch": 19.84509979148049,
      "grad_norm": 3.0638082080258755e-06,
      "learning_rate": 9.153285952803736e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77331560,
      "step": 133240
    },
    {
      "epoch": 19.845844504021446,
      "grad_norm": 0.0013038127217441797,
      "learning_rate": 9.065574597494352e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77334536,
      "step": 133245
    },
    {
      "epoch": 19.846589216562407,
      "grad_norm": 0.00020916556240990758,
      "learning_rate": 8.978285438621115e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77337704,
      "step": 133250
    },
    {
      "epoch": 19.847333929103367,
      "grad_norm": 3.1997963105823146e-06,
      "learning_rate": 8.891418477660617e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77340712,
      "step": 133255
    },
    {
      "epoch": 19.848078641644324,
      "grad_norm": 1.198916470457334e-05,
      "learning_rate": 8.804973716081132e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77344104,
      "step": 133260
    },
    {
      "epoch": 19.848823354185285,
      "grad_norm": 1.5459023416042328e-05,
      "learning_rate": 8.718951155339827e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77346952,
      "step": 133265
    },
    {
      "epoch": 19.849568066726242,
      "grad_norm": 0.00010272894724039361,
      "learning_rate": 8.633350796893869e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77349992,
      "step": 133270
    },
    {
      "epoch": 19.850312779267203,
      "grad_norm": 2.8235883746674517e-06,
      "learning_rate": 8.548172642186547e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77352808,
      "step": 133275
    },
    {
      "epoch": 19.851057491808163,
      "grad_norm": 3.1997983569453936e-06,
      "learning_rate": 8.463416692658377e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77355624,
      "step": 133280
    },
    {
      "epoch": 19.85180220434912,
      "grad_norm": 1.7546218487041187e-06,
      "learning_rate": 8.37908294973877e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77358472,
      "step": 133285
    },
    {
      "epoch": 19.85254691689008,
      "grad_norm": 0.00030463928123936057,
      "learning_rate": 8.295171414854363e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77361352,
      "step": 133290
    },
    {
      "epoch": 19.85329162943104,
      "grad_norm": 9.56512667471543e-06,
      "learning_rate": 8.211682089423467e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77364200,
      "step": 133295
    },
    {
      "epoch": 19.854036341971998,
      "grad_norm": 4.0436076233163476e-05,
      "learning_rate": 8.128614974856064e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77367368,
      "step": 133300
    },
    {
      "epoch": 19.85478105451296,
      "grad_norm": 3.247138238293701e-06,
      "learning_rate": 8.04597007255381e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77370472,
      "step": 133305
    },
    {
      "epoch": 19.855525767053916,
      "grad_norm": 4.219976472086273e-05,
      "learning_rate": 7.963747383915587e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77373256,
      "step": 133310
    },
    {
      "epoch": 19.856270479594876,
      "grad_norm": 4.031437129015103e-06,
      "learning_rate": 7.881946910329175e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77376200,
      "step": 133315
    },
    {
      "epoch": 19.857015192135837,
      "grad_norm": 2.7695846256392542e-06,
      "learning_rate": 7.800568653174023e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77379304,
      "step": 133320
    },
    {
      "epoch": 19.857759904676794,
      "grad_norm": 5.3854091675020754e-06,
      "learning_rate": 7.719612613829586e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77382216,
      "step": 133325
    },
    {
      "epoch": 19.858504617217754,
      "grad_norm": 2.6199486455880105e-06,
      "learning_rate": 7.639078793661436e-09,
      "loss": 0.0024,
      "num_input_tokens_seen": 77385192,
      "step": 133330
    },
    {
      "epoch": 19.859249329758715,
      "grad_norm": 4.22681296186056e-05,
      "learning_rate": 7.558967194029598e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77387880,
      "step": 133335
    },
    {
      "epoch": 19.85999404229967,
      "grad_norm": 0.00016852391127031296,
      "learning_rate": 7.479277816285768e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77390696,
      "step": 133340
    },
    {
      "epoch": 19.860738754840632,
      "grad_norm": 3.743342313100584e-05,
      "learning_rate": 7.400010661781642e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77393768,
      "step": 133345
    },
    {
      "epoch": 19.86148346738159,
      "grad_norm": 4.188696493656607e-06,
      "learning_rate": 7.321165731849488e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77396840,
      "step": 133350
    },
    {
      "epoch": 19.86222817992255,
      "grad_norm": 8.309767508762889e-06,
      "learning_rate": 7.242743027827126e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77400008,
      "step": 133355
    },
    {
      "epoch": 19.86297289246351,
      "grad_norm": 0.0004334145050961524,
      "learning_rate": 7.1647425510384944e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77402856,
      "step": 133360
    },
    {
      "epoch": 19.863717605004467,
      "grad_norm": 5.009198957850458e-06,
      "learning_rate": 7.087164302796434e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77405800,
      "step": 133365
    },
    {
      "epoch": 19.864462317545428,
      "grad_norm": 9.557877638144419e-05,
      "learning_rate": 7.010008284416558e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77408840,
      "step": 133370
    },
    {
      "epoch": 19.86520703008639,
      "grad_norm": 0.0002119407436111942,
      "learning_rate": 6.933274497200604e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77411752,
      "step": 133375
    },
    {
      "epoch": 19.865951742627345,
      "grad_norm": 0.00035237273550592363,
      "learning_rate": 6.856962942447531e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77414504,
      "step": 133380
    },
    {
      "epoch": 19.866696455168306,
      "grad_norm": 7.983452087501064e-05,
      "learning_rate": 6.781073621442424e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77417288,
      "step": 133385
    },
    {
      "epoch": 19.867441167709263,
      "grad_norm": 1.9150651496602222e-05,
      "learning_rate": 6.70560653546759e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77419752,
      "step": 133390
    },
    {
      "epoch": 19.868185880250223,
      "grad_norm": 0.00020841600780840963,
      "learning_rate": 6.6305616857997855e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77422664,
      "step": 133395
    },
    {
      "epoch": 19.868930592791184,
      "grad_norm": 3.6818919397774152e-06,
      "learning_rate": 6.55593907370744e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77425928,
      "step": 133400
    },
    {
      "epoch": 19.86967530533214,
      "grad_norm": 8.549915037292521e-06,
      "learning_rate": 6.481738700450657e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77428680,
      "step": 133405
    },
    {
      "epoch": 19.8704200178731,
      "grad_norm": 1.6528581909369677e-05,
      "learning_rate": 6.4079605672839886e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77431560,
      "step": 133410
    },
    {
      "epoch": 19.87116473041406,
      "grad_norm": 3.28596870531328e-05,
      "learning_rate": 6.334604675450884e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77434504,
      "step": 133415
    },
    {
      "epoch": 19.87190944295502,
      "grad_norm": 0.00032434024615213275,
      "learning_rate": 6.2616710261920176e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77437928,
      "step": 133420
    },
    {
      "epoch": 19.87265415549598,
      "grad_norm": 4.677701508626342e-05,
      "learning_rate": 6.189159620739737e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77441096,
      "step": 133425
    },
    {
      "epoch": 19.873398868036936,
      "grad_norm": 1.3184973795432597e-05,
      "learning_rate": 6.117070460318064e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77443848,
      "step": 133430
    },
    {
      "epoch": 19.874143580577897,
      "grad_norm": 2.1651350834872574e-05,
      "learning_rate": 6.045403546148243e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77446696,
      "step": 133435
    },
    {
      "epoch": 19.874888293118858,
      "grad_norm": 4.036025711684488e-05,
      "learning_rate": 5.974158879434866e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77449512,
      "step": 133440
    },
    {
      "epoch": 19.875633005659815,
      "grad_norm": 2.9552811611210927e-06,
      "learning_rate": 5.903336461388076e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77452232,
      "step": 133445
    },
    {
      "epoch": 19.876377718200775,
      "grad_norm": 7.391101917164633e-06,
      "learning_rate": 5.832936293201363e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77455240,
      "step": 133450
    },
    {
      "epoch": 19.877122430741732,
      "grad_norm": 1.0120229489984922e-05,
      "learning_rate": 5.762958376065441e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77458152,
      "step": 133455
    },
    {
      "epoch": 19.877867143282693,
      "grad_norm": 2.1665298845618963e-05,
      "learning_rate": 5.693402711159923e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77461128,
      "step": 133460
    },
    {
      "epoch": 19.878611855823653,
      "grad_norm": 5.995711944706272e-06,
      "learning_rate": 5.6242692996616445e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77463880,
      "step": 133465
    },
    {
      "epoch": 19.87935656836461,
      "grad_norm": 9.566663720761426e-06,
      "learning_rate": 5.555558142736339e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77466760,
      "step": 133470
    },
    {
      "epoch": 19.88010128090557,
      "grad_norm": 6.863780436106026e-05,
      "learning_rate": 5.487269241549742e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77469992,
      "step": 133475
    },
    {
      "epoch": 19.88084599344653,
      "grad_norm": 1.1226307833567262e-05,
      "learning_rate": 5.419402597250934e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77472968,
      "step": 133480
    },
    {
      "epoch": 19.881590705987488,
      "grad_norm": 1.3082778423267882e-05,
      "learning_rate": 5.351958210986219e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77476072,
      "step": 133485
    },
    {
      "epoch": 19.88233541852845,
      "grad_norm": 1.5727500795037486e-05,
      "learning_rate": 5.284936083899128e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77478920,
      "step": 133490
    },
    {
      "epoch": 19.883080131069406,
      "grad_norm": 5.749784122599522e-06,
      "learning_rate": 5.218336217119313e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77482312,
      "step": 133495
    },
    {
      "epoch": 19.883824843610366,
      "grad_norm": 2.9740970148850465e-06,
      "learning_rate": 5.152158611770874e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77485096,
      "step": 133500
    },
    {
      "epoch": 19.884569556151327,
      "grad_norm": 5.5981734476517886e-05,
      "learning_rate": 5.086403268975137e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77488008,
      "step": 133505
    },
    {
      "epoch": 19.885314268692284,
      "grad_norm": 3.999330147053115e-06,
      "learning_rate": 5.0210701898395494e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77490856,
      "step": 133510
    },
    {
      "epoch": 19.886058981233244,
      "grad_norm": 4.285528120817617e-06,
      "learning_rate": 4.956159375468783e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77493736,
      "step": 133515
    },
    {
      "epoch": 19.886803693774205,
      "grad_norm": 0.0006875290418975055,
      "learning_rate": 4.891670826959183e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77496968,
      "step": 133520
    },
    {
      "epoch": 19.88754840631516,
      "grad_norm": 3.412153319004574e-06,
      "learning_rate": 4.8276045454043185e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77499848,
      "step": 133525
    },
    {
      "epoch": 19.888293118856122,
      "grad_norm": 5.2892337407683954e-05,
      "learning_rate": 4.763960531878331e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77502632,
      "step": 133530
    },
    {
      "epoch": 19.88903783139708,
      "grad_norm": 9.803301509236917e-05,
      "learning_rate": 4.700738787466463e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77505384,
      "step": 133535
    },
    {
      "epoch": 19.88978254393804,
      "grad_norm": 3.5891029256163165e-05,
      "learning_rate": 4.637939313226203e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77508136,
      "step": 133540
    },
    {
      "epoch": 19.890527256479,
      "grad_norm": 9.327848965767771e-05,
      "learning_rate": 4.575562110228915e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77510888,
      "step": 133545
    },
    {
      "epoch": 19.891271969019957,
      "grad_norm": 0.0005089248297736049,
      "learning_rate": 4.513607179520985e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77513640,
      "step": 133550
    },
    {
      "epoch": 19.892016681560918,
      "grad_norm": 4.395893029141007e-06,
      "learning_rate": 4.452074522148797e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77516360,
      "step": 133555
    },
    {
      "epoch": 19.89276139410188,
      "grad_norm": 3.6824651033384725e-05,
      "learning_rate": 4.390964139158737e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77519176,
      "step": 133560
    },
    {
      "epoch": 19.893506106642835,
      "grad_norm": 2.7917827537748963e-05,
      "learning_rate": 4.330276031577762e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77522184,
      "step": 133565
    },
    {
      "epoch": 19.894250819183796,
      "grad_norm": 2.117032818205189e-05,
      "learning_rate": 4.270010200430052e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77524904,
      "step": 133570
    },
    {
      "epoch": 19.894995531724753,
      "grad_norm": 1.8854497056963737e-06,
      "learning_rate": 4.210166646737013e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77527976,
      "step": 133575
    },
    {
      "epoch": 19.895740244265713,
      "grad_norm": 7.958254172990564e-06,
      "learning_rate": 4.150745371508946e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77530696,
      "step": 133580
    },
    {
      "epoch": 19.896484956806674,
      "grad_norm": 4.069659553351812e-05,
      "learning_rate": 4.0917463757506045e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77533768,
      "step": 133585
    },
    {
      "epoch": 19.89722966934763,
      "grad_norm": 2.2170424927026033e-06,
      "learning_rate": 4.033169660458413e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77536616,
      "step": 133590
    },
    {
      "epoch": 19.89797438188859,
      "grad_norm": 2.264495378767606e-05,
      "learning_rate": 3.975015226617695e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77539432,
      "step": 133595
    },
    {
      "epoch": 19.898719094429552,
      "grad_norm": 6.514038977911696e-05,
      "learning_rate": 3.917283075216549e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77542536,
      "step": 133600
    },
    {
      "epoch": 19.89946380697051,
      "grad_norm": 1.1723746865754947e-05,
      "learning_rate": 3.8599732072264195e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77545288,
      "step": 133605
    },
    {
      "epoch": 19.90020851951147,
      "grad_norm": 1.2701854757324327e-05,
      "learning_rate": 3.803085623618752e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77548264,
      "step": 133610
    },
    {
      "epoch": 19.900953232052427,
      "grad_norm": 2.0307779777795076e-05,
      "learning_rate": 3.746620325351113e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77551016,
      "step": 133615
    },
    {
      "epoch": 19.901697944593387,
      "grad_norm": 0.000747118319850415,
      "learning_rate": 3.690577313381072e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77553928,
      "step": 133620
    },
    {
      "epoch": 19.902442657134348,
      "grad_norm": 0.00029582783463411033,
      "learning_rate": 3.6349565886523163e-09,
      "loss": 0.0001,
      "num_input_tokens_seen": 77556776,
      "step": 133625
    },
    {
      "epoch": 19.903187369675305,
      "grad_norm": 9.634887828724459e-05,
      "learning_rate": 3.579758152105761e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77559464,
      "step": 133630
    },
    {
      "epoch": 19.903932082216265,
      "grad_norm": 1.369189158140216e-05,
      "learning_rate": 3.524982004676769e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77562280,
      "step": 133635
    },
    {
      "epoch": 19.904676794757222,
      "grad_norm": 6.077464422560297e-05,
      "learning_rate": 3.4706281472840495e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77565384,
      "step": 133640
    },
    {
      "epoch": 19.905421507298183,
      "grad_norm": 2.2666143195237964e-05,
      "learning_rate": 3.4166965808518637e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77568040,
      "step": 133645
    },
    {
      "epoch": 19.906166219839143,
      "grad_norm": 4.943935709889047e-05,
      "learning_rate": 3.363187306287818e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77570664,
      "step": 133650
    },
    {
      "epoch": 19.9069109323801,
      "grad_norm": 5.66673543289653e-06,
      "learning_rate": 3.310100324499521e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77573416,
      "step": 133655
    },
    {
      "epoch": 19.90765564492106,
      "grad_norm": 1.1817708582384512e-05,
      "learning_rate": 3.2574356363807013e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77576328,
      "step": 133660
    },
    {
      "epoch": 19.90840035746202,
      "grad_norm": 8.44596706883749e-06,
      "learning_rate": 3.2051932428195375e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77579176,
      "step": 133665
    },
    {
      "epoch": 19.909145070002978,
      "grad_norm": 2.1350504539441317e-05,
      "learning_rate": 3.153373144704208e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77582184,
      "step": 133670
    },
    {
      "epoch": 19.90988978254394,
      "grad_norm": 6.749381554982392e-06,
      "learning_rate": 3.1019753429062383e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77585384,
      "step": 133675
    },
    {
      "epoch": 19.910634495084896,
      "grad_norm": 1.3396457688941155e-05,
      "learning_rate": 3.050999838294377e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77587880,
      "step": 133680
    },
    {
      "epoch": 19.911379207625856,
      "grad_norm": 2.372487642787746e-06,
      "learning_rate": 3.000446631729048e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77590824,
      "step": 133685
    },
    {
      "epoch": 19.912123920166817,
      "grad_norm": 0.0012706969864666462,
      "learning_rate": 2.9503157240651226e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77593896,
      "step": 133690
    },
    {
      "epoch": 19.912868632707774,
      "grad_norm": 4.4838238864031155e-06,
      "learning_rate": 2.900607116151921e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77596584,
      "step": 133695
    },
    {
      "epoch": 19.913613345248734,
      "grad_norm": 0.00010103324893862009,
      "learning_rate": 2.8513208088248867e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77599176,
      "step": 133700
    },
    {
      "epoch": 19.914358057789695,
      "grad_norm": 0.0013348856009542942,
      "learning_rate": 2.802456802919462e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77602376,
      "step": 133705
    },
    {
      "epoch": 19.915102770330652,
      "grad_norm": 5.795764081995003e-06,
      "learning_rate": 2.7540150992627633e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77605704,
      "step": 133710
    },
    {
      "epoch": 19.915847482871612,
      "grad_norm": 2.13412113225786e-05,
      "learning_rate": 2.705995698668029e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77608616,
      "step": 133715
    },
    {
      "epoch": 19.91659219541257,
      "grad_norm": 2.526274784031557e-06,
      "learning_rate": 2.658398601951273e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77611272,
      "step": 133720
    },
    {
      "epoch": 19.91733690795353,
      "grad_norm": 0.009026315994560719,
      "learning_rate": 2.6112238099146315e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77614152,
      "step": 133725
    },
    {
      "epoch": 19.91808162049449,
      "grad_norm": 3.7210465961834416e-06,
      "learning_rate": 2.564471323354689e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77616904,
      "step": 133730
    },
    {
      "epoch": 19.918826333035447,
      "grad_norm": 5.040689211455174e-05,
      "learning_rate": 2.5181411430597045e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77619880,
      "step": 133735
    },
    {
      "epoch": 19.919571045576408,
      "grad_norm": 9.650225547375157e-05,
      "learning_rate": 2.472233269817936e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77622824,
      "step": 133740
    },
    {
      "epoch": 19.92031575811737,
      "grad_norm": 4.9431814659328666e-06,
      "learning_rate": 2.4267477043982134e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77625448,
      "step": 133745
    },
    {
      "epoch": 19.921060470658325,
      "grad_norm": 7.304370956262574e-05,
      "learning_rate": 2.3816844475749167e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77628424,
      "step": 133750
    },
    {
      "epoch": 19.921805183199286,
      "grad_norm": 6.822003342676908e-05,
      "learning_rate": 2.337043500102998e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77631144,
      "step": 133755
    },
    {
      "epoch": 19.922549895740243,
      "grad_norm": 1.457021244277712e-05,
      "learning_rate": 2.2928248627429595e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77633768,
      "step": 133760
    },
    {
      "epoch": 19.923294608281203,
      "grad_norm": 3.9012179513520095e-06,
      "learning_rate": 2.249028536238651e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77636744,
      "step": 133765
    },
    {
      "epoch": 19.924039320822164,
      "grad_norm": 4.86015051137656e-06,
      "learning_rate": 2.205654521331146e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77639496,
      "step": 133770
    },
    {
      "epoch": 19.92478403336312,
      "grad_norm": 3.36083940055687e-06,
      "learning_rate": 2.162702818753193e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77642472,
      "step": 133775
    },
    {
      "epoch": 19.92552874590408,
      "grad_norm": 3.50202981280745e-06,
      "learning_rate": 2.120173429226435e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77645384,
      "step": 133780
    },
    {
      "epoch": 19.92627345844504,
      "grad_norm": 0.033413100987672806,
      "learning_rate": 2.0780663534752944e-09,
      "loss": 0.0001,
      "num_input_tokens_seen": 77648200,
      "step": 133785
    },
    {
      "epoch": 19.927018170986,
      "grad_norm": 0.00017902933177538216,
      "learning_rate": 2.036381592207537e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77651304,
      "step": 133790
    },
    {
      "epoch": 19.92776288352696,
      "grad_norm": 5.7688139349920675e-05,
      "learning_rate": 1.9951191461281547e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77654088,
      "step": 133795
    },
    {
      "epoch": 19.928507596067917,
      "grad_norm": 2.3974566829565447e-06,
      "learning_rate": 1.9542790159365887e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77656712,
      "step": 133800
    },
    {
      "epoch": 19.929252308608877,
      "grad_norm": 8.422090104431845e-06,
      "learning_rate": 1.913861202318401e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77659464,
      "step": 133805
    },
    {
      "epoch": 19.929997021149838,
      "grad_norm": 1.6181917089852504e-05,
      "learning_rate": 1.873865705959155e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77662440,
      "step": 133810
    },
    {
      "epoch": 19.930741733690795,
      "grad_norm": 9.43990107771242e-06,
      "learning_rate": 1.83429252753331e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77665352,
      "step": 133815
    },
    {
      "epoch": 19.931486446231755,
      "grad_norm": 4.085341060999781e-06,
      "learning_rate": 1.7951416677097766e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77668040,
      "step": 133820
    },
    {
      "epoch": 19.932231158772712,
      "grad_norm": 3.032162112504011e-06,
      "learning_rate": 1.7564131271519123e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77670760,
      "step": 133825
    },
    {
      "epoch": 19.932975871313673,
      "grad_norm": 2.1829860997968353e-05,
      "learning_rate": 1.7181069065119736e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77673608,
      "step": 133830
    },
    {
      "epoch": 19.933720583854633,
      "grad_norm": 3.139613181701861e-05,
      "learning_rate": 1.6802230064366653e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77676424,
      "step": 133835
    },
    {
      "epoch": 19.93446529639559,
      "grad_norm": 2.07032053367584e-06,
      "learning_rate": 1.642761427567141e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77678984,
      "step": 133840
    },
    {
      "epoch": 19.93521000893655,
      "grad_norm": 0.00028897225274704397,
      "learning_rate": 1.605722170536228e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77681640,
      "step": 133845
    },
    {
      "epoch": 19.93595472147751,
      "grad_norm": 2.7639844120130874e-05,
      "learning_rate": 1.5691052359684266e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77684264,
      "step": 133850
    },
    {
      "epoch": 19.93669943401847,
      "grad_norm": 1.0661404303391464e-05,
      "learning_rate": 1.5329106244854618e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77687208,
      "step": 133855
    },
    {
      "epoch": 19.93744414655943,
      "grad_norm": 3.6715316582558444e-06,
      "learning_rate": 1.4971383366951807e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77689960,
      "step": 133860
    },
    {
      "epoch": 19.938188859100386,
      "grad_norm": 3.987181116826832e-06,
      "learning_rate": 1.4617883732026549e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77693096,
      "step": 133865
    },
    {
      "epoch": 19.938933571641346,
      "grad_norm": 0.0007799158338457346,
      "learning_rate": 1.4268607346074048e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77696072,
      "step": 133870
    },
    {
      "epoch": 19.939678284182307,
      "grad_norm": 0.0002915338263846934,
      "learning_rate": 1.3923554214978485e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77699464,
      "step": 133875
    },
    {
      "epoch": 19.940422996723264,
      "grad_norm": 5.880615844944259e-06,
      "learning_rate": 1.3582724344568532e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77702280,
      "step": 133880
    },
    {
      "epoch": 19.941167709264224,
      "grad_norm": 1.0516178917896468e-05,
      "learning_rate": 1.3246117740589592e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77705192,
      "step": 133885
    },
    {
      "epoch": 19.941912421805185,
      "grad_norm": 2.2419251308747334e-06,
      "learning_rate": 1.2913734408759314e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77708360,
      "step": 133890
    },
    {
      "epoch": 19.942657134346142,
      "grad_norm": 3.21187726513017e-05,
      "learning_rate": 1.258557435465657e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77711176,
      "step": 133895
    },
    {
      "epoch": 19.943401846887102,
      "grad_norm": 5.890729880775325e-06,
      "learning_rate": 1.226163758386023e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77714216,
      "step": 133900
    },
    {
      "epoch": 19.94414655942806,
      "grad_norm": 6.874989594507497e-06,
      "learning_rate": 1.1941924101838142e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77716968,
      "step": 133905
    },
    {
      "epoch": 19.94489127196902,
      "grad_norm": 1.3673353350895923e-05,
      "learning_rate": 1.1626433913947132e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77719784,
      "step": 133910
    },
    {
      "epoch": 19.94563598450998,
      "grad_norm": 4.291159257263644e-06,
      "learning_rate": 1.1315167025571782e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77722664,
      "step": 133915
    },
    {
      "epoch": 19.946380697050937,
      "grad_norm": 2.8975968234590255e-05,
      "learning_rate": 1.1008123441957896e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77725576,
      "step": 133920
    },
    {
      "epoch": 19.947125409591898,
      "grad_norm": 0.00014597771223634481,
      "learning_rate": 1.070530316826801e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77728904,
      "step": 133925
    },
    {
      "epoch": 19.947870122132855,
      "grad_norm": 2.3948916350491345e-05,
      "learning_rate": 1.0406706209636908e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77731720,
      "step": 133930
    },
    {
      "epoch": 19.948614834673815,
      "grad_norm": 1.3009136637265328e-05,
      "learning_rate": 1.01123325711161e-09,
      "loss": 0.0,
      "num_input_tokens_seen": 77734440,
      "step": 133935
    },
    {
      "epoch": 19.949359547214776,
      "grad_norm": 1.100549525290262e-05,
      "learning_rate": 9.82218225767384e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77737224,
      "step": 133940
    },
    {
      "epoch": 19.950104259755733,
      "grad_norm": 2.446960388624575e-05,
      "learning_rate": 9.536255274195105e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77740104,
      "step": 133945
    },
    {
      "epoch": 19.950848972296694,
      "grad_norm": 7.466189799743006e-06,
      "learning_rate": 9.254551625509367e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77742920,
      "step": 133950
    },
    {
      "epoch": 19.951593684837654,
      "grad_norm": 6.974245025048731e-06,
      "learning_rate": 8.977071316418339e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77745576,
      "step": 133955
    },
    {
      "epoch": 19.95233839737861,
      "grad_norm": 3.2743553219916066e-06,
      "learning_rate": 8.703814351557205e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77748360,
      "step": 133960
    },
    {
      "epoch": 19.95308310991957,
      "grad_norm": 1.3534061508835293e-05,
      "learning_rate": 8.434780735561143e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77751336,
      "step": 133965
    },
    {
      "epoch": 19.95382782246053,
      "grad_norm": 3.681963107737829e-06,
      "learning_rate": 8.169970473009825e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77754184,
      "step": 133970
    },
    {
      "epoch": 19.95457253500149,
      "grad_norm": 9.317088370153215e-06,
      "learning_rate": 7.909383568316386e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77757288,
      "step": 133975
    },
    {
      "epoch": 19.95531724754245,
      "grad_norm": 5.178965238883393e-06,
      "learning_rate": 7.65302002592172e-10,
      "loss": 0.0009,
      "num_input_tokens_seen": 77760008,
      "step": 133980
    },
    {
      "epoch": 19.956061960083407,
      "grad_norm": 5.879776836081874e-06,
      "learning_rate": 7.400879850155695e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77762888,
      "step": 133985
    },
    {
      "epoch": 19.956806672624367,
      "grad_norm": 0.005585397593677044,
      "learning_rate": 7.152963045264915e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77766184,
      "step": 133990
    },
    {
      "epoch": 19.957551385165328,
      "grad_norm": 0.004384130239486694,
      "learning_rate": 6.909269615440472e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77768936,
      "step": 133995
    },
    {
      "epoch": 19.958296097706285,
      "grad_norm": 2.177457463403698e-05,
      "learning_rate": 6.669799564817947e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77772072,
      "step": 134000
    },
    {
      "epoch": 19.959040810247245,
      "grad_norm": 2.776328301479225e-06,
      "learning_rate": 6.434552897421897e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77774536,
      "step": 134005
    },
    {
      "epoch": 19.959785522788202,
      "grad_norm": 1.0102759915753268e-05,
      "learning_rate": 6.203529617221371e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77777416,
      "step": 134010
    },
    {
      "epoch": 19.960530235329163,
      "grad_norm": 4.8422516556456685e-06,
      "learning_rate": 5.976729728129904e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77780104,
      "step": 134015
    },
    {
      "epoch": 19.961274947870123,
      "grad_norm": 6.392437626345782e-06,
      "learning_rate": 5.754153233977766e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77782856,
      "step": 134020
    },
    {
      "epoch": 19.96201966041108,
      "grad_norm": 5.654216238326626e-06,
      "learning_rate": 5.535800138539715e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77785704,
      "step": 134025
    },
    {
      "epoch": 19.96276437295204,
      "grad_norm": 1.563364094181452e-05,
      "learning_rate": 5.321670445479488e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77788456,
      "step": 134030
    },
    {
      "epoch": 19.963509085493,
      "grad_norm": 2.758514710876625e-05,
      "learning_rate": 5.111764158433063e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77791272,
      "step": 134035
    },
    {
      "epoch": 19.96425379803396,
      "grad_norm": 2.4165476588677848e-06,
      "learning_rate": 4.906081280953157e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77794152,
      "step": 134040
    },
    {
      "epoch": 19.96499851057492,
      "grad_norm": 7.273355731740594e-05,
      "learning_rate": 4.704621816481458e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77797128,
      "step": 134045
    },
    {
      "epoch": 19.965743223115876,
      "grad_norm": 0.00010092585580423474,
      "learning_rate": 4.5073857684319043e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77799880,
      "step": 134050
    },
    {
      "epoch": 19.966487935656836,
      "grad_norm": 6.84035403537564e-05,
      "learning_rate": 4.3143731401629194e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77802760,
      "step": 134055
    },
    {
      "epoch": 19.967232648197797,
      "grad_norm": 8.172652087523602e-06,
      "learning_rate": 4.1255839349219063e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77805512,
      "step": 134060
    },
    {
      "epoch": 19.967977360738754,
      "grad_norm": 7.530723451054655e-06,
      "learning_rate": 3.9410181559007553e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77808456,
      "step": 134065
    },
    {
      "epoch": 19.968722073279714,
      "grad_norm": 4.0236958739114925e-05,
      "learning_rate": 3.760675806180336e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77811336,
      "step": 134070
    },
    {
      "epoch": 19.969466785820675,
      "grad_norm": 1.3420371942629572e-05,
      "learning_rate": 3.5845568888692726e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77814408,
      "step": 134075
    },
    {
      "epoch": 19.970211498361632,
      "grad_norm": 1.435383819625713e-05,
      "learning_rate": 3.412661406881901e-10,
      "loss": 0.0004,
      "num_input_tokens_seen": 77817096,
      "step": 134080
    },
    {
      "epoch": 19.970956210902592,
      "grad_norm": 1.4366193681780715e-05,
      "learning_rate": 3.244989363188067e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77820008,
      "step": 134085
    },
    {
      "epoch": 19.97170092344355,
      "grad_norm": 5.580879133049166e-06,
      "learning_rate": 3.0815407605633283e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77823144,
      "step": 134090
    },
    {
      "epoch": 19.97244563598451,
      "grad_norm": 6.476628186646849e-06,
      "learning_rate": 2.922315601783243e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77826248,
      "step": 134095
    },
    {
      "epoch": 19.97319034852547,
      "grad_norm": 6.573397513420787e-06,
      "learning_rate": 2.7673138895678574e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77829608,
      "step": 134100
    },
    {
      "epoch": 19.973935061066427,
      "grad_norm": 5.6511304137529805e-05,
      "learning_rate": 2.61653562649844e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77832520,
      "step": 134105
    },
    {
      "epoch": 19.974679773607388,
      "grad_norm": 0.00017904749256558716,
      "learning_rate": 2.469980815128503e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77835208,
      "step": 134110
    },
    {
      "epoch": 19.97542448614835,
      "grad_norm": 3.4502825201343512e-06,
      "learning_rate": 2.3276494579560492e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77838472,
      "step": 134115
    },
    {
      "epoch": 19.976169198689306,
      "grad_norm": 4.626342160918284e-06,
      "learning_rate": 2.1895415573680578e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77841544,
      "step": 134120
    },
    {
      "epoch": 19.976913911230266,
      "grad_norm": 0.001019723480567336,
      "learning_rate": 2.055657115695997e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77844616,
      "step": 134125
    },
    {
      "epoch": 19.977658623771223,
      "grad_norm": 2.0083474737475626e-05,
      "learning_rate": 1.925996135215824e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77847400,
      "step": 134130
    },
    {
      "epoch": 19.978403336312184,
      "grad_norm": 4.845054718316533e-06,
      "learning_rate": 1.8005586181202295e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77850408,
      "step": 134135
    },
    {
      "epoch": 19.979148048853144,
      "grad_norm": 5.2519958444463555e-06,
      "learning_rate": 1.6793445664908813e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77853096,
      "step": 134140
    },
    {
      "epoch": 19.9798927613941,
      "grad_norm": 0.0005347327678464353,
      "learning_rate": 1.5623539824372035e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77856232,
      "step": 134145
    },
    {
      "epoch": 19.98063747393506,
      "grad_norm": 5.227939254837111e-06,
      "learning_rate": 1.4495868678743307e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77858984,
      "step": 134150
    },
    {
      "epoch": 19.98138218647602,
      "grad_norm": 4.2567903619783465e-06,
      "learning_rate": 1.3410432247173977e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77862376,
      "step": 134155
    },
    {
      "epoch": 19.98212689901698,
      "grad_norm": 2.0278954252717085e-05,
      "learning_rate": 1.2367230548537834e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77865032,
      "step": 134160
    },
    {
      "epoch": 19.98287161155794,
      "grad_norm": 3.894792826031335e-05,
      "learning_rate": 1.1366263599765781e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77868008,
      "step": 134165
    },
    {
      "epoch": 19.983616324098897,
      "grad_norm": 7.17971270205453e-05,
      "learning_rate": 1.040753141834383e-10,
      "loss": 0.0,
      "num_input_tokens_seen": 77870632,
      "step": 134170
    },
    {
      "epoch": 19.984361036639857,
      "grad_norm": 2.6826189696294023e-06,
      "learning_rate": 9.491034020092659e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77873960,
      "step": 134175
    },
    {
      "epoch": 19.985105749180818,
      "grad_norm": 1.7402049707015976e-05,
      "learning_rate": 8.616771420555391e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77876968,
      "step": 134180
    },
    {
      "epoch": 19.985850461721775,
      "grad_norm": 0.0001268576452275738,
      "learning_rate": 7.784743634720038e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77879624,
      "step": 134185
    },
    {
      "epoch": 19.986595174262735,
      "grad_norm": 0.00016357324784621596,
      "learning_rate": 6.994950676186829e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77882504,
      "step": 134190
    },
    {
      "epoch": 19.987339886803692,
      "grad_norm": 4.6034470869926736e-05,
      "learning_rate": 6.247392558833553e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77885320,
      "step": 134195
    },
    {
      "epoch": 19.988084599344653,
      "grad_norm": 5.111938207846833e-06,
      "learning_rate": 5.542069295150221e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77888456,
      "step": 134200
    },
    {
      "epoch": 19.988829311885613,
      "grad_norm": 7.55107612349093e-05,
      "learning_rate": 4.878980896794172e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77891336,
      "step": 134205
    },
    {
      "epoch": 19.98957402442657,
      "grad_norm": 4.542894021142274e-05,
      "learning_rate": 4.258127375145193e-11,
      "loss": 0.0002,
      "num_input_tokens_seen": 77894344,
      "step": 134210
    },
    {
      "epoch": 19.99031873696753,
      "grad_norm": 7.192443717940478e-06,
      "learning_rate": 3.679508740472848e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77896904,
      "step": 134215
    },
    {
      "epoch": 19.99106344950849,
      "grad_norm": 2.3247541776072467e-06,
      "learning_rate": 3.143125003046699e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77899528,
      "step": 134220
    },
    {
      "epoch": 19.99180816204945,
      "grad_norm": 4.54312285000924e-05,
      "learning_rate": 2.648976171470974e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77902728,
      "step": 134225
    },
    {
      "epoch": 19.99255287459041,
      "grad_norm": 2.4735834358580178e-06,
      "learning_rate": 2.197062254349902e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77905704,
      "step": 134230
    },
    {
      "epoch": 19.993297587131366,
      "grad_norm": 2.957997094199527e-05,
      "learning_rate": 1.7873832591774885e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77908616,
      "step": 134235
    },
    {
      "epoch": 19.994042299672326,
      "grad_norm": 1.6724086890462786e-05,
      "learning_rate": 1.4199391928926276e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77911176,
      "step": 134240
    },
    {
      "epoch": 19.994787012213287,
      "grad_norm": 1.595602043380495e-05,
      "learning_rate": 1.0947300618791013e-11,
      "loss": 0.0,
      "num_input_tokens_seen": 77914024,
      "step": 134245
    },
    {
      "epoch": 19.995531724754244,
      "grad_norm": 8.572982551413588e-06,
      "learning_rate": 8.11755871410469e-12,
      "loss": 0.0,
      "num_input_tokens_seen": 77916840,
      "step": 134250
    },
    {
      "epoch": 19.996276437295204,
      "grad_norm": 9.179722110275179e-05,
      "learning_rate": 5.710166262051786e-12,
      "loss": 0.0,
      "num_input_tokens_seen": 77919656,
      "step": 134255
    },
    {
      "epoch": 19.997021149836165,
      "grad_norm": 1.6299234630423598e-05,
      "learning_rate": 3.725123307041223e-12,
      "loss": 0.0,
      "num_input_tokens_seen": 77922600,
      "step": 134260
    },
    {
      "epoch": 19.997765862377122,
      "grad_norm": 0.0004064429085701704,
      "learning_rate": 2.162429879604133e-12,
      "loss": 0.0,
      "num_input_tokens_seen": 77925576,
      "step": 134265
    },
    {
      "epoch": 19.998510574918082,
      "grad_norm": 4.1093364416155964e-05,
      "learning_rate": 1.022086004720535e-12,
      "loss": 0.0,
      "num_input_tokens_seen": 77928488,
      "step": 134270
    },
    {
      "epoch": 19.99925528745904,
      "grad_norm": 1.7225735064130276e-05,
      "learning_rate": 3.040917045948888e-13,
      "loss": 0.0,
      "num_input_tokens_seen": 77931400,
      "step": 134275
    },
    {
      "epoch": 20.0,
      "grad_norm": 1.7073904018616304e-05,
      "learning_rate": 8.446993104982426e-15,
      "loss": 0.0,
      "num_input_tokens_seen": 77933776,
      "step": 134280
    },
    {
      "epoch": 20.0,
      "eval_loss": 3.398003578186035,
      "eval_runtime": 49.1559,
      "eval_samples_per_second": 60.705,
      "eval_steps_per_second": 15.176,
      "num_input_tokens_seen": 77933776,
      "step": 134280
    },
    {
      "epoch": 20.0,
      "num_input_tokens_seen": 77933776,
      "step": 134280,
      "total_flos": 3.516187146623779e+18,
      "train_loss": 0.18948473191017987,
      "train_runtime": 31665.368,
      "train_samples_per_second": 16.96,
      "train_steps_per_second": 4.241
    }
  ],
  "logging_steps": 5,
  "max_steps": 134280,
  "num_input_tokens_seen": 77933776,
  "num_train_epochs": 20,
  "save_steps": 6714,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3.516187146623779e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}