{
  "best_global_step": 5058,
  "best_metric": 0.18196314573287964,
  "best_model_checkpoint": "saves/prefix-tuning/llama-3-8b-instruct/train_rte_1754652145/checkpoint-5058",
  "epoch": 10.0,
  "eval_steps": 281,
  "global_step": 5610,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.008912655971479501,
      "grad_norm": 2.640630006790161,
      "learning_rate": 3.5650623885918005e-07,
      "loss": 11.4646,
      "num_input_tokens_seen": 3168,
      "step": 5
    },
    {
      "epoch": 0.017825311942959002,
      "grad_norm": 2.218021869659424,
      "learning_rate": 8.021390374331552e-07,
      "loss": 11.5893,
      "num_input_tokens_seen": 6272,
      "step": 10
    },
    {
      "epoch": 0.026737967914438502,
      "grad_norm": 2.5081377029418945,
      "learning_rate": 1.2477718360071302e-06,
      "loss": 11.4013,
      "num_input_tokens_seen": 10144,
      "step": 15
    },
    {
      "epoch": 0.035650623885918005,
      "grad_norm": 2.2221429347991943,
      "learning_rate": 1.6934046345811053e-06,
      "loss": 11.4758,
      "num_input_tokens_seen": 13536,
      "step": 20
    },
    {
      "epoch": 0.044563279857397504,
      "grad_norm": 2.0649468898773193,
      "learning_rate": 2.1390374331550802e-06,
      "loss": 11.3651,
      "num_input_tokens_seen": 16128,
      "step": 25
    },
    {
      "epoch": 0.053475935828877004,
      "grad_norm": 2.8866872787475586,
      "learning_rate": 2.5846702317290554e-06,
      "loss": 11.4745,
      "num_input_tokens_seen": 18784,
      "step": 30
    },
    {
      "epoch": 0.062388591800356503,
      "grad_norm": 2.091982841491699,
      "learning_rate": 3.0303030303030305e-06,
      "loss": 11.5827,
      "num_input_tokens_seen": 22336,
      "step": 35
    },
    {
      "epoch": 0.07130124777183601,
      "grad_norm": 2.3348405361175537,
      "learning_rate": 3.4759358288770056e-06,
      "loss": 11.5288,
      "num_input_tokens_seen": 25408,
      "step": 40
    },
    {
      "epoch": 0.08021390374331551,
      "grad_norm": 2.6505680084228516,
      "learning_rate": 3.92156862745098e-06,
      "loss": 11.3178,
      "num_input_tokens_seen": 27968,
      "step": 45
    },
    {
      "epoch": 0.08912655971479501,
      "grad_norm": 2.241699457168579,
      "learning_rate": 4.3672014260249555e-06,
      "loss": 11.2239,
      "num_input_tokens_seen": 30752,
      "step": 50
    },
    {
      "epoch": 0.09803921568627451,
      "grad_norm": 2.149437427520752,
      "learning_rate": 4.812834224598931e-06,
      "loss": 11.3085,
      "num_input_tokens_seen": 33376,
      "step": 55
    },
    {
      "epoch": 0.10695187165775401,
      "grad_norm": 2.2778542041778564,
      "learning_rate": 5.258467023172906e-06,
      "loss": 11.3491,
      "num_input_tokens_seen": 37280,
      "step": 60
    },
    {
      "epoch": 0.11586452762923351,
      "grad_norm": 2.1370596885681152,
      "learning_rate": 5.704099821746881e-06,
      "loss": 11.0892,
      "num_input_tokens_seen": 40640,
      "step": 65
    },
    {
      "epoch": 0.12477718360071301,
      "grad_norm": 2.1671693325042725,
      "learning_rate": 6.149732620320856e-06,
      "loss": 11.4158,
      "num_input_tokens_seen": 44128,
      "step": 70
    },
    {
      "epoch": 0.13368983957219252,
      "grad_norm": 2.1441879272460938,
      "learning_rate": 6.59536541889483e-06,
      "loss": 11.0242,
      "num_input_tokens_seen": 47648,
      "step": 75
    },
    {
      "epoch": 0.14260249554367202,
      "grad_norm": 2.2412052154541016,
      "learning_rate": 7.040998217468805e-06,
      "loss": 10.8869,
      "num_input_tokens_seen": 50816,
      "step": 80
    },
    {
      "epoch": 0.15151515151515152,
      "grad_norm": 2.3039534091949463,
      "learning_rate": 7.4866310160427806e-06,
      "loss": 11.031,
      "num_input_tokens_seen": 53728,
      "step": 85
    },
    {
      "epoch": 0.16042780748663102,
      "grad_norm": 2.3388712406158447,
      "learning_rate": 7.932263814616755e-06,
      "loss": 10.9959,
      "num_input_tokens_seen": 57056,
      "step": 90
    },
    {
      "epoch": 0.16934046345811052,
      "grad_norm": 2.324082851409912,
      "learning_rate": 8.377896613190733e-06,
      "loss": 10.8078,
      "num_input_tokens_seen": 59808,
      "step": 95
    },
    {
      "epoch": 0.17825311942959002,
      "grad_norm": 2.343338966369629,
      "learning_rate": 8.823529411764707e-06,
      "loss": 10.6152,
      "num_input_tokens_seen": 62848,
      "step": 100
    },
    {
      "epoch": 0.18716577540106952,
      "grad_norm": 2.170870542526245,
      "learning_rate": 9.269162210338681e-06,
      "loss": 10.7252,
      "num_input_tokens_seen": 65856,
      "step": 105
    },
    {
      "epoch": 0.19607843137254902,
      "grad_norm": 2.1757500171661377,
      "learning_rate": 9.714795008912657e-06,
      "loss": 10.702,
      "num_input_tokens_seen": 68672,
      "step": 110
    },
    {
      "epoch": 0.20499108734402852,
      "grad_norm": 2.319809675216675,
      "learning_rate": 1.0160427807486631e-05,
      "loss": 10.7596,
      "num_input_tokens_seen": 71840,
      "step": 115
    },
    {
      "epoch": 0.21390374331550802,
      "grad_norm": 2.85723876953125,
      "learning_rate": 1.0606060606060607e-05,
      "loss": 10.6329,
      "num_input_tokens_seen": 74624,
      "step": 120
    },
    {
      "epoch": 0.22281639928698752,
      "grad_norm": 2.3634092807769775,
      "learning_rate": 1.1051693404634582e-05,
      "loss": 10.694,
      "num_input_tokens_seen": 78080,
      "step": 125
    },
    {
      "epoch": 0.23172905525846701,
      "grad_norm": 2.2238471508026123,
      "learning_rate": 1.1497326203208558e-05,
      "loss": 10.4616,
      "num_input_tokens_seen": 81408,
      "step": 130
    },
    {
      "epoch": 0.24064171122994651,
      "grad_norm": 2.2605199813842773,
      "learning_rate": 1.1942959001782532e-05,
      "loss": 10.2704,
      "num_input_tokens_seen": 84192,
      "step": 135
    },
    {
      "epoch": 0.24955436720142601,
      "grad_norm": 2.334446668624878,
      "learning_rate": 1.2388591800356506e-05,
      "loss": 10.1217,
      "num_input_tokens_seen": 87264,
      "step": 140
    },
    {
      "epoch": 0.25846702317290554,
      "grad_norm": 2.1008996963500977,
      "learning_rate": 1.2834224598930484e-05,
      "loss": 9.9505,
      "num_input_tokens_seen": 90336,
      "step": 145
    },
    {
      "epoch": 0.26737967914438504,
      "grad_norm": 2.1396262645721436,
      "learning_rate": 1.3279857397504458e-05,
      "loss": 9.9953,
      "num_input_tokens_seen": 93760,
      "step": 150
    },
    {
      "epoch": 0.27629233511586454,
      "grad_norm": 1.9306892156600952,
      "learning_rate": 1.3725490196078432e-05,
      "loss": 10.0273,
      "num_input_tokens_seen": 97120,
      "step": 155
    },
    {
      "epoch": 0.28520499108734404,
      "grad_norm": 2.2339835166931152,
      "learning_rate": 1.4171122994652408e-05,
      "loss": 9.8194,
      "num_input_tokens_seen": 100160,
      "step": 160
    },
    {
      "epoch": 0.29411764705882354,
      "grad_norm": 2.1370038986206055,
      "learning_rate": 1.4616755793226383e-05,
      "loss": 9.7234,
      "num_input_tokens_seen": 103136,
      "step": 165
    },
    {
      "epoch": 0.30303030303030304,
      "grad_norm": 2.2204971313476562,
      "learning_rate": 1.5062388591800359e-05,
      "loss": 9.4737,
      "num_input_tokens_seen": 105696,
      "step": 170
    },
    {
      "epoch": 0.31194295900178254,
      "grad_norm": 2.0649607181549072,
      "learning_rate": 1.5508021390374333e-05,
      "loss": 9.299,
      "num_input_tokens_seen": 108800,
      "step": 175
    },
    {
      "epoch": 0.32085561497326204,
      "grad_norm": 2.166388511657715,
      "learning_rate": 1.5953654188948307e-05,
      "loss": 9.3115,
      "num_input_tokens_seen": 111808,
      "step": 180
    },
    {
      "epoch": 0.32976827094474154,
      "grad_norm": 2.0328972339630127,
      "learning_rate": 1.639928698752228e-05,
      "loss": 9.3707,
      "num_input_tokens_seen": 114944,
      "step": 185
    },
    {
      "epoch": 0.33868092691622104,
      "grad_norm": 2.443514347076416,
      "learning_rate": 1.684491978609626e-05,
      "loss": 8.9663,
      "num_input_tokens_seen": 118112,
      "step": 190
    },
    {
      "epoch": 0.34759358288770054,
      "grad_norm": 2.0616464614868164,
      "learning_rate": 1.7290552584670233e-05,
      "loss": 8.9474,
      "num_input_tokens_seen": 120896,
      "step": 195
    },
    {
      "epoch": 0.35650623885918004,
      "grad_norm": 2.2355945110321045,
      "learning_rate": 1.7736185383244208e-05,
      "loss": 8.6637,
      "num_input_tokens_seen": 123904,
      "step": 200
    },
    {
      "epoch": 0.36541889483065954,
      "grad_norm": 2.044498920440674,
      "learning_rate": 1.8181818181818182e-05,
      "loss": 8.6211,
      "num_input_tokens_seen": 127008,
      "step": 205
    },
    {
      "epoch": 0.37433155080213903,
      "grad_norm": 2.1903281211853027,
      "learning_rate": 1.862745098039216e-05,
      "loss": 8.4521,
      "num_input_tokens_seen": 129984,
      "step": 210
    },
    {
      "epoch": 0.38324420677361853,
      "grad_norm": 2.253875255584717,
      "learning_rate": 1.9073083778966134e-05,
      "loss": 8.4635,
      "num_input_tokens_seen": 133152,
      "step": 215
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 2.23766827583313,
      "learning_rate": 1.951871657754011e-05,
      "loss": 8.4012,
      "num_input_tokens_seen": 136096,
      "step": 220
    },
    {
      "epoch": 0.40106951871657753,
      "grad_norm": 2.4483225345611572,
      "learning_rate": 1.9964349376114083e-05,
      "loss": 8.019,
      "num_input_tokens_seen": 139136,
      "step": 225
    },
    {
      "epoch": 0.40998217468805703,
      "grad_norm": 2.141366958618164,
      "learning_rate": 2.0409982174688057e-05,
      "loss": 8.2362,
      "num_input_tokens_seen": 142080,
      "step": 230
    },
    {
      "epoch": 0.41889483065953653,
      "grad_norm": 2.049794912338257,
      "learning_rate": 2.0855614973262035e-05,
      "loss": 8.3716,
      "num_input_tokens_seen": 145824,
      "step": 235
    },
    {
      "epoch": 0.42780748663101603,
      "grad_norm": 2.0718395709991455,
      "learning_rate": 2.130124777183601e-05,
      "loss": 7.742,
      "num_input_tokens_seen": 149280,
      "step": 240
    },
    {
      "epoch": 0.43672014260249553,
      "grad_norm": 2.133650064468384,
      "learning_rate": 2.1746880570409983e-05,
      "loss": 7.7851,
      "num_input_tokens_seen": 152544,
      "step": 245
    },
    {
      "epoch": 0.44563279857397503,
      "grad_norm": 2.0652763843536377,
      "learning_rate": 2.2192513368983957e-05,
      "loss": 7.4258,
      "num_input_tokens_seen": 156416,
      "step": 250
    },
    {
      "epoch": 0.45454545454545453,
      "grad_norm": 1.8414599895477295,
      "learning_rate": 2.2638146167557932e-05,
      "loss": 7.1734,
      "num_input_tokens_seen": 159712,
      "step": 255
    },
    {
      "epoch": 0.46345811051693403,
      "grad_norm": 2.0587077140808105,
      "learning_rate": 2.308377896613191e-05,
      "loss": 6.8801,
      "num_input_tokens_seen": 162400,
      "step": 260
    },
    {
      "epoch": 0.47237076648841353,
      "grad_norm": 1.8652368783950806,
      "learning_rate": 2.3529411764705884e-05,
      "loss": 7.0346,
      "num_input_tokens_seen": 166048,
      "step": 265
    },
    {
      "epoch": 0.48128342245989303,
      "grad_norm": 1.6939105987548828,
      "learning_rate": 2.3975044563279858e-05,
      "loss": 6.5944,
      "num_input_tokens_seen": 168576,
      "step": 270
    },
    {
      "epoch": 0.49019607843137253,
      "grad_norm": 1.9076436758041382,
      "learning_rate": 2.4420677361853832e-05,
      "loss": 6.7204,
      "num_input_tokens_seen": 172320,
      "step": 275
    },
    {
      "epoch": 0.49910873440285203,
      "grad_norm": 1.65463387966156,
      "learning_rate": 2.4866310160427807e-05,
      "loss": 6.7786,
      "num_input_tokens_seen": 175424,
      "step": 280
    },
    {
      "epoch": 0.5008912655971479,
      "eval_loss": 6.320615768432617,
      "eval_runtime": 4.2449,
      "eval_samples_per_second": 58.659,
      "eval_steps_per_second": 14.841,
      "num_input_tokens_seen": 176032,
      "step": 281
    },
    {
      "epoch": 0.5080213903743316,
      "grad_norm": 2.3921778202056885,
      "learning_rate": 2.5311942959001784e-05,
      "loss": 6.4536,
      "num_input_tokens_seen": 178016,
      "step": 285
    },
    {
      "epoch": 0.5169340463458111,
      "grad_norm": 1.5767650604248047,
      "learning_rate": 2.575757575757576e-05,
      "loss": 6.7214,
      "num_input_tokens_seen": 181888,
      "step": 290
    },
    {
      "epoch": 0.5258467023172906,
      "grad_norm": 1.6409612894058228,
      "learning_rate": 2.6203208556149733e-05,
      "loss": 6.0779,
      "num_input_tokens_seen": 184960,
      "step": 295
    },
    {
      "epoch": 0.5347593582887701,
      "grad_norm": 1.5643103122711182,
      "learning_rate": 2.6648841354723707e-05,
      "loss": 5.8182,
      "num_input_tokens_seen": 187488,
      "step": 300
    },
    {
      "epoch": 0.5436720142602496,
      "grad_norm": 1.7608228921890259,
      "learning_rate": 2.7094474153297685e-05,
      "loss": 6.2207,
      "num_input_tokens_seen": 191232,
      "step": 305
    },
    {
      "epoch": 0.5525846702317291,
      "grad_norm": 1.5273125171661377,
      "learning_rate": 2.754010695187166e-05,
      "loss": 5.8064,
      "num_input_tokens_seen": 194272,
      "step": 310
    },
    {
      "epoch": 0.5614973262032086,
      "grad_norm": 1.3673619031906128,
      "learning_rate": 2.7985739750445633e-05,
      "loss": 5.7312,
      "num_input_tokens_seen": 197184,
      "step": 315
    },
    {
      "epoch": 0.5704099821746881,
      "grad_norm": 1.3092046976089478,
      "learning_rate": 2.8431372549019608e-05,
      "loss": 5.36,
      "num_input_tokens_seen": 199840,
      "step": 320
    },
    {
      "epoch": 0.5793226381461676,
      "grad_norm": 1.5241113901138306,
      "learning_rate": 2.8877005347593582e-05,
      "loss": 5.6509,
      "num_input_tokens_seen": 203008,
      "step": 325
    },
    {
      "epoch": 0.5882352941176471,
      "grad_norm": 1.2224637269973755,
      "learning_rate": 2.932263814616756e-05,
      "loss": 5.3917,
      "num_input_tokens_seen": 206400,
      "step": 330
    },
    {
      "epoch": 0.5971479500891266,
      "grad_norm": 1.1933878660202026,
      "learning_rate": 2.9768270944741534e-05,
      "loss": 5.2637,
      "num_input_tokens_seen": 209440,
      "step": 335
    },
    {
      "epoch": 0.6060606060606061,
      "grad_norm": 1.1900209188461304,
      "learning_rate": 3.0213903743315508e-05,
      "loss": 5.4659,
      "num_input_tokens_seen": 212736,
      "step": 340
    },
    {
      "epoch": 0.6149732620320856,
      "grad_norm": 1.3414652347564697,
      "learning_rate": 3.065953654188948e-05,
      "loss": 5.324,
      "num_input_tokens_seen": 216096,
      "step": 345
    },
    {
      "epoch": 0.6238859180035651,
      "grad_norm": 1.1607022285461426,
      "learning_rate": 3.110516934046346e-05,
      "loss": 5.2878,
      "num_input_tokens_seen": 219200,
      "step": 350
    },
    {
      "epoch": 0.6327985739750446,
      "grad_norm": 1.153671383857727,
      "learning_rate": 3.155080213903743e-05,
      "loss": 4.9444,
      "num_input_tokens_seen": 221952,
      "step": 355
    },
    {
      "epoch": 0.6417112299465241,
      "grad_norm": 1.139689326286316,
      "learning_rate": 3.199643493761141e-05,
      "loss": 4.891,
      "num_input_tokens_seen": 225376,
      "step": 360
    },
    {
      "epoch": 0.6506238859180036,
      "grad_norm": 1.0437010526657104,
      "learning_rate": 3.2442067736185386e-05,
      "loss": 4.9337,
      "num_input_tokens_seen": 228736,
      "step": 365
    },
    {
      "epoch": 0.6595365418894831,
      "grad_norm": 1.2458043098449707,
      "learning_rate": 3.288770053475936e-05,
      "loss": 4.7023,
      "num_input_tokens_seen": 231648,
      "step": 370
    },
    {
      "epoch": 0.6684491978609626,
      "grad_norm": 1.0675745010375977,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 4.594,
      "num_input_tokens_seen": 234976,
      "step": 375
    },
    {
      "epoch": 0.6773618538324421,
      "grad_norm": 1.0720183849334717,
      "learning_rate": 3.3778966131907306e-05,
      "loss": 4.82,
      "num_input_tokens_seen": 238368,
      "step": 380
    },
    {
      "epoch": 0.6862745098039216,
      "grad_norm": 1.044710636138916,
      "learning_rate": 3.4224598930481284e-05,
      "loss": 4.5563,
      "num_input_tokens_seen": 241440,
      "step": 385
    },
    {
      "epoch": 0.6951871657754011,
      "grad_norm": 1.0943641662597656,
      "learning_rate": 3.467023172905526e-05,
      "loss": 4.5969,
      "num_input_tokens_seen": 244448,
      "step": 390
    },
    {
      "epoch": 0.7040998217468806,
      "grad_norm": 1.082396149635315,
      "learning_rate": 3.511586452762923e-05,
      "loss": 4.3737,
      "num_input_tokens_seen": 246880,
      "step": 395
    },
    {
      "epoch": 0.7130124777183601,
      "grad_norm": 1.1410984992980957,
      "learning_rate": 3.556149732620321e-05,
      "loss": 4.3754,
      "num_input_tokens_seen": 250240,
      "step": 400
    },
    {
      "epoch": 0.7219251336898396,
      "grad_norm": 1.1234968900680542,
      "learning_rate": 3.600713012477718e-05,
      "loss": 4.3313,
      "num_input_tokens_seen": 253184,
      "step": 405
    },
    {
      "epoch": 0.7308377896613191,
      "grad_norm": 1.2889167070388794,
      "learning_rate": 3.645276292335116e-05,
      "loss": 4.1676,
      "num_input_tokens_seen": 255968,
      "step": 410
    },
    {
      "epoch": 0.7397504456327986,
      "grad_norm": 0.9909088611602783,
      "learning_rate": 3.6898395721925136e-05,
      "loss": 4.1332,
      "num_input_tokens_seen": 258688,
      "step": 415
    },
    {
      "epoch": 0.7486631016042781,
      "grad_norm": 1.12320077419281,
      "learning_rate": 3.734402852049911e-05,
      "loss": 4.1551,
      "num_input_tokens_seen": 262240,
      "step": 420
    },
    {
      "epoch": 0.7575757575757576,
      "grad_norm": 1.1998422145843506,
      "learning_rate": 3.7789661319073085e-05,
      "loss": 4.1066,
      "num_input_tokens_seen": 265952,
      "step": 425
    },
    {
      "epoch": 0.7664884135472371,
      "grad_norm": 1.6095830202102661,
      "learning_rate": 3.8235294117647055e-05,
      "loss": 4.3427,
      "num_input_tokens_seen": 269312,
      "step": 430
    },
    {
      "epoch": 0.7754010695187166,
      "grad_norm": 1.1973387002944946,
      "learning_rate": 3.868092691622103e-05,
      "loss": 4.0544,
      "num_input_tokens_seen": 272128,
      "step": 435
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 1.13062584400177,
      "learning_rate": 3.912655971479501e-05,
      "loss": 4.0524,
      "num_input_tokens_seen": 275552,
      "step": 440
    },
    {
      "epoch": 0.7932263814616756,
      "grad_norm": 1.095451831817627,
      "learning_rate": 3.957219251336899e-05,
      "loss": 3.9436,
      "num_input_tokens_seen": 278720,
      "step": 445
    },
    {
      "epoch": 0.8021390374331551,
      "grad_norm": 0.9978923201560974,
      "learning_rate": 4.0017825311942966e-05,
      "loss": 3.6121,
      "num_input_tokens_seen": 281536,
      "step": 450
    },
    {
      "epoch": 0.8110516934046346,
      "grad_norm": 1.036067008972168,
      "learning_rate": 4.046345811051694e-05,
      "loss": 3.8184,
      "num_input_tokens_seen": 284672,
      "step": 455
    },
    {
      "epoch": 0.8199643493761141,
      "grad_norm": 0.8888896107673645,
      "learning_rate": 4.0909090909090915e-05,
      "loss": 3.7184,
      "num_input_tokens_seen": 288416,
      "step": 460
    },
    {
      "epoch": 0.8288770053475936,
      "grad_norm": 0.8882661461830139,
      "learning_rate": 4.1354723707664886e-05,
      "loss": 3.6762,
      "num_input_tokens_seen": 291232,
      "step": 465
    },
    {
      "epoch": 0.8377896613190731,
      "grad_norm": 1.3067046403884888,
      "learning_rate": 4.180035650623886e-05,
      "loss": 3.7256,
      "num_input_tokens_seen": 294784,
      "step": 470
    },
    {
      "epoch": 0.8467023172905526,
      "grad_norm": 1.1890095472335815,
      "learning_rate": 4.224598930481284e-05,
      "loss": 3.4105,
      "num_input_tokens_seen": 297632,
      "step": 475
    },
    {
      "epoch": 0.8556149732620321,
      "grad_norm": 0.9891613125801086,
      "learning_rate": 4.269162210338681e-05,
      "loss": 3.2745,
      "num_input_tokens_seen": 300416,
      "step": 480
    },
    {
      "epoch": 0.8645276292335116,
      "grad_norm": 0.9931787848472595,
      "learning_rate": 4.313725490196079e-05,
      "loss": 3.1763,
      "num_input_tokens_seen": 303232,
      "step": 485
    },
    {
      "epoch": 0.8734402852049911,
      "grad_norm": 0.8934875130653381,
      "learning_rate": 4.358288770053476e-05,
      "loss": 3.2828,
      "num_input_tokens_seen": 306144,
      "step": 490
    },
    {
      "epoch": 0.8823529411764706,
      "grad_norm": 1.265254259109497,
      "learning_rate": 4.402852049910874e-05,
      "loss": 3.2048,
      "num_input_tokens_seen": 308576,
      "step": 495
    },
    {
      "epoch": 0.8912655971479501,
      "grad_norm": 1.0396374464035034,
      "learning_rate": 4.4474153297682716e-05,
      "loss": 3.197,
      "num_input_tokens_seen": 312000,
      "step": 500
    },
    {
      "epoch": 0.9001782531194296,
      "grad_norm": 0.8916023373603821,
      "learning_rate": 4.491978609625669e-05,
      "loss": 2.9296,
      "num_input_tokens_seen": 314848,
      "step": 505
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 1.1076226234436035,
      "learning_rate": 4.5365418894830664e-05,
      "loss": 3.0006,
      "num_input_tokens_seen": 318112,
      "step": 510
    },
    {
      "epoch": 0.9180035650623886,
      "grad_norm": 1.0348403453826904,
      "learning_rate": 4.5811051693404635e-05,
      "loss": 3.2128,
      "num_input_tokens_seen": 321152,
      "step": 515
    },
    {
      "epoch": 0.9269162210338681,
      "grad_norm": 0.9368388056755066,
      "learning_rate": 4.625668449197861e-05,
      "loss": 2.6109,
      "num_input_tokens_seen": 323552,
      "step": 520
    },
    {
      "epoch": 0.9358288770053476,
      "grad_norm": 0.9401017427444458,
      "learning_rate": 4.670231729055259e-05,
      "loss": 2.6761,
      "num_input_tokens_seen": 326112,
      "step": 525
    },
    {
      "epoch": 0.9447415329768271,
      "grad_norm": 1.0641679763793945,
      "learning_rate": 4.714795008912656e-05,
      "loss": 2.7169,
      "num_input_tokens_seen": 328800,
      "step": 530
    },
    {
      "epoch": 0.9536541889483066,
      "grad_norm": 1.1021815538406372,
      "learning_rate": 4.759358288770054e-05,
      "loss": 3.1103,
      "num_input_tokens_seen": 332512,
      "step": 535
    },
    {
      "epoch": 0.9625668449197861,
      "grad_norm": 0.8338248133659363,
      "learning_rate": 4.803921568627452e-05,
      "loss": 2.3949,
      "num_input_tokens_seen": 335360,
      "step": 540
    },
    {
      "epoch": 0.9714795008912656,
      "grad_norm": 1.311125636100769,
      "learning_rate": 4.848484848484849e-05,
      "loss": 2.9292,
      "num_input_tokens_seen": 339488,
      "step": 545
    },
    {
      "epoch": 0.9803921568627451,
      "grad_norm": 0.993326723575592,
      "learning_rate": 4.8930481283422465e-05,
      "loss": 2.2154,
      "num_input_tokens_seen": 342176,
      "step": 550
    },
    {
      "epoch": 0.9893048128342246,
      "grad_norm": 1.0523838996887207,
      "learning_rate": 4.9376114081996436e-05,
      "loss": 2.6187,
      "num_input_tokens_seen": 345568,
      "step": 555
    },
    {
      "epoch": 0.9982174688057041,
      "grad_norm": 1.2461936473846436,
      "learning_rate": 4.9821746880570414e-05,
      "loss": 2.0606,
      "num_input_tokens_seen": 348000,
      "step": 560
    },
    {
      "epoch": 1.0017825311942958,
      "eval_loss": 2.2780375480651855,
      "eval_runtime": 4.2492,
      "eval_samples_per_second": 58.599,
      "eval_steps_per_second": 14.826,
      "num_input_tokens_seen": 349200,
      "step": 562
    },
    {
      "epoch": 1.0071301247771836,
      "grad_norm": 0.8942297697067261,
      "learning_rate": 4.99999564446608e-05,
      "loss": 2.598,
      "num_input_tokens_seen": 350960,
      "step": 565
    },
    {
      "epoch": 1.0160427807486632,
      "grad_norm": 0.9582070708274841,
      "learning_rate": 4.9999690273693036e-05,
      "loss": 2.0767,
      "num_input_tokens_seen": 354288,
      "step": 570
    },
    {
      "epoch": 1.0249554367201426,
      "grad_norm": 1.0559678077697754,
      "learning_rate": 4.999918213174131e-05,
      "loss": 2.1588,
      "num_input_tokens_seen": 357648,
      "step": 575
    },
    {
      "epoch": 1.0338680926916222,
      "grad_norm": 1.2316597700119019,
      "learning_rate": 4.9998432023723915e-05,
      "loss": 2.0186,
      "num_input_tokens_seen": 360496,
      "step": 580
    },
    {
      "epoch": 1.0427807486631016,
      "grad_norm": 1.1366970539093018,
      "learning_rate": 4.9997439956901106e-05,
      "loss": 2.0455,
      "num_input_tokens_seen": 363376,
      "step": 585
    },
    {
      "epoch": 1.0516934046345812,
      "grad_norm": 1.041366696357727,
      "learning_rate": 4.999620594087507e-05,
      "loss": 1.995,
      "num_input_tokens_seen": 366320,
      "step": 590
    },
    {
      "epoch": 1.0606060606060606,
      "grad_norm": 0.9262757301330566,
      "learning_rate": 4.999472998758978e-05,
      "loss": 1.912,
      "num_input_tokens_seen": 369488,
      "step": 595
    },
    {
      "epoch": 1.0695187165775402,
      "grad_norm": 1.3618220090866089,
      "learning_rate": 4.999301211133095e-05,
      "loss": 1.8174,
      "num_input_tokens_seen": 372656,
      "step": 600
    },
    {
      "epoch": 1.0784313725490196,
      "grad_norm": 0.9017401337623596,
      "learning_rate": 4.999105232872582e-05,
      "loss": 1.7304,
      "num_input_tokens_seen": 376048,
      "step": 605
    },
    {
      "epoch": 1.0873440285204992,
      "grad_norm": 1.131372332572937,
      "learning_rate": 4.998885065874305e-05,
      "loss": 2.0501,
      "num_input_tokens_seen": 379472,
      "step": 610
    },
    {
      "epoch": 1.0962566844919786,
      "grad_norm": 0.743751585483551,
      "learning_rate": 4.9986407122692504e-05,
      "loss": 1.6725,
      "num_input_tokens_seen": 382288,
      "step": 615
    },
    {
      "epoch": 1.1051693404634582,
      "grad_norm": 1.2746849060058594,
      "learning_rate": 4.998372174422507e-05,
      "loss": 1.5424,
      "num_input_tokens_seen": 385392,
      "step": 620
    },
    {
      "epoch": 1.1140819964349375,
      "grad_norm": 1.250909686088562,
      "learning_rate": 4.998079454933244e-05,
      "loss": 1.9679,
      "num_input_tokens_seen": 389200,
      "step": 625
    },
    {
      "epoch": 1.1229946524064172,
      "grad_norm": 0.8632287979125977,
      "learning_rate": 4.99776255663468e-05,
      "loss": 1.2718,
      "num_input_tokens_seen": 391664,
      "step": 630
    },
    {
      "epoch": 1.1319073083778965,
      "grad_norm": 0.773535966873169,
      "learning_rate": 4.997421482594059e-05,
      "loss": 1.3693,
      "num_input_tokens_seen": 394416,
      "step": 635
    },
    {
      "epoch": 1.1408199643493762,
      "grad_norm": 1.104138731956482,
      "learning_rate": 4.997056236112625e-05,
      "loss": 1.9817,
      "num_input_tokens_seen": 399248,
      "step": 640
    },
    {
      "epoch": 1.1497326203208555,
      "grad_norm": 0.7540408372879028,
      "learning_rate": 4.9966668207255826e-05,
      "loss": 1.2948,
      "num_input_tokens_seen": 402032,
      "step": 645
    },
    {
      "epoch": 1.1586452762923352,
      "grad_norm": 0.9450183510780334,
      "learning_rate": 4.996253240202069e-05,
      "loss": 1.2707,
      "num_input_tokens_seen": 405296,
      "step": 650
    },
    {
      "epoch": 1.1675579322638145,
      "grad_norm": 1.1226730346679688,
      "learning_rate": 4.9958154985451114e-05,
      "loss": 1.2088,
      "num_input_tokens_seen": 408400,
      "step": 655
    },
    {
      "epoch": 1.1764705882352942,
      "grad_norm": 0.9736111760139465,
      "learning_rate": 4.995353599991595e-05,
      "loss": 1.4309,
      "num_input_tokens_seen": 412016,
      "step": 660
    },
    {
      "epoch": 1.1853832442067735,
      "grad_norm": 0.9693507552146912,
      "learning_rate": 4.994867549012215e-05,
      "loss": 1.2743,
      "num_input_tokens_seen": 415504,
      "step": 665
    },
    {
      "epoch": 1.1942959001782532,
      "grad_norm": 1.0443888902664185,
      "learning_rate": 4.99435735031144e-05,
      "loss": 1.1155,
      "num_input_tokens_seen": 418448,
      "step": 670
    },
    {
      "epoch": 1.2032085561497325,
      "grad_norm": 1.0174163579940796,
      "learning_rate": 4.993823008827465e-05,
      "loss": 1.092,
      "num_input_tokens_seen": 421168,
      "step": 675
    },
    {
      "epoch": 1.2121212121212122,
      "grad_norm": 0.7569769620895386,
      "learning_rate": 4.9932645297321555e-05,
      "loss": 0.9307,
      "num_input_tokens_seen": 423632,
      "step": 680
    },
    {
      "epoch": 1.2210338680926915,
      "grad_norm": 0.7273694276809692,
      "learning_rate": 4.9926819184310103e-05,
      "loss": 0.9791,
      "num_input_tokens_seen": 426640,
      "step": 685
    },
    {
      "epoch": 1.2299465240641712,
      "grad_norm": 0.952115535736084,
      "learning_rate": 4.9920751805631e-05,
      "loss": 1.1522,
      "num_input_tokens_seen": 430032,
      "step": 690
    },
    {
      "epoch": 1.2388591800356505,
      "grad_norm": 1.1709868907928467,
      "learning_rate": 4.991444322001014e-05,
      "loss": 1.0973,
      "num_input_tokens_seen": 433008,
      "step": 695
    },
    {
      "epoch": 1.2477718360071302,
      "grad_norm": 0.6561676263809204,
      "learning_rate": 4.99078934885081e-05,
      "loss": 1.0868,
      "num_input_tokens_seen": 436400,
      "step": 700
    },
    {
      "epoch": 1.2566844919786098,
      "grad_norm": 0.8287897109985352,
      "learning_rate": 4.990110267451944e-05,
      "loss": 0.8352,
      "num_input_tokens_seen": 439248,
      "step": 705
    },
    {
      "epoch": 1.2655971479500892,
      "grad_norm": 0.9313675165176392,
      "learning_rate": 4.989407084377218e-05,
      "loss": 0.8707,
      "num_input_tokens_seen": 442416,
      "step": 710
    },
    {
      "epoch": 1.2745098039215685,
      "grad_norm": 0.9105520844459534,
      "learning_rate": 4.988679806432712e-05,
      "loss": 0.9153,
      "num_input_tokens_seen": 445616,
      "step": 715
    },
    {
      "epoch": 1.2834224598930482,
      "grad_norm": 0.7386419773101807,
      "learning_rate": 4.9879284406577195e-05,
      "loss": 0.7514,
      "num_input_tokens_seen": 448528,
      "step": 720
    },
    {
      "epoch": 1.2923351158645278,
      "grad_norm": 0.8464149236679077,
      "learning_rate": 4.98715299432468e-05,
      "loss": 0.897,
      "num_input_tokens_seen": 451664,
      "step": 725
    },
    {
      "epoch": 1.3012477718360071,
      "grad_norm": 0.7016708254814148,
      "learning_rate": 4.986353474939106e-05,
      "loss": 0.9608,
      "num_input_tokens_seen": 455120,
      "step": 730
    },
    {
      "epoch": 1.3101604278074865,
      "grad_norm": 0.7350292801856995,
      "learning_rate": 4.9855298902395134e-05,
      "loss": 0.8485,
      "num_input_tokens_seen": 458352,
      "step": 735
    },
    {
      "epoch": 1.3190730837789661,
      "grad_norm": 0.657071053981781,
      "learning_rate": 4.9846822481973455e-05,
      "loss": 0.9055,
      "num_input_tokens_seen": 461488,
      "step": 740
    },
    {
      "epoch": 1.3279857397504458,
      "grad_norm": 0.7406115531921387,
      "learning_rate": 4.9838105570168946e-05,
      "loss": 0.9068,
      "num_input_tokens_seen": 464848,
      "step": 745
    },
    {
      "epoch": 1.3368983957219251,
      "grad_norm": 0.9874480962753296,
      "learning_rate": 4.982914825135224e-05,
      "loss": 1.0902,
      "num_input_tokens_seen": 468944,
      "step": 750
    },
    {
      "epoch": 1.3458110516934045,
      "grad_norm": 0.7415845990180969,
      "learning_rate": 4.981995061222087e-05,
      "loss": 0.6795,
      "num_input_tokens_seen": 471312,
      "step": 755
    },
    {
      "epoch": 1.3547237076648841,
      "grad_norm": 0.6649575233459473,
      "learning_rate": 4.98105127417984e-05,
      "loss": 0.6273,
      "num_input_tokens_seen": 474128,
      "step": 760
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 1.0872315168380737,
      "learning_rate": 4.9800834731433596e-05,
      "loss": 0.5981,
      "num_input_tokens_seen": 476592,
      "step": 765
    },
    {
      "epoch": 1.3725490196078431,
      "grad_norm": 0.7500861287117004,
      "learning_rate": 4.9790916674799526e-05,
      "loss": 1.014,
      "num_input_tokens_seen": 480240,
      "step": 770
    },
    {
      "epoch": 1.3814616755793225,
      "grad_norm": 1.2134431600570679,
      "learning_rate": 4.9780758667892656e-05,
      "loss": 0.681,
      "num_input_tokens_seen": 483472,
      "step": 775
    },
    {
      "epoch": 1.3903743315508021,
      "grad_norm": 0.8633726835250854,
      "learning_rate": 4.977036080903193e-05,
      "loss": 0.6929,
      "num_input_tokens_seen": 486768,
      "step": 780
    },
    {
      "epoch": 1.3992869875222818,
      "grad_norm": 0.903477668762207,
      "learning_rate": 4.975972319885779e-05,
      "loss": 0.5834,
      "num_input_tokens_seen": 489392,
      "step": 785
    },
    {
      "epoch": 1.4081996434937611,
      "grad_norm": 0.7039727568626404,
      "learning_rate": 4.974884594033123e-05,
      "loss": 0.7406,
      "num_input_tokens_seen": 492560,
      "step": 790
    },
    {
      "epoch": 1.4171122994652405,
      "grad_norm": 0.9972723126411438,
      "learning_rate": 4.9737729138732805e-05,
      "loss": 0.5558,
      "num_input_tokens_seen": 495344,
      "step": 795
    },
    {
      "epoch": 1.4260249554367201,
      "grad_norm": 1.2662111520767212,
      "learning_rate": 4.972637290166158e-05,
      "loss": 0.6374,
      "num_input_tokens_seen": 498128,
      "step": 800
    },
    {
      "epoch": 1.4349376114081998,
      "grad_norm": 1.4038677215576172,
      "learning_rate": 4.97147773390341e-05,
      "loss": 0.8173,
      "num_input_tokens_seen": 501488,
      "step": 805
    },
    {
      "epoch": 1.4438502673796791,
      "grad_norm": 0.730514407157898,
      "learning_rate": 4.9702942563083356e-05,
      "loss": 0.5782,
      "num_input_tokens_seen": 504272,
      "step": 810
    },
    {
      "epoch": 1.4527629233511585,
      "grad_norm": 0.5917222499847412,
      "learning_rate": 4.969086868835765e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 506672,
      "step": 815
    },
    {
      "epoch": 1.4616755793226381,
      "grad_norm": 0.49027279019355774,
      "learning_rate": 4.967855583171954e-05,
      "loss": 0.4866,
      "num_input_tokens_seen": 509232,
      "step": 820
    },
    {
      "epoch": 1.4705882352941178,
      "grad_norm": 1.1144423484802246,
      "learning_rate": 4.9666004112344656e-05,
      "loss": 0.7116,
      "num_input_tokens_seen": 512528,
      "step": 825
    },
    {
      "epoch": 1.4795008912655971,
      "grad_norm": 0.6267158389091492,
      "learning_rate": 4.965321365172057e-05,
      "loss": 0.576,
      "num_input_tokens_seen": 514896,
      "step": 830
    },
    {
      "epoch": 1.4884135472370765,
      "grad_norm": 0.8494957089424133,
      "learning_rate": 4.9640184573645646e-05,
      "loss": 0.6064,
      "num_input_tokens_seen": 518384,
      "step": 835
    },
    {
      "epoch": 1.4973262032085561,
      "grad_norm": 1.1032313108444214,
      "learning_rate": 4.962691700422778e-05,
      "loss": 0.8595,
      "num_input_tokens_seen": 522448,
      "step": 840
    },
    {
      "epoch": 1.5026737967914439,
      "eval_loss": 0.5879648327827454,
      "eval_runtime": 4.2487,
      "eval_samples_per_second": 58.606,
      "eval_steps_per_second": 14.828,
      "num_input_tokens_seen": 524208,
      "step": 843
    },
    {
      "epoch": 1.5062388591800357,
      "grad_norm": 0.7947481274604797,
      "learning_rate": 4.9613411071883267e-05,
      "loss": 0.4532,
      "num_input_tokens_seen": 525264,
      "step": 845
    },
    {
      "epoch": 1.5151515151515151,
      "grad_norm": 0.6550034284591675,
      "learning_rate": 4.959966690733544e-05,
      "loss": 0.7043,
      "num_input_tokens_seen": 528528,
      "step": 850
    },
    {
      "epoch": 1.5240641711229945,
      "grad_norm": 1.126085877418518,
      "learning_rate": 4.958568464361353e-05,
      "loss": 0.6396,
      "num_input_tokens_seen": 531536,
      "step": 855
    },
    {
      "epoch": 1.5329768270944741,
      "grad_norm": 0.6209072470664978,
      "learning_rate": 4.9571464416051294e-05,
      "loss": 0.5435,
      "num_input_tokens_seen": 534704,
      "step": 860
    },
    {
      "epoch": 1.5418894830659537,
      "grad_norm": 0.5790075063705444,
      "learning_rate": 4.955700636228573e-05,
      "loss": 0.359,
      "num_input_tokens_seen": 537264,
      "step": 865
    },
    {
      "epoch": 1.5508021390374331,
      "grad_norm": 0.9781410694122314,
      "learning_rate": 4.954231062225576e-05,
      "loss": 0.6823,
      "num_input_tokens_seen": 541328,
      "step": 870
    },
    {
      "epoch": 1.5597147950089125,
      "grad_norm": 0.7598072290420532,
      "learning_rate": 4.9527377338200855e-05,
      "loss": 0.4973,
      "num_input_tokens_seen": 544496,
      "step": 875
    },
    {
      "epoch": 1.5686274509803921,
      "grad_norm": 0.8549111485481262,
      "learning_rate": 4.951220665465964e-05,
      "loss": 0.6291,
      "num_input_tokens_seen": 547696,
      "step": 880
    },
    {
      "epoch": 1.5775401069518717,
      "grad_norm": 0.7234603762626648,
      "learning_rate": 4.949679871846857e-05,
      "loss": 0.4632,
      "num_input_tokens_seen": 550416,
      "step": 885
    },
    {
      "epoch": 1.5864527629233511,
      "grad_norm": 0.5888731479644775,
      "learning_rate": 4.948115367876043e-05,
      "loss": 0.5336,
      "num_input_tokens_seen": 553968,
      "step": 890
    },
    {
      "epoch": 1.5953654188948305,
      "grad_norm": 0.8173357844352722,
      "learning_rate": 4.94652716869629e-05,
      "loss": 0.3634,
      "num_input_tokens_seen": 556656,
      "step": 895
    },
    {
      "epoch": 1.6042780748663101,
      "grad_norm": 0.5093280673027039,
      "learning_rate": 4.944915289679716e-05,
      "loss": 0.3877,
      "num_input_tokens_seen": 559536,
      "step": 900
    },
    {
      "epoch": 1.6131907308377897,
      "grad_norm": 0.9982839226722717,
      "learning_rate": 4.94327974642763e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 562704,
      "step": 905
    },
    {
      "epoch": 1.6221033868092691,
      "grad_norm": 1.0210356712341309,
      "learning_rate": 4.94162055477039e-05,
      "loss": 0.5995,
      "num_input_tokens_seen": 566352,
      "step": 910
    },
    {
      "epoch": 1.6310160427807485,
      "grad_norm": 1.2152962684631348,
      "learning_rate": 4.939937730767243e-05,
      "loss": 0.5234,
      "num_input_tokens_seen": 569584,
      "step": 915
    },
    {
      "epoch": 1.6399286987522281,
      "grad_norm": 0.8112650513648987,
      "learning_rate": 4.9382312907061755e-05,
      "loss": 0.3781,
      "num_input_tokens_seen": 571824,
      "step": 920
    },
    {
      "epoch": 1.6488413547237077,
      "grad_norm": 0.8025038838386536,
      "learning_rate": 4.9365012511037514e-05,
      "loss": 0.5397,
      "num_input_tokens_seen": 575248,
      "step": 925
    },
    {
      "epoch": 1.6577540106951871,
      "grad_norm": 1.2283076047897339,
      "learning_rate": 4.934747628704952e-05,
      "loss": 0.4426,
      "num_input_tokens_seen": 578032,
      "step": 930
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.8238184452056885,
      "learning_rate": 4.932970440483018e-05,
      "loss": 0.4614,
      "num_input_tokens_seen": 581744,
      "step": 935
    },
    {
      "epoch": 1.6755793226381461,
      "grad_norm": 0.7958811521530151,
      "learning_rate": 4.931169703639282e-05,
      "loss": 0.4136,
      "num_input_tokens_seen": 584880,
      "step": 940
    },
    {
      "epoch": 1.6844919786096257,
      "grad_norm": 1.2087262868881226,
      "learning_rate": 4.929345435603003e-05,
      "loss": 0.4801,
      "num_input_tokens_seen": 587856,
      "step": 945
    },
    {
      "epoch": 1.6934046345811051,
      "grad_norm": 0.7868252992630005,
      "learning_rate": 4.9274976540311956e-05,
      "loss": 0.5347,
      "num_input_tokens_seen": 590928,
      "step": 950
    },
    {
      "epoch": 1.7023172905525845,
      "grad_norm": 0.9967821836471558,
      "learning_rate": 4.9256263768084635e-05,
      "loss": 0.37,
      "num_input_tokens_seen": 594096,
      "step": 955
    },
    {
      "epoch": 1.7112299465240641,
      "grad_norm": 0.8641761541366577,
      "learning_rate": 4.923731622046823e-05,
      "loss": 0.3977,
      "num_input_tokens_seen": 597136,
      "step": 960
    },
    {
      "epoch": 1.7201426024955437,
      "grad_norm": 0.6801542639732361,
      "learning_rate": 4.9218134080855273e-05,
      "loss": 0.5575,
      "num_input_tokens_seen": 600912,
      "step": 965
    },
    {
      "epoch": 1.7290552584670231,
      "grad_norm": 0.9356634616851807,
      "learning_rate": 4.919871753490891e-05,
      "loss": 0.5977,
      "num_input_tokens_seen": 604240,
      "step": 970
    },
    {
      "epoch": 1.7379679144385025,
      "grad_norm": 0.898560106754303,
      "learning_rate": 4.917906677056111e-05,
      "loss": 0.4074,
      "num_input_tokens_seen": 607248,
      "step": 975
    },
    {
      "epoch": 1.7468805704099821,
      "grad_norm": 0.7507029175758362,
      "learning_rate": 4.9159181978010814e-05,
      "loss": 0.4812,
      "num_input_tokens_seen": 610736,
      "step": 980
    },
    {
      "epoch": 1.7557932263814617,
      "grad_norm": 0.9444867372512817,
      "learning_rate": 4.9139063349722113e-05,
      "loss": 0.4682,
      "num_input_tokens_seen": 614128,
      "step": 985
    },
    {
      "epoch": 1.7647058823529411,
      "grad_norm": 0.9318161010742188,
      "learning_rate": 4.911871108042241e-05,
      "loss": 0.4571,
      "num_input_tokens_seen": 617232,
      "step": 990
    },
    {
      "epoch": 1.7736185383244205,
      "grad_norm": 0.7218228578567505,
      "learning_rate": 4.909812536710048e-05,
      "loss": 0.5007,
      "num_input_tokens_seen": 620880,
      "step": 995
    },
    {
      "epoch": 1.7825311942959001,
      "grad_norm": 0.7028499841690063,
      "learning_rate": 4.9077306409004585e-05,
      "loss": 0.6674,
      "num_input_tokens_seen": 624368,
      "step": 1000
    },
    {
      "epoch": 1.7914438502673797,
      "grad_norm": 0.5062604546546936,
      "learning_rate": 4.9056254407640604e-05,
      "loss": 0.3413,
      "num_input_tokens_seen": 627152,
      "step": 1005
    },
    {
      "epoch": 1.8003565062388591,
      "grad_norm": 0.49366044998168945,
      "learning_rate": 4.903496956676998e-05,
      "loss": 0.3736,
      "num_input_tokens_seen": 629680,
      "step": 1010
    },
    {
      "epoch": 1.8092691622103387,
      "grad_norm": 0.6387802958488464,
      "learning_rate": 4.901345209240784e-05,
      "loss": 0.3377,
      "num_input_tokens_seen": 632848,
      "step": 1015
    },
    {
      "epoch": 1.8181818181818183,
      "grad_norm": 0.8644296526908875,
      "learning_rate": 4.8991702192820924e-05,
      "loss": 0.4588,
      "num_input_tokens_seen": 635920,
      "step": 1020
    },
    {
      "epoch": 1.8270944741532977,
      "grad_norm": 0.4941517114639282,
      "learning_rate": 4.896972007852563e-05,
      "loss": 0.3705,
      "num_input_tokens_seen": 639056,
      "step": 1025
    },
    {
      "epoch": 1.8360071301247771,
      "grad_norm": 0.5460651516914368,
      "learning_rate": 4.894750596228594e-05,
      "loss": 0.3389,
      "num_input_tokens_seen": 642192,
      "step": 1030
    },
    {
      "epoch": 1.8449197860962567,
      "grad_norm": 0.7782461643218994,
      "learning_rate": 4.8925060059111394e-05,
      "loss": 0.4158,
      "num_input_tokens_seen": 645488,
      "step": 1035
    },
    {
      "epoch": 1.8538324420677363,
      "grad_norm": 0.5338404178619385,
      "learning_rate": 4.890238258625496e-05,
      "loss": 0.3644,
      "num_input_tokens_seen": 648336,
      "step": 1040
    },
    {
      "epoch": 1.8627450980392157,
      "grad_norm": 0.8528239727020264,
      "learning_rate": 4.887947376321099e-05,
      "loss": 0.3682,
      "num_input_tokens_seen": 651696,
      "step": 1045
    },
    {
      "epoch": 1.8716577540106951,
      "grad_norm": 0.4754684865474701,
      "learning_rate": 4.885633381171304e-05,
      "loss": 0.3467,
      "num_input_tokens_seen": 654640,
      "step": 1050
    },
    {
      "epoch": 1.8805704099821747,
      "grad_norm": 0.9799590110778809,
      "learning_rate": 4.883296295573176e-05,
      "loss": 0.511,
      "num_input_tokens_seen": 658128,
      "step": 1055
    },
    {
      "epoch": 1.8894830659536543,
      "grad_norm": 0.6689459085464478,
      "learning_rate": 4.880936142147271e-05,
      "loss": 0.3246,
      "num_input_tokens_seen": 660848,
      "step": 1060
    },
    {
      "epoch": 1.8983957219251337,
      "grad_norm": 0.7261871099472046,
      "learning_rate": 4.878552943737418e-05,
      "loss": 0.2685,
      "num_input_tokens_seen": 663120,
      "step": 1065
    },
    {
      "epoch": 1.9073083778966131,
      "grad_norm": 0.7026433944702148,
      "learning_rate": 4.876146723410498e-05,
      "loss": 0.3756,
      "num_input_tokens_seen": 666288,
      "step": 1070
    },
    {
      "epoch": 1.9162210338680927,
      "grad_norm": 1.4159960746765137,
      "learning_rate": 4.873717504456219e-05,
      "loss": 0.3687,
      "num_input_tokens_seen": 669360,
      "step": 1075
    },
    {
      "epoch": 1.9251336898395723,
      "grad_norm": 0.7870906591415405,
      "learning_rate": 4.8712653103868916e-05,
      "loss": 0.2532,
      "num_input_tokens_seen": 671344,
      "step": 1080
    },
    {
      "epoch": 1.9340463458110517,
      "grad_norm": 0.8793025612831116,
      "learning_rate": 4.868790164937204e-05,
      "loss": 0.3925,
      "num_input_tokens_seen": 674672,
      "step": 1085
    },
    {
      "epoch": 1.9429590017825311,
      "grad_norm": 0.40374019742012024,
      "learning_rate": 4.8662920920639866e-05,
      "loss": 0.3251,
      "num_input_tokens_seen": 677968,
      "step": 1090
    },
    {
      "epoch": 1.9518716577540107,
      "grad_norm": 0.5041529536247253,
      "learning_rate": 4.8637711159459855e-05,
      "loss": 0.3022,
      "num_input_tokens_seen": 680560,
      "step": 1095
    },
    {
      "epoch": 1.9607843137254903,
      "grad_norm": 1.0466898679733276,
      "learning_rate": 4.8612272609836263e-05,
      "loss": 0.3464,
      "num_input_tokens_seen": 683824,
      "step": 1100
    },
    {
      "epoch": 1.9696969696969697,
      "grad_norm": 0.8734254240989685,
      "learning_rate": 4.858660551798778e-05,
      "loss": 0.4663,
      "num_input_tokens_seen": 687216,
      "step": 1105
    },
    {
      "epoch": 1.9786096256684491,
      "grad_norm": 0.589005172252655,
      "learning_rate": 4.856071013234513e-05,
      "loss": 0.3396,
      "num_input_tokens_seen": 690128,
      "step": 1110
    },
    {
      "epoch": 1.9875222816399287,
      "grad_norm": 0.570462167263031,
      "learning_rate": 4.85345867035487e-05,
      "loss": 0.3839,
      "num_input_tokens_seen": 693232,
      "step": 1115
    },
    {
      "epoch": 1.9964349376114083,
      "grad_norm": 0.9086877107620239,
      "learning_rate": 4.8508235484446095e-05,
      "loss": 0.4327,
      "num_input_tokens_seen": 696880,
      "step": 1120
    },
    {
      "epoch": 2.0035650623885917,
      "eval_loss": 0.37957677245140076,
      "eval_runtime": 4.2451,
      "eval_samples_per_second": 58.656,
      "eval_steps_per_second": 14.841,
      "num_input_tokens_seen": 699264,
      "step": 1124
    },
    {
      "epoch": 2.0053475935828877,
      "grad_norm": 0.9719306826591492,
      "learning_rate": 4.8481656730089695e-05,
      "loss": 0.4008,
      "num_input_tokens_seen": 700096,
      "step": 1125
    },
    {
      "epoch": 2.014260249554367,
      "grad_norm": 0.9481471180915833,
      "learning_rate": 4.8454850697734174e-05,
      "loss": 0.4113,
      "num_input_tokens_seen": 703360,
      "step": 1130
    },
    {
      "epoch": 2.0231729055258465,
      "grad_norm": 0.7257654666900635,
      "learning_rate": 4.842781764683403e-05,
      "loss": 0.3966,
      "num_input_tokens_seen": 706624,
      "step": 1135
    },
    {
      "epoch": 2.0320855614973263,
      "grad_norm": 0.8015730977058411,
      "learning_rate": 4.8400557839041064e-05,
      "loss": 0.3069,
      "num_input_tokens_seen": 709472,
      "step": 1140
    },
    {
      "epoch": 2.0409982174688057,
      "grad_norm": 0.43969354033470154,
      "learning_rate": 4.837307153820184e-05,
      "loss": 0.337,
      "num_input_tokens_seen": 713152,
      "step": 1145
    },
    {
      "epoch": 2.049910873440285,
      "grad_norm": 0.934760570526123,
      "learning_rate": 4.8345359010355155e-05,
      "loss": 0.3539,
      "num_input_tokens_seen": 716480,
      "step": 1150
    },
    {
      "epoch": 2.0588235294117645,
      "grad_norm": 0.4905712306499481,
      "learning_rate": 4.831742052372943e-05,
      "loss": 0.3069,
      "num_input_tokens_seen": 719104,
      "step": 1155
    },
    {
      "epoch": 2.0677361853832443,
      "grad_norm": 0.6868427395820618,
      "learning_rate": 4.828925634874014e-05,
      "loss": 0.3006,
      "num_input_tokens_seen": 722016,
      "step": 1160
    },
    {
      "epoch": 2.0766488413547237,
      "grad_norm": 0.6591427326202393,
      "learning_rate": 4.8260866757987177e-05,
      "loss": 0.2809,
      "num_input_tokens_seen": 725184,
      "step": 1165
    },
    {
      "epoch": 2.085561497326203,
      "grad_norm": 1.2832831144332886,
      "learning_rate": 4.823225202625226e-05,
      "loss": 0.3441,
      "num_input_tokens_seen": 728352,
      "step": 1170
    },
    {
      "epoch": 2.0944741532976825,
      "grad_norm": 0.7174959182739258,
      "learning_rate": 4.820341243049618e-05,
      "loss": 0.4048,
      "num_input_tokens_seen": 731712,
      "step": 1175
    },
    {
      "epoch": 2.1033868092691623,
      "grad_norm": 0.6431313157081604,
      "learning_rate": 4.8174348249856236e-05,
      "loss": 0.3201,
      "num_input_tokens_seen": 734880,
      "step": 1180
    },
    {
      "epoch": 2.1122994652406417,
      "grad_norm": 0.658487856388092,
      "learning_rate": 4.814505976564343e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 737728,
      "step": 1185
    },
    {
      "epoch": 2.121212121212121,
      "grad_norm": 0.7958409786224365,
      "learning_rate": 4.8115547261339824e-05,
      "loss": 0.3429,
      "num_input_tokens_seen": 741376,
      "step": 1190
    },
    {
      "epoch": 2.1301247771836005,
      "grad_norm": 0.6729584336280823,
      "learning_rate": 4.808581102259573e-05,
      "loss": 0.2909,
      "num_input_tokens_seen": 744256,
      "step": 1195
    },
    {
      "epoch": 2.1390374331550803,
      "grad_norm": 0.740015983581543,
      "learning_rate": 4.8055851337227006e-05,
      "loss": 0.2479,
      "num_input_tokens_seen": 746944,
      "step": 1200
    },
    {
      "epoch": 2.1479500891265597,
      "grad_norm": 0.5458919405937195,
      "learning_rate": 4.802566849521222e-05,
      "loss": 0.2943,
      "num_input_tokens_seen": 750272,
      "step": 1205
    },
    {
      "epoch": 2.156862745098039,
      "grad_norm": 0.508515477180481,
      "learning_rate": 4.799526278868987e-05,
      "loss": 0.2486,
      "num_input_tokens_seen": 753024,
      "step": 1210
    },
    {
      "epoch": 2.165775401069519,
      "grad_norm": 0.8448687791824341,
      "learning_rate": 4.796463451195554e-05,
      "loss": 0.388,
      "num_input_tokens_seen": 756576,
      "step": 1215
    },
    {
      "epoch": 2.1746880570409983,
      "grad_norm": 0.5762525200843811,
      "learning_rate": 4.7933783961459094e-05,
      "loss": 0.3068,
      "num_input_tokens_seen": 759680,
      "step": 1220
    },
    {
      "epoch": 2.1836007130124777,
      "grad_norm": 0.6639679670333862,
      "learning_rate": 4.790271143580174e-05,
      "loss": 0.331,
      "num_input_tokens_seen": 762880,
      "step": 1225
    },
    {
      "epoch": 2.192513368983957,
      "grad_norm": 0.5362179279327393,
      "learning_rate": 4.7871417235733196e-05,
      "loss": 0.2964,
      "num_input_tokens_seen": 765920,
      "step": 1230
    },
    {
      "epoch": 2.2014260249554365,
      "grad_norm": 0.5786792039871216,
      "learning_rate": 4.783990166414875e-05,
      "loss": 0.4138,
      "num_input_tokens_seen": 769728,
      "step": 1235
    },
    {
      "epoch": 2.2103386809269163,
      "grad_norm": 0.47215279936790466,
      "learning_rate": 4.780816502608632e-05,
      "loss": 0.3199,
      "num_input_tokens_seen": 772832,
      "step": 1240
    },
    {
      "epoch": 2.2192513368983957,
      "grad_norm": 0.4350599944591522,
      "learning_rate": 4.777620762872355e-05,
      "loss": 0.3148,
      "num_input_tokens_seen": 776352,
      "step": 1245
    },
    {
      "epoch": 2.228163992869875,
      "grad_norm": 0.6416548490524292,
      "learning_rate": 4.774402978137479e-05,
      "loss": 0.3055,
      "num_input_tokens_seen": 779456,
      "step": 1250
    },
    {
      "epoch": 2.237076648841355,
      "grad_norm": 0.2961161434650421,
      "learning_rate": 4.7711631795488096e-05,
      "loss": 0.2604,
      "num_input_tokens_seen": 782112,
      "step": 1255
    },
    {
      "epoch": 2.2459893048128343,
      "grad_norm": 0.5333968997001648,
      "learning_rate": 4.767901398464227e-05,
      "loss": 0.346,
      "num_input_tokens_seen": 784864,
      "step": 1260
    },
    {
      "epoch": 2.2549019607843137,
      "grad_norm": 0.7181191444396973,
      "learning_rate": 4.7646176664543763e-05,
      "loss": 0.2688,
      "num_input_tokens_seen": 787936,
      "step": 1265
    },
    {
      "epoch": 2.263814616755793,
      "grad_norm": 1.1632299423217773,
      "learning_rate": 4.761312015302367e-05,
      "loss": 0.2973,
      "num_input_tokens_seen": 790976,
      "step": 1270
    },
    {
      "epoch": 2.2727272727272725,
      "grad_norm": 1.0037575960159302,
      "learning_rate": 4.757984477003462e-05,
      "loss": 0.3304,
      "num_input_tokens_seen": 794016,
      "step": 1275
    },
    {
      "epoch": 2.2816399286987523,
      "grad_norm": 0.6830529570579529,
      "learning_rate": 4.7546350837647666e-05,
      "loss": 0.2141,
      "num_input_tokens_seen": 796864,
      "step": 1280
    },
    {
      "epoch": 2.2905525846702317,
      "grad_norm": 0.7043412327766418,
      "learning_rate": 4.7512638680049245e-05,
      "loss": 0.3195,
      "num_input_tokens_seen": 800096,
      "step": 1285
    },
    {
      "epoch": 2.299465240641711,
      "grad_norm": 0.6342535018920898,
      "learning_rate": 4.7478708623537956e-05,
      "loss": 0.2506,
      "num_input_tokens_seen": 803392,
      "step": 1290
    },
    {
      "epoch": 2.308377896613191,
      "grad_norm": 1.047386646270752,
      "learning_rate": 4.7444560996521415e-05,
      "loss": 0.3365,
      "num_input_tokens_seen": 806400,
      "step": 1295
    },
    {
      "epoch": 2.3172905525846703,
      "grad_norm": 1.372889518737793,
      "learning_rate": 4.741019612951312e-05,
      "loss": 0.4817,
      "num_input_tokens_seen": 809568,
      "step": 1300
    },
    {
      "epoch": 2.3262032085561497,
      "grad_norm": 0.4855256974697113,
      "learning_rate": 4.737561435512923e-05,
      "loss": 0.2226,
      "num_input_tokens_seen": 812768,
      "step": 1305
    },
    {
      "epoch": 2.335115864527629,
      "grad_norm": 0.5740591287612915,
      "learning_rate": 4.734081600808531e-05,
      "loss": 0.2448,
      "num_input_tokens_seen": 815968,
      "step": 1310
    },
    {
      "epoch": 2.344028520499109,
      "grad_norm": 0.5068109631538391,
      "learning_rate": 4.7305801425193165e-05,
      "loss": 0.2175,
      "num_input_tokens_seen": 818976,
      "step": 1315
    },
    {
      "epoch": 2.3529411764705883,
      "grad_norm": 0.9766526818275452,
      "learning_rate": 4.727057094535749e-05,
      "loss": 0.2615,
      "num_input_tokens_seen": 821760,
      "step": 1320
    },
    {
      "epoch": 2.3618538324420677,
      "grad_norm": 0.5878629684448242,
      "learning_rate": 4.72351249095727e-05,
      "loss": 0.3121,
      "num_input_tokens_seen": 824288,
      "step": 1325
    },
    {
      "epoch": 2.370766488413547,
      "grad_norm": 0.8109356760978699,
      "learning_rate": 4.7199463660919514e-05,
      "loss": 0.3045,
      "num_input_tokens_seen": 827424,
      "step": 1330
    },
    {
      "epoch": 2.379679144385027,
      "grad_norm": 0.6713225245475769,
      "learning_rate": 4.7163587544561705e-05,
      "loss": 0.2503,
      "num_input_tokens_seen": 830176,
      "step": 1335
    },
    {
      "epoch": 2.3885918003565063,
      "grad_norm": 0.7476429343223572,
      "learning_rate": 4.7127496907742734e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 833664,
      "step": 1340
    },
    {
      "epoch": 2.3975044563279857,
      "grad_norm": 1.1430628299713135,
      "learning_rate": 4.709119209978242e-05,
      "loss": 0.3525,
      "num_input_tokens_seen": 836736,
      "step": 1345
    },
    {
      "epoch": 2.406417112299465,
      "grad_norm": 0.5232317447662354,
      "learning_rate": 4.7054673472073506e-05,
      "loss": 0.3624,
      "num_input_tokens_seen": 840160,
      "step": 1350
    },
    {
      "epoch": 2.415329768270945,
      "grad_norm": 0.9793670773506165,
      "learning_rate": 4.7017941378078314e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 843168,
      "step": 1355
    },
    {
      "epoch": 2.4242424242424243,
      "grad_norm": 0.6311604380607605,
      "learning_rate": 4.698099617332528e-05,
      "loss": 0.2339,
      "num_input_tokens_seen": 845952,
      "step": 1360
    },
    {
      "epoch": 2.4331550802139037,
      "grad_norm": 0.9364222288131714,
      "learning_rate": 4.694383821540555e-05,
      "loss": 0.2302,
      "num_input_tokens_seen": 848448,
      "step": 1365
    },
    {
      "epoch": 2.442067736185383,
      "grad_norm": 1.2326656579971313,
      "learning_rate": 4.690646786396945e-05,
      "loss": 0.2639,
      "num_input_tokens_seen": 851552,
      "step": 1370
    },
    {
      "epoch": 2.450980392156863,
      "grad_norm": 0.7579092979431152,
      "learning_rate": 4.686888548072312e-05,
      "loss": 0.3276,
      "num_input_tokens_seen": 854752,
      "step": 1375
    },
    {
      "epoch": 2.4598930481283423,
      "grad_norm": 0.9993529915809631,
      "learning_rate": 4.683109142942492e-05,
      "loss": 0.2741,
      "num_input_tokens_seen": 857600,
      "step": 1380
    },
    {
      "epoch": 2.4688057040998217,
      "grad_norm": 0.5094732642173767,
      "learning_rate": 4.679308607588192e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 861248,
      "step": 1385
    },
    {
      "epoch": 2.477718360071301,
      "grad_norm": 0.6214059591293335,
      "learning_rate": 4.6754869787946386e-05,
      "loss": 0.3205,
      "num_input_tokens_seen": 865056,
      "step": 1390
    },
    {
      "epoch": 2.486631016042781,
      "grad_norm": 0.432815283536911,
      "learning_rate": 4.6716442935512214e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 867936,
      "step": 1395
    },
    {
      "epoch": 2.4955436720142603,
      "grad_norm": 0.5354329347610474,
      "learning_rate": 4.6677805890511354e-05,
      "loss": 0.2816,
      "num_input_tokens_seen": 871136,
      "step": 1400
    },
    {
      "epoch": 2.5044563279857397,
      "grad_norm": 0.5837387442588806,
      "learning_rate": 4.663895902691018e-05,
      "loss": 0.239,
      "num_input_tokens_seen": 873600,
      "step": 1405
    },
    {
      "epoch": 2.5044563279857397,
      "eval_loss": 0.286673367023468,
      "eval_runtime": 4.2516,
      "eval_samples_per_second": 58.566,
      "eval_steps_per_second": 14.818,
      "num_input_tokens_seen": 873600,
      "step": 1405
    },
    {
      "epoch": 2.5133689839572195,
      "grad_norm": 0.48573535680770874,
      "learning_rate": 4.659990272070591e-05,
      "loss": 0.31,
      "num_input_tokens_seen": 877152,
      "step": 1410
    },
    {
      "epoch": 2.522281639928699,
      "grad_norm": 0.5476496815681458,
      "learning_rate": 4.656063734992294e-05,
      "loss": 0.2718,
      "num_input_tokens_seen": 880096,
      "step": 1415
    },
    {
      "epoch": 2.5311942959001783,
      "grad_norm": 0.5417474508285522,
      "learning_rate": 4.6521163294609196e-05,
      "loss": 0.2433,
      "num_input_tokens_seen": 882944,
      "step": 1420
    },
    {
      "epoch": 2.5401069518716577,
      "grad_norm": 0.7648299932479858,
      "learning_rate": 4.6481480936832444e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 886848,
      "step": 1425
    },
    {
      "epoch": 2.549019607843137,
      "grad_norm": 0.6219758987426758,
      "learning_rate": 4.644159066067662e-05,
      "loss": 0.2771,
      "num_input_tokens_seen": 890272,
      "step": 1430
    },
    {
      "epoch": 2.557932263814617,
      "grad_norm": 0.6586949825286865,
      "learning_rate": 4.640149285223806e-05,
      "loss": 0.2683,
      "num_input_tokens_seen": 893600,
      "step": 1435
    },
    {
      "epoch": 2.5668449197860963,
      "grad_norm": 1.156497836112976,
      "learning_rate": 4.636118789962184e-05,
      "loss": 0.2513,
      "num_input_tokens_seen": 896448,
      "step": 1440
    },
    {
      "epoch": 2.5757575757575757,
      "grad_norm": 0.6117565631866455,
      "learning_rate": 4.632067619293795e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 899424,
      "step": 1445
    },
    {
      "epoch": 2.5846702317290555,
      "grad_norm": 0.6213181614875793,
      "learning_rate": 4.6279958124297554e-05,
      "loss": 0.2476,
      "num_input_tokens_seen": 902624,
      "step": 1450
    },
    {
      "epoch": 2.593582887700535,
      "grad_norm": 0.8394727110862732,
      "learning_rate": 4.623903408780916e-05,
      "loss": 0.2327,
      "num_input_tokens_seen": 905568,
      "step": 1455
    },
    {
      "epoch": 2.6024955436720143,
      "grad_norm": 0.65825355052948,
      "learning_rate": 4.619790447957488e-05,
      "loss": 0.321,
      "num_input_tokens_seen": 908960,
      "step": 1460
    },
    {
      "epoch": 2.6114081996434937,
      "grad_norm": 0.7782941460609436,
      "learning_rate": 4.615656969768649e-05,
      "loss": 0.2843,
      "num_input_tokens_seen": 912640,
      "step": 1465
    },
    {
      "epoch": 2.620320855614973,
      "grad_norm": 0.8492444157600403,
      "learning_rate": 4.611503014222168e-05,
      "loss": 0.2464,
      "num_input_tokens_seen": 915328,
      "step": 1470
    },
    {
      "epoch": 2.629233511586453,
      "grad_norm": 1.3704971075057983,
      "learning_rate": 4.6073286215240105e-05,
      "loss": 0.2942,
      "num_input_tokens_seen": 918656,
      "step": 1475
    },
    {
      "epoch": 2.6381461675579323,
      "grad_norm": 0.8433835506439209,
      "learning_rate": 4.6031338320779534e-05,
      "loss": 0.2215,
      "num_input_tokens_seen": 921344,
      "step": 1480
    },
    {
      "epoch": 2.6470588235294117,
      "grad_norm": 0.5805216431617737,
      "learning_rate": 4.598918686485193e-05,
      "loss": 0.2321,
      "num_input_tokens_seen": 924192,
      "step": 1485
    },
    {
      "epoch": 2.6559714795008915,
      "grad_norm": 0.4831686317920685,
      "learning_rate": 4.594683225543952e-05,
      "loss": 0.2957,
      "num_input_tokens_seen": 927424,
      "step": 1490
    },
    {
      "epoch": 2.664884135472371,
      "grad_norm": 0.7766821980476379,
      "learning_rate": 4.590427490249084e-05,
      "loss": 0.2587,
      "num_input_tokens_seen": 930080,
      "step": 1495
    },
    {
      "epoch": 2.6737967914438503,
      "grad_norm": 0.4486106038093567,
      "learning_rate": 4.5861515217916785e-05,
      "loss": 0.202,
      "num_input_tokens_seen": 932768,
      "step": 1500
    },
    {
      "epoch": 2.6827094474153297,
      "grad_norm": 0.43728289008140564,
      "learning_rate": 4.581855361558659e-05,
      "loss": 0.2685,
      "num_input_tokens_seen": 935904,
      "step": 1505
    },
    {
      "epoch": 2.691622103386809,
      "grad_norm": 0.5914068222045898,
      "learning_rate": 4.577539051132386e-05,
      "loss": 0.2218,
      "num_input_tokens_seen": 938784,
      "step": 1510
    },
    {
      "epoch": 2.700534759358289,
      "grad_norm": 0.4907556176185608,
      "learning_rate": 4.573202632290252e-05,
      "loss": 0.2022,
      "num_input_tokens_seen": 941280,
      "step": 1515
    },
    {
      "epoch": 2.7094474153297683,
      "grad_norm": 0.7610965967178345,
      "learning_rate": 4.568846147004279e-05,
      "loss": 0.2046,
      "num_input_tokens_seen": 944672,
      "step": 1520
    },
    {
      "epoch": 2.7183600713012477,
      "grad_norm": 0.7069556713104248,
      "learning_rate": 4.5644696374407105e-05,
      "loss": 0.2896,
      "num_input_tokens_seen": 948032,
      "step": 1525
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 0.7775002121925354,
      "learning_rate": 4.560073145959602e-05,
      "loss": 0.322,
      "num_input_tokens_seen": 952000,
      "step": 1530
    },
    {
      "epoch": 2.736185383244207,
      "grad_norm": 0.5535850524902344,
      "learning_rate": 4.555656715114419e-05,
      "loss": 0.278,
      "num_input_tokens_seen": 955456,
      "step": 1535
    },
    {
      "epoch": 2.7450980392156863,
      "grad_norm": 0.6513121724128723,
      "learning_rate": 4.551220387651615e-05,
      "loss": 0.2629,
      "num_input_tokens_seen": 959232,
      "step": 1540
    },
    {
      "epoch": 2.7540106951871657,
      "grad_norm": 0.5215713977813721,
      "learning_rate": 4.546764206510221e-05,
      "loss": 0.2042,
      "num_input_tokens_seen": 962304,
      "step": 1545
    },
    {
      "epoch": 2.762923351158645,
      "grad_norm": 0.5402376651763916,
      "learning_rate": 4.542288214821433e-05,
      "loss": 0.213,
      "num_input_tokens_seen": 965344,
      "step": 1550
    },
    {
      "epoch": 2.771836007130125,
      "grad_norm": 1.1007705926895142,
      "learning_rate": 4.5377924559081946e-05,
      "loss": 0.1996,
      "num_input_tokens_seen": 968032,
      "step": 1555
    },
    {
      "epoch": 2.7807486631016043,
      "grad_norm": 0.5571001172065735,
      "learning_rate": 4.533276973284771e-05,
      "loss": 0.2281,
      "num_input_tokens_seen": 970624,
      "step": 1560
    },
    {
      "epoch": 2.7896613190730837,
      "grad_norm": 0.7429901361465454,
      "learning_rate": 4.528741810656336e-05,
      "loss": 0.2868,
      "num_input_tokens_seen": 973760,
      "step": 1565
    },
    {
      "epoch": 2.7985739750445635,
      "grad_norm": 0.3642044961452484,
      "learning_rate": 4.5241870119185426e-05,
      "loss": 0.2662,
      "num_input_tokens_seen": 976480,
      "step": 1570
    },
    {
      "epoch": 2.807486631016043,
      "grad_norm": 0.5374373197555542,
      "learning_rate": 4.519612621157103e-05,
      "loss": 0.241,
      "num_input_tokens_seen": 979328,
      "step": 1575
    },
    {
      "epoch": 2.8163992869875223,
      "grad_norm": 0.9241515398025513,
      "learning_rate": 4.515018682647359e-05,
      "loss": 0.2839,
      "num_input_tokens_seen": 982624,
      "step": 1580
    },
    {
      "epoch": 2.8253119429590017,
      "grad_norm": 0.6853222846984863,
      "learning_rate": 4.510405240853854e-05,
      "loss": 0.2158,
      "num_input_tokens_seen": 985664,
      "step": 1585
    },
    {
      "epoch": 2.834224598930481,
      "grad_norm": 0.5483903884887695,
      "learning_rate": 4.505772340429905e-05,
      "loss": 0.2571,
      "num_input_tokens_seen": 989024,
      "step": 1590
    },
    {
      "epoch": 2.843137254901961,
      "grad_norm": 0.4872891902923584,
      "learning_rate": 4.501120026217164e-05,
      "loss": 0.2331,
      "num_input_tokens_seen": 992160,
      "step": 1595
    },
    {
      "epoch": 2.8520499108734403,
      "grad_norm": 0.5892439484596252,
      "learning_rate": 4.496448343245192e-05,
      "loss": 0.2645,
      "num_input_tokens_seen": 995328,
      "step": 1600
    },
    {
      "epoch": 2.8609625668449197,
      "grad_norm": 0.6122104525566101,
      "learning_rate": 4.4917573367310184e-05,
      "loss": 0.3106,
      "num_input_tokens_seen": 999136,
      "step": 1605
    },
    {
      "epoch": 2.8698752228163995,
      "grad_norm": 0.657755970954895,
      "learning_rate": 4.4870470520787035e-05,
      "loss": 0.2123,
      "num_input_tokens_seen": 1001920,
      "step": 1610
    },
    {
      "epoch": 2.878787878787879,
      "grad_norm": 0.6398863196372986,
      "learning_rate": 4.482317534878901e-05,
      "loss": 0.385,
      "num_input_tokens_seen": 1005632,
      "step": 1615
    },
    {
      "epoch": 2.8877005347593583,
      "grad_norm": 0.9357530474662781,
      "learning_rate": 4.477568830908415e-05,
      "loss": 0.2565,
      "num_input_tokens_seen": 1009408,
      "step": 1620
    },
    {
      "epoch": 2.8966131907308377,
      "grad_norm": 0.767514705657959,
      "learning_rate": 4.4728009861297586e-05,
      "loss": 0.2551,
      "num_input_tokens_seen": 1012448,
      "step": 1625
    },
    {
      "epoch": 2.905525846702317,
      "grad_norm": 0.5800440311431885,
      "learning_rate": 4.468014046690707e-05,
      "loss": 0.2587,
      "num_input_tokens_seen": 1015616,
      "step": 1630
    },
    {
      "epoch": 2.914438502673797,
      "grad_norm": 0.487104207277298,
      "learning_rate": 4.463208058923851e-05,
      "loss": 0.2677,
      "num_input_tokens_seen": 1018944,
      "step": 1635
    },
    {
      "epoch": 2.9233511586452763,
      "grad_norm": 0.799360454082489,
      "learning_rate": 4.458383069346152e-05,
      "loss": 0.2031,
      "num_input_tokens_seen": 1021696,
      "step": 1640
    },
    {
      "epoch": 2.9322638146167557,
      "grad_norm": 0.5832977890968323,
      "learning_rate": 4.453539124658486e-05,
      "loss": 0.2505,
      "num_input_tokens_seen": 1024832,
      "step": 1645
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 0.7471289038658142,
      "learning_rate": 4.4486762717451975e-05,
      "loss": 0.2521,
      "num_input_tokens_seen": 1027712,
      "step": 1650
    },
    {
      "epoch": 2.950089126559715,
      "grad_norm": 0.5479772090911865,
      "learning_rate": 4.443794557673641e-05,
      "loss": 0.2542,
      "num_input_tokens_seen": 1031040,
      "step": 1655
    },
    {
      "epoch": 2.9590017825311943,
      "grad_norm": 0.5916025042533875,
      "learning_rate": 4.43889402969373e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 1033440,
      "step": 1660
    },
    {
      "epoch": 2.9679144385026737,
      "grad_norm": 0.7155612111091614,
      "learning_rate": 4.4339747352374726e-05,
      "loss": 0.2661,
      "num_input_tokens_seen": 1036864,
      "step": 1665
    },
    {
      "epoch": 2.976827094474153,
      "grad_norm": 0.4465028941631317,
      "learning_rate": 4.4290367219185206e-05,
      "loss": 0.2583,
      "num_input_tokens_seen": 1039808,
      "step": 1670
    },
    {
      "epoch": 2.985739750445633,
      "grad_norm": 0.5775701999664307,
      "learning_rate": 4.424080037531705e-05,
      "loss": 0.2162,
      "num_input_tokens_seen": 1043200,
      "step": 1675
    },
    {
      "epoch": 2.9946524064171123,
      "grad_norm": 0.49966952204704285,
      "learning_rate": 4.4191047300525704e-05,
      "loss": 0.1902,
      "num_input_tokens_seen": 1045504,
      "step": 1680
    },
    {
      "epoch": 3.0035650623885917,
      "grad_norm": 0.5228843092918396,
      "learning_rate": 4.414110847636916e-05,
      "loss": 0.196,
      "num_input_tokens_seen": 1047768,
      "step": 1685
    },
    {
      "epoch": 3.0053475935828877,
      "eval_loss": 0.2455865740776062,
      "eval_runtime": 4.252,
      "eval_samples_per_second": 58.561,
      "eval_steps_per_second": 14.817,
      "num_input_tokens_seen": 1048184,
      "step": 1686
    },
    {
      "epoch": 3.0124777183600715,
      "grad_norm": 0.3864419162273407,
      "learning_rate": 4.409098438620326e-05,
      "loss": 0.1859,
      "num_input_tokens_seen": 1050456,
      "step": 1690
    },
    {
      "epoch": 3.021390374331551,
      "grad_norm": 0.7427952885627747,
      "learning_rate": 4.404067551517703e-05,
      "loss": 0.2342,
      "num_input_tokens_seen": 1053592,
      "step": 1695
    },
    {
      "epoch": 3.0303030303030303,
      "grad_norm": 0.8005133867263794,
      "learning_rate": 4.399018235022799e-05,
      "loss": 0.2547,
      "num_input_tokens_seen": 1056664,
      "step": 1700
    },
    {
      "epoch": 3.0392156862745097,
      "grad_norm": 0.42377611994743347,
      "learning_rate": 4.393950538007743e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 1059384,
      "step": 1705
    },
    {
      "epoch": 3.0481283422459895,
      "grad_norm": 0.4982529878616333,
      "learning_rate": 4.3888645095225675e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 1062168,
      "step": 1710
    },
    {
      "epoch": 3.057040998217469,
      "grad_norm": 0.9931812882423401,
      "learning_rate": 4.383760198794734e-05,
      "loss": 0.2083,
      "num_input_tokens_seen": 1064952,
      "step": 1715
    },
    {
      "epoch": 3.0659536541889483,
      "grad_norm": 0.6572649478912354,
      "learning_rate": 4.37863765522866e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 1067416,
      "step": 1720
    },
    {
      "epoch": 3.0748663101604277,
      "grad_norm": 0.6921285390853882,
      "learning_rate": 4.3734969284052345e-05,
      "loss": 0.2354,
      "num_input_tokens_seen": 1070552,
      "step": 1725
    },
    {
      "epoch": 3.0837789661319075,
      "grad_norm": 0.7747342586517334,
      "learning_rate": 4.368338068081343e-05,
      "loss": 0.3332,
      "num_input_tokens_seen": 1074136,
      "step": 1730
    },
    {
      "epoch": 3.092691622103387,
      "grad_norm": 1.056235432624817,
      "learning_rate": 4.3631611241893874e-05,
      "loss": 0.2396,
      "num_input_tokens_seen": 1077848,
      "step": 1735
    },
    {
      "epoch": 3.1016042780748663,
      "grad_norm": 0.7865013480186462,
      "learning_rate": 4.3579661468367924e-05,
      "loss": 0.2057,
      "num_input_tokens_seen": 1080664,
      "step": 1740
    },
    {
      "epoch": 3.1105169340463457,
      "grad_norm": 0.6681080460548401,
      "learning_rate": 4.352753186305536e-05,
      "loss": 0.2823,
      "num_input_tokens_seen": 1083992,
      "step": 1745
    },
    {
      "epoch": 3.1194295900178255,
      "grad_norm": 0.4991186559200287,
      "learning_rate": 4.347522293051648e-05,
      "loss": 0.2609,
      "num_input_tokens_seen": 1087800,
      "step": 1750
    },
    {
      "epoch": 3.128342245989305,
      "grad_norm": 0.5108634829521179,
      "learning_rate": 4.3422735177047324e-05,
      "loss": 0.2318,
      "num_input_tokens_seen": 1090776,
      "step": 1755
    },
    {
      "epoch": 3.1372549019607843,
      "grad_norm": 1.343435525894165,
      "learning_rate": 4.337006911067473e-05,
      "loss": 0.2593,
      "num_input_tokens_seen": 1093624,
      "step": 1760
    },
    {
      "epoch": 3.1461675579322637,
      "grad_norm": 0.7029876708984375,
      "learning_rate": 4.331722524115139e-05,
      "loss": 0.1993,
      "num_input_tokens_seen": 1096472,
      "step": 1765
    },
    {
      "epoch": 3.1550802139037435,
      "grad_norm": 0.5673936605453491,
      "learning_rate": 4.3264204079950975e-05,
      "loss": 0.2703,
      "num_input_tokens_seen": 1099736,
      "step": 1770
    },
    {
      "epoch": 3.163992869875223,
      "grad_norm": 0.49642717838287354,
      "learning_rate": 4.321100614026315e-05,
      "loss": 0.3485,
      "num_input_tokens_seen": 1103384,
      "step": 1775
    },
    {
      "epoch": 3.1729055258467023,
      "grad_norm": 0.7280632257461548,
      "learning_rate": 4.31576319369886e-05,
      "loss": 0.2451,
      "num_input_tokens_seen": 1106520,
      "step": 1780
    },
    {
      "epoch": 3.1818181818181817,
      "grad_norm": 0.642463207244873,
      "learning_rate": 4.310408198673406e-05,
      "loss": 0.2062,
      "num_input_tokens_seen": 1109208,
      "step": 1785
    },
    {
      "epoch": 3.1907308377896615,
      "grad_norm": 0.7189128994941711,
      "learning_rate": 4.305035680780732e-05,
      "loss": 0.2478,
      "num_input_tokens_seen": 1112536,
      "step": 1790
    },
    {
      "epoch": 3.199643493761141,
      "grad_norm": 1.2781462669372559,
      "learning_rate": 4.299645692021221e-05,
      "loss": 0.2381,
      "num_input_tokens_seen": 1115992,
      "step": 1795
    },
    {
      "epoch": 3.2085561497326203,
      "grad_norm": 0.598044753074646,
      "learning_rate": 4.294238284564354e-05,
      "loss": 0.2208,
      "num_input_tokens_seen": 1119192,
      "step": 1800
    },
    {
      "epoch": 3.2174688057040997,
      "grad_norm": 0.6014571189880371,
      "learning_rate": 4.2888135107482067e-05,
      "loss": 0.2393,
      "num_input_tokens_seen": 1122552,
      "step": 1805
    },
    {
      "epoch": 3.2263814616755795,
      "grad_norm": 0.8126239776611328,
      "learning_rate": 4.283371423078945e-05,
      "loss": 0.2321,
      "num_input_tokens_seen": 1126072,
      "step": 1810
    },
    {
      "epoch": 3.235294117647059,
      "grad_norm": 0.6001937985420227,
      "learning_rate": 4.277912074230312e-05,
      "loss": 0.1901,
      "num_input_tokens_seen": 1128792,
      "step": 1815
    },
    {
      "epoch": 3.2442067736185383,
      "grad_norm": 0.6077953577041626,
      "learning_rate": 4.272435517043125e-05,
      "loss": 0.2166,
      "num_input_tokens_seen": 1132152,
      "step": 1820
    },
    {
      "epoch": 3.2531194295900177,
      "grad_norm": 0.38485997915267944,
      "learning_rate": 4.2669418045247576e-05,
      "loss": 0.2028,
      "num_input_tokens_seen": 1135064,
      "step": 1825
    },
    {
      "epoch": 3.2620320855614975,
      "grad_norm": 0.5066972970962524,
      "learning_rate": 4.2614309898486297e-05,
      "loss": 0.247,
      "num_input_tokens_seen": 1137976,
      "step": 1830
    },
    {
      "epoch": 3.270944741532977,
      "grad_norm": 0.5907444357872009,
      "learning_rate": 4.25590312635369e-05,
      "loss": 0.1952,
      "num_input_tokens_seen": 1141080,
      "step": 1835
    },
    {
      "epoch": 3.2798573975044563,
      "grad_norm": 0.6255643963813782,
      "learning_rate": 4.250358267543907e-05,
      "loss": 0.2124,
      "num_input_tokens_seen": 1144376,
      "step": 1840
    },
    {
      "epoch": 3.2887700534759357,
      "grad_norm": 0.9536407589912415,
      "learning_rate": 4.244796467087741e-05,
      "loss": 0.23,
      "num_input_tokens_seen": 1147224,
      "step": 1845
    },
    {
      "epoch": 3.2976827094474155,
      "grad_norm": 0.7920709252357483,
      "learning_rate": 4.2392177788176335e-05,
      "loss": 0.2005,
      "num_input_tokens_seen": 1150360,
      "step": 1850
    },
    {
      "epoch": 3.306595365418895,
      "grad_norm": 0.4633888602256775,
      "learning_rate": 4.2336222567294804e-05,
      "loss": 0.1962,
      "num_input_tokens_seen": 1153688,
      "step": 1855
    },
    {
      "epoch": 3.3155080213903743,
      "grad_norm": 0.384843111038208,
      "learning_rate": 4.228009954982112e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 1157016,
      "step": 1860
    },
    {
      "epoch": 3.3244206773618536,
      "grad_norm": 0.4141569435596466,
      "learning_rate": 4.22238092789677e-05,
      "loss": 0.2075,
      "num_input_tokens_seen": 1159768,
      "step": 1865
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.5076260566711426,
      "learning_rate": 4.2167352299565746e-05,
      "loss": 0.198,
      "num_input_tokens_seen": 1162520,
      "step": 1870
    },
    {
      "epoch": 3.342245989304813,
      "grad_norm": 0.6106960773468018,
      "learning_rate": 4.21107291580601e-05,
      "loss": 0.1931,
      "num_input_tokens_seen": 1165336,
      "step": 1875
    },
    {
      "epoch": 3.3511586452762923,
      "grad_norm": 0.49231547117233276,
      "learning_rate": 4.205394040250382e-05,
      "loss": 0.2574,
      "num_input_tokens_seen": 1168632,
      "step": 1880
    },
    {
      "epoch": 3.3600713012477716,
      "grad_norm": 0.5341747403144836,
      "learning_rate": 4.199698658255298e-05,
      "loss": 0.2002,
      "num_input_tokens_seen": 1171352,
      "step": 1885
    },
    {
      "epoch": 3.3689839572192515,
      "grad_norm": 0.5527672171592712,
      "learning_rate": 4.193986824946125e-05,
      "loss": 0.2148,
      "num_input_tokens_seen": 1174360,
      "step": 1890
    },
    {
      "epoch": 3.377896613190731,
      "grad_norm": 0.5493122935295105,
      "learning_rate": 4.188258595607468e-05,
      "loss": 0.2173,
      "num_input_tokens_seen": 1177368,
      "step": 1895
    },
    {
      "epoch": 3.3868092691622103,
      "grad_norm": 0.6076507568359375,
      "learning_rate": 4.182514025682625e-05,
      "loss": 0.2365,
      "num_input_tokens_seen": 1180824,
      "step": 1900
    },
    {
      "epoch": 3.3957219251336896,
      "grad_norm": 0.38345441222190857,
      "learning_rate": 4.176753170773052e-05,
      "loss": 0.237,
      "num_input_tokens_seen": 1183544,
      "step": 1905
    },
    {
      "epoch": 3.4046345811051695,
      "grad_norm": 0.8067929744720459,
      "learning_rate": 4.170976086637832e-05,
      "loss": 0.1945,
      "num_input_tokens_seen": 1185848,
      "step": 1910
    },
    {
      "epoch": 3.413547237076649,
      "grad_norm": 0.5404775142669678,
      "learning_rate": 4.1651828291931264e-05,
      "loss": 0.1856,
      "num_input_tokens_seen": 1189176,
      "step": 1915
    },
    {
      "epoch": 3.4224598930481283,
      "grad_norm": 0.6067723631858826,
      "learning_rate": 4.159373454511636e-05,
      "loss": 0.2464,
      "num_input_tokens_seen": 1192984,
      "step": 1920
    },
    {
      "epoch": 3.431372549019608,
      "grad_norm": 0.6056991815567017,
      "learning_rate": 4.1535480188220636e-05,
      "loss": 0.2909,
      "num_input_tokens_seen": 1196888,
      "step": 1925
    },
    {
      "epoch": 3.4402852049910875,
      "grad_norm": 0.7518835067749023,
      "learning_rate": 4.1477065785085634e-05,
      "loss": 0.2496,
      "num_input_tokens_seen": 1200792,
      "step": 1930
    },
    {
      "epoch": 3.449197860962567,
      "grad_norm": 0.41140249371528625,
      "learning_rate": 4.141849190110199e-05,
      "loss": 0.2267,
      "num_input_tokens_seen": 1203832,
      "step": 1935
    },
    {
      "epoch": 3.4581105169340463,
      "grad_norm": 0.44746679067611694,
      "learning_rate": 4.1359759103203935e-05,
      "loss": 0.215,
      "num_input_tokens_seen": 1207160,
      "step": 1940
    },
    {
      "epoch": 3.4670231729055256,
      "grad_norm": 0.7266998291015625,
      "learning_rate": 4.130086795986383e-05,
      "loss": 0.2169,
      "num_input_tokens_seen": 1210616,
      "step": 1945
    },
    {
      "epoch": 3.4759358288770055,
      "grad_norm": 0.5968104600906372,
      "learning_rate": 4.124181904108664e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 1213528,
      "step": 1950
    },
    {
      "epoch": 3.484848484848485,
      "grad_norm": 0.5463330149650574,
      "learning_rate": 4.1182612918404466e-05,
      "loss": 0.1969,
      "num_input_tokens_seen": 1216568,
      "step": 1955
    },
    {
      "epoch": 3.4937611408199643,
      "grad_norm": 0.6442824006080627,
      "learning_rate": 4.1123250164870955e-05,
      "loss": 0.3184,
      "num_input_tokens_seen": 1219896,
      "step": 1960
    },
    {
      "epoch": 3.502673796791444,
      "grad_norm": 0.701900064945221,
      "learning_rate": 4.1063731355055763e-05,
      "loss": 0.2079,
      "num_input_tokens_seen": 1222904,
      "step": 1965
    },
    {
      "epoch": 3.5062388591800357,
      "eval_loss": 0.22395405173301697,
      "eval_runtime": 4.2462,
      "eval_samples_per_second": 58.641,
      "eval_steps_per_second": 14.837,
      "num_input_tokens_seen": 1223864,
      "step": 1967
    },
    {
      "epoch": 3.5115864527629235,
      "grad_norm": 0.39802566170692444,
      "learning_rate": 4.100405706503904e-05,
      "loss": 0.158,
      "num_input_tokens_seen": 1225496,
      "step": 1970
    },
    {
      "epoch": 3.520499108734403,
      "grad_norm": 0.7380387783050537,
      "learning_rate": 4.094422787240581e-05,
      "loss": 0.1725,
      "num_input_tokens_seen": 1228280,
      "step": 1975
    },
    {
      "epoch": 3.5294117647058822,
      "grad_norm": 0.6759628653526306,
      "learning_rate": 4.088424435624038e-05,
      "loss": 0.2052,
      "num_input_tokens_seen": 1231288,
      "step": 1980
    },
    {
      "epoch": 3.5383244206773616,
      "grad_norm": 1.158799409866333,
      "learning_rate": 4.082410709712077e-05,
      "loss": 0.2018,
      "num_input_tokens_seen": 1234456,
      "step": 1985
    },
    {
      "epoch": 3.5472370766488415,
      "grad_norm": 0.7307495474815369,
      "learning_rate": 4.0763816677113064e-05,
      "loss": 0.2669,
      "num_input_tokens_seen": 1237912,
      "step": 1990
    },
    {
      "epoch": 3.556149732620321,
      "grad_norm": 0.9738561511039734,
      "learning_rate": 4.070337367976578e-05,
      "loss": 0.2444,
      "num_input_tokens_seen": 1240984,
      "step": 1995
    },
    {
      "epoch": 3.5650623885918002,
      "grad_norm": 0.5394619703292847,
      "learning_rate": 4.064277869010421e-05,
      "loss": 0.2265,
      "num_input_tokens_seen": 1244280,
      "step": 2000
    },
    {
      "epoch": 3.57397504456328,
      "grad_norm": 0.7028752565383911,
      "learning_rate": 4.058203229462482e-05,
      "loss": 0.2192,
      "num_input_tokens_seen": 1246904,
      "step": 2005
    },
    {
      "epoch": 3.5828877005347595,
      "grad_norm": 1.353464126586914,
      "learning_rate": 4.052113508128948e-05,
      "loss": 0.2313,
      "num_input_tokens_seen": 1249880,
      "step": 2010
    },
    {
      "epoch": 3.591800356506239,
      "grad_norm": 0.8846970796585083,
      "learning_rate": 4.0460087639519836e-05,
      "loss": 0.1889,
      "num_input_tokens_seen": 1252408,
      "step": 2015
    },
    {
      "epoch": 3.6007130124777182,
      "grad_norm": 1.0351589918136597,
      "learning_rate": 4.039889056019159e-05,
      "loss": 0.2567,
      "num_input_tokens_seen": 1255800,
      "step": 2020
    },
    {
      "epoch": 3.6096256684491976,
      "grad_norm": 0.6438773274421692,
      "learning_rate": 4.03375444356288e-05,
      "loss": 0.2018,
      "num_input_tokens_seen": 1259160,
      "step": 2025
    },
    {
      "epoch": 3.6185383244206775,
      "grad_norm": 0.8322818279266357,
      "learning_rate": 4.0276049859598084e-05,
      "loss": 0.2269,
      "num_input_tokens_seen": 1262488,
      "step": 2030
    },
    {
      "epoch": 3.627450980392157,
      "grad_norm": 0.5302309393882751,
      "learning_rate": 4.021440742730295e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 1265368,
      "step": 2035
    },
    {
      "epoch": 3.6363636363636362,
      "grad_norm": 0.8041933178901672,
      "learning_rate": 4.015261773537799e-05,
      "loss": 0.2316,
      "num_input_tokens_seen": 1269112,
      "step": 2040
    },
    {
      "epoch": 3.645276292335116,
      "grad_norm": 0.5872630476951599,
      "learning_rate": 4.009068138188311e-05,
      "loss": 0.2389,
      "num_input_tokens_seen": 1272408,
      "step": 2045
    },
    {
      "epoch": 3.6541889483065955,
      "grad_norm": 0.5462104678153992,
      "learning_rate": 4.002859896629776e-05,
      "loss": 0.1955,
      "num_input_tokens_seen": 1275640,
      "step": 2050
    },
    {
      "epoch": 3.663101604278075,
      "grad_norm": 0.7330032587051392,
      "learning_rate": 3.99663710895151e-05,
      "loss": 0.2116,
      "num_input_tokens_seen": 1278616,
      "step": 2055
    },
    {
      "epoch": 3.6720142602495542,
      "grad_norm": 0.5604473352432251,
      "learning_rate": 3.990399835383623e-05,
      "loss": 0.2285,
      "num_input_tokens_seen": 1281624,
      "step": 2060
    },
    {
      "epoch": 3.6809269162210336,
      "grad_norm": 0.49228572845458984,
      "learning_rate": 3.984148136296431e-05,
      "loss": 0.2026,
      "num_input_tokens_seen": 1284216,
      "step": 2065
    },
    {
      "epoch": 3.6898395721925135,
      "grad_norm": 0.8332962393760681,
      "learning_rate": 3.977882072199874e-05,
      "loss": 0.2028,
      "num_input_tokens_seen": 1286808,
      "step": 2070
    },
    {
      "epoch": 3.698752228163993,
      "grad_norm": 0.6717101335525513,
      "learning_rate": 3.971601703742932e-05,
      "loss": 0.2117,
      "num_input_tokens_seen": 1289944,
      "step": 2075
    },
    {
      "epoch": 3.7076648841354722,
      "grad_norm": 0.6963510513305664,
      "learning_rate": 3.965307091713037e-05,
      "loss": 0.1899,
      "num_input_tokens_seen": 1292856,
      "step": 2080
    },
    {
      "epoch": 3.716577540106952,
      "grad_norm": 0.771668553352356,
      "learning_rate": 3.95899829703548e-05,
      "loss": 0.2491,
      "num_input_tokens_seen": 1296792,
      "step": 2085
    },
    {
      "epoch": 3.7254901960784315,
      "grad_norm": 0.9969800710678101,
      "learning_rate": 3.9526753807728295e-05,
      "loss": 0.2512,
      "num_input_tokens_seen": 1299800,
      "step": 2090
    },
    {
      "epoch": 3.734402852049911,
      "grad_norm": 0.5737549066543579,
      "learning_rate": 3.946338404124334e-05,
      "loss": 0.1831,
      "num_input_tokens_seen": 1302648,
      "step": 2095
    },
    {
      "epoch": 3.7433155080213902,
      "grad_norm": 0.5544306039810181,
      "learning_rate": 3.939987428425331e-05,
      "loss": 0.1678,
      "num_input_tokens_seen": 1305016,
      "step": 2100
    },
    {
      "epoch": 3.7522281639928696,
      "grad_norm": 0.4125676155090332,
      "learning_rate": 3.933622515146658e-05,
      "loss": 0.1715,
      "num_input_tokens_seen": 1308024,
      "step": 2105
    },
    {
      "epoch": 3.7611408199643495,
      "grad_norm": 0.6266154646873474,
      "learning_rate": 3.9272437258940494e-05,
      "loss": 0.2112,
      "num_input_tokens_seen": 1310552,
      "step": 2110
    },
    {
      "epoch": 3.770053475935829,
      "grad_norm": 0.44769471883773804,
      "learning_rate": 3.9208511224075484e-05,
      "loss": 0.2325,
      "num_input_tokens_seen": 1313656,
      "step": 2115
    },
    {
      "epoch": 3.7789661319073082,
      "grad_norm": 0.5761722922325134,
      "learning_rate": 3.914444766560902e-05,
      "loss": 0.2712,
      "num_input_tokens_seen": 1316728,
      "step": 2120
    },
    {
      "epoch": 3.787878787878788,
      "grad_norm": 0.556746780872345,
      "learning_rate": 3.908024720360968e-05,
      "loss": 0.2286,
      "num_input_tokens_seen": 1320344,
      "step": 2125
    },
    {
      "epoch": 3.7967914438502675,
      "grad_norm": 0.45677894353866577,
      "learning_rate": 3.9015910459471126e-05,
      "loss": 0.196,
      "num_input_tokens_seen": 1323416,
      "step": 2130
    },
    {
      "epoch": 3.805704099821747,
      "grad_norm": 0.6750150322914124,
      "learning_rate": 3.8951438055906084e-05,
      "loss": 0.1779,
      "num_input_tokens_seen": 1326360,
      "step": 2135
    },
    {
      "epoch": 3.8146167557932262,
      "grad_norm": 0.9360057711601257,
      "learning_rate": 3.888683061694032e-05,
      "loss": 0.2523,
      "num_input_tokens_seen": 1329944,
      "step": 2140
    },
    {
      "epoch": 3.8235294117647056,
      "grad_norm": 0.4923909604549408,
      "learning_rate": 3.882208876790661e-05,
      "loss": 0.1995,
      "num_input_tokens_seen": 1333080,
      "step": 2145
    },
    {
      "epoch": 3.8324420677361855,
      "grad_norm": 0.6493288278579712,
      "learning_rate": 3.8757213135438655e-05,
      "loss": 0.1972,
      "num_input_tokens_seen": 1336504,
      "step": 2150
    },
    {
      "epoch": 3.841354723707665,
      "grad_norm": 0.5835461616516113,
      "learning_rate": 3.869220434746509e-05,
      "loss": 0.2229,
      "num_input_tokens_seen": 1339704,
      "step": 2155
    },
    {
      "epoch": 3.8502673796791442,
      "grad_norm": 0.6278809309005737,
      "learning_rate": 3.862706303320329e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 1343032,
      "step": 2160
    },
    {
      "epoch": 3.859180035650624,
      "grad_norm": 0.7989611625671387,
      "learning_rate": 3.856178982315342e-05,
      "loss": 0.2522,
      "num_input_tokens_seen": 1346104,
      "step": 2165
    },
    {
      "epoch": 3.8680926916221035,
      "grad_norm": 0.4888596534729004,
      "learning_rate": 3.849638534909219e-05,
      "loss": 0.1977,
      "num_input_tokens_seen": 1348984,
      "step": 2170
    },
    {
      "epoch": 3.877005347593583,
      "grad_norm": 0.590801477432251,
      "learning_rate": 3.843085024406686e-05,
      "loss": 0.2031,
      "num_input_tokens_seen": 1351480,
      "step": 2175
    },
    {
      "epoch": 3.8859180035650622,
      "grad_norm": 0.6255959868431091,
      "learning_rate": 3.836518514238903e-05,
      "loss": 0.2707,
      "num_input_tokens_seen": 1355448,
      "step": 2180
    },
    {
      "epoch": 3.8948306595365416,
      "grad_norm": 0.5446547269821167,
      "learning_rate": 3.8299390679628555e-05,
      "loss": 0.1831,
      "num_input_tokens_seen": 1358392,
      "step": 2185
    },
    {
      "epoch": 3.9037433155080214,
      "grad_norm": 0.5819702744483948,
      "learning_rate": 3.8233467492607354e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 1361368,
      "step": 2190
    },
    {
      "epoch": 3.912655971479501,
      "grad_norm": 0.5366934537887573,
      "learning_rate": 3.816741621939327e-05,
      "loss": 0.1955,
      "num_input_tokens_seen": 1364536,
      "step": 2195
    },
    {
      "epoch": 3.9215686274509802,
      "grad_norm": 1.1435610055923462,
      "learning_rate": 3.81012374992939e-05,
      "loss": 0.2049,
      "num_input_tokens_seen": 1367800,
      "step": 2200
    },
    {
      "epoch": 3.93048128342246,
      "grad_norm": 0.5551317930221558,
      "learning_rate": 3.803493197285036e-05,
      "loss": 0.2268,
      "num_input_tokens_seen": 1371224,
      "step": 2205
    },
    {
      "epoch": 3.9393939393939394,
      "grad_norm": 1.10652756690979,
      "learning_rate": 3.7968500281831146e-05,
      "loss": 0.1848,
      "num_input_tokens_seen": 1373944,
      "step": 2210
    },
    {
      "epoch": 3.948306595365419,
      "grad_norm": 0.9579757452011108,
      "learning_rate": 3.79019430692259e-05,
      "loss": 0.2114,
      "num_input_tokens_seen": 1377240,
      "step": 2215
    },
    {
      "epoch": 3.9572192513368982,
      "grad_norm": 0.42045828700065613,
      "learning_rate": 3.783526097923915e-05,
      "loss": 0.2034,
      "num_input_tokens_seen": 1380248,
      "step": 2220
    },
    {
      "epoch": 3.966131907308378,
      "grad_norm": 0.6384634375572205,
      "learning_rate": 3.7768454657284154e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 1382712,
      "step": 2225
    },
    {
      "epoch": 3.9750445632798574,
      "grad_norm": 0.9116731882095337,
      "learning_rate": 3.770152474997657e-05,
      "loss": 0.2102,
      "num_input_tokens_seen": 1385976,
      "step": 2230
    },
    {
      "epoch": 3.983957219251337,
      "grad_norm": 0.6810240149497986,
      "learning_rate": 3.763447190512824e-05,
      "loss": 0.2052,
      "num_input_tokens_seen": 1389624,
      "step": 2235
    },
    {
      "epoch": 3.9928698752228167,
      "grad_norm": 0.3541090488433838,
      "learning_rate": 3.7567296771740925e-05,
      "loss": 0.244,
      "num_input_tokens_seen": 1392728,
      "step": 2240
    },
    {
      "epoch": 4.001782531194296,
      "grad_norm": 1.0409997701644897,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.2358,
      "num_input_tokens_seen": 1395704,
      "step": 2245
    },
    {
      "epoch": 4.007130124777183,
      "eval_loss": 0.21653257310390472,
      "eval_runtime": 4.2509,
      "eval_samples_per_second": 58.576,
      "eval_steps_per_second": 14.82,
      "num_input_tokens_seen": 1397624,
      "step": 2248
    },
    {
      "epoch": 4.010695187165775,
      "grad_norm": 0.5523825287818909,
      "learning_rate": 3.743258224126819e-05,
      "loss": 0.1735,
      "num_input_tokens_seen": 1398584,
      "step": 2250
    },
    {
      "epoch": 4.019607843137255,
      "grad_norm": 0.7276411652565002,
      "learning_rate": 3.736504414807922e-05,
      "loss": 0.1992,
      "num_input_tokens_seen": 1401784,
      "step": 2255
    },
    {
      "epoch": 4.028520499108734,
      "grad_norm": 0.36699721217155457,
      "learning_rate": 3.729738637413156e-05,
      "loss": 0.1728,
      "num_input_tokens_seen": 1404312,
      "step": 2260
    },
    {
      "epoch": 4.037433155080214,
      "grad_norm": 0.7663154006004333,
      "learning_rate": 3.722960957428203e-05,
      "loss": 0.1866,
      "num_input_tokens_seen": 1407352,
      "step": 2265
    },
    {
      "epoch": 4.046345811051693,
      "grad_norm": 0.4959503412246704,
      "learning_rate": 3.716171440453952e-05,
      "loss": 0.1823,
      "num_input_tokens_seen": 1410648,
      "step": 2270
    },
    {
      "epoch": 4.055258467023173,
      "grad_norm": 0.6325064897537231,
      "learning_rate": 3.709370152205863e-05,
      "loss": 0.1698,
      "num_input_tokens_seen": 1413816,
      "step": 2275
    },
    {
      "epoch": 4.064171122994653,
      "grad_norm": 0.4548736810684204,
      "learning_rate": 3.7025571585133254e-05,
      "loss": 0.1626,
      "num_input_tokens_seen": 1416024,
      "step": 2280
    },
    {
      "epoch": 4.073083778966132,
      "grad_norm": 0.3842249810695648,
      "learning_rate": 3.69573252531903e-05,
      "loss": 0.1929,
      "num_input_tokens_seen": 1419128,
      "step": 2285
    },
    {
      "epoch": 4.081996434937611,
      "grad_norm": 0.6341343522071838,
      "learning_rate": 3.6888963186783224e-05,
      "loss": 0.1625,
      "num_input_tokens_seen": 1421720,
      "step": 2290
    },
    {
      "epoch": 4.090909090909091,
      "grad_norm": 0.5091090798377991,
      "learning_rate": 3.682048604758567e-05,
      "loss": 0.1771,
      "num_input_tokens_seen": 1424632,
      "step": 2295
    },
    {
      "epoch": 4.09982174688057,
      "grad_norm": 0.24424993991851807,
      "learning_rate": 3.67518944983851e-05,
      "loss": 0.1739,
      "num_input_tokens_seen": 1427480,
      "step": 2300
    },
    {
      "epoch": 4.10873440285205,
      "grad_norm": 0.589100182056427,
      "learning_rate": 3.668318920307632e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 1430296,
      "step": 2305
    },
    {
      "epoch": 4.117647058823529,
      "grad_norm": 0.41250258684158325,
      "learning_rate": 3.6614370826655074e-05,
      "loss": 0.1714,
      "num_input_tokens_seen": 1432920,
      "step": 2310
    },
    {
      "epoch": 4.126559714795009,
      "grad_norm": 0.7590497136116028,
      "learning_rate": 3.654544003521164e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 1435544,
      "step": 2315
    },
    {
      "epoch": 4.135472370766489,
      "grad_norm": 0.8127907514572144,
      "learning_rate": 3.647639749592433e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 1438040,
      "step": 2320
    },
    {
      "epoch": 4.144385026737968,
      "grad_norm": 0.6445732712745667,
      "learning_rate": 3.640724387705308e-05,
      "loss": 0.2149,
      "num_input_tokens_seen": 1441528,
      "step": 2325
    },
    {
      "epoch": 4.153297682709447,
      "grad_norm": 0.44771522283554077,
      "learning_rate": 3.633797984793294e-05,
      "loss": 0.1543,
      "num_input_tokens_seen": 1444920,
      "step": 2330
    },
    {
      "epoch": 4.162210338680927,
      "grad_norm": 0.47167617082595825,
      "learning_rate": 3.626860607896764e-05,
      "loss": 0.2014,
      "num_input_tokens_seen": 1447896,
      "step": 2335
    },
    {
      "epoch": 4.171122994652406,
      "grad_norm": 0.49547502398490906,
      "learning_rate": 3.6199123241623046e-05,
      "loss": 0.2085,
      "num_input_tokens_seen": 1451256,
      "step": 2340
    },
    {
      "epoch": 4.180035650623886,
      "grad_norm": 0.5464377403259277,
      "learning_rate": 3.6129532008420715e-05,
      "loss": 0.1821,
      "num_input_tokens_seen": 1454136,
      "step": 2345
    },
    {
      "epoch": 4.188948306595365,
      "grad_norm": 0.44719406962394714,
      "learning_rate": 3.605983305293137e-05,
      "loss": 0.1703,
      "num_input_tokens_seen": 1456504,
      "step": 2350
    },
    {
      "epoch": 4.197860962566845,
      "grad_norm": 0.905034065246582,
      "learning_rate": 3.599002704976835e-05,
      "loss": 0.1734,
      "num_input_tokens_seen": 1459768,
      "step": 2355
    },
    {
      "epoch": 4.206773618538325,
      "grad_norm": 0.3426745533943176,
      "learning_rate": 3.592011467458113e-05,
      "loss": 0.1501,
      "num_input_tokens_seen": 1462392,
      "step": 2360
    },
    {
      "epoch": 4.215686274509804,
      "grad_norm": 1.105431318283081,
      "learning_rate": 3.585009660404873e-05,
      "loss": 0.2289,
      "num_input_tokens_seen": 1466040,
      "step": 2365
    },
    {
      "epoch": 4.224598930481283,
      "grad_norm": 0.6577187776565552,
      "learning_rate": 3.577997351587322e-05,
      "loss": 0.2166,
      "num_input_tokens_seen": 1469208,
      "step": 2370
    },
    {
      "epoch": 4.233511586452763,
      "grad_norm": 0.5719982981681824,
      "learning_rate": 3.5709746088773085e-05,
      "loss": 0.222,
      "num_input_tokens_seen": 1472536,
      "step": 2375
    },
    {
      "epoch": 4.242424242424242,
      "grad_norm": 0.4010562598705292,
      "learning_rate": 3.563941500247676e-05,
      "loss": 0.1836,
      "num_input_tokens_seen": 1475608,
      "step": 2380
    },
    {
      "epoch": 4.251336898395722,
      "grad_norm": 0.6845771074295044,
      "learning_rate": 3.5568980937715945e-05,
      "loss": 0.1762,
      "num_input_tokens_seen": 1479256,
      "step": 2385
    },
    {
      "epoch": 4.260249554367201,
      "grad_norm": 0.5753139853477478,
      "learning_rate": 3.54984445762191e-05,
      "loss": 0.2054,
      "num_input_tokens_seen": 1483064,
      "step": 2390
    },
    {
      "epoch": 4.269162210338681,
      "grad_norm": 0.586729109287262,
      "learning_rate": 3.5427806600704785e-05,
      "loss": 0.1733,
      "num_input_tokens_seen": 1485880,
      "step": 2395
    },
    {
      "epoch": 4.278074866310161,
      "grad_norm": 0.5614349842071533,
      "learning_rate": 3.535706769487509e-05,
      "loss": 0.1777,
      "num_input_tokens_seen": 1489208,
      "step": 2400
    },
    {
      "epoch": 4.28698752228164,
      "grad_norm": 0.6715386509895325,
      "learning_rate": 3.5286228543409004e-05,
      "loss": 0.1883,
      "num_input_tokens_seen": 1492216,
      "step": 2405
    },
    {
      "epoch": 4.295900178253119,
      "grad_norm": 0.5051096677780151,
      "learning_rate": 3.5215289831955786e-05,
      "loss": 0.2037,
      "num_input_tokens_seen": 1495960,
      "step": 2410
    },
    {
      "epoch": 4.304812834224599,
      "grad_norm": 0.8140228390693665,
      "learning_rate": 3.514425224712835e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 1498584,
      "step": 2415
    },
    {
      "epoch": 4.313725490196078,
      "grad_norm": 0.45702996850013733,
      "learning_rate": 3.507311647649657e-05,
      "loss": 0.179,
      "num_input_tokens_seen": 1501880,
      "step": 2420
    },
    {
      "epoch": 4.322638146167558,
      "grad_norm": 0.6330050230026245,
      "learning_rate": 3.5001883208580665e-05,
      "loss": 0.1901,
      "num_input_tokens_seen": 1505112,
      "step": 2425
    },
    {
      "epoch": 4.331550802139038,
      "grad_norm": 0.5689657330513,
      "learning_rate": 3.493055313284456e-05,
      "loss": 0.2295,
      "num_input_tokens_seen": 1507768,
      "step": 2430
    },
    {
      "epoch": 4.340463458110517,
      "grad_norm": 0.9648520946502686,
      "learning_rate": 3.485912693968913e-05,
      "loss": 0.2049,
      "num_input_tokens_seen": 1511224,
      "step": 2435
    },
    {
      "epoch": 4.349376114081997,
      "grad_norm": 0.4425726532936096,
      "learning_rate": 3.478760532044561e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 1514456,
      "step": 2440
    },
    {
      "epoch": 4.358288770053476,
      "grad_norm": 0.5605233311653137,
      "learning_rate": 3.471598896736881e-05,
      "loss": 0.207,
      "num_input_tokens_seen": 1517400,
      "step": 2445
    },
    {
      "epoch": 4.367201426024955,
      "grad_norm": 0.5907042622566223,
      "learning_rate": 3.464427857363052e-05,
      "loss": 0.2018,
      "num_input_tokens_seen": 1520664,
      "step": 2450
    },
    {
      "epoch": 4.376114081996435,
      "grad_norm": 0.8678156137466431,
      "learning_rate": 3.457247483331272e-05,
      "loss": 0.2408,
      "num_input_tokens_seen": 1523960,
      "step": 2455
    },
    {
      "epoch": 4.385026737967914,
      "grad_norm": 0.4271613359451294,
      "learning_rate": 3.4500578441400876e-05,
      "loss": 0.1568,
      "num_input_tokens_seen": 1526616,
      "step": 2460
    },
    {
      "epoch": 4.393939393939394,
      "grad_norm": 1.1846132278442383,
      "learning_rate": 3.4428590093777244e-05,
      "loss": 0.3417,
      "num_input_tokens_seen": 1530808,
      "step": 2465
    },
    {
      "epoch": 4.402852049910873,
      "grad_norm": 0.49708229303359985,
      "learning_rate": 3.43565104872141e-05,
      "loss": 0.1599,
      "num_input_tokens_seen": 1533336,
      "step": 2470
    },
    {
      "epoch": 4.411764705882353,
      "grad_norm": 0.35631561279296875,
      "learning_rate": 3.428434031936704e-05,
      "loss": 0.1646,
      "num_input_tokens_seen": 1535864,
      "step": 2475
    },
    {
      "epoch": 4.420677361853833,
      "grad_norm": 0.6264846324920654,
      "learning_rate": 3.421208028876815e-05,
      "loss": 0.2114,
      "num_input_tokens_seen": 1539192,
      "step": 2480
    },
    {
      "epoch": 4.429590017825312,
      "grad_norm": 0.3950527310371399,
      "learning_rate": 3.413973109481935e-05,
      "loss": 0.227,
      "num_input_tokens_seen": 1542712,
      "step": 2485
    },
    {
      "epoch": 4.438502673796791,
      "grad_norm": 0.7369870543479919,
      "learning_rate": 3.406729343778552e-05,
      "loss": 0.1871,
      "num_input_tokens_seen": 1545272,
      "step": 2490
    },
    {
      "epoch": 4.447415329768271,
      "grad_norm": 0.549528956413269,
      "learning_rate": 3.3994768018787815e-05,
      "loss": 0.3024,
      "num_input_tokens_seen": 1549464,
      "step": 2495
    },
    {
      "epoch": 4.45632798573975,
      "grad_norm": 0.5840650796890259,
      "learning_rate": 3.392215553979679e-05,
      "loss": 0.2244,
      "num_input_tokens_seen": 1552280,
      "step": 2500
    },
    {
      "epoch": 4.46524064171123,
      "grad_norm": 0.399300754070282,
      "learning_rate": 3.38494567036257e-05,
      "loss": 0.2032,
      "num_input_tokens_seen": 1555448,
      "step": 2505
    },
    {
      "epoch": 4.47415329768271,
      "grad_norm": 0.47554269433021545,
      "learning_rate": 3.3776672213923587e-05,
      "loss": 0.2211,
      "num_input_tokens_seen": 1559480,
      "step": 2510
    },
    {
      "epoch": 4.483065953654189,
      "grad_norm": 0.3855815827846527,
      "learning_rate": 3.370380277516858e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 1562872,
      "step": 2515
    },
    {
      "epoch": 4.491978609625669,
      "grad_norm": 0.5743004679679871,
      "learning_rate": 3.3630849092661e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 1565752,
      "step": 2520
    },
    {
      "epoch": 4.500891265597148,
      "grad_norm": 0.527409553527832,
      "learning_rate": 3.355781187251657e-05,
      "loss": 0.1778,
      "num_input_tokens_seen": 1568600,
      "step": 2525
    },
    {
      "epoch": 4.508021390374331,
      "eval_loss": 0.2118549942970276,
      "eval_runtime": 4.2596,
      "eval_samples_per_second": 58.457,
      "eval_steps_per_second": 14.79,
      "num_input_tokens_seen": 1570936,
      "step": 2529
    },
    {
      "epoch": 4.509803921568627,
      "grad_norm": 0.39879217743873596,
      "learning_rate": 3.3484691821659584e-05,
      "loss": 0.1747,
      "num_input_tokens_seen": 1571512,
      "step": 2530
    },
    {
      "epoch": 4.518716577540107,
      "grad_norm": 0.5035882592201233,
      "learning_rate": 3.3411489647816016e-05,
      "loss": 0.1871,
      "num_input_tokens_seen": 1574232,
      "step": 2535
    },
    {
      "epoch": 4.527629233511586,
      "grad_norm": 1.1074864864349365,
      "learning_rate": 3.3338206059506736e-05,
      "loss": 0.2403,
      "num_input_tokens_seen": 1577816,
      "step": 2540
    },
    {
      "epoch": 4.536541889483066,
      "grad_norm": 0.8603164553642273,
      "learning_rate": 3.326484176604061e-05,
      "loss": 0.2662,
      "num_input_tokens_seen": 1581368,
      "step": 2545
    },
    {
      "epoch": 4.545454545454545,
      "grad_norm": 0.43185243010520935,
      "learning_rate": 3.3191397477507655e-05,
      "loss": 0.1828,
      "num_input_tokens_seen": 1583800,
      "step": 2550
    },
    {
      "epoch": 4.554367201426025,
      "grad_norm": 0.397795170545578,
      "learning_rate": 3.3117873904772123e-05,
      "loss": 0.206,
      "num_input_tokens_seen": 1587384,
      "step": 2555
    },
    {
      "epoch": 4.563279857397505,
      "grad_norm": 0.7756383419036865,
      "learning_rate": 3.30442717594657e-05,
      "loss": 0.1919,
      "num_input_tokens_seen": 1590328,
      "step": 2560
    },
    {
      "epoch": 4.572192513368984,
      "grad_norm": 0.7332653999328613,
      "learning_rate": 3.297059175398056e-05,
      "loss": 0.2376,
      "num_input_tokens_seen": 1594136,
      "step": 2565
    },
    {
      "epoch": 4.581105169340463,
      "grad_norm": 0.541881799697876,
      "learning_rate": 3.289683460146244e-05,
      "loss": 0.1923,
      "num_input_tokens_seen": 1597656,
      "step": 2570
    },
    {
      "epoch": 4.590017825311943,
      "grad_norm": 0.48139122128486633,
      "learning_rate": 3.282300101580386e-05,
      "loss": 0.198,
      "num_input_tokens_seen": 1600536,
      "step": 2575
    },
    {
      "epoch": 4.598930481283422,
      "grad_norm": 0.7859025001525879,
      "learning_rate": 3.274909171163706e-05,
      "loss": 0.1965,
      "num_input_tokens_seen": 1603832,
      "step": 2580
    },
    {
      "epoch": 4.607843137254902,
      "grad_norm": 0.8468954563140869,
      "learning_rate": 3.2675107404327194e-05,
      "loss": 0.1882,
      "num_input_tokens_seen": 1607480,
      "step": 2585
    },
    {
      "epoch": 4.616755793226382,
      "grad_norm": 0.6784586310386658,
      "learning_rate": 3.2601048809965355e-05,
      "loss": 0.187,
      "num_input_tokens_seen": 1610296,
      "step": 2590
    },
    {
      "epoch": 4.625668449197861,
      "grad_norm": 0.4848667085170746,
      "learning_rate": 3.2526916645361666e-05,
      "loss": 0.1797,
      "num_input_tokens_seen": 1613336,
      "step": 2595
    },
    {
      "epoch": 4.634581105169341,
      "grad_norm": 0.4509483575820923,
      "learning_rate": 3.2452711628038324e-05,
      "loss": 0.159,
      "num_input_tokens_seen": 1616152,
      "step": 2600
    },
    {
      "epoch": 4.64349376114082,
      "grad_norm": 0.9891667366027832,
      "learning_rate": 3.2378434476222666e-05,
      "loss": 0.2153,
      "num_input_tokens_seen": 1620024,
      "step": 2605
    },
    {
      "epoch": 4.652406417112299,
      "grad_norm": 0.45274657011032104,
      "learning_rate": 3.2304085908840244e-05,
      "loss": 0.1975,
      "num_input_tokens_seen": 1623544,
      "step": 2610
    },
    {
      "epoch": 4.661319073083779,
      "grad_norm": 0.5668216943740845,
      "learning_rate": 3.222966664550777e-05,
      "loss": 0.1748,
      "num_input_tokens_seen": 1626296,
      "step": 2615
    },
    {
      "epoch": 4.670231729055258,
      "grad_norm": 0.6975745558738708,
      "learning_rate": 3.2155177406526304e-05,
      "loss": 0.1868,
      "num_input_tokens_seen": 1629336,
      "step": 2620
    },
    {
      "epoch": 4.6791443850267385,
      "grad_norm": 0.7208099961280823,
      "learning_rate": 3.208061891287414e-05,
      "loss": 0.214,
      "num_input_tokens_seen": 1632888,
      "step": 2625
    },
    {
      "epoch": 4.688057040998218,
      "grad_norm": 0.41192349791526794,
      "learning_rate": 3.200599188619989e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 1635768,
      "step": 2630
    },
    {
      "epoch": 4.696969696969697,
      "grad_norm": 1.2426398992538452,
      "learning_rate": 3.1931297048815534e-05,
      "loss": 0.2339,
      "num_input_tokens_seen": 1639256,
      "step": 2635
    },
    {
      "epoch": 4.705882352941177,
      "grad_norm": 0.4843774735927582,
      "learning_rate": 3.185653512368933e-05,
      "loss": 0.2591,
      "num_input_tokens_seen": 1643128,
      "step": 2640
    },
    {
      "epoch": 4.714795008912656,
      "grad_norm": 0.6016537547111511,
      "learning_rate": 3.178170683443893e-05,
      "loss": 0.1748,
      "num_input_tokens_seen": 1646424,
      "step": 2645
    },
    {
      "epoch": 4.723707664884135,
      "grad_norm": 0.5028678178787231,
      "learning_rate": 3.1706812905324276e-05,
      "loss": 0.1844,
      "num_input_tokens_seen": 1649240,
      "step": 2650
    },
    {
      "epoch": 4.732620320855615,
      "grad_norm": 0.694146454334259,
      "learning_rate": 3.1631854061240684e-05,
      "loss": 0.1668,
      "num_input_tokens_seen": 1652184,
      "step": 2655
    },
    {
      "epoch": 4.741532976827094,
      "grad_norm": 0.6105802655220032,
      "learning_rate": 3.155683102771173e-05,
      "loss": 0.2189,
      "num_input_tokens_seen": 1655480,
      "step": 2660
    },
    {
      "epoch": 4.750445632798574,
      "grad_norm": 0.8289818167686462,
      "learning_rate": 3.1481744530882305e-05,
      "loss": 0.2437,
      "num_input_tokens_seen": 1659352,
      "step": 2665
    },
    {
      "epoch": 4.759358288770054,
      "grad_norm": 0.5131431221961975,
      "learning_rate": 3.1406595297511566e-05,
      "loss": 0.1756,
      "num_input_tokens_seen": 1661976,
      "step": 2670
    },
    {
      "epoch": 4.768270944741533,
      "grad_norm": 0.6698647737503052,
      "learning_rate": 3.133138405496587e-05,
      "loss": 0.1713,
      "num_input_tokens_seen": 1664504,
      "step": 2675
    },
    {
      "epoch": 4.777183600713013,
      "grad_norm": 0.5975663065910339,
      "learning_rate": 3.125611153121178e-05,
      "loss": 0.1763,
      "num_input_tokens_seen": 1667288,
      "step": 2680
    },
    {
      "epoch": 4.786096256684492,
      "grad_norm": 0.5346847772598267,
      "learning_rate": 3.118077845480897e-05,
      "loss": 0.1686,
      "num_input_tokens_seen": 1670360,
      "step": 2685
    },
    {
      "epoch": 4.795008912655971,
      "grad_norm": 0.5491595268249512,
      "learning_rate": 3.110538555490324e-05,
      "loss": 0.1884,
      "num_input_tokens_seen": 1673624,
      "step": 2690
    },
    {
      "epoch": 4.803921568627451,
      "grad_norm": 0.35313117504119873,
      "learning_rate": 3.1029933561219375e-05,
      "loss": 0.1675,
      "num_input_tokens_seen": 1676440,
      "step": 2695
    },
    {
      "epoch": 4.81283422459893,
      "grad_norm": 0.5857532024383545,
      "learning_rate": 3.095442320405418e-05,
      "loss": 0.1637,
      "num_input_tokens_seen": 1679448,
      "step": 2700
    },
    {
      "epoch": 4.8217468805704105,
      "grad_norm": 0.6775690913200378,
      "learning_rate": 3.0878855214269293e-05,
      "loss": 0.1642,
      "num_input_tokens_seen": 1682520,
      "step": 2705
    },
    {
      "epoch": 4.83065953654189,
      "grad_norm": 0.5732465386390686,
      "learning_rate": 3.0803230323284225e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 1685656,
      "step": 2710
    },
    {
      "epoch": 4.839572192513369,
      "grad_norm": 1.1239274740219116,
      "learning_rate": 3.0727549263069224e-05,
      "loss": 0.2211,
      "num_input_tokens_seen": 1688856,
      "step": 2715
    },
    {
      "epoch": 4.848484848484849,
      "grad_norm": 0.8710312247276306,
      "learning_rate": 3.065181276613817e-05,
      "loss": 0.1483,
      "num_input_tokens_seen": 1691768,
      "step": 2720
    },
    {
      "epoch": 4.857397504456328,
      "grad_norm": 0.28014299273490906,
      "learning_rate": 3.057602156554155e-05,
      "loss": 0.1538,
      "num_input_tokens_seen": 1694488,
      "step": 2725
    },
    {
      "epoch": 4.866310160427807,
      "grad_norm": 0.5496522784233093,
      "learning_rate": 3.0500176394859293e-05,
      "loss": 0.2051,
      "num_input_tokens_seen": 1697752,
      "step": 2730
    },
    {
      "epoch": 4.875222816399287,
      "grad_norm": 0.673943817615509,
      "learning_rate": 3.042427798819373e-05,
      "loss": 0.1897,
      "num_input_tokens_seen": 1700408,
      "step": 2735
    },
    {
      "epoch": 4.884135472370766,
      "grad_norm": 0.7624504566192627,
      "learning_rate": 3.0348327080162435e-05,
      "loss": 0.1842,
      "num_input_tokens_seen": 1703512,
      "step": 2740
    },
    {
      "epoch": 4.893048128342246,
      "grad_norm": 0.5836613774299622,
      "learning_rate": 3.0272324405891172e-05,
      "loss": 0.1811,
      "num_input_tokens_seen": 1707032,
      "step": 2745
    },
    {
      "epoch": 4.901960784313726,
      "grad_norm": 0.6330267190933228,
      "learning_rate": 3.0196270701006706e-05,
      "loss": 0.1925,
      "num_input_tokens_seen": 1710328,
      "step": 2750
    },
    {
      "epoch": 4.910873440285205,
      "grad_norm": 0.764445960521698,
      "learning_rate": 3.012016670162977e-05,
      "loss": 0.1888,
      "num_input_tokens_seen": 1712632,
      "step": 2755
    },
    {
      "epoch": 4.919786096256685,
      "grad_norm": 0.3074583113193512,
      "learning_rate": 3.0044013144367866e-05,
      "loss": 0.2241,
      "num_input_tokens_seen": 1716344,
      "step": 2760
    },
    {
      "epoch": 4.928698752228164,
      "grad_norm": 0.4822777509689331,
      "learning_rate": 2.996781076630816e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 1718712,
      "step": 2765
    },
    {
      "epoch": 4.937611408199643,
      "grad_norm": 0.56252521276474,
      "learning_rate": 2.9891560305010392e-05,
      "loss": 0.1863,
      "num_input_tokens_seen": 1722328,
      "step": 2770
    },
    {
      "epoch": 4.946524064171123,
      "grad_norm": 0.5701931118965149,
      "learning_rate": 2.9815262498499657e-05,
      "loss": 0.2022,
      "num_input_tokens_seen": 1725464,
      "step": 2775
    },
    {
      "epoch": 4.955436720142602,
      "grad_norm": 0.6118953227996826,
      "learning_rate": 2.9738918085259314e-05,
      "loss": 0.1703,
      "num_input_tokens_seen": 1728472,
      "step": 2780
    },
    {
      "epoch": 4.9643493761140824,
      "grad_norm": 0.43155810236930847,
      "learning_rate": 2.9662527804223827e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 1731160,
      "step": 2785
    },
    {
      "epoch": 4.973262032085562,
      "grad_norm": 0.622303307056427,
      "learning_rate": 2.9586092394771637e-05,
      "loss": 0.2174,
      "num_input_tokens_seen": 1734264,
      "step": 2790
    },
    {
      "epoch": 4.982174688057041,
      "grad_norm": 0.592126727104187,
      "learning_rate": 2.950961259671793e-05,
      "loss": 0.1573,
      "num_input_tokens_seen": 1737144,
      "step": 2795
    },
    {
      "epoch": 4.991087344028521,
      "grad_norm": 0.4473949372768402,
      "learning_rate": 2.943308915030757e-05,
      "loss": 0.1619,
      "num_input_tokens_seen": 1740664,
      "step": 2800
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.4496628046035767,
      "learning_rate": 2.935652279620788e-05,
      "loss": 0.194,
      "num_input_tokens_seen": 1743216,
      "step": 2805
    },
    {
      "epoch": 5.008912655971479,
      "grad_norm": 0.5206677913665771,
      "learning_rate": 2.9279914275501473e-05,
      "loss": 0.2055,
      "num_input_tokens_seen": 1746384,
      "step": 2810
    },
    {
      "epoch": 5.008912655971479,
      "eval_loss": 0.19685669243335724,
      "eval_runtime": 4.2355,
      "eval_samples_per_second": 58.788,
      "eval_steps_per_second": 14.874,
      "num_input_tokens_seen": 1746384,
      "step": 2810
    },
    {
      "epoch": 5.017825311942959,
      "grad_norm": 0.46784770488739014,
      "learning_rate": 2.9203264329679115e-05,
      "loss": 0.1835,
      "num_input_tokens_seen": 1749680,
      "step": 2815
    },
    {
      "epoch": 5.026737967914438,
      "grad_norm": 0.9836930632591248,
      "learning_rate": 2.9126573700632504e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 1753104,
      "step": 2820
    },
    {
      "epoch": 5.035650623885918,
      "grad_norm": 0.48144713044166565,
      "learning_rate": 2.9049843130647112e-05,
      "loss": 0.1857,
      "num_input_tokens_seen": 1756112,
      "step": 2825
    },
    {
      "epoch": 5.044563279857398,
      "grad_norm": 0.49128931760787964,
      "learning_rate": 2.8973073362394998e-05,
      "loss": 0.1802,
      "num_input_tokens_seen": 1759344,
      "step": 2830
    },
    {
      "epoch": 5.053475935828877,
      "grad_norm": 0.4599247872829437,
      "learning_rate": 2.8896265138927638e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 1762288,
      "step": 2835
    },
    {
      "epoch": 5.062388591800357,
      "grad_norm": 0.4987725615501404,
      "learning_rate": 2.881941920366868e-05,
      "loss": 0.1583,
      "num_input_tokens_seen": 1765072,
      "step": 2840
    },
    {
      "epoch": 5.071301247771836,
      "grad_norm": 0.4939536452293396,
      "learning_rate": 2.8742536300406804e-05,
      "loss": 0.2022,
      "num_input_tokens_seen": 1767952,
      "step": 2845
    },
    {
      "epoch": 5.080213903743315,
      "grad_norm": 0.2937607765197754,
      "learning_rate": 2.8665617173288516e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 1770896,
      "step": 2850
    },
    {
      "epoch": 5.089126559714795,
      "grad_norm": 0.6866093277931213,
      "learning_rate": 2.8588662566810893e-05,
      "loss": 0.1683,
      "num_input_tokens_seen": 1773840,
      "step": 2855
    },
    {
      "epoch": 5.098039215686274,
      "grad_norm": 0.5026021003723145,
      "learning_rate": 2.851167322581445e-05,
      "loss": 0.1924,
      "num_input_tokens_seen": 1776720,
      "step": 2860
    },
    {
      "epoch": 5.106951871657754,
      "grad_norm": 0.5058155059814453,
      "learning_rate": 2.8434649895475877e-05,
      "loss": 0.1572,
      "num_input_tokens_seen": 1779088,
      "step": 2865
    },
    {
      "epoch": 5.115864527629234,
      "grad_norm": 0.47404804825782776,
      "learning_rate": 2.8357593321300856e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 1781776,
      "step": 2870
    },
    {
      "epoch": 5.124777183600713,
      "grad_norm": 0.5163501501083374,
      "learning_rate": 2.828050424911683e-05,
      "loss": 0.1685,
      "num_input_tokens_seen": 1784720,
      "step": 2875
    },
    {
      "epoch": 5.133689839572193,
      "grad_norm": 0.6680046319961548,
      "learning_rate": 2.8203383425065787e-05,
      "loss": 0.1854,
      "num_input_tokens_seen": 1787856,
      "step": 2880
    },
    {
      "epoch": 5.142602495543672,
      "grad_norm": 0.47441810369491577,
      "learning_rate": 2.812623159559704e-05,
      "loss": 0.1793,
      "num_input_tokens_seen": 1791088,
      "step": 2885
    },
    {
      "epoch": 5.151515151515151,
      "grad_norm": 0.4247751533985138,
      "learning_rate": 2.8049049507460003e-05,
      "loss": 0.2227,
      "num_input_tokens_seen": 1795056,
      "step": 2890
    },
    {
      "epoch": 5.160427807486631,
      "grad_norm": 0.4086715281009674,
      "learning_rate": 2.7971837907696973e-05,
      "loss": 0.2894,
      "num_input_tokens_seen": 1798928,
      "step": 2895
    },
    {
      "epoch": 5.16934046345811,
      "grad_norm": 0.48060083389282227,
      "learning_rate": 2.7894597543635863e-05,
      "loss": 0.1778,
      "num_input_tokens_seen": 1802384,
      "step": 2900
    },
    {
      "epoch": 5.17825311942959,
      "grad_norm": 0.5457305312156677,
      "learning_rate": 2.781732916288303e-05,
      "loss": 0.1873,
      "num_input_tokens_seen": 1805616,
      "step": 2905
    },
    {
      "epoch": 5.18716577540107,
      "grad_norm": 0.7138332724571228,
      "learning_rate": 2.774003351331597e-05,
      "loss": 0.1532,
      "num_input_tokens_seen": 1809008,
      "step": 2910
    },
    {
      "epoch": 5.196078431372549,
      "grad_norm": 0.5133665204048157,
      "learning_rate": 2.7662711343076135e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 1812784,
      "step": 2915
    },
    {
      "epoch": 5.204991087344029,
      "grad_norm": 0.48487603664398193,
      "learning_rate": 2.7585363400561658e-05,
      "loss": 0.155,
      "num_input_tokens_seen": 1815248,
      "step": 2920
    },
    {
      "epoch": 5.213903743315508,
      "grad_norm": 0.5267552137374878,
      "learning_rate": 2.7507990434420126e-05,
      "loss": 0.186,
      "num_input_tokens_seen": 1818032,
      "step": 2925
    },
    {
      "epoch": 5.222816399286987,
      "grad_norm": 0.45045390725135803,
      "learning_rate": 2.7430593193541325e-05,
      "loss": 0.1804,
      "num_input_tokens_seen": 1821232,
      "step": 2930
    },
    {
      "epoch": 5.231729055258467,
      "grad_norm": 0.5850667953491211,
      "learning_rate": 2.7353172427049995e-05,
      "loss": 0.2057,
      "num_input_tokens_seen": 1824784,
      "step": 2935
    },
    {
      "epoch": 5.240641711229946,
      "grad_norm": 0.4316384792327881,
      "learning_rate": 2.7275728884298596e-05,
      "loss": 0.1754,
      "num_input_tokens_seen": 1827088,
      "step": 2940
    },
    {
      "epoch": 5.249554367201426,
      "grad_norm": 0.350407212972641,
      "learning_rate": 2.719826331486e-05,
      "loss": 0.1627,
      "num_input_tokens_seen": 1829328,
      "step": 2945
    },
    {
      "epoch": 5.258467023172906,
      "grad_norm": 0.6626913547515869,
      "learning_rate": 2.7120776468520314e-05,
      "loss": 0.2147,
      "num_input_tokens_seen": 1833136,
      "step": 2950
    },
    {
      "epoch": 5.267379679144385,
      "grad_norm": 0.711764931678772,
      "learning_rate": 2.7043269095271573e-05,
      "loss": 0.185,
      "num_input_tokens_seen": 1835632,
      "step": 2955
    },
    {
      "epoch": 5.276292335115865,
      "grad_norm": 0.5972061157226562,
      "learning_rate": 2.6965741945304467e-05,
      "loss": 0.199,
      "num_input_tokens_seen": 1838992,
      "step": 2960
    },
    {
      "epoch": 5.285204991087344,
      "grad_norm": 0.9157897233963013,
      "learning_rate": 2.6888195769001146e-05,
      "loss": 0.1782,
      "num_input_tokens_seen": 1841840,
      "step": 2965
    },
    {
      "epoch": 5.294117647058823,
      "grad_norm": 0.4935537874698639,
      "learning_rate": 2.681063131692787e-05,
      "loss": 0.1843,
      "num_input_tokens_seen": 1844560,
      "step": 2970
    },
    {
      "epoch": 5.303030303030303,
      "grad_norm": 0.5020252466201782,
      "learning_rate": 2.673304933982783e-05,
      "loss": 0.1891,
      "num_input_tokens_seen": 1848624,
      "step": 2975
    },
    {
      "epoch": 5.311942959001782,
      "grad_norm": 0.5348985195159912,
      "learning_rate": 2.6655450588613806e-05,
      "loss": 0.1925,
      "num_input_tokens_seen": 1851952,
      "step": 2980
    },
    {
      "epoch": 5.320855614973262,
      "grad_norm": 0.42828452587127686,
      "learning_rate": 2.657783581436097e-05,
      "loss": 0.2381,
      "num_input_tokens_seen": 1855696,
      "step": 2985
    },
    {
      "epoch": 5.329768270944742,
      "grad_norm": 0.6298767328262329,
      "learning_rate": 2.6500205768299535e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 1859408,
      "step": 2990
    },
    {
      "epoch": 5.338680926916221,
      "grad_norm": 0.6732975244522095,
      "learning_rate": 2.642256120180758e-05,
      "loss": 0.1508,
      "num_input_tokens_seen": 1861936,
      "step": 2995
    },
    {
      "epoch": 5.347593582887701,
      "grad_norm": 0.6173202991485596,
      "learning_rate": 2.6344902866403687e-05,
      "loss": 0.1724,
      "num_input_tokens_seen": 1864624,
      "step": 3000
    },
    {
      "epoch": 5.35650623885918,
      "grad_norm": 0.4392896890640259,
      "learning_rate": 2.6267231513739726e-05,
      "loss": 0.2092,
      "num_input_tokens_seen": 1867600,
      "step": 3005
    },
    {
      "epoch": 5.365418894830659,
      "grad_norm": 0.621001660823822,
      "learning_rate": 2.6189547895593562e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 1870672,
      "step": 3010
    },
    {
      "epoch": 5.374331550802139,
      "grad_norm": 0.5161955952644348,
      "learning_rate": 2.611185276386176e-05,
      "loss": 0.1923,
      "num_input_tokens_seen": 1874160,
      "step": 3015
    },
    {
      "epoch": 5.383244206773618,
      "grad_norm": 0.5126301050186157,
      "learning_rate": 2.6034146870552346e-05,
      "loss": 0.1906,
      "num_input_tokens_seen": 1877616,
      "step": 3020
    },
    {
      "epoch": 5.392156862745098,
      "grad_norm": 0.6807987093925476,
      "learning_rate": 2.595643096777748e-05,
      "loss": 0.1862,
      "num_input_tokens_seen": 1880432,
      "step": 3025
    },
    {
      "epoch": 5.401069518716578,
      "grad_norm": 0.6361598372459412,
      "learning_rate": 2.5878705807746245e-05,
      "loss": 0.2137,
      "num_input_tokens_seen": 1884528,
      "step": 3030
    },
    {
      "epoch": 5.409982174688057,
      "grad_norm": 0.6302884221076965,
      "learning_rate": 2.580097214275727e-05,
      "loss": 0.1688,
      "num_input_tokens_seen": 1887152,
      "step": 3035
    },
    {
      "epoch": 5.418894830659537,
      "grad_norm": 0.5410829186439514,
      "learning_rate": 2.5723230725191554e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 1890032,
      "step": 3040
    },
    {
      "epoch": 5.427807486631016,
      "grad_norm": 0.5092021822929382,
      "learning_rate": 2.5645482307505108e-05,
      "loss": 0.1677,
      "num_input_tokens_seen": 1892304,
      "step": 3045
    },
    {
      "epoch": 5.436720142602495,
      "grad_norm": 0.7809433937072754,
      "learning_rate": 2.55677276422217e-05,
      "loss": 0.1875,
      "num_input_tokens_seen": 1895728,
      "step": 3050
    },
    {
      "epoch": 5.445632798573975,
      "grad_norm": 0.43497583270072937,
      "learning_rate": 2.548996748192556e-05,
      "loss": 0.167,
      "num_input_tokens_seen": 1898384,
      "step": 3055
    },
    {
      "epoch": 5.454545454545454,
      "grad_norm": 0.36343979835510254,
      "learning_rate": 2.541220257925412e-05,
      "loss": 0.1719,
      "num_input_tokens_seen": 1901104,
      "step": 3060
    },
    {
      "epoch": 5.463458110516934,
      "grad_norm": 0.6379041075706482,
      "learning_rate": 2.5334433686890702e-05,
      "loss": 0.1879,
      "num_input_tokens_seen": 1904976,
      "step": 3065
    },
    {
      "epoch": 5.472370766488414,
      "grad_norm": 0.501068651676178,
      "learning_rate": 2.5256661557557247e-05,
      "loss": 0.1898,
      "num_input_tokens_seen": 1908688,
      "step": 3070
    },
    {
      "epoch": 5.481283422459893,
      "grad_norm": 0.4064844250679016,
      "learning_rate": 2.517888694400704e-05,
      "loss": 0.1471,
      "num_input_tokens_seen": 1911792,
      "step": 3075
    },
    {
      "epoch": 5.490196078431373,
      "grad_norm": 0.7375326156616211,
      "learning_rate": 2.5101110599017374e-05,
      "loss": 0.223,
      "num_input_tokens_seen": 1915248,
      "step": 3080
    },
    {
      "epoch": 5.499108734402852,
      "grad_norm": 0.7120162844657898,
      "learning_rate": 2.502333327538235e-05,
      "loss": 0.1666,
      "num_input_tokens_seen": 1918544,
      "step": 3085
    },
    {
      "epoch": 5.508021390374331,
      "grad_norm": 0.4658108353614807,
      "learning_rate": 2.4945555725905502e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 1922032,
      "step": 3090
    },
    {
      "epoch": 5.509803921568627,
      "eval_loss": 0.19006255269050598,
      "eval_runtime": 4.2606,
      "eval_samples_per_second": 58.442,
      "eval_steps_per_second": 14.787,
      "num_input_tokens_seen": 1922384,
      "step": 3091
    },
    {
      "epoch": 5.516934046345811,
      "grad_norm": 0.6522291898727417,
      "learning_rate": 2.4867778703392554e-05,
      "loss": 0.1586,
      "num_input_tokens_seen": 1924400,
      "step": 3095
    },
    {
      "epoch": 5.52584670231729,
      "grad_norm": 0.5256299376487732,
      "learning_rate": 2.479000296064417e-05,
      "loss": 0.2169,
      "num_input_tokens_seen": 1927376,
      "step": 3100
    },
    {
      "epoch": 5.53475935828877,
      "grad_norm": 0.5868116021156311,
      "learning_rate": 2.4712229250448567e-05,
      "loss": 0.1768,
      "num_input_tokens_seen": 1930352,
      "step": 3105
    },
    {
      "epoch": 5.54367201426025,
      "grad_norm": 0.6082111597061157,
      "learning_rate": 2.4634458325574323e-05,
      "loss": 0.2153,
      "num_input_tokens_seen": 1933680,
      "step": 3110
    },
    {
      "epoch": 5.552584670231729,
      "grad_norm": 0.5021962523460388,
      "learning_rate": 2.4556690938763062e-05,
      "loss": 0.1667,
      "num_input_tokens_seen": 1937488,
      "step": 3115
    },
    {
      "epoch": 5.561497326203209,
      "grad_norm": 0.5544887781143188,
      "learning_rate": 2.4478927842722154e-05,
      "loss": 0.1854,
      "num_input_tokens_seen": 1940368,
      "step": 3120
    },
    {
      "epoch": 5.570409982174688,
      "grad_norm": 0.6153222322463989,
      "learning_rate": 2.4401169790117427e-05,
      "loss": 0.1775,
      "num_input_tokens_seen": 1943728,
      "step": 3125
    },
    {
      "epoch": 5.579322638146167,
      "grad_norm": 0.7217985987663269,
      "learning_rate": 2.4323417533565916e-05,
      "loss": 0.1929,
      "num_input_tokens_seen": 1946832,
      "step": 3130
    },
    {
      "epoch": 5.588235294117647,
      "grad_norm": 0.5232107639312744,
      "learning_rate": 2.424567182562854e-05,
      "loss": 0.205,
      "num_input_tokens_seen": 1949904,
      "step": 3135
    },
    {
      "epoch": 5.597147950089127,
      "grad_norm": 0.5853015184402466,
      "learning_rate": 2.4167933418802837e-05,
      "loss": 0.1431,
      "num_input_tokens_seen": 1952432,
      "step": 3140
    },
    {
      "epoch": 5.606060606060606,
      "grad_norm": 0.7414368391036987,
      "learning_rate": 2.4090203065515695e-05,
      "loss": 0.1622,
      "num_input_tokens_seen": 1955216,
      "step": 3145
    },
    {
      "epoch": 5.614973262032086,
      "grad_norm": 0.4388047456741333,
      "learning_rate": 2.4012481518116022e-05,
      "loss": 0.1707,
      "num_input_tokens_seen": 1958096,
      "step": 3150
    },
    {
      "epoch": 5.623885918003565,
      "grad_norm": 0.5946722626686096,
      "learning_rate": 2.3934769528867513e-05,
      "loss": 0.198,
      "num_input_tokens_seen": 1961456,
      "step": 3155
    },
    {
      "epoch": 5.632798573975045,
      "grad_norm": 0.4028293192386627,
      "learning_rate": 2.385706784994135e-05,
      "loss": 0.162,
      "num_input_tokens_seen": 1964272,
      "step": 3160
    },
    {
      "epoch": 5.641711229946524,
      "grad_norm": 0.4915693700313568,
      "learning_rate": 2.3779377233408923e-05,
      "loss": 0.192,
      "num_input_tokens_seen": 1967120,
      "step": 3165
    },
    {
      "epoch": 5.650623885918003,
      "grad_norm": 0.4452253580093384,
      "learning_rate": 2.3701698431234528e-05,
      "loss": 0.1601,
      "num_input_tokens_seen": 1969872,
      "step": 3170
    },
    {
      "epoch": 5.659536541889483,
      "grad_norm": 0.5284585356712341,
      "learning_rate": 2.362403219526815e-05,
      "loss": 0.1605,
      "num_input_tokens_seen": 1972944,
      "step": 3175
    },
    {
      "epoch": 5.668449197860962,
      "grad_norm": 0.48784369230270386,
      "learning_rate": 2.3546379277238107e-05,
      "loss": 0.1533,
      "num_input_tokens_seen": 1975888,
      "step": 3180
    },
    {
      "epoch": 5.677361853832442,
      "grad_norm": 0.5844167470932007,
      "learning_rate": 2.3468740428743833e-05,
      "loss": 0.1903,
      "num_input_tokens_seen": 1979088,
      "step": 3185
    },
    {
      "epoch": 5.686274509803922,
      "grad_norm": 0.6798781752586365,
      "learning_rate": 2.339111640124859e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 1981520,
      "step": 3190
    },
    {
      "epoch": 5.695187165775401,
      "grad_norm": 0.8696448802947998,
      "learning_rate": 2.3313507946072172e-05,
      "loss": 0.1648,
      "num_input_tokens_seen": 1984880,
      "step": 3195
    },
    {
      "epoch": 5.704099821746881,
      "grad_norm": 0.4180395007133484,
      "learning_rate": 2.323591581438365e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 1987440,
      "step": 3200
    },
    {
      "epoch": 5.71301247771836,
      "grad_norm": 0.6146518588066101,
      "learning_rate": 2.3158340757194116e-05,
      "loss": 0.1963,
      "num_input_tokens_seen": 1990640,
      "step": 3205
    },
    {
      "epoch": 5.721925133689839,
      "grad_norm": 0.8348390460014343,
      "learning_rate": 2.3080783525349388e-05,
      "loss": 0.1653,
      "num_input_tokens_seen": 1993808,
      "step": 3210
    },
    {
      "epoch": 5.730837789661319,
      "grad_norm": 0.7081406712532043,
      "learning_rate": 2.3003244869522743e-05,
      "loss": 0.1779,
      "num_input_tokens_seen": 1996688,
      "step": 3215
    },
    {
      "epoch": 5.739750445632799,
      "grad_norm": 0.5054243206977844,
      "learning_rate": 2.2925725540207688e-05,
      "loss": 0.1565,
      "num_input_tokens_seen": 1999696,
      "step": 3220
    },
    {
      "epoch": 5.748663101604278,
      "grad_norm": 0.5454304814338684,
      "learning_rate": 2.2848226287710645e-05,
      "loss": 0.1536,
      "num_input_tokens_seen": 2002032,
      "step": 3225
    },
    {
      "epoch": 5.757575757575758,
      "grad_norm": 0.6999877095222473,
      "learning_rate": 2.277074786214372e-05,
      "loss": 0.1683,
      "num_input_tokens_seen": 2005584,
      "step": 3230
    },
    {
      "epoch": 5.766488413547237,
      "grad_norm": 0.765386164188385,
      "learning_rate": 2.2693291013417453e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 2008176,
      "step": 3235
    },
    {
      "epoch": 5.775401069518717,
      "grad_norm": 0.7968612909317017,
      "learning_rate": 2.2615856491233513e-05,
      "loss": 0.3207,
      "num_input_tokens_seen": 2011376,
      "step": 3240
    },
    {
      "epoch": 5.784313725490196,
      "grad_norm": 0.3482127785682678,
      "learning_rate": 2.2538445045077488e-05,
      "loss": 0.1455,
      "num_input_tokens_seen": 2014224,
      "step": 3245
    },
    {
      "epoch": 5.793226381461675,
      "grad_norm": 0.5806959271430969,
      "learning_rate": 2.246105742421162e-05,
      "loss": 0.1741,
      "num_input_tokens_seen": 2016912,
      "step": 3250
    },
    {
      "epoch": 5.802139037433155,
      "grad_norm": 0.7654284834861755,
      "learning_rate": 2.2383694377667543e-05,
      "loss": 0.1575,
      "num_input_tokens_seen": 2020048,
      "step": 3255
    },
    {
      "epoch": 5.811051693404634,
      "grad_norm": 0.642106831073761,
      "learning_rate": 2.2306356654239012e-05,
      "loss": 0.1756,
      "num_input_tokens_seen": 2023216,
      "step": 3260
    },
    {
      "epoch": 5.819964349376114,
      "grad_norm": 0.43349790573120117,
      "learning_rate": 2.222904500247473e-05,
      "loss": 0.1924,
      "num_input_tokens_seen": 2026928,
      "step": 3265
    },
    {
      "epoch": 5.828877005347594,
      "grad_norm": 0.4377082884311676,
      "learning_rate": 2.2151760170671004e-05,
      "loss": 0.1696,
      "num_input_tokens_seen": 2029584,
      "step": 3270
    },
    {
      "epoch": 5.837789661319073,
      "grad_norm": 0.40771257877349854,
      "learning_rate": 2.207450290686458e-05,
      "loss": 0.1603,
      "num_input_tokens_seen": 2032720,
      "step": 3275
    },
    {
      "epoch": 5.846702317290553,
      "grad_norm": 0.5143370628356934,
      "learning_rate": 2.1997273958825375e-05,
      "loss": 0.1845,
      "num_input_tokens_seen": 2036176,
      "step": 3280
    },
    {
      "epoch": 5.855614973262032,
      "grad_norm": 0.5394704341888428,
      "learning_rate": 2.1920074074049225e-05,
      "loss": 0.1801,
      "num_input_tokens_seen": 2039632,
      "step": 3285
    },
    {
      "epoch": 5.864527629233511,
      "grad_norm": 0.6020737290382385,
      "learning_rate": 2.1842903999750665e-05,
      "loss": 0.1862,
      "num_input_tokens_seen": 2043184,
      "step": 3290
    },
    {
      "epoch": 5.873440285204991,
      "grad_norm": 0.7539795637130737,
      "learning_rate": 2.1765764482855715e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 2046416,
      "step": 3295
    },
    {
      "epoch": 5.882352941176471,
      "grad_norm": 0.6914777755737305,
      "learning_rate": 2.1688656269994612e-05,
      "loss": 0.1768,
      "num_input_tokens_seen": 2049008,
      "step": 3300
    },
    {
      "epoch": 5.89126559714795,
      "grad_norm": 1.2212262153625488,
      "learning_rate": 2.1611580107494597e-05,
      "loss": 0.1982,
      "num_input_tokens_seen": 2052656,
      "step": 3305
    },
    {
      "epoch": 5.90017825311943,
      "grad_norm": 0.5432605743408203,
      "learning_rate": 2.153453674137272e-05,
      "loss": 0.1885,
      "num_input_tokens_seen": 2055888,
      "step": 3310
    },
    {
      "epoch": 5.909090909090909,
      "grad_norm": 0.5268386006355286,
      "learning_rate": 2.1457526917328588e-05,
      "loss": 0.1492,
      "num_input_tokens_seen": 2059056,
      "step": 3315
    },
    {
      "epoch": 5.918003565062389,
      "grad_norm": 0.8248959183692932,
      "learning_rate": 2.1380551380737128e-05,
      "loss": 0.1755,
      "num_input_tokens_seen": 2062096,
      "step": 3320
    },
    {
      "epoch": 5.926916221033868,
      "grad_norm": 0.5520910024642944,
      "learning_rate": 2.130361087664145e-05,
      "loss": 0.1899,
      "num_input_tokens_seen": 2065168,
      "step": 3325
    },
    {
      "epoch": 5.935828877005347,
      "grad_norm": 0.5292351841926575,
      "learning_rate": 2.122670614974555e-05,
      "loss": 0.1983,
      "num_input_tokens_seen": 2067856,
      "step": 3330
    },
    {
      "epoch": 5.944741532976827,
      "grad_norm": 0.8153255581855774,
      "learning_rate": 2.1149837944407136e-05,
      "loss": 0.1517,
      "num_input_tokens_seen": 2071056,
      "step": 3335
    },
    {
      "epoch": 5.953654188948306,
      "grad_norm": 0.7868825197219849,
      "learning_rate": 2.107300700463045e-05,
      "loss": 0.193,
      "num_input_tokens_seen": 2074192,
      "step": 3340
    },
    {
      "epoch": 5.962566844919786,
      "grad_norm": 0.39180079102516174,
      "learning_rate": 2.0996214074059034e-05,
      "loss": 0.166,
      "num_input_tokens_seen": 2077040,
      "step": 3345
    },
    {
      "epoch": 5.971479500891266,
      "grad_norm": 0.5239204168319702,
      "learning_rate": 2.0919459895968517e-05,
      "loss": 0.1395,
      "num_input_tokens_seen": 2079312,
      "step": 3350
    },
    {
      "epoch": 5.980392156862745,
      "grad_norm": 0.4734959304332733,
      "learning_rate": 2.084274521325948e-05,
      "loss": 0.1701,
      "num_input_tokens_seen": 2082864,
      "step": 3355
    },
    {
      "epoch": 5.989304812834225,
      "grad_norm": 0.6230949759483337,
      "learning_rate": 2.0766070768450206e-05,
      "loss": 0.1928,
      "num_input_tokens_seen": 2085872,
      "step": 3360
    },
    {
      "epoch": 5.998217468805704,
      "grad_norm": 0.6036242246627808,
      "learning_rate": 2.0689437303669508e-05,
      "loss": 0.1673,
      "num_input_tokens_seen": 2088272,
      "step": 3365
    },
    {
      "epoch": 6.007130124777183,
      "grad_norm": 0.6001238822937012,
      "learning_rate": 2.0612845560649603e-05,
      "loss": 0.1752,
      "num_input_tokens_seen": 2091232,
      "step": 3370
    },
    {
      "epoch": 6.010695187165775,
      "eval_loss": 0.19044770300388336,
      "eval_runtime": 4.266,
      "eval_samples_per_second": 58.369,
      "eval_steps_per_second": 14.768,
      "num_input_tokens_seen": 2092320,
      "step": 3372
    },
    {
      "epoch": 6.016042780748663,
      "grad_norm": 0.9030793309211731,
      "learning_rate": 2.0536296280718825e-05,
      "loss": 0.1664,
      "num_input_tokens_seen": 2093952,
      "step": 3375
    },
    {
      "epoch": 6.024955436720143,
      "grad_norm": 0.6371573209762573,
      "learning_rate": 2.0459790204794545e-05,
      "loss": 0.1941,
      "num_input_tokens_seen": 2097728,
      "step": 3380
    },
    {
      "epoch": 6.033868092691622,
      "grad_norm": 0.4168316125869751,
      "learning_rate": 2.0383328073375955e-05,
      "loss": 0.2223,
      "num_input_tokens_seen": 2100736,
      "step": 3385
    },
    {
      "epoch": 6.042780748663102,
      "grad_norm": 0.8262919187545776,
      "learning_rate": 2.0306910626536926e-05,
      "loss": 0.1762,
      "num_input_tokens_seen": 2104032,
      "step": 3390
    },
    {
      "epoch": 6.051693404634581,
      "grad_norm": 0.482316255569458,
      "learning_rate": 2.0230538603918787e-05,
      "loss": 0.1594,
      "num_input_tokens_seen": 2107264,
      "step": 3395
    },
    {
      "epoch": 6.0606060606060606,
      "grad_norm": 1.0964471101760864,
      "learning_rate": 2.015421274472325e-05,
      "loss": 0.1881,
      "num_input_tokens_seen": 2110336,
      "step": 3400
    },
    {
      "epoch": 6.06951871657754,
      "grad_norm": 0.49298667907714844,
      "learning_rate": 2.0077933787705204e-05,
      "loss": 0.151,
      "num_input_tokens_seen": 2113248,
      "step": 3405
    },
    {
      "epoch": 6.078431372549019,
      "grad_norm": 0.6304886341094971,
      "learning_rate": 2.000170247116554e-05,
      "loss": 0.1657,
      "num_input_tokens_seen": 2116032,
      "step": 3410
    },
    {
      "epoch": 6.087344028520499,
      "grad_norm": 0.4530024230480194,
      "learning_rate": 1.9925519532944104e-05,
      "loss": 0.1692,
      "num_input_tokens_seen": 2118848,
      "step": 3415
    },
    {
      "epoch": 6.096256684491979,
      "grad_norm": 0.5926321744918823,
      "learning_rate": 1.9849385710412424e-05,
      "loss": 0.3085,
      "num_input_tokens_seen": 2122208,
      "step": 3420
    },
    {
      "epoch": 6.105169340463458,
      "grad_norm": 0.5866901874542236,
      "learning_rate": 1.977330174046667e-05,
      "loss": 0.1675,
      "num_input_tokens_seen": 2125248,
      "step": 3425
    },
    {
      "epoch": 6.114081996434938,
      "grad_norm": 0.35337719321250916,
      "learning_rate": 1.9697268359520506e-05,
      "loss": 0.2589,
      "num_input_tokens_seen": 2129248,
      "step": 3430
    },
    {
      "epoch": 6.122994652406417,
      "grad_norm": 0.4666219651699066,
      "learning_rate": 1.9621286303497915e-05,
      "loss": 0.1709,
      "num_input_tokens_seen": 2131904,
      "step": 3435
    },
    {
      "epoch": 6.1319073083778965,
      "grad_norm": 0.6858420372009277,
      "learning_rate": 1.954535630782612e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 2135552,
      "step": 3440
    },
    {
      "epoch": 6.140819964349376,
      "grad_norm": 0.41474148631095886,
      "learning_rate": 1.9469479107428463e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 2138688,
      "step": 3445
    },
    {
      "epoch": 6.149732620320855,
      "grad_norm": 0.60605388879776,
      "learning_rate": 1.9393655436717283e-05,
      "loss": 0.1506,
      "num_input_tokens_seen": 2141248,
      "step": 3450
    },
    {
      "epoch": 6.158645276292335,
      "grad_norm": 0.9076442122459412,
      "learning_rate": 1.9317886029586778e-05,
      "loss": 0.2039,
      "num_input_tokens_seen": 2144768,
      "step": 3455
    },
    {
      "epoch": 6.167557932263815,
      "grad_norm": 0.9373259544372559,
      "learning_rate": 1.9242171619405986e-05,
      "loss": 0.1797,
      "num_input_tokens_seen": 2147552,
      "step": 3460
    },
    {
      "epoch": 6.176470588235294,
      "grad_norm": 0.6851420998573303,
      "learning_rate": 1.916651293901157e-05,
      "loss": 0.1825,
      "num_input_tokens_seen": 2151040,
      "step": 3465
    },
    {
      "epoch": 6.185383244206774,
      "grad_norm": 0.6892784833908081,
      "learning_rate": 1.909091072070083e-05,
      "loss": 0.171,
      "num_input_tokens_seen": 2155040,
      "step": 3470
    },
    {
      "epoch": 6.194295900178253,
      "grad_norm": 0.6285828948020935,
      "learning_rate": 1.9015365696224564e-05,
      "loss": 0.158,
      "num_input_tokens_seen": 2157824,
      "step": 3475
    },
    {
      "epoch": 6.2032085561497325,
      "grad_norm": 0.5884494781494141,
      "learning_rate": 1.893987859677997e-05,
      "loss": 0.181,
      "num_input_tokens_seen": 2160672,
      "step": 3480
    },
    {
      "epoch": 6.212121212121212,
      "grad_norm": 0.7425735592842102,
      "learning_rate": 1.886445015300362e-05,
      "loss": 0.1473,
      "num_input_tokens_seen": 2163552,
      "step": 3485
    },
    {
      "epoch": 6.221033868092691,
      "grad_norm": 0.39105650782585144,
      "learning_rate": 1.8789081094964347e-05,
      "loss": 0.1441,
      "num_input_tokens_seen": 2167456,
      "step": 3490
    },
    {
      "epoch": 6.229946524064171,
      "grad_norm": 0.30422699451446533,
      "learning_rate": 1.8713772152156205e-05,
      "loss": 0.1294,
      "num_input_tokens_seen": 2170560,
      "step": 3495
    },
    {
      "epoch": 6.238859180035651,
      "grad_norm": 0.7964766621589661,
      "learning_rate": 1.863852405349135e-05,
      "loss": 0.1838,
      "num_input_tokens_seen": 2173152,
      "step": 3500
    },
    {
      "epoch": 6.24777183600713,
      "grad_norm": 0.6463519334793091,
      "learning_rate": 1.856333752729311e-05,
      "loss": 0.1637,
      "num_input_tokens_seen": 2175808,
      "step": 3505
    },
    {
      "epoch": 6.25668449197861,
      "grad_norm": 0.8007080554962158,
      "learning_rate": 1.848821330128878e-05,
      "loss": 0.1717,
      "num_input_tokens_seen": 2178304,
      "step": 3510
    },
    {
      "epoch": 6.265597147950089,
      "grad_norm": 1.0539445877075195,
      "learning_rate": 1.8413152102602687e-05,
      "loss": 0.1892,
      "num_input_tokens_seen": 2181312,
      "step": 3515
    },
    {
      "epoch": 6.2745098039215685,
      "grad_norm": 0.6273789405822754,
      "learning_rate": 1.8338154657749128e-05,
      "loss": 0.1699,
      "num_input_tokens_seen": 2184128,
      "step": 3520
    },
    {
      "epoch": 6.283422459893048,
      "grad_norm": 0.5192899703979492,
      "learning_rate": 1.826322169262531e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 2187584,
      "step": 3525
    },
    {
      "epoch": 6.292335115864527,
      "grad_norm": 0.6465858221054077,
      "learning_rate": 1.818835393250434e-05,
      "loss": 0.1814,
      "num_input_tokens_seen": 2191168,
      "step": 3530
    },
    {
      "epoch": 6.301247771836007,
      "grad_norm": 0.5996541380882263,
      "learning_rate": 1.8113552102028236e-05,
      "loss": 0.1888,
      "num_input_tokens_seen": 2194880,
      "step": 3535
    },
    {
      "epoch": 6.310160427807487,
      "grad_norm": 0.3005512058734894,
      "learning_rate": 1.803881692520087e-05,
      "loss": 0.1483,
      "num_input_tokens_seen": 2197184,
      "step": 3540
    },
    {
      "epoch": 6.319073083778966,
      "grad_norm": 0.4426136016845703,
      "learning_rate": 1.796414912538095e-05,
      "loss": 0.162,
      "num_input_tokens_seen": 2200160,
      "step": 3545
    },
    {
      "epoch": 6.327985739750446,
      "grad_norm": 0.7000912427902222,
      "learning_rate": 1.7889549425275093e-05,
      "loss": 0.1686,
      "num_input_tokens_seen": 2203776,
      "step": 3550
    },
    {
      "epoch": 6.336898395721925,
      "grad_norm": 0.5500680804252625,
      "learning_rate": 1.7815018546930754e-05,
      "loss": 0.1716,
      "num_input_tokens_seen": 2207104,
      "step": 3555
    },
    {
      "epoch": 6.3458110516934045,
      "grad_norm": 0.5378794074058533,
      "learning_rate": 1.7740557211729258e-05,
      "loss": 0.1653,
      "num_input_tokens_seen": 2210400,
      "step": 3560
    },
    {
      "epoch": 6.354723707664884,
      "grad_norm": 0.20100829005241394,
      "learning_rate": 1.7666166140378852e-05,
      "loss": 0.1604,
      "num_input_tokens_seen": 2213728,
      "step": 3565
    },
    {
      "epoch": 6.363636363636363,
      "grad_norm": 0.33214375376701355,
      "learning_rate": 1.7591846052907673e-05,
      "loss": 0.1524,
      "num_input_tokens_seen": 2216416,
      "step": 3570
    },
    {
      "epoch": 6.372549019607844,
      "grad_norm": 1.197052240371704,
      "learning_rate": 1.7517597668656823e-05,
      "loss": 0.1849,
      "num_input_tokens_seen": 2219328,
      "step": 3575
    },
    {
      "epoch": 6.381461675579323,
      "grad_norm": 0.704537034034729,
      "learning_rate": 1.7443421706273395e-05,
      "loss": 0.1927,
      "num_input_tokens_seen": 2222496,
      "step": 3580
    },
    {
      "epoch": 6.390374331550802,
      "grad_norm": 0.6272372007369995,
      "learning_rate": 1.7369318883703506e-05,
      "loss": 0.1855,
      "num_input_tokens_seen": 2225504,
      "step": 3585
    },
    {
      "epoch": 6.399286987522282,
      "grad_norm": 0.8482812643051147,
      "learning_rate": 1.7295289918185348e-05,
      "loss": 0.1753,
      "num_input_tokens_seen": 2229312,
      "step": 3590
    },
    {
      "epoch": 6.408199643493761,
      "grad_norm": 0.5499706864356995,
      "learning_rate": 1.722133552624227e-05,
      "loss": 0.1939,
      "num_input_tokens_seen": 2232544,
      "step": 3595
    },
    {
      "epoch": 6.4171122994652405,
      "grad_norm": 0.48051542043685913,
      "learning_rate": 1.714745642367583e-05,
      "loss": 0.1707,
      "num_input_tokens_seen": 2235808,
      "step": 3600
    },
    {
      "epoch": 6.42602495543672,
      "grad_norm": 1.0482089519500732,
      "learning_rate": 1.707365332555883e-05,
      "loss": 0.183,
      "num_input_tokens_seen": 2239040,
      "step": 3605
    },
    {
      "epoch": 6.434937611408199,
      "grad_norm": 0.5002045631408691,
      "learning_rate": 1.699992694622847e-05,
      "loss": 0.1476,
      "num_input_tokens_seen": 2241728,
      "step": 3610
    },
    {
      "epoch": 6.443850267379679,
      "grad_norm": 0.5338446497917175,
      "learning_rate": 1.6926277999279372e-05,
      "loss": 0.1712,
      "num_input_tokens_seen": 2244928,
      "step": 3615
    },
    {
      "epoch": 6.452762923351159,
      "grad_norm": 0.5092248320579529,
      "learning_rate": 1.6852707197556677e-05,
      "loss": 0.1569,
      "num_input_tokens_seen": 2247936,
      "step": 3620
    },
    {
      "epoch": 6.461675579322638,
      "grad_norm": 0.4300782382488251,
      "learning_rate": 1.67792152531492e-05,
      "loss": 0.1658,
      "num_input_tokens_seen": 2250560,
      "step": 3625
    },
    {
      "epoch": 6.470588235294118,
      "grad_norm": 0.3229581415653229,
      "learning_rate": 1.6705802877382464e-05,
      "loss": 0.1451,
      "num_input_tokens_seen": 2253248,
      "step": 3630
    },
    {
      "epoch": 6.479500891265597,
      "grad_norm": 0.5048878788948059,
      "learning_rate": 1.6632470780811866e-05,
      "loss": 0.1803,
      "num_input_tokens_seen": 2256320,
      "step": 3635
    },
    {
      "epoch": 6.4884135472370765,
      "grad_norm": 0.7852115631103516,
      "learning_rate": 1.6559219673215784e-05,
      "loss": 0.1825,
      "num_input_tokens_seen": 2259168,
      "step": 3640
    },
    {
      "epoch": 6.497326203208556,
      "grad_norm": 0.3399798572063446,
      "learning_rate": 1.6486050263588702e-05,
      "loss": 0.1856,
      "num_input_tokens_seen": 2262240,
      "step": 3645
    },
    {
      "epoch": 6.506238859180035,
      "grad_norm": 0.5445297360420227,
      "learning_rate": 1.641296326013436e-05,
      "loss": 0.2109,
      "num_input_tokens_seen": 2265600,
      "step": 3650
    },
    {
      "epoch": 6.5115864527629235,
      "eval_loss": 0.1881975382566452,
      "eval_runtime": 4.2584,
      "eval_samples_per_second": 58.472,
      "eval_steps_per_second": 14.794,
      "num_input_tokens_seen": 2267520,
      "step": 3653
    },
    {
      "epoch": 6.515151515151516,
      "grad_norm": 0.33709490299224854,
      "learning_rate": 1.633995937025889e-05,
      "loss": 0.1652,
      "num_input_tokens_seen": 2268768,
      "step": 3655
    },
    {
      "epoch": 6.524064171122995,
      "grad_norm": 0.4406679570674896,
      "learning_rate": 1.6267039300563965e-05,
      "loss": 0.2093,
      "num_input_tokens_seen": 2272256,
      "step": 3660
    },
    {
      "epoch": 6.532976827094474,
      "grad_norm": 0.6629878878593445,
      "learning_rate": 1.619420375683996e-05,
      "loss": 0.1718,
      "num_input_tokens_seen": 2275968,
      "step": 3665
    },
    {
      "epoch": 6.541889483065954,
      "grad_norm": 0.665874183177948,
      "learning_rate": 1.6121453444059153e-05,
      "loss": 0.1913,
      "num_input_tokens_seen": 2278784,
      "step": 3670
    },
    {
      "epoch": 6.550802139037433,
      "grad_norm": 0.5533963441848755,
      "learning_rate": 1.6048789066368858e-05,
      "loss": 0.1798,
      "num_input_tokens_seen": 2281472,
      "step": 3675
    },
    {
      "epoch": 6.5597147950089125,
      "grad_norm": 0.40691274404525757,
      "learning_rate": 1.5976211327084606e-05,
      "loss": 0.1737,
      "num_input_tokens_seen": 2284608,
      "step": 3680
    },
    {
      "epoch": 6.568627450980392,
      "grad_norm": 0.7153930068016052,
      "learning_rate": 1.59037209286834e-05,
      "loss": 0.1607,
      "num_input_tokens_seen": 2287296,
      "step": 3685
    },
    {
      "epoch": 6.577540106951871,
      "grad_norm": 0.4068545401096344,
      "learning_rate": 1.583131857279685e-05,
      "loss": 0.1584,
      "num_input_tokens_seen": 2290176,
      "step": 3690
    },
    {
      "epoch": 6.586452762923351,
      "grad_norm": 0.5864424109458923,
      "learning_rate": 1.57590049602044e-05,
      "loss": 0.175,
      "num_input_tokens_seen": 2292960,
      "step": 3695
    },
    {
      "epoch": 6.595365418894831,
      "grad_norm": 0.729058027267456,
      "learning_rate": 1.5686780790826574e-05,
      "loss": 0.1749,
      "num_input_tokens_seen": 2296192,
      "step": 3700
    },
    {
      "epoch": 6.60427807486631,
      "grad_norm": 0.7947399616241455,
      "learning_rate": 1.561464676371816e-05,
      "loss": 0.1895,
      "num_input_tokens_seen": 2300224,
      "step": 3705
    },
    {
      "epoch": 6.61319073083779,
      "grad_norm": 0.5141013860702515,
      "learning_rate": 1.5542603577061464e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 2303040,
      "step": 3710
    },
    {
      "epoch": 6.622103386809269,
      "grad_norm": 0.7291932702064514,
      "learning_rate": 1.5470651928159564e-05,
      "loss": 0.1447,
      "num_input_tokens_seen": 2305600,
      "step": 3715
    },
    {
      "epoch": 6.6310160427807485,
      "grad_norm": 0.48628827929496765,
      "learning_rate": 1.539879251342954e-05,
      "loss": 0.1646,
      "num_input_tokens_seen": 2308736,
      "step": 3720
    },
    {
      "epoch": 6.639928698752228,
      "grad_norm": 0.6047589778900146,
      "learning_rate": 1.5327026028395724e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 2311840,
      "step": 3725
    },
    {
      "epoch": 6.648841354723707,
      "grad_norm": 0.5494013428688049,
      "learning_rate": 1.5255353167683017e-05,
      "loss": 0.1728,
      "num_input_tokens_seen": 2315808,
      "step": 3730
    },
    {
      "epoch": 6.657754010695188,
      "grad_norm": 0.6367866396903992,
      "learning_rate": 1.5183774625010119e-05,
      "loss": 0.1566,
      "num_input_tokens_seen": 2319072,
      "step": 3735
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.6009120345115662,
      "learning_rate": 1.5112291093182818e-05,
      "loss": 0.187,
      "num_input_tokens_seen": 2323104,
      "step": 3740
    },
    {
      "epoch": 6.675579322638146,
      "grad_norm": 0.5307632088661194,
      "learning_rate": 1.5040903264087328e-05,
      "loss": 0.174,
      "num_input_tokens_seen": 2325984,
      "step": 3745
    },
    {
      "epoch": 6.684491978609626,
      "grad_norm": 0.4566698372364044,
      "learning_rate": 1.4969611828683517e-05,
      "loss": 0.1415,
      "num_input_tokens_seen": 2329152,
      "step": 3750
    },
    {
      "epoch": 6.693404634581105,
      "grad_norm": 0.5744293928146362,
      "learning_rate": 1.4898417476998289e-05,
      "loss": 0.2178,
      "num_input_tokens_seen": 2332768,
      "step": 3755
    },
    {
      "epoch": 6.7023172905525845,
      "grad_norm": 0.4906589984893799,
      "learning_rate": 1.4827320898118884e-05,
      "loss": 0.1595,
      "num_input_tokens_seen": 2335680,
      "step": 3760
    },
    {
      "epoch": 6.711229946524064,
      "grad_norm": 0.643140435218811,
      "learning_rate": 1.4756322780186193e-05,
      "loss": 0.1865,
      "num_input_tokens_seen": 2338656,
      "step": 3765
    },
    {
      "epoch": 6.720142602495543,
      "grad_norm": 0.6035706996917725,
      "learning_rate": 1.4685423810388094e-05,
      "loss": 0.1639,
      "num_input_tokens_seen": 2342016,
      "step": 3770
    },
    {
      "epoch": 6.729055258467023,
      "grad_norm": 0.35557159781455994,
      "learning_rate": 1.4614624674952842e-05,
      "loss": 0.1617,
      "num_input_tokens_seen": 2345120,
      "step": 3775
    },
    {
      "epoch": 6.737967914438503,
      "grad_norm": 0.589004397392273,
      "learning_rate": 1.4543926059142379e-05,
      "loss": 0.1699,
      "num_input_tokens_seen": 2348512,
      "step": 3780
    },
    {
      "epoch": 6.746880570409982,
      "grad_norm": 0.4238247573375702,
      "learning_rate": 1.4473328647245726e-05,
      "loss": 0.1614,
      "num_input_tokens_seen": 2350688,
      "step": 3785
    },
    {
      "epoch": 6.755793226381462,
      "grad_norm": 0.6005486845970154,
      "learning_rate": 1.4402833122572368e-05,
      "loss": 0.1801,
      "num_input_tokens_seen": 2353504,
      "step": 3790
    },
    {
      "epoch": 6.764705882352941,
      "grad_norm": 0.6389063000679016,
      "learning_rate": 1.4332440167445613e-05,
      "loss": 0.1597,
      "num_input_tokens_seen": 2356672,
      "step": 3795
    },
    {
      "epoch": 6.7736185383244205,
      "grad_norm": 0.4916219115257263,
      "learning_rate": 1.4262150463195981e-05,
      "loss": 0.1759,
      "num_input_tokens_seen": 2360288,
      "step": 3800
    },
    {
      "epoch": 6.7825311942959,
      "grad_norm": 0.6930426359176636,
      "learning_rate": 1.4191964690154702e-05,
      "loss": 0.1552,
      "num_input_tokens_seen": 2362944,
      "step": 3805
    },
    {
      "epoch": 6.791443850267379,
      "grad_norm": 0.5594033598899841,
      "learning_rate": 1.412188352764699e-05,
      "loss": 0.1858,
      "num_input_tokens_seen": 2366080,
      "step": 3810
    },
    {
      "epoch": 6.80035650623886,
      "grad_norm": 0.6492391228675842,
      "learning_rate": 1.4051907653985552e-05,
      "loss": 0.1954,
      "num_input_tokens_seen": 2369632,
      "step": 3815
    },
    {
      "epoch": 6.809269162210339,
      "grad_norm": 0.7449959516525269,
      "learning_rate": 1.3982037746464043e-05,
      "loss": 0.1986,
      "num_input_tokens_seen": 2373504,
      "step": 3820
    },
    {
      "epoch": 6.818181818181818,
      "grad_norm": 0.6552306413650513,
      "learning_rate": 1.3912274481350433e-05,
      "loss": 0.1672,
      "num_input_tokens_seen": 2376480,
      "step": 3825
    },
    {
      "epoch": 6.827094474153298,
      "grad_norm": 0.5298140048980713,
      "learning_rate": 1.3842618533880531e-05,
      "loss": 0.1679,
      "num_input_tokens_seen": 2379488,
      "step": 3830
    },
    {
      "epoch": 6.836007130124777,
      "grad_norm": 0.6472254395484924,
      "learning_rate": 1.3773070578251424e-05,
      "loss": 0.179,
      "num_input_tokens_seen": 2382496,
      "step": 3835
    },
    {
      "epoch": 6.8449197860962565,
      "grad_norm": 0.5164865851402283,
      "learning_rate": 1.3703631287614935e-05,
      "loss": 0.1802,
      "num_input_tokens_seen": 2386304,
      "step": 3840
    },
    {
      "epoch": 6.853832442067736,
      "grad_norm": 0.4910835325717926,
      "learning_rate": 1.363430133407112e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 2389504,
      "step": 3845
    },
    {
      "epoch": 6.862745098039216,
      "grad_norm": 0.5745038986206055,
      "learning_rate": 1.3565081388661782e-05,
      "loss": 0.1634,
      "num_input_tokens_seen": 2392320,
      "step": 3850
    },
    {
      "epoch": 6.871657754010696,
      "grad_norm": 0.5505916476249695,
      "learning_rate": 1.3495972121363968e-05,
      "loss": 0.1739,
      "num_input_tokens_seen": 2395648,
      "step": 3855
    },
    {
      "epoch": 6.880570409982175,
      "grad_norm": 0.6166315674781799,
      "learning_rate": 1.3426974201083439e-05,
      "loss": 0.1693,
      "num_input_tokens_seen": 2398080,
      "step": 3860
    },
    {
      "epoch": 6.889483065953654,
      "grad_norm": 1.0031318664550781,
      "learning_rate": 1.3358088295648274e-05,
      "loss": 0.175,
      "num_input_tokens_seen": 2400448,
      "step": 3865
    },
    {
      "epoch": 6.898395721925134,
      "grad_norm": 0.43097200989723206,
      "learning_rate": 1.328931507180233e-05,
      "loss": 0.1634,
      "num_input_tokens_seen": 2403424,
      "step": 3870
    },
    {
      "epoch": 6.907308377896613,
      "grad_norm": 0.4086379110813141,
      "learning_rate": 1.3220655195198847e-05,
      "loss": 0.1469,
      "num_input_tokens_seen": 2405984,
      "step": 3875
    },
    {
      "epoch": 6.9162210338680925,
      "grad_norm": 0.40902405977249146,
      "learning_rate": 1.3152109330393985e-05,
      "loss": 0.1677,
      "num_input_tokens_seen": 2409472,
      "step": 3880
    },
    {
      "epoch": 6.925133689839572,
      "grad_norm": 0.629298985004425,
      "learning_rate": 1.3083678140840366e-05,
      "loss": 0.1898,
      "num_input_tokens_seen": 2412384,
      "step": 3885
    },
    {
      "epoch": 6.934046345811051,
      "grad_norm": 0.4956974387168884,
      "learning_rate": 1.3015362288880678e-05,
      "loss": 0.1628,
      "num_input_tokens_seen": 2415328,
      "step": 3890
    },
    {
      "epoch": 6.942959001782532,
      "grad_norm": 0.31115609407424927,
      "learning_rate": 1.2947162435741278e-05,
      "loss": 0.1869,
      "num_input_tokens_seen": 2418848,
      "step": 3895
    },
    {
      "epoch": 6.951871657754011,
      "grad_norm": 0.5426957011222839,
      "learning_rate": 1.2879079241525783e-05,
      "loss": 0.1615,
      "num_input_tokens_seen": 2421824,
      "step": 3900
    },
    {
      "epoch": 6.96078431372549,
      "grad_norm": 0.6043846011161804,
      "learning_rate": 1.2811113365208627e-05,
      "loss": 0.189,
      "num_input_tokens_seen": 2424224,
      "step": 3905
    },
    {
      "epoch": 6.96969696969697,
      "grad_norm": 0.48290809988975525,
      "learning_rate": 1.2743265464628786e-05,
      "loss": 0.1779,
      "num_input_tokens_seen": 2427616,
      "step": 3910
    },
    {
      "epoch": 6.978609625668449,
      "grad_norm": 0.5067238211631775,
      "learning_rate": 1.2675536196483306e-05,
      "loss": 0.1568,
      "num_input_tokens_seen": 2430368,
      "step": 3915
    },
    {
      "epoch": 6.9875222816399285,
      "grad_norm": 0.43254604935646057,
      "learning_rate": 1.260792621632102e-05,
      "loss": 0.1876,
      "num_input_tokens_seen": 2433376,
      "step": 3920
    },
    {
      "epoch": 6.996434937611408,
      "grad_norm": 0.8352137804031372,
      "learning_rate": 1.2540436178536186e-05,
      "loss": 0.186,
      "num_input_tokens_seen": 2436608,
      "step": 3925
    },
    {
      "epoch": 7.005347593582887,
      "grad_norm": 0.8926360011100769,
      "learning_rate": 1.2473066736362124e-05,
      "loss": 0.1554,
      "num_input_tokens_seen": 2439064,
      "step": 3930
    },
    {
      "epoch": 7.0124777183600715,
      "eval_loss": 0.18532642722129822,
      "eval_runtime": 4.2481,
      "eval_samples_per_second": 58.614,
      "eval_steps_per_second": 14.83,
      "num_input_tokens_seen": 2441688,
      "step": 3934
    },
    {
      "epoch": 7.0142602495543676,
      "grad_norm": 0.40735986828804016,
      "learning_rate": 1.2405818541864905e-05,
      "loss": 0.1639,
      "num_input_tokens_seen": 2442328,
      "step": 3935
    },
    {
      "epoch": 7.023172905525847,
      "grad_norm": 0.8125144243240356,
      "learning_rate": 1.2338692245937077e-05,
      "loss": 0.1518,
      "num_input_tokens_seen": 2445272,
      "step": 3940
    },
    {
      "epoch": 7.032085561497326,
      "grad_norm": 0.352469801902771,
      "learning_rate": 1.2271688498291335e-05,
      "loss": 0.1499,
      "num_input_tokens_seen": 2448216,
      "step": 3945
    },
    {
      "epoch": 7.040998217468806,
      "grad_norm": 0.5842772722244263,
      "learning_rate": 1.2204807947454203e-05,
      "loss": 0.173,
      "num_input_tokens_seen": 2451704,
      "step": 3950
    },
    {
      "epoch": 7.049910873440285,
      "grad_norm": 0.8481732606887817,
      "learning_rate": 1.2138051240759826e-05,
      "loss": 0.1489,
      "num_input_tokens_seen": 2454392,
      "step": 3955
    },
    {
      "epoch": 7.0588235294117645,
      "grad_norm": 0.6517293453216553,
      "learning_rate": 1.2071419024343633e-05,
      "loss": 0.1674,
      "num_input_tokens_seen": 2457112,
      "step": 3960
    },
    {
      "epoch": 7.067736185383244,
      "grad_norm": 0.5270460844039917,
      "learning_rate": 1.2004911943136143e-05,
      "loss": 0.1551,
      "num_input_tokens_seen": 2460312,
      "step": 3965
    },
    {
      "epoch": 7.076648841354723,
      "grad_norm": 0.5227533578872681,
      "learning_rate": 1.1938530640856696e-05,
      "loss": 0.1572,
      "num_input_tokens_seen": 2463224,
      "step": 3970
    },
    {
      "epoch": 7.0855614973262036,
      "grad_norm": 0.29230085015296936,
      "learning_rate": 1.1872275760007198e-05,
      "loss": 0.1661,
      "num_input_tokens_seen": 2466008,
      "step": 3975
    },
    {
      "epoch": 7.094474153297683,
      "grad_norm": 0.5345339179039001,
      "learning_rate": 1.1806147941865938e-05,
      "loss": 0.1784,
      "num_input_tokens_seen": 2469176,
      "step": 3980
    },
    {
      "epoch": 7.103386809269162,
      "grad_norm": 0.4222520589828491,
      "learning_rate": 1.1740147826481385e-05,
      "loss": 0.1405,
      "num_input_tokens_seen": 2472408,
      "step": 3985
    },
    {
      "epoch": 7.112299465240642,
      "grad_norm": 0.5282605290412903,
      "learning_rate": 1.1674276052665973e-05,
      "loss": 0.1902,
      "num_input_tokens_seen": 2475608,
      "step": 3990
    },
    {
      "epoch": 7.121212121212121,
      "grad_norm": 0.4751206636428833,
      "learning_rate": 1.1608533257989901e-05,
      "loss": 0.1489,
      "num_input_tokens_seen": 2478680,
      "step": 3995
    },
    {
      "epoch": 7.1301247771836005,
      "grad_norm": 0.3280528783798218,
      "learning_rate": 1.1542920078775018e-05,
      "loss": 0.1666,
      "num_input_tokens_seen": 2481592,
      "step": 4000
    },
    {
      "epoch": 7.13903743315508,
      "grad_norm": 0.9430297017097473,
      "learning_rate": 1.14774371500886e-05,
      "loss": 0.2094,
      "num_input_tokens_seen": 2485176,
      "step": 4005
    },
    {
      "epoch": 7.14795008912656,
      "grad_norm": 0.27522483468055725,
      "learning_rate": 1.141208510573725e-05,
      "loss": 0.1596,
      "num_input_tokens_seen": 2488152,
      "step": 4010
    },
    {
      "epoch": 7.1568627450980395,
      "grad_norm": 0.5842289328575134,
      "learning_rate": 1.1346864578260758e-05,
      "loss": 0.1904,
      "num_input_tokens_seen": 2491320,
      "step": 4015
    },
    {
      "epoch": 7.165775401069519,
      "grad_norm": 0.38907817006111145,
      "learning_rate": 1.1281776198925939e-05,
      "loss": 0.1459,
      "num_input_tokens_seen": 2493944,
      "step": 4020
    },
    {
      "epoch": 7.174688057040998,
      "grad_norm": 0.31314197182655334,
      "learning_rate": 1.121682059772056e-05,
      "loss": 0.1407,
      "num_input_tokens_seen": 2496664,
      "step": 4025
    },
    {
      "epoch": 7.183600713012478,
      "grad_norm": 0.5018792748451233,
      "learning_rate": 1.1151998403347244e-05,
      "loss": 0.2596,
      "num_input_tokens_seen": 2500216,
      "step": 4030
    },
    {
      "epoch": 7.192513368983957,
      "grad_norm": 0.4724593162536621,
      "learning_rate": 1.1087310243217386e-05,
      "loss": 0.1538,
      "num_input_tokens_seen": 2503544,
      "step": 4035
    },
    {
      "epoch": 7.2014260249554365,
      "grad_norm": 0.647865891456604,
      "learning_rate": 1.1022756743445028e-05,
      "loss": 0.1738,
      "num_input_tokens_seen": 2507160,
      "step": 4040
    },
    {
      "epoch": 7.210338680926916,
      "grad_norm": 0.48006606101989746,
      "learning_rate": 1.0958338528840893e-05,
      "loss": 0.1834,
      "num_input_tokens_seen": 2510232,
      "step": 4045
    },
    {
      "epoch": 7.219251336898395,
      "grad_norm": 0.4462122917175293,
      "learning_rate": 1.0894056222906226e-05,
      "loss": 0.1348,
      "num_input_tokens_seen": 2513144,
      "step": 4050
    },
    {
      "epoch": 7.2281639928698755,
      "grad_norm": 0.48262760043144226,
      "learning_rate": 1.0829910447826868e-05,
      "loss": 0.1547,
      "num_input_tokens_seen": 2516504,
      "step": 4055
    },
    {
      "epoch": 7.237076648841355,
      "grad_norm": 0.5589674711227417,
      "learning_rate": 1.0765901824467167e-05,
      "loss": 0.1723,
      "num_input_tokens_seen": 2518648,
      "step": 4060
    },
    {
      "epoch": 7.245989304812834,
      "grad_norm": 0.4827505946159363,
      "learning_rate": 1.0702030972363963e-05,
      "loss": 0.1625,
      "num_input_tokens_seen": 2521880,
      "step": 4065
    },
    {
      "epoch": 7.254901960784314,
      "grad_norm": 0.5129882097244263,
      "learning_rate": 1.063829850972065e-05,
      "loss": 0.1871,
      "num_input_tokens_seen": 2525336,
      "step": 4070
    },
    {
      "epoch": 7.263814616755793,
      "grad_norm": 0.5441546440124512,
      "learning_rate": 1.0574705053401127e-05,
      "loss": 0.1591,
      "num_input_tokens_seen": 2528184,
      "step": 4075
    },
    {
      "epoch": 7.2727272727272725,
      "grad_norm": 0.42811569571495056,
      "learning_rate": 1.0511251218923868e-05,
      "loss": 0.1592,
      "num_input_tokens_seen": 2530904,
      "step": 4080
    },
    {
      "epoch": 7.281639928698752,
      "grad_norm": 0.43192997574806213,
      "learning_rate": 1.0447937620455964e-05,
      "loss": 0.178,
      "num_input_tokens_seen": 2533656,
      "step": 4085
    },
    {
      "epoch": 7.290552584670232,
      "grad_norm": 0.7238538265228271,
      "learning_rate": 1.0384764870807149e-05,
      "loss": 0.1817,
      "num_input_tokens_seen": 2535928,
      "step": 4090
    },
    {
      "epoch": 7.2994652406417115,
      "grad_norm": 0.4946947991847992,
      "learning_rate": 1.0321733581423884e-05,
      "loss": 0.1685,
      "num_input_tokens_seen": 2539352,
      "step": 4095
    },
    {
      "epoch": 7.308377896613191,
      "grad_norm": 0.5055748224258423,
      "learning_rate": 1.025884436238346e-05,
      "loss": 0.1722,
      "num_input_tokens_seen": 2542456,
      "step": 4100
    },
    {
      "epoch": 7.31729055258467,
      "grad_norm": 0.9246964454650879,
      "learning_rate": 1.0196097822388075e-05,
      "loss": 0.1772,
      "num_input_tokens_seen": 2545816,
      "step": 4105
    },
    {
      "epoch": 7.32620320855615,
      "grad_norm": 0.8303518891334534,
      "learning_rate": 1.013349456875892e-05,
      "loss": 0.1608,
      "num_input_tokens_seen": 2548824,
      "step": 4110
    },
    {
      "epoch": 7.335115864527629,
      "grad_norm": 0.5074154734611511,
      "learning_rate": 1.0071035207430352e-05,
      "loss": 0.1655,
      "num_input_tokens_seen": 2552152,
      "step": 4115
    },
    {
      "epoch": 7.3440285204991085,
      "grad_norm": 0.4153769910335541,
      "learning_rate": 1.0008720342943966e-05,
      "loss": 0.1643,
      "num_input_tokens_seen": 2555768,
      "step": 4120
    },
    {
      "epoch": 7.352941176470588,
      "grad_norm": 0.3799455165863037,
      "learning_rate": 9.94655057844281e-06,
      "loss": 0.1602,
      "num_input_tokens_seen": 2558328,
      "step": 4125
    },
    {
      "epoch": 7.361853832442068,
      "grad_norm": 0.6474289298057556,
      "learning_rate": 9.884526515665508e-06,
      "loss": 0.17,
      "num_input_tokens_seen": 2561368,
      "step": 4130
    },
    {
      "epoch": 7.3707664884135475,
      "grad_norm": 0.7523593902587891,
      "learning_rate": 9.822648754940431e-06,
      "loss": 0.156,
      "num_input_tokens_seen": 2564056,
      "step": 4135
    },
    {
      "epoch": 7.379679144385027,
      "grad_norm": 0.5380316972732544,
      "learning_rate": 9.760917895179894e-06,
      "loss": 0.1746,
      "num_input_tokens_seen": 2566744,
      "step": 4140
    },
    {
      "epoch": 7.388591800356506,
      "grad_norm": 1.0373018980026245,
      "learning_rate": 9.699334533874386e-06,
      "loss": 0.1959,
      "num_input_tokens_seen": 2569656,
      "step": 4145
    },
    {
      "epoch": 7.397504456327986,
      "grad_norm": 0.6027229428291321,
      "learning_rate": 9.637899267086758e-06,
      "loss": 0.1752,
      "num_input_tokens_seen": 2573112,
      "step": 4150
    },
    {
      "epoch": 7.406417112299465,
      "grad_norm": 0.5722499489784241,
      "learning_rate": 9.576612689446444e-06,
      "loss": 0.1712,
      "num_input_tokens_seen": 2576952,
      "step": 4155
    },
    {
      "epoch": 7.4153297682709445,
      "grad_norm": 0.5797430276870728,
      "learning_rate": 9.515475394143742e-06,
      "loss": 0.1445,
      "num_input_tokens_seen": 2579896,
      "step": 4160
    },
    {
      "epoch": 7.424242424242424,
      "grad_norm": 0.4454365670681,
      "learning_rate": 9.45448797292403e-06,
      "loss": 0.2141,
      "num_input_tokens_seen": 2583544,
      "step": 4165
    },
    {
      "epoch": 7.433155080213904,
      "grad_norm": 0.3823348879814148,
      "learning_rate": 9.393651016082083e-06,
      "loss": 0.154,
      "num_input_tokens_seen": 2586200,
      "step": 4170
    },
    {
      "epoch": 7.4420677361853835,
      "grad_norm": 0.44054359197616577,
      "learning_rate": 9.332965112456337e-06,
      "loss": 0.1803,
      "num_input_tokens_seen": 2589496,
      "step": 4175
    },
    {
      "epoch": 7.450980392156863,
      "grad_norm": 0.4444521963596344,
      "learning_rate": 9.272430849423174e-06,
      "loss": 0.1813,
      "num_input_tokens_seen": 2591928,
      "step": 4180
    },
    {
      "epoch": 7.459893048128342,
      "grad_norm": 0.6432741284370422,
      "learning_rate": 9.21204881289125e-06,
      "loss": 0.1793,
      "num_input_tokens_seen": 2595064,
      "step": 4185
    },
    {
      "epoch": 7.468805704099822,
      "grad_norm": 0.5586231350898743,
      "learning_rate": 9.151819587295845e-06,
      "loss": 0.162,
      "num_input_tokens_seen": 2597944,
      "step": 4190
    },
    {
      "epoch": 7.477718360071301,
      "grad_norm": 0.4838408827781677,
      "learning_rate": 9.09174375559319e-06,
      "loss": 0.1969,
      "num_input_tokens_seen": 2601656,
      "step": 4195
    },
    {
      "epoch": 7.4866310160427805,
      "grad_norm": 0.4085644483566284,
      "learning_rate": 9.031821899254796e-06,
      "loss": 0.1497,
      "num_input_tokens_seen": 2604472,
      "step": 4200
    },
    {
      "epoch": 7.49554367201426,
      "grad_norm": 0.3888384699821472,
      "learning_rate": 8.972054598261892e-06,
      "loss": 0.1631,
      "num_input_tokens_seen": 2607992,
      "step": 4205
    },
    {
      "epoch": 7.50445632798574,
      "grad_norm": 0.7054049372673035,
      "learning_rate": 8.912442431099724e-06,
      "loss": 0.1672,
      "num_input_tokens_seen": 2611800,
      "step": 4210
    },
    {
      "epoch": 7.5133689839572195,
      "grad_norm": 0.5162657499313354,
      "learning_rate": 8.852985974752045e-06,
      "loss": 0.1665,
      "num_input_tokens_seen": 2614936,
      "step": 4215
    },
    {
      "epoch": 7.5133689839572195,
      "eval_loss": 0.18536153435707092,
      "eval_runtime": 4.2538,
      "eval_samples_per_second": 58.536,
      "eval_steps_per_second": 14.81,
      "num_input_tokens_seen": 2614936,
      "step": 4215
    },
    {
      "epoch": 7.522281639928699,
      "grad_norm": 0.357683002948761,
      "learning_rate": 8.793685804695482e-06,
      "loss": 0.2229,
      "num_input_tokens_seen": 2618744,
      "step": 4220
    },
    {
      "epoch": 7.531194295900178,
      "grad_norm": 0.4619935154914856,
      "learning_rate": 8.734542494893955e-06,
      "loss": 0.1613,
      "num_input_tokens_seen": 2621496,
      "step": 4225
    },
    {
      "epoch": 7.540106951871658,
      "grad_norm": 0.5771064758300781,
      "learning_rate": 8.675556617793143e-06,
      "loss": 0.1607,
      "num_input_tokens_seen": 2624568,
      "step": 4230
    },
    {
      "epoch": 7.549019607843137,
      "grad_norm": 0.5340394377708435,
      "learning_rate": 8.616728744314956e-06,
      "loss": 0.1969,
      "num_input_tokens_seen": 2627832,
      "step": 4235
    },
    {
      "epoch": 7.5579322638146165,
      "grad_norm": 0.5918867588043213,
      "learning_rate": 8.558059443851998e-06,
      "loss": 0.1702,
      "num_input_tokens_seen": 2631160,
      "step": 4240
    },
    {
      "epoch": 7.566844919786096,
      "grad_norm": 0.4290253520011902,
      "learning_rate": 8.499549284262017e-06,
      "loss": 0.158,
      "num_input_tokens_seen": 2634488,
      "step": 4245
    },
    {
      "epoch": 7.575757575757576,
      "grad_norm": 0.6583709120750427,
      "learning_rate": 8.441198831862485e-06,
      "loss": 0.1691,
      "num_input_tokens_seen": 2637240,
      "step": 4250
    },
    {
      "epoch": 7.5846702317290555,
      "grad_norm": 0.6762195825576782,
      "learning_rate": 8.383008651425035e-06,
      "loss": 0.1565,
      "num_input_tokens_seen": 2639992,
      "step": 4255
    },
    {
      "epoch": 7.593582887700535,
      "grad_norm": 0.29171764850616455,
      "learning_rate": 8.32497930617006e-06,
      "loss": 0.1893,
      "num_input_tokens_seen": 2643832,
      "step": 4260
    },
    {
      "epoch": 7.602495543672014,
      "grad_norm": 0.4991152286529541,
      "learning_rate": 8.267111357761243e-06,
      "loss": 0.1343,
      "num_input_tokens_seen": 2646712,
      "step": 4265
    },
    {
      "epoch": 7.611408199643494,
      "grad_norm": 0.6517699360847473,
      "learning_rate": 8.209405366300088e-06,
      "loss": 0.1455,
      "num_input_tokens_seen": 2650072,
      "step": 4270
    },
    {
      "epoch": 7.620320855614973,
      "grad_norm": 1.1518526077270508,
      "learning_rate": 8.151861890320528e-06,
      "loss": 0.1928,
      "num_input_tokens_seen": 2653656,
      "step": 4275
    },
    {
      "epoch": 7.6292335115864525,
      "grad_norm": 0.7069615721702576,
      "learning_rate": 8.094481486783534e-06,
      "loss": 0.2059,
      "num_input_tokens_seen": 2657464,
      "step": 4280
    },
    {
      "epoch": 7.638146167557933,
      "grad_norm": 0.3675689697265625,
      "learning_rate": 8.0372647110717e-06,
      "loss": 0.1825,
      "num_input_tokens_seen": 2660568,
      "step": 4285
    },
    {
      "epoch": 7.647058823529412,
      "grad_norm": 0.5671415328979492,
      "learning_rate": 7.98021211698385e-06,
      "loss": 0.1507,
      "num_input_tokens_seen": 2663448,
      "step": 4290
    },
    {
      "epoch": 7.6559714795008915,
      "grad_norm": 0.5237590074539185,
      "learning_rate": 7.923324256729738e-06,
      "loss": 0.1794,
      "num_input_tokens_seen": 2666136,
      "step": 4295
    },
    {
      "epoch": 7.664884135472371,
      "grad_norm": 0.6967838406562805,
      "learning_rate": 7.866601680924633e-06,
      "loss": 0.183,
      "num_input_tokens_seen": 2669048,
      "step": 4300
    },
    {
      "epoch": 7.67379679144385,
      "grad_norm": 0.48244914412498474,
      "learning_rate": 7.810044938584038e-06,
      "loss": 0.1663,
      "num_input_tokens_seen": 2671800,
      "step": 4305
    },
    {
      "epoch": 7.68270944741533,
      "grad_norm": 0.5121620893478394,
      "learning_rate": 7.75365457711837e-06,
      "loss": 0.1757,
      "num_input_tokens_seen": 2675448,
      "step": 4310
    },
    {
      "epoch": 7.691622103386809,
      "grad_norm": 0.5723910331726074,
      "learning_rate": 7.697431142327632e-06,
      "loss": 0.1654,
      "num_input_tokens_seen": 2678392,
      "step": 4315
    },
    {
      "epoch": 7.7005347593582885,
      "grad_norm": 0.4338489770889282,
      "learning_rate": 7.641375178396151e-06,
      "loss": 0.1645,
      "num_input_tokens_seen": 2681112,
      "step": 4320
    },
    {
      "epoch": 7.709447415329768,
      "grad_norm": 0.5260465145111084,
      "learning_rate": 7.585487227887328e-06,
      "loss": 0.1636,
      "num_input_tokens_seen": 2684856,
      "step": 4325
    },
    {
      "epoch": 7.718360071301248,
      "grad_norm": 0.37905287742614746,
      "learning_rate": 7.529767831738366e-06,
      "loss": 0.1682,
      "num_input_tokens_seen": 2687576,
      "step": 4330
    },
    {
      "epoch": 7.7272727272727275,
      "grad_norm": 0.5463063716888428,
      "learning_rate": 7.474217529255018e-06,
      "loss": 0.1472,
      "num_input_tokens_seen": 2690328,
      "step": 4335
    },
    {
      "epoch": 7.736185383244207,
      "grad_norm": 0.640016496181488,
      "learning_rate": 7.4188368581064124e-06,
      "loss": 0.17,
      "num_input_tokens_seen": 2694168,
      "step": 4340
    },
    {
      "epoch": 7.745098039215686,
      "grad_norm": 0.42445164918899536,
      "learning_rate": 7.3636263543197945e-06,
      "loss": 0.1617,
      "num_input_tokens_seen": 2697208,
      "step": 4345
    },
    {
      "epoch": 7.754010695187166,
      "grad_norm": 1.0092363357543945,
      "learning_rate": 7.30858655227539e-06,
      "loss": 0.182,
      "num_input_tokens_seen": 2700376,
      "step": 4350
    },
    {
      "epoch": 7.762923351158645,
      "grad_norm": 0.2814575433731079,
      "learning_rate": 7.253717984701208e-06,
      "loss": 0.1667,
      "num_input_tokens_seen": 2703256,
      "step": 4355
    },
    {
      "epoch": 7.7718360071301245,
      "grad_norm": 0.5186646580696106,
      "learning_rate": 7.199021182667873e-06,
      "loss": 0.1594,
      "num_input_tokens_seen": 2705752,
      "step": 4360
    },
    {
      "epoch": 7.780748663101605,
      "grad_norm": 0.4522174000740051,
      "learning_rate": 7.1444966755834954e-06,
      "loss": 0.1373,
      "num_input_tokens_seen": 2708888,
      "step": 4365
    },
    {
      "epoch": 7.789661319073084,
      "grad_norm": 0.4952068328857422,
      "learning_rate": 7.0901449911885685e-06,
      "loss": 0.159,
      "num_input_tokens_seen": 2711576,
      "step": 4370
    },
    {
      "epoch": 7.7985739750445635,
      "grad_norm": 0.47718411684036255,
      "learning_rate": 7.035966655550838e-06,
      "loss": 0.1856,
      "num_input_tokens_seen": 2715000,
      "step": 4375
    },
    {
      "epoch": 7.807486631016043,
      "grad_norm": 0.5538311004638672,
      "learning_rate": 6.98196219306019e-06,
      "loss": 0.1708,
      "num_input_tokens_seen": 2717880,
      "step": 4380
    },
    {
      "epoch": 7.816399286987522,
      "grad_norm": 0.40867936611175537,
      "learning_rate": 6.928132126423636e-06,
      "loss": 0.1424,
      "num_input_tokens_seen": 2721240,
      "step": 4385
    },
    {
      "epoch": 7.825311942959002,
      "grad_norm": 0.579886257648468,
      "learning_rate": 6.8744769766601854e-06,
      "loss": 0.1844,
      "num_input_tokens_seen": 2724696,
      "step": 4390
    },
    {
      "epoch": 7.834224598930481,
      "grad_norm": 0.4526924788951874,
      "learning_rate": 6.820997263095849e-06,
      "loss": 0.1754,
      "num_input_tokens_seen": 2727960,
      "step": 4395
    },
    {
      "epoch": 7.8431372549019605,
      "grad_norm": 0.5530297756195068,
      "learning_rate": 6.767693503358608e-06,
      "loss": 0.1816,
      "num_input_tokens_seen": 2731000,
      "step": 4400
    },
    {
      "epoch": 7.85204991087344,
      "grad_norm": 0.3621399700641632,
      "learning_rate": 6.7145662133733715e-06,
      "loss": 0.1751,
      "num_input_tokens_seen": 2734264,
      "step": 4405
    },
    {
      "epoch": 7.86096256684492,
      "grad_norm": 0.5544110536575317,
      "learning_rate": 6.6616159073570135e-06,
      "loss": 0.1635,
      "num_input_tokens_seen": 2736664,
      "step": 4410
    },
    {
      "epoch": 7.8698752228163995,
      "grad_norm": 0.504298985004425,
      "learning_rate": 6.6088430978133914e-06,
      "loss": 0.1685,
      "num_input_tokens_seen": 2739672,
      "step": 4415
    },
    {
      "epoch": 7.878787878787879,
      "grad_norm": 0.45025068521499634,
      "learning_rate": 6.556248295528389e-06,
      "loss": 0.1576,
      "num_input_tokens_seen": 2742552,
      "step": 4420
    },
    {
      "epoch": 7.887700534759358,
      "grad_norm": 0.9994719624519348,
      "learning_rate": 6.5038320095649395e-06,
      "loss": 0.1938,
      "num_input_tokens_seen": 2745880,
      "step": 4425
    },
    {
      "epoch": 7.896613190730838,
      "grad_norm": 0.5288066267967224,
      "learning_rate": 6.451594747258155e-06,
      "loss": 0.1818,
      "num_input_tokens_seen": 2749912,
      "step": 4430
    },
    {
      "epoch": 7.905525846702317,
      "grad_norm": 0.5786968469619751,
      "learning_rate": 6.399537014210355e-06,
      "loss": 0.1757,
      "num_input_tokens_seen": 2753368,
      "step": 4435
    },
    {
      "epoch": 7.9144385026737964,
      "grad_norm": 0.3910267651081085,
      "learning_rate": 6.3476593142862275e-06,
      "loss": 0.1794,
      "num_input_tokens_seen": 2756568,
      "step": 4440
    },
    {
      "epoch": 7.923351158645277,
      "grad_norm": 1.0030827522277832,
      "learning_rate": 6.29596214960792e-06,
      "loss": 0.1752,
      "num_input_tokens_seen": 2759704,
      "step": 4445
    },
    {
      "epoch": 7.932263814616756,
      "grad_norm": 0.41212958097457886,
      "learning_rate": 6.244446020550182e-06,
      "loss": 0.1709,
      "num_input_tokens_seen": 2762584,
      "step": 4450
    },
    {
      "epoch": 7.9411764705882355,
      "grad_norm": 0.5541166067123413,
      "learning_rate": 6.193111425735515e-06,
      "loss": 0.1763,
      "num_input_tokens_seen": 2765752,
      "step": 4455
    },
    {
      "epoch": 7.950089126559715,
      "grad_norm": 0.6690767407417297,
      "learning_rate": 6.141958862029384e-06,
      "loss": 0.1624,
      "num_input_tokens_seen": 2768696,
      "step": 4460
    },
    {
      "epoch": 7.959001782531194,
      "grad_norm": 0.5791964530944824,
      "learning_rate": 6.090988824535374e-06,
      "loss": 0.1844,
      "num_input_tokens_seen": 2772120,
      "step": 4465
    },
    {
      "epoch": 7.967914438502674,
      "grad_norm": 0.40184465050697327,
      "learning_rate": 6.040201806590387e-06,
      "loss": 0.1918,
      "num_input_tokens_seen": 2775384,
      "step": 4470
    },
    {
      "epoch": 7.976827094474153,
      "grad_norm": 0.4650464951992035,
      "learning_rate": 5.989598299759919e-06,
      "loss": 0.1778,
      "num_input_tokens_seen": 2778520,
      "step": 4475
    },
    {
      "epoch": 7.9857397504456324,
      "grad_norm": 0.5422367453575134,
      "learning_rate": 5.939178793833233e-06,
      "loss": 0.1734,
      "num_input_tokens_seen": 2780888,
      "step": 4480
    },
    {
      "epoch": 7.994652406417112,
      "grad_norm": 0.5420627593994141,
      "learning_rate": 5.888943776818684e-06,
      "loss": 0.1781,
      "num_input_tokens_seen": 2784312,
      "step": 4485
    },
    {
      "epoch": 8.003565062388592,
      "grad_norm": 0.465055912733078,
      "learning_rate": 5.83889373493896e-06,
      "loss": 0.1861,
      "num_input_tokens_seen": 2787056,
      "step": 4490
    },
    {
      "epoch": 8.01247771836007,
      "grad_norm": 0.8877488970756531,
      "learning_rate": 5.789029152626374e-06,
      "loss": 0.1686,
      "num_input_tokens_seen": 2790288,
      "step": 4495
    },
    {
      "epoch": 8.014260249554367,
      "eval_loss": 0.18306031823158264,
      "eval_runtime": 4.2492,
      "eval_samples_per_second": 58.599,
      "eval_steps_per_second": 14.826,
      "num_input_tokens_seen": 2790832,
      "step": 4496
    },
    {
      "epoch": 8.02139037433155,
      "grad_norm": 0.3791468143463135,
      "learning_rate": 5.73935051251818e-06,
      "loss": 0.1626,
      "num_input_tokens_seen": 2793136,
      "step": 4500
    },
    {
      "epoch": 8.030303030303031,
      "grad_norm": 0.6450890302658081,
      "learning_rate": 5.689858295451914e-06,
      "loss": 0.1684,
      "num_input_tokens_seen": 2796464,
      "step": 4505
    },
    {
      "epoch": 8.03921568627451,
      "grad_norm": 0.36496949195861816,
      "learning_rate": 5.640552980460742e-06,
      "loss": 0.1524,
      "num_input_tokens_seen": 2799344,
      "step": 4510
    },
    {
      "epoch": 8.04812834224599,
      "grad_norm": 0.5503035187721252,
      "learning_rate": 5.591435044768783e-06,
      "loss": 0.1529,
      "num_input_tokens_seen": 2801648,
      "step": 4515
    },
    {
      "epoch": 8.057040998217468,
      "grad_norm": 0.4298340678215027,
      "learning_rate": 5.542504963786552e-06,
      "loss": 0.1769,
      "num_input_tokens_seen": 2804976,
      "step": 4520
    },
    {
      "epoch": 8.065953654188949,
      "grad_norm": 0.44245445728302,
      "learning_rate": 5.493763211106293e-06,
      "loss": 0.1543,
      "num_input_tokens_seen": 2807472,
      "step": 4525
    },
    {
      "epoch": 8.074866310160427,
      "grad_norm": 0.27881208062171936,
      "learning_rate": 5.4452102584974545e-06,
      "loss": 0.1436,
      "num_input_tokens_seen": 2810768,
      "step": 4530
    },
    {
      "epoch": 8.083778966131907,
      "grad_norm": 0.9025391340255737,
      "learning_rate": 5.396846575902095e-06,
      "loss": 0.1822,
      "num_input_tokens_seen": 2814480,
      "step": 4535
    },
    {
      "epoch": 8.092691622103386,
      "grad_norm": 0.33398008346557617,
      "learning_rate": 5.348672631430318e-06,
      "loss": 0.1551,
      "num_input_tokens_seen": 2817968,
      "step": 4540
    },
    {
      "epoch": 8.101604278074866,
      "grad_norm": 0.45554453134536743,
      "learning_rate": 5.300688891355765e-06,
      "loss": 0.1626,
      "num_input_tokens_seen": 2820784,
      "step": 4545
    },
    {
      "epoch": 8.110516934046347,
      "grad_norm": 0.38997194170951843,
      "learning_rate": 5.252895820111112e-06,
      "loss": 0.1377,
      "num_input_tokens_seen": 2823824,
      "step": 4550
    },
    {
      "epoch": 8.119429590017825,
      "grad_norm": 0.5823608040809631,
      "learning_rate": 5.205293880283552e-06,
      "loss": 0.1602,
      "num_input_tokens_seen": 2826832,
      "step": 4555
    },
    {
      "epoch": 8.128342245989305,
      "grad_norm": 0.6442610025405884,
      "learning_rate": 5.157883532610305e-06,
      "loss": 0.189,
      "num_input_tokens_seen": 2830256,
      "step": 4560
    },
    {
      "epoch": 8.137254901960784,
      "grad_norm": 0.6161116361618042,
      "learning_rate": 5.110665235974219e-06,
      "loss": 0.181,
      "num_input_tokens_seen": 2832848,
      "step": 4565
    },
    {
      "epoch": 8.146167557932264,
      "grad_norm": 0.5139124989509583,
      "learning_rate": 5.06363944739924e-06,
      "loss": 0.1593,
      "num_input_tokens_seen": 2835664,
      "step": 4570
    },
    {
      "epoch": 8.155080213903743,
      "grad_norm": 0.4244152903556824,
      "learning_rate": 5.0168066220460715e-06,
      "loss": 0.1533,
      "num_input_tokens_seen": 2838864,
      "step": 4575
    },
    {
      "epoch": 8.163992869875223,
      "grad_norm": 0.8236415386199951,
      "learning_rate": 4.97016721320773e-06,
      "loss": 0.1638,
      "num_input_tokens_seen": 2841840,
      "step": 4580
    },
    {
      "epoch": 8.172905525846703,
      "grad_norm": 0.6396406292915344,
      "learning_rate": 4.9237216723051485e-06,
      "loss": 0.1693,
      "num_input_tokens_seen": 2844976,
      "step": 4585
    },
    {
      "epoch": 8.181818181818182,
      "grad_norm": 0.41378054022789,
      "learning_rate": 4.877470448882815e-06,
      "loss": 0.1585,
      "num_input_tokens_seen": 2847856,
      "step": 4590
    },
    {
      "epoch": 8.190730837789662,
      "grad_norm": 0.5032555460929871,
      "learning_rate": 4.831413990604447e-06,
      "loss": 0.1465,
      "num_input_tokens_seen": 2850192,
      "step": 4595
    },
    {
      "epoch": 8.19964349376114,
      "grad_norm": 0.4285055994987488,
      "learning_rate": 4.7855527432486336e-06,
      "loss": 0.1517,
      "num_input_tokens_seen": 2853008,
      "step": 4600
    },
    {
      "epoch": 8.20855614973262,
      "grad_norm": 0.5328398942947388,
      "learning_rate": 4.739887150704508e-06,
      "loss": 0.2001,
      "num_input_tokens_seen": 2856464,
      "step": 4605
    },
    {
      "epoch": 8.2174688057041,
      "grad_norm": 0.45751845836639404,
      "learning_rate": 4.694417654967492e-06,
      "loss": 0.1507,
      "num_input_tokens_seen": 2858864,
      "step": 4610
    },
    {
      "epoch": 8.22638146167558,
      "grad_norm": 0.44036829471588135,
      "learning_rate": 4.649144696134972e-06,
      "loss": 0.1711,
      "num_input_tokens_seen": 2861488,
      "step": 4615
    },
    {
      "epoch": 8.235294117647058,
      "grad_norm": 0.4446769654750824,
      "learning_rate": 4.6040687124020794e-06,
      "loss": 0.168,
      "num_input_tokens_seen": 2865136,
      "step": 4620
    },
    {
      "epoch": 8.244206773618538,
      "grad_norm": 0.6855089068412781,
      "learning_rate": 4.5591901400574285e-06,
      "loss": 0.1646,
      "num_input_tokens_seen": 2867984,
      "step": 4625
    },
    {
      "epoch": 8.253119429590019,
      "grad_norm": 0.6599955558776855,
      "learning_rate": 4.514509413478888e-06,
      "loss": 0.1795,
      "num_input_tokens_seen": 2871088,
      "step": 4630
    },
    {
      "epoch": 8.262032085561497,
      "grad_norm": 0.42294609546661377,
      "learning_rate": 4.470026965129384e-06,
      "loss": 0.1433,
      "num_input_tokens_seen": 2874352,
      "step": 4635
    },
    {
      "epoch": 8.270944741532977,
      "grad_norm": 0.4342804551124573,
      "learning_rate": 4.425743225552731e-06,
      "loss": 0.1762,
      "num_input_tokens_seen": 2877840,
      "step": 4640
    },
    {
      "epoch": 8.279857397504456,
      "grad_norm": 0.5680054426193237,
      "learning_rate": 4.381658623369445e-06,
      "loss": 0.1532,
      "num_input_tokens_seen": 2881456,
      "step": 4645
    },
    {
      "epoch": 8.288770053475936,
      "grad_norm": 0.5137624740600586,
      "learning_rate": 4.337773585272581e-06,
      "loss": 0.1694,
      "num_input_tokens_seen": 2884400,
      "step": 4650
    },
    {
      "epoch": 8.297682709447415,
      "grad_norm": 0.3794878125190735,
      "learning_rate": 4.294088536023652e-06,
      "loss": 0.1475,
      "num_input_tokens_seen": 2887536,
      "step": 4655
    },
    {
      "epoch": 8.306595365418895,
      "grad_norm": 0.6075329184532166,
      "learning_rate": 4.250603898448455e-06,
      "loss": 0.1811,
      "num_input_tokens_seen": 2890352,
      "step": 4660
    },
    {
      "epoch": 8.315508021390375,
      "grad_norm": 0.45767733454704285,
      "learning_rate": 4.2073200934330315e-06,
      "loss": 0.1871,
      "num_input_tokens_seen": 2893520,
      "step": 4665
    },
    {
      "epoch": 8.324420677361854,
      "grad_norm": 0.46819356083869934,
      "learning_rate": 4.164237539919577e-06,
      "loss": 0.1842,
      "num_input_tokens_seen": 2896048,
      "step": 4670
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.5235320329666138,
      "learning_rate": 4.121356654902364e-06,
      "loss": 0.164,
      "num_input_tokens_seen": 2899472,
      "step": 4675
    },
    {
      "epoch": 8.342245989304812,
      "grad_norm": 0.8180021047592163,
      "learning_rate": 4.078677853423724e-06,
      "loss": 0.1573,
      "num_input_tokens_seen": 2902832,
      "step": 4680
    },
    {
      "epoch": 8.351158645276293,
      "grad_norm": 0.9956904649734497,
      "learning_rate": 4.036201548570049e-06,
      "loss": 0.2367,
      "num_input_tokens_seen": 2906576,
      "step": 4685
    },
    {
      "epoch": 8.360071301247771,
      "grad_norm": 0.6165153980255127,
      "learning_rate": 3.993928151467766e-06,
      "loss": 0.1987,
      "num_input_tokens_seen": 2909840,
      "step": 4690
    },
    {
      "epoch": 8.368983957219251,
      "grad_norm": 0.48898622393608093,
      "learning_rate": 3.951858071279352e-06,
      "loss": 0.1454,
      "num_input_tokens_seen": 2912752,
      "step": 4695
    },
    {
      "epoch": 8.37789661319073,
      "grad_norm": 0.48024001717567444,
      "learning_rate": 3.909991715199412e-06,
      "loss": 0.1633,
      "num_input_tokens_seen": 2915024,
      "step": 4700
    },
    {
      "epoch": 8.38680926916221,
      "grad_norm": 0.4968958795070648,
      "learning_rate": 3.8683294884506945e-06,
      "loss": 0.1655,
      "num_input_tokens_seen": 2918480,
      "step": 4705
    },
    {
      "epoch": 8.39572192513369,
      "grad_norm": 0.5491753220558167,
      "learning_rate": 3.826871794280193e-06,
      "loss": 0.1729,
      "num_input_tokens_seen": 2921712,
      "step": 4710
    },
    {
      "epoch": 8.404634581105169,
      "grad_norm": 0.5808373093605042,
      "learning_rate": 3.7856190339552513e-06,
      "loss": 0.1851,
      "num_input_tokens_seen": 2925040,
      "step": 4715
    },
    {
      "epoch": 8.41354723707665,
      "grad_norm": 0.9629413485527039,
      "learning_rate": 3.7445716067596503e-06,
      "loss": 0.1578,
      "num_input_tokens_seen": 2928112,
      "step": 4720
    },
    {
      "epoch": 8.422459893048128,
      "grad_norm": 0.8614413142204285,
      "learning_rate": 3.7037299099897586e-06,
      "loss": 0.1865,
      "num_input_tokens_seen": 2932368,
      "step": 4725
    },
    {
      "epoch": 8.431372549019608,
      "grad_norm": 0.5639718770980835,
      "learning_rate": 3.663094338950704e-06,
      "loss": 0.1738,
      "num_input_tokens_seen": 2935088,
      "step": 4730
    },
    {
      "epoch": 8.440285204991087,
      "grad_norm": 0.5123082995414734,
      "learning_rate": 3.6226652869525285e-06,
      "loss": 0.1471,
      "num_input_tokens_seen": 2937840,
      "step": 4735
    },
    {
      "epoch": 8.449197860962567,
      "grad_norm": 0.5894414186477661,
      "learning_rate": 3.5824431453063662e-06,
      "loss": 0.1638,
      "num_input_tokens_seen": 2941008,
      "step": 4740
    },
    {
      "epoch": 8.458110516934047,
      "grad_norm": 0.34330514073371887,
      "learning_rate": 3.5424283033207024e-06,
      "loss": 0.1672,
      "num_input_tokens_seen": 2944464,
      "step": 4745
    },
    {
      "epoch": 8.467023172905526,
      "grad_norm": 0.37955033779144287,
      "learning_rate": 3.5026211482975497e-06,
      "loss": 0.1584,
      "num_input_tokens_seen": 2947376,
      "step": 4750
    },
    {
      "epoch": 8.475935828877006,
      "grad_norm": 0.9495477080345154,
      "learning_rate": 3.463022065528748e-06,
      "loss": 0.1767,
      "num_input_tokens_seen": 2950480,
      "step": 4755
    },
    {
      "epoch": 8.484848484848484,
      "grad_norm": 0.3263673782348633,
      "learning_rate": 3.4236314382922103e-06,
      "loss": 0.1429,
      "num_input_tokens_seen": 2953392,
      "step": 4760
    },
    {
      "epoch": 8.493761140819965,
      "grad_norm": 0.5537719130516052,
      "learning_rate": 3.3844496478482064e-06,
      "loss": 0.1588,
      "num_input_tokens_seen": 2956272,
      "step": 4765
    },
    {
      "epoch": 8.502673796791443,
      "grad_norm": 0.30169588327407837,
      "learning_rate": 3.345477073435685e-06,
      "loss": 0.167,
      "num_input_tokens_seen": 2959056,
      "step": 4770
    },
    {
      "epoch": 8.511586452762923,
      "grad_norm": 0.5430099964141846,
      "learning_rate": 3.3067140922686174e-06,
      "loss": 0.1655,
      "num_input_tokens_seen": 2962480,
      "step": 4775
    },
    {
      "epoch": 8.515151515151516,
      "eval_loss": 0.1827203780412674,
      "eval_runtime": 4.2534,
      "eval_samples_per_second": 58.541,
      "eval_steps_per_second": 14.812,
      "num_input_tokens_seen": 2963888,
      "step": 4777
    },
    {
      "epoch": 8.520499108734402,
      "grad_norm": 0.44720202684402466,
      "learning_rate": 3.268161079532317e-06,
      "loss": 0.1494,
      "num_input_tokens_seen": 2965360,
      "step": 4780
    },
    {
      "epoch": 8.529411764705882,
      "grad_norm": 0.3062620162963867,
      "learning_rate": 3.22981840837982e-06,
      "loss": 0.1712,
      "num_input_tokens_seen": 2968464,
      "step": 4785
    },
    {
      "epoch": 8.538324420677363,
      "grad_norm": 0.9861251711845398,
      "learning_rate": 3.1916864499282856e-06,
      "loss": 0.1779,
      "num_input_tokens_seen": 2972144,
      "step": 4790
    },
    {
      "epoch": 8.547237076648841,
      "grad_norm": 0.43644168972969055,
      "learning_rate": 3.1537655732553768e-06,
      "loss": 0.1509,
      "num_input_tokens_seen": 2974384,
      "step": 4795
    },
    {
      "epoch": 8.556149732620321,
      "grad_norm": 0.5110581517219543,
      "learning_rate": 3.1160561453957183e-06,
      "loss": 0.1578,
      "num_input_tokens_seen": 2977104,
      "step": 4800
    },
    {
      "epoch": 8.5650623885918,
      "grad_norm": 0.5604438781738281,
      "learning_rate": 3.078558531337336e-06,
      "loss": 0.1694,
      "num_input_tokens_seen": 2980464,
      "step": 4805
    },
    {
      "epoch": 8.57397504456328,
      "grad_norm": 0.5687141418457031,
      "learning_rate": 3.0412730940181015e-06,
      "loss": 0.1643,
      "num_input_tokens_seen": 2983248,
      "step": 4810
    },
    {
      "epoch": 8.582887700534759,
      "grad_norm": 0.9281808137893677,
      "learning_rate": 3.0042001943222376e-06,
      "loss": 0.165,
      "num_input_tokens_seen": 2986256,
      "step": 4815
    },
    {
      "epoch": 8.591800356506239,
      "grad_norm": 0.6919686794281006,
      "learning_rate": 2.967340191076834e-06,
      "loss": 0.1902,
      "num_input_tokens_seen": 2990256,
      "step": 4820
    },
    {
      "epoch": 8.60071301247772,
      "grad_norm": 0.7080613374710083,
      "learning_rate": 2.930693441048371e-06,
      "loss": 0.149,
      "num_input_tokens_seen": 2992592,
      "step": 4825
    },
    {
      "epoch": 8.609625668449198,
      "grad_norm": 0.5117068886756897,
      "learning_rate": 2.8942602989392386e-06,
      "loss": 0.174,
      "num_input_tokens_seen": 2995888,
      "step": 4830
    },
    {
      "epoch": 8.618538324420678,
      "grad_norm": 0.37796565890312195,
      "learning_rate": 2.858041117384341e-06,
      "loss": 0.148,
      "num_input_tokens_seen": 2999280,
      "step": 4835
    },
    {
      "epoch": 8.627450980392156,
      "grad_norm": 0.6607238054275513,
      "learning_rate": 2.8220362469476624e-06,
      "loss": 0.1541,
      "num_input_tokens_seen": 3002864,
      "step": 4840
    },
    {
      "epoch": 8.636363636363637,
      "grad_norm": 0.4288221001625061,
      "learning_rate": 2.7862460361188614e-06,
      "loss": 0.1521,
      "num_input_tokens_seen": 3004944,
      "step": 4845
    },
    {
      "epoch": 8.645276292335115,
      "grad_norm": 0.49076348543167114,
      "learning_rate": 2.750670831309957e-06,
      "loss": 0.1682,
      "num_input_tokens_seen": 3008464,
      "step": 4850
    },
    {
      "epoch": 8.654188948306595,
      "grad_norm": 0.615407407283783,
      "learning_rate": 2.7153109768518925e-06,
      "loss": 0.171,
      "num_input_tokens_seen": 3012240,
      "step": 4855
    },
    {
      "epoch": 8.663101604278076,
      "grad_norm": 0.5121405124664307,
      "learning_rate": 2.680166814991256e-06,
      "loss": 0.1606,
      "num_input_tokens_seen": 3015056,
      "step": 4860
    },
    {
      "epoch": 8.672014260249554,
      "grad_norm": 0.7262160778045654,
      "learning_rate": 2.645238685886961e-06,
      "loss": 0.2009,
      "num_input_tokens_seen": 3018160,
      "step": 4865
    },
    {
      "epoch": 8.680926916221035,
      "grad_norm": 0.5012710690498352,
      "learning_rate": 2.6105269276069573e-06,
      "loss": 0.1641,
      "num_input_tokens_seen": 3021392,
      "step": 4870
    },
    {
      "epoch": 8.689839572192513,
      "grad_norm": 0.681621789932251,
      "learning_rate": 2.5760318761249263e-06,
      "loss": 0.1751,
      "num_input_tokens_seen": 3024240,
      "step": 4875
    },
    {
      "epoch": 8.698752228163993,
      "grad_norm": 0.4795394539833069,
      "learning_rate": 2.541753865317076e-06,
      "loss": 0.171,
      "num_input_tokens_seen": 3026800,
      "step": 4880
    },
    {
      "epoch": 8.707664884135472,
      "grad_norm": 0.4269944429397583,
      "learning_rate": 2.507693226958871e-06,
      "loss": 0.1673,
      "num_input_tokens_seen": 3029968,
      "step": 4885
    },
    {
      "epoch": 8.716577540106952,
      "grad_norm": 0.6113168597221375,
      "learning_rate": 2.473850290721838e-06,
      "loss": 0.1568,
      "num_input_tokens_seen": 3032656,
      "step": 4890
    },
    {
      "epoch": 8.72549019607843,
      "grad_norm": 0.5832796692848206,
      "learning_rate": 2.4402253841703914e-06,
      "loss": 0.1645,
      "num_input_tokens_seen": 3035376,
      "step": 4895
    },
    {
      "epoch": 8.73440285204991,
      "grad_norm": 0.4533407986164093,
      "learning_rate": 2.4068188327586257e-06,
      "loss": 0.1798,
      "num_input_tokens_seen": 3038512,
      "step": 4900
    },
    {
      "epoch": 8.743315508021391,
      "grad_norm": 0.6923168897628784,
      "learning_rate": 2.373630959827186e-06,
      "loss": 0.161,
      "num_input_tokens_seen": 3041744,
      "step": 4905
    },
    {
      "epoch": 8.75222816399287,
      "grad_norm": 0.5411429405212402,
      "learning_rate": 2.3406620866001485e-06,
      "loss": 0.1696,
      "num_input_tokens_seen": 3045232,
      "step": 4910
    },
    {
      "epoch": 8.76114081996435,
      "grad_norm": 0.40592697262763977,
      "learning_rate": 2.3079125321818996e-06,
      "loss": 0.1636,
      "num_input_tokens_seen": 3047728,
      "step": 4915
    },
    {
      "epoch": 8.770053475935828,
      "grad_norm": 0.7785168886184692,
      "learning_rate": 2.275382613554031e-06,
      "loss": 0.1534,
      "num_input_tokens_seen": 3050864,
      "step": 4920
    },
    {
      "epoch": 8.778966131907309,
      "grad_norm": 0.46840912103652954,
      "learning_rate": 2.2430726455723113e-06,
      "loss": 0.1651,
      "num_input_tokens_seen": 3053680,
      "step": 4925
    },
    {
      "epoch": 8.787878787878787,
      "grad_norm": 0.5858107209205627,
      "learning_rate": 2.210982940963596e-06,
      "loss": 0.1632,
      "num_input_tokens_seen": 3057136,
      "step": 4930
    },
    {
      "epoch": 8.796791443850267,
      "grad_norm": 0.8381409049034119,
      "learning_rate": 2.1791138103228275e-06,
      "loss": 0.1736,
      "num_input_tokens_seen": 3060144,
      "step": 4935
    },
    {
      "epoch": 8.805704099821746,
      "grad_norm": 0.4155525863170624,
      "learning_rate": 2.1474655621100347e-06,
      "loss": 0.1759,
      "num_input_tokens_seen": 3063024,
      "step": 4940
    },
    {
      "epoch": 8.814616755793226,
      "grad_norm": 0.7829816937446594,
      "learning_rate": 2.116038502647319e-06,
      "loss": 0.1736,
      "num_input_tokens_seen": 3066320,
      "step": 4945
    },
    {
      "epoch": 8.823529411764707,
      "grad_norm": 0.44637227058410645,
      "learning_rate": 2.084832936115902e-06,
      "loss": 0.1513,
      "num_input_tokens_seen": 3069296,
      "step": 4950
    },
    {
      "epoch": 8.832442067736185,
      "grad_norm": 0.49461662769317627,
      "learning_rate": 2.0538491645531982e-06,
      "loss": 0.1745,
      "num_input_tokens_seen": 3071888,
      "step": 4955
    },
    {
      "epoch": 8.841354723707665,
      "grad_norm": 0.5589842200279236,
      "learning_rate": 2.0230874878498648e-06,
      "loss": 0.2835,
      "num_input_tokens_seen": 3075984,
      "step": 4960
    },
    {
      "epoch": 8.850267379679144,
      "grad_norm": 0.544204592704773,
      "learning_rate": 1.9925482037469188e-06,
      "loss": 0.1654,
      "num_input_tokens_seen": 3079152,
      "step": 4965
    },
    {
      "epoch": 8.859180035650624,
      "grad_norm": 0.5478450059890747,
      "learning_rate": 1.9622316078328566e-06,
      "loss": 0.1682,
      "num_input_tokens_seen": 3082544,
      "step": 4970
    },
    {
      "epoch": 8.868092691622103,
      "grad_norm": 0.5605227947235107,
      "learning_rate": 1.9321379935407697e-06,
      "loss": 0.145,
      "num_input_tokens_seen": 3085680,
      "step": 4975
    },
    {
      "epoch": 8.877005347593583,
      "grad_norm": 0.5030500292778015,
      "learning_rate": 1.9022676521455117e-06,
      "loss": 0.1795,
      "num_input_tokens_seen": 3089392,
      "step": 4980
    },
    {
      "epoch": 8.885918003565063,
      "grad_norm": 0.6063732504844666,
      "learning_rate": 1.8726208727609219e-06,
      "loss": 0.1604,
      "num_input_tokens_seen": 3092656,
      "step": 4985
    },
    {
      "epoch": 8.894830659536542,
      "grad_norm": 0.6032387018203735,
      "learning_rate": 1.8431979423369604e-06,
      "loss": 0.1646,
      "num_input_tokens_seen": 3095600,
      "step": 4990
    },
    {
      "epoch": 8.903743315508022,
      "grad_norm": 0.4930381774902344,
      "learning_rate": 1.8139991456569694e-06,
      "loss": 0.1622,
      "num_input_tokens_seen": 3098320,
      "step": 4995
    },
    {
      "epoch": 8.9126559714795,
      "grad_norm": 0.8425898551940918,
      "learning_rate": 1.7850247653349223e-06,
      "loss": 0.1554,
      "num_input_tokens_seen": 3101520,
      "step": 5000
    },
    {
      "epoch": 8.92156862745098,
      "grad_norm": 0.6207576394081116,
      "learning_rate": 1.7562750818126556e-06,
      "loss": 0.1733,
      "num_input_tokens_seen": 3104816,
      "step": 5005
    },
    {
      "epoch": 8.93048128342246,
      "grad_norm": 0.5085470676422119,
      "learning_rate": 1.727750373357187e-06,
      "loss": 0.1686,
      "num_input_tokens_seen": 3108176,
      "step": 5010
    },
    {
      "epoch": 8.93939393939394,
      "grad_norm": 0.4193607568740845,
      "learning_rate": 1.699450916058018e-06,
      "loss": 0.1473,
      "num_input_tokens_seen": 3111248,
      "step": 5015
    },
    {
      "epoch": 8.94830659536542,
      "grad_norm": 0.3501569330692291,
      "learning_rate": 1.6713769838244325e-06,
      "loss": 0.154,
      "num_input_tokens_seen": 3114224,
      "step": 5020
    },
    {
      "epoch": 8.957219251336898,
      "grad_norm": 0.40926966071128845,
      "learning_rate": 1.6435288483828748e-06,
      "loss": 0.1529,
      "num_input_tokens_seen": 3117232,
      "step": 5025
    },
    {
      "epoch": 8.966131907308379,
      "grad_norm": 0.3181830644607544,
      "learning_rate": 1.615906779274326e-06,
      "loss": 0.2044,
      "num_input_tokens_seen": 3120240,
      "step": 5030
    },
    {
      "epoch": 8.975044563279857,
      "grad_norm": 0.9511982798576355,
      "learning_rate": 1.588511043851662e-06,
      "loss": 0.2427,
      "num_input_tokens_seen": 3123792,
      "step": 5035
    },
    {
      "epoch": 8.983957219251337,
      "grad_norm": 0.3971862494945526,
      "learning_rate": 1.5613419072770864e-06,
      "loss": 0.1803,
      "num_input_tokens_seen": 3127184,
      "step": 5040
    },
    {
      "epoch": 8.992869875222816,
      "grad_norm": 0.527430534362793,
      "learning_rate": 1.534399632519573e-06,
      "loss": 0.1621,
      "num_input_tokens_seen": 3130480,
      "step": 5045
    },
    {
      "epoch": 9.001782531194296,
      "grad_norm": 0.4454513490200043,
      "learning_rate": 1.5076844803522922e-06,
      "loss": 0.1472,
      "num_input_tokens_seen": 3132712,
      "step": 5050
    },
    {
      "epoch": 9.010695187165775,
      "grad_norm": 0.8424109816551208,
      "learning_rate": 1.4811967093501189e-06,
      "loss": 0.1594,
      "num_input_tokens_seen": 3135400,
      "step": 5055
    },
    {
      "epoch": 9.016042780748663,
      "eval_loss": 0.18196314573287964,
      "eval_runtime": 4.2599,
      "eval_samples_per_second": 58.452,
      "eval_steps_per_second": 14.789,
      "num_input_tokens_seen": 3137352,
      "step": 5058
    },
    {
      "epoch": 9.019607843137255,
      "grad_norm": 0.8189364075660706,
      "learning_rate": 1.4549365758871142e-06,
      "loss": 0.1552,
      "num_input_tokens_seen": 3138248,
      "step": 5060
    },
    {
      "epoch": 9.028520499108735,
      "grad_norm": 0.40512701869010925,
      "learning_rate": 1.4289043341340375e-06,
      "loss": 0.1724,
      "num_input_tokens_seen": 3141480,
      "step": 5065
    },
    {
      "epoch": 9.037433155080214,
      "grad_norm": 0.5652516484260559,
      "learning_rate": 1.4031002360558849e-06,
      "loss": 0.1694,
      "num_input_tokens_seen": 3144904,
      "step": 5070
    },
    {
      "epoch": 9.046345811051694,
      "grad_norm": 0.5365282893180847,
      "learning_rate": 1.377524531409491e-06,
      "loss": 0.1725,
      "num_input_tokens_seen": 3148968,
      "step": 5075
    },
    {
      "epoch": 9.055258467023172,
      "grad_norm": 0.3831281065940857,
      "learning_rate": 1.3521774677410476e-06,
      "loss": 0.1522,
      "num_input_tokens_seen": 3151912,
      "step": 5080
    },
    {
      "epoch": 9.064171122994653,
      "grad_norm": 0.4094650149345398,
      "learning_rate": 1.3270592903837503e-06,
      "loss": 0.1649,
      "num_input_tokens_seen": 3155080,
      "step": 5085
    },
    {
      "epoch": 9.073083778966131,
      "grad_norm": 0.7728195786476135,
      "learning_rate": 1.3021702424554221e-06,
      "loss": 0.1512,
      "num_input_tokens_seen": 3157768,
      "step": 5090
    },
    {
      "epoch": 9.081996434937611,
      "grad_norm": 0.6765234470367432,
      "learning_rate": 1.2775105648561352e-06,
      "loss": 0.1841,
      "num_input_tokens_seen": 3161224,
      "step": 5095
    },
    {
      "epoch": 9.090909090909092,
      "grad_norm": 0.5181841254234314,
      "learning_rate": 1.2530804962659098e-06,
      "loss": 0.1716,
      "num_input_tokens_seen": 3163944,
      "step": 5100
    },
    {
      "epoch": 9.09982174688057,
      "grad_norm": 0.8874284625053406,
      "learning_rate": 1.2288802731423883e-06,
      "loss": 0.176,
      "num_input_tokens_seen": 3166728,
      "step": 5105
    },
    {
      "epoch": 9.10873440285205,
      "grad_norm": 0.6627284288406372,
      "learning_rate": 1.2049101297185422e-06,
      "loss": 0.1661,
      "num_input_tokens_seen": 3170120,
      "step": 5110
    },
    {
      "epoch": 9.117647058823529,
      "grad_norm": 0.7040612101554871,
      "learning_rate": 1.1811702980004058e-06,
      "loss": 0.1486,
      "num_input_tokens_seen": 3173000,
      "step": 5115
    },
    {
      "epoch": 9.12655971479501,
      "grad_norm": 0.6169217228889465,
      "learning_rate": 1.1576610077648513e-06,
      "loss": 0.1868,
      "num_input_tokens_seen": 3176520,
      "step": 5120
    },
    {
      "epoch": 9.135472370766488,
      "grad_norm": 0.464032381772995,
      "learning_rate": 1.134382486557342e-06,
      "loss": 0.1539,
      "num_input_tokens_seen": 3179496,
      "step": 5125
    },
    {
      "epoch": 9.144385026737968,
      "grad_norm": 0.679073691368103,
      "learning_rate": 1.1113349596897331e-06,
      "loss": 0.1429,
      "num_input_tokens_seen": 3182248,
      "step": 5130
    },
    {
      "epoch": 9.153297682709447,
      "grad_norm": 0.32752713561058044,
      "learning_rate": 1.0885186502381017e-06,
      "loss": 0.154,
      "num_input_tokens_seen": 3184840,
      "step": 5135
    },
    {
      "epoch": 9.162210338680927,
      "grad_norm": 0.6518117189407349,
      "learning_rate": 1.0659337790405704e-06,
      "loss": 0.1727,
      "num_input_tokens_seen": 3187720,
      "step": 5140
    },
    {
      "epoch": 9.171122994652407,
      "grad_norm": 0.6068860292434692,
      "learning_rate": 1.0435805646951958e-06,
      "loss": 0.1512,
      "num_input_tokens_seen": 3190536,
      "step": 5145
    },
    {
      "epoch": 9.180035650623886,
      "grad_norm": 0.42867806553840637,
      "learning_rate": 1.0214592235578274e-06,
      "loss": 0.162,
      "num_input_tokens_seen": 3193608,
      "step": 5150
    },
    {
      "epoch": 9.188948306595366,
      "grad_norm": 0.49051374197006226,
      "learning_rate": 9.995699697400247e-07,
      "loss": 0.181,
      "num_input_tokens_seen": 3196936,
      "step": 5155
    },
    {
      "epoch": 9.197860962566844,
      "grad_norm": 0.5725313425064087,
      "learning_rate": 9.77913015106982e-07,
      "loss": 0.1708,
      "num_input_tokens_seen": 3200040,
      "step": 5160
    },
    {
      "epoch": 9.206773618538325,
      "grad_norm": 0.9723972082138062,
      "learning_rate": 9.564885692754793e-07,
      "loss": 0.1814,
      "num_input_tokens_seen": 3203240,
      "step": 5165
    },
    {
      "epoch": 9.215686274509803,
      "grad_norm": 0.506613552570343,
      "learning_rate": 9.352968396118628e-07,
      "loss": 0.1726,
      "num_input_tokens_seen": 3206376,
      "step": 5170
    },
    {
      "epoch": 9.224598930481283,
      "grad_norm": 0.6921798586845398,
      "learning_rate": 9.143380312300137e-07,
      "loss": 0.1543,
      "num_input_tokens_seen": 3209480,
      "step": 5175
    },
    {
      "epoch": 9.233511586452764,
      "grad_norm": 0.5370962023735046,
      "learning_rate": 8.936123469893892e-07,
      "loss": 0.2448,
      "num_input_tokens_seen": 3213448,
      "step": 5180
    },
    {
      "epoch": 9.242424242424242,
      "grad_norm": 0.6006255745887756,
      "learning_rate": 8.731199874930374e-07,
      "loss": 0.1604,
      "num_input_tokens_seen": 3216776,
      "step": 5185
    },
    {
      "epoch": 9.251336898395722,
      "grad_norm": 0.5161803960800171,
      "learning_rate": 8.528611510856766e-07,
      "loss": 0.1543,
      "num_input_tokens_seen": 3219752,
      "step": 5190
    },
    {
      "epoch": 9.260249554367201,
      "grad_norm": 0.5216704607009888,
      "learning_rate": 8.328360338517583e-07,
      "loss": 0.1659,
      "num_input_tokens_seen": 3223048,
      "step": 5195
    },
    {
      "epoch": 9.269162210338681,
      "grad_norm": 0.43477028608322144,
      "learning_rate": 8.130448296135768e-07,
      "loss": 0.1847,
      "num_input_tokens_seen": 3226984,
      "step": 5200
    },
    {
      "epoch": 9.27807486631016,
      "grad_norm": 0.5066149234771729,
      "learning_rate": 7.934877299293875e-07,
      "loss": 0.1806,
      "num_input_tokens_seen": 3230088,
      "step": 5205
    },
    {
      "epoch": 9.28698752228164,
      "grad_norm": 0.9408987760543823,
      "learning_rate": 7.741649240915666e-07,
      "loss": 0.1692,
      "num_input_tokens_seen": 3232840,
      "step": 5210
    },
    {
      "epoch": 9.29590017825312,
      "grad_norm": 0.41510528326034546,
      "learning_rate": 7.550765991247654e-07,
      "loss": 0.144,
      "num_input_tokens_seen": 3235944,
      "step": 5215
    },
    {
      "epoch": 9.304812834224599,
      "grad_norm": 0.5157932043075562,
      "learning_rate": 7.362229397840981e-07,
      "loss": 0.1744,
      "num_input_tokens_seen": 3238728,
      "step": 5220
    },
    {
      "epoch": 9.313725490196079,
      "grad_norm": 0.44517961144447327,
      "learning_rate": 7.17604128553373e-07,
      "loss": 0.1478,
      "num_input_tokens_seen": 3241256,
      "step": 5225
    },
    {
      "epoch": 9.322638146167558,
      "grad_norm": 0.6294628977775574,
      "learning_rate": 6.992203456432977e-07,
      "loss": 0.1887,
      "num_input_tokens_seen": 3244680,
      "step": 5230
    },
    {
      "epoch": 9.331550802139038,
      "grad_norm": 0.3271355628967285,
      "learning_rate": 6.810717689897633e-07,
      "loss": 0.1474,
      "num_input_tokens_seen": 3247560,
      "step": 5235
    },
    {
      "epoch": 9.340463458110516,
      "grad_norm": 0.5900879502296448,
      "learning_rate": 6.631585742521068e-07,
      "loss": 0.1654,
      "num_input_tokens_seen": 3251176,
      "step": 5240
    },
    {
      "epoch": 9.349376114081997,
      "grad_norm": 1.2029948234558105,
      "learning_rate": 6.454809348114044e-07,
      "loss": 0.1985,
      "num_input_tokens_seen": 3254152,
      "step": 5245
    },
    {
      "epoch": 9.358288770053475,
      "grad_norm": 0.7293168902397156,
      "learning_rate": 6.280390217688114e-07,
      "loss": 0.1636,
      "num_input_tokens_seen": 3256744,
      "step": 5250
    },
    {
      "epoch": 9.367201426024955,
      "grad_norm": 0.28766605257987976,
      "learning_rate": 6.108330039438892e-07,
      "loss": 0.1729,
      "num_input_tokens_seen": 3259400,
      "step": 5255
    },
    {
      "epoch": 9.376114081996436,
      "grad_norm": 0.7399141788482666,
      "learning_rate": 5.938630478729917e-07,
      "loss": 0.1547,
      "num_input_tokens_seen": 3262728,
      "step": 5260
    },
    {
      "epoch": 9.385026737967914,
      "grad_norm": 0.45791682600975037,
      "learning_rate": 5.771293178076286e-07,
      "loss": 0.1693,
      "num_input_tokens_seen": 3266376,
      "step": 5265
    },
    {
      "epoch": 9.393939393939394,
      "grad_norm": 0.6668148636817932,
      "learning_rate": 5.606319757128914e-07,
      "loss": 0.169,
      "num_input_tokens_seen": 3268808,
      "step": 5270
    },
    {
      "epoch": 9.402852049910873,
      "grad_norm": 0.580091655254364,
      "learning_rate": 5.443711812658792e-07,
      "loss": 0.174,
      "num_input_tokens_seen": 3272008,
      "step": 5275
    },
    {
      "epoch": 9.411764705882353,
      "grad_norm": 0.47462576627731323,
      "learning_rate": 5.283470918541616e-07,
      "loss": 0.1395,
      "num_input_tokens_seen": 3274920,
      "step": 5280
    },
    {
      "epoch": 9.420677361853832,
      "grad_norm": 0.4406573474407196,
      "learning_rate": 5.125598625742523e-07,
      "loss": 0.1781,
      "num_input_tokens_seen": 3278376,
      "step": 5285
    },
    {
      "epoch": 9.429590017825312,
      "grad_norm": 0.4939647614955902,
      "learning_rate": 4.970096462300927e-07,
      "loss": 0.1745,
      "num_input_tokens_seen": 3281704,
      "step": 5290
    },
    {
      "epoch": 9.43850267379679,
      "grad_norm": 0.3747076988220215,
      "learning_rate": 4.816965933315987e-07,
      "loss": 0.1692,
      "num_input_tokens_seen": 3285256,
      "step": 5295
    },
    {
      "epoch": 9.44741532976827,
      "grad_norm": 0.5448613166809082,
      "learning_rate": 4.6662085209318305e-07,
      "loss": 0.1651,
      "num_input_tokens_seen": 3288616,
      "step": 5300
    },
    {
      "epoch": 9.456327985739751,
      "grad_norm": 0.5583840608596802,
      "learning_rate": 4.517825684323324e-07,
      "loss": 0.1549,
      "num_input_tokens_seen": 3291752,
      "step": 5305
    },
    {
      "epoch": 9.46524064171123,
      "grad_norm": 0.4584488272666931,
      "learning_rate": 4.3718188596819086e-07,
      "loss": 0.1519,
      "num_input_tokens_seen": 3294344,
      "step": 5310
    },
    {
      "epoch": 9.47415329768271,
      "grad_norm": 0.6175810694694519,
      "learning_rate": 4.228189460201676e-07,
      "loss": 0.1706,
      "num_input_tokens_seen": 3297512,
      "step": 5315
    },
    {
      "epoch": 9.483065953654188,
      "grad_norm": 0.5118115544319153,
      "learning_rate": 4.086938876065732e-07,
      "loss": 0.1538,
      "num_input_tokens_seen": 3300296,
      "step": 5320
    },
    {
      "epoch": 9.491978609625669,
      "grad_norm": 0.5376412868499756,
      "learning_rate": 3.948068474432715e-07,
      "loss": 0.274,
      "num_input_tokens_seen": 3304360,
      "step": 5325
    },
    {
      "epoch": 9.500891265597147,
      "grad_norm": 0.5221200585365295,
      "learning_rate": 3.8115795994236313e-07,
      "loss": 0.1658,
      "num_input_tokens_seen": 3307304,
      "step": 5330
    },
    {
      "epoch": 9.509803921568627,
      "grad_norm": 0.4227612316608429,
      "learning_rate": 3.6774735721087085e-07,
      "loss": 0.1618,
      "num_input_tokens_seen": 3310536,
      "step": 5335
    },
    {
      "epoch": 9.516934046345812,
      "eval_loss": 0.183439701795578,
      "eval_runtime": 4.2535,
      "eval_samples_per_second": 58.539,
      "eval_steps_per_second": 14.811,
      "num_input_tokens_seen": 3312648,
      "step": 5339
    },
    {
      "epoch": 9.518716577540108,
      "grad_norm": 0.601445734500885,
      "learning_rate": 3.5457516904947587e-07,
      "loss": 0.1771,
      "num_input_tokens_seen": 3313672,
      "step": 5340
    },
    {
      "epoch": 9.527629233511586,
      "grad_norm": 0.5191211700439453,
      "learning_rate": 3.416415229512443e-07,
      "loss": 0.1688,
      "num_input_tokens_seen": 3317224,
      "step": 5345
    },
    {
      "epoch": 9.536541889483066,
      "grad_norm": 0.6869432330131531,
      "learning_rate": 3.2894654410041417e-07,
      "loss": 0.1661,
      "num_input_tokens_seen": 3319848,
      "step": 5350
    },
    {
      "epoch": 9.545454545454545,
      "grad_norm": 0.905884325504303,
      "learning_rate": 3.1649035537117123e-07,
      "loss": 0.1521,
      "num_input_tokens_seen": 3322664,
      "step": 5355
    },
    {
      "epoch": 9.554367201426025,
      "grad_norm": 0.5753766894340515,
      "learning_rate": 3.042730773264557e-07,
      "loss": 0.1512,
      "num_input_tokens_seen": 3325928,
      "step": 5360
    },
    {
      "epoch": 9.563279857397504,
      "grad_norm": 0.5148957967758179,
      "learning_rate": 2.9229482821680197e-07,
      "loss": 0.1496,
      "num_input_tokens_seen": 3328680,
      "step": 5365
    },
    {
      "epoch": 9.572192513368984,
      "grad_norm": 0.47426876425743103,
      "learning_rate": 2.8055572397919784e-07,
      "loss": 0.152,
      "num_input_tokens_seen": 3331976,
      "step": 5370
    },
    {
      "epoch": 9.581105169340464,
      "grad_norm": 0.5953306555747986,
      "learning_rate": 2.690558782359576e-07,
      "loss": 0.1609,
      "num_input_tokens_seen": 3334888,
      "step": 5375
    },
    {
      "epoch": 9.590017825311943,
      "grad_norm": 0.49842748045921326,
      "learning_rate": 2.5779540229361745e-07,
      "loss": 0.1822,
      "num_input_tokens_seen": 3337960,
      "step": 5380
    },
    {
      "epoch": 9.598930481283423,
      "grad_norm": 0.6325761079788208,
      "learning_rate": 2.467744051418641e-07,
      "loss": 0.155,
      "num_input_tokens_seen": 3340936,
      "step": 5385
    },
    {
      "epoch": 9.607843137254902,
      "grad_norm": 0.8439469933509827,
      "learning_rate": 2.3599299345248292e-07,
      "loss": 0.1561,
      "num_input_tokens_seen": 3343784,
      "step": 5390
    },
    {
      "epoch": 9.616755793226382,
      "grad_norm": 0.7139554619789124,
      "learning_rate": 2.2545127157831413e-07,
      "loss": 0.1669,
      "num_input_tokens_seen": 3347016,
      "step": 5395
    },
    {
      "epoch": 9.62566844919786,
      "grad_norm": 0.3963601291179657,
      "learning_rate": 2.1514934155226208e-07,
      "loss": 0.1412,
      "num_input_tokens_seen": 3349800,
      "step": 5400
    },
    {
      "epoch": 9.63458110516934,
      "grad_norm": 0.5459052324295044,
      "learning_rate": 2.0508730308627933e-07,
      "loss": 0.1527,
      "num_input_tokens_seen": 3353640,
      "step": 5405
    },
    {
      "epoch": 9.643493761140821,
      "grad_norm": 0.7221339344978333,
      "learning_rate": 1.9526525357043136e-07,
      "loss": 0.1708,
      "num_input_tokens_seen": 3356904,
      "step": 5410
    },
    {
      "epoch": 9.6524064171123,
      "grad_norm": 0.39834100008010864,
      "learning_rate": 1.8568328807193337e-07,
      "loss": 0.1623,
      "num_input_tokens_seen": 3360232,
      "step": 5415
    },
    {
      "epoch": 9.66131907308378,
      "grad_norm": 0.3296028673648834,
      "learning_rate": 1.7634149933423993e-07,
      "loss": 0.1723,
      "num_input_tokens_seen": 3362824,
      "step": 5420
    },
    {
      "epoch": 9.670231729055258,
      "grad_norm": 0.6187313199043274,
      "learning_rate": 1.6723997777614574e-07,
      "loss": 0.2013,
      "num_input_tokens_seen": 3366152,
      "step": 5425
    },
    {
      "epoch": 9.679144385026738,
      "grad_norm": 0.4088561236858368,
      "learning_rate": 1.5837881149090294e-07,
      "loss": 0.1668,
      "num_input_tokens_seen": 3369192,
      "step": 5430
    },
    {
      "epoch": 9.688057040998217,
      "grad_norm": 0.6721343994140625,
      "learning_rate": 1.497580862453829e-07,
      "loss": 0.1767,
      "num_input_tokens_seen": 3372776,
      "step": 5435
    },
    {
      "epoch": 9.696969696969697,
      "grad_norm": 0.6333170533180237,
      "learning_rate": 1.4137788547923246e-07,
      "loss": 0.1829,
      "num_input_tokens_seen": 3376232,
      "step": 5440
    },
    {
      "epoch": 9.705882352941176,
      "grad_norm": 0.6064999103546143,
      "learning_rate": 1.3323829030407465e-07,
      "loss": 0.1916,
      "num_input_tokens_seen": 3379912,
      "step": 5445
    },
    {
      "epoch": 9.714795008912656,
      "grad_norm": 0.5454294085502625,
      "learning_rate": 1.2533937950272023e-07,
      "loss": 0.1639,
      "num_input_tokens_seen": 3382824,
      "step": 5450
    },
    {
      "epoch": 9.723707664884136,
      "grad_norm": 0.4902726411819458,
      "learning_rate": 1.176812295283991e-07,
      "loss": 0.1577,
      "num_input_tokens_seen": 3385640,
      "step": 5455
    },
    {
      "epoch": 9.732620320855615,
      "grad_norm": 0.4689973294734955,
      "learning_rate": 1.1026391450404128e-07,
      "loss": 0.1652,
      "num_input_tokens_seen": 3389672,
      "step": 5460
    },
    {
      "epoch": 9.741532976827095,
      "grad_norm": 0.6127117276191711,
      "learning_rate": 1.0308750622153307e-07,
      "loss": 0.1815,
      "num_input_tokens_seen": 3393096,
      "step": 5465
    },
    {
      "epoch": 9.750445632798574,
      "grad_norm": 0.40860888361930847,
      "learning_rate": 9.615207414103434e-08,
      "loss": 0.149,
      "num_input_tokens_seen": 3396136,
      "step": 5470
    },
    {
      "epoch": 9.759358288770054,
      "grad_norm": 0.5143342018127441,
      "learning_rate": 8.945768539031785e-08,
      "loss": 0.1785,
      "num_input_tokens_seen": 3399304,
      "step": 5475
    },
    {
      "epoch": 9.768270944741532,
      "grad_norm": 0.599516749382019,
      "learning_rate": 8.30044047640921e-08,
      "loss": 0.1617,
      "num_input_tokens_seen": 3402216,
      "step": 5480
    },
    {
      "epoch": 9.777183600713013,
      "grad_norm": 0.37185174226760864,
      "learning_rate": 7.679229472340176e-08,
      "loss": 0.1554,
      "num_input_tokens_seen": 3405096,
      "step": 5485
    },
    {
      "epoch": 9.786096256684491,
      "grad_norm": 0.4413319528102875,
      "learning_rate": 7.082141539500597e-08,
      "loss": 0.1639,
      "num_input_tokens_seen": 3407912,
      "step": 5490
    },
    {
      "epoch": 9.795008912655971,
      "grad_norm": 0.7090705633163452,
      "learning_rate": 6.509182457080376e-08,
      "loss": 0.1679,
      "num_input_tokens_seen": 3410856,
      "step": 5495
    },
    {
      "epoch": 9.803921568627452,
      "grad_norm": 0.5437349677085876,
      "learning_rate": 5.9603577707267875e-08,
      "loss": 0.1559,
      "num_input_tokens_seen": 3413928,
      "step": 5500
    },
    {
      "epoch": 9.81283422459893,
      "grad_norm": 0.5729760527610779,
      "learning_rate": 5.435672792491742e-08,
      "loss": 0.1623,
      "num_input_tokens_seen": 3417416,
      "step": 5505
    },
    {
      "epoch": 9.82174688057041,
      "grad_norm": 0.38444051146507263,
      "learning_rate": 4.935132600780157e-08,
      "loss": 0.1769,
      "num_input_tokens_seen": 3420136,
      "step": 5510
    },
    {
      "epoch": 9.830659536541889,
      "grad_norm": 0.4345572292804718,
      "learning_rate": 4.4587420402997235e-08,
      "loss": 0.1537,
      "num_input_tokens_seen": 3423272,
      "step": 5515
    },
    {
      "epoch": 9.83957219251337,
      "grad_norm": 0.44134852290153503,
      "learning_rate": 4.006505722015386e-08,
      "loss": 0.1499,
      "num_input_tokens_seen": 3426472,
      "step": 5520
    },
    {
      "epoch": 9.848484848484848,
      "grad_norm": 0.6951932907104492,
      "learning_rate": 3.578428023103819e-08,
      "loss": 0.1725,
      "num_input_tokens_seen": 3429992,
      "step": 5525
    },
    {
      "epoch": 9.857397504456328,
      "grad_norm": 0.47553181648254395,
      "learning_rate": 3.1745130869123566e-08,
      "loss": 0.1554,
      "num_input_tokens_seen": 3432456,
      "step": 5530
    },
    {
      "epoch": 9.866310160427808,
      "grad_norm": 0.5962952375411987,
      "learning_rate": 2.794764822916518e-08,
      "loss": 0.1618,
      "num_input_tokens_seen": 3434888,
      "step": 5535
    },
    {
      "epoch": 9.875222816399287,
      "grad_norm": 0.4873346984386444,
      "learning_rate": 2.4391869066844874e-08,
      "loss": 0.1773,
      "num_input_tokens_seen": 3437832,
      "step": 5540
    },
    {
      "epoch": 9.884135472370767,
      "grad_norm": 0.65750652551651,
      "learning_rate": 2.1077827798404726e-08,
      "loss": 0.1697,
      "num_input_tokens_seen": 3440872,
      "step": 5545
    },
    {
      "epoch": 9.893048128342246,
      "grad_norm": 0.4054161012172699,
      "learning_rate": 1.8005556500313993e-08,
      "loss": 0.1495,
      "num_input_tokens_seen": 3443784,
      "step": 5550
    },
    {
      "epoch": 9.901960784313726,
      "grad_norm": 0.605219841003418,
      "learning_rate": 1.51750849089638e-08,
      "loss": 0.1643,
      "num_input_tokens_seen": 3447592,
      "step": 5555
    },
    {
      "epoch": 9.910873440285204,
      "grad_norm": 0.3572712540626526,
      "learning_rate": 1.2586440420372936e-08,
      "loss": 0.1714,
      "num_input_tokens_seen": 3451048,
      "step": 5560
    },
    {
      "epoch": 9.919786096256685,
      "grad_norm": 0.5080024600028992,
      "learning_rate": 1.023964808992417e-08,
      "loss": 0.1497,
      "num_input_tokens_seen": 3453928,
      "step": 5565
    },
    {
      "epoch": 9.928698752228165,
      "grad_norm": 0.5494665503501892,
      "learning_rate": 8.134730632125554e-09,
      "loss": 0.1739,
      "num_input_tokens_seen": 3456968,
      "step": 5570
    },
    {
      "epoch": 9.937611408199643,
      "grad_norm": 0.5445519089698792,
      "learning_rate": 6.271708420385603e-09,
      "loss": 0.1683,
      "num_input_tokens_seen": 3460616,
      "step": 5575
    },
    {
      "epoch": 9.946524064171124,
      "grad_norm": 0.4502975046634674,
      "learning_rate": 4.650599486827334e-09,
      "loss": 0.1625,
      "num_input_tokens_seen": 3463592,
      "step": 5580
    },
    {
      "epoch": 9.955436720142602,
      "grad_norm": 0.713843047618866,
      "learning_rate": 3.2714195220912013e-09,
      "loss": 0.1604,
      "num_input_tokens_seen": 3466888,
      "step": 5585
    },
    {
      "epoch": 9.964349376114082,
      "grad_norm": 0.457069456577301,
      "learning_rate": 2.134181875204644e-09,
      "loss": 0.1602,
      "num_input_tokens_seen": 3470408,
      "step": 5590
    },
    {
      "epoch": 9.973262032085561,
      "grad_norm": 0.5743651390075684,
      "learning_rate": 1.2388975534460834e-09,
      "loss": 0.1584,
      "num_input_tokens_seen": 3473608,
      "step": 5595
    },
    {
      "epoch": 9.982174688057041,
      "grad_norm": 0.41813942790031433,
      "learning_rate": 5.855752222366783e-10,
      "loss": 0.163,
      "num_input_tokens_seen": 3476616,
      "step": 5600
    },
    {
      "epoch": 9.99108734402852,
      "grad_norm": 0.4171542227268219,
      "learning_rate": 1.7422120505705686e-10,
      "loss": 0.1549,
      "num_input_tokens_seen": 3479624,
      "step": 5605
    },
    {
      "epoch": 10.0,
      "grad_norm": 1.7215794324874878,
      "learning_rate": 4.839483383478616e-12,
      "loss": 0.1694,
      "num_input_tokens_seen": 3481336,
      "step": 5610
    },
    {
      "epoch": 10.0,
      "num_input_tokens_seen": 3481336,
      "step": 5610,
      "total_flos": 1.5676298662753075e+17,
      "train_loss": 0.9318533902924754,
      "train_runtime": 970.4341,
      "train_samples_per_second": 23.093,
      "train_steps_per_second": 5.781
    }
  ],
  "logging_steps": 5,
  "max_steps": 5610,
  "num_input_tokens_seen": 3481336,
  "num_train_epochs": 10,
  "save_steps": 281,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5676298662753075e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}