{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.999438517686693,
  "eval_steps": 500,
  "global_step": 2374,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0008422234699606962,
      "grad_norm": 5.7768988609313965,
      "learning_rate": 4.2016806722689076e-08,
      "loss": 0.8113,
      "step": 1
    },
    {
      "epoch": 0.0016844469399213925,
      "grad_norm": 5.731627464294434,
      "learning_rate": 8.403361344537815e-08,
      "loss": 0.818,
      "step": 2
    },
    {
      "epoch": 0.0025266704098820887,
      "grad_norm": 5.819666385650635,
      "learning_rate": 1.2605042016806723e-07,
      "loss": 0.842,
      "step": 3
    },
    {
      "epoch": 0.003368893879842785,
      "grad_norm": 5.789472579956055,
      "learning_rate": 1.680672268907563e-07,
      "loss": 0.8421,
      "step": 4
    },
    {
      "epoch": 0.004211117349803481,
      "grad_norm": 5.922956943511963,
      "learning_rate": 2.100840336134454e-07,
      "loss": 0.8597,
      "step": 5
    },
    {
      "epoch": 0.0050533408197641775,
      "grad_norm": 5.972035884857178,
      "learning_rate": 2.5210084033613445e-07,
      "loss": 0.8675,
      "step": 6
    },
    {
      "epoch": 0.005895564289724873,
      "grad_norm": 5.996291160583496,
      "learning_rate": 2.9411764705882356e-07,
      "loss": 0.8983,
      "step": 7
    },
    {
      "epoch": 0.00673778775968557,
      "grad_norm": 6.004457950592041,
      "learning_rate": 3.361344537815126e-07,
      "loss": 0.8642,
      "step": 8
    },
    {
      "epoch": 0.007580011229646266,
      "grad_norm": 5.819654941558838,
      "learning_rate": 3.781512605042017e-07,
      "loss": 0.85,
      "step": 9
    },
    {
      "epoch": 0.008422234699606962,
      "grad_norm": 5.636547565460205,
      "learning_rate": 4.201680672268908e-07,
      "loss": 0.8436,
      "step": 10
    },
    {
      "epoch": 0.009264458169567658,
      "grad_norm": 5.602560997009277,
      "learning_rate": 4.621848739495799e-07,
      "loss": 0.8483,
      "step": 11
    },
    {
      "epoch": 0.010106681639528355,
      "grad_norm": 5.52314567565918,
      "learning_rate": 5.042016806722689e-07,
      "loss": 0.8403,
      "step": 12
    },
    {
      "epoch": 0.010948905109489052,
      "grad_norm": 5.347902297973633,
      "learning_rate": 5.46218487394958e-07,
      "loss": 0.8511,
      "step": 13
    },
    {
      "epoch": 0.011791128579449747,
      "grad_norm": 5.512572288513184,
      "learning_rate": 5.882352941176471e-07,
      "loss": 0.867,
      "step": 14
    },
    {
      "epoch": 0.012633352049410443,
      "grad_norm": 5.22590970993042,
      "learning_rate": 6.302521008403362e-07,
      "loss": 0.8514,
      "step": 15
    },
    {
      "epoch": 0.01347557551937114,
      "grad_norm": 4.2573089599609375,
      "learning_rate": 6.722689075630252e-07,
      "loss": 0.7582,
      "step": 16
    },
    {
      "epoch": 0.014317798989331837,
      "grad_norm": 4.438131332397461,
      "learning_rate": 7.142857142857143e-07,
      "loss": 0.8337,
      "step": 17
    },
    {
      "epoch": 0.015160022459292532,
      "grad_norm": 4.10771369934082,
      "learning_rate": 7.563025210084034e-07,
      "loss": 0.7963,
      "step": 18
    },
    {
      "epoch": 0.016002245929253228,
      "grad_norm": 4.030022144317627,
      "learning_rate": 7.983193277310924e-07,
      "loss": 0.8114,
      "step": 19
    },
    {
      "epoch": 0.016844469399213923,
      "grad_norm": 4.121491432189941,
      "learning_rate": 8.403361344537816e-07,
      "loss": 0.791,
      "step": 20
    },
    {
      "epoch": 0.01768669286917462,
      "grad_norm": 2.381915807723999,
      "learning_rate": 8.823529411764707e-07,
      "loss": 0.7625,
      "step": 21
    },
    {
      "epoch": 0.018528916339135316,
      "grad_norm": 2.270573377609253,
      "learning_rate": 9.243697478991598e-07,
      "loss": 0.7494,
      "step": 22
    },
    {
      "epoch": 0.019371139809096015,
      "grad_norm": 2.193192481994629,
      "learning_rate": 9.66386554621849e-07,
      "loss": 0.7347,
      "step": 23
    },
    {
      "epoch": 0.02021336327905671,
      "grad_norm": 2.194532871246338,
      "learning_rate": 1.0084033613445378e-06,
      "loss": 0.7729,
      "step": 24
    },
    {
      "epoch": 0.021055586749017405,
      "grad_norm": 2.0679972171783447,
      "learning_rate": 1.050420168067227e-06,
      "loss": 0.7804,
      "step": 25
    },
    {
      "epoch": 0.021897810218978103,
      "grad_norm": 2.0880534648895264,
      "learning_rate": 1.092436974789916e-06,
      "loss": 0.7977,
      "step": 26
    },
    {
      "epoch": 0.022740033688938798,
      "grad_norm": 1.864961862564087,
      "learning_rate": 1.1344537815126051e-06,
      "loss": 0.7595,
      "step": 27
    },
    {
      "epoch": 0.023582257158899493,
      "grad_norm": 1.5510731935501099,
      "learning_rate": 1.1764705882352942e-06,
      "loss": 0.7411,
      "step": 28
    },
    {
      "epoch": 0.02442448062886019,
      "grad_norm": 1.7347105741500854,
      "learning_rate": 1.2184873949579833e-06,
      "loss": 0.698,
      "step": 29
    },
    {
      "epoch": 0.025266704098820886,
      "grad_norm": 2.369058132171631,
      "learning_rate": 1.2605042016806724e-06,
      "loss": 0.7517,
      "step": 30
    },
    {
      "epoch": 0.026108927568781585,
      "grad_norm": 2.4068562984466553,
      "learning_rate": 1.3025210084033615e-06,
      "loss": 0.7105,
      "step": 31
    },
    {
      "epoch": 0.02695115103874228,
      "grad_norm": 2.479485034942627,
      "learning_rate": 1.3445378151260504e-06,
      "loss": 0.7163,
      "step": 32
    },
    {
      "epoch": 0.027793374508702975,
      "grad_norm": 2.282555103302002,
      "learning_rate": 1.3865546218487397e-06,
      "loss": 0.701,
      "step": 33
    },
    {
      "epoch": 0.028635597978663673,
      "grad_norm": 2.169210195541382,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 0.6869,
      "step": 34
    },
    {
      "epoch": 0.029477821448624368,
      "grad_norm": 2.0979490280151367,
      "learning_rate": 1.4705882352941177e-06,
      "loss": 0.7202,
      "step": 35
    },
    {
      "epoch": 0.030320044918585063,
      "grad_norm": 1.7629475593566895,
      "learning_rate": 1.5126050420168068e-06,
      "loss": 0.6769,
      "step": 36
    },
    {
      "epoch": 0.03116226838854576,
      "grad_norm": 1.430646300315857,
      "learning_rate": 1.554621848739496e-06,
      "loss": 0.66,
      "step": 37
    },
    {
      "epoch": 0.032004491858506456,
      "grad_norm": 1.1601364612579346,
      "learning_rate": 1.5966386554621848e-06,
      "loss": 0.6998,
      "step": 38
    },
    {
      "epoch": 0.032846715328467155,
      "grad_norm": 0.93788081407547,
      "learning_rate": 1.6386554621848741e-06,
      "loss": 0.6964,
      "step": 39
    },
    {
      "epoch": 0.033688938798427846,
      "grad_norm": 1.0562162399291992,
      "learning_rate": 1.6806722689075632e-06,
      "loss": 0.6571,
      "step": 40
    },
    {
      "epoch": 0.034531162268388545,
      "grad_norm": 1.1477681398391724,
      "learning_rate": 1.7226890756302521e-06,
      "loss": 0.6703,
      "step": 41
    },
    {
      "epoch": 0.03537338573834924,
      "grad_norm": 1.1140531301498413,
      "learning_rate": 1.7647058823529414e-06,
      "loss": 0.6525,
      "step": 42
    },
    {
      "epoch": 0.03621560920830994,
      "grad_norm": 1.0467126369476318,
      "learning_rate": 1.8067226890756303e-06,
      "loss": 0.6629,
      "step": 43
    },
    {
      "epoch": 0.03705783267827063,
      "grad_norm": 0.9986099600791931,
      "learning_rate": 1.8487394957983196e-06,
      "loss": 0.632,
      "step": 44
    },
    {
      "epoch": 0.03790005614823133,
      "grad_norm": 0.896362841129303,
      "learning_rate": 1.8907563025210085e-06,
      "loss": 0.6578,
      "step": 45
    },
    {
      "epoch": 0.03874227961819203,
      "grad_norm": 0.8044902682304382,
      "learning_rate": 1.932773109243698e-06,
      "loss": 0.6319,
      "step": 46
    },
    {
      "epoch": 0.03958450308815272,
      "grad_norm": 0.9152190089225769,
      "learning_rate": 1.9747899159663867e-06,
      "loss": 0.6617,
      "step": 47
    },
    {
      "epoch": 0.04042672655811342,
      "grad_norm": 0.7715526819229126,
      "learning_rate": 2.0168067226890756e-06,
      "loss": 0.6135,
      "step": 48
    },
    {
      "epoch": 0.04126895002807412,
      "grad_norm": 0.7812612056732178,
      "learning_rate": 2.058823529411765e-06,
      "loss": 0.6342,
      "step": 49
    },
    {
      "epoch": 0.04211117349803481,
      "grad_norm": 0.6552374362945557,
      "learning_rate": 2.100840336134454e-06,
      "loss": 0.5865,
      "step": 50
    },
    {
      "epoch": 0.04295339696799551,
      "grad_norm": 0.7589167952537537,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 0.6229,
      "step": 51
    },
    {
      "epoch": 0.043795620437956206,
      "grad_norm": 0.7374545931816101,
      "learning_rate": 2.184873949579832e-06,
      "loss": 0.6199,
      "step": 52
    },
    {
      "epoch": 0.0446378439079169,
      "grad_norm": 0.8155503273010254,
      "learning_rate": 2.2268907563025214e-06,
      "loss": 0.6464,
      "step": 53
    },
    {
      "epoch": 0.045480067377877596,
      "grad_norm": 0.6916953921318054,
      "learning_rate": 2.2689075630252102e-06,
      "loss": 0.6361,
      "step": 54
    },
    {
      "epoch": 0.046322290847838295,
      "grad_norm": 0.6208617091178894,
      "learning_rate": 2.3109243697478996e-06,
      "loss": 0.6376,
      "step": 55
    },
    {
      "epoch": 0.047164514317798986,
      "grad_norm": 0.62248295545578,
      "learning_rate": 2.3529411764705885e-06,
      "loss": 0.62,
      "step": 56
    },
    {
      "epoch": 0.048006737787759685,
      "grad_norm": 0.7103480100631714,
      "learning_rate": 2.3949579831932778e-06,
      "loss": 0.6149,
      "step": 57
    },
    {
      "epoch": 0.04884896125772038,
      "grad_norm": 0.6407179832458496,
      "learning_rate": 2.4369747899159667e-06,
      "loss": 0.5992,
      "step": 58
    },
    {
      "epoch": 0.04969118472768108,
      "grad_norm": 0.5312304496765137,
      "learning_rate": 2.4789915966386555e-06,
      "loss": 0.5624,
      "step": 59
    },
    {
      "epoch": 0.05053340819764177,
      "grad_norm": 0.5585108995437622,
      "learning_rate": 2.521008403361345e-06,
      "loss": 0.6376,
      "step": 60
    },
    {
      "epoch": 0.05137563166760247,
      "grad_norm": 0.5075804591178894,
      "learning_rate": 2.5630252100840338e-06,
      "loss": 0.594,
      "step": 61
    },
    {
      "epoch": 0.05221785513756317,
      "grad_norm": 0.553887665271759,
      "learning_rate": 2.605042016806723e-06,
      "loss": 0.5851,
      "step": 62
    },
    {
      "epoch": 0.05306007860752386,
      "grad_norm": 0.5332914590835571,
      "learning_rate": 2.647058823529412e-06,
      "loss": 0.5962,
      "step": 63
    },
    {
      "epoch": 0.05390230207748456,
      "grad_norm": 0.5893709659576416,
      "learning_rate": 2.689075630252101e-06,
      "loss": 0.56,
      "step": 64
    },
    {
      "epoch": 0.05474452554744526,
      "grad_norm": 0.5191048383712769,
      "learning_rate": 2.7310924369747897e-06,
      "loss": 0.5687,
      "step": 65
    },
    {
      "epoch": 0.05558674901740595,
      "grad_norm": 0.5329380631446838,
      "learning_rate": 2.7731092436974795e-06,
      "loss": 0.5934,
      "step": 66
    },
    {
      "epoch": 0.05642897248736665,
      "grad_norm": 0.49743789434432983,
      "learning_rate": 2.8151260504201684e-06,
      "loss": 0.5699,
      "step": 67
    },
    {
      "epoch": 0.057271195957327346,
      "grad_norm": 0.5252020955085754,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 0.5562,
      "step": 68
    },
    {
      "epoch": 0.05811341942728804,
      "grad_norm": 0.5259252786636353,
      "learning_rate": 2.8991596638655466e-06,
      "loss": 0.5786,
      "step": 69
    },
    {
      "epoch": 0.058955642897248736,
      "grad_norm": 0.49659883975982666,
      "learning_rate": 2.9411764705882355e-06,
      "loss": 0.5623,
      "step": 70
    },
    {
      "epoch": 0.059797866367209435,
      "grad_norm": 0.47239822149276733,
      "learning_rate": 2.9831932773109248e-06,
      "loss": 0.5845,
      "step": 71
    },
    {
      "epoch": 0.060640089837170126,
      "grad_norm": 0.4871998727321625,
      "learning_rate": 3.0252100840336137e-06,
      "loss": 0.5834,
      "step": 72
    },
    {
      "epoch": 0.061482313307130824,
      "grad_norm": 0.4442753791809082,
      "learning_rate": 3.067226890756303e-06,
      "loss": 0.5815,
      "step": 73
    },
    {
      "epoch": 0.06232453677709152,
      "grad_norm": 0.40673568844795227,
      "learning_rate": 3.109243697478992e-06,
      "loss": 0.5699,
      "step": 74
    },
    {
      "epoch": 0.06316676024705221,
      "grad_norm": 0.492017537355423,
      "learning_rate": 3.1512605042016808e-06,
      "loss": 0.5517,
      "step": 75
    },
    {
      "epoch": 0.06400898371701291,
      "grad_norm": 0.459394633769989,
      "learning_rate": 3.1932773109243696e-06,
      "loss": 0.5386,
      "step": 76
    },
    {
      "epoch": 0.06485120718697361,
      "grad_norm": 0.3998277485370636,
      "learning_rate": 3.2352941176470594e-06,
      "loss": 0.5592,
      "step": 77
    },
    {
      "epoch": 0.06569343065693431,
      "grad_norm": 0.44028374552726746,
      "learning_rate": 3.2773109243697483e-06,
      "loss": 0.6013,
      "step": 78
    },
    {
      "epoch": 0.06653565412689501,
      "grad_norm": 0.39477941393852234,
      "learning_rate": 3.319327731092437e-06,
      "loss": 0.5507,
      "step": 79
    },
    {
      "epoch": 0.06737787759685569,
      "grad_norm": 0.40293389558792114,
      "learning_rate": 3.3613445378151265e-06,
      "loss": 0.5811,
      "step": 80
    },
    {
      "epoch": 0.06822010106681639,
      "grad_norm": 0.4324820637702942,
      "learning_rate": 3.4033613445378154e-06,
      "loss": 0.5647,
      "step": 81
    },
    {
      "epoch": 0.06906232453677709,
      "grad_norm": 0.43749675154685974,
      "learning_rate": 3.4453781512605043e-06,
      "loss": 0.5659,
      "step": 82
    },
    {
      "epoch": 0.06990454800673779,
      "grad_norm": 0.4079441428184509,
      "learning_rate": 3.4873949579831936e-06,
      "loss": 0.5358,
      "step": 83
    },
    {
      "epoch": 0.07074677147669849,
      "grad_norm": 0.45254942774772644,
      "learning_rate": 3.529411764705883e-06,
      "loss": 0.5635,
      "step": 84
    },
    {
      "epoch": 0.07158899494665918,
      "grad_norm": 0.42444175481796265,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 0.5404,
      "step": 85
    },
    {
      "epoch": 0.07243121841661988,
      "grad_norm": 0.4382478892803192,
      "learning_rate": 3.6134453781512607e-06,
      "loss": 0.5866,
      "step": 86
    },
    {
      "epoch": 0.07327344188658057,
      "grad_norm": 0.4207715392112732,
      "learning_rate": 3.6554621848739496e-06,
      "loss": 0.5607,
      "step": 87
    },
    {
      "epoch": 0.07411566535654127,
      "grad_norm": 0.4685220420360565,
      "learning_rate": 3.6974789915966393e-06,
      "loss": 0.5823,
      "step": 88
    },
    {
      "epoch": 0.07495788882650196,
      "grad_norm": 0.4588303864002228,
      "learning_rate": 3.739495798319328e-06,
      "loss": 0.5692,
      "step": 89
    },
    {
      "epoch": 0.07580011229646266,
      "grad_norm": 0.41869863867759705,
      "learning_rate": 3.781512605042017e-06,
      "loss": 0.5869,
      "step": 90
    },
    {
      "epoch": 0.07664233576642336,
      "grad_norm": 0.42266470193862915,
      "learning_rate": 3.8235294117647055e-06,
      "loss": 0.5494,
      "step": 91
    },
    {
      "epoch": 0.07748455923638406,
      "grad_norm": 0.4500223398208618,
      "learning_rate": 3.865546218487396e-06,
      "loss": 0.5457,
      "step": 92
    },
    {
      "epoch": 0.07832678270634474,
      "grad_norm": 0.46976879239082336,
      "learning_rate": 3.907563025210084e-06,
      "loss": 0.5514,
      "step": 93
    },
    {
      "epoch": 0.07916900617630544,
      "grad_norm": 0.4274877607822418,
      "learning_rate": 3.9495798319327735e-06,
      "loss": 0.5794,
      "step": 94
    },
    {
      "epoch": 0.08001122964626614,
      "grad_norm": 0.47500473260879517,
      "learning_rate": 3.991596638655463e-06,
      "loss": 0.5488,
      "step": 95
    },
    {
      "epoch": 0.08085345311622684,
      "grad_norm": 0.409170538187027,
      "learning_rate": 4.033613445378151e-06,
      "loss": 0.5425,
      "step": 96
    },
    {
      "epoch": 0.08169567658618754,
      "grad_norm": 0.48692575097084045,
      "learning_rate": 4.075630252100841e-06,
      "loss": 0.5734,
      "step": 97
    },
    {
      "epoch": 0.08253790005614824,
      "grad_norm": 0.3962946832180023,
      "learning_rate": 4.11764705882353e-06,
      "loss": 0.5346,
      "step": 98
    },
    {
      "epoch": 0.08338012352610892,
      "grad_norm": 0.4437272548675537,
      "learning_rate": 4.159663865546219e-06,
      "loss": 0.5306,
      "step": 99
    },
    {
      "epoch": 0.08422234699606962,
      "grad_norm": 0.4481090009212494,
      "learning_rate": 4.201680672268908e-06,
      "loss": 0.5704,
      "step": 100
    },
    {
      "epoch": 0.08506457046603032,
      "grad_norm": 0.4170282185077667,
      "learning_rate": 4.243697478991597e-06,
      "loss": 0.5509,
      "step": 101
    },
    {
      "epoch": 0.08590679393599102,
      "grad_norm": 0.41481152176856995,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 0.5776,
      "step": 102
    },
    {
      "epoch": 0.08674901740595171,
      "grad_norm": 0.43497028946876526,
      "learning_rate": 4.327731092436976e-06,
      "loss": 0.5402,
      "step": 103
    },
    {
      "epoch": 0.08759124087591241,
      "grad_norm": 0.4780617654323578,
      "learning_rate": 4.369747899159664e-06,
      "loss": 0.5721,
      "step": 104
    },
    {
      "epoch": 0.08843346434587311,
      "grad_norm": 0.48924484848976135,
      "learning_rate": 4.411764705882353e-06,
      "loss": 0.5524,
      "step": 105
    },
    {
      "epoch": 0.0892756878158338,
      "grad_norm": 0.3922102153301239,
      "learning_rate": 4.453781512605043e-06,
      "loss": 0.527,
      "step": 106
    },
    {
      "epoch": 0.0901179112857945,
      "grad_norm": 0.4591054320335388,
      "learning_rate": 4.495798319327731e-06,
      "loss": 0.5339,
      "step": 107
    },
    {
      "epoch": 0.09096013475575519,
      "grad_norm": 0.5115140676498413,
      "learning_rate": 4.5378151260504205e-06,
      "loss": 0.5494,
      "step": 108
    },
    {
      "epoch": 0.09180235822571589,
      "grad_norm": 0.43676701188087463,
      "learning_rate": 4.57983193277311e-06,
      "loss": 0.5497,
      "step": 109
    },
    {
      "epoch": 0.09264458169567659,
      "grad_norm": 0.4438125789165497,
      "learning_rate": 4.621848739495799e-06,
      "loss": 0.5449,
      "step": 110
    },
    {
      "epoch": 0.09348680516563729,
      "grad_norm": 0.4748440086841583,
      "learning_rate": 4.663865546218488e-06,
      "loss": 0.5641,
      "step": 111
    },
    {
      "epoch": 0.09432902863559797,
      "grad_norm": 0.47918376326560974,
      "learning_rate": 4.705882352941177e-06,
      "loss": 0.5276,
      "step": 112
    },
    {
      "epoch": 0.09517125210555867,
      "grad_norm": 0.4786376357078552,
      "learning_rate": 4.747899159663865e-06,
      "loss": 0.5485,
      "step": 113
    },
    {
      "epoch": 0.09601347557551937,
      "grad_norm": 0.4013044536113739,
      "learning_rate": 4.7899159663865555e-06,
      "loss": 0.5505,
      "step": 114
    },
    {
      "epoch": 0.09685569904548007,
      "grad_norm": 0.49196138978004456,
      "learning_rate": 4.831932773109244e-06,
      "loss": 0.5317,
      "step": 115
    },
    {
      "epoch": 0.09769792251544077,
      "grad_norm": 0.47776782512664795,
      "learning_rate": 4.873949579831933e-06,
      "loss": 0.5297,
      "step": 116
    },
    {
      "epoch": 0.09854014598540146,
      "grad_norm": 0.43594253063201904,
      "learning_rate": 4.915966386554622e-06,
      "loss": 0.5447,
      "step": 117
    },
    {
      "epoch": 0.09938236945536216,
      "grad_norm": 0.4532409906387329,
      "learning_rate": 4.957983193277311e-06,
      "loss": 0.5393,
      "step": 118
    },
    {
      "epoch": 0.10022459292532285,
      "grad_norm": 0.5130839943885803,
      "learning_rate": 5e-06,
      "loss": 0.5435,
      "step": 119
    },
    {
      "epoch": 0.10106681639528355,
      "grad_norm": 0.43150970339775085,
      "learning_rate": 5.04201680672269e-06,
      "loss": 0.5292,
      "step": 120
    },
    {
      "epoch": 0.10190903986524424,
      "grad_norm": 0.4660353660583496,
      "learning_rate": 5.084033613445378e-06,
      "loss": 0.5642,
      "step": 121
    },
    {
      "epoch": 0.10275126333520494,
      "grad_norm": 0.4518956243991852,
      "learning_rate": 5.1260504201680675e-06,
      "loss": 0.5285,
      "step": 122
    },
    {
      "epoch": 0.10359348680516564,
      "grad_norm": 0.44530707597732544,
      "learning_rate": 5.168067226890757e-06,
      "loss": 0.5207,
      "step": 123
    },
    {
      "epoch": 0.10443571027512634,
      "grad_norm": 0.4366285800933838,
      "learning_rate": 5.210084033613446e-06,
      "loss": 0.5041,
      "step": 124
    },
    {
      "epoch": 0.10527793374508702,
      "grad_norm": 0.42286643385887146,
      "learning_rate": 5.2521008403361354e-06,
      "loss": 0.5221,
      "step": 125
    },
    {
      "epoch": 0.10612015721504772,
      "grad_norm": 0.5071969628334045,
      "learning_rate": 5.294117647058824e-06,
      "loss": 0.5744,
      "step": 126
    },
    {
      "epoch": 0.10696238068500842,
      "grad_norm": 0.4186756908893585,
      "learning_rate": 5.336134453781513e-06,
      "loss": 0.5347,
      "step": 127
    },
    {
      "epoch": 0.10780460415496912,
      "grad_norm": 0.42510557174682617,
      "learning_rate": 5.378151260504202e-06,
      "loss": 0.5123,
      "step": 128
    },
    {
      "epoch": 0.10864682762492982,
      "grad_norm": 0.4942307770252228,
      "learning_rate": 5.420168067226891e-06,
      "loss": 0.5264,
      "step": 129
    },
    {
      "epoch": 0.10948905109489052,
      "grad_norm": 0.45445379614830017,
      "learning_rate": 5.4621848739495795e-06,
      "loss": 0.5564,
      "step": 130
    },
    {
      "epoch": 0.1103312745648512,
      "grad_norm": 0.4204811751842499,
      "learning_rate": 5.50420168067227e-06,
      "loss": 0.5339,
      "step": 131
    },
    {
      "epoch": 0.1111734980348119,
      "grad_norm": 0.45399510860443115,
      "learning_rate": 5.546218487394959e-06,
      "loss": 0.5156,
      "step": 132
    },
    {
      "epoch": 0.1120157215047726,
      "grad_norm": 0.45949792861938477,
      "learning_rate": 5.588235294117647e-06,
      "loss": 0.541,
      "step": 133
    },
    {
      "epoch": 0.1128579449747333,
      "grad_norm": 0.4861540198326111,
      "learning_rate": 5.630252100840337e-06,
      "loss": 0.5405,
      "step": 134
    },
    {
      "epoch": 0.113700168444694,
      "grad_norm": 0.5174752473831177,
      "learning_rate": 5.672268907563025e-06,
      "loss": 0.5045,
      "step": 135
    },
    {
      "epoch": 0.11454239191465469,
      "grad_norm": 0.4864109456539154,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 0.5489,
      "step": 136
    },
    {
      "epoch": 0.11538461538461539,
      "grad_norm": 0.4594672918319702,
      "learning_rate": 5.756302521008403e-06,
      "loss": 0.5059,
      "step": 137
    },
    {
      "epoch": 0.11622683885457608,
      "grad_norm": 0.5387066602706909,
      "learning_rate": 5.798319327731093e-06,
      "loss": 0.53,
      "step": 138
    },
    {
      "epoch": 0.11706906232453677,
      "grad_norm": 0.5242010354995728,
      "learning_rate": 5.8403361344537825e-06,
      "loss": 0.4899,
      "step": 139
    },
    {
      "epoch": 0.11791128579449747,
      "grad_norm": 0.5176265835762024,
      "learning_rate": 5.882352941176471e-06,
      "loss": 0.5313,
      "step": 140
    },
    {
      "epoch": 0.11875350926445817,
      "grad_norm": 0.48101377487182617,
      "learning_rate": 5.92436974789916e-06,
      "loss": 0.5331,
      "step": 141
    },
    {
      "epoch": 0.11959573273441887,
      "grad_norm": 0.47567304968833923,
      "learning_rate": 5.9663865546218495e-06,
      "loss": 0.5198,
      "step": 142
    },
    {
      "epoch": 0.12043795620437957,
      "grad_norm": 0.4991665184497833,
      "learning_rate": 6.008403361344538e-06,
      "loss": 0.5075,
      "step": 143
    },
    {
      "epoch": 0.12128017967434025,
      "grad_norm": 0.5229780077934265,
      "learning_rate": 6.050420168067227e-06,
      "loss": 0.5431,
      "step": 144
    },
    {
      "epoch": 0.12212240314430095,
      "grad_norm": 0.44060757756233215,
      "learning_rate": 6.092436974789916e-06,
      "loss": 0.5267,
      "step": 145
    },
    {
      "epoch": 0.12296462661426165,
      "grad_norm": 0.40723955631256104,
      "learning_rate": 6.134453781512606e-06,
      "loss": 0.53,
      "step": 146
    },
    {
      "epoch": 0.12380685008422235,
      "grad_norm": 0.46380141377449036,
      "learning_rate": 6.176470588235295e-06,
      "loss": 0.5252,
      "step": 147
    },
    {
      "epoch": 0.12464907355418305,
      "grad_norm": 0.4821450710296631,
      "learning_rate": 6.218487394957984e-06,
      "loss": 0.5207,
      "step": 148
    },
    {
      "epoch": 0.12549129702414374,
      "grad_norm": 0.4443376660346985,
      "learning_rate": 6.260504201680673e-06,
      "loss": 0.5286,
      "step": 149
    },
    {
      "epoch": 0.12633352049410443,
      "grad_norm": 0.4381650686264038,
      "learning_rate": 6.3025210084033615e-06,
      "loss": 0.5531,
      "step": 150
    },
    {
      "epoch": 0.12717574396406514,
      "grad_norm": 0.553331196308136,
      "learning_rate": 6.344537815126051e-06,
      "loss": 0.4923,
      "step": 151
    },
    {
      "epoch": 0.12801796743402583,
      "grad_norm": 0.4906505048274994,
      "learning_rate": 6.386554621848739e-06,
      "loss": 0.5203,
      "step": 152
    },
    {
      "epoch": 0.12886019090398654,
      "grad_norm": 0.45857900381088257,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 0.5377,
      "step": 153
    },
    {
      "epoch": 0.12970241437394722,
      "grad_norm": 0.5092724561691284,
      "learning_rate": 6.470588235294119e-06,
      "loss": 0.5308,
      "step": 154
    },
    {
      "epoch": 0.1305446378439079,
      "grad_norm": 0.5057799816131592,
      "learning_rate": 6.512605042016807e-06,
      "loss": 0.5511,
      "step": 155
    },
    {
      "epoch": 0.13138686131386862,
      "grad_norm": 0.4589356780052185,
      "learning_rate": 6.5546218487394966e-06,
      "loss": 0.5152,
      "step": 156
    },
    {
      "epoch": 0.1322290847838293,
      "grad_norm": 0.5368162989616394,
      "learning_rate": 6.596638655462185e-06,
      "loss": 0.5468,
      "step": 157
    },
    {
      "epoch": 0.13307130825379002,
      "grad_norm": 0.4556482434272766,
      "learning_rate": 6.638655462184874e-06,
      "loss": 0.5139,
      "step": 158
    },
    {
      "epoch": 0.1339135317237507,
      "grad_norm": 0.4832514822483063,
      "learning_rate": 6.680672268907563e-06,
      "loss": 0.5447,
      "step": 159
    },
    {
      "epoch": 0.13475575519371139,
      "grad_norm": 0.4444957971572876,
      "learning_rate": 6.722689075630253e-06,
      "loss": 0.5235,
      "step": 160
    },
    {
      "epoch": 0.1355979786636721,
      "grad_norm": 0.44272732734680176,
      "learning_rate": 6.764705882352942e-06,
      "loss": 0.545,
      "step": 161
    },
    {
      "epoch": 0.13644020213363278,
      "grad_norm": 0.43816643953323364,
      "learning_rate": 6.806722689075631e-06,
      "loss": 0.5097,
      "step": 162
    },
    {
      "epoch": 0.1372824256035935,
      "grad_norm": 0.426018089056015,
      "learning_rate": 6.84873949579832e-06,
      "loss": 0.5102,
      "step": 163
    },
    {
      "epoch": 0.13812464907355418,
      "grad_norm": 0.5200185775756836,
      "learning_rate": 6.8907563025210085e-06,
      "loss": 0.5596,
      "step": 164
    },
    {
      "epoch": 0.1389668725435149,
      "grad_norm": 0.4619075655937195,
      "learning_rate": 6.932773109243698e-06,
      "loss": 0.5088,
      "step": 165
    },
    {
      "epoch": 0.13980909601347558,
      "grad_norm": 0.4435496926307678,
      "learning_rate": 6.974789915966387e-06,
      "loss": 0.5502,
      "step": 166
    },
    {
      "epoch": 0.14065131948343626,
      "grad_norm": 0.4701780080795288,
      "learning_rate": 7.016806722689076e-06,
      "loss": 0.5207,
      "step": 167
    },
    {
      "epoch": 0.14149354295339697,
      "grad_norm": 0.5048311352729797,
      "learning_rate": 7.058823529411766e-06,
      "loss": 0.5432,
      "step": 168
    },
    {
      "epoch": 0.14233576642335766,
      "grad_norm": 0.5038228631019592,
      "learning_rate": 7.100840336134454e-06,
      "loss": 0.5236,
      "step": 169
    },
    {
      "epoch": 0.14317798989331837,
      "grad_norm": 0.46488118171691895,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 0.5221,
      "step": 170
    },
    {
      "epoch": 0.14402021336327905,
      "grad_norm": 0.4387705624103546,
      "learning_rate": 7.184873949579833e-06,
      "loss": 0.5054,
      "step": 171
    },
    {
      "epoch": 0.14486243683323977,
      "grad_norm": 0.4957265853881836,
      "learning_rate": 7.226890756302521e-06,
      "loss": 0.5386,
      "step": 172
    },
    {
      "epoch": 0.14570466030320045,
      "grad_norm": 0.43366584181785583,
      "learning_rate": 7.268907563025211e-06,
      "loss": 0.5203,
      "step": 173
    },
    {
      "epoch": 0.14654688377316114,
      "grad_norm": 0.46106258034706116,
      "learning_rate": 7.310924369747899e-06,
      "loss": 0.491,
      "step": 174
    },
    {
      "epoch": 0.14738910724312185,
      "grad_norm": 0.49530717730522156,
      "learning_rate": 7.352941176470589e-06,
      "loss": 0.5265,
      "step": 175
    },
    {
      "epoch": 0.14823133071308253,
      "grad_norm": 0.4459441900253296,
      "learning_rate": 7.394957983193279e-06,
      "loss": 0.5083,
      "step": 176
    },
    {
      "epoch": 0.14907355418304324,
      "grad_norm": 0.5753363966941833,
      "learning_rate": 7.436974789915967e-06,
      "loss": 0.518,
      "step": 177
    },
    {
      "epoch": 0.14991577765300393,
      "grad_norm": 0.47289445996284485,
      "learning_rate": 7.478991596638656e-06,
      "loss": 0.561,
      "step": 178
    },
    {
      "epoch": 0.1507580011229646,
      "grad_norm": 0.598757803440094,
      "learning_rate": 7.521008403361345e-06,
      "loss": 0.5074,
      "step": 179
    },
    {
      "epoch": 0.15160022459292533,
      "grad_norm": 0.4333880543708801,
      "learning_rate": 7.563025210084034e-06,
      "loss": 0.522,
      "step": 180
    },
    {
      "epoch": 0.152442448062886,
      "grad_norm": 0.48613476753234863,
      "learning_rate": 7.605042016806723e-06,
      "loss": 0.4834,
      "step": 181
    },
    {
      "epoch": 0.15328467153284672,
      "grad_norm": 0.4793667197227478,
      "learning_rate": 7.647058823529411e-06,
      "loss": 0.523,
      "step": 182
    },
    {
      "epoch": 0.1541268950028074,
      "grad_norm": 0.48397791385650635,
      "learning_rate": 7.689075630252102e-06,
      "loss": 0.5152,
      "step": 183
    },
    {
      "epoch": 0.15496911847276812,
      "grad_norm": 0.545110285282135,
      "learning_rate": 7.731092436974791e-06,
      "loss": 0.5332,
      "step": 184
    },
    {
      "epoch": 0.1558113419427288,
      "grad_norm": 0.5413281917572021,
      "learning_rate": 7.773109243697479e-06,
      "loss": 0.5476,
      "step": 185
    },
    {
      "epoch": 0.1566535654126895,
      "grad_norm": 0.5330715179443359,
      "learning_rate": 7.815126050420168e-06,
      "loss": 0.5063,
      "step": 186
    },
    {
      "epoch": 0.1574957888826502,
      "grad_norm": 0.4287409484386444,
      "learning_rate": 7.857142857142858e-06,
      "loss": 0.4829,
      "step": 187
    },
    {
      "epoch": 0.15833801235261089,
      "grad_norm": 0.5034782290458679,
      "learning_rate": 7.899159663865547e-06,
      "loss": 0.5082,
      "step": 188
    },
    {
      "epoch": 0.1591802358225716,
      "grad_norm": 0.5208635926246643,
      "learning_rate": 7.941176470588236e-06,
      "loss": 0.5543,
      "step": 189
    },
    {
      "epoch": 0.16002245929253228,
      "grad_norm": 0.550610363483429,
      "learning_rate": 7.983193277310926e-06,
      "loss": 0.5101,
      "step": 190
    },
    {
      "epoch": 0.160864682762493,
      "grad_norm": 0.5050402879714966,
      "learning_rate": 8.025210084033615e-06,
      "loss": 0.4892,
      "step": 191
    },
    {
      "epoch": 0.16170690623245368,
      "grad_norm": 0.4754699170589447,
      "learning_rate": 8.067226890756303e-06,
      "loss": 0.5024,
      "step": 192
    },
    {
      "epoch": 0.16254912970241436,
      "grad_norm": 0.48408612608909607,
      "learning_rate": 8.109243697478992e-06,
      "loss": 0.5026,
      "step": 193
    },
    {
      "epoch": 0.16339135317237508,
      "grad_norm": 0.5287573337554932,
      "learning_rate": 8.151260504201681e-06,
      "loss": 0.5044,
      "step": 194
    },
    {
      "epoch": 0.16423357664233576,
      "grad_norm": 0.4857616722583771,
      "learning_rate": 8.19327731092437e-06,
      "loss": 0.5065,
      "step": 195
    },
    {
      "epoch": 0.16507580011229647,
      "grad_norm": 0.539286732673645,
      "learning_rate": 8.23529411764706e-06,
      "loss": 0.4861,
      "step": 196
    },
    {
      "epoch": 0.16591802358225716,
      "grad_norm": 0.49354496598243713,
      "learning_rate": 8.277310924369747e-06,
      "loss": 0.5243,
      "step": 197
    },
    {
      "epoch": 0.16676024705221784,
      "grad_norm": 0.5262436866760254,
      "learning_rate": 8.319327731092438e-06,
      "loss": 0.526,
      "step": 198
    },
    {
      "epoch": 0.16760247052217855,
      "grad_norm": 0.5267453193664551,
      "learning_rate": 8.361344537815128e-06,
      "loss": 0.5077,
      "step": 199
    },
    {
      "epoch": 0.16844469399213924,
      "grad_norm": 0.5190123319625854,
      "learning_rate": 8.403361344537815e-06,
      "loss": 0.5281,
      "step": 200
    },
    {
      "epoch": 0.16928691746209995,
      "grad_norm": 0.4982506334781647,
      "learning_rate": 8.445378151260505e-06,
      "loss": 0.5134,
      "step": 201
    },
    {
      "epoch": 0.17012914093206064,
      "grad_norm": 0.599524736404419,
      "learning_rate": 8.487394957983194e-06,
      "loss": 0.4883,
      "step": 202
    },
    {
      "epoch": 0.17097136440202135,
      "grad_norm": 0.42590758204460144,
      "learning_rate": 8.529411764705883e-06,
      "loss": 0.4968,
      "step": 203
    },
    {
      "epoch": 0.17181358787198203,
      "grad_norm": 0.5525102615356445,
      "learning_rate": 8.571428571428571e-06,
      "loss": 0.5405,
      "step": 204
    },
    {
      "epoch": 0.17265581134194272,
      "grad_norm": 0.47356361150741577,
      "learning_rate": 8.613445378151262e-06,
      "loss": 0.4969,
      "step": 205
    },
    {
      "epoch": 0.17349803481190343,
      "grad_norm": 0.5279065370559692,
      "learning_rate": 8.655462184873951e-06,
      "loss": 0.4962,
      "step": 206
    },
    {
      "epoch": 0.1743402582818641,
      "grad_norm": 0.462593674659729,
      "learning_rate": 8.697478991596639e-06,
      "loss": 0.4975,
      "step": 207
    },
    {
      "epoch": 0.17518248175182483,
      "grad_norm": 0.6000165939331055,
      "learning_rate": 8.739495798319328e-06,
      "loss": 0.5266,
      "step": 208
    },
    {
      "epoch": 0.1760247052217855,
      "grad_norm": 0.5724431276321411,
      "learning_rate": 8.781512605042017e-06,
      "loss": 0.5059,
      "step": 209
    },
    {
      "epoch": 0.17686692869174622,
      "grad_norm": 0.5647237300872803,
      "learning_rate": 8.823529411764707e-06,
      "loss": 0.5149,
      "step": 210
    },
    {
      "epoch": 0.1777091521617069,
      "grad_norm": 0.5468550324440002,
      "learning_rate": 8.865546218487396e-06,
      "loss": 0.5166,
      "step": 211
    },
    {
      "epoch": 0.1785513756316676,
      "grad_norm": 0.4808495342731476,
      "learning_rate": 8.907563025210085e-06,
      "loss": 0.4966,
      "step": 212
    },
    {
      "epoch": 0.1793935991016283,
      "grad_norm": 0.5641579031944275,
      "learning_rate": 8.949579831932775e-06,
      "loss": 0.515,
      "step": 213
    },
    {
      "epoch": 0.180235822571589,
      "grad_norm": 0.5549728274345398,
      "learning_rate": 8.991596638655462e-06,
      "loss": 0.5337,
      "step": 214
    },
    {
      "epoch": 0.1810780460415497,
      "grad_norm": 0.5931942462921143,
      "learning_rate": 9.033613445378152e-06,
      "loss": 0.5213,
      "step": 215
    },
    {
      "epoch": 0.18192026951151039,
      "grad_norm": 0.5607724785804749,
      "learning_rate": 9.075630252100841e-06,
      "loss": 0.5159,
      "step": 216
    },
    {
      "epoch": 0.1827624929814711,
      "grad_norm": 0.5056263208389282,
      "learning_rate": 9.11764705882353e-06,
      "loss": 0.5072,
      "step": 217
    },
    {
      "epoch": 0.18360471645143178,
      "grad_norm": 0.5563955903053284,
      "learning_rate": 9.15966386554622e-06,
      "loss": 0.489,
      "step": 218
    },
    {
      "epoch": 0.18444693992139247,
      "grad_norm": 0.5437940955162048,
      "learning_rate": 9.201680672268907e-06,
      "loss": 0.5117,
      "step": 219
    },
    {
      "epoch": 0.18528916339135318,
      "grad_norm": 0.4595659077167511,
      "learning_rate": 9.243697478991598e-06,
      "loss": 0.5077,
      "step": 220
    },
    {
      "epoch": 0.18613138686131386,
      "grad_norm": 0.5797274708747864,
      "learning_rate": 9.285714285714288e-06,
      "loss": 0.5024,
      "step": 221
    },
    {
      "epoch": 0.18697361033127458,
      "grad_norm": 0.5140485763549805,
      "learning_rate": 9.327731092436975e-06,
      "loss": 0.5147,
      "step": 222
    },
    {
      "epoch": 0.18781583380123526,
      "grad_norm": 0.574549674987793,
      "learning_rate": 9.369747899159664e-06,
      "loss": 0.5043,
      "step": 223
    },
    {
      "epoch": 0.18865805727119594,
      "grad_norm": 0.5374940633773804,
      "learning_rate": 9.411764705882354e-06,
      "loss": 0.496,
      "step": 224
    },
    {
      "epoch": 0.18950028074115666,
      "grad_norm": 0.6799379587173462,
      "learning_rate": 9.453781512605043e-06,
      "loss": 0.4825,
      "step": 225
    },
    {
      "epoch": 0.19034250421111734,
      "grad_norm": 0.5826138257980347,
      "learning_rate": 9.49579831932773e-06,
      "loss": 0.5204,
      "step": 226
    },
    {
      "epoch": 0.19118472768107805,
      "grad_norm": 0.6165855526924133,
      "learning_rate": 9.537815126050422e-06,
      "loss": 0.5183,
      "step": 227
    },
    {
      "epoch": 0.19202695115103874,
      "grad_norm": 0.5765373110771179,
      "learning_rate": 9.579831932773111e-06,
      "loss": 0.4924,
      "step": 228
    },
    {
      "epoch": 0.19286917462099945,
      "grad_norm": 0.6148548126220703,
      "learning_rate": 9.621848739495799e-06,
      "loss": 0.4981,
      "step": 229
    },
    {
      "epoch": 0.19371139809096014,
      "grad_norm": 0.6842077374458313,
      "learning_rate": 9.663865546218488e-06,
      "loss": 0.5111,
      "step": 230
    },
    {
      "epoch": 0.19455362156092082,
      "grad_norm": 0.6661661863327026,
      "learning_rate": 9.705882352941177e-06,
      "loss": 0.5011,
      "step": 231
    },
    {
      "epoch": 0.19539584503088153,
      "grad_norm": 0.6821931004524231,
      "learning_rate": 9.747899159663867e-06,
      "loss": 0.4782,
      "step": 232
    },
    {
      "epoch": 0.19623806850084222,
      "grad_norm": 0.6918195486068726,
      "learning_rate": 9.789915966386554e-06,
      "loss": 0.5429,
      "step": 233
    },
    {
      "epoch": 0.19708029197080293,
      "grad_norm": 0.7139222621917725,
      "learning_rate": 9.831932773109244e-06,
      "loss": 0.511,
      "step": 234
    },
    {
      "epoch": 0.1979225154407636,
      "grad_norm": 0.6195940375328064,
      "learning_rate": 9.873949579831935e-06,
      "loss": 0.4926,
      "step": 235
    },
    {
      "epoch": 0.19876473891072433,
      "grad_norm": 0.7243674397468567,
      "learning_rate": 9.915966386554622e-06,
      "loss": 0.4793,
      "step": 236
    },
    {
      "epoch": 0.199606962380685,
      "grad_norm": 0.6153321862220764,
      "learning_rate": 9.957983193277312e-06,
      "loss": 0.512,
      "step": 237
    },
    {
      "epoch": 0.2004491858506457,
      "grad_norm": 0.5888074040412903,
      "learning_rate": 1e-05,
      "loss": 0.4932,
      "step": 238
    },
    {
      "epoch": 0.2012914093206064,
      "grad_norm": 0.6559724807739258,
      "learning_rate": 9.999994591993822e-06,
      "loss": 0.4899,
      "step": 239
    },
    {
      "epoch": 0.2021336327905671,
      "grad_norm": 0.5168852806091309,
      "learning_rate": 9.999978367986988e-06,
      "loss": 0.5027,
      "step": 240
    },
    {
      "epoch": 0.2029758562605278,
      "grad_norm": 0.4993972182273865,
      "learning_rate": 9.999951328014591e-06,
      "loss": 0.5032,
      "step": 241
    },
    {
      "epoch": 0.2038180797304885,
      "grad_norm": 0.5998286008834839,
      "learning_rate": 9.999913472135126e-06,
      "loss": 0.4975,
      "step": 242
    },
    {
      "epoch": 0.20466030320044917,
      "grad_norm": 0.5301543474197388,
      "learning_rate": 9.999864800430482e-06,
      "loss": 0.5405,
      "step": 243
    },
    {
      "epoch": 0.20550252667040989,
      "grad_norm": 0.5142982006072998,
      "learning_rate": 9.999805313005946e-06,
      "loss": 0.4969,
      "step": 244
    },
    {
      "epoch": 0.20634475014037057,
      "grad_norm": 0.5380477905273438,
      "learning_rate": 9.999735009990202e-06,
      "loss": 0.4897,
      "step": 245
    },
    {
      "epoch": 0.20718697361033128,
      "grad_norm": 0.5367448925971985,
      "learning_rate": 9.99965389153533e-06,
      "loss": 0.5095,
      "step": 246
    },
    {
      "epoch": 0.20802919708029197,
      "grad_norm": 0.5165060758590698,
      "learning_rate": 9.999561957816803e-06,
      "loss": 0.5226,
      "step": 247
    },
    {
      "epoch": 0.20887142055025268,
      "grad_norm": 0.4962257444858551,
      "learning_rate": 9.999459209033495e-06,
      "loss": 0.4932,
      "step": 248
    },
    {
      "epoch": 0.20971364402021336,
      "grad_norm": 0.5661120414733887,
      "learning_rate": 9.999345645407671e-06,
      "loss": 0.4944,
      "step": 249
    },
    {
      "epoch": 0.21055586749017405,
      "grad_norm": 0.5129380822181702,
      "learning_rate": 9.999221267184993e-06,
      "loss": 0.4724,
      "step": 250
    },
    {
      "epoch": 0.21139809096013476,
      "grad_norm": 0.621586263179779,
      "learning_rate": 9.999086074634516e-06,
      "loss": 0.4978,
      "step": 251
    },
    {
      "epoch": 0.21224031443009544,
      "grad_norm": 0.5729356408119202,
      "learning_rate": 9.998940068048688e-06,
      "loss": 0.4944,
      "step": 252
    },
    {
      "epoch": 0.21308253790005616,
      "grad_norm": 0.5474876165390015,
      "learning_rate": 9.998783247743353e-06,
      "loss": 0.4999,
      "step": 253
    },
    {
      "epoch": 0.21392476137001684,
      "grad_norm": 0.5598101615905762,
      "learning_rate": 9.998615614057743e-06,
      "loss": 0.5273,
      "step": 254
    },
    {
      "epoch": 0.21476698483997755,
      "grad_norm": 0.5879414081573486,
      "learning_rate": 9.998437167354485e-06,
      "loss": 0.5016,
      "step": 255
    },
    {
      "epoch": 0.21560920830993824,
      "grad_norm": 0.4961906969547272,
      "learning_rate": 9.998247908019594e-06,
      "loss": 0.5083,
      "step": 256
    },
    {
      "epoch": 0.21645143177989892,
      "grad_norm": 0.5216076374053955,
      "learning_rate": 9.998047836462476e-06,
      "loss": 0.5022,
      "step": 257
    },
    {
      "epoch": 0.21729365524985964,
      "grad_norm": 0.5120875239372253,
      "learning_rate": 9.997836953115927e-06,
      "loss": 0.483,
      "step": 258
    },
    {
      "epoch": 0.21813587871982032,
      "grad_norm": 0.5058739185333252,
      "learning_rate": 9.99761525843613e-06,
      "loss": 0.4915,
      "step": 259
    },
    {
      "epoch": 0.21897810218978103,
      "grad_norm": 0.6078333258628845,
      "learning_rate": 9.997382752902658e-06,
      "loss": 0.4875,
      "step": 260
    },
    {
      "epoch": 0.21982032565974172,
      "grad_norm": 0.5460730195045471,
      "learning_rate": 9.997139437018463e-06,
      "loss": 0.4783,
      "step": 261
    },
    {
      "epoch": 0.2206625491297024,
      "grad_norm": 0.6511548757553101,
      "learning_rate": 9.996885311309892e-06,
      "loss": 0.4886,
      "step": 262
    },
    {
      "epoch": 0.2215047725996631,
      "grad_norm": 0.5292111039161682,
      "learning_rate": 9.996620376326667e-06,
      "loss": 0.5404,
      "step": 263
    },
    {
      "epoch": 0.2223469960696238,
      "grad_norm": 0.5849589109420776,
      "learning_rate": 9.996344632641895e-06,
      "loss": 0.5056,
      "step": 264
    },
    {
      "epoch": 0.2231892195395845,
      "grad_norm": 0.5135642290115356,
      "learning_rate": 9.996058080852067e-06,
      "loss": 0.5047,
      "step": 265
    },
    {
      "epoch": 0.2240314430095452,
      "grad_norm": 0.5721735954284668,
      "learning_rate": 9.995760721577053e-06,
      "loss": 0.5064,
      "step": 266
    },
    {
      "epoch": 0.2248736664795059,
      "grad_norm": 0.49632272124290466,
      "learning_rate": 9.995452555460098e-06,
      "loss": 0.5078,
      "step": 267
    },
    {
      "epoch": 0.2257158899494666,
      "grad_norm": 0.5845787525177002,
      "learning_rate": 9.995133583167833e-06,
      "loss": 0.4846,
      "step": 268
    },
    {
      "epoch": 0.22655811341942728,
      "grad_norm": 0.4414151906967163,
      "learning_rate": 9.994803805390257e-06,
      "loss": 0.4719,
      "step": 269
    },
    {
      "epoch": 0.227400336889388,
      "grad_norm": 0.5439266562461853,
      "learning_rate": 9.994463222840748e-06,
      "loss": 0.49,
      "step": 270
    },
    {
      "epoch": 0.22824256035934867,
      "grad_norm": 0.5831981301307678,
      "learning_rate": 9.994111836256049e-06,
      "loss": 0.5123,
      "step": 271
    },
    {
      "epoch": 0.22908478382930939,
      "grad_norm": 0.5611173510551453,
      "learning_rate": 9.993749646396286e-06,
      "loss": 0.5083,
      "step": 272
    },
    {
      "epoch": 0.22992700729927007,
      "grad_norm": 0.5784640312194824,
      "learning_rate": 9.993376654044948e-06,
      "loss": 0.5117,
      "step": 273
    },
    {
      "epoch": 0.23076923076923078,
      "grad_norm": 0.5535706281661987,
      "learning_rate": 9.992992860008893e-06,
      "loss": 0.4598,
      "step": 274
    },
    {
      "epoch": 0.23161145423919147,
      "grad_norm": 0.5273114442825317,
      "learning_rate": 9.992598265118344e-06,
      "loss": 0.4974,
      "step": 275
    },
    {
      "epoch": 0.23245367770915215,
      "grad_norm": 0.4867747128009796,
      "learning_rate": 9.99219287022689e-06,
      "loss": 0.5079,
      "step": 276
    },
    {
      "epoch": 0.23329590117911286,
      "grad_norm": 0.589444637298584,
      "learning_rate": 9.991776676211483e-06,
      "loss": 0.4987,
      "step": 277
    },
    {
      "epoch": 0.23413812464907355,
      "grad_norm": 0.5443413853645325,
      "learning_rate": 9.991349683972435e-06,
      "loss": 0.5317,
      "step": 278
    },
    {
      "epoch": 0.23498034811903426,
      "grad_norm": 0.6244934797286987,
      "learning_rate": 9.990911894433415e-06,
      "loss": 0.5046,
      "step": 279
    },
    {
      "epoch": 0.23582257158899494,
      "grad_norm": 0.5032814741134644,
      "learning_rate": 9.990463308541452e-06,
      "loss": 0.4771,
      "step": 280
    },
    {
      "epoch": 0.23666479505895563,
      "grad_norm": 0.5582537055015564,
      "learning_rate": 9.990003927266928e-06,
      "loss": 0.5087,
      "step": 281
    },
    {
      "epoch": 0.23750701852891634,
      "grad_norm": 0.5672581195831299,
      "learning_rate": 9.989533751603578e-06,
      "loss": 0.4893,
      "step": 282
    },
    {
      "epoch": 0.23834924199887703,
      "grad_norm": 0.545280933380127,
      "learning_rate": 9.989052782568484e-06,
      "loss": 0.5062,
      "step": 283
    },
    {
      "epoch": 0.23919146546883774,
      "grad_norm": 0.6183223724365234,
      "learning_rate": 9.988561021202083e-06,
      "loss": 0.4786,
      "step": 284
    },
    {
      "epoch": 0.24003368893879842,
      "grad_norm": 0.6104847192764282,
      "learning_rate": 9.988058468568154e-06,
      "loss": 0.5278,
      "step": 285
    },
    {
      "epoch": 0.24087591240875914,
      "grad_norm": 0.566234827041626,
      "learning_rate": 9.987545125753818e-06,
      "loss": 0.4693,
      "step": 286
    },
    {
      "epoch": 0.24171813587871982,
      "grad_norm": 0.5579836964607239,
      "learning_rate": 9.987020993869543e-06,
      "loss": 0.5056,
      "step": 287
    },
    {
      "epoch": 0.2425603593486805,
      "grad_norm": 0.5299258232116699,
      "learning_rate": 9.986486074049131e-06,
      "loss": 0.505,
      "step": 288
    },
    {
      "epoch": 0.24340258281864122,
      "grad_norm": 0.5334525108337402,
      "learning_rate": 9.98594036744972e-06,
      "loss": 0.4679,
      "step": 289
    },
    {
      "epoch": 0.2442448062886019,
      "grad_norm": 0.5217223167419434,
      "learning_rate": 9.985383875251783e-06,
      "loss": 0.4721,
      "step": 290
    },
    {
      "epoch": 0.2450870297585626,
      "grad_norm": 0.4663148522377014,
      "learning_rate": 9.98481659865913e-06,
      "loss": 0.5118,
      "step": 291
    },
    {
      "epoch": 0.2459292532285233,
      "grad_norm": 0.43826285004615784,
      "learning_rate": 9.98423853889889e-06,
      "loss": 0.4626,
      "step": 292
    },
    {
      "epoch": 0.246771476698484,
      "grad_norm": 0.4668290913105011,
      "learning_rate": 9.983649697221528e-06,
      "loss": 0.4952,
      "step": 293
    },
    {
      "epoch": 0.2476137001684447,
      "grad_norm": 0.481984943151474,
      "learning_rate": 9.983050074900824e-06,
      "loss": 0.5039,
      "step": 294
    },
    {
      "epoch": 0.24845592363840538,
      "grad_norm": 0.4655090868473053,
      "learning_rate": 9.982439673233885e-06,
      "loss": 0.4702,
      "step": 295
    },
    {
      "epoch": 0.2492981471083661,
      "grad_norm": 0.47328653931617737,
      "learning_rate": 9.98181849354113e-06,
      "loss": 0.4928,
      "step": 296
    },
    {
      "epoch": 0.2501403705783268,
      "grad_norm": 0.44677796959877014,
      "learning_rate": 9.981186537166301e-06,
      "loss": 0.4864,
      "step": 297
    },
    {
      "epoch": 0.2509825940482875,
      "grad_norm": 0.515794575214386,
      "learning_rate": 9.980543805476447e-06,
      "loss": 0.4897,
      "step": 298
    },
    {
      "epoch": 0.2518248175182482,
      "grad_norm": 0.4894406199455261,
      "learning_rate": 9.979890299861923e-06,
      "loss": 0.5014,
      "step": 299
    },
    {
      "epoch": 0.25266704098820886,
      "grad_norm": 0.4963488280773163,
      "learning_rate": 9.979226021736396e-06,
      "loss": 0.4893,
      "step": 300
    },
    {
      "epoch": 0.25350926445816957,
      "grad_norm": 0.4320521056652069,
      "learning_rate": 9.978550972536834e-06,
      "loss": 0.5103,
      "step": 301
    },
    {
      "epoch": 0.2543514879281303,
      "grad_norm": 0.4336206614971161,
      "learning_rate": 9.977865153723508e-06,
      "loss": 0.46,
      "step": 302
    },
    {
      "epoch": 0.25519371139809094,
      "grad_norm": 0.46644148230552673,
      "learning_rate": 9.977168566779976e-06,
      "loss": 0.5065,
      "step": 303
    },
    {
      "epoch": 0.25603593486805165,
      "grad_norm": 0.4509952664375305,
      "learning_rate": 9.976461213213104e-06,
      "loss": 0.4981,
      "step": 304
    },
    {
      "epoch": 0.25687815833801236,
      "grad_norm": 0.5012661218643188,
      "learning_rate": 9.975743094553037e-06,
      "loss": 0.5078,
      "step": 305
    },
    {
      "epoch": 0.2577203818079731,
      "grad_norm": 0.42221808433532715,
      "learning_rate": 9.975014212353212e-06,
      "loss": 0.4622,
      "step": 306
    },
    {
      "epoch": 0.25856260527793373,
      "grad_norm": 0.564214289188385,
      "learning_rate": 9.974274568190349e-06,
      "loss": 0.5015,
      "step": 307
    },
    {
      "epoch": 0.25940482874789444,
      "grad_norm": 0.43688663840293884,
      "learning_rate": 9.973524163664447e-06,
      "loss": 0.4801,
      "step": 308
    },
    {
      "epoch": 0.26024705221785516,
      "grad_norm": 0.49340417981147766,
      "learning_rate": 9.972763000398784e-06,
      "loss": 0.4842,
      "step": 309
    },
    {
      "epoch": 0.2610892756878158,
      "grad_norm": 0.5638540983200073,
      "learning_rate": 9.971991080039912e-06,
      "loss": 0.4823,
      "step": 310
    },
    {
      "epoch": 0.2619314991577765,
      "grad_norm": 0.4337444603443146,
      "learning_rate": 9.971208404257647e-06,
      "loss": 0.4893,
      "step": 311
    },
    {
      "epoch": 0.26277372262773724,
      "grad_norm": 0.6749290227890015,
      "learning_rate": 9.970414974745077e-06,
      "loss": 0.5085,
      "step": 312
    },
    {
      "epoch": 0.2636159460976979,
      "grad_norm": 0.47234052419662476,
      "learning_rate": 9.96961079321855e-06,
      "loss": 0.5028,
      "step": 313
    },
    {
      "epoch": 0.2644581695676586,
      "grad_norm": 0.5811834931373596,
      "learning_rate": 9.968795861417676e-06,
      "loss": 0.5162,
      "step": 314
    },
    {
      "epoch": 0.2653003930376193,
      "grad_norm": 0.6675218939781189,
      "learning_rate": 9.967970181105315e-06,
      "loss": 0.4725,
      "step": 315
    },
    {
      "epoch": 0.26614261650758003,
      "grad_norm": 0.5080467462539673,
      "learning_rate": 9.967133754067581e-06,
      "loss": 0.5114,
      "step": 316
    },
    {
      "epoch": 0.2669848399775407,
      "grad_norm": 0.5603334903717041,
      "learning_rate": 9.966286582113838e-06,
      "loss": 0.4706,
      "step": 317
    },
    {
      "epoch": 0.2678270634475014,
      "grad_norm": 0.5314624905586243,
      "learning_rate": 9.965428667076687e-06,
      "loss": 0.4943,
      "step": 318
    },
    {
      "epoch": 0.2686692869174621,
      "grad_norm": 0.5981174111366272,
      "learning_rate": 9.964560010811972e-06,
      "loss": 0.5136,
      "step": 319
    },
    {
      "epoch": 0.26951151038742277,
      "grad_norm": 0.5013228058815002,
      "learning_rate": 9.963680615198774e-06,
      "loss": 0.4754,
      "step": 320
    },
    {
      "epoch": 0.2703537338573835,
      "grad_norm": 0.6210968494415283,
      "learning_rate": 9.962790482139402e-06,
      "loss": 0.4952,
      "step": 321
    },
    {
      "epoch": 0.2711959573273442,
      "grad_norm": 0.46675625443458557,
      "learning_rate": 9.961889613559396e-06,
      "loss": 0.4918,
      "step": 322
    },
    {
      "epoch": 0.2720381807973049,
      "grad_norm": 0.5465720295906067,
      "learning_rate": 9.960978011407516e-06,
      "loss": 0.4652,
      "step": 323
    },
    {
      "epoch": 0.27288040426726556,
      "grad_norm": 0.5100089311599731,
      "learning_rate": 9.960055677655743e-06,
      "loss": 0.4768,
      "step": 324
    },
    {
      "epoch": 0.2737226277372263,
      "grad_norm": 0.4935562014579773,
      "learning_rate": 9.95912261429927e-06,
      "loss": 0.4856,
      "step": 325
    },
    {
      "epoch": 0.274564851207187,
      "grad_norm": 0.4981900453567505,
      "learning_rate": 9.958178823356503e-06,
      "loss": 0.4812,
      "step": 326
    },
    {
      "epoch": 0.27540707467714765,
      "grad_norm": 0.4478013217449188,
      "learning_rate": 9.957224306869053e-06,
      "loss": 0.4895,
      "step": 327
    },
    {
      "epoch": 0.27624929814710836,
      "grad_norm": 0.48781606554985046,
      "learning_rate": 9.956259066901733e-06,
      "loss": 0.479,
      "step": 328
    },
    {
      "epoch": 0.27709152161706907,
      "grad_norm": 0.4887639284133911,
      "learning_rate": 9.955283105542551e-06,
      "loss": 0.4707,
      "step": 329
    },
    {
      "epoch": 0.2779337450870298,
      "grad_norm": 0.48955926299095154,
      "learning_rate": 9.954296424902709e-06,
      "loss": 0.4997,
      "step": 330
    },
    {
      "epoch": 0.27877596855699044,
      "grad_norm": 0.4810115098953247,
      "learning_rate": 9.953299027116598e-06,
      "loss": 0.5018,
      "step": 331
    },
    {
      "epoch": 0.27961819202695115,
      "grad_norm": 0.5221250057220459,
      "learning_rate": 9.95229091434179e-06,
      "loss": 0.4635,
      "step": 332
    },
    {
      "epoch": 0.28046041549691186,
      "grad_norm": 0.46973732113838196,
      "learning_rate": 9.95127208875904e-06,
      "loss": 0.5217,
      "step": 333
    },
    {
      "epoch": 0.2813026389668725,
      "grad_norm": 0.4245605170726776,
      "learning_rate": 9.950242552572272e-06,
      "loss": 0.5034,
      "step": 334
    },
    {
      "epoch": 0.28214486243683323,
      "grad_norm": 0.5518397092819214,
      "learning_rate": 9.949202308008581e-06,
      "loss": 0.4943,
      "step": 335
    },
    {
      "epoch": 0.28298708590679394,
      "grad_norm": 0.5614472031593323,
      "learning_rate": 9.948151357318228e-06,
      "loss": 0.5276,
      "step": 336
    },
    {
      "epoch": 0.28382930937675466,
      "grad_norm": 0.5100691318511963,
      "learning_rate": 9.94708970277463e-06,
      "loss": 0.4981,
      "step": 337
    },
    {
      "epoch": 0.2846715328467153,
      "grad_norm": 0.5144462585449219,
      "learning_rate": 9.946017346674362e-06,
      "loss": 0.4608,
      "step": 338
    },
    {
      "epoch": 0.285513756316676,
      "grad_norm": 0.5077450275421143,
      "learning_rate": 9.944934291337146e-06,
      "loss": 0.4753,
      "step": 339
    },
    {
      "epoch": 0.28635597978663674,
      "grad_norm": 0.5105879902839661,
      "learning_rate": 9.943840539105853e-06,
      "loss": 0.508,
      "step": 340
    },
    {
      "epoch": 0.2871982032565974,
      "grad_norm": 0.5208516120910645,
      "learning_rate": 9.942736092346487e-06,
      "loss": 0.4861,
      "step": 341
    },
    {
      "epoch": 0.2880404267265581,
      "grad_norm": 0.647813081741333,
      "learning_rate": 9.941620953448195e-06,
      "loss": 0.4775,
      "step": 342
    },
    {
      "epoch": 0.2888826501965188,
      "grad_norm": 0.514331579208374,
      "learning_rate": 9.940495124823241e-06,
      "loss": 0.5111,
      "step": 343
    },
    {
      "epoch": 0.28972487366647953,
      "grad_norm": 0.5926961302757263,
      "learning_rate": 9.939358608907026e-06,
      "loss": 0.5013,
      "step": 344
    },
    {
      "epoch": 0.2905670971364402,
      "grad_norm": 0.595328688621521,
      "learning_rate": 9.938211408158063e-06,
      "loss": 0.4965,
      "step": 345
    },
    {
      "epoch": 0.2914093206064009,
      "grad_norm": 0.4607563614845276,
      "learning_rate": 9.937053525057977e-06,
      "loss": 0.4567,
      "step": 346
    },
    {
      "epoch": 0.2922515440763616,
      "grad_norm": 0.5140954852104187,
      "learning_rate": 9.935884962111506e-06,
      "loss": 0.4635,
      "step": 347
    },
    {
      "epoch": 0.29309376754632227,
      "grad_norm": 0.5080870985984802,
      "learning_rate": 9.934705721846487e-06,
      "loss": 0.4698,
      "step": 348
    },
    {
      "epoch": 0.293935991016283,
      "grad_norm": 0.5165733098983765,
      "learning_rate": 9.933515806813856e-06,
      "loss": 0.5032,
      "step": 349
    },
    {
      "epoch": 0.2947782144862437,
      "grad_norm": 0.5374643206596375,
      "learning_rate": 9.932315219587641e-06,
      "loss": 0.4835,
      "step": 350
    },
    {
      "epoch": 0.2956204379562044,
      "grad_norm": 0.5032992362976074,
      "learning_rate": 9.931103962764955e-06,
      "loss": 0.4588,
      "step": 351
    },
    {
      "epoch": 0.29646266142616506,
      "grad_norm": 0.6126582622528076,
      "learning_rate": 9.92988203896599e-06,
      "loss": 0.462,
      "step": 352
    },
    {
      "epoch": 0.2973048848961258,
      "grad_norm": 0.5687455534934998,
      "learning_rate": 9.928649450834015e-06,
      "loss": 0.5118,
      "step": 353
    },
    {
      "epoch": 0.2981471083660865,
      "grad_norm": 0.5757891535758972,
      "learning_rate": 9.927406201035368e-06,
      "loss": 0.5019,
      "step": 354
    },
    {
      "epoch": 0.29898933183604715,
      "grad_norm": 0.5213591456413269,
      "learning_rate": 9.926152292259452e-06,
      "loss": 0.4704,
      "step": 355
    },
    {
      "epoch": 0.29983155530600786,
      "grad_norm": 0.46412593126296997,
      "learning_rate": 9.924887727218724e-06,
      "loss": 0.4848,
      "step": 356
    },
    {
      "epoch": 0.30067377877596857,
      "grad_norm": 0.4833955466747284,
      "learning_rate": 9.923612508648693e-06,
      "loss": 0.4988,
      "step": 357
    },
    {
      "epoch": 0.3015160022459292,
      "grad_norm": 0.46752598881721497,
      "learning_rate": 9.922326639307918e-06,
      "loss": 0.4879,
      "step": 358
    },
    {
      "epoch": 0.30235822571588994,
      "grad_norm": 0.47874319553375244,
      "learning_rate": 9.921030121977992e-06,
      "loss": 0.5062,
      "step": 359
    },
    {
      "epoch": 0.30320044918585065,
      "grad_norm": 0.5346820950508118,
      "learning_rate": 9.919722959463545e-06,
      "loss": 0.4528,
      "step": 360
    },
    {
      "epoch": 0.30404267265581136,
      "grad_norm": 0.42790868878364563,
      "learning_rate": 9.918405154592234e-06,
      "loss": 0.4758,
      "step": 361
    },
    {
      "epoch": 0.304884896125772,
      "grad_norm": 0.5383924245834351,
      "learning_rate": 9.917076710214739e-06,
      "loss": 0.4992,
      "step": 362
    },
    {
      "epoch": 0.30572711959573273,
      "grad_norm": 0.48493602871894836,
      "learning_rate": 9.915737629204754e-06,
      "loss": 0.482,
      "step": 363
    },
    {
      "epoch": 0.30656934306569344,
      "grad_norm": 0.48514503240585327,
      "learning_rate": 9.914387914458983e-06,
      "loss": 0.4934,
      "step": 364
    },
    {
      "epoch": 0.3074115665356541,
      "grad_norm": 0.4198630452156067,
      "learning_rate": 9.91302756889713e-06,
      "loss": 0.4929,
      "step": 365
    },
    {
      "epoch": 0.3082537900056148,
      "grad_norm": 0.5233954787254333,
      "learning_rate": 9.911656595461899e-06,
      "loss": 0.489,
      "step": 366
    },
    {
      "epoch": 0.3090960134755755,
      "grad_norm": 0.5638538599014282,
      "learning_rate": 9.910274997118982e-06,
      "loss": 0.4777,
      "step": 367
    },
    {
      "epoch": 0.30993823694553624,
      "grad_norm": 0.4984596371650696,
      "learning_rate": 9.908882776857057e-06,
      "loss": 0.478,
      "step": 368
    },
    {
      "epoch": 0.3107804604154969,
      "grad_norm": 0.49392059445381165,
      "learning_rate": 9.907479937687779e-06,
      "loss": 0.4791,
      "step": 369
    },
    {
      "epoch": 0.3116226838854576,
      "grad_norm": 0.5750652551651001,
      "learning_rate": 9.906066482645774e-06,
      "loss": 0.4835,
      "step": 370
    },
    {
      "epoch": 0.3124649073554183,
      "grad_norm": 0.5120707154273987,
      "learning_rate": 9.904642414788627e-06,
      "loss": 0.4659,
      "step": 371
    },
    {
      "epoch": 0.313307130825379,
      "grad_norm": 0.5912958383560181,
      "learning_rate": 9.903207737196892e-06,
      "loss": 0.5022,
      "step": 372
    },
    {
      "epoch": 0.3141493542953397,
      "grad_norm": 0.564690351486206,
      "learning_rate": 9.90176245297406e-06,
      "loss": 0.4772,
      "step": 373
    },
    {
      "epoch": 0.3149915777653004,
      "grad_norm": 0.4791686534881592,
      "learning_rate": 9.900306565246579e-06,
      "loss": 0.4847,
      "step": 374
    },
    {
      "epoch": 0.3158338012352611,
      "grad_norm": 0.5968531370162964,
      "learning_rate": 9.898840077163824e-06,
      "loss": 0.4403,
      "step": 375
    },
    {
      "epoch": 0.31667602470522177,
      "grad_norm": 0.5719009637832642,
      "learning_rate": 9.89736299189811e-06,
      "loss": 0.5005,
      "step": 376
    },
    {
      "epoch": 0.3175182481751825,
      "grad_norm": 0.5112172961235046,
      "learning_rate": 9.89587531264467e-06,
      "loss": 0.4827,
      "step": 377
    },
    {
      "epoch": 0.3183604716451432,
      "grad_norm": 0.5193136930465698,
      "learning_rate": 9.894377042621654e-06,
      "loss": 0.4903,
      "step": 378
    },
    {
      "epoch": 0.31920269511510385,
      "grad_norm": 0.6529738903045654,
      "learning_rate": 9.892868185070125e-06,
      "loss": 0.4876,
      "step": 379
    },
    {
      "epoch": 0.32004491858506456,
      "grad_norm": 0.5739043951034546,
      "learning_rate": 9.891348743254046e-06,
      "loss": 0.489,
      "step": 380
    },
    {
      "epoch": 0.3208871420550253,
      "grad_norm": 0.6331472992897034,
      "learning_rate": 9.889818720460281e-06,
      "loss": 0.5073,
      "step": 381
    },
    {
      "epoch": 0.321729365524986,
      "grad_norm": 0.6188276410102844,
      "learning_rate": 9.888278119998573e-06,
      "loss": 0.4989,
      "step": 382
    },
    {
      "epoch": 0.32257158899494665,
      "grad_norm": 0.5144535899162292,
      "learning_rate": 9.886726945201556e-06,
      "loss": 0.4896,
      "step": 383
    },
    {
      "epoch": 0.32341381246490736,
      "grad_norm": 0.6985793113708496,
      "learning_rate": 9.885165199424738e-06,
      "loss": 0.5183,
      "step": 384
    },
    {
      "epoch": 0.32425603593486807,
      "grad_norm": 0.5059904456138611,
      "learning_rate": 9.883592886046486e-06,
      "loss": 0.456,
      "step": 385
    },
    {
      "epoch": 0.3250982594048287,
      "grad_norm": 0.5560669898986816,
      "learning_rate": 9.882010008468038e-06,
      "loss": 0.4911,
      "step": 386
    },
    {
      "epoch": 0.32594048287478944,
      "grad_norm": 0.5193825364112854,
      "learning_rate": 9.880416570113472e-06,
      "loss": 0.4911,
      "step": 387
    },
    {
      "epoch": 0.32678270634475015,
      "grad_norm": 0.49069300293922424,
      "learning_rate": 9.878812574429722e-06,
      "loss": 0.5111,
      "step": 388
    },
    {
      "epoch": 0.32762492981471086,
      "grad_norm": 0.6037865877151489,
      "learning_rate": 9.877198024886553e-06,
      "loss": 0.4756,
      "step": 389
    },
    {
      "epoch": 0.3284671532846715,
      "grad_norm": 0.5049945116043091,
      "learning_rate": 9.875572924976568e-06,
      "loss": 0.4459,
      "step": 390
    },
    {
      "epoch": 0.32930937675463223,
      "grad_norm": 0.5973449349403381,
      "learning_rate": 9.873937278215181e-06,
      "loss": 0.4783,
      "step": 391
    },
    {
      "epoch": 0.33015160022459294,
      "grad_norm": 0.5697911977767944,
      "learning_rate": 9.87229108814063e-06,
      "loss": 0.5182,
      "step": 392
    },
    {
      "epoch": 0.3309938236945536,
      "grad_norm": 0.591978132724762,
      "learning_rate": 9.870634358313956e-06,
      "loss": 0.4978,
      "step": 393
    },
    {
      "epoch": 0.3318360471645143,
      "grad_norm": 0.4970555305480957,
      "learning_rate": 9.868967092319003e-06,
      "loss": 0.4839,
      "step": 394
    },
    {
      "epoch": 0.332678270634475,
      "grad_norm": 0.6565679311752319,
      "learning_rate": 9.867289293762403e-06,
      "loss": 0.4877,
      "step": 395
    },
    {
      "epoch": 0.3335204941044357,
      "grad_norm": 0.518564760684967,
      "learning_rate": 9.865600966273576e-06,
      "loss": 0.484,
      "step": 396
    },
    {
      "epoch": 0.3343627175743964,
      "grad_norm": 0.6350914835929871,
      "learning_rate": 9.863902113504713e-06,
      "loss": 0.4798,
      "step": 397
    },
    {
      "epoch": 0.3352049410443571,
      "grad_norm": 0.5585134029388428,
      "learning_rate": 9.86219273913078e-06,
      "loss": 0.5106,
      "step": 398
    },
    {
      "epoch": 0.3360471645143178,
      "grad_norm": 0.7494194507598877,
      "learning_rate": 9.860472846849498e-06,
      "loss": 0.5059,
      "step": 399
    },
    {
      "epoch": 0.3368893879842785,
      "grad_norm": 0.4816046357154846,
      "learning_rate": 9.858742440381343e-06,
      "loss": 0.484,
      "step": 400
    },
    {
      "epoch": 0.3377316114542392,
      "grad_norm": 0.5859432816505432,
      "learning_rate": 9.857001523469534e-06,
      "loss": 0.4398,
      "step": 401
    },
    {
      "epoch": 0.3385738349241999,
      "grad_norm": 0.5955841541290283,
      "learning_rate": 9.855250099880026e-06,
      "loss": 0.5095,
      "step": 402
    },
    {
      "epoch": 0.33941605839416056,
      "grad_norm": 0.6239519715309143,
      "learning_rate": 9.853488173401504e-06,
      "loss": 0.4839,
      "step": 403
    },
    {
      "epoch": 0.34025828186412127,
      "grad_norm": 0.4206678867340088,
      "learning_rate": 9.851715747845372e-06,
      "loss": 0.4496,
      "step": 404
    },
    {
      "epoch": 0.341100505334082,
      "grad_norm": 0.6776517033576965,
      "learning_rate": 9.849932827045746e-06,
      "loss": 0.492,
      "step": 405
    },
    {
      "epoch": 0.3419427288040427,
      "grad_norm": 0.4988827109336853,
      "learning_rate": 9.848139414859441e-06,
      "loss": 0.5019,
      "step": 406
    },
    {
      "epoch": 0.34278495227400335,
      "grad_norm": 0.562457799911499,
      "learning_rate": 9.846335515165974e-06,
      "loss": 0.4959,
      "step": 407
    },
    {
      "epoch": 0.34362717574396406,
      "grad_norm": 0.4613575041294098,
      "learning_rate": 9.844521131867546e-06,
      "loss": 0.4776,
      "step": 408
    },
    {
      "epoch": 0.3444693992139248,
      "grad_norm": 0.559753954410553,
      "learning_rate": 9.842696268889032e-06,
      "loss": 0.4978,
      "step": 409
    },
    {
      "epoch": 0.34531162268388543,
      "grad_norm": 0.47964006662368774,
      "learning_rate": 9.840860930177984e-06,
      "loss": 0.486,
      "step": 410
    },
    {
      "epoch": 0.34615384615384615,
      "grad_norm": 0.5521522164344788,
      "learning_rate": 9.839015119704607e-06,
      "loss": 0.4974,
      "step": 411
    },
    {
      "epoch": 0.34699606962380686,
      "grad_norm": 0.49321362376213074,
      "learning_rate": 9.837158841461767e-06,
      "loss": 0.4896,
      "step": 412
    },
    {
      "epoch": 0.34783829309376757,
      "grad_norm": 0.5474823713302612,
      "learning_rate": 9.835292099464965e-06,
      "loss": 0.4747,
      "step": 413
    },
    {
      "epoch": 0.3486805165637282,
      "grad_norm": 0.518067479133606,
      "learning_rate": 9.833414897752346e-06,
      "loss": 0.4795,
      "step": 414
    },
    {
      "epoch": 0.34952274003368894,
      "grad_norm": 0.47212740778923035,
      "learning_rate": 9.831527240384677e-06,
      "loss": 0.4495,
      "step": 415
    },
    {
      "epoch": 0.35036496350364965,
      "grad_norm": 0.5052335858345032,
      "learning_rate": 9.829629131445342e-06,
      "loss": 0.486,
      "step": 416
    },
    {
      "epoch": 0.3512071869736103,
      "grad_norm": 0.4754781723022461,
      "learning_rate": 9.827720575040335e-06,
      "loss": 0.4676,
      "step": 417
    },
    {
      "epoch": 0.352049410443571,
      "grad_norm": 0.4630621671676636,
      "learning_rate": 9.825801575298248e-06,
      "loss": 0.485,
      "step": 418
    },
    {
      "epoch": 0.35289163391353173,
      "grad_norm": 0.5137861371040344,
      "learning_rate": 9.82387213637027e-06,
      "loss": 0.498,
      "step": 419
    },
    {
      "epoch": 0.35373385738349244,
      "grad_norm": 0.4412898123264313,
      "learning_rate": 9.821932262430164e-06,
      "loss": 0.5004,
      "step": 420
    },
    {
      "epoch": 0.3545760808534531,
      "grad_norm": 0.5163385272026062,
      "learning_rate": 9.819981957674273e-06,
      "loss": 0.4883,
      "step": 421
    },
    {
      "epoch": 0.3554183043234138,
      "grad_norm": 0.4827934205532074,
      "learning_rate": 9.818021226321502e-06,
      "loss": 0.4608,
      "step": 422
    },
    {
      "epoch": 0.3562605277933745,
      "grad_norm": 0.49791207909584045,
      "learning_rate": 9.816050072613306e-06,
      "loss": 0.5026,
      "step": 423
    },
    {
      "epoch": 0.3571027512633352,
      "grad_norm": 0.5126602649688721,
      "learning_rate": 9.814068500813692e-06,
      "loss": 0.5115,
      "step": 424
    },
    {
      "epoch": 0.3579449747332959,
      "grad_norm": 0.46752452850341797,
      "learning_rate": 9.812076515209201e-06,
      "loss": 0.4685,
      "step": 425
    },
    {
      "epoch": 0.3587871982032566,
      "grad_norm": 0.4555363655090332,
      "learning_rate": 9.8100741201089e-06,
      "loss": 0.4871,
      "step": 426
    },
    {
      "epoch": 0.3596294216732173,
      "grad_norm": 0.5093207955360413,
      "learning_rate": 9.808061319844376e-06,
      "loss": 0.4784,
      "step": 427
    },
    {
      "epoch": 0.360471645143178,
      "grad_norm": 0.4739034175872803,
      "learning_rate": 9.806038118769724e-06,
      "loss": 0.5016,
      "step": 428
    },
    {
      "epoch": 0.3613138686131387,
      "grad_norm": 0.5714055299758911,
      "learning_rate": 9.804004521261537e-06,
      "loss": 0.4913,
      "step": 429
    },
    {
      "epoch": 0.3621560920830994,
      "grad_norm": 0.5067853331565857,
      "learning_rate": 9.801960531718898e-06,
      "loss": 0.4737,
      "step": 430
    },
    {
      "epoch": 0.36299831555306006,
      "grad_norm": 0.5288707613945007,
      "learning_rate": 9.79990615456337e-06,
      "loss": 0.4861,
      "step": 431
    },
    {
      "epoch": 0.36384053902302077,
      "grad_norm": 0.45343929529190063,
      "learning_rate": 9.797841394238987e-06,
      "loss": 0.4717,
      "step": 432
    },
    {
      "epoch": 0.3646827624929815,
      "grad_norm": 0.506369948387146,
      "learning_rate": 9.795766255212242e-06,
      "loss": 0.4854,
      "step": 433
    },
    {
      "epoch": 0.3655249859629422,
      "grad_norm": 0.5102807283401489,
      "learning_rate": 9.793680741972084e-06,
      "loss": 0.4968,
      "step": 434
    },
    {
      "epoch": 0.36636720943290285,
      "grad_norm": 0.5089136362075806,
      "learning_rate": 9.791584859029901e-06,
      "loss": 0.4817,
      "step": 435
    },
    {
      "epoch": 0.36720943290286356,
      "grad_norm": 0.4502042531967163,
      "learning_rate": 9.789478610919508e-06,
      "loss": 0.4908,
      "step": 436
    },
    {
      "epoch": 0.3680516563728243,
      "grad_norm": 0.554707407951355,
      "learning_rate": 9.787362002197147e-06,
      "loss": 0.5034,
      "step": 437
    },
    {
      "epoch": 0.36889387984278493,
      "grad_norm": 0.4637816846370697,
      "learning_rate": 9.785235037441473e-06,
      "loss": 0.4816,
      "step": 438
    },
    {
      "epoch": 0.36973610331274565,
      "grad_norm": 0.4701777398586273,
      "learning_rate": 9.783097721253543e-06,
      "loss": 0.4528,
      "step": 439
    },
    {
      "epoch": 0.37057832678270636,
      "grad_norm": 0.4755265414714813,
      "learning_rate": 9.780950058256802e-06,
      "loss": 0.4882,
      "step": 440
    },
    {
      "epoch": 0.371420550252667,
      "grad_norm": 0.5282868146896362,
      "learning_rate": 9.778792053097079e-06,
      "loss": 0.4909,
      "step": 441
    },
    {
      "epoch": 0.3722627737226277,
      "grad_norm": 0.5316382646560669,
      "learning_rate": 9.77662371044258e-06,
      "loss": 0.4981,
      "step": 442
    },
    {
      "epoch": 0.37310499719258844,
      "grad_norm": 0.5613449215888977,
      "learning_rate": 9.774445034983864e-06,
      "loss": 0.4933,
      "step": 443
    },
    {
      "epoch": 0.37394722066254915,
      "grad_norm": 0.5598426461219788,
      "learning_rate": 9.77225603143385e-06,
      "loss": 0.4886,
      "step": 444
    },
    {
      "epoch": 0.3747894441325098,
      "grad_norm": 0.558550238609314,
      "learning_rate": 9.770056704527797e-06,
      "loss": 0.489,
      "step": 445
    },
    {
      "epoch": 0.3756316676024705,
      "grad_norm": 0.4926319420337677,
      "learning_rate": 9.767847059023292e-06,
      "loss": 0.4753,
      "step": 446
    },
    {
      "epoch": 0.37647389107243123,
      "grad_norm": 0.557343065738678,
      "learning_rate": 9.765627099700248e-06,
      "loss": 0.4716,
      "step": 447
    },
    {
      "epoch": 0.3773161145423919,
      "grad_norm": 0.451992005109787,
      "learning_rate": 9.763396831360884e-06,
      "loss": 0.4842,
      "step": 448
    },
    {
      "epoch": 0.3781583380123526,
      "grad_norm": 0.5254546999931335,
      "learning_rate": 9.761156258829723e-06,
      "loss": 0.4995,
      "step": 449
    },
    {
      "epoch": 0.3790005614823133,
      "grad_norm": 0.5776655673980713,
      "learning_rate": 9.75890538695358e-06,
      "loss": 0.5055,
      "step": 450
    },
    {
      "epoch": 0.379842784952274,
      "grad_norm": 0.4604470431804657,
      "learning_rate": 9.756644220601541e-06,
      "loss": 0.4654,
      "step": 451
    },
    {
      "epoch": 0.3806850084222347,
      "grad_norm": 0.4605405926704407,
      "learning_rate": 9.75437276466497e-06,
      "loss": 0.4689,
      "step": 452
    },
    {
      "epoch": 0.3815272318921954,
      "grad_norm": 0.5270697474479675,
      "learning_rate": 9.752091024057485e-06,
      "loss": 0.4857,
      "step": 453
    },
    {
      "epoch": 0.3823694553621561,
      "grad_norm": 0.4891349971294403,
      "learning_rate": 9.749799003714954e-06,
      "loss": 0.4808,
      "step": 454
    },
    {
      "epoch": 0.38321167883211676,
      "grad_norm": 0.5431312918663025,
      "learning_rate": 9.747496708595482e-06,
      "loss": 0.4731,
      "step": 455
    },
    {
      "epoch": 0.3840539023020775,
      "grad_norm": 0.4756000339984894,
      "learning_rate": 9.745184143679398e-06,
      "loss": 0.4535,
      "step": 456
    },
    {
      "epoch": 0.3848961257720382,
      "grad_norm": 0.5186764597892761,
      "learning_rate": 9.742861313969246e-06,
      "loss": 0.4525,
      "step": 457
    },
    {
      "epoch": 0.3857383492419989,
      "grad_norm": 0.5027017593383789,
      "learning_rate": 9.74052822448978e-06,
      "loss": 0.4937,
      "step": 458
    },
    {
      "epoch": 0.38658057271195956,
      "grad_norm": 0.5506232380867004,
      "learning_rate": 9.738184880287946e-06,
      "loss": 0.4878,
      "step": 459
    },
    {
      "epoch": 0.38742279618192027,
      "grad_norm": 0.4420775771141052,
      "learning_rate": 9.735831286432869e-06,
      "loss": 0.4973,
      "step": 460
    },
    {
      "epoch": 0.388265019651881,
      "grad_norm": 0.48478975892066956,
      "learning_rate": 9.733467448015849e-06,
      "loss": 0.4615,
      "step": 461
    },
    {
      "epoch": 0.38910724312184164,
      "grad_norm": 0.4781162142753601,
      "learning_rate": 9.731093370150349e-06,
      "loss": 0.439,
      "step": 462
    },
    {
      "epoch": 0.38994946659180235,
      "grad_norm": 0.49872827529907227,
      "learning_rate": 9.728709057971979e-06,
      "loss": 0.4819,
      "step": 463
    },
    {
      "epoch": 0.39079169006176306,
      "grad_norm": 0.46917393803596497,
      "learning_rate": 9.72631451663849e-06,
      "loss": 0.4719,
      "step": 464
    },
    {
      "epoch": 0.3916339135317238,
      "grad_norm": 0.4937158524990082,
      "learning_rate": 9.723909751329759e-06,
      "loss": 0.4798,
      "step": 465
    },
    {
      "epoch": 0.39247613700168443,
      "grad_norm": 0.5563061237335205,
      "learning_rate": 9.721494767247779e-06,
      "loss": 0.4614,
      "step": 466
    },
    {
      "epoch": 0.39331836047164515,
      "grad_norm": 0.4654369056224823,
      "learning_rate": 9.719069569616653e-06,
      "loss": 0.4876,
      "step": 467
    },
    {
      "epoch": 0.39416058394160586,
      "grad_norm": 0.49888134002685547,
      "learning_rate": 9.71663416368257e-06,
      "loss": 0.4799,
      "step": 468
    },
    {
      "epoch": 0.3950028074115665,
      "grad_norm": 0.4534146189689636,
      "learning_rate": 9.71418855471381e-06,
      "loss": 0.4803,
      "step": 469
    },
    {
      "epoch": 0.3958450308815272,
      "grad_norm": 0.4598909020423889,
      "learning_rate": 9.71173274800072e-06,
      "loss": 0.4665,
      "step": 470
    },
    {
      "epoch": 0.39668725435148794,
      "grad_norm": 0.44303205609321594,
      "learning_rate": 9.709266748855704e-06,
      "loss": 0.4918,
      "step": 471
    },
    {
      "epoch": 0.39752947782144865,
      "grad_norm": 0.4258374869823456,
      "learning_rate": 9.70679056261322e-06,
      "loss": 0.4798,
      "step": 472
    },
    {
      "epoch": 0.3983717012914093,
      "grad_norm": 0.46528270840644836,
      "learning_rate": 9.704304194629759e-06,
      "loss": 0.4957,
      "step": 473
    },
    {
      "epoch": 0.39921392476137,
      "grad_norm": 0.4730633497238159,
      "learning_rate": 9.70180765028384e-06,
      "loss": 0.4643,
      "step": 474
    },
    {
      "epoch": 0.40005614823133073,
      "grad_norm": 0.43082088232040405,
      "learning_rate": 9.699300934975993e-06,
      "loss": 0.4877,
      "step": 475
    },
    {
      "epoch": 0.4008983717012914,
      "grad_norm": 0.431824266910553,
      "learning_rate": 9.696784054128749e-06,
      "loss": 0.5017,
      "step": 476
    },
    {
      "epoch": 0.4017405951712521,
      "grad_norm": 0.4453994929790497,
      "learning_rate": 9.694257013186635e-06,
      "loss": 0.4802,
      "step": 477
    },
    {
      "epoch": 0.4025828186412128,
      "grad_norm": 0.415343701839447,
      "learning_rate": 9.691719817616148e-06,
      "loss": 0.4455,
      "step": 478
    },
    {
      "epoch": 0.40342504211117347,
      "grad_norm": 0.4673924148082733,
      "learning_rate": 9.689172472905759e-06,
      "loss": 0.4679,
      "step": 479
    },
    {
      "epoch": 0.4042672655811342,
      "grad_norm": 0.4362967908382416,
      "learning_rate": 9.686614984565888e-06,
      "loss": 0.4943,
      "step": 480
    },
    {
      "epoch": 0.4051094890510949,
      "grad_norm": 0.4192586839199066,
      "learning_rate": 9.6840473581289e-06,
      "loss": 0.4471,
      "step": 481
    },
    {
      "epoch": 0.4059517125210556,
      "grad_norm": 0.45233893394470215,
      "learning_rate": 9.681469599149093e-06,
      "loss": 0.4878,
      "step": 482
    },
    {
      "epoch": 0.40679393599101626,
      "grad_norm": 0.461480051279068,
      "learning_rate": 9.67888171320268e-06,
      "loss": 0.4849,
      "step": 483
    },
    {
      "epoch": 0.407636159460977,
      "grad_norm": 0.4699520170688629,
      "learning_rate": 9.676283705887783e-06,
      "loss": 0.4955,
      "step": 484
    },
    {
      "epoch": 0.4084783829309377,
      "grad_norm": 0.5579977035522461,
      "learning_rate": 9.673675582824416e-06,
      "loss": 0.4966,
      "step": 485
    },
    {
      "epoch": 0.40932060640089835,
      "grad_norm": 0.4995400011539459,
      "learning_rate": 9.671057349654481e-06,
      "loss": 0.4689,
      "step": 486
    },
    {
      "epoch": 0.41016282987085906,
      "grad_norm": 0.49856096506118774,
      "learning_rate": 9.668429012041742e-06,
      "loss": 0.4793,
      "step": 487
    },
    {
      "epoch": 0.41100505334081977,
      "grad_norm": 0.5248208045959473,
      "learning_rate": 9.66579057567183e-06,
      "loss": 0.4822,
      "step": 488
    },
    {
      "epoch": 0.4118472768107805,
      "grad_norm": 0.44491469860076904,
      "learning_rate": 9.663142046252213e-06,
      "loss": 0.4565,
      "step": 489
    },
    {
      "epoch": 0.41268950028074114,
      "grad_norm": 0.5659173727035522,
      "learning_rate": 9.660483429512198e-06,
      "loss": 0.4681,
      "step": 490
    },
    {
      "epoch": 0.41353172375070185,
      "grad_norm": 0.46686890721321106,
      "learning_rate": 9.657814731202912e-06,
      "loss": 0.4917,
      "step": 491
    },
    {
      "epoch": 0.41437394722066256,
      "grad_norm": 0.5054121613502502,
      "learning_rate": 9.65513595709729e-06,
      "loss": 0.4621,
      "step": 492
    },
    {
      "epoch": 0.4152161706906232,
      "grad_norm": 0.49826014041900635,
      "learning_rate": 9.652447112990063e-06,
      "loss": 0.4742,
      "step": 493
    },
    {
      "epoch": 0.41605839416058393,
      "grad_norm": 0.49177226424217224,
      "learning_rate": 9.649748204697741e-06,
      "loss": 0.4501,
      "step": 494
    },
    {
      "epoch": 0.41690061763054465,
      "grad_norm": 0.4747553765773773,
      "learning_rate": 9.647039238058613e-06,
      "loss": 0.4736,
      "step": 495
    },
    {
      "epoch": 0.41774284110050536,
      "grad_norm": 0.6754968762397766,
      "learning_rate": 9.644320218932723e-06,
      "loss": 0.5082,
      "step": 496
    },
    {
      "epoch": 0.418585064570466,
      "grad_norm": 0.5592297911643982,
      "learning_rate": 9.641591153201856e-06,
      "loss": 0.4879,
      "step": 497
    },
    {
      "epoch": 0.4194272880404267,
      "grad_norm": 0.5905870795249939,
      "learning_rate": 9.63885204676954e-06,
      "loss": 0.4689,
      "step": 498
    },
    {
      "epoch": 0.42026951151038744,
      "grad_norm": 0.7142674922943115,
      "learning_rate": 9.63610290556101e-06,
      "loss": 0.499,
      "step": 499
    },
    {
      "epoch": 0.4211117349803481,
      "grad_norm": 0.5290427207946777,
      "learning_rate": 9.63334373552322e-06,
      "loss": 0.4798,
      "step": 500
    },
    {
      "epoch": 0.4219539584503088,
      "grad_norm": 0.7375014424324036,
      "learning_rate": 9.63057454262481e-06,
      "loss": 0.488,
      "step": 501
    },
    {
      "epoch": 0.4227961819202695,
      "grad_norm": 0.5405669808387756,
      "learning_rate": 9.627795332856107e-06,
      "loss": 0.4683,
      "step": 502
    },
    {
      "epoch": 0.42363840539023023,
      "grad_norm": 0.6432217359542847,
      "learning_rate": 9.625006112229102e-06,
      "loss": 0.4866,
      "step": 503
    },
    {
      "epoch": 0.4244806288601909,
      "grad_norm": 0.7061501741409302,
      "learning_rate": 9.622206886777448e-06,
      "loss": 0.4724,
      "step": 504
    },
    {
      "epoch": 0.4253228523301516,
      "grad_norm": 0.5652732849121094,
      "learning_rate": 9.619397662556434e-06,
      "loss": 0.4843,
      "step": 505
    },
    {
      "epoch": 0.4261650758001123,
      "grad_norm": 0.5524168014526367,
      "learning_rate": 9.616578445642982e-06,
      "loss": 0.4638,
      "step": 506
    },
    {
      "epoch": 0.42700729927007297,
      "grad_norm": 0.6956731677055359,
      "learning_rate": 9.613749242135627e-06,
      "loss": 0.4976,
      "step": 507
    },
    {
      "epoch": 0.4278495227400337,
      "grad_norm": 0.4906958341598511,
      "learning_rate": 9.61091005815451e-06,
      "loss": 0.4703,
      "step": 508
    },
    {
      "epoch": 0.4286917462099944,
      "grad_norm": 0.556064248085022,
      "learning_rate": 9.608060899841361e-06,
      "loss": 0.4637,
      "step": 509
    },
    {
      "epoch": 0.4295339696799551,
      "grad_norm": 0.6499955654144287,
      "learning_rate": 9.605201773359485e-06,
      "loss": 0.4618,
      "step": 510
    },
    {
      "epoch": 0.43037619314991576,
      "grad_norm": 0.4057188928127289,
      "learning_rate": 9.602332684893754e-06,
      "loss": 0.4618,
      "step": 511
    },
    {
      "epoch": 0.4312184166198765,
      "grad_norm": 0.5675808787345886,
      "learning_rate": 9.599453640650585e-06,
      "loss": 0.4593,
      "step": 512
    },
    {
      "epoch": 0.4320606400898372,
      "grad_norm": 0.5597749352455139,
      "learning_rate": 9.596564646857934e-06,
      "loss": 0.4863,
      "step": 513
    },
    {
      "epoch": 0.43290286355979785,
      "grad_norm": 0.45305466651916504,
      "learning_rate": 9.59366570976528e-06,
      "loss": 0.4783,
      "step": 514
    },
    {
      "epoch": 0.43374508702975856,
      "grad_norm": 0.5603322982788086,
      "learning_rate": 9.590756835643613e-06,
      "loss": 0.4954,
      "step": 515
    },
    {
      "epoch": 0.43458731049971927,
      "grad_norm": 0.4478805959224701,
      "learning_rate": 9.587838030785413e-06,
      "loss": 0.4725,
      "step": 516
    },
    {
      "epoch": 0.43542953396968,
      "grad_norm": 0.470351904630661,
      "learning_rate": 9.584909301504649e-06,
      "loss": 0.4817,
      "step": 517
    },
    {
      "epoch": 0.43627175743964064,
      "grad_norm": 0.47688621282577515,
      "learning_rate": 9.581970654136752e-06,
      "loss": 0.4722,
      "step": 518
    },
    {
      "epoch": 0.43711398090960135,
      "grad_norm": 0.4873866140842438,
      "learning_rate": 9.579022095038614e-06,
      "loss": 0.479,
      "step": 519
    },
    {
      "epoch": 0.43795620437956206,
      "grad_norm": 0.5069408416748047,
      "learning_rate": 9.576063630588563e-06,
      "loss": 0.459,
      "step": 520
    },
    {
      "epoch": 0.4387984278495227,
      "grad_norm": 0.505054235458374,
      "learning_rate": 9.573095267186361e-06,
      "loss": 0.4954,
      "step": 521
    },
    {
      "epoch": 0.43964065131948343,
      "grad_norm": 0.4802080988883972,
      "learning_rate": 9.570117011253173e-06,
      "loss": 0.4915,
      "step": 522
    },
    {
      "epoch": 0.44048287478944415,
      "grad_norm": 0.47201085090637207,
      "learning_rate": 9.567128869231575e-06,
      "loss": 0.4668,
      "step": 523
    },
    {
      "epoch": 0.4413250982594048,
      "grad_norm": 0.4793694019317627,
      "learning_rate": 9.56413084758552e-06,
      "loss": 0.4611,
      "step": 524
    },
    {
      "epoch": 0.4421673217293655,
      "grad_norm": 0.47047457098960876,
      "learning_rate": 9.561122952800336e-06,
      "loss": 0.458,
      "step": 525
    },
    {
      "epoch": 0.4430095451993262,
      "grad_norm": 0.4833819270133972,
      "learning_rate": 9.55810519138271e-06,
      "loss": 0.449,
      "step": 526
    },
    {
      "epoch": 0.44385176866928694,
      "grad_norm": 0.4498629570007324,
      "learning_rate": 9.55507756986067e-06,
      "loss": 0.4653,
      "step": 527
    },
    {
      "epoch": 0.4446939921392476,
      "grad_norm": 0.47281137108802795,
      "learning_rate": 9.552040094783575e-06,
      "loss": 0.4696,
      "step": 528
    },
    {
      "epoch": 0.4455362156092083,
      "grad_norm": 0.4416884779930115,
      "learning_rate": 9.548992772722097e-06,
      "loss": 0.4799,
      "step": 529
    },
    {
      "epoch": 0.446378439079169,
      "grad_norm": 0.4985843896865845,
      "learning_rate": 9.545935610268213e-06,
      "loss": 0.4498,
      "step": 530
    },
    {
      "epoch": 0.4472206625491297,
      "grad_norm": 0.49338093400001526,
      "learning_rate": 9.542868614035182e-06,
      "loss": 0.4704,
      "step": 531
    },
    {
      "epoch": 0.4480628860190904,
      "grad_norm": 0.46367019414901733,
      "learning_rate": 9.53979179065754e-06,
      "loss": 0.4698,
      "step": 532
    },
    {
      "epoch": 0.4489051094890511,
      "grad_norm": 0.44744524359703064,
      "learning_rate": 9.536705146791076e-06,
      "loss": 0.4674,
      "step": 533
    },
    {
      "epoch": 0.4497473329590118,
      "grad_norm": 0.4522043466567993,
      "learning_rate": 9.533608689112827e-06,
      "loss": 0.4702,
      "step": 534
    },
    {
      "epoch": 0.45058955642897247,
      "grad_norm": 0.4376865327358246,
      "learning_rate": 9.530502424321062e-06,
      "loss": 0.4606,
      "step": 535
    },
    {
      "epoch": 0.4514317798989332,
      "grad_norm": 0.46833086013793945,
      "learning_rate": 9.527386359135254e-06,
      "loss": 0.4732,
      "step": 536
    },
    {
      "epoch": 0.4522740033688939,
      "grad_norm": 0.40999624133110046,
      "learning_rate": 9.524260500296087e-06,
      "loss": 0.4861,
      "step": 537
    },
    {
      "epoch": 0.45311622683885455,
      "grad_norm": 0.4683706760406494,
      "learning_rate": 9.521124854565425e-06,
      "loss": 0.5047,
      "step": 538
    },
    {
      "epoch": 0.45395845030881526,
      "grad_norm": 0.4989241659641266,
      "learning_rate": 9.517979428726306e-06,
      "loss": 0.501,
      "step": 539
    },
    {
      "epoch": 0.454800673778776,
      "grad_norm": 0.49111321568489075,
      "learning_rate": 9.514824229582922e-06,
      "loss": 0.4835,
      "step": 540
    },
    {
      "epoch": 0.4556428972487367,
      "grad_norm": 0.5496500730514526,
      "learning_rate": 9.511659263960607e-06,
      "loss": 0.4752,
      "step": 541
    },
    {
      "epoch": 0.45648512071869735,
      "grad_norm": 0.4854760766029358,
      "learning_rate": 9.508484538705823e-06,
      "loss": 0.4702,
      "step": 542
    },
    {
      "epoch": 0.45732734418865806,
      "grad_norm": 0.4938378632068634,
      "learning_rate": 9.505300060686145e-06,
      "loss": 0.4677,
      "step": 543
    },
    {
      "epoch": 0.45816956765861877,
      "grad_norm": 0.47789400815963745,
      "learning_rate": 9.50210583679024e-06,
      "loss": 0.4887,
      "step": 544
    },
    {
      "epoch": 0.4590117911285794,
      "grad_norm": 0.44392067193984985,
      "learning_rate": 9.498901873927865e-06,
      "loss": 0.4324,
      "step": 545
    },
    {
      "epoch": 0.45985401459854014,
      "grad_norm": 0.4367707371711731,
      "learning_rate": 9.495688179029838e-06,
      "loss": 0.4748,
      "step": 546
    },
    {
      "epoch": 0.46069623806850085,
      "grad_norm": 0.4802246689796448,
      "learning_rate": 9.492464759048033e-06,
      "loss": 0.4934,
      "step": 547
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 0.4608331322669983,
      "learning_rate": 9.48923162095536e-06,
      "loss": 0.4988,
      "step": 548
    },
    {
      "epoch": 0.4623806850084222,
      "grad_norm": 0.47750818729400635,
      "learning_rate": 9.48598877174575e-06,
      "loss": 0.4696,
      "step": 549
    },
    {
      "epoch": 0.46322290847838293,
      "grad_norm": 0.5015239119529724,
      "learning_rate": 9.482736218434144e-06,
      "loss": 0.47,
      "step": 550
    },
    {
      "epoch": 0.46406513194834365,
      "grad_norm": 0.47070077061653137,
      "learning_rate": 9.479473968056472e-06,
      "loss": 0.4526,
      "step": 551
    },
    {
      "epoch": 0.4649073554183043,
      "grad_norm": 0.5211920738220215,
      "learning_rate": 9.476202027669644e-06,
      "loss": 0.4798,
      "step": 552
    },
    {
      "epoch": 0.465749578888265,
      "grad_norm": 0.49658656120300293,
      "learning_rate": 9.472920404351527e-06,
      "loss": 0.4683,
      "step": 553
    },
    {
      "epoch": 0.4665918023582257,
      "grad_norm": 0.48065587878227234,
      "learning_rate": 9.469629105200937e-06,
      "loss": 0.4646,
      "step": 554
    },
    {
      "epoch": 0.46743402582818644,
      "grad_norm": 0.5362092852592468,
      "learning_rate": 9.466328137337623e-06,
      "loss": 0.4779,
      "step": 555
    },
    {
      "epoch": 0.4682762492981471,
      "grad_norm": 0.5908045172691345,
      "learning_rate": 9.463017507902245e-06,
      "loss": 0.4709,
      "step": 556
    },
    {
      "epoch": 0.4691184727681078,
      "grad_norm": 0.5074126124382019,
      "learning_rate": 9.459697224056364e-06,
      "loss": 0.4492,
      "step": 557
    },
    {
      "epoch": 0.4699606962380685,
      "grad_norm": 0.5068876147270203,
      "learning_rate": 9.45636729298243e-06,
      "loss": 0.4639,
      "step": 558
    },
    {
      "epoch": 0.4708029197080292,
      "grad_norm": 0.5294995307922363,
      "learning_rate": 9.453027721883751e-06,
      "loss": 0.4569,
      "step": 559
    },
    {
      "epoch": 0.4716451431779899,
      "grad_norm": 0.4262874722480774,
      "learning_rate": 9.449678517984503e-06,
      "loss": 0.4675,
      "step": 560
    },
    {
      "epoch": 0.4724873666479506,
      "grad_norm": 0.49461472034454346,
      "learning_rate": 9.446319688529688e-06,
      "loss": 0.4616,
      "step": 561
    },
    {
      "epoch": 0.47332959011791126,
      "grad_norm": 0.5152269005775452,
      "learning_rate": 9.442951240785135e-06,
      "loss": 0.483,
      "step": 562
    },
    {
      "epoch": 0.47417181358787197,
      "grad_norm": 0.47602900862693787,
      "learning_rate": 9.439573182037478e-06,
      "loss": 0.4651,
      "step": 563
    },
    {
      "epoch": 0.4750140370578327,
      "grad_norm": 0.5065189003944397,
      "learning_rate": 9.436185519594145e-06,
      "loss": 0.4725,
      "step": 564
    },
    {
      "epoch": 0.4758562605277934,
      "grad_norm": 0.4609287679195404,
      "learning_rate": 9.432788260783333e-06,
      "loss": 0.4632,
      "step": 565
    },
    {
      "epoch": 0.47669848399775405,
      "grad_norm": 0.4781322479248047,
      "learning_rate": 9.429381412954e-06,
      "loss": 0.4809,
      "step": 566
    },
    {
      "epoch": 0.47754070746771476,
      "grad_norm": 0.5086216926574707,
      "learning_rate": 9.425964983475848e-06,
      "loss": 0.4727,
      "step": 567
    },
    {
      "epoch": 0.4783829309376755,
      "grad_norm": 0.4675319790840149,
      "learning_rate": 9.422538979739307e-06,
      "loss": 0.4844,
      "step": 568
    },
    {
      "epoch": 0.47922515440763613,
      "grad_norm": 0.47964197397232056,
      "learning_rate": 9.419103409155517e-06,
      "loss": 0.4483,
      "step": 569
    },
    {
      "epoch": 0.48006737787759685,
      "grad_norm": 0.46891283988952637,
      "learning_rate": 9.415658279156312e-06,
      "loss": 0.4542,
      "step": 570
    },
    {
      "epoch": 0.48090960134755756,
      "grad_norm": 0.4701353907585144,
      "learning_rate": 9.412203597194204e-06,
      "loss": 0.4775,
      "step": 571
    },
    {
      "epoch": 0.48175182481751827,
      "grad_norm": 0.5193514823913574,
      "learning_rate": 9.408739370742372e-06,
      "loss": 0.4713,
      "step": 572
    },
    {
      "epoch": 0.4825940482874789,
      "grad_norm": 0.4469265639781952,
      "learning_rate": 9.405265607294638e-06,
      "loss": 0.4775,
      "step": 573
    },
    {
      "epoch": 0.48343627175743964,
      "grad_norm": 0.47848910093307495,
      "learning_rate": 9.401782314365458e-06,
      "loss": 0.4902,
      "step": 574
    },
    {
      "epoch": 0.48427849522740035,
      "grad_norm": 0.49984055757522583,
      "learning_rate": 9.398289499489897e-06,
      "loss": 0.4762,
      "step": 575
    },
    {
      "epoch": 0.485120718697361,
      "grad_norm": 0.43059349060058594,
      "learning_rate": 9.39478717022362e-06,
      "loss": 0.452,
      "step": 576
    },
    {
      "epoch": 0.4859629421673217,
      "grad_norm": 0.5903198719024658,
      "learning_rate": 9.391275334142879e-06,
      "loss": 0.5001,
      "step": 577
    },
    {
      "epoch": 0.48680516563728243,
      "grad_norm": 0.4261970818042755,
      "learning_rate": 9.387753998844482e-06,
      "loss": 0.4719,
      "step": 578
    },
    {
      "epoch": 0.48764738910724315,
      "grad_norm": 0.4732963740825653,
      "learning_rate": 9.384223171945793e-06,
      "loss": 0.4453,
      "step": 579
    },
    {
      "epoch": 0.4884896125772038,
      "grad_norm": 0.47385308146476746,
      "learning_rate": 9.380682861084703e-06,
      "loss": 0.4955,
      "step": 580
    },
    {
      "epoch": 0.4893318360471645,
      "grad_norm": 0.5225322246551514,
      "learning_rate": 9.377133073919622e-06,
      "loss": 0.483,
      "step": 581
    },
    {
      "epoch": 0.4901740595171252,
      "grad_norm": 0.4337518811225891,
      "learning_rate": 9.37357381812946e-06,
      "loss": 0.485,
      "step": 582
    },
    {
      "epoch": 0.4910162829870859,
      "grad_norm": 0.4377490282058716,
      "learning_rate": 9.370005101413605e-06,
      "loss": 0.47,
      "step": 583
    },
    {
      "epoch": 0.4918585064570466,
      "grad_norm": 0.465329647064209,
      "learning_rate": 9.366426931491917e-06,
      "loss": 0.4716,
      "step": 584
    },
    {
      "epoch": 0.4927007299270073,
      "grad_norm": 0.5214790105819702,
      "learning_rate": 9.362839316104701e-06,
      "loss": 0.4509,
      "step": 585
    },
    {
      "epoch": 0.493542953396968,
      "grad_norm": 0.5251275300979614,
      "learning_rate": 9.359242263012693e-06,
      "loss": 0.4799,
      "step": 586
    },
    {
      "epoch": 0.4943851768669287,
      "grad_norm": 0.46722909808158875,
      "learning_rate": 9.355635779997052e-06,
      "loss": 0.4725,
      "step": 587
    },
    {
      "epoch": 0.4952274003368894,
      "grad_norm": 0.5396008491516113,
      "learning_rate": 9.352019874859326e-06,
      "loss": 0.4674,
      "step": 588
    },
    {
      "epoch": 0.4960696238068501,
      "grad_norm": 0.5190364718437195,
      "learning_rate": 9.348394555421454e-06,
      "loss": 0.4975,
      "step": 589
    },
    {
      "epoch": 0.49691184727681076,
      "grad_norm": 0.4919872283935547,
      "learning_rate": 9.344759829525734e-06,
      "loss": 0.4775,
      "step": 590
    },
    {
      "epoch": 0.49775407074677147,
      "grad_norm": 0.5222674608230591,
      "learning_rate": 9.341115705034813e-06,
      "loss": 0.4638,
      "step": 591
    },
    {
      "epoch": 0.4985962942167322,
      "grad_norm": 0.4416348338127136,
      "learning_rate": 9.33746218983167e-06,
      "loss": 0.4726,
      "step": 592
    },
    {
      "epoch": 0.4994385176866929,
      "grad_norm": 0.5418347120285034,
      "learning_rate": 9.3337992918196e-06,
      "loss": 0.4777,
      "step": 593
    },
    {
      "epoch": 0.5002807411566536,
      "grad_norm": 0.4703558683395386,
      "learning_rate": 9.330127018922195e-06,
      "loss": 0.4306,
      "step": 594
    },
    {
      "epoch": 0.5011229646266142,
      "grad_norm": 0.4853740930557251,
      "learning_rate": 9.32644537908332e-06,
      "loss": 0.4874,
      "step": 595
    },
    {
      "epoch": 0.501965188096575,
      "grad_norm": 0.4262539744377136,
      "learning_rate": 9.32275438026711e-06,
      "loss": 0.4814,
      "step": 596
    },
    {
      "epoch": 0.5028074115665356,
      "grad_norm": 0.48719099164009094,
      "learning_rate": 9.31905403045794e-06,
      "loss": 0.463,
      "step": 597
    },
    {
      "epoch": 0.5036496350364964,
      "grad_norm": 0.46480950713157654,
      "learning_rate": 9.315344337660422e-06,
      "loss": 0.4472,
      "step": 598
    },
    {
      "epoch": 0.5044918585064571,
      "grad_norm": 0.4875054359436035,
      "learning_rate": 9.311625309899366e-06,
      "loss": 0.4948,
      "step": 599
    },
    {
      "epoch": 0.5053340819764177,
      "grad_norm": 0.4321938753128052,
      "learning_rate": 9.307896955219787e-06,
      "loss": 0.4746,
      "step": 600
    },
    {
      "epoch": 0.5061763054463785,
      "grad_norm": 0.4964905083179474,
      "learning_rate": 9.304159281686867e-06,
      "loss": 0.4959,
      "step": 601
    },
    {
      "epoch": 0.5070185289163391,
      "grad_norm": 0.4305831491947174,
      "learning_rate": 9.300412297385954e-06,
      "loss": 0.4909,
      "step": 602
    },
    {
      "epoch": 0.5078607523862998,
      "grad_norm": 0.596065104007721,
      "learning_rate": 9.296656010422532e-06,
      "loss": 0.4671,
      "step": 603
    },
    {
      "epoch": 0.5087029758562606,
      "grad_norm": 0.530989944934845,
      "learning_rate": 9.29289042892221e-06,
      "loss": 0.4903,
      "step": 604
    },
    {
      "epoch": 0.5095451993262212,
      "grad_norm": 0.5476024150848389,
      "learning_rate": 9.289115561030704e-06,
      "loss": 0.4838,
      "step": 605
    },
    {
      "epoch": 0.5103874227961819,
      "grad_norm": 0.49807673692703247,
      "learning_rate": 9.285331414913816e-06,
      "loss": 0.4793,
      "step": 606
    },
    {
      "epoch": 0.5112296462661426,
      "grad_norm": 0.46437469124794006,
      "learning_rate": 9.281537998757421e-06,
      "loss": 0.4648,
      "step": 607
    },
    {
      "epoch": 0.5120718697361033,
      "grad_norm": 0.5756412148475647,
      "learning_rate": 9.277735320767449e-06,
      "loss": 0.4631,
      "step": 608
    },
    {
      "epoch": 0.512914093206064,
      "grad_norm": 0.5119008421897888,
      "learning_rate": 9.27392338916986e-06,
      "loss": 0.4781,
      "step": 609
    },
    {
      "epoch": 0.5137563166760247,
      "grad_norm": 0.5555642247200012,
      "learning_rate": 9.270102212210632e-06,
      "loss": 0.4718,
      "step": 610
    },
    {
      "epoch": 0.5145985401459854,
      "grad_norm": 0.5044378042221069,
      "learning_rate": 9.266271798155748e-06,
      "loss": 0.4635,
      "step": 611
    },
    {
      "epoch": 0.5154407636159462,
      "grad_norm": 0.4519711136817932,
      "learning_rate": 9.262432155291167e-06,
      "loss": 0.4528,
      "step": 612
    },
    {
      "epoch": 0.5162829870859068,
      "grad_norm": 0.4856114685535431,
      "learning_rate": 9.258583291922814e-06,
      "loss": 0.462,
      "step": 613
    },
    {
      "epoch": 0.5171252105558675,
      "grad_norm": 0.46746164560317993,
      "learning_rate": 9.254725216376562e-06,
      "loss": 0.4868,
      "step": 614
    },
    {
      "epoch": 0.5179674340258282,
      "grad_norm": 0.46147024631500244,
      "learning_rate": 9.250857936998206e-06,
      "loss": 0.4797,
      "step": 615
    },
    {
      "epoch": 0.5188096574957889,
      "grad_norm": 0.4424862563610077,
      "learning_rate": 9.246981462153456e-06,
      "loss": 0.4477,
      "step": 616
    },
    {
      "epoch": 0.5196518809657495,
      "grad_norm": 0.5252034068107605,
      "learning_rate": 9.243095800227913e-06,
      "loss": 0.495,
      "step": 617
    },
    {
      "epoch": 0.5204941044357103,
      "grad_norm": 0.4521056115627289,
      "learning_rate": 9.239200959627048e-06,
      "loss": 0.476,
      "step": 618
    },
    {
      "epoch": 0.521336327905671,
      "grad_norm": 0.49367159605026245,
      "learning_rate": 9.235296948776194e-06,
      "loss": 0.4801,
      "step": 619
    },
    {
      "epoch": 0.5221785513756316,
      "grad_norm": 0.4517781734466553,
      "learning_rate": 9.231383776120512e-06,
      "loss": 0.4585,
      "step": 620
    },
    {
      "epoch": 0.5230207748455924,
      "grad_norm": 0.49791476130485535,
      "learning_rate": 9.22746145012499e-06,
      "loss": 0.4582,
      "step": 621
    },
    {
      "epoch": 0.523862998315553,
      "grad_norm": 0.4957379400730133,
      "learning_rate": 9.223529979274411e-06,
      "loss": 0.4777,
      "step": 622
    },
    {
      "epoch": 0.5247052217855137,
      "grad_norm": 0.4636192321777344,
      "learning_rate": 9.219589372073344e-06,
      "loss": 0.4641,
      "step": 623
    },
    {
      "epoch": 0.5255474452554745,
      "grad_norm": 0.5280619859695435,
      "learning_rate": 9.215639637046121e-06,
      "loss": 0.4847,
      "step": 624
    },
    {
      "epoch": 0.5263896687254351,
      "grad_norm": 0.43893149495124817,
      "learning_rate": 9.211680782736818e-06,
      "loss": 0.4469,
      "step": 625
    },
    {
      "epoch": 0.5272318921953958,
      "grad_norm": 0.48778036236763,
      "learning_rate": 9.207712817709237e-06,
      "loss": 0.4644,
      "step": 626
    },
    {
      "epoch": 0.5280741156653566,
      "grad_norm": 0.49062132835388184,
      "learning_rate": 9.203735750546891e-06,
      "loss": 0.5017,
      "step": 627
    },
    {
      "epoch": 0.5289163391353172,
      "grad_norm": 0.5997622609138489,
      "learning_rate": 9.19974958985298e-06,
      "loss": 0.4987,
      "step": 628
    },
    {
      "epoch": 0.529758562605278,
      "grad_norm": 0.5917564630508423,
      "learning_rate": 9.19575434425038e-06,
      "loss": 0.4698,
      "step": 629
    },
    {
      "epoch": 0.5306007860752386,
      "grad_norm": 0.4877614378929138,
      "learning_rate": 9.191750022381613e-06,
      "loss": 0.4777,
      "step": 630
    },
    {
      "epoch": 0.5314430095451993,
      "grad_norm": 0.5547837615013123,
      "learning_rate": 9.18773663290884e-06,
      "loss": 0.47,
      "step": 631
    },
    {
      "epoch": 0.5322852330151601,
      "grad_norm": 0.5088148713111877,
      "learning_rate": 9.183714184513832e-06,
      "loss": 0.4745,
      "step": 632
    },
    {
      "epoch": 0.5331274564851207,
      "grad_norm": 0.4893452227115631,
      "learning_rate": 9.179682685897963e-06,
      "loss": 0.4484,
      "step": 633
    },
    {
      "epoch": 0.5339696799550814,
      "grad_norm": 0.5308108925819397,
      "learning_rate": 9.175642145782179e-06,
      "loss": 0.4549,
      "step": 634
    },
    {
      "epoch": 0.5348119034250421,
      "grad_norm": 0.5030275583267212,
      "learning_rate": 9.171592572906985e-06,
      "loss": 0.4921,
      "step": 635
    },
    {
      "epoch": 0.5356541268950028,
      "grad_norm": 0.5697332620620728,
      "learning_rate": 9.16753397603243e-06,
      "loss": 0.4889,
      "step": 636
    },
    {
      "epoch": 0.5364963503649635,
      "grad_norm": 0.5632562637329102,
      "learning_rate": 9.16346636393808e-06,
      "loss": 0.4564,
      "step": 637
    },
    {
      "epoch": 0.5373385738349242,
      "grad_norm": 0.4723356366157532,
      "learning_rate": 9.159389745423003e-06,
      "loss": 0.434,
      "step": 638
    },
    {
      "epoch": 0.5381807973048849,
      "grad_norm": 0.5865023136138916,
      "learning_rate": 9.155304129305749e-06,
      "loss": 0.4777,
      "step": 639
    },
    {
      "epoch": 0.5390230207748455,
      "grad_norm": 0.49366381764411926,
      "learning_rate": 9.151209524424333e-06,
      "loss": 0.4835,
      "step": 640
    },
    {
      "epoch": 0.5398652442448063,
      "grad_norm": 0.4547862708568573,
      "learning_rate": 9.147105939636216e-06,
      "loss": 0.4694,
      "step": 641
    },
    {
      "epoch": 0.540707467714767,
      "grad_norm": 0.5536943078041077,
      "learning_rate": 9.142993383818284e-06,
      "loss": 0.4659,
      "step": 642
    },
    {
      "epoch": 0.5415496911847277,
      "grad_norm": 0.4527263939380646,
      "learning_rate": 9.138871865866824e-06,
      "loss": 0.5023,
      "step": 643
    },
    {
      "epoch": 0.5423919146546884,
      "grad_norm": 0.4921812117099762,
      "learning_rate": 9.134741394697517e-06,
      "loss": 0.4641,
      "step": 644
    },
    {
      "epoch": 0.543234138124649,
      "grad_norm": 0.4155254364013672,
      "learning_rate": 9.130601979245407e-06,
      "loss": 0.4764,
      "step": 645
    },
    {
      "epoch": 0.5440763615946098,
      "grad_norm": 0.4668908417224884,
      "learning_rate": 9.126453628464889e-06,
      "loss": 0.4716,
      "step": 646
    },
    {
      "epoch": 0.5449185850645705,
      "grad_norm": 0.4811598062515259,
      "learning_rate": 9.122296351329683e-06,
      "loss": 0.4561,
      "step": 647
    },
    {
      "epoch": 0.5457608085345311,
      "grad_norm": 0.535207211971283,
      "learning_rate": 9.118130156832823e-06,
      "loss": 0.4783,
      "step": 648
    },
    {
      "epoch": 0.5466030320044919,
      "grad_norm": 0.452617883682251,
      "learning_rate": 9.113955053986632e-06,
      "loss": 0.4803,
      "step": 649
    },
    {
      "epoch": 0.5474452554744526,
      "grad_norm": 0.4654109477996826,
      "learning_rate": 9.109771051822702e-06,
      "loss": 0.4548,
      "step": 650
    },
    {
      "epoch": 0.5482874789444132,
      "grad_norm": 0.5674325227737427,
      "learning_rate": 9.105578159391876e-06,
      "loss": 0.4739,
      "step": 651
    },
    {
      "epoch": 0.549129702414374,
      "grad_norm": 0.46021509170532227,
      "learning_rate": 9.10137638576423e-06,
      "loss": 0.4594,
      "step": 652
    },
    {
      "epoch": 0.5499719258843346,
      "grad_norm": 0.4876813590526581,
      "learning_rate": 9.097165740029053e-06,
      "loss": 0.4512,
      "step": 653
    },
    {
      "epoch": 0.5508141493542953,
      "grad_norm": 0.5199893712997437,
      "learning_rate": 9.09294623129482e-06,
      "loss": 0.4323,
      "step": 654
    },
    {
      "epoch": 0.5516563728242561,
      "grad_norm": 0.5095958709716797,
      "learning_rate": 9.088717868689186e-06,
      "loss": 0.4679,
      "step": 655
    },
    {
      "epoch": 0.5524985962942167,
      "grad_norm": 0.41828814148902893,
      "learning_rate": 9.084480661358954e-06,
      "loss": 0.462,
      "step": 656
    },
    {
      "epoch": 0.5533408197641775,
      "grad_norm": 0.4984177052974701,
      "learning_rate": 9.080234618470063e-06,
      "loss": 0.4692,
      "step": 657
    },
    {
      "epoch": 0.5541830432341381,
      "grad_norm": 0.4903792440891266,
      "learning_rate": 9.07597974920756e-06,
      "loss": 0.4753,
      "step": 658
    },
    {
      "epoch": 0.5550252667040988,
      "grad_norm": 0.5475478172302246,
      "learning_rate": 9.071716062775592e-06,
      "loss": 0.4681,
      "step": 659
    },
    {
      "epoch": 0.5558674901740596,
      "grad_norm": 0.5045692324638367,
      "learning_rate": 9.067443568397378e-06,
      "loss": 0.4775,
      "step": 660
    },
    {
      "epoch": 0.5567097136440202,
      "grad_norm": 0.5301093459129333,
      "learning_rate": 9.063162275315182e-06,
      "loss": 0.5007,
      "step": 661
    },
    {
      "epoch": 0.5575519371139809,
      "grad_norm": 0.5493898987770081,
      "learning_rate": 9.058872192790314e-06,
      "loss": 0.4763,
      "step": 662
    },
    {
      "epoch": 0.5583941605839416,
      "grad_norm": 0.4633435308933258,
      "learning_rate": 9.054573330103087e-06,
      "loss": 0.4414,
      "step": 663
    },
    {
      "epoch": 0.5592363840539023,
      "grad_norm": 0.5770244002342224,
      "learning_rate": 9.05026569655281e-06,
      "loss": 0.4908,
      "step": 664
    },
    {
      "epoch": 0.560078607523863,
      "grad_norm": 0.5768128037452698,
      "learning_rate": 9.045949301457774e-06,
      "loss": 0.5248,
      "step": 665
    },
    {
      "epoch": 0.5609208309938237,
      "grad_norm": 0.5739718079566956,
      "learning_rate": 9.041624154155208e-06,
      "loss": 0.4497,
      "step": 666
    },
    {
      "epoch": 0.5617630544637844,
      "grad_norm": 0.5522607564926147,
      "learning_rate": 9.037290264001286e-06,
      "loss": 0.4693,
      "step": 667
    },
    {
      "epoch": 0.562605277933745,
      "grad_norm": 0.48500898480415344,
      "learning_rate": 9.032947640371086e-06,
      "loss": 0.4538,
      "step": 668
    },
    {
      "epoch": 0.5634475014037058,
      "grad_norm": 0.5432425141334534,
      "learning_rate": 9.028596292658585e-06,
      "loss": 0.4675,
      "step": 669
    },
    {
      "epoch": 0.5642897248736665,
      "grad_norm": 0.47588396072387695,
      "learning_rate": 9.02423623027663e-06,
      "loss": 0.4925,
      "step": 670
    },
    {
      "epoch": 0.5651319483436271,
      "grad_norm": 0.5000770092010498,
      "learning_rate": 9.019867462656915e-06,
      "loss": 0.4408,
      "step": 671
    },
    {
      "epoch": 0.5659741718135879,
      "grad_norm": 0.45803388953208923,
      "learning_rate": 9.01548999924997e-06,
      "loss": 0.4415,
      "step": 672
    },
    {
      "epoch": 0.5668163952835485,
      "grad_norm": 0.49031487107276917,
      "learning_rate": 9.011103849525139e-06,
      "loss": 0.4566,
      "step": 673
    },
    {
      "epoch": 0.5676586187535093,
      "grad_norm": 0.4953499138355255,
      "learning_rate": 9.006709022970547e-06,
      "loss": 0.4479,
      "step": 674
    },
    {
      "epoch": 0.56850084222347,
      "grad_norm": 0.6541081070899963,
      "learning_rate": 9.002305529093095e-06,
      "loss": 0.4764,
      "step": 675
    },
    {
      "epoch": 0.5693430656934306,
      "grad_norm": 0.49177286028862,
      "learning_rate": 8.997893377418432e-06,
      "loss": 0.4569,
      "step": 676
    },
    {
      "epoch": 0.5701852891633914,
      "grad_norm": 0.5082595944404602,
      "learning_rate": 8.993472577490936e-06,
      "loss": 0.4448,
      "step": 677
    },
    {
      "epoch": 0.571027512633352,
      "grad_norm": 0.48187536001205444,
      "learning_rate": 8.98904313887369e-06,
      "loss": 0.4902,
      "step": 678
    },
    {
      "epoch": 0.5718697361033127,
      "grad_norm": 0.47100600600242615,
      "learning_rate": 8.984605071148471e-06,
      "loss": 0.4611,
      "step": 679
    },
    {
      "epoch": 0.5727119595732735,
      "grad_norm": 0.517306923866272,
      "learning_rate": 8.980158383915714e-06,
      "loss": 0.4628,
      "step": 680
    },
    {
      "epoch": 0.5735541830432341,
      "grad_norm": 0.42885535955429077,
      "learning_rate": 8.975703086794505e-06,
      "loss": 0.4834,
      "step": 681
    },
    {
      "epoch": 0.5743964065131948,
      "grad_norm": 0.5109996795654297,
      "learning_rate": 8.971239189422555e-06,
      "loss": 0.4782,
      "step": 682
    },
    {
      "epoch": 0.5752386299831556,
      "grad_norm": 0.4841182231903076,
      "learning_rate": 8.966766701456177e-06,
      "loss": 0.4533,
      "step": 683
    },
    {
      "epoch": 0.5760808534531162,
      "grad_norm": 0.4906255602836609,
      "learning_rate": 8.962285632570266e-06,
      "loss": 0.4691,
      "step": 684
    },
    {
      "epoch": 0.5769230769230769,
      "grad_norm": 0.42556849122047424,
      "learning_rate": 8.957795992458285e-06,
      "loss": 0.4777,
      "step": 685
    },
    {
      "epoch": 0.5777653003930376,
      "grad_norm": 0.5611216425895691,
      "learning_rate": 8.953297790832231e-06,
      "loss": 0.4699,
      "step": 686
    },
    {
      "epoch": 0.5786075238629983,
      "grad_norm": 0.4872867465019226,
      "learning_rate": 8.948791037422629e-06,
      "loss": 0.4689,
      "step": 687
    },
    {
      "epoch": 0.5794497473329591,
      "grad_norm": 0.5205093026161194,
      "learning_rate": 8.944275741978495e-06,
      "loss": 0.4509,
      "step": 688
    },
    {
      "epoch": 0.5802919708029197,
      "grad_norm": 0.5760173797607422,
      "learning_rate": 8.939751914267329e-06,
      "loss": 0.4691,
      "step": 689
    },
    {
      "epoch": 0.5811341942728804,
      "grad_norm": 0.5511181950569153,
      "learning_rate": 8.935219564075087e-06,
      "loss": 0.4761,
      "step": 690
    },
    {
      "epoch": 0.5819764177428411,
      "grad_norm": 0.48008620738983154,
      "learning_rate": 8.93067870120616e-06,
      "loss": 0.4487,
      "step": 691
    },
    {
      "epoch": 0.5828186412128018,
      "grad_norm": 0.49514758586883545,
      "learning_rate": 8.92612933548335e-06,
      "loss": 0.433,
      "step": 692
    },
    {
      "epoch": 0.5836608646827625,
      "grad_norm": 0.48231473565101624,
      "learning_rate": 8.921571476747861e-06,
      "loss": 0.471,
      "step": 693
    },
    {
      "epoch": 0.5845030881527232,
      "grad_norm": 0.44781994819641113,
      "learning_rate": 8.917005134859263e-06,
      "loss": 0.4679,
      "step": 694
    },
    {
      "epoch": 0.5853453116226839,
      "grad_norm": 0.44476184248924255,
      "learning_rate": 8.912430319695478e-06,
      "loss": 0.4889,
      "step": 695
    },
    {
      "epoch": 0.5861875350926445,
      "grad_norm": 0.4463580846786499,
      "learning_rate": 8.907847041152757e-06,
      "loss": 0.4578,
      "step": 696
    },
    {
      "epoch": 0.5870297585626053,
      "grad_norm": 0.4904422461986542,
      "learning_rate": 8.90325530914566e-06,
      "loss": 0.4574,
      "step": 697
    },
    {
      "epoch": 0.587871982032566,
      "grad_norm": 0.48056286573410034,
      "learning_rate": 8.89865513360703e-06,
      "loss": 0.4898,
      "step": 698
    },
    {
      "epoch": 0.5887142055025266,
      "grad_norm": 0.4907582104206085,
      "learning_rate": 8.894046524487984e-06,
      "loss": 0.4592,
      "step": 699
    },
    {
      "epoch": 0.5895564289724874,
      "grad_norm": 0.4823611080646515,
      "learning_rate": 8.889429491757872e-06,
      "loss": 0.4391,
      "step": 700
    },
    {
      "epoch": 0.590398652442448,
      "grad_norm": 0.431600421667099,
      "learning_rate": 8.884804045404272e-06,
      "loss": 0.4634,
      "step": 701
    },
    {
      "epoch": 0.5912408759124088,
      "grad_norm": 0.49057140946388245,
      "learning_rate": 8.88017019543296e-06,
      "loss": 0.4534,
      "step": 702
    },
    {
      "epoch": 0.5920830993823695,
      "grad_norm": 0.4460984766483307,
      "learning_rate": 8.875527951867895e-06,
      "loss": 0.4419,
      "step": 703
    },
    {
      "epoch": 0.5929253228523301,
      "grad_norm": 0.47404569387435913,
      "learning_rate": 8.870877324751186e-06,
      "loss": 0.4435,
      "step": 704
    },
    {
      "epoch": 0.5937675463222909,
      "grad_norm": 0.4538029432296753,
      "learning_rate": 8.86621832414308e-06,
      "loss": 0.4643,
      "step": 705
    },
    {
      "epoch": 0.5946097697922516,
      "grad_norm": 0.4805738627910614,
      "learning_rate": 8.861550960121946e-06,
      "loss": 0.4686,
      "step": 706
    },
    {
      "epoch": 0.5954519932622122,
      "grad_norm": 0.4749976694583893,
      "learning_rate": 8.856875242784228e-06,
      "loss": 0.4666,
      "step": 707
    },
    {
      "epoch": 0.596294216732173,
      "grad_norm": 0.4557918310165405,
      "learning_rate": 8.852191182244456e-06,
      "loss": 0.4492,
      "step": 708
    },
    {
      "epoch": 0.5971364402021336,
      "grad_norm": 0.46982404589653015,
      "learning_rate": 8.8474987886352e-06,
      "loss": 0.4501,
      "step": 709
    },
    {
      "epoch": 0.5979786636720943,
      "grad_norm": 0.4315265119075775,
      "learning_rate": 8.842798072107055e-06,
      "loss": 0.4707,
      "step": 710
    },
    {
      "epoch": 0.5988208871420551,
      "grad_norm": 0.5751680731773376,
      "learning_rate": 8.838089042828626e-06,
      "loss": 0.4798,
      "step": 711
    },
    {
      "epoch": 0.5996631106120157,
      "grad_norm": 0.4476104974746704,
      "learning_rate": 8.833371710986493e-06,
      "loss": 0.4734,
      "step": 712
    },
    {
      "epoch": 0.6005053340819764,
      "grad_norm": 0.5238403677940369,
      "learning_rate": 8.828646086785203e-06,
      "loss": 0.4327,
      "step": 713
    },
    {
      "epoch": 0.6013475575519371,
      "grad_norm": 0.50913405418396,
      "learning_rate": 8.823912180447237e-06,
      "loss": 0.4641,
      "step": 714
    },
    {
      "epoch": 0.6021897810218978,
      "grad_norm": 0.420501708984375,
      "learning_rate": 8.819170002212992e-06,
      "loss": 0.4846,
      "step": 715
    },
    {
      "epoch": 0.6030320044918585,
      "grad_norm": 0.5497262477874756,
      "learning_rate": 8.81441956234076e-06,
      "loss": 0.4739,
      "step": 716
    },
    {
      "epoch": 0.6038742279618192,
      "grad_norm": 0.5035752058029175,
      "learning_rate": 8.809660871106705e-06,
      "loss": 0.4701,
      "step": 717
    },
    {
      "epoch": 0.6047164514317799,
      "grad_norm": 0.4801100194454193,
      "learning_rate": 8.804893938804839e-06,
      "loss": 0.479,
      "step": 718
    },
    {
      "epoch": 0.6055586749017406,
      "grad_norm": 0.49008622765541077,
      "learning_rate": 8.800118775747003e-06,
      "loss": 0.4571,
      "step": 719
    },
    {
      "epoch": 0.6064008983717013,
      "grad_norm": 0.500247061252594,
      "learning_rate": 8.795335392262841e-06,
      "loss": 0.434,
      "step": 720
    },
    {
      "epoch": 0.607243121841662,
      "grad_norm": 0.448463499546051,
      "learning_rate": 8.790543798699778e-06,
      "loss": 0.4741,
      "step": 721
    },
    {
      "epoch": 0.6080853453116227,
      "grad_norm": 0.4075535535812378,
      "learning_rate": 8.785744005423003e-06,
      "loss": 0.4887,
      "step": 722
    },
    {
      "epoch": 0.6089275687815834,
      "grad_norm": 0.45233556628227234,
      "learning_rate": 8.78093602281544e-06,
      "loss": 0.4615,
      "step": 723
    },
    {
      "epoch": 0.609769792251544,
      "grad_norm": 0.4558846056461334,
      "learning_rate": 8.77611986127773e-06,
      "loss": 0.4494,
      "step": 724
    },
    {
      "epoch": 0.6106120157215048,
      "grad_norm": 0.4807586669921875,
      "learning_rate": 8.771295531228204e-06,
      "loss": 0.4705,
      "step": 725
    },
    {
      "epoch": 0.6114542391914655,
      "grad_norm": 0.47504550218582153,
      "learning_rate": 8.766463043102864e-06,
      "loss": 0.4335,
      "step": 726
    },
    {
      "epoch": 0.6122964626614261,
      "grad_norm": 0.45502373576164246,
      "learning_rate": 8.761622407355364e-06,
      "loss": 0.457,
      "step": 727
    },
    {
      "epoch": 0.6131386861313869,
      "grad_norm": 0.4660593867301941,
      "learning_rate": 8.756773634456975e-06,
      "loss": 0.4756,
      "step": 728
    },
    {
      "epoch": 0.6139809096013475,
      "grad_norm": 0.45227178931236267,
      "learning_rate": 8.751916734896577e-06,
      "loss": 0.4633,
      "step": 729
    },
    {
      "epoch": 0.6148231330713082,
      "grad_norm": 0.440402626991272,
      "learning_rate": 8.747051719180626e-06,
      "loss": 0.4591,
      "step": 730
    },
    {
      "epoch": 0.615665356541269,
      "grad_norm": 0.4861098527908325,
      "learning_rate": 8.742178597833137e-06,
      "loss": 0.488,
      "step": 731
    },
    {
      "epoch": 0.6165075800112296,
      "grad_norm": 0.47997453808784485,
      "learning_rate": 8.737297381395657e-06,
      "loss": 0.4697,
      "step": 732
    },
    {
      "epoch": 0.6173498034811904,
      "grad_norm": 0.46321746706962585,
      "learning_rate": 8.732408080427247e-06,
      "loss": 0.4505,
      "step": 733
    },
    {
      "epoch": 0.618192026951151,
      "grad_norm": 0.47830742597579956,
      "learning_rate": 8.727510705504453e-06,
      "loss": 0.4603,
      "step": 734
    },
    {
      "epoch": 0.6190342504211117,
      "grad_norm": 0.5009183287620544,
      "learning_rate": 8.72260526722129e-06,
      "loss": 0.4615,
      "step": 735
    },
    {
      "epoch": 0.6198764738910725,
      "grad_norm": 0.5488598346710205,
      "learning_rate": 8.717691776189214e-06,
      "loss": 0.4514,
      "step": 736
    },
    {
      "epoch": 0.6207186973610331,
      "grad_norm": 0.5148642063140869,
      "learning_rate": 8.7127702430371e-06,
      "loss": 0.467,
      "step": 737
    },
    {
      "epoch": 0.6215609208309938,
      "grad_norm": 0.48157691955566406,
      "learning_rate": 8.707840678411223e-06,
      "loss": 0.4557,
      "step": 738
    },
    {
      "epoch": 0.6224031443009546,
      "grad_norm": 0.543380856513977,
      "learning_rate": 8.702903092975226e-06,
      "loss": 0.4838,
      "step": 739
    },
    {
      "epoch": 0.6232453677709152,
      "grad_norm": 0.4660072922706604,
      "learning_rate": 8.69795749741011e-06,
      "loss": 0.4668,
      "step": 740
    },
    {
      "epoch": 0.6240875912408759,
      "grad_norm": 0.5093011260032654,
      "learning_rate": 8.693003902414194e-06,
      "loss": 0.4588,
      "step": 741
    },
    {
      "epoch": 0.6249298147108366,
      "grad_norm": 0.5361912846565247,
      "learning_rate": 8.688042318703111e-06,
      "loss": 0.4537,
      "step": 742
    },
    {
      "epoch": 0.6257720381807973,
      "grad_norm": 0.49350908398628235,
      "learning_rate": 8.683072757009772e-06,
      "loss": 0.4633,
      "step": 743
    },
    {
      "epoch": 0.626614261650758,
      "grad_norm": 0.5336675047874451,
      "learning_rate": 8.678095228084343e-06,
      "loss": 0.4798,
      "step": 744
    },
    {
      "epoch": 0.6274564851207187,
      "grad_norm": 0.4970332682132721,
      "learning_rate": 8.673109742694227e-06,
      "loss": 0.4378,
      "step": 745
    },
    {
      "epoch": 0.6282987085906794,
      "grad_norm": 0.4844423830509186,
      "learning_rate": 8.66811631162404e-06,
      "loss": 0.4629,
      "step": 746
    },
    {
      "epoch": 0.62914093206064,
      "grad_norm": 0.5937009453773499,
      "learning_rate": 8.663114945675582e-06,
      "loss": 0.4386,
      "step": 747
    },
    {
      "epoch": 0.6299831555306008,
      "grad_norm": 0.42785903811454773,
      "learning_rate": 8.65810565566782e-06,
      "loss": 0.4742,
      "step": 748
    },
    {
      "epoch": 0.6308253790005615,
      "grad_norm": 0.5728736519813538,
      "learning_rate": 8.653088452436866e-06,
      "loss": 0.4881,
      "step": 749
    },
    {
      "epoch": 0.6316676024705222,
      "grad_norm": 0.4982471168041229,
      "learning_rate": 8.648063346835943e-06,
      "loss": 0.4671,
      "step": 750
    },
    {
      "epoch": 0.6325098259404829,
      "grad_norm": 0.5230993032455444,
      "learning_rate": 8.643030349735373e-06,
      "loss": 0.4736,
      "step": 751
    },
    {
      "epoch": 0.6333520494104435,
      "grad_norm": 0.46475833654403687,
      "learning_rate": 8.637989472022548e-06,
      "loss": 0.4471,
      "step": 752
    },
    {
      "epoch": 0.6341942728804043,
      "grad_norm": 0.5096099376678467,
      "learning_rate": 8.632940724601908e-06,
      "loss": 0.4637,
      "step": 753
    },
    {
      "epoch": 0.635036496350365,
      "grad_norm": 0.40514659881591797,
      "learning_rate": 8.627884118394913e-06,
      "loss": 0.4441,
      "step": 754
    },
    {
      "epoch": 0.6358787198203256,
      "grad_norm": 0.4372099041938782,
      "learning_rate": 8.622819664340031e-06,
      "loss": 0.4674,
      "step": 755
    },
    {
      "epoch": 0.6367209432902864,
      "grad_norm": 0.49604055285453796,
      "learning_rate": 8.617747373392697e-06,
      "loss": 0.4465,
      "step": 756
    },
    {
      "epoch": 0.637563166760247,
      "grad_norm": 0.44919437170028687,
      "learning_rate": 8.612667256525305e-06,
      "loss": 0.4665,
      "step": 757
    },
    {
      "epoch": 0.6384053902302077,
      "grad_norm": 0.48703551292419434,
      "learning_rate": 8.607579324727175e-06,
      "loss": 0.4697,
      "step": 758
    },
    {
      "epoch": 0.6392476137001685,
      "grad_norm": 0.4786117970943451,
      "learning_rate": 8.602483589004536e-06,
      "loss": 0.4466,
      "step": 759
    },
    {
      "epoch": 0.6400898371701291,
      "grad_norm": 0.4931722581386566,
      "learning_rate": 8.597380060380493e-06,
      "loss": 0.4649,
      "step": 760
    },
    {
      "epoch": 0.6409320606400898,
      "grad_norm": 0.46602243185043335,
      "learning_rate": 8.592268749895016e-06,
      "loss": 0.4211,
      "step": 761
    },
    {
      "epoch": 0.6417742841100506,
      "grad_norm": 0.5360333323478699,
      "learning_rate": 8.5871496686049e-06,
      "loss": 0.4625,
      "step": 762
    },
    {
      "epoch": 0.6426165075800112,
      "grad_norm": 0.5156160593032837,
      "learning_rate": 8.582022827583758e-06,
      "loss": 0.4734,
      "step": 763
    },
    {
      "epoch": 0.643458731049972,
      "grad_norm": 0.4292190372943878,
      "learning_rate": 8.576888237921983e-06,
      "loss": 0.4262,
      "step": 764
    },
    {
      "epoch": 0.6443009545199326,
      "grad_norm": 0.5232205390930176,
      "learning_rate": 8.571745910726733e-06,
      "loss": 0.4577,
      "step": 765
    },
    {
      "epoch": 0.6451431779898933,
      "grad_norm": 0.4681802988052368,
      "learning_rate": 8.566595857121902e-06,
      "loss": 0.4639,
      "step": 766
    },
    {
      "epoch": 0.6459854014598541,
      "grad_norm": 0.46963897347450256,
      "learning_rate": 8.5614380882481e-06,
      "loss": 0.4647,
      "step": 767
    },
    {
      "epoch": 0.6468276249298147,
      "grad_norm": 0.4828647971153259,
      "learning_rate": 8.556272615262623e-06,
      "loss": 0.469,
      "step": 768
    },
    {
      "epoch": 0.6476698483997754,
      "grad_norm": 0.4755379557609558,
      "learning_rate": 8.551099449339438e-06,
      "loss": 0.4643,
      "step": 769
    },
    {
      "epoch": 0.6485120718697361,
      "grad_norm": 0.43637561798095703,
      "learning_rate": 8.545918601669147e-06,
      "loss": 0.4788,
      "step": 770
    },
    {
      "epoch": 0.6493542953396968,
      "grad_norm": 0.5210922956466675,
      "learning_rate": 8.540730083458976e-06,
      "loss": 0.4696,
      "step": 771
    },
    {
      "epoch": 0.6501965188096575,
      "grad_norm": 0.5035929083824158,
      "learning_rate": 8.535533905932739e-06,
      "loss": 0.4612,
      "step": 772
    },
    {
      "epoch": 0.6510387422796182,
      "grad_norm": 0.4034980833530426,
      "learning_rate": 8.530330080330818e-06,
      "loss": 0.4704,
      "step": 773
    },
    {
      "epoch": 0.6518809657495789,
      "grad_norm": 0.4403124749660492,
      "learning_rate": 8.525118617910144e-06,
      "loss": 0.4615,
      "step": 774
    },
    {
      "epoch": 0.6527231892195395,
      "grad_norm": 0.4376961290836334,
      "learning_rate": 8.519899529944166e-06,
      "loss": 0.4503,
      "step": 775
    },
    {
      "epoch": 0.6535654126895003,
      "grad_norm": 0.4894982874393463,
      "learning_rate": 8.514672827722824e-06,
      "loss": 0.4953,
      "step": 776
    },
    {
      "epoch": 0.654407636159461,
      "grad_norm": 0.4651455283164978,
      "learning_rate": 8.509438522552537e-06,
      "loss": 0.4555,
      "step": 777
    },
    {
      "epoch": 0.6552498596294217,
      "grad_norm": 0.45314133167266846,
      "learning_rate": 8.504196625756166e-06,
      "loss": 0.4438,
      "step": 778
    },
    {
      "epoch": 0.6560920830993824,
      "grad_norm": 0.4661121368408203,
      "learning_rate": 8.498947148672994e-06,
      "loss": 0.4654,
      "step": 779
    },
    {
      "epoch": 0.656934306569343,
      "grad_norm": 0.49722951650619507,
      "learning_rate": 8.493690102658703e-06,
      "loss": 0.4434,
      "step": 780
    },
    {
      "epoch": 0.6577765300393038,
      "grad_norm": 0.43232759833335876,
      "learning_rate": 8.48842549908535e-06,
      "loss": 0.4633,
      "step": 781
    },
    {
      "epoch": 0.6586187535092645,
      "grad_norm": 0.5465036034584045,
      "learning_rate": 8.483153349341336e-06,
      "loss": 0.452,
      "step": 782
    },
    {
      "epoch": 0.6594609769792251,
      "grad_norm": 0.4660508632659912,
      "learning_rate": 8.477873664831388e-06,
      "loss": 0.4733,
      "step": 783
    },
    {
      "epoch": 0.6603032004491859,
      "grad_norm": 0.5395344495773315,
      "learning_rate": 8.472586456976534e-06,
      "loss": 0.4822,
      "step": 784
    },
    {
      "epoch": 0.6611454239191465,
      "grad_norm": 0.48750633001327515,
      "learning_rate": 8.467291737214078e-06,
      "loss": 0.4587,
      "step": 785
    },
    {
      "epoch": 0.6619876473891072,
      "grad_norm": 0.5411127209663391,
      "learning_rate": 8.461989516997565e-06,
      "loss": 0.457,
      "step": 786
    },
    {
      "epoch": 0.662829870859068,
      "grad_norm": 0.45726051926612854,
      "learning_rate": 8.456679807796774e-06,
      "loss": 0.4401,
      "step": 787
    },
    {
      "epoch": 0.6636720943290286,
      "grad_norm": 0.5139032006263733,
      "learning_rate": 8.45136262109768e-06,
      "loss": 0.4883,
      "step": 788
    },
    {
      "epoch": 0.6645143177989893,
      "grad_norm": 0.5123094916343689,
      "learning_rate": 8.446037968402438e-06,
      "loss": 0.4686,
      "step": 789
    },
    {
      "epoch": 0.66535654126895,
      "grad_norm": 0.5022598505020142,
      "learning_rate": 8.440705861229344e-06,
      "loss": 0.4356,
      "step": 790
    },
    {
      "epoch": 0.6661987647389107,
      "grad_norm": 0.5355393290519714,
      "learning_rate": 8.43536631111283e-06,
      "loss": 0.4887,
      "step": 791
    },
    {
      "epoch": 0.6670409882088714,
      "grad_norm": 0.48921242356300354,
      "learning_rate": 8.430019329603423e-06,
      "loss": 0.4818,
      "step": 792
    },
    {
      "epoch": 0.6678832116788321,
      "grad_norm": 0.5914364457130432,
      "learning_rate": 8.424664928267724e-06,
      "loss": 0.4459,
      "step": 793
    },
    {
      "epoch": 0.6687254351487928,
      "grad_norm": 0.44512149691581726,
      "learning_rate": 8.41930311868839e-06,
      "loss": 0.4691,
      "step": 794
    },
    {
      "epoch": 0.6695676586187536,
      "grad_norm": 0.5496614575386047,
      "learning_rate": 8.4139339124641e-06,
      "loss": 0.4609,
      "step": 795
    },
    {
      "epoch": 0.6704098820887142,
      "grad_norm": 0.5406739711761475,
      "learning_rate": 8.408557321209534e-06,
      "loss": 0.4558,
      "step": 796
    },
    {
      "epoch": 0.6712521055586749,
      "grad_norm": 0.47605687379837036,
      "learning_rate": 8.403173356555348e-06,
      "loss": 0.4602,
      "step": 797
    },
    {
      "epoch": 0.6720943290286356,
      "grad_norm": 0.5020614862442017,
      "learning_rate": 8.397782030148147e-06,
      "loss": 0.4748,
      "step": 798
    },
    {
      "epoch": 0.6729365524985963,
      "grad_norm": 0.4464384615421295,
      "learning_rate": 8.392383353650463e-06,
      "loss": 0.459,
      "step": 799
    },
    {
      "epoch": 0.673778775968557,
      "grad_norm": 0.4927915930747986,
      "learning_rate": 8.386977338740724e-06,
      "loss": 0.4403,
      "step": 800
    },
    {
      "epoch": 0.6746209994385177,
      "grad_norm": 0.40386447310447693,
      "learning_rate": 8.381563997113235e-06,
      "loss": 0.4702,
      "step": 801
    },
    {
      "epoch": 0.6754632229084784,
      "grad_norm": 0.5137350559234619,
      "learning_rate": 8.376143340478153e-06,
      "loss": 0.4858,
      "step": 802
    },
    {
      "epoch": 0.676305446378439,
      "grad_norm": 0.45953604578971863,
      "learning_rate": 8.370715380561455e-06,
      "loss": 0.4723,
      "step": 803
    },
    {
      "epoch": 0.6771476698483998,
      "grad_norm": 0.4511861205101013,
      "learning_rate": 8.365280129104912e-06,
      "loss": 0.4765,
      "step": 804
    },
    {
      "epoch": 0.6779898933183605,
      "grad_norm": 0.42399677634239197,
      "learning_rate": 8.35983759786608e-06,
      "loss": 0.4468,
      "step": 805
    },
    {
      "epoch": 0.6788321167883211,
      "grad_norm": 0.4478200078010559,
      "learning_rate": 8.354387798618254e-06,
      "loss": 0.492,
      "step": 806
    },
    {
      "epoch": 0.6796743402582819,
      "grad_norm": 0.4807914197444916,
      "learning_rate": 8.348930743150453e-06,
      "loss": 0.4778,
      "step": 807
    },
    {
      "epoch": 0.6805165637282425,
      "grad_norm": 0.45861950516700745,
      "learning_rate": 8.34346644326739e-06,
      "loss": 0.4887,
      "step": 808
    },
    {
      "epoch": 0.6813587871982033,
      "grad_norm": 0.46764475107192993,
      "learning_rate": 8.337994910789457e-06,
      "loss": 0.463,
      "step": 809
    },
    {
      "epoch": 0.682201010668164,
      "grad_norm": 0.47109857201576233,
      "learning_rate": 8.332516157552684e-06,
      "loss": 0.4649,
      "step": 810
    },
    {
      "epoch": 0.6830432341381246,
      "grad_norm": 0.4458429515361786,
      "learning_rate": 8.327030195408723e-06,
      "loss": 0.4668,
      "step": 811
    },
    {
      "epoch": 0.6838854576080854,
      "grad_norm": 0.47082412242889404,
      "learning_rate": 8.321537036224822e-06,
      "loss": 0.4576,
      "step": 812
    },
    {
      "epoch": 0.684727681078046,
      "grad_norm": 0.5038921236991882,
      "learning_rate": 8.316036691883796e-06,
      "loss": 0.4595,
      "step": 813
    },
    {
      "epoch": 0.6855699045480067,
      "grad_norm": 0.4617861807346344,
      "learning_rate": 8.310529174284004e-06,
      "loss": 0.4726,
      "step": 814
    },
    {
      "epoch": 0.6864121280179675,
      "grad_norm": 0.4930170178413391,
      "learning_rate": 8.305014495339319e-06,
      "loss": 0.4794,
      "step": 815
    },
    {
      "epoch": 0.6872543514879281,
      "grad_norm": 0.441462904214859,
      "learning_rate": 8.299492666979114e-06,
      "loss": 0.4824,
      "step": 816
    },
    {
      "epoch": 0.6880965749578888,
      "grad_norm": 0.4408308267593384,
      "learning_rate": 8.293963701148215e-06,
      "loss": 0.4532,
      "step": 817
    },
    {
      "epoch": 0.6889387984278496,
      "grad_norm": 0.44935116171836853,
      "learning_rate": 8.288427609806899e-06,
      "loss": 0.4673,
      "step": 818
    },
    {
      "epoch": 0.6897810218978102,
      "grad_norm": 0.4473492503166199,
      "learning_rate": 8.282884404930852e-06,
      "loss": 0.4438,
      "step": 819
    },
    {
      "epoch": 0.6906232453677709,
      "grad_norm": 0.41275787353515625,
      "learning_rate": 8.277334098511147e-06,
      "loss": 0.4742,
      "step": 820
    },
    {
      "epoch": 0.6914654688377316,
      "grad_norm": 0.4069876968860626,
      "learning_rate": 8.271776702554221e-06,
      "loss": 0.4782,
      "step": 821
    },
    {
      "epoch": 0.6923076923076923,
      "grad_norm": 0.467742383480072,
      "learning_rate": 8.266212229081846e-06,
      "loss": 0.4717,
      "step": 822
    },
    {
      "epoch": 0.6931499157776531,
      "grad_norm": 0.4600238800048828,
      "learning_rate": 8.260640690131108e-06,
      "loss": 0.4733,
      "step": 823
    },
    {
      "epoch": 0.6939921392476137,
      "grad_norm": 0.49780935049057007,
      "learning_rate": 8.255062097754371e-06,
      "loss": 0.4902,
      "step": 824
    },
    {
      "epoch": 0.6948343627175744,
      "grad_norm": 0.3990079462528229,
      "learning_rate": 8.249476464019259e-06,
      "loss": 0.4554,
      "step": 825
    },
    {
      "epoch": 0.6956765861875351,
      "grad_norm": 0.45646020770072937,
      "learning_rate": 8.243883801008632e-06,
      "loss": 0.4329,
      "step": 826
    },
    {
      "epoch": 0.6965188096574958,
      "grad_norm": 0.3953896462917328,
      "learning_rate": 8.238284120820549e-06,
      "loss": 0.4594,
      "step": 827
    },
    {
      "epoch": 0.6973610331274565,
      "grad_norm": 0.4631727635860443,
      "learning_rate": 8.232677435568252e-06,
      "loss": 0.4701,
      "step": 828
    },
    {
      "epoch": 0.6982032565974172,
      "grad_norm": 0.4685133397579193,
      "learning_rate": 8.227063757380141e-06,
      "loss": 0.4704,
      "step": 829
    },
    {
      "epoch": 0.6990454800673779,
      "grad_norm": 0.43781736493110657,
      "learning_rate": 8.221443098399733e-06,
      "loss": 0.4751,
      "step": 830
    },
    {
      "epoch": 0.6998877035373385,
      "grad_norm": 0.43743160367012024,
      "learning_rate": 8.215815470785655e-06,
      "loss": 0.4398,
      "step": 831
    },
    {
      "epoch": 0.7007299270072993,
      "grad_norm": 0.5018625855445862,
      "learning_rate": 8.210180886711603e-06,
      "loss": 0.4534,
      "step": 832
    },
    {
      "epoch": 0.70157215047726,
      "grad_norm": 0.4194943308830261,
      "learning_rate": 8.204539358366325e-06,
      "loss": 0.46,
      "step": 833
    },
    {
      "epoch": 0.7024143739472206,
      "grad_norm": 0.4934619963169098,
      "learning_rate": 8.198890897953586e-06,
      "loss": 0.4588,
      "step": 834
    },
    {
      "epoch": 0.7032565974171814,
      "grad_norm": 0.47210925817489624,
      "learning_rate": 8.193235517692154e-06,
      "loss": 0.4861,
      "step": 835
    },
    {
      "epoch": 0.704098820887142,
      "grad_norm": 0.46172916889190674,
      "learning_rate": 8.187573229815757e-06,
      "loss": 0.4288,
      "step": 836
    },
    {
      "epoch": 0.7049410443571027,
      "grad_norm": 0.4673365652561188,
      "learning_rate": 8.181904046573075e-06,
      "loss": 0.4495,
      "step": 837
    },
    {
      "epoch": 0.7057832678270635,
      "grad_norm": 0.46728619933128357,
      "learning_rate": 8.176227980227693e-06,
      "loss": 0.461,
      "step": 838
    },
    {
      "epoch": 0.7066254912970241,
      "grad_norm": 0.44455933570861816,
      "learning_rate": 8.170545043058097e-06,
      "loss": 0.4613,
      "step": 839
    },
    {
      "epoch": 0.7074677147669849,
      "grad_norm": 0.48061397671699524,
      "learning_rate": 8.164855247357628e-06,
      "loss": 0.4496,
      "step": 840
    },
    {
      "epoch": 0.7083099382369455,
      "grad_norm": 0.4318833649158478,
      "learning_rate": 8.159158605434468e-06,
      "loss": 0.4462,
      "step": 841
    },
    {
      "epoch": 0.7091521617069062,
      "grad_norm": 0.4730941653251648,
      "learning_rate": 8.153455129611605e-06,
      "loss": 0.4647,
      "step": 842
    },
    {
      "epoch": 0.709994385176867,
      "grad_norm": 0.4873040020465851,
      "learning_rate": 8.147744832226815e-06,
      "loss": 0.4914,
      "step": 843
    },
    {
      "epoch": 0.7108366086468276,
      "grad_norm": 0.4697341322898865,
      "learning_rate": 8.142027725632622e-06,
      "loss": 0.4461,
      "step": 844
    },
    {
      "epoch": 0.7116788321167883,
      "grad_norm": 0.4826454222202301,
      "learning_rate": 8.136303822196291e-06,
      "loss": 0.4773,
      "step": 845
    },
    {
      "epoch": 0.712521055586749,
      "grad_norm": 0.5707765221595764,
      "learning_rate": 8.130573134299782e-06,
      "loss": 0.4612,
      "step": 846
    },
    {
      "epoch": 0.7133632790567097,
      "grad_norm": 0.4507349133491516,
      "learning_rate": 8.12483567433973e-06,
      "loss": 0.4751,
      "step": 847
    },
    {
      "epoch": 0.7142055025266704,
      "grad_norm": 0.45208612084388733,
      "learning_rate": 8.119091454727427e-06,
      "loss": 0.4902,
      "step": 848
    },
    {
      "epoch": 0.7150477259966311,
      "grad_norm": 0.4875984489917755,
      "learning_rate": 8.11334048788878e-06,
      "loss": 0.4678,
      "step": 849
    },
    {
      "epoch": 0.7158899494665918,
      "grad_norm": 0.49514657258987427,
      "learning_rate": 8.107582786264299e-06,
      "loss": 0.45,
      "step": 850
    },
    {
      "epoch": 0.7167321729365524,
      "grad_norm": 0.44896796345710754,
      "learning_rate": 8.101818362309051e-06,
      "loss": 0.4945,
      "step": 851
    },
    {
      "epoch": 0.7175743964065132,
      "grad_norm": 0.4562704861164093,
      "learning_rate": 8.09604722849266e-06,
      "loss": 0.4794,
      "step": 852
    },
    {
      "epoch": 0.7184166198764739,
      "grad_norm": 0.5040770173072815,
      "learning_rate": 8.09026939729925e-06,
      "loss": 0.4749,
      "step": 853
    },
    {
      "epoch": 0.7192588433464346,
      "grad_norm": 0.4671075940132141,
      "learning_rate": 8.084484881227449e-06,
      "loss": 0.4365,
      "step": 854
    },
    {
      "epoch": 0.7201010668163953,
      "grad_norm": 0.42189037799835205,
      "learning_rate": 8.078693692790325e-06,
      "loss": 0.4688,
      "step": 855
    },
    {
      "epoch": 0.720943290286356,
      "grad_norm": 0.47552067041397095,
      "learning_rate": 8.072895844515398e-06,
      "loss": 0.4703,
      "step": 856
    },
    {
      "epoch": 0.7217855137563167,
      "grad_norm": 0.4275221526622772,
      "learning_rate": 8.067091348944587e-06,
      "loss": 0.4468,
      "step": 857
    },
    {
      "epoch": 0.7226277372262774,
      "grad_norm": 0.4884728789329529,
      "learning_rate": 8.061280218634192e-06,
      "loss": 0.4568,
      "step": 858
    },
    {
      "epoch": 0.723469960696238,
      "grad_norm": 0.49155232310295105,
      "learning_rate": 8.055462466154862e-06,
      "loss": 0.4722,
      "step": 859
    },
    {
      "epoch": 0.7243121841661988,
      "grad_norm": 0.4058820903301239,
      "learning_rate": 8.049638104091575e-06,
      "loss": 0.459,
      "step": 860
    },
    {
      "epoch": 0.7251544076361595,
      "grad_norm": 0.41922491788864136,
      "learning_rate": 8.043807145043604e-06,
      "loss": 0.4447,
      "step": 861
    },
    {
      "epoch": 0.7259966311061201,
      "grad_norm": 0.40590909123420715,
      "learning_rate": 8.037969601624495e-06,
      "loss": 0.4705,
      "step": 862
    },
    {
      "epoch": 0.7268388545760809,
      "grad_norm": 0.36474210023880005,
      "learning_rate": 8.032125486462037e-06,
      "loss": 0.4592,
      "step": 863
    },
    {
      "epoch": 0.7276810780460415,
      "grad_norm": 0.42023488879203796,
      "learning_rate": 8.026274812198235e-06,
      "loss": 0.4632,
      "step": 864
    },
    {
      "epoch": 0.7285233015160022,
      "grad_norm": 0.3812440037727356,
      "learning_rate": 8.020417591489279e-06,
      "loss": 0.4503,
      "step": 865
    },
    {
      "epoch": 0.729365524985963,
      "grad_norm": 0.4057258069515228,
      "learning_rate": 8.014553837005527e-06,
      "loss": 0.4558,
      "step": 866
    },
    {
      "epoch": 0.7302077484559236,
      "grad_norm": 0.398319810628891,
      "learning_rate": 8.008683561431463e-06,
      "loss": 0.438,
      "step": 867
    },
    {
      "epoch": 0.7310499719258844,
      "grad_norm": 0.41046449542045593,
      "learning_rate": 8.002806777465685e-06,
      "loss": 0.4495,
      "step": 868
    },
    {
      "epoch": 0.731892195395845,
      "grad_norm": 0.4211258292198181,
      "learning_rate": 7.996923497820866e-06,
      "loss": 0.4372,
      "step": 869
    },
    {
      "epoch": 0.7327344188658057,
      "grad_norm": 0.44287943840026855,
      "learning_rate": 7.99103373522373e-06,
      "loss": 0.4685,
      "step": 870
    },
    {
      "epoch": 0.7335766423357665,
      "grad_norm": 0.46260780096054077,
      "learning_rate": 7.985137502415027e-06,
      "loss": 0.4623,
      "step": 871
    },
    {
      "epoch": 0.7344188658057271,
      "grad_norm": 0.4105566740036011,
      "learning_rate": 7.9792348121495e-06,
      "loss": 0.4273,
      "step": 872
    },
    {
      "epoch": 0.7352610892756878,
      "grad_norm": 0.48150166869163513,
      "learning_rate": 7.973325677195869e-06,
      "loss": 0.456,
      "step": 873
    },
    {
      "epoch": 0.7361033127456486,
      "grad_norm": 0.44138118624687195,
      "learning_rate": 7.967410110336782e-06,
      "loss": 0.4395,
      "step": 874
    },
    {
      "epoch": 0.7369455362156092,
      "grad_norm": 0.43042296171188354,
      "learning_rate": 7.961488124368813e-06,
      "loss": 0.4618,
      "step": 875
    },
    {
      "epoch": 0.7377877596855699,
      "grad_norm": 0.46159541606903076,
      "learning_rate": 7.955559732102414e-06,
      "loss": 0.4433,
      "step": 876
    },
    {
      "epoch": 0.7386299831555306,
      "grad_norm": 0.4531443119049072,
      "learning_rate": 7.9496249463619e-06,
      "loss": 0.477,
      "step": 877
    },
    {
      "epoch": 0.7394722066254913,
      "grad_norm": 0.49542003870010376,
      "learning_rate": 7.943683779985412e-06,
      "loss": 0.4612,
      "step": 878
    },
    {
      "epoch": 0.740314430095452,
      "grad_norm": 0.4782709777355194,
      "learning_rate": 7.937736245824898e-06,
      "loss": 0.4715,
      "step": 879
    },
    {
      "epoch": 0.7411566535654127,
      "grad_norm": 0.4794416129589081,
      "learning_rate": 7.931782356746076e-06,
      "loss": 0.4571,
      "step": 880
    },
    {
      "epoch": 0.7419988770353734,
      "grad_norm": 0.4995820224285126,
      "learning_rate": 7.925822125628415e-06,
      "loss": 0.4787,
      "step": 881
    },
    {
      "epoch": 0.742841100505334,
      "grad_norm": 0.40377992391586304,
      "learning_rate": 7.919855565365102e-06,
      "loss": 0.4563,
      "step": 882
    },
    {
      "epoch": 0.7436833239752948,
      "grad_norm": 0.4554145634174347,
      "learning_rate": 7.913882688863015e-06,
      "loss": 0.449,
      "step": 883
    },
    {
      "epoch": 0.7445255474452555,
      "grad_norm": 0.4962456524372101,
      "learning_rate": 7.907903509042696e-06,
      "loss": 0.4696,
      "step": 884
    },
    {
      "epoch": 0.7453677709152162,
      "grad_norm": 0.4508900046348572,
      "learning_rate": 7.901918038838318e-06,
      "loss": 0.4775,
      "step": 885
    },
    {
      "epoch": 0.7462099943851769,
      "grad_norm": 0.4798339605331421,
      "learning_rate": 7.895926291197667e-06,
      "loss": 0.4802,
      "step": 886
    },
    {
      "epoch": 0.7470522178551375,
      "grad_norm": 0.39883238077163696,
      "learning_rate": 7.889928279082108e-06,
      "loss": 0.4717,
      "step": 887
    },
    {
      "epoch": 0.7478944413250983,
      "grad_norm": 0.4799278676509857,
      "learning_rate": 7.883924015466554e-06,
      "loss": 0.4715,
      "step": 888
    },
    {
      "epoch": 0.748736664795059,
      "grad_norm": 0.4438048303127289,
      "learning_rate": 7.877913513339444e-06,
      "loss": 0.5042,
      "step": 889
    },
    {
      "epoch": 0.7495788882650196,
      "grad_norm": 0.440279096364975,
      "learning_rate": 7.871896785702707e-06,
      "loss": 0.4449,
      "step": 890
    },
    {
      "epoch": 0.7504211117349804,
      "grad_norm": 0.4040308892726898,
      "learning_rate": 7.86587384557175e-06,
      "loss": 0.4436,
      "step": 891
    },
    {
      "epoch": 0.751263335204941,
      "grad_norm": 0.41919776797294617,
      "learning_rate": 7.859844705975405e-06,
      "loss": 0.4775,
      "step": 892
    },
    {
      "epoch": 0.7521055586749017,
      "grad_norm": 0.4152800142765045,
      "learning_rate": 7.853809379955926e-06,
      "loss": 0.4527,
      "step": 893
    },
    {
      "epoch": 0.7529477821448625,
      "grad_norm": 0.4323420524597168,
      "learning_rate": 7.847767880568944e-06,
      "loss": 0.4468,
      "step": 894
    },
    {
      "epoch": 0.7537900056148231,
      "grad_norm": 0.4721410572528839,
      "learning_rate": 7.841720220883446e-06,
      "loss": 0.4493,
      "step": 895
    },
    {
      "epoch": 0.7546322290847838,
      "grad_norm": 0.41645967960357666,
      "learning_rate": 7.835666413981744e-06,
      "loss": 0.4506,
      "step": 896
    },
    {
      "epoch": 0.7554744525547445,
      "grad_norm": 0.4187919497489929,
      "learning_rate": 7.829606472959445e-06,
      "loss": 0.4551,
      "step": 897
    },
    {
      "epoch": 0.7563166760247052,
      "grad_norm": 0.44683146476745605,
      "learning_rate": 7.823540410925434e-06,
      "loss": 0.4508,
      "step": 898
    },
    {
      "epoch": 0.757158899494666,
      "grad_norm": 0.3888678550720215,
      "learning_rate": 7.81746824100183e-06,
      "loss": 0.4505,
      "step": 899
    },
    {
      "epoch": 0.7580011229646266,
      "grad_norm": 0.4677732288837433,
      "learning_rate": 7.811389976323963e-06,
      "loss": 0.4393,
      "step": 900
    },
    {
      "epoch": 0.7588433464345873,
      "grad_norm": 0.448323518037796,
      "learning_rate": 7.80530563004035e-06,
      "loss": 0.4885,
      "step": 901
    },
    {
      "epoch": 0.759685569904548,
      "grad_norm": 0.4088086783885956,
      "learning_rate": 7.799215215312667e-06,
      "loss": 0.4471,
      "step": 902
    },
    {
      "epoch": 0.7605277933745087,
      "grad_norm": 0.5041994452476501,
      "learning_rate": 7.793118745315713e-06,
      "loss": 0.4598,
      "step": 903
    },
    {
      "epoch": 0.7613700168444694,
      "grad_norm": 0.5178845524787903,
      "learning_rate": 7.787016233237387e-06,
      "loss": 0.4843,
      "step": 904
    },
    {
      "epoch": 0.7622122403144301,
      "grad_norm": 0.5119869112968445,
      "learning_rate": 7.780907692278657e-06,
      "loss": 0.4519,
      "step": 905
    },
    {
      "epoch": 0.7630544637843908,
      "grad_norm": 0.44075360894203186,
      "learning_rate": 7.774793135653537e-06,
      "loss": 0.4557,
      "step": 906
    },
    {
      "epoch": 0.7638966872543514,
      "grad_norm": 0.4865361154079437,
      "learning_rate": 7.768672576589046e-06,
      "loss": 0.4686,
      "step": 907
    },
    {
      "epoch": 0.7647389107243122,
      "grad_norm": 0.4509924054145813,
      "learning_rate": 7.7625460283252e-06,
      "loss": 0.4791,
      "step": 908
    },
    {
      "epoch": 0.7655811341942729,
      "grad_norm": 0.44903048872947693,
      "learning_rate": 7.756413504114955e-06,
      "loss": 0.4862,
      "step": 909
    },
    {
      "epoch": 0.7664233576642335,
      "grad_norm": 0.45620492100715637,
      "learning_rate": 7.750275017224208e-06,
      "loss": 0.4285,
      "step": 910
    },
    {
      "epoch": 0.7672655811341943,
      "grad_norm": 0.4723224639892578,
      "learning_rate": 7.744130580931746e-06,
      "loss": 0.4603,
      "step": 911
    },
    {
      "epoch": 0.768107804604155,
      "grad_norm": 0.46492379903793335,
      "learning_rate": 7.737980208529232e-06,
      "loss": 0.478,
      "step": 912
    },
    {
      "epoch": 0.7689500280741156,
      "grad_norm": 0.48551374673843384,
      "learning_rate": 7.731823913321162e-06,
      "loss": 0.4445,
      "step": 913
    },
    {
      "epoch": 0.7697922515440764,
      "grad_norm": 0.562002956867218,
      "learning_rate": 7.725661708624855e-06,
      "loss": 0.4588,
      "step": 914
    },
    {
      "epoch": 0.770634475014037,
      "grad_norm": 0.44019150733947754,
      "learning_rate": 7.719493607770402e-06,
      "loss": 0.4586,
      "step": 915
    },
    {
      "epoch": 0.7714766984839978,
      "grad_norm": 0.43491464853286743,
      "learning_rate": 7.713319624100657e-06,
      "loss": 0.4636,
      "step": 916
    },
    {
      "epoch": 0.7723189219539585,
      "grad_norm": 0.4826323091983795,
      "learning_rate": 7.707139770971196e-06,
      "loss": 0.4798,
      "step": 917
    },
    {
      "epoch": 0.7731611454239191,
      "grad_norm": 0.43094053864479065,
      "learning_rate": 7.700954061750295e-06,
      "loss": 0.44,
      "step": 918
    },
    {
      "epoch": 0.7740033688938799,
      "grad_norm": 0.441211462020874,
      "learning_rate": 7.69476250981889e-06,
      "loss": 0.4335,
      "step": 919
    },
    {
      "epoch": 0.7748455923638405,
      "grad_norm": 0.4784849286079407,
      "learning_rate": 7.688565128570564e-06,
      "loss": 0.4407,
      "step": 920
    },
    {
      "epoch": 0.7756878158338012,
      "grad_norm": 0.4580017328262329,
      "learning_rate": 7.682361931411511e-06,
      "loss": 0.4546,
      "step": 921
    },
    {
      "epoch": 0.776530039303762,
      "grad_norm": 0.5479121804237366,
      "learning_rate": 7.676152931760496e-06,
      "loss": 0.4634,
      "step": 922
    },
    {
      "epoch": 0.7773722627737226,
      "grad_norm": 0.4263019263744354,
      "learning_rate": 7.66993814304885e-06,
      "loss": 0.4821,
      "step": 923
    },
    {
      "epoch": 0.7782144862436833,
      "grad_norm": 0.4875223934650421,
      "learning_rate": 7.663717578720412e-06,
      "loss": 0.5021,
      "step": 924
    },
    {
      "epoch": 0.779056709713644,
      "grad_norm": 0.5008265972137451,
      "learning_rate": 7.657491252231525e-06,
      "loss": 0.4268,
      "step": 925
    },
    {
      "epoch": 0.7798989331836047,
      "grad_norm": 0.4823993146419525,
      "learning_rate": 7.651259177050996e-06,
      "loss": 0.4809,
      "step": 926
    },
    {
      "epoch": 0.7807411566535654,
      "grad_norm": 0.45449507236480713,
      "learning_rate": 7.645021366660063e-06,
      "loss": 0.4482,
      "step": 927
    },
    {
      "epoch": 0.7815833801235261,
      "grad_norm": 0.41531670093536377,
      "learning_rate": 7.638777834552372e-06,
      "loss": 0.4451,
      "step": 928
    },
    {
      "epoch": 0.7824256035934868,
      "grad_norm": 0.4683852791786194,
      "learning_rate": 7.632528594233948e-06,
      "loss": 0.4585,
      "step": 929
    },
    {
      "epoch": 0.7832678270634476,
      "grad_norm": 0.4529431164264679,
      "learning_rate": 7.626273659223166e-06,
      "loss": 0.453,
      "step": 930
    },
    {
      "epoch": 0.7841100505334082,
      "grad_norm": 0.49239563941955566,
      "learning_rate": 7.620013043050713e-06,
      "loss": 0.4795,
      "step": 931
    },
    {
      "epoch": 0.7849522740033689,
      "grad_norm": 0.4483472406864166,
      "learning_rate": 7.61374675925957e-06,
      "loss": 0.4742,
      "step": 932
    },
    {
      "epoch": 0.7857944974733296,
      "grad_norm": 0.45790016651153564,
      "learning_rate": 7.607474821404981e-06,
      "loss": 0.4555,
      "step": 933
    },
    {
      "epoch": 0.7866367209432903,
      "grad_norm": 0.44599488377571106,
      "learning_rate": 7.601197243054411e-06,
      "loss": 0.4607,
      "step": 934
    },
    {
      "epoch": 0.787478944413251,
      "grad_norm": 0.4432796239852905,
      "learning_rate": 7.59491403778754e-06,
      "loss": 0.4765,
      "step": 935
    },
    {
      "epoch": 0.7883211678832117,
      "grad_norm": 0.41722550988197327,
      "learning_rate": 7.588625219196208e-06,
      "loss": 0.459,
      "step": 936
    },
    {
      "epoch": 0.7891633913531724,
      "grad_norm": 0.469582736492157,
      "learning_rate": 7.582330800884405e-06,
      "loss": 0.4717,
      "step": 937
    },
    {
      "epoch": 0.790005614823133,
      "grad_norm": 0.4584757685661316,
      "learning_rate": 7.576030796468233e-06,
      "loss": 0.4599,
      "step": 938
    },
    {
      "epoch": 0.7908478382930938,
      "grad_norm": 0.4716431796550751,
      "learning_rate": 7.569725219575877e-06,
      "loss": 0.4545,
      "step": 939
    },
    {
      "epoch": 0.7916900617630545,
      "grad_norm": 0.45885297656059265,
      "learning_rate": 7.563414083847573e-06,
      "loss": 0.4331,
      "step": 940
    },
    {
      "epoch": 0.7925322852330151,
      "grad_norm": 0.4489831328392029,
      "learning_rate": 7.557097402935592e-06,
      "loss": 0.4294,
      "step": 941
    },
    {
      "epoch": 0.7933745087029759,
      "grad_norm": 0.48201754689216614,
      "learning_rate": 7.5507751905041885e-06,
      "loss": 0.4617,
      "step": 942
    },
    {
      "epoch": 0.7942167321729365,
      "grad_norm": 0.4186473786830902,
      "learning_rate": 7.544447460229587e-06,
      "loss": 0.4597,
      "step": 943
    },
    {
      "epoch": 0.7950589556428973,
      "grad_norm": 0.47241443395614624,
      "learning_rate": 7.538114225799955e-06,
      "loss": 0.4613,
      "step": 944
    },
    {
      "epoch": 0.795901179112858,
      "grad_norm": 0.44344961643218994,
      "learning_rate": 7.531775500915357e-06,
      "loss": 0.4581,
      "step": 945
    },
    {
      "epoch": 0.7967434025828186,
      "grad_norm": 0.46468159556388855,
      "learning_rate": 7.525431299287737e-06,
      "loss": 0.488,
      "step": 946
    },
    {
      "epoch": 0.7975856260527794,
      "grad_norm": 0.4030502140522003,
      "learning_rate": 7.519081634640891e-06,
      "loss": 0.4551,
      "step": 947
    },
    {
      "epoch": 0.79842784952274,
      "grad_norm": 0.44572579860687256,
      "learning_rate": 7.512726520710429e-06,
      "loss": 0.4416,
      "step": 948
    },
    {
      "epoch": 0.7992700729927007,
      "grad_norm": 0.4049031734466553,
      "learning_rate": 7.506365971243746e-06,
      "loss": 0.4484,
      "step": 949
    },
    {
      "epoch": 0.8001122964626615,
      "grad_norm": 0.4259262979030609,
      "learning_rate": 7.500000000000001e-06,
      "loss": 0.4588,
      "step": 950
    },
    {
      "epoch": 0.8009545199326221,
      "grad_norm": 0.4570804238319397,
      "learning_rate": 7.493628620750077e-06,
      "loss": 0.453,
      "step": 951
    },
    {
      "epoch": 0.8017967434025828,
      "grad_norm": 0.43210840225219727,
      "learning_rate": 7.4872518472765594e-06,
      "loss": 0.4614,
      "step": 952
    },
    {
      "epoch": 0.8026389668725435,
      "grad_norm": 0.44592785835266113,
      "learning_rate": 7.4808696933737e-06,
      "loss": 0.4616,
      "step": 953
    },
    {
      "epoch": 0.8034811903425042,
      "grad_norm": 0.5023785829544067,
      "learning_rate": 7.474482172847391e-06,
      "loss": 0.4566,
      "step": 954
    },
    {
      "epoch": 0.8043234138124649,
      "grad_norm": 0.49149736762046814,
      "learning_rate": 7.4680892995151264e-06,
      "loss": 0.4606,
      "step": 955
    },
    {
      "epoch": 0.8051656372824256,
      "grad_norm": 0.5320656895637512,
      "learning_rate": 7.461691087205993e-06,
      "loss": 0.4847,
      "step": 956
    },
    {
      "epoch": 0.8060078607523863,
      "grad_norm": 0.48070764541625977,
      "learning_rate": 7.4552875497606145e-06,
      "loss": 0.4663,
      "step": 957
    },
    {
      "epoch": 0.8068500842223469,
      "grad_norm": 0.530115008354187,
      "learning_rate": 7.4488787010311425e-06,
      "loss": 0.4549,
      "step": 958
    },
    {
      "epoch": 0.8076923076923077,
      "grad_norm": 0.5606204271316528,
      "learning_rate": 7.442464554881213e-06,
      "loss": 0.4796,
      "step": 959
    },
    {
      "epoch": 0.8085345311622684,
      "grad_norm": 0.48044753074645996,
      "learning_rate": 7.436045125185923e-06,
      "loss": 0.433,
      "step": 960
    },
    {
      "epoch": 0.8093767546322291,
      "grad_norm": 0.502251386642456,
      "learning_rate": 7.429620425831795e-06,
      "loss": 0.4835,
      "step": 961
    },
    {
      "epoch": 0.8102189781021898,
      "grad_norm": 0.4451885223388672,
      "learning_rate": 7.423190470716761e-06,
      "loss": 0.4635,
      "step": 962
    },
    {
      "epoch": 0.8110612015721504,
      "grad_norm": 0.40402042865753174,
      "learning_rate": 7.416755273750112e-06,
      "loss": 0.4543,
      "step": 963
    },
    {
      "epoch": 0.8119034250421112,
      "grad_norm": 0.4741710126399994,
      "learning_rate": 7.4103148488524824e-06,
      "loss": 0.5043,
      "step": 964
    },
    {
      "epoch": 0.8127456485120719,
      "grad_norm": 0.4256711006164551,
      "learning_rate": 7.403869209955814e-06,
      "loss": 0.4375,
      "step": 965
    },
    {
      "epoch": 0.8135878719820325,
      "grad_norm": 0.4260213375091553,
      "learning_rate": 7.3974183710033334e-06,
      "loss": 0.4431,
      "step": 966
    },
    {
      "epoch": 0.8144300954519933,
      "grad_norm": 0.43723127245903015,
      "learning_rate": 7.390962345949506e-06,
      "loss": 0.4628,
      "step": 967
    },
    {
      "epoch": 0.815272318921954,
      "grad_norm": 0.3906237483024597,
      "learning_rate": 7.384501148760024e-06,
      "loss": 0.4614,
      "step": 968
    },
    {
      "epoch": 0.8161145423919146,
      "grad_norm": 0.43851470947265625,
      "learning_rate": 7.3780347934117646e-06,
      "loss": 0.4499,
      "step": 969
    },
    {
      "epoch": 0.8169567658618754,
      "grad_norm": 0.44829103350639343,
      "learning_rate": 7.371563293892761e-06,
      "loss": 0.4708,
      "step": 970
    },
    {
      "epoch": 0.817798989331836,
      "grad_norm": 0.45942428708076477,
      "learning_rate": 7.365086664202183e-06,
      "loss": 0.4792,
      "step": 971
    },
    {
      "epoch": 0.8186412128017967,
      "grad_norm": 0.38663098216056824,
      "learning_rate": 7.3586049183502875e-06,
      "loss": 0.4518,
      "step": 972
    },
    {
      "epoch": 0.8194834362717575,
      "grad_norm": 0.4507366418838501,
      "learning_rate": 7.3521180703584025e-06,
      "loss": 0.4671,
      "step": 973
    },
    {
      "epoch": 0.8203256597417181,
      "grad_norm": 0.4059355556964874,
      "learning_rate": 7.345626134258897e-06,
      "loss": 0.4738,
      "step": 974
    },
    {
      "epoch": 0.8211678832116789,
      "grad_norm": 0.37842682003974915,
      "learning_rate": 7.339129124095141e-06,
      "loss": 0.428,
      "step": 975
    },
    {
      "epoch": 0.8220101066816395,
      "grad_norm": 0.44753727316856384,
      "learning_rate": 7.3326270539214826e-06,
      "loss": 0.4718,
      "step": 976
    },
    {
      "epoch": 0.8228523301516002,
      "grad_norm": 0.45005252957344055,
      "learning_rate": 7.326119937803219e-06,
      "loss": 0.4545,
      "step": 977
    },
    {
      "epoch": 0.823694553621561,
      "grad_norm": 0.48924875259399414,
      "learning_rate": 7.319607789816555e-06,
      "loss": 0.4714,
      "step": 978
    },
    {
      "epoch": 0.8245367770915216,
      "grad_norm": 0.3905680477619171,
      "learning_rate": 7.3130906240485886e-06,
      "loss": 0.4537,
      "step": 979
    },
    {
      "epoch": 0.8253790005614823,
      "grad_norm": 0.4043391942977905,
      "learning_rate": 7.306568454597269e-06,
      "loss": 0.4489,
      "step": 980
    },
    {
      "epoch": 0.826221224031443,
      "grad_norm": 0.5691743493080139,
      "learning_rate": 7.3000412955713694e-06,
      "loss": 0.4247,
      "step": 981
    },
    {
      "epoch": 0.8270634475014037,
      "grad_norm": 0.41794320940971375,
      "learning_rate": 7.293509161090453e-06,
      "loss": 0.4722,
      "step": 982
    },
    {
      "epoch": 0.8279056709713644,
      "grad_norm": 0.44255533814430237,
      "learning_rate": 7.286972065284854e-06,
      "loss": 0.4685,
      "step": 983
    },
    {
      "epoch": 0.8287478944413251,
      "grad_norm": 0.46825361251831055,
      "learning_rate": 7.28043002229563e-06,
      "loss": 0.4454,
      "step": 984
    },
    {
      "epoch": 0.8295901179112858,
      "grad_norm": 0.42027345299720764,
      "learning_rate": 7.273883046274547e-06,
      "loss": 0.4276,
      "step": 985
    },
    {
      "epoch": 0.8304323413812464,
      "grad_norm": 0.42335405945777893,
      "learning_rate": 7.2673311513840395e-06,
      "loss": 0.4607,
      "step": 986
    },
    {
      "epoch": 0.8312745648512072,
      "grad_norm": 0.41875892877578735,
      "learning_rate": 7.260774351797183e-06,
      "loss": 0.4645,
      "step": 987
    },
    {
      "epoch": 0.8321167883211679,
      "grad_norm": 0.4256664216518402,
      "learning_rate": 7.2542126616976596e-06,
      "loss": 0.4466,
      "step": 988
    },
    {
      "epoch": 0.8329590117911286,
      "grad_norm": 0.42416736483573914,
      "learning_rate": 7.247646095279738e-06,
      "loss": 0.4389,
      "step": 989
    },
    {
      "epoch": 0.8338012352610893,
      "grad_norm": 0.4641967713832855,
      "learning_rate": 7.241074666748228e-06,
      "loss": 0.4784,
      "step": 990
    },
    {
      "epoch": 0.83464345873105,
      "grad_norm": 0.47126781940460205,
      "learning_rate": 7.234498390318461e-06,
      "loss": 0.4767,
      "step": 991
    },
    {
      "epoch": 0.8354856822010107,
      "grad_norm": 0.3986150622367859,
      "learning_rate": 7.227917280216254e-06,
      "loss": 0.452,
      "step": 992
    },
    {
      "epoch": 0.8363279056709714,
      "grad_norm": 0.39685291051864624,
      "learning_rate": 7.2213313506778815e-06,
      "loss": 0.445,
      "step": 993
    },
    {
      "epoch": 0.837170129140932,
      "grad_norm": 0.4368400573730469,
      "learning_rate": 7.214740615950041e-06,
      "loss": 0.4862,
      "step": 994
    },
    {
      "epoch": 0.8380123526108928,
      "grad_norm": 0.41950324177742004,
      "learning_rate": 7.208145090289828e-06,
      "loss": 0.4731,
      "step": 995
    },
    {
      "epoch": 0.8388545760808535,
      "grad_norm": 0.5047773122787476,
      "learning_rate": 7.201544787964698e-06,
      "loss": 0.4628,
      "step": 996
    },
    {
      "epoch": 0.8396967995508141,
      "grad_norm": 0.4307712912559509,
      "learning_rate": 7.194939723252442e-06,
      "loss": 0.4359,
      "step": 997
    },
    {
      "epoch": 0.8405390230207749,
      "grad_norm": 0.47106873989105225,
      "learning_rate": 7.188329910441154e-06,
      "loss": 0.4395,
      "step": 998
    },
    {
      "epoch": 0.8413812464907355,
      "grad_norm": 0.5031774044036865,
      "learning_rate": 7.181715363829196e-06,
      "loss": 0.4703,
      "step": 999
    },
    {
      "epoch": 0.8422234699606962,
      "grad_norm": 0.45884329080581665,
      "learning_rate": 7.175096097725169e-06,
      "loss": 0.4519,
      "step": 1000
    },
    {
      "epoch": 0.843065693430657,
      "grad_norm": 0.4766010642051697,
      "learning_rate": 7.168472126447891e-06,
      "loss": 0.463,
      "step": 1001
    },
    {
      "epoch": 0.8439079169006176,
      "grad_norm": 0.42385271191596985,
      "learning_rate": 7.161843464326349e-06,
      "loss": 0.4624,
      "step": 1002
    },
    {
      "epoch": 0.8447501403705783,
      "grad_norm": 0.43776631355285645,
      "learning_rate": 7.155210125699683e-06,
      "loss": 0.4572,
      "step": 1003
    },
    {
      "epoch": 0.845592363840539,
      "grad_norm": 0.49357903003692627,
      "learning_rate": 7.148572124917148e-06,
      "loss": 0.4478,
      "step": 1004
    },
    {
      "epoch": 0.8464345873104997,
      "grad_norm": 0.4538862407207489,
      "learning_rate": 7.141929476338083e-06,
      "loss": 0.4494,
      "step": 1005
    },
    {
      "epoch": 0.8472768107804605,
      "grad_norm": 0.3818148970603943,
      "learning_rate": 7.135282194331881e-06,
      "loss": 0.458,
      "step": 1006
    },
    {
      "epoch": 0.8481190342504211,
      "grad_norm": 0.4245716631412506,
      "learning_rate": 7.128630293277959e-06,
      "loss": 0.442,
      "step": 1007
    },
    {
      "epoch": 0.8489612577203818,
      "grad_norm": 0.4502064287662506,
      "learning_rate": 7.121973787565727e-06,
      "loss": 0.4704,
      "step": 1008
    },
    {
      "epoch": 0.8498034811903425,
      "grad_norm": 0.4106570780277252,
      "learning_rate": 7.1153126915945535e-06,
      "loss": 0.467,
      "step": 1009
    },
    {
      "epoch": 0.8506457046603032,
      "grad_norm": 0.5060343146324158,
      "learning_rate": 7.1086470197737405e-06,
      "loss": 0.4642,
      "step": 1010
    },
    {
      "epoch": 0.8514879281302639,
      "grad_norm": 0.4317125678062439,
      "learning_rate": 7.10197678652248e-06,
      "loss": 0.477,
      "step": 1011
    },
    {
      "epoch": 0.8523301516002246,
      "grad_norm": 0.464531809091568,
      "learning_rate": 7.095302006269842e-06,
      "loss": 0.4652,
      "step": 1012
    },
    {
      "epoch": 0.8531723750701853,
      "grad_norm": 0.4989393353462219,
      "learning_rate": 7.0886226934547265e-06,
      "loss": 0.4648,
      "step": 1013
    },
    {
      "epoch": 0.8540145985401459,
      "grad_norm": 0.46237364411354065,
      "learning_rate": 7.0819388625258385e-06,
      "loss": 0.4686,
      "step": 1014
    },
    {
      "epoch": 0.8548568220101067,
      "grad_norm": 0.47542470693588257,
      "learning_rate": 7.07525052794166e-06,
      "loss": 0.4362,
      "step": 1015
    },
    {
      "epoch": 0.8556990454800674,
      "grad_norm": 0.47890135645866394,
      "learning_rate": 7.06855770417041e-06,
      "loss": 0.4462,
      "step": 1016
    },
    {
      "epoch": 0.856541268950028,
      "grad_norm": 0.4640238881111145,
      "learning_rate": 7.061860405690022e-06,
      "loss": 0.4654,
      "step": 1017
    },
    {
      "epoch": 0.8573834924199888,
      "grad_norm": 0.5424396991729736,
      "learning_rate": 7.05515864698811e-06,
      "loss": 0.501,
      "step": 1018
    },
    {
      "epoch": 0.8582257158899494,
      "grad_norm": 0.4039327800273895,
      "learning_rate": 7.048452442561935e-06,
      "loss": 0.468,
      "step": 1019
    },
    {
      "epoch": 0.8590679393599102,
      "grad_norm": 0.4142864942550659,
      "learning_rate": 7.041741806918372e-06,
      "loss": 0.4525,
      "step": 1020
    },
    {
      "epoch": 0.8599101628298709,
      "grad_norm": 0.5277826189994812,
      "learning_rate": 7.035026754573888e-06,
      "loss": 0.4969,
      "step": 1021
    },
    {
      "epoch": 0.8607523862998315,
      "grad_norm": 0.419075071811676,
      "learning_rate": 7.028307300054499e-06,
      "loss": 0.4443,
      "step": 1022
    },
    {
      "epoch": 0.8615946097697923,
      "grad_norm": 0.48332279920578003,
      "learning_rate": 7.021583457895746e-06,
      "loss": 0.438,
      "step": 1023
    },
    {
      "epoch": 0.862436833239753,
      "grad_norm": 0.43795010447502136,
      "learning_rate": 7.014855242642662e-06,
      "loss": 0.4721,
      "step": 1024
    },
    {
      "epoch": 0.8632790567097136,
      "grad_norm": 0.42427322268486023,
      "learning_rate": 7.0081226688497396e-06,
      "loss": 0.4449,
      "step": 1025
    },
    {
      "epoch": 0.8641212801796744,
      "grad_norm": 0.486646831035614,
      "learning_rate": 7.0013857510808934e-06,
      "loss": 0.4596,
      "step": 1026
    },
    {
      "epoch": 0.864963503649635,
      "grad_norm": 0.48821964859962463,
      "learning_rate": 6.994644503909449e-06,
      "loss": 0.4544,
      "step": 1027
    },
    {
      "epoch": 0.8658057271195957,
      "grad_norm": 0.4265111982822418,
      "learning_rate": 6.987898941918082e-06,
      "loss": 0.4572,
      "step": 1028
    },
    {
      "epoch": 0.8666479505895565,
      "grad_norm": 0.5423964262008667,
      "learning_rate": 6.981149079698812e-06,
      "loss": 0.4678,
      "step": 1029
    },
    {
      "epoch": 0.8674901740595171,
      "grad_norm": 0.4609256088733673,
      "learning_rate": 6.974394931852957e-06,
      "loss": 0.4466,
      "step": 1030
    },
    {
      "epoch": 0.8683323975294778,
      "grad_norm": 0.48124948143959045,
      "learning_rate": 6.967636512991108e-06,
      "loss": 0.4686,
      "step": 1031
    },
    {
      "epoch": 0.8691746209994385,
      "grad_norm": 0.3853509724140167,
      "learning_rate": 6.960873837733089e-06,
      "loss": 0.4626,
      "step": 1032
    },
    {
      "epoch": 0.8700168444693992,
      "grad_norm": 0.5073436498641968,
      "learning_rate": 6.954106920707939e-06,
      "loss": 0.5003,
      "step": 1033
    },
    {
      "epoch": 0.87085906793936,
      "grad_norm": 0.47675201296806335,
      "learning_rate": 6.94733577655387e-06,
      "loss": 0.4777,
      "step": 1034
    },
    {
      "epoch": 0.8717012914093206,
      "grad_norm": 0.4498865008354187,
      "learning_rate": 6.940560419918238e-06,
      "loss": 0.4515,
      "step": 1035
    },
    {
      "epoch": 0.8725435148792813,
      "grad_norm": 0.4000319838523865,
      "learning_rate": 6.933780865457508e-06,
      "loss": 0.4608,
      "step": 1036
    },
    {
      "epoch": 0.873385738349242,
      "grad_norm": 0.46590501070022583,
      "learning_rate": 6.926997127837233e-06,
      "loss": 0.4511,
      "step": 1037
    },
    {
      "epoch": 0.8742279618192027,
      "grad_norm": 0.4553176760673523,
      "learning_rate": 6.920209221732007e-06,
      "loss": 0.4482,
      "step": 1038
    },
    {
      "epoch": 0.8750701852891634,
      "grad_norm": 0.362593412399292,
      "learning_rate": 6.913417161825449e-06,
      "loss": 0.4297,
      "step": 1039
    },
    {
      "epoch": 0.8759124087591241,
      "grad_norm": 0.4309810996055603,
      "learning_rate": 6.90662096281016e-06,
      "loss": 0.4478,
      "step": 1040
    },
    {
      "epoch": 0.8767546322290848,
      "grad_norm": 0.437607079744339,
      "learning_rate": 6.899820639387689e-06,
      "loss": 0.4536,
      "step": 1041
    },
    {
      "epoch": 0.8775968556990454,
      "grad_norm": 0.3752126693725586,
      "learning_rate": 6.893016206268518e-06,
      "loss": 0.4423,
      "step": 1042
    },
    {
      "epoch": 0.8784390791690062,
      "grad_norm": 0.4695205092430115,
      "learning_rate": 6.886207678172011e-06,
      "loss": 0.4573,
      "step": 1043
    },
    {
      "epoch": 0.8792813026389669,
      "grad_norm": 0.5019348859786987,
      "learning_rate": 6.879395069826394e-06,
      "loss": 0.4562,
      "step": 1044
    },
    {
      "epoch": 0.8801235261089275,
      "grad_norm": 0.4035555422306061,
      "learning_rate": 6.872578395968717e-06,
      "loss": 0.438,
      "step": 1045
    },
    {
      "epoch": 0.8809657495788883,
      "grad_norm": 0.4367794990539551,
      "learning_rate": 6.865757671344827e-06,
      "loss": 0.4707,
      "step": 1046
    },
    {
      "epoch": 0.881807973048849,
      "grad_norm": 0.4869860112667084,
      "learning_rate": 6.858932910709331e-06,
      "loss": 0.4514,
      "step": 1047
    },
    {
      "epoch": 0.8826501965188096,
      "grad_norm": 0.46453699469566345,
      "learning_rate": 6.85210412882557e-06,
      "loss": 0.4436,
      "step": 1048
    },
    {
      "epoch": 0.8834924199887704,
      "grad_norm": 0.40795961022377014,
      "learning_rate": 6.845271340465579e-06,
      "loss": 0.4614,
      "step": 1049
    },
    {
      "epoch": 0.884334643458731,
      "grad_norm": 0.4423471689224243,
      "learning_rate": 6.838434560410064e-06,
      "loss": 0.4635,
      "step": 1050
    },
    {
      "epoch": 0.8851768669286918,
      "grad_norm": 0.4236070513725281,
      "learning_rate": 6.831593803448366e-06,
      "loss": 0.4559,
      "step": 1051
    },
    {
      "epoch": 0.8860190903986525,
      "grad_norm": 0.46327894926071167,
      "learning_rate": 6.824749084378428e-06,
      "loss": 0.448,
      "step": 1052
    },
    {
      "epoch": 0.8868613138686131,
      "grad_norm": 0.38622424006462097,
      "learning_rate": 6.817900418006758e-06,
      "loss": 0.4507,
      "step": 1053
    },
    {
      "epoch": 0.8877035373385739,
      "grad_norm": 0.44877707958221436,
      "learning_rate": 6.811047819148413e-06,
      "loss": 0.4921,
      "step": 1054
    },
    {
      "epoch": 0.8885457608085345,
      "grad_norm": 0.5205256342887878,
      "learning_rate": 6.80419130262695e-06,
      "loss": 0.459,
      "step": 1055
    },
    {
      "epoch": 0.8893879842784952,
      "grad_norm": 0.4693138003349304,
      "learning_rate": 6.7973308832744035e-06,
      "loss": 0.4769,
      "step": 1056
    },
    {
      "epoch": 0.890230207748456,
      "grad_norm": 0.4264187514781952,
      "learning_rate": 6.7904665759312475e-06,
      "loss": 0.433,
      "step": 1057
    },
    {
      "epoch": 0.8910724312184166,
      "grad_norm": 0.4236227869987488,
      "learning_rate": 6.783598395446371e-06,
      "loss": 0.4478,
      "step": 1058
    },
    {
      "epoch": 0.8919146546883773,
      "grad_norm": 0.4448436498641968,
      "learning_rate": 6.776726356677037e-06,
      "loss": 0.4507,
      "step": 1059
    },
    {
      "epoch": 0.892756878158338,
      "grad_norm": 0.44446030259132385,
      "learning_rate": 6.769850474488859e-06,
      "loss": 0.477,
      "step": 1060
    },
    {
      "epoch": 0.8935991016282987,
      "grad_norm": 0.4252163767814636,
      "learning_rate": 6.7629707637557594e-06,
      "loss": 0.465,
      "step": 1061
    },
    {
      "epoch": 0.8944413250982594,
      "grad_norm": 0.4149600565433502,
      "learning_rate": 6.756087239359948e-06,
      "loss": 0.4562,
      "step": 1062
    },
    {
      "epoch": 0.8952835485682201,
      "grad_norm": 0.4044221341609955,
      "learning_rate": 6.74919991619188e-06,
      "loss": 0.4448,
      "step": 1063
    },
    {
      "epoch": 0.8961257720381808,
      "grad_norm": 0.4376208186149597,
      "learning_rate": 6.742308809150232e-06,
      "loss": 0.4324,
      "step": 1064
    },
    {
      "epoch": 0.8969679955081415,
      "grad_norm": 0.4453463852405548,
      "learning_rate": 6.7354139331418615e-06,
      "loss": 0.4512,
      "step": 1065
    },
    {
      "epoch": 0.8978102189781022,
      "grad_norm": 0.42553696036338806,
      "learning_rate": 6.728515303081782e-06,
      "loss": 0.4493,
      "step": 1066
    },
    {
      "epoch": 0.8986524424480629,
      "grad_norm": 0.40146660804748535,
      "learning_rate": 6.721612933893128e-06,
      "loss": 0.4272,
      "step": 1067
    },
    {
      "epoch": 0.8994946659180236,
      "grad_norm": 0.4649771451950073,
      "learning_rate": 6.714706840507122e-06,
      "loss": 0.438,
      "step": 1068
    },
    {
      "epoch": 0.9003368893879843,
      "grad_norm": 0.3998262882232666,
      "learning_rate": 6.70779703786304e-06,
      "loss": 0.4626,
      "step": 1069
    },
    {
      "epoch": 0.9011791128579449,
      "grad_norm": 0.5008353590965271,
      "learning_rate": 6.700883540908185e-06,
      "loss": 0.4618,
      "step": 1070
    },
    {
      "epoch": 0.9020213363279057,
      "grad_norm": 0.41019707918167114,
      "learning_rate": 6.693966364597851e-06,
      "loss": 0.4306,
      "step": 1071
    },
    {
      "epoch": 0.9028635597978664,
      "grad_norm": 0.4746672511100769,
      "learning_rate": 6.687045523895292e-06,
      "loss": 0.4644,
      "step": 1072
    },
    {
      "epoch": 0.903705783267827,
      "grad_norm": 0.4410029351711273,
      "learning_rate": 6.680121033771687e-06,
      "loss": 0.4626,
      "step": 1073
    },
    {
      "epoch": 0.9045480067377878,
      "grad_norm": 0.47154128551483154,
      "learning_rate": 6.673192909206109e-06,
      "loss": 0.4911,
      "step": 1074
    },
    {
      "epoch": 0.9053902302077484,
      "grad_norm": 0.5606120824813843,
      "learning_rate": 6.666261165185496e-06,
      "loss": 0.4734,
      "step": 1075
    },
    {
      "epoch": 0.9062324536777091,
      "grad_norm": 0.4701644480228424,
      "learning_rate": 6.6593258167046115e-06,
      "loss": 0.4555,
      "step": 1076
    },
    {
      "epoch": 0.9070746771476699,
      "grad_norm": 0.48429593443870544,
      "learning_rate": 6.65238687876602e-06,
      "loss": 0.4518,
      "step": 1077
    },
    {
      "epoch": 0.9079169006176305,
      "grad_norm": 0.5719187259674072,
      "learning_rate": 6.64544436638005e-06,
      "loss": 0.4741,
      "step": 1078
    },
    {
      "epoch": 0.9087591240875912,
      "grad_norm": 0.4117887318134308,
      "learning_rate": 6.63849829456476e-06,
      "loss": 0.4506,
      "step": 1079
    },
    {
      "epoch": 0.909601347557552,
      "grad_norm": 0.43354320526123047,
      "learning_rate": 6.63154867834591e-06,
      "loss": 0.4569,
      "step": 1080
    },
    {
      "epoch": 0.9104435710275126,
      "grad_norm": 0.5839229822158813,
      "learning_rate": 6.6245955327569285e-06,
      "loss": 0.4435,
      "step": 1081
    },
    {
      "epoch": 0.9112857944974734,
      "grad_norm": 0.43481120467185974,
      "learning_rate": 6.617638872838874e-06,
      "loss": 0.4275,
      "step": 1082
    },
    {
      "epoch": 0.912128017967434,
      "grad_norm": 0.4546884298324585,
      "learning_rate": 6.610678713640414e-06,
      "loss": 0.4525,
      "step": 1083
    },
    {
      "epoch": 0.9129702414373947,
      "grad_norm": 0.4922419488430023,
      "learning_rate": 6.603715070217779e-06,
      "loss": 0.4459,
      "step": 1084
    },
    {
      "epoch": 0.9138124649073555,
      "grad_norm": 0.4811722934246063,
      "learning_rate": 6.596747957634741e-06,
      "loss": 0.4578,
      "step": 1085
    },
    {
      "epoch": 0.9146546883773161,
      "grad_norm": 0.43998774886131287,
      "learning_rate": 6.589777390962575e-06,
      "loss": 0.4476,
      "step": 1086
    },
    {
      "epoch": 0.9154969118472768,
      "grad_norm": 0.46212008595466614,
      "learning_rate": 6.58280338528003e-06,
      "loss": 0.4405,
      "step": 1087
    },
    {
      "epoch": 0.9163391353172375,
      "grad_norm": 0.4600047767162323,
      "learning_rate": 6.5758259556732896e-06,
      "loss": 0.4646,
      "step": 1088
    },
    {
      "epoch": 0.9171813587871982,
      "grad_norm": 0.4968038499355316,
      "learning_rate": 6.5688451172359476e-06,
      "loss": 0.4509,
      "step": 1089
    },
    {
      "epoch": 0.9180235822571589,
      "grad_norm": 0.45326629281044006,
      "learning_rate": 6.561860885068972e-06,
      "loss": 0.4421,
      "step": 1090
    },
    {
      "epoch": 0.9188658057271196,
      "grad_norm": 0.5064592361450195,
      "learning_rate": 6.5548732742806686e-06,
      "loss": 0.4605,
      "step": 1091
    },
    {
      "epoch": 0.9197080291970803,
      "grad_norm": 0.47791874408721924,
      "learning_rate": 6.547882299986658e-06,
      "loss": 0.4716,
      "step": 1092
    },
    {
      "epoch": 0.9205502526670409,
      "grad_norm": 0.48575571179389954,
      "learning_rate": 6.540887977309829e-06,
      "loss": 0.4747,
      "step": 1093
    },
    {
      "epoch": 0.9213924761370017,
      "grad_norm": 0.4513898491859436,
      "learning_rate": 6.53389032138032e-06,
      "loss": 0.4637,
      "step": 1094
    },
    {
      "epoch": 0.9222346996069624,
      "grad_norm": 0.5039327144622803,
      "learning_rate": 6.526889347335478e-06,
      "loss": 0.4784,
      "step": 1095
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.4345721900463104,
      "learning_rate": 6.519885070319827e-06,
      "loss": 0.4622,
      "step": 1096
    },
    {
      "epoch": 0.9239191465468838,
      "grad_norm": 0.46571165323257446,
      "learning_rate": 6.512877505485034e-06,
      "loss": 0.4523,
      "step": 1097
    },
    {
      "epoch": 0.9247613700168444,
      "grad_norm": 0.4344276189804077,
      "learning_rate": 6.505866667989884e-06,
      "loss": 0.4529,
      "step": 1098
    },
    {
      "epoch": 0.9256035934868052,
      "grad_norm": 0.39618927240371704,
      "learning_rate": 6.498852573000236e-06,
      "loss": 0.453,
      "step": 1099
    },
    {
      "epoch": 0.9264458169567659,
      "grad_norm": 0.3851579427719116,
      "learning_rate": 6.491835235688999e-06,
      "loss": 0.4499,
      "step": 1100
    },
    {
      "epoch": 0.9272880404267265,
      "grad_norm": 0.41859036684036255,
      "learning_rate": 6.484814671236092e-06,
      "loss": 0.4408,
      "step": 1101
    },
    {
      "epoch": 0.9281302638966873,
      "grad_norm": 0.4765878915786743,
      "learning_rate": 6.477790894828422e-06,
      "loss": 0.4833,
      "step": 1102
    },
    {
      "epoch": 0.928972487366648,
      "grad_norm": 0.39903724193573,
      "learning_rate": 6.4707639216598326e-06,
      "loss": 0.4276,
      "step": 1103
    },
    {
      "epoch": 0.9298147108366086,
      "grad_norm": 0.4048561155796051,
      "learning_rate": 6.463733766931096e-06,
      "loss": 0.4586,
      "step": 1104
    },
    {
      "epoch": 0.9306569343065694,
      "grad_norm": 0.3995817005634308,
      "learning_rate": 6.456700445849857e-06,
      "loss": 0.4342,
      "step": 1105
    },
    {
      "epoch": 0.93149915777653,
      "grad_norm": 0.41075384616851807,
      "learning_rate": 6.449663973630613e-06,
      "loss": 0.4749,
      "step": 1106
    },
    {
      "epoch": 0.9323413812464907,
      "grad_norm": 0.41045013070106506,
      "learning_rate": 6.442624365494679e-06,
      "loss": 0.4485,
      "step": 1107
    },
    {
      "epoch": 0.9331836047164515,
      "grad_norm": 0.4094372093677521,
      "learning_rate": 6.435581636670154e-06,
      "loss": 0.4554,
      "step": 1108
    },
    {
      "epoch": 0.9340258281864121,
      "grad_norm": 0.3943828344345093,
      "learning_rate": 6.428535802391883e-06,
      "loss": 0.438,
      "step": 1109
    },
    {
      "epoch": 0.9348680516563729,
      "grad_norm": 0.4134525954723358,
      "learning_rate": 6.421486877901436e-06,
      "loss": 0.4791,
      "step": 1110
    },
    {
      "epoch": 0.9357102751263335,
      "grad_norm": 0.4279971420764923,
      "learning_rate": 6.414434878447061e-06,
      "loss": 0.4866,
      "step": 1111
    },
    {
      "epoch": 0.9365524985962942,
      "grad_norm": 0.406903475522995,
      "learning_rate": 6.407379819283661e-06,
      "loss": 0.4553,
      "step": 1112
    },
    {
      "epoch": 0.937394722066255,
      "grad_norm": 0.44724324345588684,
      "learning_rate": 6.400321715672761e-06,
      "loss": 0.4537,
      "step": 1113
    },
    {
      "epoch": 0.9382369455362156,
      "grad_norm": 0.4208373725414276,
      "learning_rate": 6.393260582882462e-06,
      "loss": 0.4392,
      "step": 1114
    },
    {
      "epoch": 0.9390791690061763,
      "grad_norm": 0.4378812313079834,
      "learning_rate": 6.386196436187428e-06,
      "loss": 0.4441,
      "step": 1115
    },
    {
      "epoch": 0.939921392476137,
      "grad_norm": 0.3875196874141693,
      "learning_rate": 6.379129290868837e-06,
      "loss": 0.479,
      "step": 1116
    },
    {
      "epoch": 0.9407636159460977,
      "grad_norm": 0.4023684561252594,
      "learning_rate": 6.372059162214358e-06,
      "loss": 0.4715,
      "step": 1117
    },
    {
      "epoch": 0.9416058394160584,
      "grad_norm": 0.46194854378700256,
      "learning_rate": 6.364986065518106e-06,
      "loss": 0.4227,
      "step": 1118
    },
    {
      "epoch": 0.9424480628860191,
      "grad_norm": 0.4213816225528717,
      "learning_rate": 6.357910016080626e-06,
      "loss": 0.4536,
      "step": 1119
    },
    {
      "epoch": 0.9432902863559798,
      "grad_norm": 0.4029354155063629,
      "learning_rate": 6.350831029208844e-06,
      "loss": 0.4722,
      "step": 1120
    },
    {
      "epoch": 0.9441325098259404,
      "grad_norm": 0.4485786557197571,
      "learning_rate": 6.343749120216039e-06,
      "loss": 0.4473,
      "step": 1121
    },
    {
      "epoch": 0.9449747332959012,
      "grad_norm": 0.3969792425632477,
      "learning_rate": 6.336664304421818e-06,
      "loss": 0.4419,
      "step": 1122
    },
    {
      "epoch": 0.9458169567658619,
      "grad_norm": 0.49249982833862305,
      "learning_rate": 6.329576597152072e-06,
      "loss": 0.4762,
      "step": 1123
    },
    {
      "epoch": 0.9466591802358225,
      "grad_norm": 0.3752756416797638,
      "learning_rate": 6.322486013738942e-06,
      "loss": 0.4475,
      "step": 1124
    },
    {
      "epoch": 0.9475014037057833,
      "grad_norm": 0.4258384704589844,
      "learning_rate": 6.315392569520802e-06,
      "loss": 0.4651,
      "step": 1125
    },
    {
      "epoch": 0.9483436271757439,
      "grad_norm": 0.49818795919418335,
      "learning_rate": 6.308296279842204e-06,
      "loss": 0.4492,
      "step": 1126
    },
    {
      "epoch": 0.9491858506457047,
      "grad_norm": 0.39668574929237366,
      "learning_rate": 6.30119716005386e-06,
      "loss": 0.4417,
      "step": 1127
    },
    {
      "epoch": 0.9500280741156654,
      "grad_norm": 0.4016638994216919,
      "learning_rate": 6.294095225512604e-06,
      "loss": 0.4547,
      "step": 1128
    },
    {
      "epoch": 0.950870297585626,
      "grad_norm": 0.3991038501262665,
      "learning_rate": 6.28699049158136e-06,
      "loss": 0.4571,
      "step": 1129
    },
    {
      "epoch": 0.9517125210555868,
      "grad_norm": 0.40804818272590637,
      "learning_rate": 6.279882973629101e-06,
      "loss": 0.4336,
      "step": 1130
    },
    {
      "epoch": 0.9525547445255474,
      "grad_norm": 0.40424638986587524,
      "learning_rate": 6.272772687030834e-06,
      "loss": 0.4782,
      "step": 1131
    },
    {
      "epoch": 0.9533969679955081,
      "grad_norm": 0.39528733491897583,
      "learning_rate": 6.265659647167542e-06,
      "loss": 0.4558,
      "step": 1132
    },
    {
      "epoch": 0.9542391914654689,
      "grad_norm": 0.4670707583427429,
      "learning_rate": 6.258543869426175e-06,
      "loss": 0.4184,
      "step": 1133
    },
    {
      "epoch": 0.9550814149354295,
      "grad_norm": 0.4284130930900574,
      "learning_rate": 6.2514253691996e-06,
      "loss": 0.4421,
      "step": 1134
    },
    {
      "epoch": 0.9559236384053902,
      "grad_norm": 0.46938133239746094,
      "learning_rate": 6.244304161886574e-06,
      "loss": 0.4384,
      "step": 1135
    },
    {
      "epoch": 0.956765861875351,
      "grad_norm": 0.46661970019340515,
      "learning_rate": 6.237180262891709e-06,
      "loss": 0.4634,
      "step": 1136
    },
    {
      "epoch": 0.9576080853453116,
      "grad_norm": 0.40745365619659424,
      "learning_rate": 6.230053687625443e-06,
      "loss": 0.4666,
      "step": 1137
    },
    {
      "epoch": 0.9584503088152723,
      "grad_norm": 0.49667736887931824,
      "learning_rate": 6.222924451504001e-06,
      "loss": 0.4568,
      "step": 1138
    },
    {
      "epoch": 0.959292532285233,
      "grad_norm": 0.4549046754837036,
      "learning_rate": 6.215792569949362e-06,
      "loss": 0.4784,
      "step": 1139
    },
    {
      "epoch": 0.9601347557551937,
      "grad_norm": 0.4383794367313385,
      "learning_rate": 6.208658058389232e-06,
      "loss": 0.4783,
      "step": 1140
    },
    {
      "epoch": 0.9609769792251545,
      "grad_norm": 0.4939660131931305,
      "learning_rate": 6.2015209322570025e-06,
      "loss": 0.4333,
      "step": 1141
    },
    {
      "epoch": 0.9618192026951151,
      "grad_norm": 0.4318971037864685,
      "learning_rate": 6.194381206991723e-06,
      "loss": 0.4306,
      "step": 1142
    },
    {
      "epoch": 0.9626614261650758,
      "grad_norm": 0.43348485231399536,
      "learning_rate": 6.187238898038066e-06,
      "loss": 0.4196,
      "step": 1143
    },
    {
      "epoch": 0.9635036496350365,
      "grad_norm": 0.5113338232040405,
      "learning_rate": 6.180094020846291e-06,
      "loss": 0.467,
      "step": 1144
    },
    {
      "epoch": 0.9643458731049972,
      "grad_norm": 0.4877031743526459,
      "learning_rate": 6.172946590872212e-06,
      "loss": 0.4414,
      "step": 1145
    },
    {
      "epoch": 0.9651880965749579,
      "grad_norm": 0.4400848150253296,
      "learning_rate": 6.165796623577171e-06,
      "loss": 0.4313,
      "step": 1146
    },
    {
      "epoch": 0.9660303200449186,
      "grad_norm": 0.470285564661026,
      "learning_rate": 6.158644134427994e-06,
      "loss": 0.4417,
      "step": 1147
    },
    {
      "epoch": 0.9668725435148793,
      "grad_norm": 0.44157466292381287,
      "learning_rate": 6.15148913889696e-06,
      "loss": 0.4546,
      "step": 1148
    },
    {
      "epoch": 0.9677147669848399,
      "grad_norm": 0.45695725083351135,
      "learning_rate": 6.144331652461775e-06,
      "loss": 0.4542,
      "step": 1149
    },
    {
      "epoch": 0.9685569904548007,
      "grad_norm": 0.3889234662055969,
      "learning_rate": 6.1371716906055336e-06,
      "loss": 0.4531,
      "step": 1150
    },
    {
      "epoch": 0.9693992139247614,
      "grad_norm": 0.4947912395000458,
      "learning_rate": 6.130009268816678e-06,
      "loss": 0.4537,
      "step": 1151
    },
    {
      "epoch": 0.970241437394722,
      "grad_norm": 0.5090194344520569,
      "learning_rate": 6.122844402588982e-06,
      "loss": 0.434,
      "step": 1152
    },
    {
      "epoch": 0.9710836608646828,
      "grad_norm": 0.3769230544567108,
      "learning_rate": 6.1156771074214995e-06,
      "loss": 0.4339,
      "step": 1153
    },
    {
      "epoch": 0.9719258843346434,
      "grad_norm": 0.4248095452785492,
      "learning_rate": 6.10850739881854e-06,
      "loss": 0.4394,
      "step": 1154
    },
    {
      "epoch": 0.9727681078046042,
      "grad_norm": 0.4172901511192322,
      "learning_rate": 6.101335292289636e-06,
      "loss": 0.4219,
      "step": 1155
    },
    {
      "epoch": 0.9736103312745649,
      "grad_norm": 0.4300103485584259,
      "learning_rate": 6.094160803349508e-06,
      "loss": 0.4655,
      "step": 1156
    },
    {
      "epoch": 0.9744525547445255,
      "grad_norm": 0.4299437403678894,
      "learning_rate": 6.086983947518024e-06,
      "loss": 0.4773,
      "step": 1157
    },
    {
      "epoch": 0.9752947782144863,
      "grad_norm": 0.4099855124950409,
      "learning_rate": 6.079804740320181e-06,
      "loss": 0.4622,
      "step": 1158
    },
    {
      "epoch": 0.976137001684447,
      "grad_norm": 0.4018026292324066,
      "learning_rate": 6.0726231972860535e-06,
      "loss": 0.4449,
      "step": 1159
    },
    {
      "epoch": 0.9769792251544076,
      "grad_norm": 0.4580843150615692,
      "learning_rate": 6.065439333950776e-06,
      "loss": 0.4731,
      "step": 1160
    },
    {
      "epoch": 0.9778214486243684,
      "grad_norm": 0.4036202132701874,
      "learning_rate": 6.058253165854498e-06,
      "loss": 0.451,
      "step": 1161
    },
    {
      "epoch": 0.978663672094329,
      "grad_norm": 0.4261864423751831,
      "learning_rate": 6.051064708542357e-06,
      "loss": 0.4462,
      "step": 1162
    },
    {
      "epoch": 0.9795058955642897,
      "grad_norm": 0.4342444837093353,
      "learning_rate": 6.0438739775644405e-06,
      "loss": 0.4716,
      "step": 1163
    },
    {
      "epoch": 0.9803481190342505,
      "grad_norm": 0.4578304588794708,
      "learning_rate": 6.036680988475756e-06,
      "loss": 0.4518,
      "step": 1164
    },
    {
      "epoch": 0.9811903425042111,
      "grad_norm": 0.4792829155921936,
      "learning_rate": 6.029485756836195e-06,
      "loss": 0.457,
      "step": 1165
    },
    {
      "epoch": 0.9820325659741718,
      "grad_norm": 0.37634217739105225,
      "learning_rate": 6.022288298210502e-06,
      "loss": 0.4426,
      "step": 1166
    },
    {
      "epoch": 0.9828747894441325,
      "grad_norm": 0.4305419623851776,
      "learning_rate": 6.015088628168235e-06,
      "loss": 0.4476,
      "step": 1167
    },
    {
      "epoch": 0.9837170129140932,
      "grad_norm": 0.4464685618877411,
      "learning_rate": 6.00788676228374e-06,
      "loss": 0.4463,
      "step": 1168
    },
    {
      "epoch": 0.9845592363840538,
      "grad_norm": 0.3894635736942291,
      "learning_rate": 6.00068271613611e-06,
      "loss": 0.4397,
      "step": 1169
    },
    {
      "epoch": 0.9854014598540146,
      "grad_norm": 0.43560299277305603,
      "learning_rate": 5.993476505309154e-06,
      "loss": 0.4736,
      "step": 1170
    },
    {
      "epoch": 0.9862436833239753,
      "grad_norm": 0.44122418761253357,
      "learning_rate": 5.986268145391369e-06,
      "loss": 0.4794,
      "step": 1171
    },
    {
      "epoch": 0.987085906793936,
      "grad_norm": 0.42542269825935364,
      "learning_rate": 5.979057651975893e-06,
      "loss": 0.4564,
      "step": 1172
    },
    {
      "epoch": 0.9879281302638967,
      "grad_norm": 0.44628360867500305,
      "learning_rate": 5.971845040660487e-06,
      "loss": 0.4718,
      "step": 1173
    },
    {
      "epoch": 0.9887703537338574,
      "grad_norm": 0.3953973948955536,
      "learning_rate": 5.964630327047485e-06,
      "loss": 0.4712,
      "step": 1174
    },
    {
      "epoch": 0.9896125772038181,
      "grad_norm": 0.4318336844444275,
      "learning_rate": 5.957413526743776e-06,
      "loss": 0.4421,
      "step": 1175
    },
    {
      "epoch": 0.9904548006737788,
      "grad_norm": 0.39978504180908203,
      "learning_rate": 5.9501946553607615e-06,
      "loss": 0.4332,
      "step": 1176
    },
    {
      "epoch": 0.9912970241437394,
      "grad_norm": 0.39264246821403503,
      "learning_rate": 5.9429737285143185e-06,
      "loss": 0.4515,
      "step": 1177
    },
    {
      "epoch": 0.9921392476137002,
      "grad_norm": 0.4516271650791168,
      "learning_rate": 5.935750761824777e-06,
      "loss": 0.4549,
      "step": 1178
    },
    {
      "epoch": 0.9929814710836609,
      "grad_norm": 0.4137636125087738,
      "learning_rate": 5.928525770916876e-06,
      "loss": 0.4721,
      "step": 1179
    },
    {
      "epoch": 0.9938236945536215,
      "grad_norm": 0.37687888741493225,
      "learning_rate": 5.921298771419731e-06,
      "loss": 0.4657,
      "step": 1180
    },
    {
      "epoch": 0.9946659180235823,
      "grad_norm": 0.40554556250572205,
      "learning_rate": 5.914069778966808e-06,
      "loss": 0.4427,
      "step": 1181
    },
    {
      "epoch": 0.9955081414935429,
      "grad_norm": 0.37201258540153503,
      "learning_rate": 5.906838809195879e-06,
      "loss": 0.4241,
      "step": 1182
    },
    {
      "epoch": 0.9963503649635036,
      "grad_norm": 0.47827157378196716,
      "learning_rate": 5.8996058777489985e-06,
      "loss": 0.4684,
      "step": 1183
    },
    {
      "epoch": 0.9971925884334644,
      "grad_norm": 0.4173145592212677,
      "learning_rate": 5.8923710002724595e-06,
      "loss": 0.4745,
      "step": 1184
    },
    {
      "epoch": 0.998034811903425,
      "grad_norm": 0.3848046660423279,
      "learning_rate": 5.885134192416768e-06,
      "loss": 0.4383,
      "step": 1185
    },
    {
      "epoch": 0.9988770353733858,
      "grad_norm": 0.4513692855834961,
      "learning_rate": 5.877895469836604e-06,
      "loss": 0.4639,
      "step": 1186
    },
    {
      "epoch": 0.9997192588433464,
      "grad_norm": 0.4495951235294342,
      "learning_rate": 5.87065484819079e-06,
      "loss": 0.43,
      "step": 1187
    },
    {
      "epoch": 1.000561482313307,
      "grad_norm": 0.7501121163368225,
      "learning_rate": 5.863412343142258e-06,
      "loss": 0.7012,
      "step": 1188
    },
    {
      "epoch": 1.0014037057832679,
      "grad_norm": 0.5134516358375549,
      "learning_rate": 5.85616797035801e-06,
      "loss": 0.4316,
      "step": 1189
    },
    {
      "epoch": 1.0022459292532284,
      "grad_norm": 0.4979705810546875,
      "learning_rate": 5.848921745509094e-06,
      "loss": 0.4028,
      "step": 1190
    },
    {
      "epoch": 1.0030881527231892,
      "grad_norm": 0.4417858123779297,
      "learning_rate": 5.841673684270559e-06,
      "loss": 0.4283,
      "step": 1191
    },
    {
      "epoch": 1.00393037619315,
      "grad_norm": 0.4142332375049591,
      "learning_rate": 5.8344238023214305e-06,
      "loss": 0.4497,
      "step": 1192
    },
    {
      "epoch": 1.0047725996631107,
      "grad_norm": 0.4269881844520569,
      "learning_rate": 5.827172115344672e-06,
      "loss": 0.3653,
      "step": 1193
    },
    {
      "epoch": 1.0056148231330713,
      "grad_norm": 0.4480939209461212,
      "learning_rate": 5.819918639027149e-06,
      "loss": 0.4281,
      "step": 1194
    },
    {
      "epoch": 1.006457046603032,
      "grad_norm": 0.40314781665802,
      "learning_rate": 5.8126633890595984e-06,
      "loss": 0.4418,
      "step": 1195
    },
    {
      "epoch": 1.0072992700729928,
      "grad_norm": 0.3957338333129883,
      "learning_rate": 5.805406381136598e-06,
      "loss": 0.4134,
      "step": 1196
    },
    {
      "epoch": 1.0081414935429533,
      "grad_norm": 0.39609137177467346,
      "learning_rate": 5.798147630956524e-06,
      "loss": 0.434,
      "step": 1197
    },
    {
      "epoch": 1.0089837170129141,
      "grad_norm": 0.4047844707965851,
      "learning_rate": 5.790887154221521e-06,
      "loss": 0.391,
      "step": 1198
    },
    {
      "epoch": 1.0098259404828749,
      "grad_norm": 0.4124438166618347,
      "learning_rate": 5.783624966637471e-06,
      "loss": 0.4097,
      "step": 1199
    },
    {
      "epoch": 1.0106681639528354,
      "grad_norm": 0.4102948009967804,
      "learning_rate": 5.776361083913959e-06,
      "loss": 0.4133,
      "step": 1200
    },
    {
      "epoch": 1.0115103874227962,
      "grad_norm": 0.4445621073246002,
      "learning_rate": 5.76909552176423e-06,
      "loss": 0.4674,
      "step": 1201
    },
    {
      "epoch": 1.012352610892757,
      "grad_norm": 0.4219590723514557,
      "learning_rate": 5.7618282959051685e-06,
      "loss": 0.3937,
      "step": 1202
    },
    {
      "epoch": 1.0131948343627175,
      "grad_norm": 0.5032766461372375,
      "learning_rate": 5.754559422057255e-06,
      "loss": 0.4495,
      "step": 1203
    },
    {
      "epoch": 1.0140370578326783,
      "grad_norm": 0.42350250482559204,
      "learning_rate": 5.747288915944533e-06,
      "loss": 0.4291,
      "step": 1204
    },
    {
      "epoch": 1.014879281302639,
      "grad_norm": 0.4501211941242218,
      "learning_rate": 5.740016793294584e-06,
      "loss": 0.4237,
      "step": 1205
    },
    {
      "epoch": 1.0157215047725996,
      "grad_norm": 0.4040970504283905,
      "learning_rate": 5.7327430698384775e-06,
      "loss": 0.4098,
      "step": 1206
    },
    {
      "epoch": 1.0165637282425604,
      "grad_norm": 0.380384236574173,
      "learning_rate": 5.725467761310751e-06,
      "loss": 0.3884,
      "step": 1207
    },
    {
      "epoch": 1.0174059517125211,
      "grad_norm": 0.447482168674469,
      "learning_rate": 5.718190883449373e-06,
      "loss": 0.4188,
      "step": 1208
    },
    {
      "epoch": 1.0182481751824817,
      "grad_norm": 0.3683481812477112,
      "learning_rate": 5.7109124519957e-06,
      "loss": 0.4051,
      "step": 1209
    },
    {
      "epoch": 1.0190903986524424,
      "grad_norm": 0.3901650309562683,
      "learning_rate": 5.703632482694453e-06,
      "loss": 0.4043,
      "step": 1210
    },
    {
      "epoch": 1.0199326221224032,
      "grad_norm": 0.3716442883014679,
      "learning_rate": 5.696350991293682e-06,
      "loss": 0.4672,
      "step": 1211
    },
    {
      "epoch": 1.0207748455923638,
      "grad_norm": 0.3704823851585388,
      "learning_rate": 5.689067993544726e-06,
      "loss": 0.3847,
      "step": 1212
    },
    {
      "epoch": 1.0216170690623245,
      "grad_norm": 0.4715137481689453,
      "learning_rate": 5.681783505202182e-06,
      "loss": 0.4606,
      "step": 1213
    },
    {
      "epoch": 1.0224592925322853,
      "grad_norm": 0.3558042049407959,
      "learning_rate": 5.674497542023875e-06,
      "loss": 0.4209,
      "step": 1214
    },
    {
      "epoch": 1.0233015160022458,
      "grad_norm": 0.434556782245636,
      "learning_rate": 5.66721011977082e-06,
      "loss": 0.4679,
      "step": 1215
    },
    {
      "epoch": 1.0241437394722066,
      "grad_norm": 0.3483491837978363,
      "learning_rate": 5.659921254207183e-06,
      "loss": 0.3942,
      "step": 1216
    },
    {
      "epoch": 1.0249859629421674,
      "grad_norm": 0.39180779457092285,
      "learning_rate": 5.65263096110026e-06,
      "loss": 0.4578,
      "step": 1217
    },
    {
      "epoch": 1.025828186412128,
      "grad_norm": 0.36215654015541077,
      "learning_rate": 5.645339256220427e-06,
      "loss": 0.3843,
      "step": 1218
    },
    {
      "epoch": 1.0266704098820887,
      "grad_norm": 0.3917209208011627,
      "learning_rate": 5.638046155341121e-06,
      "loss": 0.4369,
      "step": 1219
    },
    {
      "epoch": 1.0275126333520495,
      "grad_norm": 0.38734349608421326,
      "learning_rate": 5.630751674238796e-06,
      "loss": 0.4241,
      "step": 1220
    },
    {
      "epoch": 1.02835485682201,
      "grad_norm": 0.370635449886322,
      "learning_rate": 5.62345582869289e-06,
      "loss": 0.4023,
      "step": 1221
    },
    {
      "epoch": 1.0291970802919708,
      "grad_norm": 0.39154937863349915,
      "learning_rate": 5.616158634485793e-06,
      "loss": 0.4153,
      "step": 1222
    },
    {
      "epoch": 1.0300393037619315,
      "grad_norm": 0.36209341883659363,
      "learning_rate": 5.608860107402818e-06,
      "loss": 0.4363,
      "step": 1223
    },
    {
      "epoch": 1.0308815272318923,
      "grad_norm": 0.4443402886390686,
      "learning_rate": 5.601560263232153e-06,
      "loss": 0.4767,
      "step": 1224
    },
    {
      "epoch": 1.0317237507018528,
      "grad_norm": 0.3791845440864563,
      "learning_rate": 5.59425911776484e-06,
      "loss": 0.4238,
      "step": 1225
    },
    {
      "epoch": 1.0325659741718136,
      "grad_norm": 0.36873844265937805,
      "learning_rate": 5.5869566867947344e-06,
      "loss": 0.4352,
      "step": 1226
    },
    {
      "epoch": 1.0334081976417744,
      "grad_norm": 0.4068528711795807,
      "learning_rate": 5.579652986118476e-06,
      "loss": 0.425,
      "step": 1227
    },
    {
      "epoch": 1.034250421111735,
      "grad_norm": 0.4854760766029358,
      "learning_rate": 5.572348031535442e-06,
      "loss": 0.4424,
      "step": 1228
    },
    {
      "epoch": 1.0350926445816957,
      "grad_norm": 0.3828165531158447,
      "learning_rate": 5.565041838847735e-06,
      "loss": 0.4352,
      "step": 1229
    },
    {
      "epoch": 1.0359348680516565,
      "grad_norm": 0.4390985667705536,
      "learning_rate": 5.557734423860122e-06,
      "loss": 0.4419,
      "step": 1230
    },
    {
      "epoch": 1.036777091521617,
      "grad_norm": 0.40037739276885986,
      "learning_rate": 5.5504258023800286e-06,
      "loss": 0.4079,
      "step": 1231
    },
    {
      "epoch": 1.0376193149915778,
      "grad_norm": 0.411146879196167,
      "learning_rate": 5.543115990217478e-06,
      "loss": 0.4081,
      "step": 1232
    },
    {
      "epoch": 1.0384615384615385,
      "grad_norm": 0.43008339405059814,
      "learning_rate": 5.535805003185076e-06,
      "loss": 0.4685,
      "step": 1233
    },
    {
      "epoch": 1.039303761931499,
      "grad_norm": 0.40474358201026917,
      "learning_rate": 5.528492857097966e-06,
      "loss": 0.4131,
      "step": 1234
    },
    {
      "epoch": 1.0401459854014599,
      "grad_norm": 0.4893731474876404,
      "learning_rate": 5.521179567773801e-06,
      "loss": 0.4326,
      "step": 1235
    },
    {
      "epoch": 1.0409882088714206,
      "grad_norm": 0.41089296340942383,
      "learning_rate": 5.513865151032709e-06,
      "loss": 0.395,
      "step": 1236
    },
    {
      "epoch": 1.0418304323413812,
      "grad_norm": 0.4378400444984436,
      "learning_rate": 5.506549622697251e-06,
      "loss": 0.4333,
      "step": 1237
    },
    {
      "epoch": 1.042672655811342,
      "grad_norm": 0.36835965514183044,
      "learning_rate": 5.499232998592399e-06,
      "loss": 0.4046,
      "step": 1238
    },
    {
      "epoch": 1.0435148792813027,
      "grad_norm": 0.429485946893692,
      "learning_rate": 5.491915294545489e-06,
      "loss": 0.4775,
      "step": 1239
    },
    {
      "epoch": 1.0443571027512633,
      "grad_norm": 0.37799885869026184,
      "learning_rate": 5.484596526386198e-06,
      "loss": 0.3992,
      "step": 1240
    },
    {
      "epoch": 1.045199326221224,
      "grad_norm": 0.43437978625297546,
      "learning_rate": 5.4772767099465044e-06,
      "loss": 0.4422,
      "step": 1241
    },
    {
      "epoch": 1.0460415496911848,
      "grad_norm": 0.4716758131980896,
      "learning_rate": 5.469955861060653e-06,
      "loss": 0.4369,
      "step": 1242
    },
    {
      "epoch": 1.0468837731611453,
      "grad_norm": 0.38298293948173523,
      "learning_rate": 5.46263399556512e-06,
      "loss": 0.3741,
      "step": 1243
    },
    {
      "epoch": 1.047725996631106,
      "grad_norm": 0.4743485748767853,
      "learning_rate": 5.455311129298586e-06,
      "loss": 0.4507,
      "step": 1244
    },
    {
      "epoch": 1.0485682201010669,
      "grad_norm": 0.42409592866897583,
      "learning_rate": 5.447987278101891e-06,
      "loss": 0.4255,
      "step": 1245
    },
    {
      "epoch": 1.0494104435710274,
      "grad_norm": 0.5084867477416992,
      "learning_rate": 5.44066245781801e-06,
      "loss": 0.4418,
      "step": 1246
    },
    {
      "epoch": 1.0502526670409882,
      "grad_norm": 0.41715988516807556,
      "learning_rate": 5.43333668429201e-06,
      "loss": 0.4299,
      "step": 1247
    },
    {
      "epoch": 1.051094890510949,
      "grad_norm": 0.41164112091064453,
      "learning_rate": 5.426009973371026e-06,
      "loss": 0.4459,
      "step": 1248
    },
    {
      "epoch": 1.0519371139809095,
      "grad_norm": 0.46860241889953613,
      "learning_rate": 5.418682340904211e-06,
      "loss": 0.427,
      "step": 1249
    },
    {
      "epoch": 1.0527793374508703,
      "grad_norm": 0.38353657722473145,
      "learning_rate": 5.4113538027427245e-06,
      "loss": 0.3924,
      "step": 1250
    },
    {
      "epoch": 1.053621560920831,
      "grad_norm": 0.4072748124599457,
      "learning_rate": 5.404024374739675e-06,
      "loss": 0.4296,
      "step": 1251
    },
    {
      "epoch": 1.0544637843907916,
      "grad_norm": 0.46135661005973816,
      "learning_rate": 5.396694072750099e-06,
      "loss": 0.4647,
      "step": 1252
    },
    {
      "epoch": 1.0553060078607523,
      "grad_norm": 0.38631388545036316,
      "learning_rate": 5.389362912630924e-06,
      "loss": 0.4121,
      "step": 1253
    },
    {
      "epoch": 1.0561482313307131,
      "grad_norm": 0.4012986719608307,
      "learning_rate": 5.382030910240936e-06,
      "loss": 0.3997,
      "step": 1254
    },
    {
      "epoch": 1.0569904548006739,
      "grad_norm": 0.5264915227890015,
      "learning_rate": 5.374698081440737e-06,
      "loss": 0.4693,
      "step": 1255
    },
    {
      "epoch": 1.0578326782706344,
      "grad_norm": 0.39475101232528687,
      "learning_rate": 5.367364442092724e-06,
      "loss": 0.4076,
      "step": 1256
    },
    {
      "epoch": 1.0586749017405952,
      "grad_norm": 0.4453893005847931,
      "learning_rate": 5.360030008061041e-06,
      "loss": 0.4308,
      "step": 1257
    },
    {
      "epoch": 1.059517125210556,
      "grad_norm": 0.4451258182525635,
      "learning_rate": 5.352694795211555e-06,
      "loss": 0.4668,
      "step": 1258
    },
    {
      "epoch": 1.0603593486805165,
      "grad_norm": 0.382305771112442,
      "learning_rate": 5.345358819411818e-06,
      "loss": 0.402,
      "step": 1259
    },
    {
      "epoch": 1.0612015721504773,
      "grad_norm": 0.38515427708625793,
      "learning_rate": 5.338022096531028e-06,
      "loss": 0.4313,
      "step": 1260
    },
    {
      "epoch": 1.062043795620438,
      "grad_norm": 0.42054370045661926,
      "learning_rate": 5.330684642440003e-06,
      "loss": 0.4198,
      "step": 1261
    },
    {
      "epoch": 1.0628860190903986,
      "grad_norm": 0.415956974029541,
      "learning_rate": 5.3233464730111426e-06,
      "loss": 0.41,
      "step": 1262
    },
    {
      "epoch": 1.0637282425603594,
      "grad_norm": 0.4032970666885376,
      "learning_rate": 5.316007604118393e-06,
      "loss": 0.4294,
      "step": 1263
    },
    {
      "epoch": 1.0645704660303201,
      "grad_norm": 0.37261897325515747,
      "learning_rate": 5.308668051637213e-06,
      "loss": 0.4296,
      "step": 1264
    },
    {
      "epoch": 1.0654126895002807,
      "grad_norm": 0.42661765217781067,
      "learning_rate": 5.301327831444542e-06,
      "loss": 0.3911,
      "step": 1265
    },
    {
      "epoch": 1.0662549129702414,
      "grad_norm": 0.4209122657775879,
      "learning_rate": 5.29398695941876e-06,
      "loss": 0.4238,
      "step": 1266
    },
    {
      "epoch": 1.0670971364402022,
      "grad_norm": 0.4066437780857086,
      "learning_rate": 5.28664545143966e-06,
      "loss": 0.4434,
      "step": 1267
    },
    {
      "epoch": 1.0679393599101628,
      "grad_norm": 0.39098259806632996,
      "learning_rate": 5.279303323388413e-06,
      "loss": 0.4248,
      "step": 1268
    },
    {
      "epoch": 1.0687815833801235,
      "grad_norm": 0.5154629349708557,
      "learning_rate": 5.271960591147526e-06,
      "loss": 0.4298,
      "step": 1269
    },
    {
      "epoch": 1.0696238068500843,
      "grad_norm": 0.4078999161720276,
      "learning_rate": 5.2646172706008154e-06,
      "loss": 0.4633,
      "step": 1270
    },
    {
      "epoch": 1.0704660303200448,
      "grad_norm": 0.36935627460479736,
      "learning_rate": 5.257273377633373e-06,
      "loss": 0.3708,
      "step": 1271
    },
    {
      "epoch": 1.0713082537900056,
      "grad_norm": 0.40122342109680176,
      "learning_rate": 5.249928928131523e-06,
      "loss": 0.4267,
      "step": 1272
    },
    {
      "epoch": 1.0721504772599664,
      "grad_norm": 0.41813716292381287,
      "learning_rate": 5.242583937982798e-06,
      "loss": 0.4411,
      "step": 1273
    },
    {
      "epoch": 1.072992700729927,
      "grad_norm": 0.3978656232357025,
      "learning_rate": 5.235238423075899e-06,
      "loss": 0.4078,
      "step": 1274
    },
    {
      "epoch": 1.0738349241998877,
      "grad_norm": 0.4133564531803131,
      "learning_rate": 5.227892399300662e-06,
      "loss": 0.419,
      "step": 1275
    },
    {
      "epoch": 1.0746771476698485,
      "grad_norm": 0.38495489954948425,
      "learning_rate": 5.220545882548024e-06,
      "loss": 0.4521,
      "step": 1276
    },
    {
      "epoch": 1.075519371139809,
      "grad_norm": 0.4071832299232483,
      "learning_rate": 5.213198888709989e-06,
      "loss": 0.4277,
      "step": 1277
    },
    {
      "epoch": 1.0763615946097698,
      "grad_norm": 0.37748607993125916,
      "learning_rate": 5.20585143367959e-06,
      "loss": 0.4226,
      "step": 1278
    },
    {
      "epoch": 1.0772038180797305,
      "grad_norm": 0.40977486968040466,
      "learning_rate": 5.198503533350859e-06,
      "loss": 0.4389,
      "step": 1279
    },
    {
      "epoch": 1.078046041549691,
      "grad_norm": 0.3592870533466339,
      "learning_rate": 5.191155203618796e-06,
      "loss": 0.4132,
      "step": 1280
    },
    {
      "epoch": 1.0788882650196518,
      "grad_norm": 0.43515047430992126,
      "learning_rate": 5.183806460379324e-06,
      "loss": 0.4098,
      "step": 1281
    },
    {
      "epoch": 1.0797304884896126,
      "grad_norm": 0.442377507686615,
      "learning_rate": 5.176457319529264e-06,
      "loss": 0.4365,
      "step": 1282
    },
    {
      "epoch": 1.0805727119595732,
      "grad_norm": 0.35313743352890015,
      "learning_rate": 5.169107796966293e-06,
      "loss": 0.39,
      "step": 1283
    },
    {
      "epoch": 1.081414935429534,
      "grad_norm": 0.3901134729385376,
      "learning_rate": 5.161757908588917e-06,
      "loss": 0.4349,
      "step": 1284
    },
    {
      "epoch": 1.0822571588994947,
      "grad_norm": 0.40993091464042664,
      "learning_rate": 5.154407670296434e-06,
      "loss": 0.4219,
      "step": 1285
    },
    {
      "epoch": 1.0830993823694555,
      "grad_norm": 0.44093966484069824,
      "learning_rate": 5.147057097988898e-06,
      "loss": 0.4236,
      "step": 1286
    },
    {
      "epoch": 1.083941605839416,
      "grad_norm": 0.39364418387413025,
      "learning_rate": 5.139706207567082e-06,
      "loss": 0.4084,
      "step": 1287
    },
    {
      "epoch": 1.0847838293093768,
      "grad_norm": 0.5194532871246338,
      "learning_rate": 5.132355014932455e-06,
      "loss": 0.4472,
      "step": 1288
    },
    {
      "epoch": 1.0856260527793375,
      "grad_norm": 0.5093920230865479,
      "learning_rate": 5.125003535987131e-06,
      "loss": 0.4332,
      "step": 1289
    },
    {
      "epoch": 1.086468276249298,
      "grad_norm": 0.40258532762527466,
      "learning_rate": 5.1176517866338495e-06,
      "loss": 0.4272,
      "step": 1290
    },
    {
      "epoch": 1.0873104997192589,
      "grad_norm": 0.4900413155555725,
      "learning_rate": 5.1102997827759324e-06,
      "loss": 0.4557,
      "step": 1291
    },
    {
      "epoch": 1.0881527231892196,
      "grad_norm": 0.4302629828453064,
      "learning_rate": 5.102947540317254e-06,
      "loss": 0.3953,
      "step": 1292
    },
    {
      "epoch": 1.0889949466591802,
      "grad_norm": 0.5192166566848755,
      "learning_rate": 5.0955950751622e-06,
      "loss": 0.4309,
      "step": 1293
    },
    {
      "epoch": 1.089837170129141,
      "grad_norm": 0.3442176878452301,
      "learning_rate": 5.088242403215644e-06,
      "loss": 0.3924,
      "step": 1294
    },
    {
      "epoch": 1.0906793935991017,
      "grad_norm": 0.4747227430343628,
      "learning_rate": 5.080889540382903e-06,
      "loss": 0.4353,
      "step": 1295
    },
    {
      "epoch": 1.0915216170690623,
      "grad_norm": 0.3822692334651947,
      "learning_rate": 5.073536502569708e-06,
      "loss": 0.4152,
      "step": 1296
    },
    {
      "epoch": 1.092363840539023,
      "grad_norm": 0.37425655126571655,
      "learning_rate": 5.06618330568217e-06,
      "loss": 0.4147,
      "step": 1297
    },
    {
      "epoch": 1.0932060640089838,
      "grad_norm": 0.38344645500183105,
      "learning_rate": 5.058829965626742e-06,
      "loss": 0.4815,
      "step": 1298
    },
    {
      "epoch": 1.0940482874789443,
      "grad_norm": 0.35533738136291504,
      "learning_rate": 5.051476498310185e-06,
      "loss": 0.3583,
      "step": 1299
    },
    {
      "epoch": 1.094890510948905,
      "grad_norm": 0.36476194858551025,
      "learning_rate": 5.0441229196395416e-06,
      "loss": 0.435,
      "step": 1300
    },
    {
      "epoch": 1.0957327344188659,
      "grad_norm": 0.40451711416244507,
      "learning_rate": 5.036769245522087e-06,
      "loss": 0.4558,
      "step": 1301
    },
    {
      "epoch": 1.0965749578888264,
      "grad_norm": 0.3703981041908264,
      "learning_rate": 5.029415491865311e-06,
      "loss": 0.4173,
      "step": 1302
    },
    {
      "epoch": 1.0974171813587872,
      "grad_norm": 0.34457358717918396,
      "learning_rate": 5.022061674576871e-06,
      "loss": 0.3888,
      "step": 1303
    },
    {
      "epoch": 1.098259404828748,
      "grad_norm": 0.36849093437194824,
      "learning_rate": 5.014707809564562e-06,
      "loss": 0.431,
      "step": 1304
    },
    {
      "epoch": 1.0991016282987085,
      "grad_norm": 0.3640636205673218,
      "learning_rate": 5.007353912736281e-06,
      "loss": 0.4371,
      "step": 1305
    },
    {
      "epoch": 1.0999438517686693,
      "grad_norm": 0.34848612546920776,
      "learning_rate": 5e-06,
      "loss": 0.3975,
      "step": 1306
    },
    {
      "epoch": 1.10078607523863,
      "grad_norm": 0.38919609785079956,
      "learning_rate": 4.99264608726372e-06,
      "loss": 0.4367,
      "step": 1307
    },
    {
      "epoch": 1.1016282987085906,
      "grad_norm": 0.3577197194099426,
      "learning_rate": 4.98529219043544e-06,
      "loss": 0.4055,
      "step": 1308
    },
    {
      "epoch": 1.1024705221785513,
      "grad_norm": 0.47886934876441956,
      "learning_rate": 4.97793832542313e-06,
      "loss": 0.4841,
      "step": 1309
    },
    {
      "epoch": 1.1033127456485121,
      "grad_norm": 0.43198925256729126,
      "learning_rate": 4.97058450813469e-06,
      "loss": 0.4306,
      "step": 1310
    },
    {
      "epoch": 1.1041549691184729,
      "grad_norm": 0.38905981183052063,
      "learning_rate": 4.9632307544779135e-06,
      "loss": 0.392,
      "step": 1311
    },
    {
      "epoch": 1.1049971925884334,
      "grad_norm": 0.43636444211006165,
      "learning_rate": 4.955877080360462e-06,
      "loss": 0.472,
      "step": 1312
    },
    {
      "epoch": 1.1058394160583942,
      "grad_norm": 0.3916133940219879,
      "learning_rate": 4.948523501689816e-06,
      "loss": 0.3959,
      "step": 1313
    },
    {
      "epoch": 1.1066816395283547,
      "grad_norm": 0.49185019731521606,
      "learning_rate": 4.94117003437326e-06,
      "loss": 0.4754,
      "step": 1314
    },
    {
      "epoch": 1.1075238629983155,
      "grad_norm": 0.4027460515499115,
      "learning_rate": 4.933816694317832e-06,
      "loss": 0.4189,
      "step": 1315
    },
    {
      "epoch": 1.1083660864682763,
      "grad_norm": 0.33980557322502136,
      "learning_rate": 4.926463497430293e-06,
      "loss": 0.4071,
      "step": 1316
    },
    {
      "epoch": 1.109208309938237,
      "grad_norm": 0.39617761969566345,
      "learning_rate": 4.919110459617097e-06,
      "loss": 0.3947,
      "step": 1317
    },
    {
      "epoch": 1.1100505334081976,
      "grad_norm": 0.43997520208358765,
      "learning_rate": 4.911757596784358e-06,
      "loss": 0.4018,
      "step": 1318
    },
    {
      "epoch": 1.1108927568781584,
      "grad_norm": 0.3866608440876007,
      "learning_rate": 4.9044049248378025e-06,
      "loss": 0.414,
      "step": 1319
    },
    {
      "epoch": 1.1117349803481191,
      "grad_norm": 0.3571322560310364,
      "learning_rate": 4.897052459682749e-06,
      "loss": 0.4262,
      "step": 1320
    },
    {
      "epoch": 1.1125772038180797,
      "grad_norm": 0.4458356499671936,
      "learning_rate": 4.889700217224068e-06,
      "loss": 0.4195,
      "step": 1321
    },
    {
      "epoch": 1.1134194272880404,
      "grad_norm": 0.44022485613822937,
      "learning_rate": 4.882348213366152e-06,
      "loss": 0.3953,
      "step": 1322
    },
    {
      "epoch": 1.1142616507580012,
      "grad_norm": 0.37846022844314575,
      "learning_rate": 4.8749964640128705e-06,
      "loss": 0.4582,
      "step": 1323
    },
    {
      "epoch": 1.1151038742279618,
      "grad_norm": 0.34642091393470764,
      "learning_rate": 4.867644985067548e-06,
      "loss": 0.4288,
      "step": 1324
    },
    {
      "epoch": 1.1159460976979225,
      "grad_norm": 0.40805965662002563,
      "learning_rate": 4.860293792432919e-06,
      "loss": 0.4083,
      "step": 1325
    },
    {
      "epoch": 1.1167883211678833,
      "grad_norm": 0.4582529664039612,
      "learning_rate": 4.8529429020111035e-06,
      "loss": 0.4456,
      "step": 1326
    },
    {
      "epoch": 1.1176305446378438,
      "grad_norm": 0.34449493885040283,
      "learning_rate": 4.845592329703568e-06,
      "loss": 0.4067,
      "step": 1327
    },
    {
      "epoch": 1.1184727681078046,
      "grad_norm": 0.3818627595901489,
      "learning_rate": 4.838242091411085e-06,
      "loss": 0.4472,
      "step": 1328
    },
    {
      "epoch": 1.1193149915777654,
      "grad_norm": 0.39614325761795044,
      "learning_rate": 4.830892203033708e-06,
      "loss": 0.4415,
      "step": 1329
    },
    {
      "epoch": 1.120157215047726,
      "grad_norm": 0.3824338912963867,
      "learning_rate": 4.823542680470738e-06,
      "loss": 0.4077,
      "step": 1330
    },
    {
      "epoch": 1.1209994385176867,
      "grad_norm": 0.36216917634010315,
      "learning_rate": 4.816193539620678e-06,
      "loss": 0.4184,
      "step": 1331
    },
    {
      "epoch": 1.1218416619876475,
      "grad_norm": 0.3573080897331238,
      "learning_rate": 4.808844796381205e-06,
      "loss": 0.4049,
      "step": 1332
    },
    {
      "epoch": 1.122683885457608,
      "grad_norm": 0.4476146399974823,
      "learning_rate": 4.801496466649143e-06,
      "loss": 0.4512,
      "step": 1333
    },
    {
      "epoch": 1.1235261089275688,
      "grad_norm": 0.4225529730319977,
      "learning_rate": 4.794148566320412e-06,
      "loss": 0.4492,
      "step": 1334
    },
    {
      "epoch": 1.1243683323975295,
      "grad_norm": 0.3997476398944855,
      "learning_rate": 4.786801111290013e-06,
      "loss": 0.4287,
      "step": 1335
    },
    {
      "epoch": 1.12521055586749,
      "grad_norm": 0.3969510495662689,
      "learning_rate": 4.779454117451978e-06,
      "loss": 0.4023,
      "step": 1336
    },
    {
      "epoch": 1.1260527793374508,
      "grad_norm": 0.44372403621673584,
      "learning_rate": 4.772107600699339e-06,
      "loss": 0.3924,
      "step": 1337
    },
    {
      "epoch": 1.1268950028074116,
      "grad_norm": 0.4244571924209595,
      "learning_rate": 4.7647615769241e-06,
      "loss": 0.4715,
      "step": 1338
    },
    {
      "epoch": 1.1277372262773722,
      "grad_norm": 0.3654693067073822,
      "learning_rate": 4.757416062017203e-06,
      "loss": 0.4159,
      "step": 1339
    },
    {
      "epoch": 1.128579449747333,
      "grad_norm": 0.3872848451137543,
      "learning_rate": 4.750071071868478e-06,
      "loss": 0.4328,
      "step": 1340
    },
    {
      "epoch": 1.1294216732172937,
      "grad_norm": 0.42090293765068054,
      "learning_rate": 4.7427266223666295e-06,
      "loss": 0.423,
      "step": 1341
    },
    {
      "epoch": 1.1302638966872545,
      "grad_norm": 0.4084320366382599,
      "learning_rate": 4.7353827293991845e-06,
      "loss": 0.4207,
      "step": 1342
    },
    {
      "epoch": 1.131106120157215,
      "grad_norm": 0.3957410454750061,
      "learning_rate": 4.728039408852475e-06,
      "loss": 0.4396,
      "step": 1343
    },
    {
      "epoch": 1.1319483436271758,
      "grad_norm": 0.3706952631473541,
      "learning_rate": 4.720696676611589e-06,
      "loss": 0.3861,
      "step": 1344
    },
    {
      "epoch": 1.1327905670971363,
      "grad_norm": 0.43142303824424744,
      "learning_rate": 4.713354548560342e-06,
      "loss": 0.4205,
      "step": 1345
    },
    {
      "epoch": 1.133632790567097,
      "grad_norm": 0.4346259534358978,
      "learning_rate": 4.706013040581242e-06,
      "loss": 0.4575,
      "step": 1346
    },
    {
      "epoch": 1.1344750140370579,
      "grad_norm": 0.37975019216537476,
      "learning_rate": 4.698672168555461e-06,
      "loss": 0.4511,
      "step": 1347
    },
    {
      "epoch": 1.1353172375070186,
      "grad_norm": 0.42639872431755066,
      "learning_rate": 4.691331948362789e-06,
      "loss": 0.4287,
      "step": 1348
    },
    {
      "epoch": 1.1361594609769792,
      "grad_norm": 0.43959951400756836,
      "learning_rate": 4.683992395881609e-06,
      "loss": 0.4146,
      "step": 1349
    },
    {
      "epoch": 1.13700168444694,
      "grad_norm": 0.4588503837585449,
      "learning_rate": 4.676653526988858e-06,
      "loss": 0.4745,
      "step": 1350
    },
    {
      "epoch": 1.1378439079169007,
      "grad_norm": 0.3783304989337921,
      "learning_rate": 4.669315357559999e-06,
      "loss": 0.4233,
      "step": 1351
    },
    {
      "epoch": 1.1386861313868613,
      "grad_norm": 0.4025064706802368,
      "learning_rate": 4.661977903468974e-06,
      "loss": 0.4319,
      "step": 1352
    },
    {
      "epoch": 1.139528354856822,
      "grad_norm": 0.4538826048374176,
      "learning_rate": 4.654641180588185e-06,
      "loss": 0.4565,
      "step": 1353
    },
    {
      "epoch": 1.1403705783267828,
      "grad_norm": 0.3892016112804413,
      "learning_rate": 4.647305204788445e-06,
      "loss": 0.4043,
      "step": 1354
    },
    {
      "epoch": 1.1412128017967433,
      "grad_norm": 0.397941529750824,
      "learning_rate": 4.63996999193896e-06,
      "loss": 0.4007,
      "step": 1355
    },
    {
      "epoch": 1.142055025266704,
      "grad_norm": 0.44216030836105347,
      "learning_rate": 4.632635557907277e-06,
      "loss": 0.4039,
      "step": 1356
    },
    {
      "epoch": 1.1428972487366649,
      "grad_norm": 0.4140279293060303,
      "learning_rate": 4.625301918559264e-06,
      "loss": 0.4139,
      "step": 1357
    },
    {
      "epoch": 1.1437394722066254,
      "grad_norm": 0.4681102931499481,
      "learning_rate": 4.617969089759066e-06,
      "loss": 0.4267,
      "step": 1358
    },
    {
      "epoch": 1.1445816956765862,
      "grad_norm": 0.42131906747817993,
      "learning_rate": 4.610637087369076e-06,
      "loss": 0.4175,
      "step": 1359
    },
    {
      "epoch": 1.145423919146547,
      "grad_norm": 0.4275093078613281,
      "learning_rate": 4.603305927249902e-06,
      "loss": 0.409,
      "step": 1360
    },
    {
      "epoch": 1.1462661426165075,
      "grad_norm": 0.4035080373287201,
      "learning_rate": 4.595975625260327e-06,
      "loss": 0.43,
      "step": 1361
    },
    {
      "epoch": 1.1471083660864683,
      "grad_norm": 0.45339909195899963,
      "learning_rate": 4.588646197257278e-06,
      "loss": 0.4418,
      "step": 1362
    },
    {
      "epoch": 1.147950589556429,
      "grad_norm": 0.4362179636955261,
      "learning_rate": 4.5813176590957896e-06,
      "loss": 0.4334,
      "step": 1363
    },
    {
      "epoch": 1.1487928130263896,
      "grad_norm": 0.3552556037902832,
      "learning_rate": 4.573990026628976e-06,
      "loss": 0.3715,
      "step": 1364
    },
    {
      "epoch": 1.1496350364963503,
      "grad_norm": 0.4500739574432373,
      "learning_rate": 4.5666633157079915e-06,
      "loss": 0.457,
      "step": 1365
    },
    {
      "epoch": 1.1504772599663111,
      "grad_norm": 0.42247772216796875,
      "learning_rate": 4.559337542181993e-06,
      "loss": 0.4038,
      "step": 1366
    },
    {
      "epoch": 1.1513194834362717,
      "grad_norm": 0.36136382818222046,
      "learning_rate": 4.55201272189811e-06,
      "loss": 0.4486,
      "step": 1367
    },
    {
      "epoch": 1.1521617069062324,
      "grad_norm": 0.4463794529438019,
      "learning_rate": 4.544688870701416e-06,
      "loss": 0.4356,
      "step": 1368
    },
    {
      "epoch": 1.1530039303761932,
      "grad_norm": 0.40902334451675415,
      "learning_rate": 4.537366004434882e-06,
      "loss": 0.4228,
      "step": 1369
    },
    {
      "epoch": 1.1538461538461537,
      "grad_norm": 0.40177538990974426,
      "learning_rate": 4.53004413893935e-06,
      "loss": 0.4177,
      "step": 1370
    },
    {
      "epoch": 1.1546883773161145,
      "grad_norm": 0.3983672261238098,
      "learning_rate": 4.522723290053496e-06,
      "loss": 0.4249,
      "step": 1371
    },
    {
      "epoch": 1.1555306007860753,
      "grad_norm": 0.48223260045051575,
      "learning_rate": 4.5154034736138035e-06,
      "loss": 0.4478,
      "step": 1372
    },
    {
      "epoch": 1.156372824256036,
      "grad_norm": 0.4085688292980194,
      "learning_rate": 4.508084705454513e-06,
      "loss": 0.4411,
      "step": 1373
    },
    {
      "epoch": 1.1572150477259966,
      "grad_norm": 0.42653316259384155,
      "learning_rate": 4.500767001407604e-06,
      "loss": 0.3852,
      "step": 1374
    },
    {
      "epoch": 1.1580572711959574,
      "grad_norm": 0.462704598903656,
      "learning_rate": 4.49345037730275e-06,
      "loss": 0.3971,
      "step": 1375
    },
    {
      "epoch": 1.158899494665918,
      "grad_norm": 0.44343364238739014,
      "learning_rate": 4.486134848967292e-06,
      "loss": 0.4596,
      "step": 1376
    },
    {
      "epoch": 1.1597417181358787,
      "grad_norm": 0.3744649589061737,
      "learning_rate": 4.4788204322262e-06,
      "loss": 0.4338,
      "step": 1377
    },
    {
      "epoch": 1.1605839416058394,
      "grad_norm": 0.4244900345802307,
      "learning_rate": 4.471507142902036e-06,
      "loss": 0.449,
      "step": 1378
    },
    {
      "epoch": 1.1614261650758002,
      "grad_norm": 0.4528992772102356,
      "learning_rate": 4.464194996814927e-06,
      "loss": 0.4587,
      "step": 1379
    },
    {
      "epoch": 1.1622683885457608,
      "grad_norm": 0.35308781266212463,
      "learning_rate": 4.4568840097825225e-06,
      "loss": 0.4156,
      "step": 1380
    },
    {
      "epoch": 1.1631106120157215,
      "grad_norm": 0.36636441946029663,
      "learning_rate": 4.449574197619973e-06,
      "loss": 0.3959,
      "step": 1381
    },
    {
      "epoch": 1.1639528354856823,
      "grad_norm": 0.43213045597076416,
      "learning_rate": 4.4422655761398785e-06,
      "loss": 0.4569,
      "step": 1382
    },
    {
      "epoch": 1.1647950589556428,
      "grad_norm": 0.4300551414489746,
      "learning_rate": 4.434958161152269e-06,
      "loss": 0.4094,
      "step": 1383
    },
    {
      "epoch": 1.1656372824256036,
      "grad_norm": 0.3773098289966583,
      "learning_rate": 4.427651968464559e-06,
      "loss": 0.4419,
      "step": 1384
    },
    {
      "epoch": 1.1664795058955644,
      "grad_norm": 0.37417295575141907,
      "learning_rate": 4.420347013881526e-06,
      "loss": 0.3953,
      "step": 1385
    },
    {
      "epoch": 1.167321729365525,
      "grad_norm": 0.44429072737693787,
      "learning_rate": 4.413043313205266e-06,
      "loss": 0.4419,
      "step": 1386
    },
    {
      "epoch": 1.1681639528354857,
      "grad_norm": 0.3540771007537842,
      "learning_rate": 4.4057408822351625e-06,
      "loss": 0.3823,
      "step": 1387
    },
    {
      "epoch": 1.1690061763054465,
      "grad_norm": 0.35412126779556274,
      "learning_rate": 4.3984397367678475e-06,
      "loss": 0.4274,
      "step": 1388
    },
    {
      "epoch": 1.169848399775407,
      "grad_norm": 0.35190722346305847,
      "learning_rate": 4.3911398925971824e-06,
      "loss": 0.3863,
      "step": 1389
    },
    {
      "epoch": 1.1706906232453678,
      "grad_norm": 0.37139928340911865,
      "learning_rate": 4.383841365514208e-06,
      "loss": 0.4107,
      "step": 1390
    },
    {
      "epoch": 1.1715328467153285,
      "grad_norm": 0.35380199551582336,
      "learning_rate": 4.376544171307112e-06,
      "loss": 0.3999,
      "step": 1391
    },
    {
      "epoch": 1.172375070185289,
      "grad_norm": 0.39304855465888977,
      "learning_rate": 4.369248325761205e-06,
      "loss": 0.4501,
      "step": 1392
    },
    {
      "epoch": 1.1732172936552498,
      "grad_norm": 0.3436487317085266,
      "learning_rate": 4.3619538446588804e-06,
      "loss": 0.3927,
      "step": 1393
    },
    {
      "epoch": 1.1740595171252106,
      "grad_norm": 0.38732802867889404,
      "learning_rate": 4.354660743779575e-06,
      "loss": 0.4492,
      "step": 1394
    },
    {
      "epoch": 1.1749017405951712,
      "grad_norm": 0.35570380091667175,
      "learning_rate": 4.347369038899744e-06,
      "loss": 0.4264,
      "step": 1395
    },
    {
      "epoch": 1.175743964065132,
      "grad_norm": 0.3778011202812195,
      "learning_rate": 4.340078745792818e-06,
      "loss": 0.45,
      "step": 1396
    },
    {
      "epoch": 1.1765861875350927,
      "grad_norm": 0.371414452791214,
      "learning_rate": 4.332789880229182e-06,
      "loss": 0.4417,
      "step": 1397
    },
    {
      "epoch": 1.1774284110050532,
      "grad_norm": 0.3465861976146698,
      "learning_rate": 4.325502457976126e-06,
      "loss": 0.4152,
      "step": 1398
    },
    {
      "epoch": 1.178270634475014,
      "grad_norm": 0.3613329529762268,
      "learning_rate": 4.3182164947978215e-06,
      "loss": 0.4243,
      "step": 1399
    },
    {
      "epoch": 1.1791128579449748,
      "grad_norm": 0.4610479772090912,
      "learning_rate": 4.310932006455276e-06,
      "loss": 0.425,
      "step": 1400
    },
    {
      "epoch": 1.1799550814149353,
      "grad_norm": 0.3726794719696045,
      "learning_rate": 4.303649008706319e-06,
      "loss": 0.4447,
      "step": 1401
    },
    {
      "epoch": 1.180797304884896,
      "grad_norm": 0.35423779487609863,
      "learning_rate": 4.296367517305548e-06,
      "loss": 0.3923,
      "step": 1402
    },
    {
      "epoch": 1.1816395283548569,
      "grad_norm": 0.4068028926849365,
      "learning_rate": 4.289087548004302e-06,
      "loss": 0.4491,
      "step": 1403
    },
    {
      "epoch": 1.1824817518248176,
      "grad_norm": 0.37101542949676514,
      "learning_rate": 4.281809116550629e-06,
      "loss": 0.4562,
      "step": 1404
    },
    {
      "epoch": 1.1833239752947782,
      "grad_norm": 0.3850048780441284,
      "learning_rate": 4.274532238689248e-06,
      "loss": 0.4204,
      "step": 1405
    },
    {
      "epoch": 1.184166198764739,
      "grad_norm": 0.434385746717453,
      "learning_rate": 4.267256930161523e-06,
      "loss": 0.4507,
      "step": 1406
    },
    {
      "epoch": 1.1850084222346995,
      "grad_norm": 0.352290540933609,
      "learning_rate": 4.2599832067054185e-06,
      "loss": 0.4258,
      "step": 1407
    },
    {
      "epoch": 1.1858506457046603,
      "grad_norm": 0.3564905524253845,
      "learning_rate": 4.252711084055468e-06,
      "loss": 0.3917,
      "step": 1408
    },
    {
      "epoch": 1.186692869174621,
      "grad_norm": 0.4022648334503174,
      "learning_rate": 4.245440577942745e-06,
      "loss": 0.4242,
      "step": 1409
    },
    {
      "epoch": 1.1875350926445818,
      "grad_norm": 0.42418643832206726,
      "learning_rate": 4.238171704094833e-06,
      "loss": 0.484,
      "step": 1410
    },
    {
      "epoch": 1.1883773161145423,
      "grad_norm": 0.3482394516468048,
      "learning_rate": 4.230904478235772e-06,
      "loss": 0.3905,
      "step": 1411
    },
    {
      "epoch": 1.189219539584503,
      "grad_norm": 0.37722957134246826,
      "learning_rate": 4.223638916086044e-06,
      "loss": 0.4314,
      "step": 1412
    },
    {
      "epoch": 1.1900617630544639,
      "grad_norm": 0.3816016912460327,
      "learning_rate": 4.216375033362529e-06,
      "loss": 0.4173,
      "step": 1413
    },
    {
      "epoch": 1.1909039865244244,
      "grad_norm": 0.3754120171070099,
      "learning_rate": 4.209112845778481e-06,
      "loss": 0.4326,
      "step": 1414
    },
    {
      "epoch": 1.1917462099943852,
      "grad_norm": 0.39165958762168884,
      "learning_rate": 4.201852369043478e-06,
      "loss": 0.4142,
      "step": 1415
    },
    {
      "epoch": 1.192588433464346,
      "grad_norm": 0.4137382209300995,
      "learning_rate": 4.194593618863404e-06,
      "loss": 0.4407,
      "step": 1416
    },
    {
      "epoch": 1.1934306569343065,
      "grad_norm": 0.38633430004119873,
      "learning_rate": 4.187336610940402e-06,
      "loss": 0.4528,
      "step": 1417
    },
    {
      "epoch": 1.1942728804042673,
      "grad_norm": 0.3496246337890625,
      "learning_rate": 4.180081360972852e-06,
      "loss": 0.3809,
      "step": 1418
    },
    {
      "epoch": 1.195115103874228,
      "grad_norm": 0.3800692558288574,
      "learning_rate": 4.17282788465533e-06,
      "loss": 0.43,
      "step": 1419
    },
    {
      "epoch": 1.1959573273441886,
      "grad_norm": 0.3594410717487335,
      "learning_rate": 4.165576197678571e-06,
      "loss": 0.4249,
      "step": 1420
    },
    {
      "epoch": 1.1967995508141493,
      "grad_norm": 0.43811219930648804,
      "learning_rate": 4.158326315729441e-06,
      "loss": 0.4501,
      "step": 1421
    },
    {
      "epoch": 1.1976417742841101,
      "grad_norm": 0.4053996503353119,
      "learning_rate": 4.151078254490908e-06,
      "loss": 0.4191,
      "step": 1422
    },
    {
      "epoch": 1.1984839977540707,
      "grad_norm": 0.3828449249267578,
      "learning_rate": 4.143832029641992e-06,
      "loss": 0.4057,
      "step": 1423
    },
    {
      "epoch": 1.1993262212240314,
      "grad_norm": 0.3450027108192444,
      "learning_rate": 4.136587656857744e-06,
      "loss": 0.3919,
      "step": 1424
    },
    {
      "epoch": 1.2001684446939922,
      "grad_norm": 0.4331691861152649,
      "learning_rate": 4.12934515180921e-06,
      "loss": 0.4389,
      "step": 1425
    },
    {
      "epoch": 1.2010106681639527,
      "grad_norm": 0.3931390643119812,
      "learning_rate": 4.122104530163397e-06,
      "loss": 0.4044,
      "step": 1426
    },
    {
      "epoch": 1.2018528916339135,
      "grad_norm": 0.39936479926109314,
      "learning_rate": 4.1148658075832325e-06,
      "loss": 0.4365,
      "step": 1427
    },
    {
      "epoch": 1.2026951151038743,
      "grad_norm": 0.35932451486587524,
      "learning_rate": 4.107628999727542e-06,
      "loss": 0.4776,
      "step": 1428
    },
    {
      "epoch": 1.203537338573835,
      "grad_norm": 0.3610362708568573,
      "learning_rate": 4.100394122251002e-06,
      "loss": 0.3541,
      "step": 1429
    },
    {
      "epoch": 1.2043795620437956,
      "grad_norm": 0.3545578420162201,
      "learning_rate": 4.09316119080412e-06,
      "loss": 0.3965,
      "step": 1430
    },
    {
      "epoch": 1.2052217855137564,
      "grad_norm": 0.4379821717739105,
      "learning_rate": 4.085930221033194e-06,
      "loss": 0.4491,
      "step": 1431
    },
    {
      "epoch": 1.206064008983717,
      "grad_norm": 0.36236828565597534,
      "learning_rate": 4.0787012285802695e-06,
      "loss": 0.4302,
      "step": 1432
    },
    {
      "epoch": 1.2069062324536777,
      "grad_norm": 0.3564569056034088,
      "learning_rate": 4.0714742290831264e-06,
      "loss": 0.4277,
      "step": 1433
    },
    {
      "epoch": 1.2077484559236384,
      "grad_norm": 0.3595205247402191,
      "learning_rate": 4.064249238175223e-06,
      "loss": 0.4061,
      "step": 1434
    },
    {
      "epoch": 1.2085906793935992,
      "grad_norm": 0.42876699566841125,
      "learning_rate": 4.057026271485682e-06,
      "loss": 0.4471,
      "step": 1435
    },
    {
      "epoch": 1.2094329028635598,
      "grad_norm": 0.3790203034877777,
      "learning_rate": 4.04980534463924e-06,
      "loss": 0.4162,
      "step": 1436
    },
    {
      "epoch": 1.2102751263335205,
      "grad_norm": 0.3660489022731781,
      "learning_rate": 4.042586473256226e-06,
      "loss": 0.4181,
      "step": 1437
    },
    {
      "epoch": 1.211117349803481,
      "grad_norm": 0.3836100995540619,
      "learning_rate": 4.035369672952516e-06,
      "loss": 0.4,
      "step": 1438
    },
    {
      "epoch": 1.2119595732734418,
      "grad_norm": 0.3745299279689789,
      "learning_rate": 4.028154959339515e-06,
      "loss": 0.4034,
      "step": 1439
    },
    {
      "epoch": 1.2128017967434026,
      "grad_norm": 0.3754759728908539,
      "learning_rate": 4.020942348024108e-06,
      "loss": 0.44,
      "step": 1440
    },
    {
      "epoch": 1.2136440202133634,
      "grad_norm": 0.36861446499824524,
      "learning_rate": 4.013731854608633e-06,
      "loss": 0.4136,
      "step": 1441
    },
    {
      "epoch": 1.214486243683324,
      "grad_norm": 0.36874037981033325,
      "learning_rate": 4.0065234946908456e-06,
      "loss": 0.4037,
      "step": 1442
    },
    {
      "epoch": 1.2153284671532847,
      "grad_norm": 0.37872564792633057,
      "learning_rate": 3.9993172838638915e-06,
      "loss": 0.4014,
      "step": 1443
    },
    {
      "epoch": 1.2161706906232455,
      "grad_norm": 0.43571844696998596,
      "learning_rate": 3.992113237716261e-06,
      "loss": 0.4357,
      "step": 1444
    },
    {
      "epoch": 1.217012914093206,
      "grad_norm": 0.40739089250564575,
      "learning_rate": 3.9849113718317665e-06,
      "loss": 0.4565,
      "step": 1445
    },
    {
      "epoch": 1.2178551375631668,
      "grad_norm": 0.3678940534591675,
      "learning_rate": 3.977711701789499e-06,
      "loss": 0.4069,
      "step": 1446
    },
    {
      "epoch": 1.2186973610331275,
      "grad_norm": 0.4194951057434082,
      "learning_rate": 3.9705142431638065e-06,
      "loss": 0.4445,
      "step": 1447
    },
    {
      "epoch": 1.219539584503088,
      "grad_norm": 0.4067196846008301,
      "learning_rate": 3.963319011524246e-06,
      "loss": 0.3866,
      "step": 1448
    },
    {
      "epoch": 1.2203818079730488,
      "grad_norm": 0.37523379921913147,
      "learning_rate": 3.956126022435563e-06,
      "loss": 0.4245,
      "step": 1449
    },
    {
      "epoch": 1.2212240314430096,
      "grad_norm": 0.4345439672470093,
      "learning_rate": 3.948935291457645e-06,
      "loss": 0.4647,
      "step": 1450
    },
    {
      "epoch": 1.2220662549129702,
      "grad_norm": 0.3673846423625946,
      "learning_rate": 3.941746834145503e-06,
      "loss": 0.4223,
      "step": 1451
    },
    {
      "epoch": 1.222908478382931,
      "grad_norm": 0.3605884611606598,
      "learning_rate": 3.934560666049226e-06,
      "loss": 0.42,
      "step": 1452
    },
    {
      "epoch": 1.2237507018528917,
      "grad_norm": 0.3727353811264038,
      "learning_rate": 3.927376802713948e-06,
      "loss": 0.4145,
      "step": 1453
    },
    {
      "epoch": 1.2245929253228522,
      "grad_norm": 0.37418121099472046,
      "learning_rate": 3.920195259679822e-06,
      "loss": 0.4161,
      "step": 1454
    },
    {
      "epoch": 1.225435148792813,
      "grad_norm": 0.35378751158714294,
      "learning_rate": 3.913016052481976e-06,
      "loss": 0.4022,
      "step": 1455
    },
    {
      "epoch": 1.2262773722627738,
      "grad_norm": 0.35729727149009705,
      "learning_rate": 3.905839196650494e-06,
      "loss": 0.3891,
      "step": 1456
    },
    {
      "epoch": 1.2271195957327343,
      "grad_norm": 0.4029052257537842,
      "learning_rate": 3.898664707710365e-06,
      "loss": 0.451,
      "step": 1457
    },
    {
      "epoch": 1.227961819202695,
      "grad_norm": 0.4347730278968811,
      "learning_rate": 3.891492601181462e-06,
      "loss": 0.458,
      "step": 1458
    },
    {
      "epoch": 1.2288040426726559,
      "grad_norm": 0.338058203458786,
      "learning_rate": 3.884322892578503e-06,
      "loss": 0.4199,
      "step": 1459
    },
    {
      "epoch": 1.2296462661426166,
      "grad_norm": 0.3503316342830658,
      "learning_rate": 3.877155597411019e-06,
      "loss": 0.3791,
      "step": 1460
    },
    {
      "epoch": 1.2304884896125772,
      "grad_norm": 0.42211246490478516,
      "learning_rate": 3.869990731183323e-06,
      "loss": 0.4694,
      "step": 1461
    },
    {
      "epoch": 1.231330713082538,
      "grad_norm": 0.4052710235118866,
      "learning_rate": 3.862828309394469e-06,
      "loss": 0.476,
      "step": 1462
    },
    {
      "epoch": 1.2321729365524985,
      "grad_norm": 0.32264071702957153,
      "learning_rate": 3.855668347538225e-06,
      "loss": 0.3669,
      "step": 1463
    },
    {
      "epoch": 1.2330151600224593,
      "grad_norm": 0.4870113730430603,
      "learning_rate": 3.8485108611030415e-06,
      "loss": 0.4499,
      "step": 1464
    },
    {
      "epoch": 1.23385738349242,
      "grad_norm": 0.4027028977870941,
      "learning_rate": 3.841355865572009e-06,
      "loss": 0.4027,
      "step": 1465
    },
    {
      "epoch": 1.2346996069623808,
      "grad_norm": 0.3840305209159851,
      "learning_rate": 3.834203376422831e-06,
      "loss": 0.4246,
      "step": 1466
    },
    {
      "epoch": 1.2355418304323413,
      "grad_norm": 0.3886818587779999,
      "learning_rate": 3.827053409127788e-06,
      "loss": 0.4495,
      "step": 1467
    },
    {
      "epoch": 1.236384053902302,
      "grad_norm": 0.375191330909729,
      "learning_rate": 3.8199059791537105e-06,
      "loss": 0.4146,
      "step": 1468
    },
    {
      "epoch": 1.2372262773722627,
      "grad_norm": 0.41901513934135437,
      "learning_rate": 3.8127611019619355e-06,
      "loss": 0.4814,
      "step": 1469
    },
    {
      "epoch": 1.2380685008422234,
      "grad_norm": 0.34892547130584717,
      "learning_rate": 3.805618793008279e-06,
      "loss": 0.4097,
      "step": 1470
    },
    {
      "epoch": 1.2389107243121842,
      "grad_norm": 0.3847617208957672,
      "learning_rate": 3.7984790677429988e-06,
      "loss": 0.4135,
      "step": 1471
    },
    {
      "epoch": 1.239752947782145,
      "grad_norm": 0.37350431084632874,
      "learning_rate": 3.7913419416107692e-06,
      "loss": 0.4251,
      "step": 1472
    },
    {
      "epoch": 1.2405951712521055,
      "grad_norm": 0.41073882579803467,
      "learning_rate": 3.78420743005064e-06,
      "loss": 0.4384,
      "step": 1473
    },
    {
      "epoch": 1.2414373947220663,
      "grad_norm": 0.35046443343162537,
      "learning_rate": 3.777075548496001e-06,
      "loss": 0.382,
      "step": 1474
    },
    {
      "epoch": 1.242279618192027,
      "grad_norm": 0.4011998176574707,
      "learning_rate": 3.769946312374557e-06,
      "loss": 0.4301,
      "step": 1475
    },
    {
      "epoch": 1.2431218416619876,
      "grad_norm": 0.3511771559715271,
      "learning_rate": 3.7628197371082916e-06,
      "loss": 0.4193,
      "step": 1476
    },
    {
      "epoch": 1.2439640651319483,
      "grad_norm": 0.3513358533382416,
      "learning_rate": 3.755695838113427e-06,
      "loss": 0.4238,
      "step": 1477
    },
    {
      "epoch": 1.2448062886019091,
      "grad_norm": 0.41779738664627075,
      "learning_rate": 3.7485746308004013e-06,
      "loss": 0.4032,
      "step": 1478
    },
    {
      "epoch": 1.2456485120718697,
      "grad_norm": 0.34239885210990906,
      "learning_rate": 3.7414561305738263e-06,
      "loss": 0.418,
      "step": 1479
    },
    {
      "epoch": 1.2464907355418304,
      "grad_norm": 0.3786037564277649,
      "learning_rate": 3.7343403528324574e-06,
      "loss": 0.4536,
      "step": 1480
    },
    {
      "epoch": 1.2473329590117912,
      "grad_norm": 0.3966321349143982,
      "learning_rate": 3.7272273129691684e-06,
      "loss": 0.4585,
      "step": 1481
    },
    {
      "epoch": 1.2481751824817517,
      "grad_norm": 0.36901208758354187,
      "learning_rate": 3.7201170263709004e-06,
      "loss": 0.388,
      "step": 1482
    },
    {
      "epoch": 1.2490174059517125,
      "grad_norm": 0.35026654601097107,
      "learning_rate": 3.713009508418643e-06,
      "loss": 0.4105,
      "step": 1483
    },
    {
      "epoch": 1.2498596294216733,
      "grad_norm": 0.376895934343338,
      "learning_rate": 3.705904774487396e-06,
      "loss": 0.402,
      "step": 1484
    },
    {
      "epoch": 1.250701852891634,
      "grad_norm": 0.39103272557258606,
      "learning_rate": 3.698802839946141e-06,
      "loss": 0.4078,
      "step": 1485
    },
    {
      "epoch": 1.2515440763615946,
      "grad_norm": 0.3667771518230438,
      "learning_rate": 3.6917037201577977e-06,
      "loss": 0.4282,
      "step": 1486
    },
    {
      "epoch": 1.2523862998315554,
      "grad_norm": 0.3623962104320526,
      "learning_rate": 3.6846074304792003e-06,
      "loss": 0.4317,
      "step": 1487
    },
    {
      "epoch": 1.253228523301516,
      "grad_norm": 0.33439573645591736,
      "learning_rate": 3.6775139862610577e-06,
      "loss": 0.387,
      "step": 1488
    },
    {
      "epoch": 1.2540707467714767,
      "grad_norm": 0.418788880109787,
      "learning_rate": 3.6704234028479296e-06,
      "loss": 0.4681,
      "step": 1489
    },
    {
      "epoch": 1.2549129702414374,
      "grad_norm": 0.375171035528183,
      "learning_rate": 3.6633356955781827e-06,
      "loss": 0.4165,
      "step": 1490
    },
    {
      "epoch": 1.2557551937113982,
      "grad_norm": 0.3401202857494354,
      "learning_rate": 3.656250879783962e-06,
      "loss": 0.4204,
      "step": 1491
    },
    {
      "epoch": 1.2565974171813588,
      "grad_norm": 0.3421173095703125,
      "learning_rate": 3.649168970791157e-06,
      "loss": 0.3968,
      "step": 1492
    },
    {
      "epoch": 1.2574396406513195,
      "grad_norm": 0.37147757411003113,
      "learning_rate": 3.6420899839193747e-06,
      "loss": 0.4401,
      "step": 1493
    },
    {
      "epoch": 1.25828186412128,
      "grad_norm": 0.35244521498680115,
      "learning_rate": 3.635013934481895e-06,
      "loss": 0.4273,
      "step": 1494
    },
    {
      "epoch": 1.2591240875912408,
      "grad_norm": 0.3499695062637329,
      "learning_rate": 3.6279408377856445e-06,
      "loss": 0.3798,
      "step": 1495
    },
    {
      "epoch": 1.2599663110612016,
      "grad_norm": 0.38794124126434326,
      "learning_rate": 3.620870709131163e-06,
      "loss": 0.4545,
      "step": 1496
    },
    {
      "epoch": 1.2608085345311624,
      "grad_norm": 0.3747880160808563,
      "learning_rate": 3.6138035638125735e-06,
      "loss": 0.4252,
      "step": 1497
    },
    {
      "epoch": 1.261650758001123,
      "grad_norm": 0.3472873568534851,
      "learning_rate": 3.6067394171175397e-06,
      "loss": 0.4077,
      "step": 1498
    },
    {
      "epoch": 1.2624929814710837,
      "grad_norm": 0.3841152787208557,
      "learning_rate": 3.5996782843272427e-06,
      "loss": 0.4176,
      "step": 1499
    },
    {
      "epoch": 1.2633352049410442,
      "grad_norm": 0.37688806653022766,
      "learning_rate": 3.5926201807163384e-06,
      "loss": 0.4422,
      "step": 1500
    },
    {
      "epoch": 1.264177428411005,
      "grad_norm": 0.39432913064956665,
      "learning_rate": 3.5855651215529397e-06,
      "loss": 0.4129,
      "step": 1501
    },
    {
      "epoch": 1.2650196518809658,
      "grad_norm": 0.3738628327846527,
      "learning_rate": 3.578513122098566e-06,
      "loss": 0.4097,
      "step": 1502
    },
    {
      "epoch": 1.2658618753509265,
      "grad_norm": 0.37097278237342834,
      "learning_rate": 3.571464197608119e-06,
      "loss": 0.4347,
      "step": 1503
    },
    {
      "epoch": 1.266704098820887,
      "grad_norm": 0.3702157437801361,
      "learning_rate": 3.564418363329848e-06,
      "loss": 0.4199,
      "step": 1504
    },
    {
      "epoch": 1.2675463222908478,
      "grad_norm": 0.381818562746048,
      "learning_rate": 3.557375634505321e-06,
      "loss": 0.4144,
      "step": 1505
    },
    {
      "epoch": 1.2683885457608086,
      "grad_norm": 0.3715413510799408,
      "learning_rate": 3.5503360263693887e-06,
      "loss": 0.4109,
      "step": 1506
    },
    {
      "epoch": 1.2692307692307692,
      "grad_norm": 0.3417334258556366,
      "learning_rate": 3.5432995541501445e-06,
      "loss": 0.3989,
      "step": 1507
    },
    {
      "epoch": 1.27007299270073,
      "grad_norm": 0.3696577250957489,
      "learning_rate": 3.5362662330689067e-06,
      "loss": 0.4233,
      "step": 1508
    },
    {
      "epoch": 1.2709152161706907,
      "grad_norm": 0.3600511848926544,
      "learning_rate": 3.529236078340168e-06,
      "loss": 0.45,
      "step": 1509
    },
    {
      "epoch": 1.2717574396406512,
      "grad_norm": 0.3676793575286865,
      "learning_rate": 3.5222091051715803e-06,
      "loss": 0.4156,
      "step": 1510
    },
    {
      "epoch": 1.272599663110612,
      "grad_norm": 0.33931997418403625,
      "learning_rate": 3.5151853287639093e-06,
      "loss": 0.412,
      "step": 1511
    },
    {
      "epoch": 1.2734418865805728,
      "grad_norm": 0.3733972907066345,
      "learning_rate": 3.5081647643110028e-06,
      "loss": 0.4529,
      "step": 1512
    },
    {
      "epoch": 1.2742841100505333,
      "grad_norm": 0.3638897240161896,
      "learning_rate": 3.501147426999764e-06,
      "loss": 0.4321,
      "step": 1513
    },
    {
      "epoch": 1.275126333520494,
      "grad_norm": 0.35109925270080566,
      "learning_rate": 3.4941333320101173e-06,
      "loss": 0.4371,
      "step": 1514
    },
    {
      "epoch": 1.2759685569904549,
      "grad_norm": 0.32339417934417725,
      "learning_rate": 3.4871224945149678e-06,
      "loss": 0.4156,
      "step": 1515
    },
    {
      "epoch": 1.2768107804604156,
      "grad_norm": 0.38577646017074585,
      "learning_rate": 3.480114929680176e-06,
      "loss": 0.4329,
      "step": 1516
    },
    {
      "epoch": 1.2776530039303762,
      "grad_norm": 0.336364209651947,
      "learning_rate": 3.473110652664523e-06,
      "loss": 0.4242,
      "step": 1517
    },
    {
      "epoch": 1.278495227400337,
      "grad_norm": 0.38732534646987915,
      "learning_rate": 3.466109678619681e-06,
      "loss": 0.4037,
      "step": 1518
    },
    {
      "epoch": 1.2793374508702975,
      "grad_norm": 0.3646921217441559,
      "learning_rate": 3.4591120226901724e-06,
      "loss": 0.4225,
      "step": 1519
    },
    {
      "epoch": 1.2801796743402583,
      "grad_norm": 0.35560858249664307,
      "learning_rate": 3.4521177000133456e-06,
      "loss": 0.4484,
      "step": 1520
    },
    {
      "epoch": 1.281021897810219,
      "grad_norm": 0.3193829655647278,
      "learning_rate": 3.4451267257193323e-06,
      "loss": 0.3627,
      "step": 1521
    },
    {
      "epoch": 1.2818641212801798,
      "grad_norm": 0.40115267038345337,
      "learning_rate": 3.4381391149310294e-06,
      "loss": 0.4859,
      "step": 1522
    },
    {
      "epoch": 1.2827063447501403,
      "grad_norm": 0.38391849398612976,
      "learning_rate": 3.431154882764054e-06,
      "loss": 0.3881,
      "step": 1523
    },
    {
      "epoch": 1.283548568220101,
      "grad_norm": 0.3789321780204773,
      "learning_rate": 3.4241740443267112e-06,
      "loss": 0.4608,
      "step": 1524
    },
    {
      "epoch": 1.2843907916900617,
      "grad_norm": 0.3463936448097229,
      "learning_rate": 3.417196614719972e-06,
      "loss": 0.42,
      "step": 1525
    },
    {
      "epoch": 1.2852330151600224,
      "grad_norm": 0.332682341337204,
      "learning_rate": 3.4102226090374246e-06,
      "loss": 0.4004,
      "step": 1526
    },
    {
      "epoch": 1.2860752386299832,
      "grad_norm": 0.36377355456352234,
      "learning_rate": 3.4032520423652605e-06,
      "loss": 0.4446,
      "step": 1527
    },
    {
      "epoch": 1.286917462099944,
      "grad_norm": 0.4027000367641449,
      "learning_rate": 3.3962849297822225e-06,
      "loss": 0.4213,
      "step": 1528
    },
    {
      "epoch": 1.2877596855699045,
      "grad_norm": 0.3705672025680542,
      "learning_rate": 3.3893212863595894e-06,
      "loss": 0.419,
      "step": 1529
    },
    {
      "epoch": 1.2886019090398653,
      "grad_norm": 0.34396666288375854,
      "learning_rate": 3.3823611271611266e-06,
      "loss": 0.4482,
      "step": 1530
    },
    {
      "epoch": 1.2894441325098258,
      "grad_norm": 0.3245280086994171,
      "learning_rate": 3.375404467243073e-06,
      "loss": 0.3805,
      "step": 1531
    },
    {
      "epoch": 1.2902863559797866,
      "grad_norm": 0.3971133828163147,
      "learning_rate": 3.368451321654091e-06,
      "loss": 0.4483,
      "step": 1532
    },
    {
      "epoch": 1.2911285794497473,
      "grad_norm": 0.36162859201431274,
      "learning_rate": 3.361501705435241e-06,
      "loss": 0.4272,
      "step": 1533
    },
    {
      "epoch": 1.2919708029197081,
      "grad_norm": 0.36331066489219666,
      "learning_rate": 3.35455563361995e-06,
      "loss": 0.3987,
      "step": 1534
    },
    {
      "epoch": 1.2928130263896687,
      "grad_norm": 0.384143590927124,
      "learning_rate": 3.34761312123398e-06,
      "loss": 0.4497,
      "step": 1535
    },
    {
      "epoch": 1.2936552498596294,
      "grad_norm": 0.36947038769721985,
      "learning_rate": 3.3406741832953893e-06,
      "loss": 0.4449,
      "step": 1536
    },
    {
      "epoch": 1.2944974733295902,
      "grad_norm": 0.32708972692489624,
      "learning_rate": 3.333738834814506e-06,
      "loss": 0.4025,
      "step": 1537
    },
    {
      "epoch": 1.2953396967995507,
      "grad_norm": 0.4000299274921417,
      "learning_rate": 3.3268070907938915e-06,
      "loss": 0.447,
      "step": 1538
    },
    {
      "epoch": 1.2961819202695115,
      "grad_norm": 0.34304165840148926,
      "learning_rate": 3.3198789662283147e-06,
      "loss": 0.3918,
      "step": 1539
    },
    {
      "epoch": 1.2970241437394723,
      "grad_norm": 0.3521590530872345,
      "learning_rate": 3.3129544761047093e-06,
      "loss": 0.3819,
      "step": 1540
    },
    {
      "epoch": 1.2978663672094328,
      "grad_norm": 0.36069032549858093,
      "learning_rate": 3.3060336354021504e-06,
      "loss": 0.4406,
      "step": 1541
    },
    {
      "epoch": 1.2987085906793936,
      "grad_norm": 0.3607061505317688,
      "learning_rate": 3.2991164590918162e-06,
      "loss": 0.4279,
      "step": 1542
    },
    {
      "epoch": 1.2995508141493544,
      "grad_norm": 0.36649128794670105,
      "learning_rate": 3.292202962136962e-06,
      "loss": 0.4074,
      "step": 1543
    },
    {
      "epoch": 1.300393037619315,
      "grad_norm": 0.3767343759536743,
      "learning_rate": 3.2852931594928804e-06,
      "loss": 0.4334,
      "step": 1544
    },
    {
      "epoch": 1.3012352610892757,
      "grad_norm": 0.34497666358947754,
      "learning_rate": 3.2783870661068732e-06,
      "loss": 0.391,
      "step": 1545
    },
    {
      "epoch": 1.3020774845592364,
      "grad_norm": 0.4206206500530243,
      "learning_rate": 3.271484696918218e-06,
      "loss": 0.4303,
      "step": 1546
    },
    {
      "epoch": 1.3029197080291972,
      "grad_norm": 0.3239457309246063,
      "learning_rate": 3.2645860668581398e-06,
      "loss": 0.3895,
      "step": 1547
    },
    {
      "epoch": 1.3037619314991578,
      "grad_norm": 0.3397863209247589,
      "learning_rate": 3.2576911908497695e-06,
      "loss": 0.4602,
      "step": 1548
    },
    {
      "epoch": 1.3046041549691185,
      "grad_norm": 0.36415040493011475,
      "learning_rate": 3.250800083808121e-06,
      "loss": 0.44,
      "step": 1549
    },
    {
      "epoch": 1.305446378439079,
      "grad_norm": 0.4100887179374695,
      "learning_rate": 3.2439127606400546e-06,
      "loss": 0.4224,
      "step": 1550
    },
    {
      "epoch": 1.3062886019090398,
      "grad_norm": 0.391136109828949,
      "learning_rate": 3.237029236244242e-06,
      "loss": 0.4261,
      "step": 1551
    },
    {
      "epoch": 1.3071308253790006,
      "grad_norm": 0.3297114074230194,
      "learning_rate": 3.2301495255111426e-06,
      "loss": 0.4065,
      "step": 1552
    },
    {
      "epoch": 1.3079730488489614,
      "grad_norm": 0.33887147903442383,
      "learning_rate": 3.2232736433229643e-06,
      "loss": 0.4113,
      "step": 1553
    },
    {
      "epoch": 1.308815272318922,
      "grad_norm": 0.3746250867843628,
      "learning_rate": 3.2164016045536306e-06,
      "loss": 0.3905,
      "step": 1554
    },
    {
      "epoch": 1.3096574957888827,
      "grad_norm": 0.4094383716583252,
      "learning_rate": 3.2095334240687524e-06,
      "loss": 0.4617,
      "step": 1555
    },
    {
      "epoch": 1.3104997192588432,
      "grad_norm": 0.3548777997493744,
      "learning_rate": 3.202669116725598e-06,
      "loss": 0.3849,
      "step": 1556
    },
    {
      "epoch": 1.311341942728804,
      "grad_norm": 0.4203908145427704,
      "learning_rate": 3.1958086973730507e-06,
      "loss": 0.4675,
      "step": 1557
    },
    {
      "epoch": 1.3121841661987648,
      "grad_norm": 0.31179121136665344,
      "learning_rate": 3.1889521808515888e-06,
      "loss": 0.3647,
      "step": 1558
    },
    {
      "epoch": 1.3130263896687255,
      "grad_norm": 0.34826961159706116,
      "learning_rate": 3.182099581993242e-06,
      "loss": 0.4164,
      "step": 1559
    },
    {
      "epoch": 1.313868613138686,
      "grad_norm": 0.35250043869018555,
      "learning_rate": 3.1752509156215738e-06,
      "loss": 0.4367,
      "step": 1560
    },
    {
      "epoch": 1.3147108366086468,
      "grad_norm": 0.37878093123435974,
      "learning_rate": 3.168406196551635e-06,
      "loss": 0.4121,
      "step": 1561
    },
    {
      "epoch": 1.3155530600786074,
      "grad_norm": 0.3721892237663269,
      "learning_rate": 3.1615654395899377e-06,
      "loss": 0.4216,
      "step": 1562
    },
    {
      "epoch": 1.3163952835485682,
      "grad_norm": 0.37703025341033936,
      "learning_rate": 3.1547286595344227e-06,
      "loss": 0.4301,
      "step": 1563
    },
    {
      "epoch": 1.317237507018529,
      "grad_norm": 0.3384501039981842,
      "learning_rate": 3.1478958711744324e-06,
      "loss": 0.3856,
      "step": 1564
    },
    {
      "epoch": 1.3180797304884897,
      "grad_norm": 0.3477800190448761,
      "learning_rate": 3.1410670892906715e-06,
      "loss": 0.4359,
      "step": 1565
    },
    {
      "epoch": 1.3189219539584502,
      "grad_norm": 0.35748958587646484,
      "learning_rate": 3.1342423286551756e-06,
      "loss": 0.4407,
      "step": 1566
    },
    {
      "epoch": 1.319764177428411,
      "grad_norm": 0.36136117577552795,
      "learning_rate": 3.127421604031284e-06,
      "loss": 0.4076,
      "step": 1567
    },
    {
      "epoch": 1.3206064008983718,
      "grad_norm": 0.3857554495334625,
      "learning_rate": 3.120604930173608e-06,
      "loss": 0.4273,
      "step": 1568
    },
    {
      "epoch": 1.3214486243683323,
      "grad_norm": 0.371590793132782,
      "learning_rate": 3.11379232182799e-06,
      "loss": 0.427,
      "step": 1569
    },
    {
      "epoch": 1.322290847838293,
      "grad_norm": 0.3454589545726776,
      "learning_rate": 3.1069837937314846e-06,
      "loss": 0.4806,
      "step": 1570
    },
    {
      "epoch": 1.3231330713082539,
      "grad_norm": 0.34745416045188904,
      "learning_rate": 3.100179360612312e-06,
      "loss": 0.3716,
      "step": 1571
    },
    {
      "epoch": 1.3239752947782144,
      "grad_norm": 0.3755468428134918,
      "learning_rate": 3.093379037189842e-06,
      "loss": 0.4419,
      "step": 1572
    },
    {
      "epoch": 1.3248175182481752,
      "grad_norm": 0.37198010087013245,
      "learning_rate": 3.0865828381745515e-06,
      "loss": 0.4343,
      "step": 1573
    },
    {
      "epoch": 1.325659741718136,
      "grad_norm": 0.35277241468429565,
      "learning_rate": 3.0797907782679944e-06,
      "loss": 0.4368,
      "step": 1574
    },
    {
      "epoch": 1.3265019651880965,
      "grad_norm": 0.3493169844150543,
      "learning_rate": 3.073002872162769e-06,
      "loss": 0.4223,
      "step": 1575
    },
    {
      "epoch": 1.3273441886580573,
      "grad_norm": 0.3718301057815552,
      "learning_rate": 3.0662191345424925e-06,
      "loss": 0.4408,
      "step": 1576
    },
    {
      "epoch": 1.328186412128018,
      "grad_norm": 0.3656322956085205,
      "learning_rate": 3.0594395800817644e-06,
      "loss": 0.4112,
      "step": 1577
    },
    {
      "epoch": 1.3290286355979788,
      "grad_norm": 0.34470346570014954,
      "learning_rate": 3.0526642234461313e-06,
      "loss": 0.4056,
      "step": 1578
    },
    {
      "epoch": 1.3298708590679393,
      "grad_norm": 0.3943169116973877,
      "learning_rate": 3.045893079292063e-06,
      "loss": 0.4368,
      "step": 1579
    },
    {
      "epoch": 1.3307130825379,
      "grad_norm": 0.37937405705451965,
      "learning_rate": 3.039126162266912e-06,
      "loss": 0.4412,
      "step": 1580
    },
    {
      "epoch": 1.3315553060078607,
      "grad_norm": 0.395255446434021,
      "learning_rate": 3.032363487008894e-06,
      "loss": 0.4331,
      "step": 1581
    },
    {
      "epoch": 1.3323975294778214,
      "grad_norm": 0.3381839990615845,
      "learning_rate": 3.0256050681470446e-06,
      "loss": 0.3667,
      "step": 1582
    },
    {
      "epoch": 1.3332397529477822,
      "grad_norm": 0.37557271122932434,
      "learning_rate": 3.0188509203011895e-06,
      "loss": 0.4476,
      "step": 1583
    },
    {
      "epoch": 1.334081976417743,
      "grad_norm": 0.3909730315208435,
      "learning_rate": 3.012101058081919e-06,
      "loss": 0.4661,
      "step": 1584
    },
    {
      "epoch": 1.3349241998877035,
      "grad_norm": 0.37618276476860046,
      "learning_rate": 3.005355496090553e-06,
      "loss": 0.4064,
      "step": 1585
    },
    {
      "epoch": 1.3357664233576643,
      "grad_norm": 0.3795301020145416,
      "learning_rate": 2.9986142489191074e-06,
      "loss": 0.4122,
      "step": 1586
    },
    {
      "epoch": 1.3366086468276248,
      "grad_norm": 0.33360755443573,
      "learning_rate": 2.9918773311502638e-06,
      "loss": 0.4079,
      "step": 1587
    },
    {
      "epoch": 1.3374508702975856,
      "grad_norm": 0.40108194947242737,
      "learning_rate": 2.9851447573573383e-06,
      "loss": 0.4018,
      "step": 1588
    },
    {
      "epoch": 1.3382930937675463,
      "grad_norm": 0.3685555160045624,
      "learning_rate": 2.9784165421042547e-06,
      "loss": 0.4574,
      "step": 1589
    },
    {
      "epoch": 1.3391353172375071,
      "grad_norm": 0.3724980354309082,
      "learning_rate": 2.971692699945502e-06,
      "loss": 0.4345,
      "step": 1590
    },
    {
      "epoch": 1.3399775407074677,
      "grad_norm": 0.3708648383617401,
      "learning_rate": 2.964973245426115e-06,
      "loss": 0.3698,
      "step": 1591
    },
    {
      "epoch": 1.3408197641774284,
      "grad_norm": 0.3997686207294464,
      "learning_rate": 2.958258193081629e-06,
      "loss": 0.4196,
      "step": 1592
    },
    {
      "epoch": 1.341661987647389,
      "grad_norm": 0.3465198278427124,
      "learning_rate": 2.951547557438067e-06,
      "loss": 0.4156,
      "step": 1593
    },
    {
      "epoch": 1.3425042111173497,
      "grad_norm": 0.3640463948249817,
      "learning_rate": 2.9448413530118912e-06,
      "loss": 0.4206,
      "step": 1594
    },
    {
      "epoch": 1.3433464345873105,
      "grad_norm": 0.3745775818824768,
      "learning_rate": 2.938139594309979e-06,
      "loss": 0.4365,
      "step": 1595
    },
    {
      "epoch": 1.3441886580572713,
      "grad_norm": 0.34868982434272766,
      "learning_rate": 2.9314422958295906e-06,
      "loss": 0.4453,
      "step": 1596
    },
    {
      "epoch": 1.3450308815272318,
      "grad_norm": 0.32120347023010254,
      "learning_rate": 2.9247494720583415e-06,
      "loss": 0.4051,
      "step": 1597
    },
    {
      "epoch": 1.3458731049971926,
      "grad_norm": 0.3904078006744385,
      "learning_rate": 2.9180611374741623e-06,
      "loss": 0.4452,
      "step": 1598
    },
    {
      "epoch": 1.3467153284671534,
      "grad_norm": 0.33847367763519287,
      "learning_rate": 2.9113773065452756e-06,
      "loss": 0.3975,
      "step": 1599
    },
    {
      "epoch": 1.347557551937114,
      "grad_norm": 0.37853938341140747,
      "learning_rate": 2.904697993730159e-06,
      "loss": 0.4336,
      "step": 1600
    },
    {
      "epoch": 1.3483997754070747,
      "grad_norm": 0.3621908724308014,
      "learning_rate": 2.8980232134775198e-06,
      "loss": 0.4435,
      "step": 1601
    },
    {
      "epoch": 1.3492419988770354,
      "grad_norm": 0.3228287398815155,
      "learning_rate": 2.891352980226262e-06,
      "loss": 0.3801,
      "step": 1602
    },
    {
      "epoch": 1.350084222346996,
      "grad_norm": 0.3642449676990509,
      "learning_rate": 2.8846873084054478e-06,
      "loss": 0.4301,
      "step": 1603
    },
    {
      "epoch": 1.3509264458169568,
      "grad_norm": 0.3677379786968231,
      "learning_rate": 2.8780262124342755e-06,
      "loss": 0.4454,
      "step": 1604
    },
    {
      "epoch": 1.3517686692869175,
      "grad_norm": 0.3276069760322571,
      "learning_rate": 2.8713697067220424e-06,
      "loss": 0.4128,
      "step": 1605
    },
    {
      "epoch": 1.352610892756878,
      "grad_norm": 0.3616357743740082,
      "learning_rate": 2.8647178056681197e-06,
      "loss": 0.4718,
      "step": 1606
    },
    {
      "epoch": 1.3534531162268388,
      "grad_norm": 0.33515235781669617,
      "learning_rate": 2.8580705236619187e-06,
      "loss": 0.3901,
      "step": 1607
    },
    {
      "epoch": 1.3542953396967996,
      "grad_norm": 0.3187240660190582,
      "learning_rate": 2.8514278750828537e-06,
      "loss": 0.3776,
      "step": 1608
    },
    {
      "epoch": 1.3551375631667604,
      "grad_norm": 0.3744145333766937,
      "learning_rate": 2.8447898743003166e-06,
      "loss": 0.4349,
      "step": 1609
    },
    {
      "epoch": 1.355979786636721,
      "grad_norm": 0.3702453076839447,
      "learning_rate": 2.838156535673652e-06,
      "loss": 0.4085,
      "step": 1610
    },
    {
      "epoch": 1.3568220101066817,
      "grad_norm": 0.39036256074905396,
      "learning_rate": 2.8315278735521114e-06,
      "loss": 0.468,
      "step": 1611
    },
    {
      "epoch": 1.3576642335766422,
      "grad_norm": 0.3543854355812073,
      "learning_rate": 2.8249039022748315e-06,
      "loss": 0.3967,
      "step": 1612
    },
    {
      "epoch": 1.358506457046603,
      "grad_norm": 0.34464696049690247,
      "learning_rate": 2.818284636170805e-06,
      "loss": 0.4068,
      "step": 1613
    },
    {
      "epoch": 1.3593486805165638,
      "grad_norm": 0.3834695518016815,
      "learning_rate": 2.8116700895588473e-06,
      "loss": 0.4279,
      "step": 1614
    },
    {
      "epoch": 1.3601909039865245,
      "grad_norm": 0.320786714553833,
      "learning_rate": 2.8050602767475595e-06,
      "loss": 0.3851,
      "step": 1615
    },
    {
      "epoch": 1.361033127456485,
      "grad_norm": 0.38379478454589844,
      "learning_rate": 2.798455212035305e-06,
      "loss": 0.4142,
      "step": 1616
    },
    {
      "epoch": 1.3618753509264458,
      "grad_norm": 0.44050511717796326,
      "learning_rate": 2.7918549097101746e-06,
      "loss": 0.4228,
      "step": 1617
    },
    {
      "epoch": 1.3627175743964064,
      "grad_norm": 0.44859579205513,
      "learning_rate": 2.785259384049959e-06,
      "loss": 0.4802,
      "step": 1618
    },
    {
      "epoch": 1.3635597978663672,
      "grad_norm": 0.338496595621109,
      "learning_rate": 2.7786686493221197e-06,
      "loss": 0.4257,
      "step": 1619
    },
    {
      "epoch": 1.364402021336328,
      "grad_norm": 0.43196535110473633,
      "learning_rate": 2.7720827197837475e-06,
      "loss": 0.4476,
      "step": 1620
    },
    {
      "epoch": 1.3652442448062887,
      "grad_norm": 0.3562436103820801,
      "learning_rate": 2.7655016096815395e-06,
      "loss": 0.3796,
      "step": 1621
    },
    {
      "epoch": 1.3660864682762492,
      "grad_norm": 0.4019789695739746,
      "learning_rate": 2.7589253332517736e-06,
      "loss": 0.4475,
      "step": 1622
    },
    {
      "epoch": 1.36692869174621,
      "grad_norm": 0.3705098032951355,
      "learning_rate": 2.752353904720264e-06,
      "loss": 0.3862,
      "step": 1623
    },
    {
      "epoch": 1.3677709152161706,
      "grad_norm": 0.323125958442688,
      "learning_rate": 2.745787338302341e-06,
      "loss": 0.3976,
      "step": 1624
    },
    {
      "epoch": 1.3686131386861313,
      "grad_norm": 0.3696424663066864,
      "learning_rate": 2.7392256482028198e-06,
      "loss": 0.4217,
      "step": 1625
    },
    {
      "epoch": 1.369455362156092,
      "grad_norm": 0.4133176803588867,
      "learning_rate": 2.7326688486159613e-06,
      "loss": 0.4306,
      "step": 1626
    },
    {
      "epoch": 1.3702975856260529,
      "grad_norm": 0.3768920600414276,
      "learning_rate": 2.726116953725454e-06,
      "loss": 0.4034,
      "step": 1627
    },
    {
      "epoch": 1.3711398090960134,
      "grad_norm": 0.348274827003479,
      "learning_rate": 2.7195699777043723e-06,
      "loss": 0.4077,
      "step": 1628
    },
    {
      "epoch": 1.3719820325659742,
      "grad_norm": 0.3641537129878998,
      "learning_rate": 2.713027934715148e-06,
      "loss": 0.425,
      "step": 1629
    },
    {
      "epoch": 1.372824256035935,
      "grad_norm": 0.4002997875213623,
      "learning_rate": 2.706490838909547e-06,
      "loss": 0.4158,
      "step": 1630
    },
    {
      "epoch": 1.3736664795058955,
      "grad_norm": 0.4099925756454468,
      "learning_rate": 2.6999587044286322e-06,
      "loss": 0.3907,
      "step": 1631
    },
    {
      "epoch": 1.3745087029758563,
      "grad_norm": 0.38138851523399353,
      "learning_rate": 2.6934315454027323e-06,
      "loss": 0.42,
      "step": 1632
    },
    {
      "epoch": 1.375350926445817,
      "grad_norm": 0.35811084508895874,
      "learning_rate": 2.686909375951413e-06,
      "loss": 0.4311,
      "step": 1633
    },
    {
      "epoch": 1.3761931499157778,
      "grad_norm": 0.3339109718799591,
      "learning_rate": 2.680392210183446e-06,
      "loss": 0.3948,
      "step": 1634
    },
    {
      "epoch": 1.3770353733857383,
      "grad_norm": 0.35206660628318787,
      "learning_rate": 2.6738800621967838e-06,
      "loss": 0.388,
      "step": 1635
    },
    {
      "epoch": 1.377877596855699,
      "grad_norm": 0.33870401978492737,
      "learning_rate": 2.6673729460785174e-06,
      "loss": 0.4381,
      "step": 1636
    },
    {
      "epoch": 1.3787198203256597,
      "grad_norm": 0.3183356821537018,
      "learning_rate": 2.660870875904861e-06,
      "loss": 0.4002,
      "step": 1637
    },
    {
      "epoch": 1.3795620437956204,
      "grad_norm": 0.34423789381980896,
      "learning_rate": 2.6543738657411033e-06,
      "loss": 0.411,
      "step": 1638
    },
    {
      "epoch": 1.3804042672655812,
      "grad_norm": 0.3772694766521454,
      "learning_rate": 2.647881929641598e-06,
      "loss": 0.4267,
      "step": 1639
    },
    {
      "epoch": 1.381246490735542,
      "grad_norm": 0.3304236829280853,
      "learning_rate": 2.6413950816497146e-06,
      "loss": 0.4177,
      "step": 1640
    },
    {
      "epoch": 1.3820887142055025,
      "grad_norm": 0.3433849811553955,
      "learning_rate": 2.634913335797818e-06,
      "loss": 0.4441,
      "step": 1641
    },
    {
      "epoch": 1.3829309376754633,
      "grad_norm": 0.3513500988483429,
      "learning_rate": 2.628436706107238e-06,
      "loss": 0.4146,
      "step": 1642
    },
    {
      "epoch": 1.3837731611454238,
      "grad_norm": 0.3475693464279175,
      "learning_rate": 2.621965206588237e-06,
      "loss": 0.4337,
      "step": 1643
    },
    {
      "epoch": 1.3846153846153846,
      "grad_norm": 0.3189471960067749,
      "learning_rate": 2.6154988512399784e-06,
      "loss": 0.3895,
      "step": 1644
    },
    {
      "epoch": 1.3854576080853453,
      "grad_norm": 0.33608394861221313,
      "learning_rate": 2.609037654050497e-06,
      "loss": 0.4299,
      "step": 1645
    },
    {
      "epoch": 1.3862998315553061,
      "grad_norm": 0.3827238082885742,
      "learning_rate": 2.6025816289966703e-06,
      "loss": 0.4513,
      "step": 1646
    },
    {
      "epoch": 1.3871420550252667,
      "grad_norm": 0.35887178778648376,
      "learning_rate": 2.596130790044187e-06,
      "loss": 0.3864,
      "step": 1647
    },
    {
      "epoch": 1.3879842784952274,
      "grad_norm": 0.3484785854816437,
      "learning_rate": 2.5896851511475184e-06,
      "loss": 0.442,
      "step": 1648
    },
    {
      "epoch": 1.388826501965188,
      "grad_norm": 0.31910255551338196,
      "learning_rate": 2.5832447262498895e-06,
      "loss": 0.3756,
      "step": 1649
    },
    {
      "epoch": 1.3896687254351487,
      "grad_norm": 0.3340822160243988,
      "learning_rate": 2.5768095292832412e-06,
      "loss": 0.423,
      "step": 1650
    },
    {
      "epoch": 1.3905109489051095,
      "grad_norm": 0.3406926095485687,
      "learning_rate": 2.5703795741682053e-06,
      "loss": 0.4128,
      "step": 1651
    },
    {
      "epoch": 1.3913531723750703,
      "grad_norm": 0.3470843732357025,
      "learning_rate": 2.5639548748140803e-06,
      "loss": 0.4068,
      "step": 1652
    },
    {
      "epoch": 1.3921953958450308,
      "grad_norm": 0.36098867654800415,
      "learning_rate": 2.5575354451187885e-06,
      "loss": 0.4155,
      "step": 1653
    },
    {
      "epoch": 1.3930376193149916,
      "grad_norm": 0.34171774983406067,
      "learning_rate": 2.5511212989688587e-06,
      "loss": 0.431,
      "step": 1654
    },
    {
      "epoch": 1.3938798427849521,
      "grad_norm": 0.32355770468711853,
      "learning_rate": 2.544712450239385e-06,
      "loss": 0.3988,
      "step": 1655
    },
    {
      "epoch": 1.394722066254913,
      "grad_norm": 0.3356197476387024,
      "learning_rate": 2.5383089127940087e-06,
      "loss": 0.418,
      "step": 1656
    },
    {
      "epoch": 1.3955642897248737,
      "grad_norm": 0.40536969900131226,
      "learning_rate": 2.5319107004848752e-06,
      "loss": 0.435,
      "step": 1657
    },
    {
      "epoch": 1.3964065131948344,
      "grad_norm": 0.36211657524108887,
      "learning_rate": 2.525517827152614e-06,
      "loss": 0.3954,
      "step": 1658
    },
    {
      "epoch": 1.397248736664795,
      "grad_norm": 0.3345986008644104,
      "learning_rate": 2.5191303066263006e-06,
      "loss": 0.3924,
      "step": 1659
    },
    {
      "epoch": 1.3980909601347558,
      "grad_norm": 0.3317972719669342,
      "learning_rate": 2.5127481527234397e-06,
      "loss": 0.4247,
      "step": 1660
    },
    {
      "epoch": 1.3989331836047165,
      "grad_norm": 0.3712909519672394,
      "learning_rate": 2.5063713792499233e-06,
      "loss": 0.4404,
      "step": 1661
    },
    {
      "epoch": 1.399775407074677,
      "grad_norm": 0.34449902176856995,
      "learning_rate": 2.5000000000000015e-06,
      "loss": 0.4175,
      "step": 1662
    },
    {
      "epoch": 1.4006176305446378,
      "grad_norm": 0.35438668727874756,
      "learning_rate": 2.493634028756255e-06,
      "loss": 0.4168,
      "step": 1663
    },
    {
      "epoch": 1.4014598540145986,
      "grad_norm": 0.3278777599334717,
      "learning_rate": 2.487273479289574e-06,
      "loss": 0.4083,
      "step": 1664
    },
    {
      "epoch": 1.4023020774845594,
      "grad_norm": 0.3350882828235626,
      "learning_rate": 2.480918365359109e-06,
      "loss": 0.4052,
      "step": 1665
    },
    {
      "epoch": 1.40314430095452,
      "grad_norm": 0.3685593903064728,
      "learning_rate": 2.4745687007122636e-06,
      "loss": 0.4481,
      "step": 1666
    },
    {
      "epoch": 1.4039865244244807,
      "grad_norm": 0.3348729908466339,
      "learning_rate": 2.468224499084644e-06,
      "loss": 0.4254,
      "step": 1667
    },
    {
      "epoch": 1.4048287478944412,
      "grad_norm": 0.36955025792121887,
      "learning_rate": 2.4618857742000463e-06,
      "loss": 0.4107,
      "step": 1668
    },
    {
      "epoch": 1.405670971364402,
      "grad_norm": 0.39321884512901306,
      "learning_rate": 2.455552539770414e-06,
      "loss": 0.4184,
      "step": 1669
    },
    {
      "epoch": 1.4065131948343628,
      "grad_norm": 0.3573836088180542,
      "learning_rate": 2.449224809495815e-06,
      "loss": 0.4341,
      "step": 1670
    },
    {
      "epoch": 1.4073554183043235,
      "grad_norm": 0.3464810848236084,
      "learning_rate": 2.44290259706441e-06,
      "loss": 0.3758,
      "step": 1671
    },
    {
      "epoch": 1.408197641774284,
      "grad_norm": 0.39162787795066833,
      "learning_rate": 2.436585916152426e-06,
      "loss": 0.4692,
      "step": 1672
    },
    {
      "epoch": 1.4090398652442448,
      "grad_norm": 0.3750409781932831,
      "learning_rate": 2.430274780424124e-06,
      "loss": 0.4487,
      "step": 1673
    },
    {
      "epoch": 1.4098820887142054,
      "grad_norm": 0.34014883637428284,
      "learning_rate": 2.423969203531768e-06,
      "loss": 0.3984,
      "step": 1674
    },
    {
      "epoch": 1.4107243121841662,
      "grad_norm": 0.3889274597167969,
      "learning_rate": 2.4176691991155966e-06,
      "loss": 0.4552,
      "step": 1675
    },
    {
      "epoch": 1.411566535654127,
      "grad_norm": 0.3712521195411682,
      "learning_rate": 2.411374780803793e-06,
      "loss": 0.4188,
      "step": 1676
    },
    {
      "epoch": 1.4124087591240877,
      "grad_norm": 0.36779871582984924,
      "learning_rate": 2.4050859622124606e-06,
      "loss": 0.3922,
      "step": 1677
    },
    {
      "epoch": 1.4132509825940482,
      "grad_norm": 0.3521544635295868,
      "learning_rate": 2.3988027569455895e-06,
      "loss": 0.4599,
      "step": 1678
    },
    {
      "epoch": 1.414093206064009,
      "grad_norm": 0.36508187651634216,
      "learning_rate": 2.392525178595022e-06,
      "loss": 0.4253,
      "step": 1679
    },
    {
      "epoch": 1.4149354295339696,
      "grad_norm": 0.3868557810783386,
      "learning_rate": 2.3862532407404306e-06,
      "loss": 0.3959,
      "step": 1680
    },
    {
      "epoch": 1.4157776530039303,
      "grad_norm": 0.3438347578048706,
      "learning_rate": 2.379986956949289e-06,
      "loss": 0.4209,
      "step": 1681
    },
    {
      "epoch": 1.416619876473891,
      "grad_norm": 0.35526832938194275,
      "learning_rate": 2.373726340776837e-06,
      "loss": 0.4125,
      "step": 1682
    },
    {
      "epoch": 1.4174620999438519,
      "grad_norm": 0.31585755944252014,
      "learning_rate": 2.3674714057660525e-06,
      "loss": 0.3613,
      "step": 1683
    },
    {
      "epoch": 1.4183043234138124,
      "grad_norm": 0.34760093688964844,
      "learning_rate": 2.361222165447628e-06,
      "loss": 0.4502,
      "step": 1684
    },
    {
      "epoch": 1.4191465468837732,
      "grad_norm": 0.3348410427570343,
      "learning_rate": 2.3549786333399387e-06,
      "loss": 0.409,
      "step": 1685
    },
    {
      "epoch": 1.4199887703537337,
      "grad_norm": 0.36369967460632324,
      "learning_rate": 2.348740822949006e-06,
      "loss": 0.4076,
      "step": 1686
    },
    {
      "epoch": 1.4208309938236945,
      "grad_norm": 0.33119702339172363,
      "learning_rate": 2.3425087477684767e-06,
      "loss": 0.3772,
      "step": 1687
    },
    {
      "epoch": 1.4216732172936553,
      "grad_norm": 0.46200600266456604,
      "learning_rate": 2.33628242127959e-06,
      "loss": 0.4807,
      "step": 1688
    },
    {
      "epoch": 1.422515440763616,
      "grad_norm": 0.3451233506202698,
      "learning_rate": 2.330061856951151e-06,
      "loss": 0.3937,
      "step": 1689
    },
    {
      "epoch": 1.4233576642335766,
      "grad_norm": 0.34984326362609863,
      "learning_rate": 2.323847068239504e-06,
      "loss": 0.4418,
      "step": 1690
    },
    {
      "epoch": 1.4241998877035373,
      "grad_norm": 0.357930988073349,
      "learning_rate": 2.3176380685884915e-06,
      "loss": 0.4312,
      "step": 1691
    },
    {
      "epoch": 1.425042111173498,
      "grad_norm": 0.3291381001472473,
      "learning_rate": 2.3114348714294355e-06,
      "loss": 0.4101,
      "step": 1692
    },
    {
      "epoch": 1.4258843346434587,
      "grad_norm": 0.33264538645744324,
      "learning_rate": 2.305237490181112e-06,
      "loss": 0.4887,
      "step": 1693
    },
    {
      "epoch": 1.4267265581134194,
      "grad_norm": 0.32996273040771484,
      "learning_rate": 2.2990459382497086e-06,
      "loss": 0.3743,
      "step": 1694
    },
    {
      "epoch": 1.4275687815833802,
      "grad_norm": 0.36403051018714905,
      "learning_rate": 2.2928602290288044e-06,
      "loss": 0.4247,
      "step": 1695
    },
    {
      "epoch": 1.428411005053341,
      "grad_norm": 0.3238917589187622,
      "learning_rate": 2.2866803758993446e-06,
      "loss": 0.3869,
      "step": 1696
    },
    {
      "epoch": 1.4292532285233015,
      "grad_norm": 0.3595156669616699,
      "learning_rate": 2.2805063922295988e-06,
      "loss": 0.4782,
      "step": 1697
    },
    {
      "epoch": 1.4300954519932623,
      "grad_norm": 0.35758504271507263,
      "learning_rate": 2.274338291375147e-06,
      "loss": 0.43,
      "step": 1698
    },
    {
      "epoch": 1.4309376754632228,
      "grad_norm": 0.317548543214798,
      "learning_rate": 2.2681760866788397e-06,
      "loss": 0.3707,
      "step": 1699
    },
    {
      "epoch": 1.4317798989331836,
      "grad_norm": 0.3355484902858734,
      "learning_rate": 2.262019791470772e-06,
      "loss": 0.3991,
      "step": 1700
    },
    {
      "epoch": 1.4326221224031443,
      "grad_norm": 0.3851216733455658,
      "learning_rate": 2.255869419068254e-06,
      "loss": 0.447,
      "step": 1701
    },
    {
      "epoch": 1.4334643458731051,
      "grad_norm": 0.3794332444667816,
      "learning_rate": 2.2497249827757933e-06,
      "loss": 0.4615,
      "step": 1702
    },
    {
      "epoch": 1.4343065693430657,
      "grad_norm": 0.3465923070907593,
      "learning_rate": 2.2435864958850468e-06,
      "loss": 0.4183,
      "step": 1703
    },
    {
      "epoch": 1.4351487928130264,
      "grad_norm": 0.3896651566028595,
      "learning_rate": 2.2374539716748034e-06,
      "loss": 0.4624,
      "step": 1704
    },
    {
      "epoch": 1.435991016282987,
      "grad_norm": 0.3488343358039856,
      "learning_rate": 2.231327423410954e-06,
      "loss": 0.4182,
      "step": 1705
    },
    {
      "epoch": 1.4368332397529477,
      "grad_norm": 0.3263227045536041,
      "learning_rate": 2.225206864346465e-06,
      "loss": 0.428,
      "step": 1706
    },
    {
      "epoch": 1.4376754632229085,
      "grad_norm": 0.3458244204521179,
      "learning_rate": 2.219092307721343e-06,
      "loss": 0.416,
      "step": 1707
    },
    {
      "epoch": 1.4385176866928693,
      "grad_norm": 0.3713383972644806,
      "learning_rate": 2.2129837667626147e-06,
      "loss": 0.3921,
      "step": 1708
    },
    {
      "epoch": 1.4393599101628298,
      "grad_norm": 0.369373083114624,
      "learning_rate": 2.206881254684287e-06,
      "loss": 0.4619,
      "step": 1709
    },
    {
      "epoch": 1.4402021336327906,
      "grad_norm": 0.3093821108341217,
      "learning_rate": 2.2007847846873342e-06,
      "loss": 0.3805,
      "step": 1710
    },
    {
      "epoch": 1.4410443571027511,
      "grad_norm": 0.35274264216423035,
      "learning_rate": 2.1946943699596516e-06,
      "loss": 0.4367,
      "step": 1711
    },
    {
      "epoch": 1.441886580572712,
      "grad_norm": 0.3081500232219696,
      "learning_rate": 2.188610023676041e-06,
      "loss": 0.3893,
      "step": 1712
    },
    {
      "epoch": 1.4427288040426727,
      "grad_norm": 0.39134445786476135,
      "learning_rate": 2.182531758998171e-06,
      "loss": 0.4328,
      "step": 1713
    },
    {
      "epoch": 1.4435710275126334,
      "grad_norm": 0.34372273087501526,
      "learning_rate": 2.176459589074566e-06,
      "loss": 0.4288,
      "step": 1714
    },
    {
      "epoch": 1.444413250982594,
      "grad_norm": 0.37578529119491577,
      "learning_rate": 2.170393527040555e-06,
      "loss": 0.4114,
      "step": 1715
    },
    {
      "epoch": 1.4452554744525548,
      "grad_norm": 0.3880730867385864,
      "learning_rate": 2.164333586018259e-06,
      "loss": 0.4437,
      "step": 1716
    },
    {
      "epoch": 1.4460976979225155,
      "grad_norm": 0.330867737531662,
      "learning_rate": 2.158279779116555e-06,
      "loss": 0.3864,
      "step": 1717
    },
    {
      "epoch": 1.446939921392476,
      "grad_norm": 0.3723258674144745,
      "learning_rate": 2.1522321194310577e-06,
      "loss": 0.4274,
      "step": 1718
    },
    {
      "epoch": 1.4477821448624368,
      "grad_norm": 0.3710629940032959,
      "learning_rate": 2.1461906200440747e-06,
      "loss": 0.4194,
      "step": 1719
    },
    {
      "epoch": 1.4486243683323976,
      "grad_norm": 0.44758057594299316,
      "learning_rate": 2.1401552940245962e-06,
      "loss": 0.4229,
      "step": 1720
    },
    {
      "epoch": 1.4494665918023582,
      "grad_norm": 0.3751315474510193,
      "learning_rate": 2.1341261544282533e-06,
      "loss": 0.4635,
      "step": 1721
    },
    {
      "epoch": 1.450308815272319,
      "grad_norm": 0.33398640155792236,
      "learning_rate": 2.1281032142972933e-06,
      "loss": 0.4108,
      "step": 1722
    },
    {
      "epoch": 1.4511510387422797,
      "grad_norm": 0.37968266010284424,
      "learning_rate": 2.122086486660559e-06,
      "loss": 0.4793,
      "step": 1723
    },
    {
      "epoch": 1.4519932622122402,
      "grad_norm": 0.3863780200481415,
      "learning_rate": 2.1160759845334483e-06,
      "loss": 0.42,
      "step": 1724
    },
    {
      "epoch": 1.452835485682201,
      "grad_norm": 0.34130218625068665,
      "learning_rate": 2.110071720917893e-06,
      "loss": 0.4136,
      "step": 1725
    },
    {
      "epoch": 1.4536777091521618,
      "grad_norm": 0.3138996660709381,
      "learning_rate": 2.1040737088023323e-06,
      "loss": 0.3925,
      "step": 1726
    },
    {
      "epoch": 1.4545199326221225,
      "grad_norm": 0.35438069701194763,
      "learning_rate": 2.0980819611616833e-06,
      "loss": 0.4547,
      "step": 1727
    },
    {
      "epoch": 1.455362156092083,
      "grad_norm": 0.3823484480381012,
      "learning_rate": 2.0920964909573065e-06,
      "loss": 0.4282,
      "step": 1728
    },
    {
      "epoch": 1.4562043795620438,
      "grad_norm": 0.38504987955093384,
      "learning_rate": 2.086117311136987e-06,
      "loss": 0.4261,
      "step": 1729
    },
    {
      "epoch": 1.4570466030320044,
      "grad_norm": 0.3371022045612335,
      "learning_rate": 2.080144434634898e-06,
      "loss": 0.4207,
      "step": 1730
    },
    {
      "epoch": 1.4578888265019652,
      "grad_norm": 0.3416226804256439,
      "learning_rate": 2.0741778743715844e-06,
      "loss": 0.4212,
      "step": 1731
    },
    {
      "epoch": 1.458731049971926,
      "grad_norm": 0.3291969299316406,
      "learning_rate": 2.068217643253925e-06,
      "loss": 0.4168,
      "step": 1732
    },
    {
      "epoch": 1.4595732734418867,
      "grad_norm": 0.3379625380039215,
      "learning_rate": 2.062263754175104e-06,
      "loss": 0.3954,
      "step": 1733
    },
    {
      "epoch": 1.4604154969118472,
      "grad_norm": 0.38820943236351013,
      "learning_rate": 2.056316220014588e-06,
      "loss": 0.4167,
      "step": 1734
    },
    {
      "epoch": 1.461257720381808,
      "grad_norm": 0.3584408760070801,
      "learning_rate": 2.0503750536381016e-06,
      "loss": 0.4697,
      "step": 1735
    },
    {
      "epoch": 1.4620999438517686,
      "grad_norm": 0.30772534012794495,
      "learning_rate": 2.0444402678975876e-06,
      "loss": 0.3876,
      "step": 1736
    },
    {
      "epoch": 1.4629421673217293,
      "grad_norm": 0.32399284839630127,
      "learning_rate": 2.0385118756311882e-06,
      "loss": 0.3834,
      "step": 1737
    },
    {
      "epoch": 1.46378439079169,
      "grad_norm": 0.3803667724132538,
      "learning_rate": 2.0325898896632178e-06,
      "loss": 0.4753,
      "step": 1738
    },
    {
      "epoch": 1.4646266142616509,
      "grad_norm": 0.3657037615776062,
      "learning_rate": 2.026674322804133e-06,
      "loss": 0.3798,
      "step": 1739
    },
    {
      "epoch": 1.4654688377316114,
      "grad_norm": 0.3483685553073883,
      "learning_rate": 2.0207651878505e-06,
      "loss": 0.46,
      "step": 1740
    },
    {
      "epoch": 1.4663110612015722,
      "grad_norm": 0.35077399015426636,
      "learning_rate": 2.0148624975849755e-06,
      "loss": 0.3903,
      "step": 1741
    },
    {
      "epoch": 1.4671532846715327,
      "grad_norm": 0.35162097215652466,
      "learning_rate": 2.0089662647762716e-06,
      "loss": 0.4287,
      "step": 1742
    },
    {
      "epoch": 1.4679955081414935,
      "grad_norm": 0.3739240765571594,
      "learning_rate": 2.003076502179135e-06,
      "loss": 0.4435,
      "step": 1743
    },
    {
      "epoch": 1.4688377316114543,
      "grad_norm": 0.32271870970726013,
      "learning_rate": 1.997193222534316e-06,
      "loss": 0.4027,
      "step": 1744
    },
    {
      "epoch": 1.469679955081415,
      "grad_norm": 0.32438138127326965,
      "learning_rate": 1.9913164385685387e-06,
      "loss": 0.4161,
      "step": 1745
    },
    {
      "epoch": 1.4705221785513756,
      "grad_norm": 0.3083917796611786,
      "learning_rate": 1.9854461629944764e-06,
      "loss": 0.3807,
      "step": 1746
    },
    {
      "epoch": 1.4713644020213363,
      "grad_norm": 0.3419782519340515,
      "learning_rate": 1.9795824085107217e-06,
      "loss": 0.4383,
      "step": 1747
    },
    {
      "epoch": 1.472206625491297,
      "grad_norm": 0.3452483117580414,
      "learning_rate": 1.9737251878017678e-06,
      "loss": 0.3894,
      "step": 1748
    },
    {
      "epoch": 1.4730488489612577,
      "grad_norm": 0.3645327687263489,
      "learning_rate": 1.9678745135379633e-06,
      "loss": 0.4893,
      "step": 1749
    },
    {
      "epoch": 1.4738910724312184,
      "grad_norm": 0.3625657260417938,
      "learning_rate": 1.962030398375506e-06,
      "loss": 0.4458,
      "step": 1750
    },
    {
      "epoch": 1.4747332959011792,
      "grad_norm": 0.3403971791267395,
      "learning_rate": 1.956192854956397e-06,
      "loss": 0.4265,
      "step": 1751
    },
    {
      "epoch": 1.4755755193711397,
      "grad_norm": 0.3972252309322357,
      "learning_rate": 1.950361895908427e-06,
      "loss": 0.4402,
      "step": 1752
    },
    {
      "epoch": 1.4764177428411005,
      "grad_norm": 0.33984294533729553,
      "learning_rate": 1.9445375338451405e-06,
      "loss": 0.3993,
      "step": 1753
    },
    {
      "epoch": 1.4772599663110613,
      "grad_norm": 0.3256571590900421,
      "learning_rate": 1.9387197813658092e-06,
      "loss": 0.3955,
      "step": 1754
    },
    {
      "epoch": 1.4781021897810218,
      "grad_norm": 0.3883821666240692,
      "learning_rate": 1.932908651055412e-06,
      "loss": 0.4786,
      "step": 1755
    },
    {
      "epoch": 1.4789444132509826,
      "grad_norm": 0.37904101610183716,
      "learning_rate": 1.927104155484602e-06,
      "loss": 0.3857,
      "step": 1756
    },
    {
      "epoch": 1.4797866367209433,
      "grad_norm": 0.3686067461967468,
      "learning_rate": 1.9213063072096765e-06,
      "loss": 0.4107,
      "step": 1757
    },
    {
      "epoch": 1.4806288601909041,
      "grad_norm": 0.34298351407051086,
      "learning_rate": 1.915515118772555e-06,
      "loss": 0.44,
      "step": 1758
    },
    {
      "epoch": 1.4814710836608647,
      "grad_norm": 0.35513490438461304,
      "learning_rate": 1.9097306027007495e-06,
      "loss": 0.4184,
      "step": 1759
    },
    {
      "epoch": 1.4823133071308254,
      "grad_norm": 0.37347134947776794,
      "learning_rate": 1.9039527715073424e-06,
      "loss": 0.409,
      "step": 1760
    },
    {
      "epoch": 1.483155530600786,
      "grad_norm": 0.33947890996932983,
      "learning_rate": 1.898181637690949e-06,
      "loss": 0.429,
      "step": 1761
    },
    {
      "epoch": 1.4839977540707467,
      "grad_norm": 0.38162165880203247,
      "learning_rate": 1.8924172137357038e-06,
      "loss": 0.4148,
      "step": 1762
    },
    {
      "epoch": 1.4848399775407075,
      "grad_norm": 0.3696694076061249,
      "learning_rate": 1.8866595121112196e-06,
      "loss": 0.4072,
      "step": 1763
    },
    {
      "epoch": 1.4856822010106683,
      "grad_norm": 0.3432232737541199,
      "learning_rate": 1.8809085452725744e-06,
      "loss": 0.4341,
      "step": 1764
    },
    {
      "epoch": 1.4865244244806288,
      "grad_norm": 0.3979092538356781,
      "learning_rate": 1.8751643256602714e-06,
      "loss": 0.4653,
      "step": 1765
    },
    {
      "epoch": 1.4873666479505896,
      "grad_norm": 0.3527960777282715,
      "learning_rate": 1.8694268657002197e-06,
      "loss": 0.4174,
      "step": 1766
    },
    {
      "epoch": 1.4882088714205501,
      "grad_norm": 0.3456384539604187,
      "learning_rate": 1.8636961778037083e-06,
      "loss": 0.4317,
      "step": 1767
    },
    {
      "epoch": 1.489051094890511,
      "grad_norm": 0.4457748830318451,
      "learning_rate": 1.8579722743673773e-06,
      "loss": 0.4085,
      "step": 1768
    },
    {
      "epoch": 1.4898933183604717,
      "grad_norm": 0.355386883020401,
      "learning_rate": 1.8522551677731864e-06,
      "loss": 0.4098,
      "step": 1769
    },
    {
      "epoch": 1.4907355418304324,
      "grad_norm": 0.35722196102142334,
      "learning_rate": 1.8465448703883959e-06,
      "loss": 0.4134,
      "step": 1770
    },
    {
      "epoch": 1.491577765300393,
      "grad_norm": 0.34937775135040283,
      "learning_rate": 1.840841394565534e-06,
      "loss": 0.389,
      "step": 1771
    },
    {
      "epoch": 1.4924199887703538,
      "grad_norm": 0.35541167855262756,
      "learning_rate": 1.8351447526423728e-06,
      "loss": 0.4251,
      "step": 1772
    },
    {
      "epoch": 1.4932622122403143,
      "grad_norm": 0.39150282740592957,
      "learning_rate": 1.8294549569419035e-06,
      "loss": 0.4491,
      "step": 1773
    },
    {
      "epoch": 1.494104435710275,
      "grad_norm": 0.39186835289001465,
      "learning_rate": 1.8237720197723075e-06,
      "loss": 0.4139,
      "step": 1774
    },
    {
      "epoch": 1.4949466591802358,
      "grad_norm": 0.32904553413391113,
      "learning_rate": 1.8180959534269277e-06,
      "loss": 0.4082,
      "step": 1775
    },
    {
      "epoch": 1.4957888826501966,
      "grad_norm": 0.34091219305992126,
      "learning_rate": 1.812426770184243e-06,
      "loss": 0.44,
      "step": 1776
    },
    {
      "epoch": 1.4966311061201572,
      "grad_norm": 0.33371061086654663,
      "learning_rate": 1.806764482307848e-06,
      "loss": 0.417,
      "step": 1777
    },
    {
      "epoch": 1.497473329590118,
      "grad_norm": 0.3594444692134857,
      "learning_rate": 1.8011091020464138e-06,
      "loss": 0.4593,
      "step": 1778
    },
    {
      "epoch": 1.4983155530600787,
      "grad_norm": 0.328056663274765,
      "learning_rate": 1.7954606416336766e-06,
      "loss": 0.4176,
      "step": 1779
    },
    {
      "epoch": 1.4991577765300392,
      "grad_norm": 0.33999690413475037,
      "learning_rate": 1.789819113288397e-06,
      "loss": 0.4186,
      "step": 1780
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3188195824623108,
      "learning_rate": 1.7841845292143462e-06,
      "loss": 0.4071,
      "step": 1781
    },
    {
      "epoch": 1.5008422234699608,
      "grad_norm": 0.35145464539527893,
      "learning_rate": 1.7785569016002686e-06,
      "loss": 0.4186,
      "step": 1782
    },
    {
      "epoch": 1.5016844469399215,
      "grad_norm": 0.35476604104042053,
      "learning_rate": 1.772936242619862e-06,
      "loss": 0.4339,
      "step": 1783
    },
    {
      "epoch": 1.502526670409882,
      "grad_norm": 0.3491154909133911,
      "learning_rate": 1.7673225644317487e-06,
      "loss": 0.4351,
      "step": 1784
    },
    {
      "epoch": 1.5033688938798426,
      "grad_norm": 0.3538490831851959,
      "learning_rate": 1.7617158791794519e-06,
      "loss": 0.4205,
      "step": 1785
    },
    {
      "epoch": 1.5042111173498034,
      "grad_norm": 0.37661126255989075,
      "learning_rate": 1.75611619899137e-06,
      "loss": 0.4237,
      "step": 1786
    },
    {
      "epoch": 1.5050533408197642,
      "grad_norm": 0.37242332100868225,
      "learning_rate": 1.7505235359807421e-06,
      "loss": 0.4559,
      "step": 1787
    },
    {
      "epoch": 1.505895564289725,
      "grad_norm": 0.3583943247795105,
      "learning_rate": 1.7449379022456297e-06,
      "loss": 0.3887,
      "step": 1788
    },
    {
      "epoch": 1.5067377877596857,
      "grad_norm": 0.35981881618499756,
      "learning_rate": 1.7393593098688933e-06,
      "loss": 0.4663,
      "step": 1789
    },
    {
      "epoch": 1.5075800112296462,
      "grad_norm": 0.3204587399959564,
      "learning_rate": 1.7337877709181527e-06,
      "loss": 0.3948,
      "step": 1790
    },
    {
      "epoch": 1.508422234699607,
      "grad_norm": 0.3533672094345093,
      "learning_rate": 1.7282232974457796e-06,
      "loss": 0.458,
      "step": 1791
    },
    {
      "epoch": 1.5092644581695676,
      "grad_norm": 0.3259710967540741,
      "learning_rate": 1.7226659014888548e-06,
      "loss": 0.3772,
      "step": 1792
    },
    {
      "epoch": 1.5101066816395283,
      "grad_norm": 0.38285455107688904,
      "learning_rate": 1.7171155950691488e-06,
      "loss": 0.4478,
      "step": 1793
    },
    {
      "epoch": 1.510948905109489,
      "grad_norm": 0.33159470558166504,
      "learning_rate": 1.711572390193102e-06,
      "loss": 0.4278,
      "step": 1794
    },
    {
      "epoch": 1.5117911285794499,
      "grad_norm": 0.31649360060691833,
      "learning_rate": 1.706036298851787e-06,
      "loss": 0.4202,
      "step": 1795
    },
    {
      "epoch": 1.5126333520494104,
      "grad_norm": 0.30611270666122437,
      "learning_rate": 1.7005073330208881e-06,
      "loss": 0.3462,
      "step": 1796
    },
    {
      "epoch": 1.5134755755193712,
      "grad_norm": 0.37295034527778625,
      "learning_rate": 1.6949855046606806e-06,
      "loss": 0.4497,
      "step": 1797
    },
    {
      "epoch": 1.5143177989893317,
      "grad_norm": 0.34578123688697815,
      "learning_rate": 1.689470825715998e-06,
      "loss": 0.4437,
      "step": 1798
    },
    {
      "epoch": 1.5151600224592925,
      "grad_norm": 0.3323022425174713,
      "learning_rate": 1.6839633081162065e-06,
      "loss": 0.4133,
      "step": 1799
    },
    {
      "epoch": 1.5160022459292533,
      "grad_norm": 0.3639059066772461,
      "learning_rate": 1.6784629637751814e-06,
      "loss": 0.411,
      "step": 1800
    },
    {
      "epoch": 1.516844469399214,
      "grad_norm": 0.32237112522125244,
      "learning_rate": 1.672969804591279e-06,
      "loss": 0.3748,
      "step": 1801
    },
    {
      "epoch": 1.5176866928691746,
      "grad_norm": 0.3330354690551758,
      "learning_rate": 1.6674838424473172e-06,
      "loss": 0.4034,
      "step": 1802
    },
    {
      "epoch": 1.5185289163391353,
      "grad_norm": 0.3642125725746155,
      "learning_rate": 1.6620050892105443e-06,
      "loss": 0.4596,
      "step": 1803
    },
    {
      "epoch": 1.5193711398090959,
      "grad_norm": 0.34500908851623535,
      "learning_rate": 1.6565335567326112e-06,
      "loss": 0.4279,
      "step": 1804
    },
    {
      "epoch": 1.5202133632790567,
      "grad_norm": 0.32341253757476807,
      "learning_rate": 1.651069256849549e-06,
      "loss": 0.422,
      "step": 1805
    },
    {
      "epoch": 1.5210555867490174,
      "grad_norm": 0.30617740750312805,
      "learning_rate": 1.6456122013817477e-06,
      "loss": 0.3836,
      "step": 1806
    },
    {
      "epoch": 1.5218978102189782,
      "grad_norm": 0.34637951850891113,
      "learning_rate": 1.6401624021339218e-06,
      "loss": 0.4437,
      "step": 1807
    },
    {
      "epoch": 1.522740033688939,
      "grad_norm": 0.35121333599090576,
      "learning_rate": 1.6347198708950884e-06,
      "loss": 0.4365,
      "step": 1808
    },
    {
      "epoch": 1.5235822571588995,
      "grad_norm": 0.3126169741153717,
      "learning_rate": 1.629284619438547e-06,
      "loss": 0.4067,
      "step": 1809
    },
    {
      "epoch": 1.52442448062886,
      "grad_norm": 0.36033329367637634,
      "learning_rate": 1.6238566595218475e-06,
      "loss": 0.4273,
      "step": 1810
    },
    {
      "epoch": 1.5252667040988208,
      "grad_norm": 0.37039580941200256,
      "learning_rate": 1.6184360028867658e-06,
      "loss": 0.4226,
      "step": 1811
    },
    {
      "epoch": 1.5261089275687816,
      "grad_norm": 0.33189326524734497,
      "learning_rate": 1.6130226612592787e-06,
      "loss": 0.4444,
      "step": 1812
    },
    {
      "epoch": 1.5269511510387423,
      "grad_norm": 0.3133426010608673,
      "learning_rate": 1.6076166463495384e-06,
      "loss": 0.3847,
      "step": 1813
    },
    {
      "epoch": 1.5277933745087031,
      "grad_norm": 0.3598099648952484,
      "learning_rate": 1.6022179698518525e-06,
      "loss": 0.4379,
      "step": 1814
    },
    {
      "epoch": 1.5286355979786637,
      "grad_norm": 0.32809314131736755,
      "learning_rate": 1.5968266434446522e-06,
      "loss": 0.4088,
      "step": 1815
    },
    {
      "epoch": 1.5294778214486242,
      "grad_norm": 0.3386622667312622,
      "learning_rate": 1.591442678790467e-06,
      "loss": 0.4578,
      "step": 1816
    },
    {
      "epoch": 1.530320044918585,
      "grad_norm": 0.34974172711372375,
      "learning_rate": 1.586066087535902e-06,
      "loss": 0.4198,
      "step": 1817
    },
    {
      "epoch": 1.5311622683885457,
      "grad_norm": 0.35961705446243286,
      "learning_rate": 1.580696881311611e-06,
      "loss": 0.4254,
      "step": 1818
    },
    {
      "epoch": 1.5320044918585065,
      "grad_norm": 0.3326985836029053,
      "learning_rate": 1.575335071732278e-06,
      "loss": 0.4497,
      "step": 1819
    },
    {
      "epoch": 1.5328467153284673,
      "grad_norm": 0.3723819851875305,
      "learning_rate": 1.5699806703965787e-06,
      "loss": 0.4517,
      "step": 1820
    },
    {
      "epoch": 1.5336889387984278,
      "grad_norm": 0.33416548371315,
      "learning_rate": 1.5646336888871715e-06,
      "loss": 0.407,
      "step": 1821
    },
    {
      "epoch": 1.5345311622683886,
      "grad_norm": 0.3458231985569,
      "learning_rate": 1.5592941387706562e-06,
      "loss": 0.4401,
      "step": 1822
    },
    {
      "epoch": 1.5353733857383491,
      "grad_norm": 0.35459110140800476,
      "learning_rate": 1.553962031597564e-06,
      "loss": 0.4078,
      "step": 1823
    },
    {
      "epoch": 1.53621560920831,
      "grad_norm": 0.3262896239757538,
      "learning_rate": 1.5486373789023206e-06,
      "loss": 0.441,
      "step": 1824
    },
    {
      "epoch": 1.5370578326782707,
      "grad_norm": 0.3064057230949402,
      "learning_rate": 1.5433201922032266e-06,
      "loss": 0.3734,
      "step": 1825
    },
    {
      "epoch": 1.5379000561482314,
      "grad_norm": 0.3403884768486023,
      "learning_rate": 1.538010483002435e-06,
      "loss": 0.4308,
      "step": 1826
    },
    {
      "epoch": 1.538742279618192,
      "grad_norm": 0.33586615324020386,
      "learning_rate": 1.532708262785923e-06,
      "loss": 0.4089,
      "step": 1827
    },
    {
      "epoch": 1.5395845030881528,
      "grad_norm": 0.3399958312511444,
      "learning_rate": 1.5274135430234654e-06,
      "loss": 0.4384,
      "step": 1828
    },
    {
      "epoch": 1.5404267265581133,
      "grad_norm": 0.33598870038986206,
      "learning_rate": 1.5221263351686133e-06,
      "loss": 0.4191,
      "step": 1829
    },
    {
      "epoch": 1.541268950028074,
      "grad_norm": 0.3242798447608948,
      "learning_rate": 1.5168466506586654e-06,
      "loss": 0.3944,
      "step": 1830
    },
    {
      "epoch": 1.5421111734980348,
      "grad_norm": 0.3594146966934204,
      "learning_rate": 1.5115745009146521e-06,
      "loss": 0.4453,
      "step": 1831
    },
    {
      "epoch": 1.5429533969679956,
      "grad_norm": 0.31869393587112427,
      "learning_rate": 1.506309897341297e-06,
      "loss": 0.3882,
      "step": 1832
    },
    {
      "epoch": 1.5437956204379562,
      "grad_norm": 0.34233564138412476,
      "learning_rate": 1.5010528513270073e-06,
      "loss": 0.4659,
      "step": 1833
    },
    {
      "epoch": 1.544637843907917,
      "grad_norm": 0.3680116534233093,
      "learning_rate": 1.4958033742438348e-06,
      "loss": 0.4079,
      "step": 1834
    },
    {
      "epoch": 1.5454800673778775,
      "grad_norm": 0.35390007495880127,
      "learning_rate": 1.4905614774474637e-06,
      "loss": 0.454,
      "step": 1835
    },
    {
      "epoch": 1.5463222908478382,
      "grad_norm": 0.3199808895587921,
      "learning_rate": 1.4853271722771772e-06,
      "loss": 0.4129,
      "step": 1836
    },
    {
      "epoch": 1.547164514317799,
      "grad_norm": 0.3140706717967987,
      "learning_rate": 1.4801004700558358e-06,
      "loss": 0.4332,
      "step": 1837
    },
    {
      "epoch": 1.5480067377877598,
      "grad_norm": 0.3402884602546692,
      "learning_rate": 1.4748813820898554e-06,
      "loss": 0.448,
      "step": 1838
    },
    {
      "epoch": 1.5488489612577205,
      "grad_norm": 0.3544921576976776,
      "learning_rate": 1.4696699196691822e-06,
      "loss": 0.4255,
      "step": 1839
    },
    {
      "epoch": 1.549691184727681,
      "grad_norm": 0.33217760920524597,
      "learning_rate": 1.4644660940672628e-06,
      "loss": 0.4292,
      "step": 1840
    },
    {
      "epoch": 1.5505334081976416,
      "grad_norm": 0.3239488899707794,
      "learning_rate": 1.4592699165410256e-06,
      "loss": 0.4034,
      "step": 1841
    },
    {
      "epoch": 1.5513756316676024,
      "grad_norm": 0.3216633200645447,
      "learning_rate": 1.454081398330855e-06,
      "loss": 0.4073,
      "step": 1842
    },
    {
      "epoch": 1.5522178551375632,
      "grad_norm": 0.3310301899909973,
      "learning_rate": 1.448900550660564e-06,
      "loss": 0.4112,
      "step": 1843
    },
    {
      "epoch": 1.553060078607524,
      "grad_norm": 0.3280441164970398,
      "learning_rate": 1.4437273847373778e-06,
      "loss": 0.4468,
      "step": 1844
    },
    {
      "epoch": 1.5539023020774847,
      "grad_norm": 0.3704146444797516,
      "learning_rate": 1.4385619117519023e-06,
      "loss": 0.4233,
      "step": 1845
    },
    {
      "epoch": 1.5547445255474452,
      "grad_norm": 0.3015342950820923,
      "learning_rate": 1.4334041428781003e-06,
      "loss": 0.3605,
      "step": 1846
    },
    {
      "epoch": 1.5555867490174058,
      "grad_norm": 0.34330591559410095,
      "learning_rate": 1.4282540892732682e-06,
      "loss": 0.4352,
      "step": 1847
    },
    {
      "epoch": 1.5564289724873666,
      "grad_norm": 0.36301088333129883,
      "learning_rate": 1.4231117620780188e-06,
      "loss": 0.449,
      "step": 1848
    },
    {
      "epoch": 1.5572711959573273,
      "grad_norm": 0.37500903010368347,
      "learning_rate": 1.4179771724162428e-06,
      "loss": 0.4234,
      "step": 1849
    },
    {
      "epoch": 1.558113419427288,
      "grad_norm": 0.3459777235984802,
      "learning_rate": 1.4128503313951008e-06,
      "loss": 0.4466,
      "step": 1850
    },
    {
      "epoch": 1.5589556428972489,
      "grad_norm": 0.34641754627227783,
      "learning_rate": 1.407731250104985e-06,
      "loss": 0.4204,
      "step": 1851
    },
    {
      "epoch": 1.5597978663672094,
      "grad_norm": 0.3531148433685303,
      "learning_rate": 1.4026199396195078e-06,
      "loss": 0.382,
      "step": 1852
    },
    {
      "epoch": 1.5606400898371702,
      "grad_norm": 0.41316914558410645,
      "learning_rate": 1.397516410995467e-06,
      "loss": 0.4586,
      "step": 1853
    },
    {
      "epoch": 1.5614823133071307,
      "grad_norm": 0.32894831895828247,
      "learning_rate": 1.3924206752728282e-06,
      "loss": 0.3944,
      "step": 1854
    },
    {
      "epoch": 1.5623245367770915,
      "grad_norm": 0.3474418818950653,
      "learning_rate": 1.3873327434746975e-06,
      "loss": 0.41,
      "step": 1855
    },
    {
      "epoch": 1.5631667602470523,
      "grad_norm": 0.33475440740585327,
      "learning_rate": 1.3822526266073044e-06,
      "loss": 0.3975,
      "step": 1856
    },
    {
      "epoch": 1.564008983717013,
      "grad_norm": 0.3427152633666992,
      "learning_rate": 1.3771803356599706e-06,
      "loss": 0.4004,
      "step": 1857
    },
    {
      "epoch": 1.5648512071869736,
      "grad_norm": 0.3275631368160248,
      "learning_rate": 1.3721158816050872e-06,
      "loss": 0.4277,
      "step": 1858
    },
    {
      "epoch": 1.5656934306569343,
      "grad_norm": 0.3331626057624817,
      "learning_rate": 1.3670592753980928e-06,
      "loss": 0.3962,
      "step": 1859
    },
    {
      "epoch": 1.5665356541268949,
      "grad_norm": 0.3377542197704315,
      "learning_rate": 1.3620105279774532e-06,
      "loss": 0.441,
      "step": 1860
    },
    {
      "epoch": 1.5673778775968557,
      "grad_norm": 0.3595743775367737,
      "learning_rate": 1.3569696502646274e-06,
      "loss": 0.4257,
      "step": 1861
    },
    {
      "epoch": 1.5682201010668164,
      "grad_norm": 0.32098302245140076,
      "learning_rate": 1.3519366531640589e-06,
      "loss": 0.4153,
      "step": 1862
    },
    {
      "epoch": 1.5690623245367772,
      "grad_norm": 0.3295694887638092,
      "learning_rate": 1.346911547563135e-06,
      "loss": 0.4168,
      "step": 1863
    },
    {
      "epoch": 1.5699045480067377,
      "grad_norm": 0.3282012343406677,
      "learning_rate": 1.3418943443321807e-06,
      "loss": 0.4288,
      "step": 1864
    },
    {
      "epoch": 1.5707467714766985,
      "grad_norm": 0.33233994245529175,
      "learning_rate": 1.3368850543244205e-06,
      "loss": 0.4342,
      "step": 1865
    },
    {
      "epoch": 1.571588994946659,
      "grad_norm": 0.34245654940605164,
      "learning_rate": 1.3318836883759634e-06,
      "loss": 0.3787,
      "step": 1866
    },
    {
      "epoch": 1.5724312184166198,
      "grad_norm": 0.31197845935821533,
      "learning_rate": 1.326890257305774e-06,
      "loss": 0.4237,
      "step": 1867
    },
    {
      "epoch": 1.5732734418865806,
      "grad_norm": 0.3518918752670288,
      "learning_rate": 1.3219047719156575e-06,
      "loss": 0.4586,
      "step": 1868
    },
    {
      "epoch": 1.5741156653565413,
      "grad_norm": 0.3063514530658722,
      "learning_rate": 1.3169272429902285e-06,
      "loss": 0.4418,
      "step": 1869
    },
    {
      "epoch": 1.5749578888265021,
      "grad_norm": 0.3389333486557007,
      "learning_rate": 1.3119576812968893e-06,
      "loss": 0.3854,
      "step": 1870
    },
    {
      "epoch": 1.5758001122964627,
      "grad_norm": 0.3283139765262604,
      "learning_rate": 1.3069960975858076e-06,
      "loss": 0.4211,
      "step": 1871
    },
    {
      "epoch": 1.5766423357664232,
      "grad_norm": 0.32352665066719055,
      "learning_rate": 1.3020425025898926e-06,
      "loss": 0.415,
      "step": 1872
    },
    {
      "epoch": 1.577484559236384,
      "grad_norm": 0.312848299741745,
      "learning_rate": 1.2970969070247742e-06,
      "loss": 0.4205,
      "step": 1873
    },
    {
      "epoch": 1.5783267827063447,
      "grad_norm": 0.3219815492630005,
      "learning_rate": 1.292159321588778e-06,
      "loss": 0.4386,
      "step": 1874
    },
    {
      "epoch": 1.5791690061763055,
      "grad_norm": 0.34514400362968445,
      "learning_rate": 1.2872297569629006e-06,
      "loss": 0.4525,
      "step": 1875
    },
    {
      "epoch": 1.5800112296462663,
      "grad_norm": 0.3163715600967407,
      "learning_rate": 1.282308223810786e-06,
      "loss": 0.3795,
      "step": 1876
    },
    {
      "epoch": 1.5808534531162268,
      "grad_norm": 0.3172951638698578,
      "learning_rate": 1.2773947327787106e-06,
      "loss": 0.3966,
      "step": 1877
    },
    {
      "epoch": 1.5816956765861874,
      "grad_norm": 0.32414522767066956,
      "learning_rate": 1.272489294495548e-06,
      "loss": 0.4376,
      "step": 1878
    },
    {
      "epoch": 1.5825379000561481,
      "grad_norm": 0.32840344309806824,
      "learning_rate": 1.2675919195727537e-06,
      "loss": 0.4471,
      "step": 1879
    },
    {
      "epoch": 1.583380123526109,
      "grad_norm": 0.32577359676361084,
      "learning_rate": 1.2627026186043423e-06,
      "loss": 0.4035,
      "step": 1880
    },
    {
      "epoch": 1.5842223469960697,
      "grad_norm": 0.3386983871459961,
      "learning_rate": 1.2578214021668633e-06,
      "loss": 0.4388,
      "step": 1881
    },
    {
      "epoch": 1.5850645704660304,
      "grad_norm": 0.32415056228637695,
      "learning_rate": 1.252948280819375e-06,
      "loss": 0.383,
      "step": 1882
    },
    {
      "epoch": 1.585906793935991,
      "grad_norm": 0.33981314301490784,
      "learning_rate": 1.2480832651034248e-06,
      "loss": 0.4006,
      "step": 1883
    },
    {
      "epoch": 1.5867490174059518,
      "grad_norm": 0.3257695436477661,
      "learning_rate": 1.243226365543026e-06,
      "loss": 0.4018,
      "step": 1884
    },
    {
      "epoch": 1.5875912408759123,
      "grad_norm": 0.3303467333316803,
      "learning_rate": 1.2383775926446367e-06,
      "loss": 0.4182,
      "step": 1885
    },
    {
      "epoch": 1.588433464345873,
      "grad_norm": 0.3328916132450104,
      "learning_rate": 1.2335369568971362e-06,
      "loss": 0.442,
      "step": 1886
    },
    {
      "epoch": 1.5892756878158338,
      "grad_norm": 0.32880210876464844,
      "learning_rate": 1.228704468771798e-06,
      "loss": 0.4397,
      "step": 1887
    },
    {
      "epoch": 1.5901179112857946,
      "grad_norm": 0.3375093936920166,
      "learning_rate": 1.2238801387222716e-06,
      "loss": 0.4131,
      "step": 1888
    },
    {
      "epoch": 1.5909601347557552,
      "grad_norm": 0.3244728744029999,
      "learning_rate": 1.2190639771845615e-06,
      "loss": 0.4008,
      "step": 1889
    },
    {
      "epoch": 1.591802358225716,
      "grad_norm": 0.34761855006217957,
      "learning_rate": 1.2142559945769995e-06,
      "loss": 0.4334,
      "step": 1890
    },
    {
      "epoch": 1.5926445816956765,
      "grad_norm": 0.3302554488182068,
      "learning_rate": 1.2094562013002237e-06,
      "loss": 0.3847,
      "step": 1891
    },
    {
      "epoch": 1.5934868051656372,
      "grad_norm": 0.3463303744792938,
      "learning_rate": 1.2046646077371615e-06,
      "loss": 0.4829,
      "step": 1892
    },
    {
      "epoch": 1.594329028635598,
      "grad_norm": 0.32573333382606506,
      "learning_rate": 1.1998812242529977e-06,
      "loss": 0.4153,
      "step": 1893
    },
    {
      "epoch": 1.5951712521055588,
      "grad_norm": 0.32305577397346497,
      "learning_rate": 1.1951060611951615e-06,
      "loss": 0.3884,
      "step": 1894
    },
    {
      "epoch": 1.5960134755755195,
      "grad_norm": 0.3423241078853607,
      "learning_rate": 1.190339128893297e-06,
      "loss": 0.4222,
      "step": 1895
    },
    {
      "epoch": 1.59685569904548,
      "grad_norm": 0.33864626288414,
      "learning_rate": 1.185580437659241e-06,
      "loss": 0.4026,
      "step": 1896
    },
    {
      "epoch": 1.5976979225154406,
      "grad_norm": 0.317676842212677,
      "learning_rate": 1.1808299977870087e-06,
      "loss": 0.4171,
      "step": 1897
    },
    {
      "epoch": 1.5985401459854014,
      "grad_norm": 0.3107874095439911,
      "learning_rate": 1.1760878195527642e-06,
      "loss": 0.3821,
      "step": 1898
    },
    {
      "epoch": 1.5993823694553622,
      "grad_norm": 0.3243890702724457,
      "learning_rate": 1.1713539132147984e-06,
      "loss": 0.4389,
      "step": 1899
    },
    {
      "epoch": 1.600224592925323,
      "grad_norm": 0.337858110666275,
      "learning_rate": 1.1666282890135083e-06,
      "loss": 0.4228,
      "step": 1900
    },
    {
      "epoch": 1.6010668163952837,
      "grad_norm": 0.35022062063217163,
      "learning_rate": 1.1619109571713754e-06,
      "loss": 0.4177,
      "step": 1901
    },
    {
      "epoch": 1.6019090398652442,
      "grad_norm": 0.345595121383667,
      "learning_rate": 1.1572019278929457e-06,
      "loss": 0.398,
      "step": 1902
    },
    {
      "epoch": 1.6027512633352048,
      "grad_norm": 0.34792229533195496,
      "learning_rate": 1.1525012113648004e-06,
      "loss": 0.4209,
      "step": 1903
    },
    {
      "epoch": 1.6035934868051656,
      "grad_norm": 0.3018966019153595,
      "learning_rate": 1.147808817755544e-06,
      "loss": 0.3917,
      "step": 1904
    },
    {
      "epoch": 1.6044357102751263,
      "grad_norm": 0.37624192237854004,
      "learning_rate": 1.143124757215771e-06,
      "loss": 0.471,
      "step": 1905
    },
    {
      "epoch": 1.605277933745087,
      "grad_norm": 0.329908162355423,
      "learning_rate": 1.1384490398780563e-06,
      "loss": 0.442,
      "step": 1906
    },
    {
      "epoch": 1.6061201572150479,
      "grad_norm": 0.31933608651161194,
      "learning_rate": 1.1337816758569203e-06,
      "loss": 0.4117,
      "step": 1907
    },
    {
      "epoch": 1.6069623806850084,
      "grad_norm": 0.32395389676094055,
      "learning_rate": 1.129122675248816e-06,
      "loss": 0.4134,
      "step": 1908
    },
    {
      "epoch": 1.607804604154969,
      "grad_norm": 0.34286734461784363,
      "learning_rate": 1.1244720481321058e-06,
      "loss": 0.4639,
      "step": 1909
    },
    {
      "epoch": 1.6086468276249297,
      "grad_norm": 0.32720711827278137,
      "learning_rate": 1.1198298045670402e-06,
      "loss": 0.41,
      "step": 1910
    },
    {
      "epoch": 1.6094890510948905,
      "grad_norm": 0.33373183012008667,
      "learning_rate": 1.1151959545957298e-06,
      "loss": 0.407,
      "step": 1911
    },
    {
      "epoch": 1.6103312745648513,
      "grad_norm": 0.3442859351634979,
      "learning_rate": 1.1105705082421303e-06,
      "loss": 0.4285,
      "step": 1912
    },
    {
      "epoch": 1.611173498034812,
      "grad_norm": 0.3405582308769226,
      "learning_rate": 1.105953475512019e-06,
      "loss": 0.4406,
      "step": 1913
    },
    {
      "epoch": 1.6120157215047726,
      "grad_norm": 0.37167730927467346,
      "learning_rate": 1.1013448663929704e-06,
      "loss": 0.4462,
      "step": 1914
    },
    {
      "epoch": 1.6128579449747333,
      "grad_norm": 0.3488942086696625,
      "learning_rate": 1.0967446908543417e-06,
      "loss": 0.4301,
      "step": 1915
    },
    {
      "epoch": 1.6137001684446939,
      "grad_norm": 0.3353165090084076,
      "learning_rate": 1.0921529588472446e-06,
      "loss": 0.4056,
      "step": 1916
    },
    {
      "epoch": 1.6145423919146547,
      "grad_norm": 0.30114513635635376,
      "learning_rate": 1.087569680304524e-06,
      "loss": 0.4066,
      "step": 1917
    },
    {
      "epoch": 1.6153846153846154,
      "grad_norm": 0.30199000239372253,
      "learning_rate": 1.0829948651407374e-06,
      "loss": 0.4038,
      "step": 1918
    },
    {
      "epoch": 1.6162268388545762,
      "grad_norm": 0.30296680331230164,
      "learning_rate": 1.0784285232521403e-06,
      "loss": 0.395,
      "step": 1919
    },
    {
      "epoch": 1.6170690623245367,
      "grad_norm": 0.32822728157043457,
      "learning_rate": 1.0738706645166508e-06,
      "loss": 0.4289,
      "step": 1920
    },
    {
      "epoch": 1.6179112857944975,
      "grad_norm": 0.3094775378704071,
      "learning_rate": 1.069321298793843e-06,
      "loss": 0.4102,
      "step": 1921
    },
    {
      "epoch": 1.618753509264458,
      "grad_norm": 0.32699596881866455,
      "learning_rate": 1.0647804359249143e-06,
      "loss": 0.4556,
      "step": 1922
    },
    {
      "epoch": 1.6195957327344188,
      "grad_norm": 0.3170965313911438,
      "learning_rate": 1.060248085732672e-06,
      "loss": 0.4083,
      "step": 1923
    },
    {
      "epoch": 1.6204379562043796,
      "grad_norm": 0.3327624201774597,
      "learning_rate": 1.0557242580215066e-06,
      "loss": 0.4316,
      "step": 1924
    },
    {
      "epoch": 1.6212801796743403,
      "grad_norm": 0.34012749791145325,
      "learning_rate": 1.0512089625773735e-06,
      "loss": 0.4348,
      "step": 1925
    },
    {
      "epoch": 1.6221224031443011,
      "grad_norm": 0.30896949768066406,
      "learning_rate": 1.0467022091677692e-06,
      "loss": 0.4152,
      "step": 1926
    },
    {
      "epoch": 1.6229646266142617,
      "grad_norm": 0.3113643527030945,
      "learning_rate": 1.0422040075417157e-06,
      "loss": 0.388,
      "step": 1927
    },
    {
      "epoch": 1.6238068500842222,
      "grad_norm": 0.3536722660064697,
      "learning_rate": 1.037714367429734e-06,
      "loss": 0.4567,
      "step": 1928
    },
    {
      "epoch": 1.624649073554183,
      "grad_norm": 0.315513551235199,
      "learning_rate": 1.0332332985438248e-06,
      "loss": 0.3624,
      "step": 1929
    },
    {
      "epoch": 1.6254912970241437,
      "grad_norm": 0.3340911567211151,
      "learning_rate": 1.0287608105774456e-06,
      "loss": 0.4541,
      "step": 1930
    },
    {
      "epoch": 1.6263335204941045,
      "grad_norm": 0.3287148177623749,
      "learning_rate": 1.0242969132054953e-06,
      "loss": 0.3836,
      "step": 1931
    },
    {
      "epoch": 1.6271757439640653,
      "grad_norm": 0.30759793519973755,
      "learning_rate": 1.019841616084286e-06,
      "loss": 0.4172,
      "step": 1932
    },
    {
      "epoch": 1.6280179674340258,
      "grad_norm": 0.3307034969329834,
      "learning_rate": 1.0153949288515301e-06,
      "loss": 0.4463,
      "step": 1933
    },
    {
      "epoch": 1.6288601909039864,
      "grad_norm": 0.35669130086898804,
      "learning_rate": 1.0109568611263094e-06,
      "loss": 0.4265,
      "step": 1934
    },
    {
      "epoch": 1.6297024143739471,
      "grad_norm": 0.30105963349342346,
      "learning_rate": 1.0065274225090649e-06,
      "loss": 0.3856,
      "step": 1935
    },
    {
      "epoch": 1.630544637843908,
      "grad_norm": 0.30968448519706726,
      "learning_rate": 1.002106622581569e-06,
      "loss": 0.4064,
      "step": 1936
    },
    {
      "epoch": 1.6313868613138687,
      "grad_norm": 0.3112069070339203,
      "learning_rate": 9.97694470906907e-07,
      "loss": 0.3651,
      "step": 1937
    },
    {
      "epoch": 1.6322290847838294,
      "grad_norm": 0.3629954159259796,
      "learning_rate": 9.932909770294542e-07,
      "loss": 0.4593,
      "step": 1938
    },
    {
      "epoch": 1.63307130825379,
      "grad_norm": 0.30865004658699036,
      "learning_rate": 9.888961504748613e-07,
      "loss": 0.3972,
      "step": 1939
    },
    {
      "epoch": 1.6339135317237508,
      "grad_norm": 0.3209587335586548,
      "learning_rate": 9.845100007500292e-07,
      "loss": 0.4313,
      "step": 1940
    },
    {
      "epoch": 1.6347557551937113,
      "grad_norm": 0.3457348048686981,
      "learning_rate": 9.801325373430864e-07,
      "loss": 0.4126,
      "step": 1941
    },
    {
      "epoch": 1.635597978663672,
      "grad_norm": 0.3081376552581787,
      "learning_rate": 9.757637697233723e-07,
      "loss": 0.4086,
      "step": 1942
    },
    {
      "epoch": 1.6364402021336328,
      "grad_norm": 0.3592546582221985,
      "learning_rate": 9.714037073414156e-07,
      "loss": 0.4731,
      "step": 1943
    },
    {
      "epoch": 1.6372824256035936,
      "grad_norm": 0.3032563626766205,
      "learning_rate": 9.670523596289138e-07,
      "loss": 0.367,
      "step": 1944
    },
    {
      "epoch": 1.6381246490735542,
      "grad_norm": 0.33139944076538086,
      "learning_rate": 9.627097359987153e-07,
      "loss": 0.4648,
      "step": 1945
    },
    {
      "epoch": 1.638966872543515,
      "grad_norm": 0.3195991516113281,
      "learning_rate": 9.58375845844793e-07,
      "loss": 0.4239,
      "step": 1946
    },
    {
      "epoch": 1.6398090960134755,
      "grad_norm": 0.3259889483451843,
      "learning_rate": 9.54050698542227e-07,
      "loss": 0.3901,
      "step": 1947
    },
    {
      "epoch": 1.6406513194834362,
      "grad_norm": 0.3020351231098175,
      "learning_rate": 9.497343034471896e-07,
      "loss": 0.381,
      "step": 1948
    },
    {
      "epoch": 1.641493542953397,
      "grad_norm": 0.3010574281215668,
      "learning_rate": 9.454266698969155e-07,
      "loss": 0.4262,
      "step": 1949
    },
    {
      "epoch": 1.6423357664233578,
      "grad_norm": 0.33902907371520996,
      "learning_rate": 9.41127807209688e-07,
      "loss": 0.4379,
      "step": 1950
    },
    {
      "epoch": 1.6431779898933183,
      "grad_norm": 0.31896674633026123,
      "learning_rate": 9.368377246848176e-07,
      "loss": 0.3999,
      "step": 1951
    },
    {
      "epoch": 1.644020213363279,
      "grad_norm": 0.3241105377674103,
      "learning_rate": 9.325564316026236e-07,
      "loss": 0.4283,
      "step": 1952
    },
    {
      "epoch": 1.6448624368332396,
      "grad_norm": 0.3311357796192169,
      "learning_rate": 9.282839372244079e-07,
      "loss": 0.4288,
      "step": 1953
    },
    {
      "epoch": 1.6457046603032004,
      "grad_norm": 0.30544155836105347,
      "learning_rate": 9.240202507924412e-07,
      "loss": 0.3948,
      "step": 1954
    },
    {
      "epoch": 1.6465468837731612,
      "grad_norm": 0.29865172505378723,
      "learning_rate": 9.19765381529939e-07,
      "loss": 0.3579,
      "step": 1955
    },
    {
      "epoch": 1.647389107243122,
      "grad_norm": 0.31857866048812866,
      "learning_rate": 9.155193386410466e-07,
      "loss": 0.4538,
      "step": 1956
    },
    {
      "epoch": 1.6482313307130827,
      "grad_norm": 0.300119012594223,
      "learning_rate": 9.112821313108155e-07,
      "loss": 0.3819,
      "step": 1957
    },
    {
      "epoch": 1.6490735541830432,
      "grad_norm": 0.3328356146812439,
      "learning_rate": 9.070537687051817e-07,
      "loss": 0.4302,
      "step": 1958
    },
    {
      "epoch": 1.6499157776530038,
      "grad_norm": 0.3195270597934723,
      "learning_rate": 9.028342599709488e-07,
      "loss": 0.4372,
      "step": 1959
    },
    {
      "epoch": 1.6507580011229646,
      "grad_norm": 0.33585846424102783,
      "learning_rate": 8.986236142357707e-07,
      "loss": 0.4399,
      "step": 1960
    },
    {
      "epoch": 1.6516002245929253,
      "grad_norm": 0.3447743058204651,
      "learning_rate": 8.944218406081256e-07,
      "loss": 0.4235,
      "step": 1961
    },
    {
      "epoch": 1.652442448062886,
      "grad_norm": 0.3242300748825073,
      "learning_rate": 8.902289481772996e-07,
      "loss": 0.3962,
      "step": 1962
    },
    {
      "epoch": 1.6532846715328469,
      "grad_norm": 0.37445423007011414,
      "learning_rate": 8.860449460133696e-07,
      "loss": 0.4542,
      "step": 1963
    },
    {
      "epoch": 1.6541268950028074,
      "grad_norm": 0.32646793127059937,
      "learning_rate": 8.818698431671774e-07,
      "loss": 0.3802,
      "step": 1964
    },
    {
      "epoch": 1.654969118472768,
      "grad_norm": 0.32430899143218994,
      "learning_rate": 8.777036486703189e-07,
      "loss": 0.4239,
      "step": 1965
    },
    {
      "epoch": 1.6558113419427287,
      "grad_norm": 0.34872496128082275,
      "learning_rate": 8.735463715351139e-07,
      "loss": 0.4341,
      "step": 1966
    },
    {
      "epoch": 1.6566535654126895,
      "grad_norm": 0.3612508475780487,
      "learning_rate": 8.693980207545954e-07,
      "loss": 0.4583,
      "step": 1967
    },
    {
      "epoch": 1.6574957888826503,
      "grad_norm": 0.3135264813899994,
      "learning_rate": 8.652586053024836e-07,
      "loss": 0.373,
      "step": 1968
    },
    {
      "epoch": 1.658338012352611,
      "grad_norm": 0.33245691657066345,
      "learning_rate": 8.611281341331768e-07,
      "loss": 0.4676,
      "step": 1969
    },
    {
      "epoch": 1.6591802358225716,
      "grad_norm": 0.3047700524330139,
      "learning_rate": 8.570066161817176e-07,
      "loss": 0.4046,
      "step": 1970
    },
    {
      "epoch": 1.6600224592925323,
      "grad_norm": 0.30314791202545166,
      "learning_rate": 8.528940603637847e-07,
      "loss": 0.4025,
      "step": 1971
    },
    {
      "epoch": 1.6608646827624929,
      "grad_norm": 0.3047153353691101,
      "learning_rate": 8.487904755756676e-07,
      "loss": 0.4038,
      "step": 1972
    },
    {
      "epoch": 1.6617069062324537,
      "grad_norm": 0.3407222628593445,
      "learning_rate": 8.446958706942537e-07,
      "loss": 0.4373,
      "step": 1973
    },
    {
      "epoch": 1.6625491297024144,
      "grad_norm": 0.3194696605205536,
      "learning_rate": 8.406102545769989e-07,
      "loss": 0.396,
      "step": 1974
    },
    {
      "epoch": 1.6633913531723752,
      "grad_norm": 0.3219415247440338,
      "learning_rate": 8.365336360619214e-07,
      "loss": 0.4165,
      "step": 1975
    },
    {
      "epoch": 1.6642335766423357,
      "grad_norm": 0.3146691918373108,
      "learning_rate": 8.324660239675697e-07,
      "loss": 0.4086,
      "step": 1976
    },
    {
      "epoch": 1.6650758001122965,
      "grad_norm": 0.35371845960617065,
      "learning_rate": 8.284074270930154e-07,
      "loss": 0.4389,
      "step": 1977
    },
    {
      "epoch": 1.665918023582257,
      "grad_norm": 0.34561264514923096,
      "learning_rate": 8.243578542178227e-07,
      "loss": 0.4172,
      "step": 1978
    },
    {
      "epoch": 1.6667602470522178,
      "grad_norm": 0.32701581716537476,
      "learning_rate": 8.203173141020393e-07,
      "loss": 0.3437,
      "step": 1979
    },
    {
      "epoch": 1.6676024705221786,
      "grad_norm": 0.3266565799713135,
      "learning_rate": 8.16285815486168e-07,
      "loss": 0.4534,
      "step": 1980
    },
    {
      "epoch": 1.6684446939921393,
      "grad_norm": 0.32803213596343994,
      "learning_rate": 8.122633670911617e-07,
      "loss": 0.4382,
      "step": 1981
    },
    {
      "epoch": 1.6692869174621,
      "grad_norm": 0.33366134762763977,
      "learning_rate": 8.082499776183883e-07,
      "loss": 0.4415,
      "step": 1982
    },
    {
      "epoch": 1.6701291409320607,
      "grad_norm": 0.3098812401294708,
      "learning_rate": 8.04245655749622e-07,
      "loss": 0.401,
      "step": 1983
    },
    {
      "epoch": 1.6709713644020212,
      "grad_norm": 0.31068190932273865,
      "learning_rate": 8.002504101470204e-07,
      "loss": 0.4377,
      "step": 1984
    },
    {
      "epoch": 1.671813587871982,
      "grad_norm": 0.28444576263427734,
      "learning_rate": 7.962642494531109e-07,
      "loss": 0.397,
      "step": 1985
    },
    {
      "epoch": 1.6726558113419427,
      "grad_norm": 0.33967554569244385,
      "learning_rate": 7.922871822907641e-07,
      "loss": 0.4354,
      "step": 1986
    },
    {
      "epoch": 1.6734980348119035,
      "grad_norm": 0.3252769410610199,
      "learning_rate": 7.883192172631837e-07,
      "loss": 0.4451,
      "step": 1987
    },
    {
      "epoch": 1.6743402582818643,
      "grad_norm": 0.3496026396751404,
      "learning_rate": 7.843603629538804e-07,
      "loss": 0.457,
      "step": 1988
    },
    {
      "epoch": 1.6751824817518248,
      "grad_norm": 0.30535686016082764,
      "learning_rate": 7.804106279266566e-07,
      "loss": 0.4054,
      "step": 1989
    },
    {
      "epoch": 1.6760247052217854,
      "grad_norm": 0.3158566951751709,
      "learning_rate": 7.764700207255904e-07,
      "loss": 0.4432,
      "step": 1990
    },
    {
      "epoch": 1.6768669286917461,
      "grad_norm": 0.3275320529937744,
      "learning_rate": 7.725385498750127e-07,
      "loss": 0.4303,
      "step": 1991
    },
    {
      "epoch": 1.677709152161707,
      "grad_norm": 0.29802197217941284,
      "learning_rate": 7.686162238794898e-07,
      "loss": 0.3764,
      "step": 1992
    },
    {
      "epoch": 1.6785513756316677,
      "grad_norm": 0.33738189935684204,
      "learning_rate": 7.647030512238074e-07,
      "loss": 0.4205,
      "step": 1993
    },
    {
      "epoch": 1.6793935991016284,
      "grad_norm": 0.3157523572444916,
      "learning_rate": 7.607990403729526e-07,
      "loss": 0.3895,
      "step": 1994
    },
    {
      "epoch": 1.680235822571589,
      "grad_norm": 0.30241331458091736,
      "learning_rate": 7.569041997720888e-07,
      "loss": 0.382,
      "step": 1995
    },
    {
      "epoch": 1.6810780460415495,
      "grad_norm": 0.3437877893447876,
      "learning_rate": 7.530185378465459e-07,
      "loss": 0.4601,
      "step": 1996
    },
    {
      "epoch": 1.6819202695115103,
      "grad_norm": 0.30494582653045654,
      "learning_rate": 7.491420630017959e-07,
      "loss": 0.4003,
      "step": 1997
    },
    {
      "epoch": 1.682762492981471,
      "grad_norm": 0.3157051205635071,
      "learning_rate": 7.452747836234392e-07,
      "loss": 0.4429,
      "step": 1998
    },
    {
      "epoch": 1.6836047164514318,
      "grad_norm": 0.30496200919151306,
      "learning_rate": 7.414167080771867e-07,
      "loss": 0.377,
      "step": 1999
    },
    {
      "epoch": 1.6844469399213926,
      "grad_norm": 0.342043936252594,
      "learning_rate": 7.375678447088347e-07,
      "loss": 0.4385,
      "step": 2000
    },
    {
      "epoch": 1.6852891633913532,
      "grad_norm": 0.3357844352722168,
      "learning_rate": 7.337282018442526e-07,
      "loss": 0.4328,
      "step": 2001
    },
    {
      "epoch": 1.686131386861314,
      "grad_norm": 0.30111145973205566,
      "learning_rate": 7.298977877893688e-07,
      "loss": 0.4006,
      "step": 2002
    },
    {
      "epoch": 1.6869736103312745,
      "grad_norm": 0.3300328254699707,
      "learning_rate": 7.26076610830142e-07,
      "loss": 0.4428,
      "step": 2003
    },
    {
      "epoch": 1.6878158338012352,
      "grad_norm": 0.3184387683868408,
      "learning_rate": 7.222646792325516e-07,
      "loss": 0.4246,
      "step": 2004
    },
    {
      "epoch": 1.688658057271196,
      "grad_norm": 0.30529889464378357,
      "learning_rate": 7.184620012425781e-07,
      "loss": 0.4314,
      "step": 2005
    },
    {
      "epoch": 1.6895002807411568,
      "grad_norm": 0.30832624435424805,
      "learning_rate": 7.146685850861851e-07,
      "loss": 0.3783,
      "step": 2006
    },
    {
      "epoch": 1.6903425042111173,
      "grad_norm": 0.302521288394928,
      "learning_rate": 7.108844389692982e-07,
      "loss": 0.4124,
      "step": 2007
    },
    {
      "epoch": 1.691184727681078,
      "grad_norm": 0.3492201864719391,
      "learning_rate": 7.071095710777925e-07,
      "loss": 0.4026,
      "step": 2008
    },
    {
      "epoch": 1.6920269511510386,
      "grad_norm": 0.3064643144607544,
      "learning_rate": 7.033439895774696e-07,
      "loss": 0.4198,
      "step": 2009
    },
    {
      "epoch": 1.6928691746209994,
      "grad_norm": 0.3456943929195404,
      "learning_rate": 6.995877026140468e-07,
      "loss": 0.4339,
      "step": 2010
    },
    {
      "epoch": 1.6937113980909602,
      "grad_norm": 0.31591808795928955,
      "learning_rate": 6.958407183131339e-07,
      "loss": 0.4167,
      "step": 2011
    },
    {
      "epoch": 1.694553621560921,
      "grad_norm": 0.33415910601615906,
      "learning_rate": 6.921030447802146e-07,
      "loss": 0.4303,
      "step": 2012
    },
    {
      "epoch": 1.6953958450308815,
      "grad_norm": 0.33317384123802185,
      "learning_rate": 6.883746901006355e-07,
      "loss": 0.4309,
      "step": 2013
    },
    {
      "epoch": 1.6962380685008422,
      "grad_norm": 0.3481583595275879,
      "learning_rate": 6.846556623395795e-07,
      "loss": 0.4019,
      "step": 2014
    },
    {
      "epoch": 1.6970802919708028,
      "grad_norm": 0.362181693315506,
      "learning_rate": 6.809459695420606e-07,
      "loss": 0.4423,
      "step": 2015
    },
    {
      "epoch": 1.6979225154407636,
      "grad_norm": 0.33407410979270935,
      "learning_rate": 6.772456197328919e-07,
      "loss": 0.3762,
      "step": 2016
    },
    {
      "epoch": 1.6987647389107243,
      "grad_norm": 0.3233018219470978,
      "learning_rate": 6.735546209166822e-07,
      "loss": 0.4572,
      "step": 2017
    },
    {
      "epoch": 1.699606962380685,
      "grad_norm": 0.3191826641559601,
      "learning_rate": 6.698729810778065e-07,
      "loss": 0.3941,
      "step": 2018
    },
    {
      "epoch": 1.7004491858506459,
      "grad_norm": 0.34662261605262756,
      "learning_rate": 6.662007081804e-07,
      "loss": 0.4422,
      "step": 2019
    },
    {
      "epoch": 1.7012914093206064,
      "grad_norm": 0.32614052295684814,
      "learning_rate": 6.625378101683317e-07,
      "loss": 0.415,
      "step": 2020
    },
    {
      "epoch": 1.702133632790567,
      "grad_norm": 0.3267694115638733,
      "learning_rate": 6.588842949651891e-07,
      "loss": 0.4106,
      "step": 2021
    },
    {
      "epoch": 1.7029758562605277,
      "grad_norm": 0.28687727451324463,
      "learning_rate": 6.552401704742678e-07,
      "loss": 0.3645,
      "step": 2022
    },
    {
      "epoch": 1.7038180797304885,
      "grad_norm": 0.3282168209552765,
      "learning_rate": 6.516054445785469e-07,
      "loss": 0.4511,
      "step": 2023
    },
    {
      "epoch": 1.7046603032004493,
      "grad_norm": 0.30898967385292053,
      "learning_rate": 6.479801251406748e-07,
      "loss": 0.4413,
      "step": 2024
    },
    {
      "epoch": 1.70550252667041,
      "grad_norm": 0.29526636004447937,
      "learning_rate": 6.443642200029498e-07,
      "loss": 0.3982,
      "step": 2025
    },
    {
      "epoch": 1.7063447501403706,
      "grad_norm": 0.29990583658218384,
      "learning_rate": 6.40757736987307e-07,
      "loss": 0.423,
      "step": 2026
    },
    {
      "epoch": 1.7071869736103311,
      "grad_norm": 0.3073776662349701,
      "learning_rate": 6.371606838953009e-07,
      "loss": 0.443,
      "step": 2027
    },
    {
      "epoch": 1.7080291970802919,
      "grad_norm": 0.3193381130695343,
      "learning_rate": 6.335730685080838e-07,
      "loss": 0.4137,
      "step": 2028
    },
    {
      "epoch": 1.7088714205502527,
      "grad_norm": 0.31391191482543945,
      "learning_rate": 6.299948985863963e-07,
      "loss": 0.3772,
      "step": 2029
    },
    {
      "epoch": 1.7097136440202134,
      "grad_norm": 0.30621567368507385,
      "learning_rate": 6.26426181870542e-07,
      "loss": 0.4235,
      "step": 2030
    },
    {
      "epoch": 1.7105558674901742,
      "grad_norm": 0.32227933406829834,
      "learning_rate": 6.228669260803799e-07,
      "loss": 0.4254,
      "step": 2031
    },
    {
      "epoch": 1.7113980909601347,
      "grad_norm": 0.3097950220108032,
      "learning_rate": 6.193171389152996e-07,
      "loss": 0.4434,
      "step": 2032
    },
    {
      "epoch": 1.7122403144300955,
      "grad_norm": 0.3104609251022339,
      "learning_rate": 6.157768280542093e-07,
      "loss": 0.4009,
      "step": 2033
    },
    {
      "epoch": 1.713082537900056,
      "grad_norm": 0.31743478775024414,
      "learning_rate": 6.122460011555187e-07,
      "loss": 0.4133,
      "step": 2034
    },
    {
      "epoch": 1.7139247613700168,
      "grad_norm": 0.35982733964920044,
      "learning_rate": 6.087246658571222e-07,
      "loss": 0.4711,
      "step": 2035
    },
    {
      "epoch": 1.7147669848399776,
      "grad_norm": 0.3193519413471222,
      "learning_rate": 6.052128297763804e-07,
      "loss": 0.4032,
      "step": 2036
    },
    {
      "epoch": 1.7156092083099383,
      "grad_norm": 0.3236728012561798,
      "learning_rate": 6.017105005101053e-07,
      "loss": 0.4029,
      "step": 2037
    },
    {
      "epoch": 1.716451431779899,
      "grad_norm": 0.33502641320228577,
      "learning_rate": 5.982176856345445e-07,
      "loss": 0.457,
      "step": 2038
    },
    {
      "epoch": 1.7172936552498597,
      "grad_norm": 0.3122082054615021,
      "learning_rate": 5.947343927053628e-07,
      "loss": 0.406,
      "step": 2039
    },
    {
      "epoch": 1.7181358787198202,
      "grad_norm": 0.3099643588066101,
      "learning_rate": 5.912606292576284e-07,
      "loss": 0.4105,
      "step": 2040
    },
    {
      "epoch": 1.718978102189781,
      "grad_norm": 0.3190658986568451,
      "learning_rate": 5.877964028057976e-07,
      "loss": 0.4368,
      "step": 2041
    },
    {
      "epoch": 1.7198203256597417,
      "grad_norm": 0.33700498938560486,
      "learning_rate": 5.843417208436908e-07,
      "loss": 0.4729,
      "step": 2042
    },
    {
      "epoch": 1.7206625491297025,
      "grad_norm": 0.3437603712081909,
      "learning_rate": 5.808965908444842e-07,
      "loss": 0.4579,
      "step": 2043
    },
    {
      "epoch": 1.721504772599663,
      "grad_norm": 0.2980368733406067,
      "learning_rate": 5.774610202606939e-07,
      "loss": 0.3951,
      "step": 2044
    },
    {
      "epoch": 1.7223469960696238,
      "grad_norm": 0.33636581897735596,
      "learning_rate": 5.740350165241526e-07,
      "loss": 0.3914,
      "step": 2045
    },
    {
      "epoch": 1.7231892195395844,
      "grad_norm": 0.3236667811870575,
      "learning_rate": 5.706185870460018e-07,
      "loss": 0.4265,
      "step": 2046
    },
    {
      "epoch": 1.7240314430095451,
      "grad_norm": 0.3056963086128235,
      "learning_rate": 5.672117392166688e-07,
      "loss": 0.4363,
      "step": 2047
    },
    {
      "epoch": 1.724873666479506,
      "grad_norm": 0.30504289269447327,
      "learning_rate": 5.63814480405856e-07,
      "loss": 0.3852,
      "step": 2048
    },
    {
      "epoch": 1.7257158899494667,
      "grad_norm": 0.33549433946609497,
      "learning_rate": 5.604268179625222e-07,
      "loss": 0.4653,
      "step": 2049
    },
    {
      "epoch": 1.7265581134194274,
      "grad_norm": 0.2920810878276825,
      "learning_rate": 5.570487592148666e-07,
      "loss": 0.383,
      "step": 2050
    },
    {
      "epoch": 1.727400336889388,
      "grad_norm": 0.30890408158302307,
      "learning_rate": 5.536803114703132e-07,
      "loss": 0.4072,
      "step": 2051
    },
    {
      "epoch": 1.7282425603593485,
      "grad_norm": 0.3233599364757538,
      "learning_rate": 5.503214820154979e-07,
      "loss": 0.4024,
      "step": 2052
    },
    {
      "epoch": 1.7290847838293093,
      "grad_norm": 0.3144240081310272,
      "learning_rate": 5.469722781162495e-07,
      "loss": 0.4043,
      "step": 2053
    },
    {
      "epoch": 1.72992700729927,
      "grad_norm": 0.3260710835456848,
      "learning_rate": 5.436327070175729e-07,
      "loss": 0.4546,
      "step": 2054
    },
    {
      "epoch": 1.7307692307692308,
      "grad_norm": 0.3235841393470764,
      "learning_rate": 5.403027759436364e-07,
      "loss": 0.4029,
      "step": 2055
    },
    {
      "epoch": 1.7316114542391916,
      "grad_norm": 0.3495097756385803,
      "learning_rate": 5.369824920977567e-07,
      "loss": 0.4489,
      "step": 2056
    },
    {
      "epoch": 1.7324536777091522,
      "grad_norm": 0.3819175660610199,
      "learning_rate": 5.336718626623782e-07,
      "loss": 0.4593,
      "step": 2057
    },
    {
      "epoch": 1.7332959011791127,
      "grad_norm": 0.2886087894439697,
      "learning_rate": 5.303708947990638e-07,
      "loss": 0.3927,
      "step": 2058
    },
    {
      "epoch": 1.7341381246490735,
      "grad_norm": 0.3150700628757477,
      "learning_rate": 5.270795956484753e-07,
      "loss": 0.4368,
      "step": 2059
    },
    {
      "epoch": 1.7349803481190342,
      "grad_norm": 0.311129629611969,
      "learning_rate": 5.237979723303582e-07,
      "loss": 0.4229,
      "step": 2060
    },
    {
      "epoch": 1.735822571588995,
      "grad_norm": 0.3327771723270416,
      "learning_rate": 5.205260319435296e-07,
      "loss": 0.4578,
      "step": 2061
    },
    {
      "epoch": 1.7366647950589558,
      "grad_norm": 0.3099011480808258,
      "learning_rate": 5.172637815658583e-07,
      "loss": 0.4101,
      "step": 2062
    },
    {
      "epoch": 1.7375070185289163,
      "grad_norm": 0.32714197039604187,
      "learning_rate": 5.140112282542514e-07,
      "loss": 0.4023,
      "step": 2063
    },
    {
      "epoch": 1.738349241998877,
      "grad_norm": 0.325013130903244,
      "learning_rate": 5.107683790446411e-07,
      "loss": 0.3997,
      "step": 2064
    },
    {
      "epoch": 1.7391914654688376,
      "grad_norm": 0.3745817542076111,
      "learning_rate": 5.075352409519679e-07,
      "loss": 0.4351,
      "step": 2065
    },
    {
      "epoch": 1.7400336889387984,
      "grad_norm": 0.3479921817779541,
      "learning_rate": 5.04311820970163e-07,
      "loss": 0.4229,
      "step": 2066
    },
    {
      "epoch": 1.7408759124087592,
      "grad_norm": 0.30730146169662476,
      "learning_rate": 5.010981260721371e-07,
      "loss": 0.405,
      "step": 2067
    },
    {
      "epoch": 1.74171813587872,
      "grad_norm": 0.3140135407447815,
      "learning_rate": 4.978941632097612e-07,
      "loss": 0.4171,
      "step": 2068
    },
    {
      "epoch": 1.7425603593486805,
      "grad_norm": 0.3246501684188843,
      "learning_rate": 4.946999393138568e-07,
      "loss": 0.4309,
      "step": 2069
    },
    {
      "epoch": 1.7434025828186412,
      "grad_norm": 0.3155224323272705,
      "learning_rate": 4.915154612941781e-07,
      "loss": 0.4301,
      "step": 2070
    },
    {
      "epoch": 1.7442448062886018,
      "grad_norm": 0.30180370807647705,
      "learning_rate": 4.883407360393944e-07,
      "loss": 0.3799,
      "step": 2071
    },
    {
      "epoch": 1.7450870297585626,
      "grad_norm": 0.31377312541007996,
      "learning_rate": 4.851757704170796e-07,
      "loss": 0.4381,
      "step": 2072
    },
    {
      "epoch": 1.7459292532285233,
      "grad_norm": 0.27839308977127075,
      "learning_rate": 4.820205712736953e-07,
      "loss": 0.4137,
      "step": 2073
    },
    {
      "epoch": 1.746771476698484,
      "grad_norm": 0.3640531003475189,
      "learning_rate": 4.788751454345763e-07,
      "loss": 0.4703,
      "step": 2074
    },
    {
      "epoch": 1.7476137001684446,
      "grad_norm": 0.3209989070892334,
      "learning_rate": 4.7573949970391385e-07,
      "loss": 0.4385,
      "step": 2075
    },
    {
      "epoch": 1.7484559236384054,
      "grad_norm": 0.30554670095443726,
      "learning_rate": 4.726136408647464e-07,
      "loss": 0.4182,
      "step": 2076
    },
    {
      "epoch": 1.749298147108366,
      "grad_norm": 0.28864628076553345,
      "learning_rate": 4.6949757567893937e-07,
      "loss": 0.3743,
      "step": 2077
    },
    {
      "epoch": 1.7501403705783267,
      "grad_norm": 0.30166012048721313,
      "learning_rate": 4.663913108871726e-07,
      "loss": 0.4191,
      "step": 2078
    },
    {
      "epoch": 1.7509825940482875,
      "grad_norm": 0.31210649013519287,
      "learning_rate": 4.6329485320892543e-07,
      "loss": 0.4329,
      "step": 2079
    },
    {
      "epoch": 1.7518248175182483,
      "grad_norm": 0.31432053446769714,
      "learning_rate": 4.60208209342462e-07,
      "loss": 0.3862,
      "step": 2080
    },
    {
      "epoch": 1.752667040988209,
      "grad_norm": 0.3248867392539978,
      "learning_rate": 4.5713138596481856e-07,
      "loss": 0.4094,
      "step": 2081
    },
    {
      "epoch": 1.7535092644581696,
      "grad_norm": 0.33141449093818665,
      "learning_rate": 4.540643897317887e-07,
      "loss": 0.4449,
      "step": 2082
    },
    {
      "epoch": 1.7543514879281301,
      "grad_norm": 0.318794846534729,
      "learning_rate": 4.5100722727790427e-07,
      "loss": 0.4235,
      "step": 2083
    },
    {
      "epoch": 1.7551937113980909,
      "grad_norm": 0.3286305367946625,
      "learning_rate": 4.4795990521642684e-07,
      "loss": 0.4178,
      "step": 2084
    },
    {
      "epoch": 1.7560359348680517,
      "grad_norm": 0.31223511695861816,
      "learning_rate": 4.449224301393312e-07,
      "loss": 0.4366,
      "step": 2085
    },
    {
      "epoch": 1.7568781583380124,
      "grad_norm": 0.32938283681869507,
      "learning_rate": 4.4189480861729137e-07,
      "loss": 0.4628,
      "step": 2086
    },
    {
      "epoch": 1.7577203818079732,
      "grad_norm": 0.32590529322624207,
      "learning_rate": 4.388770471996645e-07,
      "loss": 0.4186,
      "step": 2087
    },
    {
      "epoch": 1.7585626052779337,
      "grad_norm": 0.2806764245033264,
      "learning_rate": 4.35869152414482e-07,
      "loss": 0.3866,
      "step": 2088
    },
    {
      "epoch": 1.7594048287478943,
      "grad_norm": 0.32930025458335876,
      "learning_rate": 4.3287113076842634e-07,
      "loss": 0.4235,
      "step": 2089
    },
    {
      "epoch": 1.760247052217855,
      "grad_norm": 0.32556024193763733,
      "learning_rate": 4.2988298874682754e-07,
      "loss": 0.3499,
      "step": 2090
    },
    {
      "epoch": 1.7610892756878158,
      "grad_norm": 0.3309509754180908,
      "learning_rate": 4.269047328136411e-07,
      "loss": 0.4674,
      "step": 2091
    },
    {
      "epoch": 1.7619314991577766,
      "grad_norm": 0.33311551809310913,
      "learning_rate": 4.239363694114368e-07,
      "loss": 0.4286,
      "step": 2092
    },
    {
      "epoch": 1.7627737226277373,
      "grad_norm": 0.31164446473121643,
      "learning_rate": 4.209779049613866e-07,
      "loss": 0.4218,
      "step": 2093
    },
    {
      "epoch": 1.763615946097698,
      "grad_norm": 0.32146328687667847,
      "learning_rate": 4.1802934586324897e-07,
      "loss": 0.4041,
      "step": 2094
    },
    {
      "epoch": 1.7644581695676587,
      "grad_norm": 0.30873650312423706,
      "learning_rate": 4.150906984953529e-07,
      "loss": 0.4255,
      "step": 2095
    },
    {
      "epoch": 1.7653003930376192,
      "grad_norm": 0.3097151815891266,
      "learning_rate": 4.1216196921458786e-07,
      "loss": 0.4164,
      "step": 2096
    },
    {
      "epoch": 1.76614261650758,
      "grad_norm": 0.3402792513370514,
      "learning_rate": 4.0924316435638765e-07,
      "loss": 0.4077,
      "step": 2097
    },
    {
      "epoch": 1.7669848399775407,
      "grad_norm": 0.3259826898574829,
      "learning_rate": 4.0633429023472004e-07,
      "loss": 0.4665,
      "step": 2098
    },
    {
      "epoch": 1.7678270634475015,
      "grad_norm": 0.3080281615257263,
      "learning_rate": 4.0343535314206595e-07,
      "loss": 0.3991,
      "step": 2099
    },
    {
      "epoch": 1.768669286917462,
      "grad_norm": 0.3062973916530609,
      "learning_rate": 4.0054635934941633e-07,
      "loss": 0.3754,
      "step": 2100
    },
    {
      "epoch": 1.7695115103874228,
      "grad_norm": 0.3213237226009369,
      "learning_rate": 3.9766731510624714e-07,
      "loss": 0.404,
      "step": 2101
    },
    {
      "epoch": 1.7703537338573834,
      "grad_norm": 0.3513503968715668,
      "learning_rate": 3.947982266405159e-07,
      "loss": 0.4134,
      "step": 2102
    },
    {
      "epoch": 1.7711959573273441,
      "grad_norm": 0.3266388773918152,
      "learning_rate": 3.9193910015864145e-07,
      "loss": 0.4151,
      "step": 2103
    },
    {
      "epoch": 1.772038180797305,
      "grad_norm": 0.3070117235183716,
      "learning_rate": 3.890899418454913e-07,
      "loss": 0.375,
      "step": 2104
    },
    {
      "epoch": 1.7728804042672657,
      "grad_norm": 0.3257353901863098,
      "learning_rate": 3.8625075786437425e-07,
      "loss": 0.4097,
      "step": 2105
    },
    {
      "epoch": 1.7737226277372264,
      "grad_norm": 0.3098682463169098,
      "learning_rate": 3.834215543570191e-07,
      "loss": 0.4229,
      "step": 2106
    },
    {
      "epoch": 1.774564851207187,
      "grad_norm": 0.29902809858322144,
      "learning_rate": 3.8060233744356634e-07,
      "loss": 0.3722,
      "step": 2107
    },
    {
      "epoch": 1.7754070746771475,
      "grad_norm": 0.34373530745506287,
      "learning_rate": 3.777931132225526e-07,
      "loss": 0.4611,
      "step": 2108
    },
    {
      "epoch": 1.7762492981471083,
      "grad_norm": 0.3087739646434784,
      "learning_rate": 3.749938877708986e-07,
      "loss": 0.379,
      "step": 2109
    },
    {
      "epoch": 1.777091521617069,
      "grad_norm": 0.31727221608161926,
      "learning_rate": 3.72204667143895e-07,
      "loss": 0.4275,
      "step": 2110
    },
    {
      "epoch": 1.7779337450870298,
      "grad_norm": 0.3157740533351898,
      "learning_rate": 3.6942545737519153e-07,
      "loss": 0.401,
      "step": 2111
    },
    {
      "epoch": 1.7787759685569906,
      "grad_norm": 0.3441689610481262,
      "learning_rate": 3.666562644767824e-07,
      "loss": 0.4151,
      "step": 2112
    },
    {
      "epoch": 1.7796181920269512,
      "grad_norm": 0.34628501534461975,
      "learning_rate": 3.6389709443899136e-07,
      "loss": 0.4035,
      "step": 2113
    },
    {
      "epoch": 1.7804604154969117,
      "grad_norm": 0.30531927943229675,
      "learning_rate": 3.611479532304618e-07,
      "loss": 0.446,
      "step": 2114
    },
    {
      "epoch": 1.7813026389668725,
      "grad_norm": 0.293763130903244,
      "learning_rate": 3.5840884679814394e-07,
      "loss": 0.3966,
      "step": 2115
    },
    {
      "epoch": 1.7821448624368332,
      "grad_norm": 0.3029068410396576,
      "learning_rate": 3.556797810672785e-07,
      "loss": 0.3976,
      "step": 2116
    },
    {
      "epoch": 1.782987085906794,
      "grad_norm": 0.30324944853782654,
      "learning_rate": 3.529607619413877e-07,
      "loss": 0.435,
      "step": 2117
    },
    {
      "epoch": 1.7838293093767548,
      "grad_norm": 0.3036399483680725,
      "learning_rate": 3.5025179530225995e-07,
      "loss": 0.4167,
      "step": 2118
    },
    {
      "epoch": 1.7846715328467153,
      "grad_norm": 0.2924005091190338,
      "learning_rate": 3.4755288700993983e-07,
      "loss": 0.3812,
      "step": 2119
    },
    {
      "epoch": 1.7855137563166759,
      "grad_norm": 0.3167128562927246,
      "learning_rate": 3.4486404290271115e-07,
      "loss": 0.4235,
      "step": 2120
    },
    {
      "epoch": 1.7863559797866366,
      "grad_norm": 0.30313727259635925,
      "learning_rate": 3.4218526879708893e-07,
      "loss": 0.4129,
      "step": 2121
    },
    {
      "epoch": 1.7871982032565974,
      "grad_norm": 0.2944413721561432,
      "learning_rate": 3.395165704878023e-07,
      "loss": 0.4109,
      "step": 2122
    },
    {
      "epoch": 1.7880404267265582,
      "grad_norm": 0.34718087315559387,
      "learning_rate": 3.368579537477873e-07,
      "loss": 0.4457,
      "step": 2123
    },
    {
      "epoch": 1.788882650196519,
      "grad_norm": 0.30480557680130005,
      "learning_rate": 3.3420942432817127e-07,
      "loss": 0.3961,
      "step": 2124
    },
    {
      "epoch": 1.7897248736664795,
      "grad_norm": 0.3364607095718384,
      "learning_rate": 3.3157098795825846e-07,
      "loss": 0.4595,
      "step": 2125
    },
    {
      "epoch": 1.7905670971364402,
      "grad_norm": 0.3168655037879944,
      "learning_rate": 3.289426503455201e-07,
      "loss": 0.4416,
      "step": 2126
    },
    {
      "epoch": 1.7914093206064008,
      "grad_norm": 0.30938929319381714,
      "learning_rate": 3.263244171755847e-07,
      "loss": 0.3842,
      "step": 2127
    },
    {
      "epoch": 1.7922515440763616,
      "grad_norm": 0.3248057961463928,
      "learning_rate": 3.237162941122185e-07,
      "loss": 0.4153,
      "step": 2128
    },
    {
      "epoch": 1.7930937675463223,
      "grad_norm": 0.34297090768814087,
      "learning_rate": 3.2111828679732115e-07,
      "loss": 0.418,
      "step": 2129
    },
    {
      "epoch": 1.793935991016283,
      "grad_norm": 0.31343889236450195,
      "learning_rate": 3.185304008509077e-07,
      "loss": 0.4423,
      "step": 2130
    },
    {
      "epoch": 1.7947782144862436,
      "grad_norm": 0.29359009861946106,
      "learning_rate": 3.1595264187110067e-07,
      "loss": 0.4021,
      "step": 2131
    },
    {
      "epoch": 1.7956204379562044,
      "grad_norm": 0.3149247169494629,
      "learning_rate": 3.133850154341139e-07,
      "loss": 0.4092,
      "step": 2132
    },
    {
      "epoch": 1.796462661426165,
      "grad_norm": 0.31307196617126465,
      "learning_rate": 3.108275270942429e-07,
      "loss": 0.418,
      "step": 2133
    },
    {
      "epoch": 1.7973048848961257,
      "grad_norm": 0.32925593852996826,
      "learning_rate": 3.082801823838527e-07,
      "loss": 0.4125,
      "step": 2134
    },
    {
      "epoch": 1.7981471083660865,
      "grad_norm": 0.3718785345554352,
      "learning_rate": 3.05742986813366e-07,
      "loss": 0.4413,
      "step": 2135
    },
    {
      "epoch": 1.7989893318360473,
      "grad_norm": 0.30170172452926636,
      "learning_rate": 3.0321594587125083e-07,
      "loss": 0.4324,
      "step": 2136
    },
    {
      "epoch": 1.799831555306008,
      "grad_norm": 0.29863086342811584,
      "learning_rate": 3.006990650240088e-07,
      "loss": 0.407,
      "step": 2137
    },
    {
      "epoch": 1.8006737787759686,
      "grad_norm": 0.30845728516578674,
      "learning_rate": 2.9819234971616154e-07,
      "loss": 0.4301,
      "step": 2138
    },
    {
      "epoch": 1.8015160022459291,
      "grad_norm": 0.3089572787284851,
      "learning_rate": 2.9569580537024187e-07,
      "loss": 0.4235,
      "step": 2139
    },
    {
      "epoch": 1.8023582257158899,
      "grad_norm": 0.3125419616699219,
      "learning_rate": 2.932094373867811e-07,
      "loss": 0.4173,
      "step": 2140
    },
    {
      "epoch": 1.8032004491858507,
      "grad_norm": 0.2881413698196411,
      "learning_rate": 2.907332511442973e-07,
      "loss": 0.3819,
      "step": 2141
    },
    {
      "epoch": 1.8040426726558114,
      "grad_norm": 0.33632776141166687,
      "learning_rate": 2.882672519992824e-07,
      "loss": 0.4776,
      "step": 2142
    },
    {
      "epoch": 1.8048848961257722,
      "grad_norm": 0.3070780634880066,
      "learning_rate": 2.858114452861904e-07,
      "loss": 0.3929,
      "step": 2143
    },
    {
      "epoch": 1.8057271195957327,
      "grad_norm": 0.32331395149230957,
      "learning_rate": 2.833658363174302e-07,
      "loss": 0.4262,
      "step": 2144
    },
    {
      "epoch": 1.8065693430656933,
      "grad_norm": 0.3581241965293884,
      "learning_rate": 2.809304303833488e-07,
      "loss": 0.4566,
      "step": 2145
    },
    {
      "epoch": 1.807411566535654,
      "grad_norm": 0.2822394371032715,
      "learning_rate": 2.785052327522214e-07,
      "loss": 0.3557,
      "step": 2146
    },
    {
      "epoch": 1.8082537900056148,
      "grad_norm": 0.3031288981437683,
      "learning_rate": 2.7609024867024217e-07,
      "loss": 0.4289,
      "step": 2147
    },
    {
      "epoch": 1.8090960134755756,
      "grad_norm": 0.3036747872829437,
      "learning_rate": 2.73685483361511e-07,
      "loss": 0.4062,
      "step": 2148
    },
    {
      "epoch": 1.8099382369455363,
      "grad_norm": 0.31305739283561707,
      "learning_rate": 2.712909420280219e-07,
      "loss": 0.4313,
      "step": 2149
    },
    {
      "epoch": 1.810780460415497,
      "grad_norm": 0.3052237033843994,
      "learning_rate": 2.6890662984965234e-07,
      "loss": 0.3989,
      "step": 2150
    },
    {
      "epoch": 1.8116226838854577,
      "grad_norm": 0.3264673054218292,
      "learning_rate": 2.6653255198415216e-07,
      "loss": 0.4581,
      "step": 2151
    },
    {
      "epoch": 1.8124649073554182,
      "grad_norm": 0.344899982213974,
      "learning_rate": 2.6416871356713224e-07,
      "loss": 0.4468,
      "step": 2152
    },
    {
      "epoch": 1.813307130825379,
      "grad_norm": 0.31784042716026306,
      "learning_rate": 2.618151197120555e-07,
      "loss": 0.4242,
      "step": 2153
    },
    {
      "epoch": 1.8141493542953397,
      "grad_norm": 0.3193134069442749,
      "learning_rate": 2.594717755102205e-07,
      "loss": 0.4601,
      "step": 2154
    },
    {
      "epoch": 1.8149915777653005,
      "grad_norm": 0.32193461060523987,
      "learning_rate": 2.5713868603075453e-07,
      "loss": 0.4029,
      "step": 2155
    },
    {
      "epoch": 1.815833801235261,
      "grad_norm": 0.32007911801338196,
      "learning_rate": 2.548158563206038e-07,
      "loss": 0.3902,
      "step": 2156
    },
    {
      "epoch": 1.8166760247052218,
      "grad_norm": 0.3197802007198334,
      "learning_rate": 2.525032914045195e-07,
      "loss": 0.4063,
      "step": 2157
    },
    {
      "epoch": 1.8175182481751824,
      "grad_norm": 0.3103698492050171,
      "learning_rate": 2.5020099628504603e-07,
      "loss": 0.4261,
      "step": 2158
    },
    {
      "epoch": 1.8183604716451431,
      "grad_norm": 0.3097110092639923,
      "learning_rate": 2.4790897594251573e-07,
      "loss": 0.4313,
      "step": 2159
    },
    {
      "epoch": 1.819202695115104,
      "grad_norm": 0.32122984528541565,
      "learning_rate": 2.4562723533503084e-07,
      "loss": 0.4662,
      "step": 2160
    },
    {
      "epoch": 1.8200449185850647,
      "grad_norm": 0.2998298108577728,
      "learning_rate": 2.433557793984609e-07,
      "loss": 0.4007,
      "step": 2161
    },
    {
      "epoch": 1.8208871420550252,
      "grad_norm": 0.30249279737472534,
      "learning_rate": 2.4109461304642254e-07,
      "loss": 0.381,
      "step": 2162
    },
    {
      "epoch": 1.821729365524986,
      "grad_norm": 0.29815781116485596,
      "learning_rate": 2.3884374117027766e-07,
      "loss": 0.3914,
      "step": 2163
    },
    {
      "epoch": 1.8225715889949465,
      "grad_norm": 0.32217639684677124,
      "learning_rate": 2.3660316863911682e-07,
      "loss": 0.428,
      "step": 2164
    },
    {
      "epoch": 1.8234138124649073,
      "grad_norm": 0.3501643240451813,
      "learning_rate": 2.3437290029975356e-07,
      "loss": 0.4582,
      "step": 2165
    },
    {
      "epoch": 1.824256035934868,
      "grad_norm": 0.3029426336288452,
      "learning_rate": 2.3215294097670927e-07,
      "loss": 0.4021,
      "step": 2166
    },
    {
      "epoch": 1.8250982594048288,
      "grad_norm": 0.33657893538475037,
      "learning_rate": 2.2994329547220474e-07,
      "loss": 0.4058,
      "step": 2167
    },
    {
      "epoch": 1.8259404828747896,
      "grad_norm": 0.3011337220668793,
      "learning_rate": 2.277439685661509e-07,
      "loss": 0.3943,
      "step": 2168
    },
    {
      "epoch": 1.8267827063447502,
      "grad_norm": 0.2906476557254791,
      "learning_rate": 2.2555496501613816e-07,
      "loss": 0.4279,
      "step": 2169
    },
    {
      "epoch": 1.8276249298147107,
      "grad_norm": 0.3237016201019287,
      "learning_rate": 2.2337628955742263e-07,
      "loss": 0.4476,
      "step": 2170
    },
    {
      "epoch": 1.8284671532846715,
      "grad_norm": 0.2876018285751343,
      "learning_rate": 2.2120794690292158e-07,
      "loss": 0.4049,
      "step": 2171
    },
    {
      "epoch": 1.8293093767546322,
      "grad_norm": 0.3141098916530609,
      "learning_rate": 2.1904994174319903e-07,
      "loss": 0.4088,
      "step": 2172
    },
    {
      "epoch": 1.830151600224593,
      "grad_norm": 0.31878459453582764,
      "learning_rate": 2.1690227874645752e-07,
      "loss": 0.428,
      "step": 2173
    },
    {
      "epoch": 1.8309938236945538,
      "grad_norm": 0.3100871443748474,
      "learning_rate": 2.1476496255852685e-07,
      "loss": 0.399,
      "step": 2174
    },
    {
      "epoch": 1.8318360471645143,
      "grad_norm": 0.2936595678329468,
      "learning_rate": 2.126379978028531e-07,
      "loss": 0.3667,
      "step": 2175
    },
    {
      "epoch": 1.8326782706344749,
      "grad_norm": 0.3192969262599945,
      "learning_rate": 2.1052138908049303e-07,
      "loss": 0.4129,
      "step": 2176
    },
    {
      "epoch": 1.8335204941044356,
      "grad_norm": 0.32240086793899536,
      "learning_rate": 2.0841514097010073e-07,
      "loss": 0.4236,
      "step": 2177
    },
    {
      "epoch": 1.8343627175743964,
      "grad_norm": 0.31370288133621216,
      "learning_rate": 2.0631925802791608e-07,
      "loss": 0.4142,
      "step": 2178
    },
    {
      "epoch": 1.8352049410443572,
      "grad_norm": 0.3066667318344116,
      "learning_rate": 2.0423374478775848e-07,
      "loss": 0.3756,
      "step": 2179
    },
    {
      "epoch": 1.836047164514318,
      "grad_norm": 0.3215338885784149,
      "learning_rate": 2.0215860576101532e-07,
      "loss": 0.45,
      "step": 2180
    },
    {
      "epoch": 1.8368893879842785,
      "grad_norm": 0.3040110468864441,
      "learning_rate": 2.0009384543663192e-07,
      "loss": 0.4263,
      "step": 2181
    },
    {
      "epoch": 1.8377316114542392,
      "grad_norm": 0.3127978444099426,
      "learning_rate": 1.9803946828110376e-07,
      "loss": 0.4072,
      "step": 2182
    },
    {
      "epoch": 1.8385738349241998,
      "grad_norm": 0.33851194381713867,
      "learning_rate": 1.9599547873846436e-07,
      "loss": 0.4026,
      "step": 2183
    },
    {
      "epoch": 1.8394160583941606,
      "grad_norm": 0.3189588189125061,
      "learning_rate": 1.9396188123027736e-07,
      "loss": 0.4283,
      "step": 2184
    },
    {
      "epoch": 1.8402582818641213,
      "grad_norm": 0.30977922677993774,
      "learning_rate": 1.9193868015562445e-07,
      "loss": 0.4158,
      "step": 2185
    },
    {
      "epoch": 1.841100505334082,
      "grad_norm": 0.32704877853393555,
      "learning_rate": 1.8992587989110133e-07,
      "loss": 0.4313,
      "step": 2186
    },
    {
      "epoch": 1.8419427288040426,
      "grad_norm": 0.29713961482048035,
      "learning_rate": 1.8792348479080014e-07,
      "loss": 0.4269,
      "step": 2187
    },
    {
      "epoch": 1.8427849522740034,
      "grad_norm": 0.2976296544075012,
      "learning_rate": 1.8593149918630927e-07,
      "loss": 0.4153,
      "step": 2188
    },
    {
      "epoch": 1.843627175743964,
      "grad_norm": 0.30759158730506897,
      "learning_rate": 1.839499273866946e-07,
      "loss": 0.3959,
      "step": 2189
    },
    {
      "epoch": 1.8444693992139247,
      "grad_norm": 0.33536502718925476,
      "learning_rate": 1.8197877367849948e-07,
      "loss": 0.4702,
      "step": 2190
    },
    {
      "epoch": 1.8453116226838855,
      "grad_norm": 0.30699121952056885,
      "learning_rate": 1.8001804232572695e-07,
      "loss": 0.3903,
      "step": 2191
    },
    {
      "epoch": 1.8461538461538463,
      "grad_norm": 0.3443273901939392,
      "learning_rate": 1.7806773756983641e-07,
      "loss": 0.4576,
      "step": 2192
    },
    {
      "epoch": 1.8469960696238068,
      "grad_norm": 0.3041321635246277,
      "learning_rate": 1.7612786362973089e-07,
      "loss": 0.3962,
      "step": 2193
    },
    {
      "epoch": 1.8478382930937676,
      "grad_norm": 0.3177802860736847,
      "learning_rate": 1.7419842470175196e-07,
      "loss": 0.3821,
      "step": 2194
    },
    {
      "epoch": 1.8486805165637281,
      "grad_norm": 0.2985673248767853,
      "learning_rate": 1.7227942495966655e-07,
      "loss": 0.4168,
      "step": 2195
    },
    {
      "epoch": 1.8495227400336889,
      "grad_norm": 0.3230787515640259,
      "learning_rate": 1.7037086855465902e-07,
      "loss": 0.4349,
      "step": 2196
    },
    {
      "epoch": 1.8503649635036497,
      "grad_norm": 0.32158800959587097,
      "learning_rate": 1.6847275961532296e-07,
      "loss": 0.4109,
      "step": 2197
    },
    {
      "epoch": 1.8512071869736104,
      "grad_norm": 0.31921881437301636,
      "learning_rate": 1.6658510224765333e-07,
      "loss": 0.4107,
      "step": 2198
    },
    {
      "epoch": 1.8520494104435712,
      "grad_norm": 0.30019909143447876,
      "learning_rate": 1.6470790053503437e-07,
      "loss": 0.3856,
      "step": 2199
    },
    {
      "epoch": 1.8528916339135317,
      "grad_norm": 0.32363659143447876,
      "learning_rate": 1.6284115853823445e-07,
      "loss": 0.4109,
      "step": 2200
    },
    {
      "epoch": 1.8537338573834923,
      "grad_norm": 0.29815584421157837,
      "learning_rate": 1.6098488029539284e-07,
      "loss": 0.4411,
      "step": 2201
    },
    {
      "epoch": 1.854576080853453,
      "grad_norm": 0.3022229075431824,
      "learning_rate": 1.5913906982201744e-07,
      "loss": 0.3969,
      "step": 2202
    },
    {
      "epoch": 1.8554183043234138,
      "grad_norm": 0.3101603090763092,
      "learning_rate": 1.573037311109682e-07,
      "loss": 0.4268,
      "step": 2203
    },
    {
      "epoch": 1.8562605277933746,
      "grad_norm": 0.2926459014415741,
      "learning_rate": 1.554788681324554e-07,
      "loss": 0.4162,
      "step": 2204
    },
    {
      "epoch": 1.8571027512633353,
      "grad_norm": 0.3155435621738434,
      "learning_rate": 1.5366448483402575e-07,
      "loss": 0.4148,
      "step": 2205
    },
    {
      "epoch": 1.857944974733296,
      "grad_norm": 0.3357592821121216,
      "learning_rate": 1.5186058514055912e-07,
      "loss": 0.4213,
      "step": 2206
    },
    {
      "epoch": 1.8587871982032564,
      "grad_norm": 0.32105839252471924,
      "learning_rate": 1.5006717295425523e-07,
      "loss": 0.3829,
      "step": 2207
    },
    {
      "epoch": 1.8596294216732172,
      "grad_norm": 0.30704382061958313,
      "learning_rate": 1.482842521546285e-07,
      "loss": 0.4196,
      "step": 2208
    },
    {
      "epoch": 1.860471645143178,
      "grad_norm": 0.3159695267677307,
      "learning_rate": 1.465118265984966e-07,
      "loss": 0.399,
      "step": 2209
    },
    {
      "epoch": 1.8613138686131387,
      "grad_norm": 0.3234550654888153,
      "learning_rate": 1.447499001199748e-07,
      "loss": 0.4432,
      "step": 2210
    },
    {
      "epoch": 1.8621560920830995,
      "grad_norm": 0.3242010176181793,
      "learning_rate": 1.4299847653046706e-07,
      "loss": 0.4366,
      "step": 2211
    },
    {
      "epoch": 1.86299831555306,
      "grad_norm": 0.3064119517803192,
      "learning_rate": 1.4125755961865827e-07,
      "loss": 0.4035,
      "step": 2212
    },
    {
      "epoch": 1.8638405390230208,
      "grad_norm": 0.32130518555641174,
      "learning_rate": 1.3952715315050325e-07,
      "loss": 0.4365,
      "step": 2213
    },
    {
      "epoch": 1.8646827624929814,
      "grad_norm": 0.29680106043815613,
      "learning_rate": 1.3780726086922103e-07,
      "loss": 0.3797,
      "step": 2214
    },
    {
      "epoch": 1.8655249859629421,
      "grad_norm": 0.3175065815448761,
      "learning_rate": 1.3609788649528776e-07,
      "loss": 0.4357,
      "step": 2215
    },
    {
      "epoch": 1.866367209432903,
      "grad_norm": 0.3219943046569824,
      "learning_rate": 1.3439903372642615e-07,
      "loss": 0.4728,
      "step": 2216
    },
    {
      "epoch": 1.8672094329028637,
      "grad_norm": 0.3123330771923065,
      "learning_rate": 1.3271070623759763e-07,
      "loss": 0.4002,
      "step": 2217
    },
    {
      "epoch": 1.8680516563728242,
      "grad_norm": 0.31389516592025757,
      "learning_rate": 1.3103290768099796e-07,
      "loss": 0.4603,
      "step": 2218
    },
    {
      "epoch": 1.868893879842785,
      "grad_norm": 0.28404471278190613,
      "learning_rate": 1.2936564168604448e-07,
      "loss": 0.3801,
      "step": 2219
    },
    {
      "epoch": 1.8697361033127455,
      "grad_norm": 0.30908042192459106,
      "learning_rate": 1.2770891185937106e-07,
      "loss": 0.4264,
      "step": 2220
    },
    {
      "epoch": 1.8705783267827063,
      "grad_norm": 0.33566340804100037,
      "learning_rate": 1.2606272178482036e-07,
      "loss": 0.4509,
      "step": 2221
    },
    {
      "epoch": 1.871420550252667,
      "grad_norm": 0.306039959192276,
      "learning_rate": 1.244270750234333e-07,
      "loss": 0.4208,
      "step": 2222
    },
    {
      "epoch": 1.8722627737226278,
      "grad_norm": 0.3037748336791992,
      "learning_rate": 1.2280197511344572e-07,
      "loss": 0.4127,
      "step": 2223
    },
    {
      "epoch": 1.8731049971925884,
      "grad_norm": 0.3186552822589874,
      "learning_rate": 1.2118742557027885e-07,
      "loss": 0.3961,
      "step": 2224
    },
    {
      "epoch": 1.8739472206625492,
      "grad_norm": 0.33905741572380066,
      "learning_rate": 1.195834298865295e-07,
      "loss": 0.4521,
      "step": 2225
    },
    {
      "epoch": 1.8747894441325097,
      "grad_norm": 0.32701757550239563,
      "learning_rate": 1.1798999153196433e-07,
      "loss": 0.3761,
      "step": 2226
    },
    {
      "epoch": 1.8756316676024705,
      "grad_norm": 0.3416517376899719,
      "learning_rate": 1.1640711395351446e-07,
      "loss": 0.4583,
      "step": 2227
    },
    {
      "epoch": 1.8764738910724312,
      "grad_norm": 0.2805638611316681,
      "learning_rate": 1.1483480057526364e-07,
      "loss": 0.4064,
      "step": 2228
    },
    {
      "epoch": 1.877316114542392,
      "grad_norm": 0.33436134457588196,
      "learning_rate": 1.1327305479844397e-07,
      "loss": 0.4024,
      "step": 2229
    },
    {
      "epoch": 1.8781583380123528,
      "grad_norm": 0.3027145266532898,
      "learning_rate": 1.1172188000142803e-07,
      "loss": 0.4212,
      "step": 2230
    },
    {
      "epoch": 1.8790005614823133,
      "grad_norm": 0.3187103569507599,
      "learning_rate": 1.1018127953972113e-07,
      "loss": 0.4332,
      "step": 2231
    },
    {
      "epoch": 1.8798427849522739,
      "grad_norm": 0.31665053963661194,
      "learning_rate": 1.0865125674595467e-07,
      "loss": 0.4187,
      "step": 2232
    },
    {
      "epoch": 1.8806850084222346,
      "grad_norm": 0.29857760667800903,
      "learning_rate": 1.0713181492987667e-07,
      "loss": 0.3763,
      "step": 2233
    },
    {
      "epoch": 1.8815272318921954,
      "grad_norm": 0.30509766936302185,
      "learning_rate": 1.0562295737834738e-07,
      "loss": 0.4386,
      "step": 2234
    },
    {
      "epoch": 1.8823694553621562,
      "grad_norm": 0.31451883912086487,
      "learning_rate": 1.0412468735533144e-07,
      "loss": 0.4437,
      "step": 2235
    },
    {
      "epoch": 1.883211678832117,
      "grad_norm": 0.311028391122818,
      "learning_rate": 1.026370081018907e-07,
      "loss": 0.4157,
      "step": 2236
    },
    {
      "epoch": 1.8840539023020775,
      "grad_norm": 0.32075321674346924,
      "learning_rate": 1.0115992283617648e-07,
      "loss": 0.3836,
      "step": 2237
    },
    {
      "epoch": 1.884896125772038,
      "grad_norm": 0.31755954027175903,
      "learning_rate": 9.969343475342285e-08,
      "loss": 0.3998,
      "step": 2238
    },
    {
      "epoch": 1.8857383492419988,
      "grad_norm": 0.29816940426826477,
      "learning_rate": 9.823754702594058e-08,
      "loss": 0.4095,
      "step": 2239
    },
    {
      "epoch": 1.8865805727119596,
      "grad_norm": 0.33070528507232666,
      "learning_rate": 9.679226280310982e-08,
      "loss": 0.4691,
      "step": 2240
    },
    {
      "epoch": 1.8874227961819203,
      "grad_norm": 0.3289756774902344,
      "learning_rate": 9.535758521137251e-08,
      "loss": 0.4069,
      "step": 2241
    },
    {
      "epoch": 1.888265019651881,
      "grad_norm": 0.3018992841243744,
      "learning_rate": 9.393351735422773e-08,
      "loss": 0.3905,
      "step": 2242
    },
    {
      "epoch": 1.8891072431218416,
      "grad_norm": 0.31134599447250366,
      "learning_rate": 9.252006231222133e-08,
      "loss": 0.411,
      "step": 2243
    },
    {
      "epoch": 1.8899494665918024,
      "grad_norm": 0.30266860127449036,
      "learning_rate": 9.111722314294358e-08,
      "loss": 0.4215,
      "step": 2244
    },
    {
      "epoch": 1.890791690061763,
      "grad_norm": 0.3160684406757355,
      "learning_rate": 8.972500288101981e-08,
      "loss": 0.4377,
      "step": 2245
    },
    {
      "epoch": 1.8916339135317237,
      "grad_norm": 0.32585740089416504,
      "learning_rate": 8.834340453810375e-08,
      "loss": 0.3829,
      "step": 2246
    },
    {
      "epoch": 1.8924761370016845,
      "grad_norm": 0.328281044960022,
      "learning_rate": 8.697243110287191e-08,
      "loss": 0.4199,
      "step": 2247
    },
    {
      "epoch": 1.8933183604716453,
      "grad_norm": 0.30866432189941406,
      "learning_rate": 8.561208554101863e-08,
      "loss": 0.4245,
      "step": 2248
    },
    {
      "epoch": 1.8941605839416058,
      "grad_norm": 0.33250361680984497,
      "learning_rate": 8.426237079524669e-08,
      "loss": 0.4106,
      "step": 2249
    },
    {
      "epoch": 1.8950028074115666,
      "grad_norm": 0.3383166790008545,
      "learning_rate": 8.29232897852611e-08,
      "loss": 0.4373,
      "step": 2250
    },
    {
      "epoch": 1.8958450308815271,
      "grad_norm": 0.3189620077610016,
      "learning_rate": 8.159484540776642e-08,
      "loss": 0.4368,
      "step": 2251
    },
    {
      "epoch": 1.8966872543514879,
      "grad_norm": 0.3163984715938568,
      "learning_rate": 8.027704053645613e-08,
      "loss": 0.4147,
      "step": 2252
    },
    {
      "epoch": 1.8975294778214487,
      "grad_norm": 0.2897528111934662,
      "learning_rate": 7.896987802200939e-08,
      "loss": 0.3812,
      "step": 2253
    },
    {
      "epoch": 1.8983717012914094,
      "grad_norm": 0.33458396792411804,
      "learning_rate": 7.76733606920832e-08,
      "loss": 0.4594,
      "step": 2254
    },
    {
      "epoch": 1.89921392476137,
      "grad_norm": 0.30077630281448364,
      "learning_rate": 7.63874913513074e-08,
      "loss": 0.4247,
      "step": 2255
    },
    {
      "epoch": 1.9000561482313307,
      "grad_norm": 0.2916906177997589,
      "learning_rate": 7.511227278127697e-08,
      "loss": 0.4117,
      "step": 2256
    },
    {
      "epoch": 1.9008983717012913,
      "grad_norm": 0.299277663230896,
      "learning_rate": 7.384770774054861e-08,
      "loss": 0.3819,
      "step": 2257
    },
    {
      "epoch": 1.901740595171252,
      "grad_norm": 0.3094858229160309,
      "learning_rate": 7.259379896463248e-08,
      "loss": 0.4448,
      "step": 2258
    },
    {
      "epoch": 1.9025828186412128,
      "grad_norm": 0.29414787888526917,
      "learning_rate": 7.135054916598661e-08,
      "loss": 0.4025,
      "step": 2259
    },
    {
      "epoch": 1.9034250421111736,
      "grad_norm": 0.31359848380088806,
      "learning_rate": 7.011796103401192e-08,
      "loss": 0.4468,
      "step": 2260
    },
    {
      "epoch": 1.9042672655811343,
      "grad_norm": 0.28872543573379517,
      "learning_rate": 6.889603723504723e-08,
      "loss": 0.3846,
      "step": 2261
    },
    {
      "epoch": 1.905109489051095,
      "grad_norm": 0.3088429868221283,
      "learning_rate": 6.768478041236037e-08,
      "loss": 0.4218,
      "step": 2262
    },
    {
      "epoch": 1.9059517125210554,
      "grad_norm": 0.31037673354148865,
      "learning_rate": 6.648419318614485e-08,
      "loss": 0.4402,
      "step": 2263
    },
    {
      "epoch": 1.9067939359910162,
      "grad_norm": 0.31066077947616577,
      "learning_rate": 6.529427815351374e-08,
      "loss": 0.3712,
      "step": 2264
    },
    {
      "epoch": 1.907636159460977,
      "grad_norm": 0.33143362402915955,
      "learning_rate": 6.411503788849527e-08,
      "loss": 0.4136,
      "step": 2265
    },
    {
      "epoch": 1.9084783829309377,
      "grad_norm": 0.32698750495910645,
      "learning_rate": 6.294647494202444e-08,
      "loss": 0.4441,
      "step": 2266
    },
    {
      "epoch": 1.9093206064008985,
      "grad_norm": 0.2992249131202698,
      "learning_rate": 6.178859184193919e-08,
      "loss": 0.4017,
      "step": 2267
    },
    {
      "epoch": 1.910162829870859,
      "grad_norm": 0.30177709460258484,
      "learning_rate": 6.064139109297485e-08,
      "loss": 0.4408,
      "step": 2268
    },
    {
      "epoch": 1.9110050533408196,
      "grad_norm": 0.2903875410556793,
      "learning_rate": 5.950487517675962e-08,
      "loss": 0.392,
      "step": 2269
    },
    {
      "epoch": 1.9118472768107804,
      "grad_norm": 0.2845848798751831,
      "learning_rate": 5.8379046551807486e-08,
      "loss": 0.4031,
      "step": 2270
    },
    {
      "epoch": 1.9126895002807411,
      "grad_norm": 0.28707343339920044,
      "learning_rate": 5.726390765351253e-08,
      "loss": 0.4005,
      "step": 2271
    },
    {
      "epoch": 1.913531723750702,
      "grad_norm": 0.3349282741546631,
      "learning_rate": 5.615946089414737e-08,
      "loss": 0.436,
      "step": 2272
    },
    {
      "epoch": 1.9143739472206627,
      "grad_norm": 0.32961636781692505,
      "learning_rate": 5.5065708662854213e-08,
      "loss": 0.3984,
      "step": 2273
    },
    {
      "epoch": 1.9152161706906232,
      "grad_norm": 0.3067370355129242,
      "learning_rate": 5.398265332563935e-08,
      "loss": 0.4228,
      "step": 2274
    },
    {
      "epoch": 1.916058394160584,
      "grad_norm": 0.3245278000831604,
      "learning_rate": 5.291029722537144e-08,
      "loss": 0.4559,
      "step": 2275
    },
    {
      "epoch": 1.9169006176305445,
      "grad_norm": 0.3171946704387665,
      "learning_rate": 5.1848642681773254e-08,
      "loss": 0.4149,
      "step": 2276
    },
    {
      "epoch": 1.9177428411005053,
      "grad_norm": 0.32640886306762695,
      "learning_rate": 5.0797691991419375e-08,
      "loss": 0.4302,
      "step": 2277
    },
    {
      "epoch": 1.918585064570466,
      "grad_norm": 0.3081119656562805,
      "learning_rate": 4.975744742772848e-08,
      "loss": 0.3893,
      "step": 2278
    },
    {
      "epoch": 1.9194272880404268,
      "grad_norm": 0.3136870861053467,
      "learning_rate": 4.872791124095999e-08,
      "loss": 0.4559,
      "step": 2279
    },
    {
      "epoch": 1.9202695115103874,
      "grad_norm": 0.3301182687282562,
      "learning_rate": 4.770908565820964e-08,
      "loss": 0.4127,
      "step": 2280
    },
    {
      "epoch": 1.9211117349803482,
      "grad_norm": 0.32527488470077515,
      "learning_rate": 4.670097288340281e-08,
      "loss": 0.4214,
      "step": 2281
    },
    {
      "epoch": 1.9219539584503087,
      "grad_norm": 0.2741919755935669,
      "learning_rate": 4.5703575097292286e-08,
      "loss": 0.3693,
      "step": 2282
    },
    {
      "epoch": 1.9227961819202695,
      "grad_norm": 0.3203481435775757,
      "learning_rate": 4.471689445745109e-08,
      "loss": 0.4479,
      "step": 2283
    },
    {
      "epoch": 1.9236384053902302,
      "grad_norm": 0.3162136375904083,
      "learning_rate": 4.37409330982691e-08,
      "loss": 0.4372,
      "step": 2284
    },
    {
      "epoch": 1.924480628860191,
      "grad_norm": 0.306974321603775,
      "learning_rate": 4.2775693130948094e-08,
      "loss": 0.4258,
      "step": 2285
    },
    {
      "epoch": 1.9253228523301515,
      "grad_norm": 0.2951391339302063,
      "learning_rate": 4.182117664349783e-08,
      "loss": 0.4043,
      "step": 2286
    },
    {
      "epoch": 1.9261650758001123,
      "grad_norm": 0.31578221917152405,
      "learning_rate": 4.087738570073163e-08,
      "loss": 0.4025,
      "step": 2287
    },
    {
      "epoch": 1.9270072992700729,
      "grad_norm": 0.30716919898986816,
      "learning_rate": 3.99443223442586e-08,
      "loss": 0.4455,
      "step": 2288
    },
    {
      "epoch": 1.9278495227400336,
      "grad_norm": 0.3163534998893738,
      "learning_rate": 3.9021988592484737e-08,
      "loss": 0.4471,
      "step": 2289
    },
    {
      "epoch": 1.9286917462099944,
      "grad_norm": 0.30442628264427185,
      "learning_rate": 3.8110386440605164e-08,
      "loss": 0.3988,
      "step": 2290
    },
    {
      "epoch": 1.9295339696799552,
      "grad_norm": 0.30799421668052673,
      "learning_rate": 3.720951786059912e-08,
      "loss": 0.4184,
      "step": 2291
    },
    {
      "epoch": 1.930376193149916,
      "grad_norm": 0.3207080662250519,
      "learning_rate": 3.631938480122777e-08,
      "loss": 0.4288,
      "step": 2292
    },
    {
      "epoch": 1.9312184166198765,
      "grad_norm": 0.31678903102874756,
      "learning_rate": 3.5439989188029156e-08,
      "loss": 0.4196,
      "step": 2293
    },
    {
      "epoch": 1.932060640089837,
      "grad_norm": 0.2921830713748932,
      "learning_rate": 3.457133292331494e-08,
      "loss": 0.3619,
      "step": 2294
    },
    {
      "epoch": 1.9329028635597978,
      "grad_norm": 0.323127806186676,
      "learning_rate": 3.371341788616311e-08,
      "loss": 0.4632,
      "step": 2295
    },
    {
      "epoch": 1.9337450870297586,
      "grad_norm": 0.3161381483078003,
      "learning_rate": 3.2866245932418606e-08,
      "loss": 0.3898,
      "step": 2296
    },
    {
      "epoch": 1.9345873104997193,
      "grad_norm": 0.3183009922504425,
      "learning_rate": 3.2029818894685483e-08,
      "loss": 0.448,
      "step": 2297
    },
    {
      "epoch": 1.93542953396968,
      "grad_norm": 0.30765366554260254,
      "learning_rate": 3.120413858232474e-08,
      "loss": 0.4325,
      "step": 2298
    },
    {
      "epoch": 1.9362717574396406,
      "grad_norm": 0.30218377709388733,
      "learning_rate": 3.038920678145041e-08,
      "loss": 0.3784,
      "step": 2299
    },
    {
      "epoch": 1.9371139809096012,
      "grad_norm": 0.3291610777378082,
      "learning_rate": 2.9585025254924572e-08,
      "loss": 0.4263,
      "step": 2300
    },
    {
      "epoch": 1.937956204379562,
      "grad_norm": 0.3260450065135956,
      "learning_rate": 2.879159574235457e-08,
      "loss": 0.4327,
      "step": 2301
    },
    {
      "epoch": 1.9387984278495227,
      "grad_norm": 0.3000043034553528,
      "learning_rate": 2.8008919960090253e-08,
      "loss": 0.41,
      "step": 2302
    },
    {
      "epoch": 1.9396406513194835,
      "grad_norm": 0.318594753742218,
      "learning_rate": 2.7236999601216175e-08,
      "loss": 0.4316,
      "step": 2303
    },
    {
      "epoch": 1.9404828747894443,
      "grad_norm": 0.3140052258968353,
      "learning_rate": 2.6475836335553838e-08,
      "loss": 0.4228,
      "step": 2304
    },
    {
      "epoch": 1.9413250982594048,
      "grad_norm": 0.339781790971756,
      "learning_rate": 2.5725431809652257e-08,
      "loss": 0.427,
      "step": 2305
    },
    {
      "epoch": 1.9421673217293656,
      "grad_norm": 0.30334240198135376,
      "learning_rate": 2.4985787646788497e-08,
      "loss": 0.4269,
      "step": 2306
    },
    {
      "epoch": 1.9430095451993261,
      "grad_norm": 0.28686782717704773,
      "learning_rate": 2.4256905446963798e-08,
      "loss": 0.4012,
      "step": 2307
    },
    {
      "epoch": 1.9438517686692869,
      "grad_norm": 0.30692535638809204,
      "learning_rate": 2.3538786786896918e-08,
      "loss": 0.4098,
      "step": 2308
    },
    {
      "epoch": 1.9446939921392477,
      "grad_norm": 0.30444127321243286,
      "learning_rate": 2.2831433220024124e-08,
      "loss": 0.4113,
      "step": 2309
    },
    {
      "epoch": 1.9455362156092084,
      "grad_norm": 0.2861199378967285,
      "learning_rate": 2.2134846276494205e-08,
      "loss": 0.3687,
      "step": 2310
    },
    {
      "epoch": 1.946378439079169,
      "grad_norm": 0.3408312499523163,
      "learning_rate": 2.144902746316624e-08,
      "loss": 0.4318,
      "step": 2311
    },
    {
      "epoch": 1.9472206625491297,
      "grad_norm": 0.33006227016448975,
      "learning_rate": 2.0773978263605164e-08,
      "loss": 0.4412,
      "step": 2312
    },
    {
      "epoch": 1.9480628860190903,
      "grad_norm": 0.2892637550830841,
      "learning_rate": 2.0109700138078447e-08,
      "loss": 0.3903,
      "step": 2313
    },
    {
      "epoch": 1.948905109489051,
      "grad_norm": 0.302469402551651,
      "learning_rate": 1.9456194523554404e-08,
      "loss": 0.4147,
      "step": 2314
    },
    {
      "epoch": 1.9497473329590118,
      "grad_norm": 0.313937246799469,
      "learning_rate": 1.881346283369889e-08,
      "loss": 0.447,
      "step": 2315
    },
    {
      "epoch": 1.9505895564289726,
      "grad_norm": 0.3102658987045288,
      "learning_rate": 1.8181506458869735e-08,
      "loss": 0.4014,
      "step": 2316
    },
    {
      "epoch": 1.9514317798989333,
      "grad_norm": 0.3163679540157318,
      "learning_rate": 1.756032676611674e-08,
      "loss": 0.4304,
      "step": 2317
    },
    {
      "epoch": 1.952274003368894,
      "grad_norm": 0.3214819133281708,
      "learning_rate": 1.69499250991767e-08,
      "loss": 0.4177,
      "step": 2318
    },
    {
      "epoch": 1.9531162268388544,
      "grad_norm": 0.2958151400089264,
      "learning_rate": 1.635030277847338e-08,
      "loss": 0.3751,
      "step": 2319
    },
    {
      "epoch": 1.9539584503088152,
      "grad_norm": 0.31271153688430786,
      "learning_rate": 1.576146110111032e-08,
      "loss": 0.4434,
      "step": 2320
    },
    {
      "epoch": 1.954800673778776,
      "grad_norm": 0.3126758337020874,
      "learning_rate": 1.5183401340871373e-08,
      "loss": 0.4306,
      "step": 2321
    },
    {
      "epoch": 1.9556428972487367,
      "grad_norm": 0.3207783102989197,
      "learning_rate": 1.4616124748217387e-08,
      "loss": 0.4189,
      "step": 2322
    },
    {
      "epoch": 1.9564851207186975,
      "grad_norm": 0.3392082750797272,
      "learning_rate": 1.4059632550281754e-08,
      "loss": 0.4321,
      "step": 2323
    },
    {
      "epoch": 1.957327344188658,
      "grad_norm": 0.3031173050403595,
      "learning_rate": 1.351392595087042e-08,
      "loss": 0.4101,
      "step": 2324
    },
    {
      "epoch": 1.9581695676586186,
      "grad_norm": 0.29999223351478577,
      "learning_rate": 1.2979006130456883e-08,
      "loss": 0.3996,
      "step": 2325
    },
    {
      "epoch": 1.9590117911285794,
      "grad_norm": 0.31057849526405334,
      "learning_rate": 1.2454874246181081e-08,
      "loss": 0.4109,
      "step": 2326
    },
    {
      "epoch": 1.9598540145985401,
      "grad_norm": 0.3187684714794159,
      "learning_rate": 1.1941531431846065e-08,
      "loss": 0.4746,
      "step": 2327
    },
    {
      "epoch": 1.960696238068501,
      "grad_norm": 0.29937902092933655,
      "learning_rate": 1.1438978797916888e-08,
      "loss": 0.3887,
      "step": 2328
    },
    {
      "epoch": 1.9615384615384617,
      "grad_norm": 0.32714545726776123,
      "learning_rate": 1.0947217431516721e-08,
      "loss": 0.432,
      "step": 2329
    },
    {
      "epoch": 1.9623806850084222,
      "grad_norm": 0.3080233931541443,
      "learning_rate": 1.0466248396424072e-08,
      "loss": 0.3957,
      "step": 2330
    },
    {
      "epoch": 1.9632229084783828,
      "grad_norm": 0.3018854260444641,
      "learning_rate": 9.996072733073348e-09,
      "loss": 0.4227,
      "step": 2331
    },
    {
      "epoch": 1.9640651319483435,
      "grad_norm": 0.2803013324737549,
      "learning_rate": 9.536691458548741e-09,
      "loss": 0.4158,
      "step": 2332
    },
    {
      "epoch": 1.9649073554183043,
      "grad_norm": 0.30048200488090515,
      "learning_rate": 9.088105566585902e-09,
      "loss": 0.4196,
      "step": 2333
    },
    {
      "epoch": 1.965749578888265,
      "grad_norm": 0.3317203223705292,
      "learning_rate": 8.650316027566386e-09,
      "loss": 0.4252,
      "step": 2334
    },
    {
      "epoch": 1.9665918023582258,
      "grad_norm": 0.3367428183555603,
      "learning_rate": 8.223323788517645e-09,
      "loss": 0.4263,
      "step": 2335
    },
    {
      "epoch": 1.9674340258281864,
      "grad_norm": 0.3172088861465454,
      "learning_rate": 7.807129773110822e-09,
      "loss": 0.4324,
      "step": 2336
    },
    {
      "epoch": 1.9682762492981472,
      "grad_norm": 0.29404211044311523,
      "learning_rate": 7.401734881656853e-09,
      "loss": 0.3834,
      "step": 2337
    },
    {
      "epoch": 1.9691184727681077,
      "grad_norm": 0.30413299798965454,
      "learning_rate": 7.007139991108136e-09,
      "loss": 0.4219,
      "step": 2338
    },
    {
      "epoch": 1.9699606962380685,
      "grad_norm": 0.31628647446632385,
      "learning_rate": 6.623345955052429e-09,
      "loss": 0.3912,
      "step": 2339
    },
    {
      "epoch": 1.9708029197080292,
      "grad_norm": 0.32209980487823486,
      "learning_rate": 6.25035360371451e-09,
      "loss": 0.4234,
      "step": 2340
    },
    {
      "epoch": 1.97164514317799,
      "grad_norm": 0.30059686303138733,
      "learning_rate": 5.888163743951736e-09,
      "loss": 0.4081,
      "step": 2341
    },
    {
      "epoch": 1.9724873666479505,
      "grad_norm": 0.30980998277664185,
      "learning_rate": 5.536777159254603e-09,
      "loss": 0.4089,
      "step": 2342
    },
    {
      "epoch": 1.9733295901179113,
      "grad_norm": 0.3232206106185913,
      "learning_rate": 5.19619460974341e-09,
      "loss": 0.4321,
      "step": 2343
    },
    {
      "epoch": 1.9741718135878719,
      "grad_norm": 0.3222826421260834,
      "learning_rate": 4.866416832167153e-09,
      "loss": 0.3946,
      "step": 2344
    },
    {
      "epoch": 1.9750140370578326,
      "grad_norm": 0.3102527856826782,
      "learning_rate": 4.547444539901857e-09,
      "loss": 0.399,
      "step": 2345
    },
    {
      "epoch": 1.9758562605277934,
      "grad_norm": 0.3231153190135956,
      "learning_rate": 4.239278422948911e-09,
      "loss": 0.4362,
      "step": 2346
    },
    {
      "epoch": 1.9766984839977542,
      "grad_norm": 0.29017531871795654,
      "learning_rate": 3.941919147934514e-09,
      "loss": 0.3951,
      "step": 2347
    },
    {
      "epoch": 1.977540707467715,
      "grad_norm": 0.31587615609169006,
      "learning_rate": 3.655367358106343e-09,
      "loss": 0.4413,
      "step": 2348
    },
    {
      "epoch": 1.9783829309376755,
      "grad_norm": 0.31886616349220276,
      "learning_rate": 3.3796236733346645e-09,
      "loss": 0.4314,
      "step": 2349
    },
    {
      "epoch": 1.979225154407636,
      "grad_norm": 0.32004934549331665,
      "learning_rate": 3.1146886901090024e-09,
      "loss": 0.4254,
      "step": 2350
    },
    {
      "epoch": 1.9800673778775968,
      "grad_norm": 0.3254597783088684,
      "learning_rate": 2.8605629815364743e-09,
      "loss": 0.4404,
      "step": 2351
    },
    {
      "epoch": 1.9809096013475576,
      "grad_norm": 0.3106898367404938,
      "learning_rate": 2.617247097342901e-09,
      "loss": 0.3712,
      "step": 2352
    },
    {
      "epoch": 1.9817518248175183,
      "grad_norm": 0.3262472450733185,
      "learning_rate": 2.38474156387003e-09,
      "loss": 0.4589,
      "step": 2353
    },
    {
      "epoch": 1.982594048287479,
      "grad_norm": 0.3025343120098114,
      "learning_rate": 2.1630468840738716e-09,
      "loss": 0.3897,
      "step": 2354
    },
    {
      "epoch": 1.9834362717574396,
      "grad_norm": 0.33797234296798706,
      "learning_rate": 1.9521635375252535e-09,
      "loss": 0.4206,
      "step": 2355
    },
    {
      "epoch": 1.9842784952274002,
      "grad_norm": 0.31110578775405884,
      "learning_rate": 1.7520919804075997e-09,
      "loss": 0.4399,
      "step": 2356
    },
    {
      "epoch": 1.985120718697361,
      "grad_norm": 0.30877232551574707,
      "learning_rate": 1.5628326455163768e-09,
      "loss": 0.3882,
      "step": 2357
    },
    {
      "epoch": 1.9859629421673217,
      "grad_norm": 0.2878035604953766,
      "learning_rate": 1.3843859422574269e-09,
      "loss": 0.4038,
      "step": 2358
    },
    {
      "epoch": 1.9868051656372825,
      "grad_norm": 0.30786511301994324,
      "learning_rate": 1.216752256646969e-09,
      "loss": 0.4151,
      "step": 2359
    },
    {
      "epoch": 1.9876473891072433,
      "grad_norm": 0.3301162123680115,
      "learning_rate": 1.0599319513115992e-09,
      "loss": 0.46,
      "step": 2360
    },
    {
      "epoch": 1.9884896125772038,
      "grad_norm": 0.2878965735435486,
      "learning_rate": 9.139253654838476e-10,
      "loss": 0.389,
      "step": 2361
    },
    {
      "epoch": 1.9893318360471643,
      "grad_norm": 0.28922319412231445,
      "learning_rate": 7.787328150071771e-10,
      "loss": 0.3816,
      "step": 2362
    },
    {
      "epoch": 1.9901740595171251,
      "grad_norm": 0.3091920018196106,
      "learning_rate": 6.543545923287653e-10,
      "loss": 0.49,
      "step": 2363
    },
    {
      "epoch": 1.9910162829870859,
      "grad_norm": 0.3211662471294403,
      "learning_rate": 5.40790966505611e-10,
      "loss": 0.424,
      "step": 2364
    },
    {
      "epoch": 1.9918585064570467,
      "grad_norm": 0.3051419258117676,
      "learning_rate": 4.3804218319731804e-10,
      "loss": 0.4335,
      "step": 2365
    },
    {
      "epoch": 1.9927007299270074,
      "grad_norm": 0.3121781647205353,
      "learning_rate": 3.4610846467109106e-10,
      "loss": 0.4099,
      "step": 2366
    },
    {
      "epoch": 1.993542953396968,
      "grad_norm": 0.31051841378211975,
      "learning_rate": 2.6499000979840484e-10,
      "loss": 0.3884,
      "step": 2367
    },
    {
      "epoch": 1.9943851768669287,
      "grad_norm": 0.3221604824066162,
      "learning_rate": 1.9468699405444936e-10,
      "loss": 0.4356,
      "step": 2368
    },
    {
      "epoch": 1.9952274003368893,
      "grad_norm": 0.3285268545150757,
      "learning_rate": 1.3519956951868473e-10,
      "loss": 0.4225,
      "step": 2369
    },
    {
      "epoch": 1.99606962380685,
      "grad_norm": 0.323151558637619,
      "learning_rate": 8.652786487484133e-11,
      "loss": 0.4278,
      "step": 2370
    },
    {
      "epoch": 1.9969118472768108,
      "grad_norm": 0.3057578206062317,
      "learning_rate": 4.867198540980944e-11,
      "loss": 0.419,
      "step": 2371
    },
    {
      "epoch": 1.9977540707467716,
      "grad_norm": 0.32750535011291504,
      "learning_rate": 2.1632013013084265e-11,
      "loss": 0.4308,
      "step": 2372
    },
    {
      "epoch": 1.9985962942167321,
      "grad_norm": 0.2869713604450226,
      "learning_rate": 5.408006177876068e-12,
      "loss": 0.3847,
      "step": 2373
    },
    {
      "epoch": 1.999438517686693,
      "grad_norm": 0.32408833503723145,
      "learning_rate": 0.0,
      "loss": 0.4308,
      "step": 2374
    },
    {
      "epoch": 1.999438517686693,
      "step": 2374,
      "total_flos": 3079166504632320.0,
      "train_loss": 0.4565235433100449,
      "train_runtime": 80465.1921,
      "train_samples_per_second": 2.832,
      "train_steps_per_second": 0.03
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 2374,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3079166504632320.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}