{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 7812,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 41.34406077822182,
      "learning_rate": 4.2553191489361707e-08,
      "loss": 2.2323,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.820407363545028,
      "learning_rate": 8.510638297872341e-08,
      "loss": 0.8984,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.838768948084331,
      "learning_rate": 1.276595744680851e-07,
      "loss": 0.8654,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 57.568601417351296,
      "learning_rate": 1.7021276595744683e-07,
      "loss": 2.3,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.779375655827122,
      "learning_rate": 2.1276595744680852e-07,
      "loss": 0.8478,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 60.582879065994874,
      "learning_rate": 2.553191489361702e-07,
      "loss": 2.1892,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 51.466113063051736,
      "learning_rate": 2.9787234042553196e-07,
      "loss": 2.1906,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 43.67017279530239,
      "learning_rate": 3.4042553191489365e-07,
      "loss": 2.2479,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 36.69531549710168,
      "learning_rate": 3.8297872340425535e-07,
      "loss": 2.1103,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 59.79152602580357,
      "learning_rate": 4.2553191489361704e-07,
      "loss": 2.1051,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 41.88427972157225,
      "learning_rate": 4.6808510638297873e-07,
      "loss": 2.1565,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 42.2836887590553,
      "learning_rate": 5.106382978723404e-07,
      "loss": 2.2982,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 49.72420185060392,
      "learning_rate": 5.531914893617021e-07,
      "loss": 2.0973,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 15.360392116382016,
      "learning_rate": 5.957446808510639e-07,
      "loss": 0.9602,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 38.169981042628535,
      "learning_rate": 6.382978723404255e-07,
      "loss": 2.0876,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 106.4444394723589,
      "learning_rate": 6.808510638297873e-07,
      "loss": 2.1436,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 50.63718122159147,
      "learning_rate": 7.234042553191489e-07,
      "loss": 2.0555,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 39.096346429467545,
      "learning_rate": 7.659574468085107e-07,
      "loss": 2.0489,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 38.512877716177286,
      "learning_rate": 8.085106382978725e-07,
      "loss": 2.1714,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 38.38759708704752,
      "learning_rate": 8.510638297872341e-07,
      "loss": 2.2226,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 97.96755297497029,
      "learning_rate": 8.936170212765959e-07,
      "loss": 2.0927,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 28.788544824332394,
      "learning_rate": 9.361702127659575e-07,
      "loss": 2.0931,
      "step": 22
    },
    {
      "epoch": 0.0,
      "grad_norm": 11.081305937837817,
      "learning_rate": 9.787234042553193e-07,
      "loss": 0.8752,
      "step": 23
    },
    {
      "epoch": 0.0,
      "grad_norm": 53.00956410909903,
      "learning_rate": 1.0212765957446809e-06,
      "loss": 1.8872,
      "step": 24
    },
    {
      "epoch": 0.0,
      "grad_norm": 36.900160868954856,
      "learning_rate": 1.0638297872340427e-06,
      "loss": 1.9201,
      "step": 25
    },
    {
      "epoch": 0.0,
      "grad_norm": 57.576216525085954,
      "learning_rate": 1.1063829787234042e-06,
      "loss": 1.9479,
      "step": 26
    },
    {
      "epoch": 0.0,
      "grad_norm": 23.427309296002065,
      "learning_rate": 1.148936170212766e-06,
      "loss": 1.8664,
      "step": 27
    },
    {
      "epoch": 0.0,
      "grad_norm": 29.916583184359475,
      "learning_rate": 1.1914893617021278e-06,
      "loss": 1.8527,
      "step": 28
    },
    {
      "epoch": 0.0,
      "grad_norm": 21.39666804471589,
      "learning_rate": 1.2340425531914894e-06,
      "loss": 1.7098,
      "step": 29
    },
    {
      "epoch": 0.0,
      "grad_norm": 28.329628783108262,
      "learning_rate": 1.276595744680851e-06,
      "loss": 1.6339,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 17.798985320881595,
      "learning_rate": 1.3191489361702128e-06,
      "loss": 1.5925,
      "step": 31
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.349652927693895,
      "learning_rate": 1.3617021276595746e-06,
      "loss": 0.796,
      "step": 32
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.103793235348805,
      "learning_rate": 1.4042553191489364e-06,
      "loss": 1.4096,
      "step": 33
    },
    {
      "epoch": 0.0,
      "grad_norm": 17.87723174106787,
      "learning_rate": 1.4468085106382978e-06,
      "loss": 1.5992,
      "step": 34
    },
    {
      "epoch": 0.0,
      "grad_norm": 17.528476704436383,
      "learning_rate": 1.4893617021276596e-06,
      "loss": 1.5952,
      "step": 35
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.77004872000205,
      "learning_rate": 1.5319148936170214e-06,
      "loss": 1.4104,
      "step": 36
    },
    {
      "epoch": 0.0,
      "grad_norm": 22.276256881615367,
      "learning_rate": 1.5744680851063832e-06,
      "loss": 1.4029,
      "step": 37
    },
    {
      "epoch": 0.0,
      "grad_norm": 19.46851911092092,
      "learning_rate": 1.617021276595745e-06,
      "loss": 1.2825,
      "step": 38
    },
    {
      "epoch": 0.0,
      "grad_norm": 12.936741549525108,
      "learning_rate": 1.6595744680851064e-06,
      "loss": 1.3816,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 19.14586819844304,
      "learning_rate": 1.7021276595744682e-06,
      "loss": 1.3212,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 60.613343100017836,
      "learning_rate": 1.74468085106383e-06,
      "loss": 1.3092,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 15.984029709682797,
      "learning_rate": 1.7872340425531918e-06,
      "loss": 1.2544,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.811031013736672,
      "learning_rate": 1.8297872340425531e-06,
      "loss": 1.3343,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.757726815915515,
      "learning_rate": 1.872340425531915e-06,
      "loss": 1.3121,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.634998549134129,
      "learning_rate": 1.9148936170212767e-06,
      "loss": 1.3935,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.456053382699254,
      "learning_rate": 1.9574468085106385e-06,
      "loss": 1.2009,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.822717701551614,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.2995,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 22.349450041907215,
      "learning_rate": 2.0425531914893617e-06,
      "loss": 1.2742,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.63378498088164,
      "learning_rate": 2.0851063829787235e-06,
      "loss": 1.2305,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.30196066303711,
      "learning_rate": 2.1276595744680853e-06,
      "loss": 1.3339,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.559028744688824,
      "learning_rate": 2.170212765957447e-06,
      "loss": 1.3041,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.73640923480111,
      "learning_rate": 2.2127659574468085e-06,
      "loss": 1.3367,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.000460628971821,
      "learning_rate": 2.2553191489361703e-06,
      "loss": 1.3338,
      "step": 53
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.91946912630888,
      "learning_rate": 2.297872340425532e-06,
      "loss": 1.2145,
      "step": 54
    },
    {
      "epoch": 0.01,
      "grad_norm": 32.372380817108535,
      "learning_rate": 2.340425531914894e-06,
      "loss": 1.3717,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": 34.07034766185507,
      "learning_rate": 2.3829787234042557e-06,
      "loss": 1.0907,
      "step": 56
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.400914139471091,
      "learning_rate": 2.425531914893617e-06,
      "loss": 1.2117,
      "step": 57
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.049642764503933,
      "learning_rate": 2.468085106382979e-06,
      "loss": 1.2187,
      "step": 58
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.111614838351601,
      "learning_rate": 2.5106382978723402e-06,
      "loss": 1.2003,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.390639785795705,
      "learning_rate": 2.553191489361702e-06,
      "loss": 0.7066,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.490332453677176,
      "learning_rate": 2.595744680851064e-06,
      "loss": 1.1724,
      "step": 61
    },
    {
      "epoch": 0.01,
      "grad_norm": 17.698666123756016,
      "learning_rate": 2.6382978723404256e-06,
      "loss": 1.1594,
      "step": 62
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.10956235672127,
      "learning_rate": 2.6808510638297874e-06,
      "loss": 1.1205,
      "step": 63
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.083162402853947,
      "learning_rate": 2.7234042553191492e-06,
      "loss": 1.338,
      "step": 64
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.073257878451932,
      "learning_rate": 2.765957446808511e-06,
      "loss": 1.1784,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.853140212824349,
      "learning_rate": 2.808510638297873e-06,
      "loss": 1.1821,
      "step": 66
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.57078798908115,
      "learning_rate": 2.8510638297872346e-06,
      "loss": 1.1587,
      "step": 67
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.807576481504228,
      "learning_rate": 2.8936170212765956e-06,
      "loss": 1.3125,
      "step": 68
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.436617071794876,
      "learning_rate": 2.9361702127659574e-06,
      "loss": 0.6899,
      "step": 69
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1588976609778567,
      "learning_rate": 2.978723404255319e-06,
      "loss": 0.6821,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.44216854534624,
      "learning_rate": 3.021276595744681e-06,
      "loss": 1.1315,
      "step": 71
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.0720536558969527,
      "learning_rate": 3.0638297872340428e-06,
      "loss": 0.6422,
      "step": 72
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.74979364500633,
      "learning_rate": 3.1063829787234046e-06,
      "loss": 1.1802,
      "step": 73
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.7898617752587045,
      "learning_rate": 3.1489361702127664e-06,
      "loss": 1.0704,
      "step": 74
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.698962208818866,
      "learning_rate": 3.191489361702128e-06,
      "loss": 1.1548,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.32306185512465,
      "learning_rate": 3.23404255319149e-06,
      "loss": 1.161,
      "step": 76
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.8040068443245336,
      "learning_rate": 3.276595744680851e-06,
      "loss": 1.0844,
      "step": 77
    },
    {
      "epoch": 0.01,
      "grad_norm": 14.980110045780295,
      "learning_rate": 3.3191489361702127e-06,
      "loss": 1.0768,
      "step": 78
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.3997336722365645,
      "learning_rate": 3.3617021276595745e-06,
      "loss": 1.1434,
      "step": 79
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.805271875898646,
      "learning_rate": 3.4042553191489363e-06,
      "loss": 1.1899,
      "step": 80
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.0581046242417536,
      "learning_rate": 3.446808510638298e-06,
      "loss": 1.2302,
      "step": 81
    },
    {
      "epoch": 0.01,
      "grad_norm": 11.26175106688612,
      "learning_rate": 3.48936170212766e-06,
      "loss": 1.1738,
      "step": 82
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.196829490174779,
      "learning_rate": 3.5319148936170217e-06,
      "loss": 0.7126,
      "step": 83
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.9895924906618925,
      "learning_rate": 3.5744680851063835e-06,
      "loss": 0.7242,
      "step": 84
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.916348598372002,
      "learning_rate": 3.6170212765957453e-06,
      "loss": 0.9781,
      "step": 85
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.6453068348803157,
      "learning_rate": 3.6595744680851063e-06,
      "loss": 1.2181,
      "step": 86
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.676818977457569,
      "learning_rate": 3.702127659574468e-06,
      "loss": 1.0913,
      "step": 87
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.2759773562644225,
      "learning_rate": 3.74468085106383e-06,
      "loss": 1.0672,
      "step": 88
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.5540581330614063,
      "learning_rate": 3.7872340425531917e-06,
      "loss": 1.1525,
      "step": 89
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.963872516880165,
      "learning_rate": 3.8297872340425535e-06,
      "loss": 1.0916,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.42152733169095,
      "learning_rate": 3.872340425531915e-06,
      "loss": 1.1744,
      "step": 91
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.387239407293794,
      "learning_rate": 3.914893617021277e-06,
      "loss": 1.0956,
      "step": 92
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.069787695994234,
      "learning_rate": 3.957446808510639e-06,
      "loss": 1.0537,
      "step": 93
    },
    {
      "epoch": 0.01,
      "grad_norm": 39.181926686045756,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.1063,
      "step": 94
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.32553284593694,
      "learning_rate": 4.042553191489362e-06,
      "loss": 1.1443,
      "step": 95
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.160139793680421,
      "learning_rate": 4.085106382978723e-06,
      "loss": 1.0479,
      "step": 96
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.279665391314902,
      "learning_rate": 4.127659574468085e-06,
      "loss": 1.0411,
      "step": 97
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.476987946985306,
      "learning_rate": 4.170212765957447e-06,
      "loss": 1.1075,
      "step": 98
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.951923787181721,
      "learning_rate": 4.212765957446809e-06,
      "loss": 1.1404,
      "step": 99
    },
    {
      "epoch": 0.01,
      "grad_norm": 12.547788405678654,
      "learning_rate": 4.255319148936171e-06,
      "loss": 1.0948,
      "step": 100
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.331003932547107,
      "learning_rate": 4.297872340425532e-06,
      "loss": 1.0635,
      "step": 101
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.4312492912082804,
      "learning_rate": 4.340425531914894e-06,
      "loss": 1.1241,
      "step": 102
    },
    {
      "epoch": 0.01,
      "grad_norm": 18.510993972177086,
      "learning_rate": 4.382978723404256e-06,
      "loss": 1.1097,
      "step": 103
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.1448632092347655,
      "learning_rate": 4.425531914893617e-06,
      "loss": 1.1669,
      "step": 104
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2794529888595727,
      "learning_rate": 4.468085106382979e-06,
      "loss": 0.6857,
      "step": 105
    },
    {
      "epoch": 0.01,
      "grad_norm": 29.948845917997417,
      "learning_rate": 4.5106382978723406e-06,
      "loss": 1.1053,
      "step": 106
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.276403751710499,
      "learning_rate": 4.553191489361702e-06,
      "loss": 1.0304,
      "step": 107
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.952782728244053,
      "learning_rate": 4.595744680851064e-06,
      "loss": 1.127,
      "step": 108
    },
    {
      "epoch": 0.01,
      "grad_norm": 19.6417995536074,
      "learning_rate": 4.638297872340426e-06,
      "loss": 1.0259,
      "step": 109
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.02635906446508,
      "learning_rate": 4.680851063829788e-06,
      "loss": 0.6954,
      "step": 110
    },
    {
      "epoch": 0.01,
      "grad_norm": 25.583151152083516,
      "learning_rate": 4.7234042553191496e-06,
      "loss": 1.1396,
      "step": 111
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.720952178848811,
      "learning_rate": 4.765957446808511e-06,
      "loss": 1.083,
      "step": 112
    },
    {
      "epoch": 0.01,
      "grad_norm": 18.5250958737938,
      "learning_rate": 4.808510638297872e-06,
      "loss": 0.9714,
      "step": 113
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.9826687819421407,
      "learning_rate": 4.851063829787234e-06,
      "loss": 1.0409,
      "step": 114
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.0604610752095573,
      "learning_rate": 4.893617021276596e-06,
      "loss": 1.0035,
      "step": 115
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2570319777904373,
      "learning_rate": 4.936170212765958e-06,
      "loss": 0.6629,
      "step": 116
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.454145002817073,
      "learning_rate": 4.9787234042553195e-06,
      "loss": 1.0484,
      "step": 117
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.2799046300831516,
      "learning_rate": 5.0212765957446805e-06,
      "loss": 1.1308,
      "step": 118
    },
    {
      "epoch": 0.02,
      "grad_norm": 11.720733751952814,
      "learning_rate": 5.063829787234042e-06,
      "loss": 1.108,
      "step": 119
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.492483262079872,
      "learning_rate": 5.106382978723404e-06,
      "loss": 1.0828,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.529138320072609,
      "learning_rate": 5.148936170212766e-06,
      "loss": 1.2031,
      "step": 121
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.2861639489362973,
      "learning_rate": 5.191489361702128e-06,
      "loss": 1.1014,
      "step": 122
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.6732417808642195,
      "learning_rate": 5.2340425531914895e-06,
      "loss": 1.0354,
      "step": 123
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.2351426622193253,
      "learning_rate": 5.276595744680851e-06,
      "loss": 1.1035,
      "step": 124
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.551808000990891,
      "learning_rate": 5.319148936170213e-06,
      "loss": 1.1592,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9780502130814454,
      "learning_rate": 5.361702127659575e-06,
      "loss": 0.7291,
      "step": 126
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.8994264772771916,
      "learning_rate": 5.404255319148937e-06,
      "loss": 1.148,
      "step": 127
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.678294792019361,
      "learning_rate": 5.4468085106382985e-06,
      "loss": 1.087,
      "step": 128
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.981205278600452,
      "learning_rate": 5.48936170212766e-06,
      "loss": 0.9849,
      "step": 129
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8376518015039403,
      "learning_rate": 5.531914893617022e-06,
      "loss": 0.9776,
      "step": 130
    },
    {
      "epoch": 0.02,
      "grad_norm": 13.667489506636786,
      "learning_rate": 5.574468085106384e-06,
      "loss": 1.0847,
      "step": 131
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.833676560696297,
      "learning_rate": 5.617021276595746e-06,
      "loss": 1.0835,
      "step": 132
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.007715744142805,
      "learning_rate": 5.6595744680851075e-06,
      "loss": 1.1201,
      "step": 133
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0502726676735359,
      "learning_rate": 5.702127659574469e-06,
      "loss": 0.6391,
      "step": 134
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0589204080939438,
      "learning_rate": 5.744680851063831e-06,
      "loss": 0.7434,
      "step": 135
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.103130021348086,
      "learning_rate": 5.787234042553191e-06,
      "loss": 0.9648,
      "step": 136
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.085924875833967,
      "learning_rate": 5.829787234042553e-06,
      "loss": 1.1385,
      "step": 137
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.3969191959733114,
      "learning_rate": 5.872340425531915e-06,
      "loss": 1.1297,
      "step": 138
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.606556742133128,
      "learning_rate": 5.9148936170212766e-06,
      "loss": 1.0963,
      "step": 139
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.970422411207158,
      "learning_rate": 5.957446808510638e-06,
      "loss": 1.0739,
      "step": 140
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.326775463579554,
      "learning_rate": 6e-06,
      "loss": 1.1262,
      "step": 141
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.872234065565082,
      "learning_rate": 6.042553191489362e-06,
      "loss": 1.0465,
      "step": 142
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.46609202820969,
      "learning_rate": 6.085106382978724e-06,
      "loss": 1.1588,
      "step": 143
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.12493021390359,
      "learning_rate": 6.1276595744680855e-06,
      "loss": 0.7138,
      "step": 144
    },
    {
      "epoch": 0.02,
      "grad_norm": 19.467381414665233,
      "learning_rate": 6.170212765957447e-06,
      "loss": 1.0117,
      "step": 145
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.3200879630545863,
      "learning_rate": 6.212765957446809e-06,
      "loss": 1.0354,
      "step": 146
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.189486527402152,
      "learning_rate": 6.255319148936171e-06,
      "loss": 0.9913,
      "step": 147
    },
    {
      "epoch": 0.02,
      "grad_norm": 21.9126875444165,
      "learning_rate": 6.297872340425533e-06,
      "loss": 0.9374,
      "step": 148
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.308063355538917,
      "learning_rate": 6.3404255319148945e-06,
      "loss": 1.1445,
      "step": 149
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.20056625207456,
      "learning_rate": 6.382978723404256e-06,
      "loss": 1.1203,
      "step": 150
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.244993797003027,
      "learning_rate": 6.425531914893618e-06,
      "loss": 0.9753,
      "step": 151
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.159406088156979,
      "learning_rate": 6.46808510638298e-06,
      "loss": 0.9881,
      "step": 152
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.169979466226377,
      "learning_rate": 6.510638297872342e-06,
      "loss": 1.0545,
      "step": 153
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.320519219065237,
      "learning_rate": 6.553191489361702e-06,
      "loss": 1.0475,
      "step": 154
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.922760978812306,
      "learning_rate": 6.595744680851064e-06,
      "loss": 0.9384,
      "step": 155
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.425993651085391,
      "learning_rate": 6.6382978723404254e-06,
      "loss": 1.0404,
      "step": 156
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.140687676185019,
      "learning_rate": 6.680851063829787e-06,
      "loss": 0.983,
      "step": 157
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.577269833799015,
      "learning_rate": 6.723404255319149e-06,
      "loss": 1.0616,
      "step": 158
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0572412335431836,
      "learning_rate": 6.765957446808511e-06,
      "loss": 0.665,
      "step": 159
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.221214141819736,
      "learning_rate": 6.808510638297873e-06,
      "loss": 1.1051,
      "step": 160
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.153500805109236,
      "learning_rate": 6.8510638297872344e-06,
      "loss": 1.0267,
      "step": 161
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.210126041563933,
      "learning_rate": 6.893617021276596e-06,
      "loss": 1.0539,
      "step": 162
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.8498955390999043,
      "learning_rate": 6.936170212765958e-06,
      "loss": 1.0818,
      "step": 163
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.7193341415189414,
      "learning_rate": 6.97872340425532e-06,
      "loss": 1.0597,
      "step": 164
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.613831514729058,
      "learning_rate": 7.021276595744682e-06,
      "loss": 1.0662,
      "step": 165
    },
    {
      "epoch": 0.02,
      "grad_norm": 10.656893414251728,
      "learning_rate": 7.0638297872340434e-06,
      "loss": 1.0453,
      "step": 166
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.69393539610257,
      "learning_rate": 7.106382978723405e-06,
      "loss": 1.0223,
      "step": 167
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9249974106237487,
      "learning_rate": 7.148936170212767e-06,
      "loss": 0.7139,
      "step": 168
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.425099455796072,
      "learning_rate": 7.191489361702129e-06,
      "loss": 1.0352,
      "step": 169
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.0920026100051627,
      "learning_rate": 7.234042553191491e-06,
      "loss": 1.0213,
      "step": 170
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.229775368277523,
      "learning_rate": 7.2765957446808524e-06,
      "loss": 0.9973,
      "step": 171
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.003218136622945,
      "learning_rate": 7.3191489361702125e-06,
      "loss": 0.9562,
      "step": 172
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.7933493211646763,
      "learning_rate": 7.361702127659574e-06,
      "loss": 0.8932,
      "step": 173
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.536130700182009,
      "learning_rate": 7.404255319148936e-06,
      "loss": 0.9613,
      "step": 174
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.113688024170068,
      "learning_rate": 7.446808510638298e-06,
      "loss": 1.0644,
      "step": 175
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.013204870278539,
      "learning_rate": 7.48936170212766e-06,
      "loss": 1.0791,
      "step": 176
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8616665910181255,
      "learning_rate": 7.5319148936170215e-06,
      "loss": 0.6897,
      "step": 177
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9422016832149976,
      "learning_rate": 7.574468085106383e-06,
      "loss": 0.6388,
      "step": 178
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8888109055388572,
      "learning_rate": 7.617021276595745e-06,
      "loss": 0.6386,
      "step": 179
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.921002862185259,
      "learning_rate": 7.659574468085107e-06,
      "loss": 1.0194,
      "step": 180
    },
    {
      "epoch": 0.02,
      "grad_norm": 9.087109189365904,
      "learning_rate": 7.702127659574469e-06,
      "loss": 1.0093,
      "step": 181
    },
    {
      "epoch": 0.02,
      "grad_norm": 23.724712024050874,
      "learning_rate": 7.74468085106383e-06,
      "loss": 1.0151,
      "step": 182
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.349114266801129,
      "learning_rate": 7.787234042553192e-06,
      "loss": 1.1625,
      "step": 183
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8390095452623922,
      "learning_rate": 7.829787234042554e-06,
      "loss": 1.0296,
      "step": 184
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.557771505305051,
      "learning_rate": 7.872340425531916e-06,
      "loss": 0.9667,
      "step": 185
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.265478041922279,
      "learning_rate": 7.914893617021278e-06,
      "loss": 1.0903,
      "step": 186
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.5829724516527977,
      "learning_rate": 7.95744680851064e-06,
      "loss": 1.0231,
      "step": 187
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.8570381935078784,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.1131,
      "step": 188
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.051049782309496,
      "learning_rate": 8.042553191489363e-06,
      "loss": 0.9863,
      "step": 189
    },
    {
      "epoch": 0.02,
      "grad_norm": 11.40537954031478,
      "learning_rate": 8.085106382978723e-06,
      "loss": 1.032,
      "step": 190
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.633979360333333,
      "learning_rate": 8.127659574468085e-06,
      "loss": 1.0202,
      "step": 191
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.1828345423238464,
      "learning_rate": 8.170212765957447e-06,
      "loss": 0.9979,
      "step": 192
    },
    {
      "epoch": 0.02,
      "grad_norm": 7.592713921487459,
      "learning_rate": 8.212765957446809e-06,
      "loss": 0.9331,
      "step": 193
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.2443288720781402,
      "learning_rate": 8.25531914893617e-06,
      "loss": 1.0635,
      "step": 194
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.3426509565988973,
      "learning_rate": 8.297872340425532e-06,
      "loss": 1.0349,
      "step": 195
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.8818829255569476,
      "learning_rate": 8.340425531914894e-06,
      "loss": 1.0424,
      "step": 196
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.379870356859724,
      "learning_rate": 8.382978723404256e-06,
      "loss": 1.0046,
      "step": 197
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.817625994944515,
      "learning_rate": 8.425531914893618e-06,
      "loss": 0.9542,
      "step": 198
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.38490606511898,
      "learning_rate": 8.46808510638298e-06,
      "loss": 0.9441,
      "step": 199
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.0203520550649774,
      "learning_rate": 8.510638297872341e-06,
      "loss": 1.0554,
      "step": 200
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0645554117241682,
      "learning_rate": 8.553191489361703e-06,
      "loss": 0.6339,
      "step": 201
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.520410895922646,
      "learning_rate": 8.595744680851065e-06,
      "loss": 1.0259,
      "step": 202
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.9358235803136363,
      "learning_rate": 8.638297872340427e-06,
      "loss": 0.8991,
      "step": 203
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.2638323424021634,
      "learning_rate": 8.680851063829788e-06,
      "loss": 1.0603,
      "step": 204
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.241646854936156,
      "learning_rate": 8.72340425531915e-06,
      "loss": 0.9191,
      "step": 205
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0765522896313033,
      "learning_rate": 8.765957446808512e-06,
      "loss": 0.9446,
      "step": 206
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.147050029373795,
      "learning_rate": 8.808510638297874e-06,
      "loss": 1.1054,
      "step": 207
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.187392324225646,
      "learning_rate": 8.851063829787234e-06,
      "loss": 0.9453,
      "step": 208
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.071948706055585,
      "learning_rate": 8.893617021276596e-06,
      "loss": 0.9876,
      "step": 209
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.6146209305806005,
      "learning_rate": 8.936170212765958e-06,
      "loss": 0.9744,
      "step": 210
    },
    {
      "epoch": 0.03,
      "grad_norm": 7.423330372363336,
      "learning_rate": 8.97872340425532e-06,
      "loss": 0.9658,
      "step": 211
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9516313819764473,
      "learning_rate": 9.021276595744681e-06,
      "loss": 1.0241,
      "step": 212
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.59885944907888,
      "learning_rate": 9.063829787234043e-06,
      "loss": 0.9275,
      "step": 213
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.371152415141647,
      "learning_rate": 9.106382978723405e-06,
      "loss": 0.9934,
      "step": 214
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7275296020087443,
      "learning_rate": 9.148936170212767e-06,
      "loss": 1.0589,
      "step": 215
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.2131297814676407,
      "learning_rate": 9.191489361702128e-06,
      "loss": 1.0544,
      "step": 216
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6813549246104873,
      "learning_rate": 9.23404255319149e-06,
      "loss": 1.0564,
      "step": 217
    },
    {
      "epoch": 0.03,
      "grad_norm": 14.476643040752966,
      "learning_rate": 9.276595744680852e-06,
      "loss": 0.9302,
      "step": 218
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9583133356795647,
      "learning_rate": 9.319148936170214e-06,
      "loss": 0.7067,
      "step": 219
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.2995763223912182,
      "learning_rate": 9.361702127659576e-06,
      "loss": 1.082,
      "step": 220
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5451721977294117,
      "learning_rate": 9.404255319148937e-06,
      "loss": 0.9646,
      "step": 221
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.613551244443377,
      "learning_rate": 9.446808510638299e-06,
      "loss": 1.0577,
      "step": 222
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5646136779780515,
      "learning_rate": 9.489361702127661e-06,
      "loss": 0.9782,
      "step": 223
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.1330892911144295,
      "learning_rate": 9.531914893617023e-06,
      "loss": 1.0301,
      "step": 224
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.8044394038101137,
      "learning_rate": 9.574468085106385e-06,
      "loss": 1.0031,
      "step": 225
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0882079619627576,
      "learning_rate": 9.617021276595745e-06,
      "loss": 1.0117,
      "step": 226
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0022712576882298,
      "learning_rate": 9.659574468085106e-06,
      "loss": 0.9438,
      "step": 227
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6723405819494646,
      "learning_rate": 9.702127659574468e-06,
      "loss": 0.9711,
      "step": 228
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.464640749014541,
      "learning_rate": 9.74468085106383e-06,
      "loss": 0.9832,
      "step": 229
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0421672426380044,
      "learning_rate": 9.787234042553192e-06,
      "loss": 1.0242,
      "step": 230
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6637844562000794,
      "learning_rate": 9.829787234042554e-06,
      "loss": 0.8796,
      "step": 231
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9811448422557347,
      "learning_rate": 9.872340425531915e-06,
      "loss": 0.9056,
      "step": 232
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0996672384564654,
      "learning_rate": 9.914893617021277e-06,
      "loss": 0.9789,
      "step": 233
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0641935537916207,
      "learning_rate": 9.957446808510639e-06,
      "loss": 0.6457,
      "step": 234
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.167842675209794,
      "learning_rate": 1e-05,
      "loss": 1.0397,
      "step": 235
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5218550617208146,
      "learning_rate": 9.999999570221018e-06,
      "loss": 0.9286,
      "step": 236
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6871872721242251,
      "learning_rate": 9.999998280884144e-06,
      "loss": 1.0209,
      "step": 237
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.034616111148283,
      "learning_rate": 9.999996131989602e-06,
      "loss": 1.0415,
      "step": 238
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7447043997411853,
      "learning_rate": 9.99999312353776e-06,
      "loss": 1.0199,
      "step": 239
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.1715634835244464,
      "learning_rate": 9.999989255529133e-06,
      "loss": 0.6765,
      "step": 240
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.2667232568727793,
      "learning_rate": 9.99998452796439e-06,
      "loss": 0.9689,
      "step": 241
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.6013524374019608,
      "learning_rate": 9.99997894084434e-06,
      "loss": 1.0392,
      "step": 242
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.1483259614793333,
      "learning_rate": 9.999972494169947e-06,
      "loss": 0.9882,
      "step": 243
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0479868131182624,
      "learning_rate": 9.999965187942317e-06,
      "loss": 0.9611,
      "step": 244
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9466162967197065,
      "learning_rate": 9.999957022162707e-06,
      "loss": 1.0413,
      "step": 245
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.1689829878220177,
      "learning_rate": 9.99994799683252e-06,
      "loss": 0.9928,
      "step": 246
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.232089859319052,
      "learning_rate": 9.999938111953306e-06,
      "loss": 0.9739,
      "step": 247
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7497748036450733,
      "learning_rate": 9.99992736752677e-06,
      "loss": 1.0897,
      "step": 248
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9036100762212983,
      "learning_rate": 9.999915763554754e-06,
      "loss": 0.635,
      "step": 249
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.85551423471739,
      "learning_rate": 9.999903300039253e-06,
      "loss": 1.1105,
      "step": 250
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9325134756663641,
      "learning_rate": 9.999889976982413e-06,
      "loss": 0.65,
      "step": 251
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.3625101838922613,
      "learning_rate": 9.99987579438652e-06,
      "loss": 0.9151,
      "step": 252
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7497531309961343,
      "learning_rate": 9.999860752254016e-06,
      "loss": 0.9787,
      "step": 253
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.097743546150966,
      "learning_rate": 9.999844850587486e-06,
      "loss": 0.746,
      "step": 254
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0396639715722023,
      "learning_rate": 9.99982808938966e-06,
      "loss": 0.695,
      "step": 255
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0251339944554214,
      "learning_rate": 9.999810468663424e-06,
      "loss": 1.0076,
      "step": 256
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9719641955302982,
      "learning_rate": 9.999791988411807e-06,
      "loss": 0.6451,
      "step": 257
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9548220288054838,
      "learning_rate": 9.999772648637984e-06,
      "loss": 1.0128,
      "step": 258
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7986544771995945,
      "learning_rate": 9.999752449345279e-06,
      "loss": 0.9678,
      "step": 259
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5720439877231867,
      "learning_rate": 9.999731390537168e-06,
      "loss": 1.0995,
      "step": 260
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.6988024806675726,
      "learning_rate": 9.999709472217268e-06,
      "loss": 1.0409,
      "step": 261
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0025222600232344,
      "learning_rate": 9.999686694389348e-06,
      "loss": 0.959,
      "step": 262
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.645564016996812,
      "learning_rate": 9.999663057057324e-06,
      "loss": 0.9315,
      "step": 263
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.777100389212999,
      "learning_rate": 9.999638560225259e-06,
      "loss": 1.0744,
      "step": 264
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.761163553723415,
      "learning_rate": 9.999613203897365e-06,
      "loss": 0.8899,
      "step": 265
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9950776026901818,
      "learning_rate": 9.999586988078e-06,
      "loss": 0.6039,
      "step": 266
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7250590604020377,
      "learning_rate": 9.999559912771673e-06,
      "loss": 0.8819,
      "step": 267
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6487634152355457,
      "learning_rate": 9.999531977983038e-06,
      "loss": 0.8789,
      "step": 268
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5749442705275325,
      "learning_rate": 9.999503183716894e-06,
      "loss": 1.0078,
      "step": 269
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.890883322891278,
      "learning_rate": 9.999473529978194e-06,
      "loss": 0.9699,
      "step": 270
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.3896481826773868,
      "learning_rate": 9.999443016772037e-06,
      "loss": 1.0926,
      "step": 271
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0098558362731977,
      "learning_rate": 9.999411644103665e-06,
      "loss": 1.0066,
      "step": 272
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.4984174295608947,
      "learning_rate": 9.999379411978474e-06,
      "loss": 0.9949,
      "step": 273
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8423702389189065,
      "learning_rate": 9.999346320402003e-06,
      "loss": 0.9488,
      "step": 274
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6699319711524556,
      "learning_rate": 9.999312369379944e-06,
      "loss": 1.003,
      "step": 275
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.762198865291589,
      "learning_rate": 9.99927755891813e-06,
      "loss": 1.0242,
      "step": 276
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.71878591659348,
      "learning_rate": 9.99924188902255e-06,
      "loss": 1.0581,
      "step": 277
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8880935558283262,
      "learning_rate": 9.99920535969933e-06,
      "loss": 0.6141,
      "step": 278
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7157915783704647,
      "learning_rate": 9.999167970954756e-06,
      "loss": 0.9989,
      "step": 279
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.308314868639512,
      "learning_rate": 9.999129722795248e-06,
      "loss": 0.9095,
      "step": 280
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6591737819020942,
      "learning_rate": 9.999090615227389e-06,
      "loss": 1.1163,
      "step": 281
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.907416325422326,
      "learning_rate": 9.999050648257898e-06,
      "loss": 0.8971,
      "step": 282
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.976106834447218,
      "learning_rate": 9.999009821893648e-06,
      "loss": 0.6548,
      "step": 283
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.0923830812244426,
      "learning_rate": 9.998968136141655e-06,
      "loss": 0.8873,
      "step": 284
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8017062491637847,
      "learning_rate": 9.998925591009086e-06,
      "loss": 1.0078,
      "step": 285
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0623263047706208,
      "learning_rate": 9.998882186503256e-06,
      "loss": 0.6319,
      "step": 286
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5372035864999711,
      "learning_rate": 9.998837922631625e-06,
      "loss": 0.9677,
      "step": 287
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.641730779730505,
      "learning_rate": 9.998792799401804e-06,
      "loss": 1.0372,
      "step": 288
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.027978927340414,
      "learning_rate": 9.998746816821551e-06,
      "loss": 1.0412,
      "step": 289
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8564724432272177,
      "learning_rate": 9.99869997489877e-06,
      "loss": 0.9219,
      "step": 290
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6338731927738555,
      "learning_rate": 9.99865227364151e-06,
      "loss": 0.9907,
      "step": 291
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.601233244435826,
      "learning_rate": 9.998603713057977e-06,
      "loss": 0.9542,
      "step": 292
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.751079686538962,
      "learning_rate": 9.998554293156518e-06,
      "loss": 1.0253,
      "step": 293
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.262708041164429,
      "learning_rate": 9.998504013945627e-06,
      "loss": 0.9577,
      "step": 294
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0576769030562214,
      "learning_rate": 9.998452875433948e-06,
      "loss": 0.6886,
      "step": 295
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9169436157852757,
      "learning_rate": 9.998400877630272e-06,
      "loss": 1.0101,
      "step": 296
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9910678609942696,
      "learning_rate": 9.99834802054354e-06,
      "loss": 0.728,
      "step": 297
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9159526022602532,
      "learning_rate": 9.998294304182837e-06,
      "loss": 0.6582,
      "step": 298
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.9316813298420556,
      "learning_rate": 9.998239728557399e-06,
      "loss": 0.9491,
      "step": 299
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.590608561964776,
      "learning_rate": 9.998184293676606e-06,
      "loss": 1.0116,
      "step": 300
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7157838034107464,
      "learning_rate": 9.998127999549988e-06,
      "loss": 0.833,
      "step": 301
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.556295072560792,
      "learning_rate": 9.998070846187225e-06,
      "loss": 0.9575,
      "step": 302
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7281775044083052,
      "learning_rate": 9.99801283359814e-06,
      "loss": 0.8781,
      "step": 303
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6954803462136605,
      "learning_rate": 9.997953961792708e-06,
      "loss": 0.9061,
      "step": 304
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8821055611322106,
      "learning_rate": 9.997894230781048e-06,
      "loss": 1.0535,
      "step": 305
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8742481019413257,
      "learning_rate": 9.99783364057343e-06,
      "loss": 0.9716,
      "step": 306
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9311418208687432,
      "learning_rate": 9.997772191180269e-06,
      "loss": 1.0462,
      "step": 307
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3722743364206562,
      "learning_rate": 9.997709882612128e-06,
      "loss": 0.9143,
      "step": 308
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6232539546574358,
      "learning_rate": 9.99764671487972e-06,
      "loss": 0.9384,
      "step": 309
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7548084420006984,
      "learning_rate": 9.997582687993905e-06,
      "loss": 0.937,
      "step": 310
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.241868453639,
      "learning_rate": 9.99751780196569e-06,
      "loss": 0.8465,
      "step": 311
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.83802459525448,
      "learning_rate": 9.997452056806226e-06,
      "loss": 0.9364,
      "step": 312
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7148424985974147,
      "learning_rate": 9.99738545252682e-06,
      "loss": 0.9384,
      "step": 313
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.0593405502314583,
      "learning_rate": 9.99731798913892e-06,
      "loss": 0.8757,
      "step": 314
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7006809182233242,
      "learning_rate": 9.997249666654122e-06,
      "loss": 0.935,
      "step": 315
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.63963431469149,
      "learning_rate": 9.997180485084175e-06,
      "loss": 1.0022,
      "step": 316
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4457100242620593,
      "learning_rate": 9.99711044444097e-06,
      "loss": 0.9102,
      "step": 317
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.105366677642775,
      "learning_rate": 9.997039544736547e-06,
      "loss": 0.8988,
      "step": 318
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.277486170225693,
      "learning_rate": 9.996967785983097e-06,
      "loss": 0.9784,
      "step": 319
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.528672459916522,
      "learning_rate": 9.996895168192954e-06,
      "loss": 0.9789,
      "step": 320
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8678422498740165,
      "learning_rate": 9.996821691378603e-06,
      "loss": 0.727,
      "step": 321
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.845811667120614,
      "learning_rate": 9.996747355552675e-06,
      "loss": 0.93,
      "step": 322
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4969095914034918,
      "learning_rate": 9.99667216072795e-06,
      "loss": 0.9415,
      "step": 323
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2112419227601565,
      "learning_rate": 9.996596106917353e-06,
      "loss": 0.7579,
      "step": 324
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.344087422258764,
      "learning_rate": 9.99651919413396e-06,
      "loss": 0.9397,
      "step": 325
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6275705720127256,
      "learning_rate": 9.996441422390994e-06,
      "loss": 0.9425,
      "step": 326
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8449945432147307,
      "learning_rate": 9.996362791701822e-06,
      "loss": 0.6548,
      "step": 327
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8352831264761686,
      "learning_rate": 9.996283302079965e-06,
      "loss": 1.0113,
      "step": 328
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6033158120401383,
      "learning_rate": 9.996202953539085e-06,
      "loss": 1.0031,
      "step": 329
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4645792724946485,
      "learning_rate": 9.996121746092996e-06,
      "loss": 1.0348,
      "step": 330
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7845444099372605,
      "learning_rate": 9.99603967975566e-06,
      "loss": 0.963,
      "step": 331
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.1414601382347476,
      "learning_rate": 9.995956754541185e-06,
      "loss": 0.9143,
      "step": 332
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6072562568014372,
      "learning_rate": 9.995872970463824e-06,
      "loss": 0.8983,
      "step": 333
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5188567211831645,
      "learning_rate": 9.995788327537983e-06,
      "loss": 0.8849,
      "step": 334
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9238769766901533,
      "learning_rate": 9.995702825778213e-06,
      "loss": 0.9207,
      "step": 335
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8585500495220082,
      "learning_rate": 9.995616465199209e-06,
      "loss": 0.889,
      "step": 336
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5435067545912902,
      "learning_rate": 9.995529245815824e-06,
      "loss": 0.9614,
      "step": 337
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.679711355843513,
      "learning_rate": 9.995441167643048e-06,
      "loss": 1.03,
      "step": 338
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.016746058473481,
      "learning_rate": 9.995352230696021e-06,
      "loss": 0.6515,
      "step": 339
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6100503478397814,
      "learning_rate": 9.995262434990036e-06,
      "loss": 1.0732,
      "step": 340
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.548315633568488,
      "learning_rate": 9.995171780540528e-06,
      "loss": 1.006,
      "step": 341
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.078542448913776,
      "learning_rate": 9.995080267363082e-06,
      "loss": 0.7202,
      "step": 342
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7765743625421602,
      "learning_rate": 9.994987895473431e-06,
      "loss": 1.0615,
      "step": 343
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7279848787084606,
      "learning_rate": 9.994894664887453e-06,
      "loss": 1.0153,
      "step": 344
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8887118151102265,
      "learning_rate": 9.994800575621176e-06,
      "loss": 0.9356,
      "step": 345
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7957070788509593,
      "learning_rate": 9.994705627690777e-06,
      "loss": 1.0119,
      "step": 346
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.682088871384847,
      "learning_rate": 9.994609821112576e-06,
      "loss": 1.1091,
      "step": 347
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8733481159501164,
      "learning_rate": 9.994513155903042e-06,
      "loss": 0.9326,
      "step": 348
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8505950420106887,
      "learning_rate": 9.994415632078797e-06,
      "loss": 0.9068,
      "step": 349
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6940870433405535,
      "learning_rate": 9.994317249656607e-06,
      "loss": 0.8974,
      "step": 350
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9623329034705359,
      "learning_rate": 9.994218008653381e-06,
      "loss": 0.686,
      "step": 351
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9589215349424345,
      "learning_rate": 9.994117909086179e-06,
      "loss": 0.9162,
      "step": 352
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9707101609195972,
      "learning_rate": 9.994016950972214e-06,
      "loss": 1.0587,
      "step": 353
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0591013333809887,
      "learning_rate": 9.99391513432884e-06,
      "loss": 1.019,
      "step": 354
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9396572717721363,
      "learning_rate": 9.993812459173557e-06,
      "loss": 0.6893,
      "step": 355
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.1103571662293628,
      "learning_rate": 9.993708925524022e-06,
      "loss": 0.9059,
      "step": 356
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9927320421622621,
      "learning_rate": 9.993604533398029e-06,
      "loss": 0.6522,
      "step": 357
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.06488428023787,
      "learning_rate": 9.993499282813528e-06,
      "loss": 0.8957,
      "step": 358
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6270626433602127,
      "learning_rate": 9.993393173788608e-06,
      "loss": 0.9607,
      "step": 359
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4356118548669292,
      "learning_rate": 9.993286206341515e-06,
      "loss": 0.9728,
      "step": 360
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.843929490467603,
      "learning_rate": 9.993178380490636e-06,
      "loss": 0.965,
      "step": 361
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8098011215633376,
      "learning_rate": 9.993069696254506e-06,
      "loss": 1.0028,
      "step": 362
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9057047930538366,
      "learning_rate": 9.992960153651812e-06,
      "loss": 0.6503,
      "step": 363
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7566000917891686,
      "learning_rate": 9.992849752701384e-06,
      "loss": 0.7883,
      "step": 364
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7364712685623143,
      "learning_rate": 9.9927384934222e-06,
      "loss": 0.9604,
      "step": 365
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.783765303906695,
      "learning_rate": 9.99262637583339e-06,
      "loss": 0.9715,
      "step": 366
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5304313851678688,
      "learning_rate": 9.992513399954225e-06,
      "loss": 0.9561,
      "step": 367
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8546068061509322,
      "learning_rate": 9.99239956580413e-06,
      "loss": 0.9179,
      "step": 368
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7896984944591587,
      "learning_rate": 9.99228487340267e-06,
      "loss": 1.0321,
      "step": 369
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7357134224517583,
      "learning_rate": 9.992169322769568e-06,
      "loss": 0.8974,
      "step": 370
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8161156700280123,
      "learning_rate": 9.992052913924683e-06,
      "loss": 1.0481,
      "step": 371
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0294244732127535,
      "learning_rate": 9.991935646888031e-06,
      "loss": 0.7186,
      "step": 372
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6260044775744698,
      "learning_rate": 9.991817521679769e-06,
      "loss": 0.8096,
      "step": 373
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6605252732018603,
      "learning_rate": 9.991698538320205e-06,
      "loss": 0.9726,
      "step": 374
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8664444582344644,
      "learning_rate": 9.991578696829793e-06,
      "loss": 0.6521,
      "step": 375
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5272639748825032,
      "learning_rate": 9.991457997229136e-06,
      "loss": 1.015,
      "step": 376
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9510071041396082,
      "learning_rate": 9.991336439538983e-06,
      "loss": 0.7279,
      "step": 377
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7845456352789566,
      "learning_rate": 9.991214023780232e-06,
      "loss": 1.006,
      "step": 378
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7764449243715439,
      "learning_rate": 9.991090749973926e-06,
      "loss": 1.0253,
      "step": 379
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.554610902340196,
      "learning_rate": 9.99096661814126e-06,
      "loss": 0.9256,
      "step": 380
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9411118767536897,
      "learning_rate": 9.990841628303571e-06,
      "loss": 0.9123,
      "step": 381
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9453781490387794,
      "learning_rate": 9.990715780482348e-06,
      "loss": 0.9461,
      "step": 382
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5873670172711203,
      "learning_rate": 9.990589074699225e-06,
      "loss": 0.9038,
      "step": 383
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.3576747990137163,
      "learning_rate": 9.990461510975983e-06,
      "loss": 0.8986,
      "step": 384
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.2129313715335086,
      "learning_rate": 9.990333089334556e-06,
      "loss": 0.9526,
      "step": 385
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.782729490096807,
      "learning_rate": 9.990203809797014e-06,
      "loss": 0.9277,
      "step": 386
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6956881841860536,
      "learning_rate": 9.990073672385588e-06,
      "loss": 0.8566,
      "step": 387
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.659011814945456,
      "learning_rate": 9.989942677122648e-06,
      "loss": 0.9413,
      "step": 388
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6115935593181636,
      "learning_rate": 9.989810824030712e-06,
      "loss": 0.88,
      "step": 389
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4815735288952063,
      "learning_rate": 9.989678113132451e-06,
      "loss": 0.9513,
      "step": 390
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5912534309759663,
      "learning_rate": 9.989544544450675e-06,
      "loss": 1.0259,
      "step": 391
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.773309486982601,
      "learning_rate": 9.989410118008348e-06,
      "loss": 0.8267,
      "step": 392
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7362565528038425,
      "learning_rate": 9.98927483382858e-06,
      "loss": 0.8982,
      "step": 393
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7631423322654083,
      "learning_rate": 9.989138691934628e-06,
      "loss": 0.8923,
      "step": 394
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.875785616745391,
      "learning_rate": 9.989001692349894e-06,
      "loss": 0.9376,
      "step": 395
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7682555562942734,
      "learning_rate": 9.988863835097934e-06,
      "loss": 1.063,
      "step": 396
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6080573159918998,
      "learning_rate": 9.988725120202442e-06,
      "loss": 0.8865,
      "step": 397
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.573739237129836,
      "learning_rate": 9.98858554768727e-06,
      "loss": 0.9056,
      "step": 398
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.770937048451232,
      "learning_rate": 9.988445117576408e-06,
      "loss": 0.9345,
      "step": 399
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6318195695167612,
      "learning_rate": 9.988303829894002e-06,
      "loss": 0.9968,
      "step": 400
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9280658301423124,
      "learning_rate": 9.988161684664336e-06,
      "loss": 0.7476,
      "step": 401
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5357545666122414,
      "learning_rate": 9.988018681911849e-06,
      "loss": 1.0866,
      "step": 402
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7944037203004857,
      "learning_rate": 9.987874821661124e-06,
      "loss": 1.0136,
      "step": 403
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8061521527606875,
      "learning_rate": 9.987730103936895e-06,
      "loss": 0.62,
      "step": 404
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5293601830387378,
      "learning_rate": 9.987584528764036e-06,
      "loss": 0.8457,
      "step": 405
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9930515824819199,
      "learning_rate": 9.987438096167577e-06,
      "loss": 0.7524,
      "step": 406
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5107626185679381,
      "learning_rate": 9.987290806172689e-06,
      "loss": 1.03,
      "step": 407
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9147818272072284,
      "learning_rate": 9.987142658804692e-06,
      "loss": 0.6053,
      "step": 408
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9754640199350917,
      "learning_rate": 9.986993654089059e-06,
      "loss": 1.0265,
      "step": 409
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.828073872903419,
      "learning_rate": 9.986843792051402e-06,
      "loss": 1.0242,
      "step": 410
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0659962305446227,
      "learning_rate": 9.986693072717483e-06,
      "loss": 0.9701,
      "step": 411
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.9074750599301467,
      "learning_rate": 9.986541496113215e-06,
      "loss": 1.0511,
      "step": 412
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6133592090884696,
      "learning_rate": 9.986389062264656e-06,
      "loss": 0.8328,
      "step": 413
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.398205496526382,
      "learning_rate": 9.98623577119801e-06,
      "loss": 0.8162,
      "step": 414
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6640267192431226,
      "learning_rate": 9.98608162293963e-06,
      "loss": 0.8804,
      "step": 415
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5237169124377845,
      "learning_rate": 9.985926617516012e-06,
      "loss": 0.9888,
      "step": 416
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6230256618803591,
      "learning_rate": 9.98577075495381e-06,
      "loss": 0.8588,
      "step": 417
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.7948263818980315,
      "learning_rate": 9.985614035279813e-06,
      "loss": 1.0158,
      "step": 418
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6576555399642408,
      "learning_rate": 9.985456458520968e-06,
      "loss": 0.885,
      "step": 419
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4545283818537136,
      "learning_rate": 9.98529802470436e-06,
      "loss": 0.937,
      "step": 420
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4118913874464134,
      "learning_rate": 9.985138733857225e-06,
      "loss": 0.882,
      "step": 421
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8313817570652962,
      "learning_rate": 9.984978586006951e-06,
      "loss": 0.8874,
      "step": 422
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.1227304130863973,
      "learning_rate": 9.984817581181068e-06,
      "loss": 0.9361,
      "step": 423
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9815850357206682,
      "learning_rate": 9.984655719407252e-06,
      "loss": 0.7168,
      "step": 424
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.198526618786407,
      "learning_rate": 9.98449300071333e-06,
      "loss": 0.8906,
      "step": 425
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5892931648528734,
      "learning_rate": 9.98432942512728e-06,
      "loss": 0.9132,
      "step": 426
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0946470852365164,
      "learning_rate": 9.984164992677215e-06,
      "loss": 0.6348,
      "step": 427
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5679336197698448,
      "learning_rate": 9.983999703391408e-06,
      "loss": 0.9583,
      "step": 428
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9793040421058457,
      "learning_rate": 9.98383355729827e-06,
      "loss": 0.6773,
      "step": 429
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6546209367108655,
      "learning_rate": 9.983666554426367e-06,
      "loss": 0.9712,
      "step": 430
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8744642930138169,
      "learning_rate": 9.98349869480441e-06,
      "loss": 0.6482,
      "step": 431
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4574390473563013,
      "learning_rate": 9.983329978461252e-06,
      "loss": 0.7767,
      "step": 432
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5069572627125343,
      "learning_rate": 9.9831604054259e-06,
      "loss": 1.0063,
      "step": 433
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.679595720819208,
      "learning_rate": 9.982989975727502e-06,
      "loss": 0.9299,
      "step": 434
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7459978751184584,
      "learning_rate": 9.982818689395362e-06,
      "loss": 0.9468,
      "step": 435
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7527803970133522,
      "learning_rate": 9.982646546458922e-06,
      "loss": 0.9222,
      "step": 436
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6273506620780924,
      "learning_rate": 9.982473546947777e-06,
      "loss": 0.8739,
      "step": 437
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7207700706442277,
      "learning_rate": 9.982299690891668e-06,
      "loss": 1.0029,
      "step": 438
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8290141862297604,
      "learning_rate": 9.982124978320482e-06,
      "loss": 0.9472,
      "step": 439
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8904520706143594,
      "learning_rate": 9.981949409264256e-06,
      "loss": 0.6817,
      "step": 440
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7680096162866015,
      "learning_rate": 9.981772983753169e-06,
      "loss": 0.9409,
      "step": 441
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8602423941373993,
      "learning_rate": 9.981595701817552e-06,
      "loss": 0.9752,
      "step": 442
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5768320638272246,
      "learning_rate": 9.981417563487884e-06,
      "loss": 0.8401,
      "step": 443
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6094021150990416,
      "learning_rate": 9.981238568794787e-06,
      "loss": 0.9291,
      "step": 444
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.018599386316458,
      "learning_rate": 9.981058717769031e-06,
      "loss": 0.9345,
      "step": 445
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.03247295632263,
      "learning_rate": 9.980878010441539e-06,
      "loss": 0.7235,
      "step": 446
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3867827419770629,
      "learning_rate": 9.980696446843371e-06,
      "loss": 0.9252,
      "step": 447
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7427053529882084,
      "learning_rate": 9.980514027005743e-06,
      "loss": 1.0375,
      "step": 448
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8523187050588314,
      "learning_rate": 9.980330750960014e-06,
      "loss": 0.9161,
      "step": 449
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9194280033927985,
      "learning_rate": 9.980146618737694e-06,
      "loss": 0.6254,
      "step": 450
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6041166332228018,
      "learning_rate": 9.979961630370435e-06,
      "loss": 0.8528,
      "step": 451
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6100824609514017,
      "learning_rate": 9.979775785890037e-06,
      "loss": 0.8388,
      "step": 452
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6841963811797624,
      "learning_rate": 9.979589085328454e-06,
      "loss": 0.946,
      "step": 453
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.540952833468468,
      "learning_rate": 9.979401528717777e-06,
      "loss": 1.0297,
      "step": 454
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.648374356142233,
      "learning_rate": 9.979213116090251e-06,
      "loss": 0.8689,
      "step": 455
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5930214488168633,
      "learning_rate": 9.979023847478268e-06,
      "loss": 0.9288,
      "step": 456
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8066283027268653,
      "learning_rate": 9.978833722914362e-06,
      "loss": 0.9836,
      "step": 457
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.9194737845498486,
      "learning_rate": 9.97864274243122e-06,
      "loss": 1.0981,
      "step": 458
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.72214192439885,
      "learning_rate": 9.978450906061673e-06,
      "loss": 0.8757,
      "step": 459
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7838194412983281,
      "learning_rate": 9.978258213838701e-06,
      "loss": 0.9737,
      "step": 460
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8475531064730042,
      "learning_rate": 9.978064665795429e-06,
      "loss": 1.1429,
      "step": 461
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8629767541707237,
      "learning_rate": 9.977870261965128e-06,
      "loss": 0.6824,
      "step": 462
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.0385661621831335,
      "learning_rate": 9.977675002381222e-06,
      "loss": 0.8973,
      "step": 463
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.437319779355464,
      "learning_rate": 9.977478887077277e-06,
      "loss": 1.0041,
      "step": 464
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.9765993134634563,
      "learning_rate": 9.977281916087008e-06,
      "loss": 0.8372,
      "step": 465
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5203118177173396,
      "learning_rate": 9.977084089444276e-06,
      "loss": 0.9217,
      "step": 466
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7281003249148542,
      "learning_rate": 9.976885407183088e-06,
      "loss": 0.6421,
      "step": 467
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5087639716480186,
      "learning_rate": 9.976685869337603e-06,
      "loss": 0.9867,
      "step": 468
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5764636411712916,
      "learning_rate": 9.976485475942123e-06,
      "loss": 0.9476,
      "step": 469
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7177184522624576,
      "learning_rate": 9.976284227031097e-06,
      "loss": 0.9516,
      "step": 470
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5834069456910458,
      "learning_rate": 9.976082122639122e-06,
      "loss": 0.9673,
      "step": 471
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4654295123871757,
      "learning_rate": 9.975879162800942e-06,
      "loss": 0.9435,
      "step": 472
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5565033174586689,
      "learning_rate": 9.975675347551449e-06,
      "loss": 0.919,
      "step": 473
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.440939123939886,
      "learning_rate": 9.975470676925681e-06,
      "loss": 0.8633,
      "step": 474
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.743073297081127,
      "learning_rate": 9.975265150958822e-06,
      "loss": 0.9061,
      "step": 475
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6930220248016938,
      "learning_rate": 9.975058769686205e-06,
      "loss": 0.8604,
      "step": 476
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6048566745509159,
      "learning_rate": 9.97485153314331e-06,
      "loss": 0.9045,
      "step": 477
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5135468871704398,
      "learning_rate": 9.974643441365765e-06,
      "loss": 0.8167,
      "step": 478
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5657485443318908,
      "learning_rate": 9.97443449438934e-06,
      "loss": 0.9694,
      "step": 479
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4515189829047435,
      "learning_rate": 9.974224692249956e-06,
      "loss": 0.9104,
      "step": 480
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5355555637649434,
      "learning_rate": 9.974014034983684e-06,
      "loss": 1.0378,
      "step": 481
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.205009148722477,
      "learning_rate": 9.973802522626731e-06,
      "loss": 0.9862,
      "step": 482
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8341014371753004,
      "learning_rate": 9.973590155215467e-06,
      "loss": 0.9087,
      "step": 483
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9318947666506826,
      "learning_rate": 9.973376932786396e-06,
      "loss": 0.645,
      "step": 484
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.922392072652987,
      "learning_rate": 9.973162855376173e-06,
      "loss": 1.0266,
      "step": 485
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5218768747236542,
      "learning_rate": 9.972947923021602e-06,
      "loss": 0.8968,
      "step": 486
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8382547212653657,
      "learning_rate": 9.972732135759631e-06,
      "loss": 0.9421,
      "step": 487
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9824822600163365,
      "learning_rate": 9.972515493627357e-06,
      "loss": 0.6781,
      "step": 488
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.9096402710587013,
      "learning_rate": 9.972297996662023e-06,
      "loss": 0.8414,
      "step": 489
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.678303353754334,
      "learning_rate": 9.972079644901021e-06,
      "loss": 0.9416,
      "step": 490
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.394476431843155,
      "learning_rate": 9.971860438381886e-06,
      "loss": 0.9522,
      "step": 491
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.025565920539754,
      "learning_rate": 9.971640377142301e-06,
      "loss": 0.9202,
      "step": 492
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.529043214070051,
      "learning_rate": 9.971419461220102e-06,
      "loss": 0.869,
      "step": 493
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6597176080770517,
      "learning_rate": 9.971197690653263e-06,
      "loss": 0.9077,
      "step": 494
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6259977905288052,
      "learning_rate": 9.970975065479909e-06,
      "loss": 0.8582,
      "step": 495
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5618162312435593,
      "learning_rate": 9.970751585738315e-06,
      "loss": 0.9479,
      "step": 496
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4523417260853582,
      "learning_rate": 9.970527251466895e-06,
      "loss": 0.835,
      "step": 497
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5045016768313408,
      "learning_rate": 9.970302062704218e-06,
      "loss": 0.9296,
      "step": 498
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.56720902382452,
      "learning_rate": 9.970076019488997e-06,
      "loss": 0.967,
      "step": 499
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5296355108747997,
      "learning_rate": 9.969849121860089e-06,
      "loss": 0.9276,
      "step": 500
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6544473870651026,
      "learning_rate": 9.969621369856502e-06,
      "loss": 0.9293,
      "step": 501
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4932895127050931,
      "learning_rate": 9.969392763517387e-06,
      "loss": 0.9878,
      "step": 502
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.544465237537977,
      "learning_rate": 9.969163302882048e-06,
      "loss": 0.9964,
      "step": 503
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7058764610920119,
      "learning_rate": 9.968932987989927e-06,
      "loss": 1.0276,
      "step": 504
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8965381874310263,
      "learning_rate": 9.968701818880624e-06,
      "loss": 0.9759,
      "step": 505
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.478478066403732,
      "learning_rate": 9.968469795593874e-06,
      "loss": 0.9182,
      "step": 506
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4365986042722079,
      "learning_rate": 9.968236918169567e-06,
      "loss": 1.0071,
      "step": 507
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7158086873460046,
      "learning_rate": 9.968003186647737e-06,
      "loss": 1.0112,
      "step": 508
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5080155177040722,
      "learning_rate": 9.967768601068566e-06,
      "loss": 0.9667,
      "step": 509
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6159387762674824,
      "learning_rate": 9.96753316147238e-06,
      "loss": 0.9089,
      "step": 510
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.39679819173538,
      "learning_rate": 9.967296867899656e-06,
      "loss": 0.8573,
      "step": 511
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.833324117183552,
      "learning_rate": 9.967059720391014e-06,
      "loss": 0.9759,
      "step": 512
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.417420236853924,
      "learning_rate": 9.966821718987222e-06,
      "loss": 1.0009,
      "step": 513
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.8192643606081786,
      "learning_rate": 9.966582863729198e-06,
      "loss": 0.9719,
      "step": 514
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6194479891788844,
      "learning_rate": 9.966343154658002e-06,
      "loss": 0.9872,
      "step": 515
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.0129345001810375,
      "learning_rate": 9.966102591814842e-06,
      "loss": 0.9329,
      "step": 516
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5029501508054857,
      "learning_rate": 9.965861175241075e-06,
      "loss": 0.8266,
      "step": 517
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7933709425562046,
      "learning_rate": 9.965618904978203e-06,
      "loss": 0.9335,
      "step": 518
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.782632114852714,
      "learning_rate": 9.965375781067874e-06,
      "loss": 1.0204,
      "step": 519
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7115992827524449,
      "learning_rate": 9.965131803551885e-06,
      "loss": 0.9003,
      "step": 520
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6757672975213254,
      "learning_rate": 9.96488697247218e-06,
      "loss": 0.888,
      "step": 521
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8650646372133252,
      "learning_rate": 9.964641287870844e-06,
      "loss": 0.6516,
      "step": 522
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.1934437334722454,
      "learning_rate": 9.964394749790117e-06,
      "loss": 1.0743,
      "step": 523
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6394852170764913,
      "learning_rate": 9.964147358272379e-06,
      "loss": 1.0244,
      "step": 524
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7970006664681204,
      "learning_rate": 9.963899113360161e-06,
      "loss": 0.9181,
      "step": 525
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6616902393267716,
      "learning_rate": 9.96365001509614e-06,
      "loss": 0.9518,
      "step": 526
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.901661225594217,
      "learning_rate": 9.963400063523136e-06,
      "loss": 0.6848,
      "step": 527
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.523377284166787,
      "learning_rate": 9.963149258684122e-06,
      "loss": 1.0009,
      "step": 528
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.9008841213717702,
      "learning_rate": 9.962897600622212e-06,
      "loss": 0.9699,
      "step": 529
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7806838291711573,
      "learning_rate": 9.962645089380672e-06,
      "loss": 0.8892,
      "step": 530
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5156320517109247,
      "learning_rate": 9.962391725002906e-06,
      "loss": 1.0038,
      "step": 531
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0029138197110368,
      "learning_rate": 9.962137507532474e-06,
      "loss": 0.6566,
      "step": 532
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6903254095200488,
      "learning_rate": 9.961882437013079e-06,
      "loss": 1.0064,
      "step": 533
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.212059099838085,
      "learning_rate": 9.961626513488572e-06,
      "loss": 0.9268,
      "step": 534
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6622041615898207,
      "learning_rate": 9.961369737002943e-06,
      "loss": 0.9402,
      "step": 535
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.794579716441799,
      "learning_rate": 9.961112107600343e-06,
      "loss": 0.9265,
      "step": 536
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4714410331636025,
      "learning_rate": 9.960853625325056e-06,
      "loss": 0.8677,
      "step": 537
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6138209249922366,
      "learning_rate": 9.960594290221519e-06,
      "loss": 0.8812,
      "step": 538
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.887875698191596,
      "learning_rate": 9.960334102334316e-06,
      "loss": 1.0006,
      "step": 539
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.8256648474785089,
      "learning_rate": 9.960073061708176e-06,
      "loss": 1.0511,
      "step": 540
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4508234768952597,
      "learning_rate": 9.959811168387974e-06,
      "loss": 1.0319,
      "step": 541
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.609026377853365,
      "learning_rate": 9.959548422418734e-06,
      "loss": 0.9549,
      "step": 542
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.8165612906856419,
      "learning_rate": 9.959284823845623e-06,
      "loss": 0.8486,
      "step": 543
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.528122184109224,
      "learning_rate": 9.959020372713959e-06,
      "loss": 0.9524,
      "step": 544
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4168345747776772,
      "learning_rate": 9.958755069069202e-06,
      "loss": 0.9118,
      "step": 545
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.609506278931165,
      "learning_rate": 9.958488912956961e-06,
      "loss": 0.8713,
      "step": 546
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4732558751990448,
      "learning_rate": 9.958221904422993e-06,
      "loss": 0.884,
      "step": 547
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5732501891806188,
      "learning_rate": 9.9579540435132e-06,
      "loss": 0.8099,
      "step": 548
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6312493328298854,
      "learning_rate": 9.957685330273628e-06,
      "loss": 0.9476,
      "step": 549
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5144763271767192,
      "learning_rate": 9.957415764750474e-06,
      "loss": 0.9159,
      "step": 550
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6177299077698502,
      "learning_rate": 9.957145346990079e-06,
      "loss": 0.8089,
      "step": 551
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7297797979589637,
      "learning_rate": 9.95687407703893e-06,
      "loss": 0.9298,
      "step": 552
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4288266867228485,
      "learning_rate": 9.956601954943664e-06,
      "loss": 0.8971,
      "step": 553
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7690629034081575,
      "learning_rate": 9.956328980751057e-06,
      "loss": 1.0044,
      "step": 554
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.579665762849707,
      "learning_rate": 9.956055154508042e-06,
      "loss": 0.946,
      "step": 555
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.570890712395291,
      "learning_rate": 9.955780476261689e-06,
      "loss": 0.9263,
      "step": 556
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9723095703431259,
      "learning_rate": 9.955504946059221e-06,
      "loss": 0.657,
      "step": 557
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9541811311479421,
      "learning_rate": 9.955228563948003e-06,
      "loss": 0.6754,
      "step": 558
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5076373594553207,
      "learning_rate": 9.954951329975549e-06,
      "loss": 0.8931,
      "step": 559
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4995422171115282,
      "learning_rate": 9.954673244189518e-06,
      "loss": 0.7789,
      "step": 560
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.028161385474816,
      "learning_rate": 9.954394306637719e-06,
      "loss": 0.6847,
      "step": 561
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9064310853451749,
      "learning_rate": 9.9541145173681e-06,
      "loss": 0.711,
      "step": 562
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.0253909606511824,
      "learning_rate": 9.953833876428763e-06,
      "loss": 1.0185,
      "step": 563
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0270554987591802,
      "learning_rate": 9.953552383867953e-06,
      "loss": 0.6523,
      "step": 564
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4030709231631944,
      "learning_rate": 9.953270039734063e-06,
      "loss": 0.8295,
      "step": 565
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3885645830216655,
      "learning_rate": 9.952986844075628e-06,
      "loss": 0.8295,
      "step": 566
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.1844337072708275,
      "learning_rate": 9.952702796941334e-06,
      "loss": 0.925,
      "step": 567
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.152769305256333,
      "learning_rate": 9.952417898380015e-06,
      "loss": 0.9367,
      "step": 568
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6030502285231039,
      "learning_rate": 9.952132148440644e-06,
      "loss": 0.9037,
      "step": 569
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7326625594658063,
      "learning_rate": 9.951845547172347e-06,
      "loss": 0.9295,
      "step": 570
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4821106589652044,
      "learning_rate": 9.951558094624395e-06,
      "loss": 0.9117,
      "step": 571
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4291120325476023,
      "learning_rate": 9.951269790846204e-06,
      "loss": 0.9555,
      "step": 572
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5452794029581993,
      "learning_rate": 9.950980635887332e-06,
      "loss": 0.8823,
      "step": 573
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7605983706439436,
      "learning_rate": 9.950690629797494e-06,
      "loss": 0.905,
      "step": 574
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0999492320211834,
      "learning_rate": 9.950399772626545e-06,
      "loss": 0.7188,
      "step": 575
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.8496187696144213,
      "learning_rate": 9.950108064424482e-06,
      "loss": 1.0031,
      "step": 576
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5070707911148304,
      "learning_rate": 9.949815505241458e-06,
      "loss": 0.8833,
      "step": 577
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.8927603084418723,
      "learning_rate": 9.949522095127765e-06,
      "loss": 0.9098,
      "step": 578
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4807717165728687,
      "learning_rate": 9.949227834133845e-06,
      "loss": 0.894,
      "step": 579
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3320847206517614,
      "learning_rate": 9.948932722310283e-06,
      "loss": 0.8516,
      "step": 580
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.505523027607964,
      "learning_rate": 9.948636759707815e-06,
      "loss": 1.0321,
      "step": 581
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9447896919942066,
      "learning_rate": 9.948339946377316e-06,
      "loss": 0.6929,
      "step": 582
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6293157559830345,
      "learning_rate": 9.948042282369816e-06,
      "loss": 0.9015,
      "step": 583
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7324195774350544,
      "learning_rate": 9.947743767736485e-06,
      "loss": 0.9304,
      "step": 584
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8684861032134028,
      "learning_rate": 9.947444402528638e-06,
      "loss": 0.6262,
      "step": 585
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.490458975147085,
      "learning_rate": 9.947144186797747e-06,
      "loss": 0.8452,
      "step": 586
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6545034315179947,
      "learning_rate": 9.946843120595415e-06,
      "loss": 0.9243,
      "step": 587
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.085048877756088,
      "learning_rate": 9.946541203973402e-06,
      "loss": 0.855,
      "step": 588
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6721726834642878,
      "learning_rate": 9.94623843698361e-06,
      "loss": 0.94,
      "step": 589
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.429734744147017,
      "learning_rate": 9.945934819678092e-06,
      "loss": 0.9268,
      "step": 590
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4452268463940465,
      "learning_rate": 9.945630352109039e-06,
      "loss": 1.0511,
      "step": 591
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8278103350340753,
      "learning_rate": 9.945325034328791e-06,
      "loss": 0.7207,
      "step": 592
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.581983168765529,
      "learning_rate": 9.945018866389844e-06,
      "loss": 0.9292,
      "step": 593
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5698068893149542,
      "learning_rate": 9.944711848344822e-06,
      "loss": 0.9597,
      "step": 594
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6552292037700334,
      "learning_rate": 9.94440398024651e-06,
      "loss": 0.9759,
      "step": 595
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.477233981702776,
      "learning_rate": 9.944095262147835e-06,
      "loss": 1.0154,
      "step": 596
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8540456520922391,
      "learning_rate": 9.943785694101865e-06,
      "loss": 0.6161,
      "step": 597
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5998050197330254,
      "learning_rate": 9.943475276161823e-06,
      "loss": 0.7735,
      "step": 598
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8488208134052787,
      "learning_rate": 9.943164008381072e-06,
      "loss": 0.7578,
      "step": 599
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.597861748958329,
      "learning_rate": 9.94285189081312e-06,
      "loss": 0.8574,
      "step": 600
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9330386161604883,
      "learning_rate": 9.942538923511627e-06,
      "loss": 0.6714,
      "step": 601
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.521724587349112,
      "learning_rate": 9.942225106530391e-06,
      "loss": 0.8943,
      "step": 602
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4247718664985574,
      "learning_rate": 9.941910439923367e-06,
      "loss": 0.8749,
      "step": 603
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5132836931667741,
      "learning_rate": 9.941594923744647e-06,
      "loss": 0.9156,
      "step": 604
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3837820686734148,
      "learning_rate": 9.941278558048471e-06,
      "loss": 0.8836,
      "step": 605
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5677567873732468,
      "learning_rate": 9.940961342889225e-06,
      "loss": 0.9799,
      "step": 606
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7807723278558523,
      "learning_rate": 9.940643278321447e-06,
      "loss": 0.859,
      "step": 607
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.685965391763423,
      "learning_rate": 9.94032436439981e-06,
      "loss": 0.9276,
      "step": 608
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3646855965585214,
      "learning_rate": 9.940004601179143e-06,
      "loss": 0.9467,
      "step": 609
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5237974885717545,
      "learning_rate": 9.939683988714415e-06,
      "loss": 0.935,
      "step": 610
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9559780044219733,
      "learning_rate": 9.939362527060743e-06,
      "loss": 0.6376,
      "step": 611
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5712257047676488,
      "learning_rate": 9.939040216273392e-06,
      "loss": 1.0131,
      "step": 612
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7181305583035975,
      "learning_rate": 9.938717056407768e-06,
      "loss": 0.9032,
      "step": 613
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4917791786438683,
      "learning_rate": 9.938393047519428e-06,
      "loss": 0.8613,
      "step": 614
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6097066001421967,
      "learning_rate": 9.938068189664073e-06,
      "loss": 1.0077,
      "step": 615
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6328025725621627,
      "learning_rate": 9.937742482897549e-06,
      "loss": 0.9407,
      "step": 616
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5382758363086932,
      "learning_rate": 9.937415927275848e-06,
      "loss": 0.8987,
      "step": 617
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4864167680696914,
      "learning_rate": 9.937088522855111e-06,
      "loss": 0.9626,
      "step": 618
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6553631605302523,
      "learning_rate": 9.936760269691621e-06,
      "loss": 0.8775,
      "step": 619
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9033183778579027,
      "learning_rate": 9.936431167841808e-06,
      "loss": 0.6732,
      "step": 620
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6132916998434605,
      "learning_rate": 9.93610121736225e-06,
      "loss": 0.8722,
      "step": 621
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5656610273234104,
      "learning_rate": 9.935770418309667e-06,
      "loss": 0.8303,
      "step": 622
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8750887278473163,
      "learning_rate": 9.93543877074093e-06,
      "loss": 0.677,
      "step": 623
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5562078743546435,
      "learning_rate": 9.935106274713053e-06,
      "loss": 0.863,
      "step": 624
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8825933879604924,
      "learning_rate": 9.934772930283194e-06,
      "loss": 0.6867,
      "step": 625
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.9922211769132503,
      "learning_rate": 9.934438737508658e-06,
      "loss": 0.8612,
      "step": 626
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6196884461406416,
      "learning_rate": 9.9341036964469e-06,
      "loss": 0.9445,
      "step": 627
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.393576835635994,
      "learning_rate": 9.933767807155515e-06,
      "loss": 0.862,
      "step": 628
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.588068651692231,
      "learning_rate": 9.933431069692245e-06,
      "loss": 0.9432,
      "step": 629
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.054664749875776,
      "learning_rate": 9.933093484114983e-06,
      "loss": 0.8932,
      "step": 630
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6594200814278488,
      "learning_rate": 9.932755050481762e-06,
      "loss": 0.9379,
      "step": 631
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6284245660627963,
      "learning_rate": 9.93241576885076e-06,
      "loss": 0.809,
      "step": 632
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8547410014782153,
      "learning_rate": 9.932075639280308e-06,
      "loss": 0.9171,
      "step": 633
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.851206121605023,
      "learning_rate": 9.931734661828876e-06,
      "loss": 0.8275,
      "step": 634
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8056246271954216,
      "learning_rate": 9.931392836555081e-06,
      "loss": 0.7,
      "step": 635
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5290268551142023,
      "learning_rate": 9.931050163517688e-06,
      "loss": 0.859,
      "step": 636
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.548619351410296,
      "learning_rate": 9.930706642775607e-06,
      "loss": 0.8537,
      "step": 637
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6288262575180594,
      "learning_rate": 9.930362274387892e-06,
      "loss": 0.8684,
      "step": 638
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9774472765763826,
      "learning_rate": 9.930017058413745e-06,
      "loss": 0.6827,
      "step": 639
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5905853417817004,
      "learning_rate": 9.92967099491251e-06,
      "loss": 0.9067,
      "step": 640
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.9375950742327788,
      "learning_rate": 9.929324083943683e-06,
      "loss": 0.9302,
      "step": 641
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6915397291411591,
      "learning_rate": 9.9289763255669e-06,
      "loss": 0.9567,
      "step": 642
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.296323079072766,
      "learning_rate": 9.928627719841945e-06,
      "loss": 0.7987,
      "step": 643
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.457742188564548,
      "learning_rate": 9.928278266828747e-06,
      "loss": 0.9132,
      "step": 644
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4239098912660444,
      "learning_rate": 9.927927966587383e-06,
      "loss": 0.9501,
      "step": 645
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.5389733565920887,
      "learning_rate": 9.927576819178071e-06,
      "loss": 0.7863,
      "step": 646
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5955715652107276,
      "learning_rate": 9.927224824661179e-06,
      "loss": 0.8865,
      "step": 647
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4321525495187253,
      "learning_rate": 9.926871983097217e-06,
      "loss": 0.8774,
      "step": 648
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.496653827802037,
      "learning_rate": 9.926518294546846e-06,
      "loss": 0.9256,
      "step": 649
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8243576604694212,
      "learning_rate": 9.926163759070863e-06,
      "loss": 0.9443,
      "step": 650
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.9500162474763438,
      "learning_rate": 9.925808376730225e-06,
      "loss": 0.9586,
      "step": 651
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.64333370594435,
      "learning_rate": 9.925452147586022e-06,
      "loss": 0.9398,
      "step": 652
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5359195415584341,
      "learning_rate": 9.925095071699491e-06,
      "loss": 0.8573,
      "step": 653
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3303280316724624,
      "learning_rate": 9.924737149132022e-06,
      "loss": 0.8448,
      "step": 654
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.505638037662263,
      "learning_rate": 9.924378379945145e-06,
      "loss": 0.9076,
      "step": 655
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.514173013106594,
      "learning_rate": 9.924018764200538e-06,
      "loss": 0.8087,
      "step": 656
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.1823958363843206,
      "learning_rate": 9.923658301960018e-06,
      "loss": 0.9073,
      "step": 657
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4910154075467108,
      "learning_rate": 9.923296993285558e-06,
      "loss": 0.8576,
      "step": 658
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.804244267005761,
      "learning_rate": 9.922934838239269e-06,
      "loss": 0.8656,
      "step": 659
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.534932751399634,
      "learning_rate": 9.922571836883408e-06,
      "loss": 0.9151,
      "step": 660
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4776016327987305,
      "learning_rate": 9.922207989280383e-06,
      "loss": 0.9256,
      "step": 661
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9226147703973622,
      "learning_rate": 9.92184329549274e-06,
      "loss": 0.7089,
      "step": 662
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7625561437285402,
      "learning_rate": 9.921477755583178e-06,
      "loss": 0.9764,
      "step": 663
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7621852543401644,
      "learning_rate": 9.921111369614533e-06,
      "loss": 0.877,
      "step": 664
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7420174139277091,
      "learning_rate": 9.920744137649793e-06,
      "loss": 1.0127,
      "step": 665
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.932526422244164,
      "learning_rate": 9.920376059752091e-06,
      "loss": 0.9519,
      "step": 666
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.629327826432946,
      "learning_rate": 9.920007135984701e-06,
      "loss": 1.0587,
      "step": 667
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7846359952265705,
      "learning_rate": 9.919637366411047e-06,
      "loss": 0.8757,
      "step": 668
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7691675873392916,
      "learning_rate": 9.919266751094698e-06,
      "loss": 0.8584,
      "step": 669
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7873738122736984,
      "learning_rate": 9.918895290099364e-06,
      "loss": 0.8578,
      "step": 670
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9663124300766971,
      "learning_rate": 9.918522983488905e-06,
      "loss": 0.721,
      "step": 671
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.896295921616737,
      "learning_rate": 9.918149831327323e-06,
      "loss": 0.8793,
      "step": 672
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6140564077000437,
      "learning_rate": 9.917775833678772e-06,
      "loss": 0.9565,
      "step": 673
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5213572637090744,
      "learning_rate": 9.917400990607542e-06,
      "loss": 1.0123,
      "step": 674
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4441622219766137,
      "learning_rate": 9.917025302178074e-06,
      "loss": 0.969,
      "step": 675
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.401249262237302,
      "learning_rate": 9.916648768454955e-06,
      "loss": 0.8474,
      "step": 676
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4898165478568501,
      "learning_rate": 9.916271389502911e-06,
      "loss": 0.9342,
      "step": 677
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.180708990079744,
      "learning_rate": 9.915893165386824e-06,
      "loss": 0.7221,
      "step": 678
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7885957062347893,
      "learning_rate": 9.915514096171711e-06,
      "loss": 0.9133,
      "step": 679
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8562049071539528,
      "learning_rate": 9.915134181922739e-06,
      "loss": 0.6892,
      "step": 680
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4357413241276322,
      "learning_rate": 9.91475342270522e-06,
      "loss": 0.7973,
      "step": 681
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6261592182747826,
      "learning_rate": 9.914371818584612e-06,
      "loss": 0.901,
      "step": 682
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8956901781234615,
      "learning_rate": 9.913989369626515e-06,
      "loss": 0.6297,
      "step": 683
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.643240709514877,
      "learning_rate": 9.913606075896677e-06,
      "loss": 0.9738,
      "step": 684
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9062715759938279,
      "learning_rate": 9.913221937460991e-06,
      "loss": 0.685,
      "step": 685
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.098357204848691,
      "learning_rate": 9.912836954385496e-06,
      "loss": 0.938,
      "step": 686
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7938355730814293,
      "learning_rate": 9.912451126736374e-06,
      "loss": 0.888,
      "step": 687
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9154878066636565,
      "learning_rate": 9.912064454579953e-06,
      "loss": 0.864,
      "step": 688
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.5845064867817116,
      "learning_rate": 9.911676937982706e-06,
      "loss": 0.9167,
      "step": 689
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6099150154571131,
      "learning_rate": 9.911288577011254e-06,
      "loss": 0.8925,
      "step": 690
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0448657232590428,
      "learning_rate": 9.910899371732358e-06,
      "loss": 0.6743,
      "step": 691
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.03592698544907,
      "learning_rate": 9.91050932221293e-06,
      "loss": 0.8585,
      "step": 692
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5160389646925534,
      "learning_rate": 9.910118428520019e-06,
      "loss": 0.8925,
      "step": 693
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8734700692263242,
      "learning_rate": 9.909726690720829e-06,
      "loss": 1.0058,
      "step": 694
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5872659483736125,
      "learning_rate": 9.9093341088827e-06,
      "loss": 1.0277,
      "step": 695
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.1863677986187957,
      "learning_rate": 9.908940683073127e-06,
      "loss": 0.9322,
      "step": 696
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8188460508460453,
      "learning_rate": 9.90854641335974e-06,
      "loss": 0.939,
      "step": 697
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.1652684205514787,
      "learning_rate": 9.908151299810319e-06,
      "loss": 0.81,
      "step": 698
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5147157089006154,
      "learning_rate": 9.90775534249279e-06,
      "loss": 0.9509,
      "step": 699
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6087990452091734,
      "learning_rate": 9.907358541475223e-06,
      "loss": 0.8596,
      "step": 700
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6408914115728714,
      "learning_rate": 9.90696089682583e-06,
      "loss": 0.7588,
      "step": 701
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9865539853563319,
      "learning_rate": 9.906562408612973e-06,
      "loss": 0.8382,
      "step": 702
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6687387217666467,
      "learning_rate": 9.906163076905158e-06,
      "loss": 0.9323,
      "step": 703
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4158717483617813,
      "learning_rate": 9.90576290177103e-06,
      "loss": 0.9843,
      "step": 704
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7678910229012406,
      "learning_rate": 9.905361883279388e-06,
      "loss": 0.8298,
      "step": 705
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.446505536655452,
      "learning_rate": 9.90496002149917e-06,
      "loss": 0.8679,
      "step": 706
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.7717592822811885,
      "learning_rate": 9.904557316499462e-06,
      "loss": 0.8978,
      "step": 707
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6799688122594778,
      "learning_rate": 9.904153768349494e-06,
      "loss": 0.9566,
      "step": 708
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.112956547196221,
      "learning_rate": 9.903749377118637e-06,
      "loss": 0.8659,
      "step": 709
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8238553972163498,
      "learning_rate": 9.903344142876414e-06,
      "loss": 1.0457,
      "step": 710
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6986534063343017,
      "learning_rate": 9.902938065692488e-06,
      "loss": 0.8952,
      "step": 711
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9004608811661594,
      "learning_rate": 9.902531145636668e-06,
      "loss": 0.9215,
      "step": 712
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6907812347532754,
      "learning_rate": 9.902123382778911e-06,
      "loss": 0.8755,
      "step": 713
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8027857796169753,
      "learning_rate": 9.901714777189313e-06,
      "loss": 0.9721,
      "step": 714
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4119903174972548,
      "learning_rate": 9.90130532893812e-06,
      "loss": 0.901,
      "step": 715
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7031062885391088,
      "learning_rate": 9.900895038095718e-06,
      "loss": 0.8056,
      "step": 716
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7906905551348575,
      "learning_rate": 9.900483904732645e-06,
      "loss": 0.6845,
      "step": 717
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4839859046667947,
      "learning_rate": 9.900071928919577e-06,
      "loss": 0.9069,
      "step": 718
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.2180482653262232,
      "learning_rate": 9.899659110727339e-06,
      "loss": 1.0366,
      "step": 719
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6319344513345926,
      "learning_rate": 9.899245450226897e-06,
      "loss": 1.0155,
      "step": 720
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9113762710270092,
      "learning_rate": 9.898830947489365e-06,
      "loss": 0.6638,
      "step": 721
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.709656652355132,
      "learning_rate": 9.898415602586e-06,
      "loss": 0.9116,
      "step": 722
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5149183863931197,
      "learning_rate": 9.89799941558821e-06,
      "loss": 0.8841,
      "step": 723
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9157709270379177,
      "learning_rate": 9.897582386567532e-06,
      "loss": 0.9058,
      "step": 724
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4874031050691208,
      "learning_rate": 9.897164515595667e-06,
      "loss": 0.8899,
      "step": 725
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5297273991446225,
      "learning_rate": 9.89674580274445e-06,
      "loss": 0.9573,
      "step": 726
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.940417204331764,
      "learning_rate": 9.896326248085862e-06,
      "loss": 0.6287,
      "step": 727
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3581503562638584,
      "learning_rate": 9.895905851692026e-06,
      "loss": 0.9171,
      "step": 728
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8203011232792885,
      "learning_rate": 9.895484613635217e-06,
      "loss": 0.813,
      "step": 729
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5937713724437164,
      "learning_rate": 9.89506253398785e-06,
      "loss": 0.7973,
      "step": 730
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4804542520277462,
      "learning_rate": 9.894639612822486e-06,
      "loss": 0.8551,
      "step": 731
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3645610039642504,
      "learning_rate": 9.894215850211825e-06,
      "loss": 1.0927,
      "step": 732
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.68361884268327,
      "learning_rate": 9.893791246228726e-06,
      "loss": 0.8934,
      "step": 733
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8767358662404838,
      "learning_rate": 9.893365800946176e-06,
      "loss": 0.875,
      "step": 734
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5154481229838566,
      "learning_rate": 9.892939514437314e-06,
      "loss": 0.8734,
      "step": 735
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9397447443860354,
      "learning_rate": 9.892512386775429e-06,
      "loss": 0.8621,
      "step": 736
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8207970202385189,
      "learning_rate": 9.892084418033942e-06,
      "loss": 0.8925,
      "step": 737
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6060483392483327,
      "learning_rate": 9.891655608286432e-06,
      "loss": 0.9545,
      "step": 738
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.38115498067792,
      "learning_rate": 9.891225957606613e-06,
      "loss": 1.0145,
      "step": 739
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.440550016808465,
      "learning_rate": 9.890795466068351e-06,
      "loss": 0.7962,
      "step": 740
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9848127802433667,
      "learning_rate": 9.890364133745646e-06,
      "loss": 0.6703,
      "step": 741
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4052058790187387,
      "learning_rate": 9.889931960712653e-06,
      "loss": 0.9209,
      "step": 742
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6132530064541504,
      "learning_rate": 9.88949894704367e-06,
      "loss": 0.8828,
      "step": 743
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.9495250157676856,
      "learning_rate": 9.889065092813131e-06,
      "loss": 0.9003,
      "step": 744
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4439322898980351,
      "learning_rate": 9.888630398095623e-06,
      "loss": 0.7842,
      "step": 745
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5258076428332314,
      "learning_rate": 9.888194862965877e-06,
      "loss": 0.8558,
      "step": 746
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5465982789760706,
      "learning_rate": 9.887758487498765e-06,
      "loss": 0.8766,
      "step": 747
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6771470396504362,
      "learning_rate": 9.887321271769305e-06,
      "loss": 0.8651,
      "step": 748
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6557660096704074,
      "learning_rate": 9.88688321585266e-06,
      "loss": 0.9056,
      "step": 749
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8360737180738349,
      "learning_rate": 9.886444319824138e-06,
      "loss": 0.6884,
      "step": 750
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.584289196073978,
      "learning_rate": 9.886004583759187e-06,
      "loss": 0.8664,
      "step": 751
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5140242935285066,
      "learning_rate": 9.885564007733406e-06,
      "loss": 0.8839,
      "step": 752
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.1955846787341504,
      "learning_rate": 9.885122591822533e-06,
      "loss": 0.8861,
      "step": 753
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5050257797198043,
      "learning_rate": 9.884680336102452e-06,
      "loss": 0.9153,
      "step": 754
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4130459611763946,
      "learning_rate": 9.884237240649195e-06,
      "loss": 0.9285,
      "step": 755
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6608665990306501,
      "learning_rate": 9.883793305538934e-06,
      "loss": 0.8198,
      "step": 756
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6263309775750607,
      "learning_rate": 9.883348530847985e-06,
      "loss": 0.8203,
      "step": 757
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.840519460043143,
      "learning_rate": 9.88290291665281e-06,
      "loss": 0.8463,
      "step": 758
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4310704844145643,
      "learning_rate": 9.882456463030017e-06,
      "loss": 0.7565,
      "step": 759
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4114036882848333,
      "learning_rate": 9.882009170056354e-06,
      "loss": 0.9617,
      "step": 760
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4936613954068285,
      "learning_rate": 9.88156103780872e-06,
      "loss": 0.9164,
      "step": 761
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9357252398440378,
      "learning_rate": 9.881112066364151e-06,
      "loss": 0.6733,
      "step": 762
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8245986728458383,
      "learning_rate": 9.880662255799831e-06,
      "loss": 0.9749,
      "step": 763
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.9842729308885834,
      "learning_rate": 9.880211606193089e-06,
      "loss": 0.9319,
      "step": 764
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7453386104741333,
      "learning_rate": 9.879760117621393e-06,
      "loss": 0.8654,
      "step": 765
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7500447904306218,
      "learning_rate": 9.879307790162364e-06,
      "loss": 0.8771,
      "step": 766
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.503569728173644,
      "learning_rate": 9.87885462389376e-06,
      "loss": 0.8643,
      "step": 767
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7275324463591102,
      "learning_rate": 9.878400618893483e-06,
      "loss": 0.9436,
      "step": 768
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.428056646060356,
      "learning_rate": 9.877945775239585e-06,
      "loss": 0.8725,
      "step": 769
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.05023302789718,
      "learning_rate": 9.87749009301026e-06,
      "loss": 0.8604,
      "step": 770
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.458173830286283,
      "learning_rate": 9.877033572283842e-06,
      "loss": 0.9981,
      "step": 771
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5176612554940503,
      "learning_rate": 9.876576213138815e-06,
      "loss": 0.8628,
      "step": 772
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.494377394884231,
      "learning_rate": 9.876118015653804e-06,
      "loss": 0.8894,
      "step": 773
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.423479664202133,
      "learning_rate": 9.875658979907574e-06,
      "loss": 0.9001,
      "step": 774
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5300467182712332,
      "learning_rate": 9.875199105979043e-06,
      "loss": 0.8545,
      "step": 775
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6267638202978656,
      "learning_rate": 9.874738393947268e-06,
      "loss": 0.7479,
      "step": 776
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.0425911190537263,
      "learning_rate": 9.87427684389145e-06,
      "loss": 0.8639,
      "step": 777
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.598379845585637,
      "learning_rate": 9.873814455890934e-06,
      "loss": 0.757,
      "step": 778
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7869174806791537,
      "learning_rate": 9.873351230025212e-06,
      "loss": 0.8941,
      "step": 779
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4591410029434178,
      "learning_rate": 9.872887166373916e-06,
      "loss": 0.935,
      "step": 780
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5352774483198834,
      "learning_rate": 9.872422265016827e-06,
      "loss": 0.8385,
      "step": 781
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8033971486700233,
      "learning_rate": 9.871956526033863e-06,
      "loss": 0.9317,
      "step": 782
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8327620574092269,
      "learning_rate": 9.871489949505091e-06,
      "loss": 0.6824,
      "step": 783
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8578073028713717,
      "learning_rate": 9.871022535510722e-06,
      "loss": 0.8246,
      "step": 784
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9944947779384002,
      "learning_rate": 9.870554284131111e-06,
      "loss": 0.7277,
      "step": 785
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5997422780978041,
      "learning_rate": 9.870085195446752e-06,
      "loss": 0.9504,
      "step": 786
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.789284988088321,
      "learning_rate": 9.86961526953829e-06,
      "loss": 0.9956,
      "step": 787
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9821916926846287,
      "learning_rate": 9.86914450648651e-06,
      "loss": 0.7564,
      "step": 788
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1095325115010917,
      "learning_rate": 9.868672906372341e-06,
      "loss": 0.6715,
      "step": 789
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.4999350524442776,
      "learning_rate": 9.868200469276858e-06,
      "loss": 0.8871,
      "step": 790
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4225323098165006,
      "learning_rate": 9.867727195281275e-06,
      "loss": 0.8794,
      "step": 791
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3638496347493438,
      "learning_rate": 9.867253084466957e-06,
      "loss": 0.8922,
      "step": 792
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.093240697596721,
      "learning_rate": 9.866778136915408e-06,
      "loss": 0.704,
      "step": 793
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5346029610543908,
      "learning_rate": 9.866302352708276e-06,
      "loss": 0.9809,
      "step": 794
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9391428465878974,
      "learning_rate": 9.865825731927356e-06,
      "loss": 0.7036,
      "step": 795
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5811778563328958,
      "learning_rate": 9.865348274654582e-06,
      "loss": 0.853,
      "step": 796
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8261570574258044,
      "learning_rate": 9.864869980972036e-06,
      "loss": 0.8812,
      "step": 797
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.009402538731986,
      "learning_rate": 9.86439085096194e-06,
      "loss": 0.8535,
      "step": 798
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.337667411688535,
      "learning_rate": 9.863910884706667e-06,
      "loss": 0.8445,
      "step": 799
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.7216271193078825,
      "learning_rate": 9.863430082288724e-06,
      "loss": 0.9407,
      "step": 800
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6876145770933721,
      "learning_rate": 9.862948443790768e-06,
      "loss": 0.8551,
      "step": 801
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5410665821838188,
      "learning_rate": 9.862465969295599e-06,
      "loss": 0.8677,
      "step": 802
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5003736079985228,
      "learning_rate": 9.861982658886158e-06,
      "loss": 0.897,
      "step": 803
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.379816170576726,
      "learning_rate": 9.861498512645532e-06,
      "loss": 0.7343,
      "step": 804
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7739642328022976,
      "learning_rate": 9.861013530656956e-06,
      "loss": 0.6573,
      "step": 805
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4257994783025876,
      "learning_rate": 9.860527713003797e-06,
      "loss": 0.8345,
      "step": 806
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5580230277315656,
      "learning_rate": 9.86004105976958e-06,
      "loss": 0.9848,
      "step": 807
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6254977603373548,
      "learning_rate": 9.85955357103796e-06,
      "loss": 0.8913,
      "step": 808
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4229041628421255,
      "learning_rate": 9.859065246892744e-06,
      "loss": 0.8669,
      "step": 809
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4665937831995466,
      "learning_rate": 9.858576087417881e-06,
      "loss": 0.8793,
      "step": 810
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.584058536951006,
      "learning_rate": 9.858086092697464e-06,
      "loss": 0.8407,
      "step": 811
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9109317808357815,
      "learning_rate": 9.857595262815726e-06,
      "loss": 0.68,
      "step": 812
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.004997890298941,
      "learning_rate": 9.857103597857051e-06,
      "loss": 0.8688,
      "step": 813
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6074184457790628,
      "learning_rate": 9.856611097905956e-06,
      "loss": 0.9151,
      "step": 814
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9220310843147562,
      "learning_rate": 9.856117763047115e-06,
      "loss": 0.6728,
      "step": 815
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6802105207348044,
      "learning_rate": 9.855623593365332e-06,
      "loss": 0.8372,
      "step": 816
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6244274345485057,
      "learning_rate": 9.855128588945559e-06,
      "loss": 1.0156,
      "step": 817
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6189422768736426,
      "learning_rate": 9.8546327498729e-06,
      "loss": 0.6997,
      "step": 818
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8390646629964336,
      "learning_rate": 9.854136076232587e-06,
      "loss": 0.9723,
      "step": 819
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6308438828208647,
      "learning_rate": 9.853638568110013e-06,
      "loss": 0.7796,
      "step": 820
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5707859480213167,
      "learning_rate": 9.853140225590698e-06,
      "loss": 0.9325,
      "step": 821
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.432487924379961,
      "learning_rate": 9.852641048760319e-06,
      "loss": 0.8587,
      "step": 822
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6742174033044954,
      "learning_rate": 9.852141037704683e-06,
      "loss": 0.8347,
      "step": 823
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7948694076334617,
      "learning_rate": 9.851640192509755e-06,
      "loss": 0.6327,
      "step": 824
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9051158577104201,
      "learning_rate": 9.85113851326163e-06,
      "loss": 0.9711,
      "step": 825
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5949282600115677,
      "learning_rate": 9.850636000046558e-06,
      "loss": 0.838,
      "step": 826
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7893814068697345,
      "learning_rate": 9.850132652950923e-06,
      "loss": 0.9457,
      "step": 827
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8398357254558493,
      "learning_rate": 9.84962847206126e-06,
      "loss": 0.9518,
      "step": 828
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8723550351904932,
      "learning_rate": 9.849123457464238e-06,
      "loss": 0.9161,
      "step": 829
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.351223137607798,
      "learning_rate": 9.848617609246678e-06,
      "loss": 0.8687,
      "step": 830
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6586854021457138,
      "learning_rate": 9.84811092749554e-06,
      "loss": 0.9673,
      "step": 831
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9143421226488035,
      "learning_rate": 9.84760341229793e-06,
      "loss": 0.7231,
      "step": 832
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5441619442191004,
      "learning_rate": 9.847095063741097e-06,
      "loss": 0.8855,
      "step": 833
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6963355550116992,
      "learning_rate": 9.84658588191243e-06,
      "loss": 0.9125,
      "step": 834
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8980881858535368,
      "learning_rate": 9.846075866899463e-06,
      "loss": 0.8135,
      "step": 835
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.835328565879236,
      "learning_rate": 9.845565018789873e-06,
      "loss": 0.9161,
      "step": 836
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4181661271619395,
      "learning_rate": 9.845053337671482e-06,
      "loss": 0.9341,
      "step": 837
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4276918605083475,
      "learning_rate": 9.844540823632254e-06,
      "loss": 0.9169,
      "step": 838
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7307657352357473,
      "learning_rate": 9.844027476760295e-06,
      "loss": 0.9724,
      "step": 839
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.601540718867602,
      "learning_rate": 9.843513297143856e-06,
      "loss": 0.8372,
      "step": 840
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3803254056466567,
      "learning_rate": 9.842998284871332e-06,
      "loss": 0.8523,
      "step": 841
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9009408931746472,
      "learning_rate": 9.842482440031256e-06,
      "loss": 0.8933,
      "step": 842
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3387374763831856,
      "learning_rate": 9.84196576271231e-06,
      "loss": 0.9023,
      "step": 843
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5450024380986218,
      "learning_rate": 9.841448253003319e-06,
      "loss": 0.9957,
      "step": 844
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4262756205292269,
      "learning_rate": 9.840929910993244e-06,
      "loss": 0.8195,
      "step": 845
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6393251459380451,
      "learning_rate": 9.840410736771196e-06,
      "loss": 0.8675,
      "step": 846
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8609833525134731,
      "learning_rate": 9.839890730426429e-06,
      "loss": 0.9025,
      "step": 847
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4250053794985182,
      "learning_rate": 9.839369892048337e-06,
      "loss": 0.8809,
      "step": 848
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.606906189524752,
      "learning_rate": 9.838848221726455e-06,
      "loss": 0.8471,
      "step": 849
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.760855435527007,
      "learning_rate": 9.838325719550469e-06,
      "loss": 0.8957,
      "step": 850
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6431272816302287,
      "learning_rate": 9.8378023856102e-06,
      "loss": 0.9321,
      "step": 851
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4981125161716096,
      "learning_rate": 9.837278219995618e-06,
      "loss": 0.906,
      "step": 852
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6806953027349028,
      "learning_rate": 9.836753222796831e-06,
      "loss": 0.8813,
      "step": 853
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4673943403414031,
      "learning_rate": 9.836227394104093e-06,
      "loss": 0.9482,
      "step": 854
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9265925628407252,
      "learning_rate": 9.835700734007798e-06,
      "loss": 0.6791,
      "step": 855
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.876653432709705,
      "learning_rate": 9.835173242598486e-06,
      "loss": 0.9165,
      "step": 856
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.018358806459957,
      "learning_rate": 9.834644919966842e-06,
      "loss": 0.8821,
      "step": 857
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9990877766088468,
      "learning_rate": 9.834115766203687e-06,
      "loss": 0.8675,
      "step": 858
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.066587469428545,
      "learning_rate": 9.833585781399989e-06,
      "loss": 0.8951,
      "step": 859
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8288996175554724,
      "learning_rate": 9.83305496564686e-06,
      "loss": 0.8898,
      "step": 860
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5280135127221388,
      "learning_rate": 9.832523319035553e-06,
      "loss": 0.8875,
      "step": 861
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1481033167914567,
      "learning_rate": 9.831990841657465e-06,
      "loss": 0.6325,
      "step": 862
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.159813250071533,
      "learning_rate": 9.831457533604133e-06,
      "loss": 0.9566,
      "step": 863
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5923709115967444,
      "learning_rate": 9.83092339496724e-06,
      "loss": 0.732,
      "step": 864
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7162815465719439,
      "learning_rate": 9.83038842583861e-06,
      "loss": 0.8823,
      "step": 865
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7800513978679868,
      "learning_rate": 9.829852626310213e-06,
      "loss": 0.8249,
      "step": 866
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4358617449742264,
      "learning_rate": 9.829315996474156e-06,
      "loss": 0.9318,
      "step": 867
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9028521137097616,
      "learning_rate": 9.828778536422692e-06,
      "loss": 0.9265,
      "step": 868
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.0926414581934534,
      "learning_rate": 9.828240246248217e-06,
      "loss": 0.8309,
      "step": 869
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6863206380133866,
      "learning_rate": 9.827701126043272e-06,
      "loss": 0.8418,
      "step": 870
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.6432515328988817,
      "learning_rate": 9.827161175900535e-06,
      "loss": 0.7949,
      "step": 871
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.588325023604233,
      "learning_rate": 9.826620395912832e-06,
      "loss": 0.9174,
      "step": 872
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.7407726638255845,
      "learning_rate": 9.826078786173126e-06,
      "loss": 0.8774,
      "step": 873
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5639338599767247,
      "learning_rate": 9.82553634677453e-06,
      "loss": 0.8852,
      "step": 874
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.654947926453441,
      "learning_rate": 9.82499307781029e-06,
      "loss": 0.8528,
      "step": 875
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7123771839944846,
      "learning_rate": 9.824448979373807e-06,
      "loss": 0.8292,
      "step": 876
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7950247396302461,
      "learning_rate": 9.823904051558613e-06,
      "loss": 0.8094,
      "step": 877
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2965437183726907,
      "learning_rate": 9.82335829445839e-06,
      "loss": 0.8298,
      "step": 878
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6683481644700162,
      "learning_rate": 9.822811708166958e-06,
      "loss": 0.9146,
      "step": 879
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6266792987500198,
      "learning_rate": 9.822264292778282e-06,
      "loss": 0.8475,
      "step": 880
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7550269970531898,
      "learning_rate": 9.821716048386472e-06,
      "loss": 0.9219,
      "step": 881
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6740347171187433,
      "learning_rate": 9.821166975085774e-06,
      "loss": 0.9143,
      "step": 882
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.578467417865383,
      "learning_rate": 9.820617072970583e-06,
      "loss": 0.8664,
      "step": 883
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4962592937902117,
      "learning_rate": 9.820066342135428e-06,
      "loss": 0.8085,
      "step": 884
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9504565399011462,
      "learning_rate": 9.819514782674992e-06,
      "loss": 0.6992,
      "step": 885
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.843021312532803,
      "learning_rate": 9.818962394684094e-06,
      "loss": 0.6713,
      "step": 886
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8327578004606657,
      "learning_rate": 9.818409178257691e-06,
      "loss": 0.9498,
      "step": 887
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4663876472393083,
      "learning_rate": 9.817855133490891e-06,
      "loss": 0.9765,
      "step": 888
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.014526474521889,
      "learning_rate": 9.817300260478942e-06,
      "loss": 0.7036,
      "step": 889
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7075992302449934,
      "learning_rate": 9.816744559317228e-06,
      "loss": 0.9282,
      "step": 890
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6621486504519207,
      "learning_rate": 9.816188030101287e-06,
      "loss": 0.9666,
      "step": 891
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6480495366530257,
      "learning_rate": 9.815630672926789e-06,
      "loss": 0.778,
      "step": 892
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6857259368432695,
      "learning_rate": 9.81507248788955e-06,
      "loss": 0.9181,
      "step": 893
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7322230237236496,
      "learning_rate": 9.814513475085528e-06,
      "loss": 0.9496,
      "step": 894
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4739962497737091,
      "learning_rate": 9.813953634610827e-06,
      "loss": 0.808,
      "step": 895
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.9247577581440145,
      "learning_rate": 9.813392966561688e-06,
      "loss": 0.8686,
      "step": 896
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4919645985345233,
      "learning_rate": 9.812831471034495e-06,
      "loss": 0.8015,
      "step": 897
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.350502095505328,
      "learning_rate": 9.812269148125779e-06,
      "loss": 0.8247,
      "step": 898
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.434574331766577,
      "learning_rate": 9.811705997932206e-06,
      "loss": 0.8711,
      "step": 899
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5159576277113844,
      "learning_rate": 9.81114202055059e-06,
      "loss": 0.8893,
      "step": 900
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7784266108364777,
      "learning_rate": 9.810577216077886e-06,
      "loss": 0.8684,
      "step": 901
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.539436445964996,
      "learning_rate": 9.810011584611189e-06,
      "loss": 0.871,
      "step": 902
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.506011461430929,
      "learning_rate": 9.80944512624774e-06,
      "loss": 0.9311,
      "step": 903
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9103232721320015,
      "learning_rate": 9.808877841084915e-06,
      "loss": 0.5816,
      "step": 904
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5725364461049305,
      "learning_rate": 9.808309729220241e-06,
      "loss": 0.9265,
      "step": 905
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4403443315255875,
      "learning_rate": 9.807740790751383e-06,
      "loss": 0.8445,
      "step": 906
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7068203113316056,
      "learning_rate": 9.807171025776145e-06,
      "loss": 0.8007,
      "step": 907
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4028291735935547,
      "learning_rate": 9.806600434392479e-06,
      "loss": 0.9828,
      "step": 908
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.640667478535425,
      "learning_rate": 9.806029016698475e-06,
      "loss": 0.8029,
      "step": 909
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7948264075009832,
      "learning_rate": 9.805456772792367e-06,
      "loss": 0.9644,
      "step": 910
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.9458525685737882,
      "learning_rate": 9.804883702772532e-06,
      "loss": 0.7916,
      "step": 911
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4472263118812383,
      "learning_rate": 9.804309806737482e-06,
      "loss": 0.8664,
      "step": 912
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5856530712471948,
      "learning_rate": 9.803735084785884e-06,
      "loss": 0.7783,
      "step": 913
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7385998421448303,
      "learning_rate": 9.803159537016533e-06,
      "loss": 0.8517,
      "step": 914
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3885031086426654,
      "learning_rate": 9.802583163528374e-06,
      "loss": 0.857,
      "step": 915
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4889308716247271,
      "learning_rate": 9.802005964420493e-06,
      "loss": 0.9103,
      "step": 916
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.9703781585777482,
      "learning_rate": 9.801427939792118e-06,
      "loss": 0.8813,
      "step": 917
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3684379878786692,
      "learning_rate": 9.800849089742617e-06,
      "loss": 0.7982,
      "step": 918
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4043859886362093,
      "learning_rate": 9.800269414371501e-06,
      "loss": 0.8505,
      "step": 919
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6553548477332218,
      "learning_rate": 9.799688913778423e-06,
      "loss": 0.9196,
      "step": 920
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7030980234755575,
      "learning_rate": 9.799107588063178e-06,
      "loss": 0.8279,
      "step": 921
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7085351016657113,
      "learning_rate": 9.798525437325704e-06,
      "loss": 0.8718,
      "step": 922
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5937203891422405,
      "learning_rate": 9.797942461666075e-06,
      "loss": 0.8956,
      "step": 923
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.405774451028745,
      "learning_rate": 9.797358661184517e-06,
      "loss": 0.9056,
      "step": 924
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.8712084947627483,
      "learning_rate": 9.796774035981388e-06,
      "loss": 0.897,
      "step": 925
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.446883586647751,
      "learning_rate": 9.796188586157194e-06,
      "loss": 0.8265,
      "step": 926
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5448502198652199,
      "learning_rate": 9.79560231181258e-06,
      "loss": 0.8414,
      "step": 927
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.0564139363881555,
      "learning_rate": 9.795015213048334e-06,
      "loss": 0.9554,
      "step": 928
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.657773199907516,
      "learning_rate": 9.794427289965383e-06,
      "loss": 0.9742,
      "step": 929
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9163302024923797,
      "learning_rate": 9.793838542664797e-06,
      "loss": 0.7276,
      "step": 930
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7391579971837132,
      "learning_rate": 9.793248971247792e-06,
      "loss": 0.8949,
      "step": 931
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6344215619699958,
      "learning_rate": 9.792658575815724e-06,
      "loss": 0.8377,
      "step": 932
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.032445611096847,
      "learning_rate": 9.792067356470083e-06,
      "loss": 0.8411,
      "step": 933
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3218270657158984,
      "learning_rate": 9.791475313312508e-06,
      "loss": 0.8785,
      "step": 934
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0284468189558165,
      "learning_rate": 9.79088244644478e-06,
      "loss": 0.6806,
      "step": 935
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5499305473277545,
      "learning_rate": 9.79028875596882e-06,
      "loss": 0.8725,
      "step": 936
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5248009820829933,
      "learning_rate": 9.789694241986687e-06,
      "loss": 0.8673,
      "step": 937
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.793911082665944,
      "learning_rate": 9.789098904600588e-06,
      "loss": 0.8966,
      "step": 938
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5489661111065043,
      "learning_rate": 9.788502743912866e-06,
      "loss": 0.946,
      "step": 939
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5642121773621587,
      "learning_rate": 9.787905760026011e-06,
      "loss": 0.9326,
      "step": 940
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.003001704270138,
      "learning_rate": 9.78730795304265e-06,
      "loss": 0.896,
      "step": 941
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4485685155008317,
      "learning_rate": 9.786709323065553e-06,
      "loss": 0.8065,
      "step": 942
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.603513748329705,
      "learning_rate": 9.786109870197629e-06,
      "loss": 0.9038,
      "step": 943
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7485530151345954,
      "learning_rate": 9.785509594541934e-06,
      "loss": 0.9801,
      "step": 944
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8252158026069931,
      "learning_rate": 9.78490849620166e-06,
      "loss": 0.6329,
      "step": 945
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9650099218986303,
      "learning_rate": 9.784306575280146e-06,
      "loss": 0.7089,
      "step": 946
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4929843622703505,
      "learning_rate": 9.783703831880867e-06,
      "loss": 0.9498,
      "step": 947
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6471688449436073,
      "learning_rate": 9.78310026610744e-06,
      "loss": 0.9388,
      "step": 948
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.2266402724716796,
      "learning_rate": 9.78249587806363e-06,
      "loss": 0.8287,
      "step": 949
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5160672902674532,
      "learning_rate": 9.78189066785333e-06,
      "loss": 0.9903,
      "step": 950
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7555891157180166,
      "learning_rate": 9.781284635580593e-06,
      "loss": 0.9756,
      "step": 951
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5880796091475997,
      "learning_rate": 9.780677781349594e-06,
      "loss": 0.8644,
      "step": 952
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6206230823011798,
      "learning_rate": 9.780070105264665e-06,
      "loss": 0.9169,
      "step": 953
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6819834371365177,
      "learning_rate": 9.779461607430268e-06,
      "loss": 0.8215,
      "step": 954
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.498273271792282,
      "learning_rate": 9.778852287951013e-06,
      "loss": 0.8001,
      "step": 955
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.7143499864361265,
      "learning_rate": 9.77824214693165e-06,
      "loss": 0.8902,
      "step": 956
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.0516315852176095,
      "learning_rate": 9.777631184477065e-06,
      "loss": 0.9947,
      "step": 957
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4049490247050798,
      "learning_rate": 9.777019400692292e-06,
      "loss": 0.8645,
      "step": 958
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.8181152947651844,
      "learning_rate": 9.776406795682506e-06,
      "loss": 0.86,
      "step": 959
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7676556939253592,
      "learning_rate": 9.775793369553019e-06,
      "loss": 0.9912,
      "step": 960
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6936477699772923,
      "learning_rate": 9.775179122409283e-06,
      "loss": 0.8791,
      "step": 961
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.057404838159311,
      "learning_rate": 9.7745640543569e-06,
      "loss": 0.8699,
      "step": 962
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.494038345993019,
      "learning_rate": 9.773948165501606e-06,
      "loss": 0.9004,
      "step": 963
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.8327037877881895,
      "learning_rate": 9.773331455949275e-06,
      "loss": 0.8822,
      "step": 964
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8535953677077933,
      "learning_rate": 9.772713925805932e-06,
      "loss": 0.6948,
      "step": 965
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5974956036824017,
      "learning_rate": 9.772095575177733e-06,
      "loss": 0.892,
      "step": 966
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5172173121577863,
      "learning_rate": 9.771476404170984e-06,
      "loss": 0.8196,
      "step": 967
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.2796183795251297,
      "learning_rate": 9.770856412892122e-06,
      "loss": 0.8629,
      "step": 968
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6996936146278043,
      "learning_rate": 9.770235601447737e-06,
      "loss": 0.8156,
      "step": 969
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.472515706794636,
      "learning_rate": 9.769613969944549e-06,
      "loss": 0.9816,
      "step": 970
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3870225195871582,
      "learning_rate": 9.768991518489427e-06,
      "loss": 0.9355,
      "step": 971
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.807854713378328,
      "learning_rate": 9.768368247189375e-06,
      "loss": 0.9362,
      "step": 972
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6628919310527737,
      "learning_rate": 9.767744156151542e-06,
      "loss": 0.911,
      "step": 973
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4582098075391574,
      "learning_rate": 9.767119245483217e-06,
      "loss": 0.8712,
      "step": 974
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5551060429541756,
      "learning_rate": 9.766493515291827e-06,
      "loss": 0.9385,
      "step": 975
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3886017469182468,
      "learning_rate": 9.765866965684944e-06,
      "loss": 0.91,
      "step": 976
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.685982106050295,
      "learning_rate": 9.76523959677028e-06,
      "loss": 0.8193,
      "step": 977
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4192173970572173,
      "learning_rate": 9.764611408655687e-06,
      "loss": 0.8584,
      "step": 978
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3573001204136328,
      "learning_rate": 9.763982401449154e-06,
      "loss": 0.8526,
      "step": 979
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6608902511887795,
      "learning_rate": 9.763352575258817e-06,
      "loss": 0.9514,
      "step": 980
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0411248314289507,
      "learning_rate": 9.762721930192953e-06,
      "loss": 0.7568,
      "step": 981
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.0597818972047195,
      "learning_rate": 9.762090466359975e-06,
      "loss": 0.9204,
      "step": 982
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5754134906855781,
      "learning_rate": 9.761458183868437e-06,
      "loss": 0.9763,
      "step": 983
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4213085911788048,
      "learning_rate": 9.760825082827039e-06,
      "loss": 0.835,
      "step": 984
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.9960335554451518,
      "learning_rate": 9.760191163344617e-06,
      "loss": 0.9241,
      "step": 985
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.114825389677749,
      "learning_rate": 9.75955642553015e-06,
      "loss": 0.8832,
      "step": 986
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6671193795393255,
      "learning_rate": 9.758920869492755e-06,
      "loss": 0.8386,
      "step": 987
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.9488848153962852,
      "learning_rate": 9.758284495341692e-06,
      "loss": 0.8948,
      "step": 988
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6833084627078594,
      "learning_rate": 9.757647303186361e-06,
      "loss": 0.8334,
      "step": 989
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5161216130139847,
      "learning_rate": 9.757009293136303e-06,
      "loss": 0.9003,
      "step": 990
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5520318959708514,
      "learning_rate": 9.756370465301202e-06,
      "loss": 0.7627,
      "step": 991
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3280575739329312,
      "learning_rate": 9.755730819790876e-06,
      "loss": 0.8546,
      "step": 992
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.0522878605856025,
      "learning_rate": 9.755090356715288e-06,
      "loss": 0.8377,
      "step": 993
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.9747625661912969,
      "learning_rate": 9.754449076184544e-06,
      "loss": 0.9004,
      "step": 994
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.882391064045711,
      "learning_rate": 9.753806978308884e-06,
      "loss": 0.9156,
      "step": 995
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6503182126943945,
      "learning_rate": 9.753164063198693e-06,
      "loss": 0.9345,
      "step": 996
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3932822656504569,
      "learning_rate": 9.752520330964497e-06,
      "loss": 0.9223,
      "step": 997
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6629994111937443,
      "learning_rate": 9.75187578171696e-06,
      "loss": 0.8371,
      "step": 998
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5135979780776456,
      "learning_rate": 9.751230415566888e-06,
      "loss": 0.8899,
      "step": 999
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9703278497114549,
      "learning_rate": 9.750584232625226e-06,
      "loss": 0.7199,
      "step": 1000
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9422631359027327,
      "learning_rate": 9.749937233003062e-06,
      "loss": 0.7041,
      "step": 1001
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5130185867630424,
      "learning_rate": 9.749289416811622e-06,
      "loss": 0.7561,
      "step": 1002
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.417855243084068,
      "learning_rate": 9.74864078416227e-06,
      "loss": 0.7383,
      "step": 1003
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7531111721716697,
      "learning_rate": 9.747991335166518e-06,
      "loss": 0.8805,
      "step": 1004
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.0911058915483265,
      "learning_rate": 9.747341069936013e-06,
      "loss": 0.9842,
      "step": 1005
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4667325264221653,
      "learning_rate": 9.74668998858254e-06,
      "loss": 0.931,
      "step": 1006
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8922533573614212,
      "learning_rate": 9.746038091218032e-06,
      "loss": 0.6875,
      "step": 1007
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5261228387286252,
      "learning_rate": 9.745385377954555e-06,
      "loss": 0.912,
      "step": 1008
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9270351867939277,
      "learning_rate": 9.744731848904316e-06,
      "loss": 0.6503,
      "step": 1009
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5362466530329029,
      "learning_rate": 9.74407750417967e-06,
      "loss": 0.9623,
      "step": 1010
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5895742990647377,
      "learning_rate": 9.743422343893099e-06,
      "loss": 0.8616,
      "step": 1011
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8160498989800526,
      "learning_rate": 9.742766368157239e-06,
      "loss": 0.8975,
      "step": 1012
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5432972069886692,
      "learning_rate": 9.742109577084857e-06,
      "loss": 0.8163,
      "step": 1013
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7395874544853762,
      "learning_rate": 9.741451970788863e-06,
      "loss": 0.7653,
      "step": 1014
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.459380018951365,
      "learning_rate": 9.740793549382308e-06,
      "loss": 0.8516,
      "step": 1015
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2811074211153486,
      "learning_rate": 9.740134312978382e-06,
      "loss": 0.9836,
      "step": 1016
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8925853016007974,
      "learning_rate": 9.739474261690415e-06,
      "loss": 0.8169,
      "step": 1017
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8583471924770734,
      "learning_rate": 9.73881339563188e-06,
      "loss": 0.6768,
      "step": 1018
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.470166387380959,
      "learning_rate": 9.738151714916382e-06,
      "loss": 0.7589,
      "step": 1019
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9761720839627875,
      "learning_rate": 9.737489219657676e-06,
      "loss": 0.673,
      "step": 1020
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5891778448271685,
      "learning_rate": 9.73682590996965e-06,
      "loss": 0.9214,
      "step": 1021
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6492160631073287,
      "learning_rate": 9.736161785966339e-06,
      "loss": 0.9698,
      "step": 1022
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.606728007327255,
      "learning_rate": 9.735496847761908e-06,
      "loss": 0.8464,
      "step": 1023
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7321994134619805,
      "learning_rate": 9.734831095470671e-06,
      "loss": 0.8906,
      "step": 1024
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6566679801448596,
      "learning_rate": 9.73416452920708e-06,
      "loss": 0.7992,
      "step": 1025
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4686759169398007,
      "learning_rate": 9.73349714908572e-06,
      "loss": 0.8408,
      "step": 1026
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5463497479580843,
      "learning_rate": 9.732828955221328e-06,
      "loss": 0.8237,
      "step": 1027
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5248278844009604,
      "learning_rate": 9.732159947728767e-06,
      "loss": 0.8745,
      "step": 1028
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6439695475685276,
      "learning_rate": 9.731490126723053e-06,
      "loss": 0.9498,
      "step": 1029
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.044283602979105,
      "learning_rate": 9.730819492319336e-06,
      "loss": 0.9106,
      "step": 1030
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8542878710689927,
      "learning_rate": 9.730148044632902e-06,
      "loss": 0.7195,
      "step": 1031
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4946055026198464,
      "learning_rate": 9.729475783779182e-06,
      "loss": 0.9488,
      "step": 1032
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.399314337953505,
      "learning_rate": 9.728802709873747e-06,
      "loss": 0.8909,
      "step": 1033
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.854466436089422,
      "learning_rate": 9.728128823032305e-06,
      "loss": 0.8951,
      "step": 1034
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3194825140750113,
      "learning_rate": 9.727454123370705e-06,
      "loss": 0.8495,
      "step": 1035
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8966506670666113,
      "learning_rate": 9.726778611004936e-06,
      "loss": 0.6628,
      "step": 1036
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.145086274768706,
      "learning_rate": 9.726102286051126e-06,
      "loss": 0.8444,
      "step": 1037
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5693868977527685,
      "learning_rate": 9.725425148625544e-06,
      "loss": 0.8697,
      "step": 1038
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8532207939607911,
      "learning_rate": 9.724747198844597e-06,
      "loss": 0.6477,
      "step": 1039
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.40103395121677,
      "learning_rate": 9.724068436824831e-06,
      "loss": 0.9236,
      "step": 1040
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8795589989133734,
      "learning_rate": 9.723388862682936e-06,
      "loss": 0.694,
      "step": 1041
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4597064541438232,
      "learning_rate": 9.722708476535736e-06,
      "loss": 0.8376,
      "step": 1042
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.3422062398834353,
      "learning_rate": 9.722027278500201e-06,
      "loss": 0.863,
      "step": 1043
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.531160509201963,
      "learning_rate": 9.721345268693433e-06,
      "loss": 0.823,
      "step": 1044
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.9132393907261287,
      "learning_rate": 9.720662447232679e-06,
      "loss": 0.9034,
      "step": 1045
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8007985918447755,
      "learning_rate": 9.719978814235323e-06,
      "loss": 0.8668,
      "step": 1046
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.737734043411535,
      "learning_rate": 9.71929436981889e-06,
      "loss": 0.9154,
      "step": 1047
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5401395867842056,
      "learning_rate": 9.718609114101045e-06,
      "loss": 0.8855,
      "step": 1048
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4709136762565471,
      "learning_rate": 9.717923047199591e-06,
      "loss": 0.9166,
      "step": 1049
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4644720016884332,
      "learning_rate": 9.71723616923247e-06,
      "loss": 0.8391,
      "step": 1050
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.417813506731399,
      "learning_rate": 9.716548480317763e-06,
      "loss": 0.8248,
      "step": 1051
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.935497305934352,
      "learning_rate": 9.715859980573694e-06,
      "loss": 0.6672,
      "step": 1052
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3928104793912366,
      "learning_rate": 9.715170670118625e-06,
      "loss": 0.9029,
      "step": 1053
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8631851820959293,
      "learning_rate": 9.714480549071053e-06,
      "loss": 0.8232,
      "step": 1054
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.570723942427367,
      "learning_rate": 9.713789617549621e-06,
      "loss": 0.9987,
      "step": 1055
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.732110591452608,
      "learning_rate": 9.713097875673105e-06,
      "loss": 0.9403,
      "step": 1056
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6308209034643473,
      "learning_rate": 9.712405323560427e-06,
      "loss": 0.9183,
      "step": 1057
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.575338676586316,
      "learning_rate": 9.711711961330644e-06,
      "loss": 0.8802,
      "step": 1058
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7025586864122284,
      "learning_rate": 9.711017789102948e-06,
      "loss": 0.8811,
      "step": 1059
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.346932385403814,
      "learning_rate": 9.710322806996682e-06,
      "loss": 0.7886,
      "step": 1060
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.487371398524848,
      "learning_rate": 9.70962701513132e-06,
      "loss": 0.8795,
      "step": 1061
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9741461995252412,
      "learning_rate": 9.708930413626473e-06,
      "loss": 0.6457,
      "step": 1062
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.756145111001177,
      "learning_rate": 9.708233002601897e-06,
      "loss": 0.9452,
      "step": 1063
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4946933417753363,
      "learning_rate": 9.707534782177487e-06,
      "loss": 0.9168,
      "step": 1064
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4586891282078844,
      "learning_rate": 9.706835752473273e-06,
      "loss": 0.7431,
      "step": 1065
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.450436116361146,
      "learning_rate": 9.706135913609426e-06,
      "loss": 0.8605,
      "step": 1066
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6316499649255072,
      "learning_rate": 9.70543526570626e-06,
      "loss": 0.9138,
      "step": 1067
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.0611873239822898,
      "learning_rate": 9.704733808884219e-06,
      "loss": 0.849,
      "step": 1068
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3852447811133013,
      "learning_rate": 9.704031543263893e-06,
      "loss": 0.7761,
      "step": 1069
    },
    {
      "epoch": 0.14,
      "grad_norm": 4.0414830163266995,
      "learning_rate": 9.703328468966016e-06,
      "loss": 0.7939,
      "step": 1070
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5940467661639475,
      "learning_rate": 9.702624586111446e-06,
      "loss": 0.9233,
      "step": 1071
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5588445153559332,
      "learning_rate": 9.701919894821192e-06,
      "loss": 0.8491,
      "step": 1072
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5702174300116574,
      "learning_rate": 9.7012143952164e-06,
      "loss": 0.8811,
      "step": 1073
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.42035461592499,
      "learning_rate": 9.70050808741835e-06,
      "loss": 0.8964,
      "step": 1074
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.610395044872756,
      "learning_rate": 9.69980097154847e-06,
      "loss": 0.8993,
      "step": 1075
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8570044844234171,
      "learning_rate": 9.699093047728317e-06,
      "loss": 0.6508,
      "step": 1076
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.9462471891476356,
      "learning_rate": 9.698384316079592e-06,
      "loss": 0.9148,
      "step": 1077
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4652859211967297,
      "learning_rate": 9.697674776724135e-06,
      "loss": 0.7837,
      "step": 1078
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.9552982573108344,
      "learning_rate": 9.696964429783923e-06,
      "loss": 0.8894,
      "step": 1079
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4237431689828273,
      "learning_rate": 9.696253275381074e-06,
      "loss": 0.9005,
      "step": 1080
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5077841387124928,
      "learning_rate": 9.695541313637845e-06,
      "loss": 0.7596,
      "step": 1081
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.279213413904217,
      "learning_rate": 9.694828544676626e-06,
      "loss": 0.8439,
      "step": 1082
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8204632846524826,
      "learning_rate": 9.694114968619955e-06,
      "loss": 0.5921,
      "step": 1083
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4362361415010458,
      "learning_rate": 9.693400585590502e-06,
      "loss": 0.7579,
      "step": 1084
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4401395049441508,
      "learning_rate": 9.692685395711077e-06,
      "loss": 0.8918,
      "step": 1085
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4034305773859814,
      "learning_rate": 9.69196939910463e-06,
      "loss": 0.9525,
      "step": 1086
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4947120048220228,
      "learning_rate": 9.69125259589425e-06,
      "loss": 0.8434,
      "step": 1087
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.471196751006746,
      "learning_rate": 9.690534986203164e-06,
      "loss": 0.7846,
      "step": 1088
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6551357559796898,
      "learning_rate": 9.689816570154735e-06,
      "loss": 0.9306,
      "step": 1089
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.457075189030687,
      "learning_rate": 9.68909734787247e-06,
      "loss": 0.926,
      "step": 1090
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5160467555077723,
      "learning_rate": 9.688377319480008e-06,
      "loss": 0.8938,
      "step": 1091
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7665931786036972,
      "learning_rate": 9.687656485101134e-06,
      "loss": 0.8713,
      "step": 1092
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6385807592960802,
      "learning_rate": 9.686934844859766e-06,
      "loss": 0.698,
      "step": 1093
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5339062900558258,
      "learning_rate": 9.686212398879963e-06,
      "loss": 0.8236,
      "step": 1094
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.9654322324752178,
      "learning_rate": 9.68548914728592e-06,
      "loss": 0.986,
      "step": 1095
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.733452269918325,
      "learning_rate": 9.684765090201975e-06,
      "loss": 0.8608,
      "step": 1096
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3948151716471413,
      "learning_rate": 9.684040227752601e-06,
      "loss": 0.8528,
      "step": 1097
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8327658997904959,
      "learning_rate": 9.683314560062409e-06,
      "loss": 0.6928,
      "step": 1098
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5366353978072211,
      "learning_rate": 9.68258808725615e-06,
      "loss": 0.8922,
      "step": 1099
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5569092298129117,
      "learning_rate": 9.681860809458713e-06,
      "loss": 0.8556,
      "step": 1100
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.601233662957316,
      "learning_rate": 9.681132726795128e-06,
      "loss": 0.9852,
      "step": 1101
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.267074772777986,
      "learning_rate": 9.680403839390558e-06,
      "loss": 0.7842,
      "step": 1102
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3708378551006095,
      "learning_rate": 9.679674147370308e-06,
      "loss": 1.0056,
      "step": 1103
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5761036204602363,
      "learning_rate": 9.67894365085982e-06,
      "loss": 0.8343,
      "step": 1104
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1969226259108525,
      "learning_rate": 9.678212349984677e-06,
      "loss": 0.8189,
      "step": 1105
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5090567392408705,
      "learning_rate": 9.677480244870597e-06,
      "loss": 0.8133,
      "step": 1106
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.387003907568525,
      "learning_rate": 9.676747335643435e-06,
      "loss": 0.72,
      "step": 1107
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4481621607027901,
      "learning_rate": 9.676013622429187e-06,
      "loss": 0.7919,
      "step": 1108
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6436165574980335,
      "learning_rate": 9.675279105353991e-06,
      "loss": 0.9286,
      "step": 1109
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.069202598657209,
      "learning_rate": 9.674543784544118e-06,
      "loss": 0.872,
      "step": 1110
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4521960723942122,
      "learning_rate": 9.673807660125974e-06,
      "loss": 0.8803,
      "step": 1111
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.444498525885307,
      "learning_rate": 9.673070732226109e-06,
      "loss": 0.8036,
      "step": 1112
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8808713094360792,
      "learning_rate": 9.67233300097121e-06,
      "loss": 0.6877,
      "step": 1113
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.8823126785843161,
      "learning_rate": 9.671594466488104e-06,
      "loss": 0.6626,
      "step": 1114
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6000191739409646,
      "learning_rate": 9.670855128903752e-06,
      "loss": 0.8995,
      "step": 1115
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5584687817392935,
      "learning_rate": 9.670114988345252e-06,
      "loss": 0.8844,
      "step": 1116
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.432350938367779,
      "learning_rate": 9.669374044939846e-06,
      "loss": 0.8499,
      "step": 1117
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3494113247996697,
      "learning_rate": 9.668632298814908e-06,
      "loss": 0.8601,
      "step": 1118
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.598939458102725,
      "learning_rate": 9.667889750097956e-06,
      "loss": 0.8317,
      "step": 1119
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5065531598061528,
      "learning_rate": 9.66714639891664e-06,
      "loss": 0.7837,
      "step": 1120
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5001387169951208,
      "learning_rate": 9.666402245398753e-06,
      "loss": 0.9805,
      "step": 1121
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.500797788665015,
      "learning_rate": 9.665657289672222e-06,
      "loss": 0.8506,
      "step": 1122
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4380717611203622,
      "learning_rate": 9.664911531865115e-06,
      "loss": 0.9728,
      "step": 1123
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5755916979394784,
      "learning_rate": 9.664164972105634e-06,
      "loss": 0.8608,
      "step": 1124
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7740107707148312,
      "learning_rate": 9.663417610522124e-06,
      "loss": 0.7814,
      "step": 1125
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6220969045778137,
      "learning_rate": 9.66266944724306e-06,
      "loss": 0.9631,
      "step": 1126
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4477964648109185,
      "learning_rate": 9.661920482397069e-06,
      "loss": 0.8978,
      "step": 1127
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.152258546666346,
      "learning_rate": 9.661170716112897e-06,
      "loss": 0.8436,
      "step": 1128
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3423630867789442,
      "learning_rate": 9.660420148519444e-06,
      "loss": 0.8529,
      "step": 1129
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4733043239115196,
      "learning_rate": 9.65966877974574e-06,
      "loss": 0.805,
      "step": 1130
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.0734259320970807,
      "learning_rate": 9.658916609920951e-06,
      "loss": 0.892,
      "step": 1131
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3878016747360733,
      "learning_rate": 9.65816363917439e-06,
      "loss": 0.9207,
      "step": 1132
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8506115897305757,
      "learning_rate": 9.657409867635494e-06,
      "loss": 0.6455,
      "step": 1133
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.548256545423374,
      "learning_rate": 9.656655295433849e-06,
      "loss": 0.9007,
      "step": 1134
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4678966070513424,
      "learning_rate": 9.655899922699174e-06,
      "loss": 0.8191,
      "step": 1135
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6553766657257023,
      "learning_rate": 9.655143749561326e-06,
      "loss": 0.9154,
      "step": 1136
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4633197537852285,
      "learning_rate": 9.654386776150301e-06,
      "loss": 0.8911,
      "step": 1137
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.526929267980113,
      "learning_rate": 9.653629002596232e-06,
      "loss": 0.8658,
      "step": 1138
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4954859335615474,
      "learning_rate": 9.652870429029386e-06,
      "loss": 0.9556,
      "step": 1139
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4956358050952463,
      "learning_rate": 9.652111055580175e-06,
      "loss": 0.9056,
      "step": 1140
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.359106584459276,
      "learning_rate": 9.65135088237914e-06,
      "loss": 0.9165,
      "step": 1141
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3466953660807934,
      "learning_rate": 9.650589909556964e-06,
      "loss": 0.821,
      "step": 1142
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.572306495693192,
      "learning_rate": 9.649828137244471e-06,
      "loss": 0.8796,
      "step": 1143
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.058396605888409,
      "learning_rate": 9.649065565572615e-06,
      "loss": 0.8448,
      "step": 1144
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.386112065836123,
      "learning_rate": 9.64830219467249e-06,
      "loss": 0.7256,
      "step": 1145
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5091091111114825,
      "learning_rate": 9.647538024675331e-06,
      "loss": 0.8754,
      "step": 1146
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.433252113456389,
      "learning_rate": 9.646773055712508e-06,
      "loss": 0.8649,
      "step": 1147
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6056377166010798,
      "learning_rate": 9.646007287915524e-06,
      "loss": 0.8356,
      "step": 1148
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.075929967690628,
      "learning_rate": 9.64524072141603e-06,
      "loss": 0.8254,
      "step": 1149
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3434281392252194,
      "learning_rate": 9.6444733563458e-06,
      "loss": 0.8846,
      "step": 1150
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3859137465269762,
      "learning_rate": 9.643705192836758e-06,
      "loss": 0.8519,
      "step": 1151
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8421959780879712,
      "learning_rate": 9.64293623102096e-06,
      "loss": 0.5952,
      "step": 1152
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3572798561796973,
      "learning_rate": 9.642166471030596e-06,
      "loss": 0.852,
      "step": 1153
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9457079046411455,
      "learning_rate": 9.641395912998e-06,
      "loss": 0.6009,
      "step": 1154
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8706813228925633,
      "learning_rate": 9.64062455705564e-06,
      "loss": 0.7137,
      "step": 1155
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4469673590610057,
      "learning_rate": 9.639852403336118e-06,
      "loss": 0.8909,
      "step": 1156
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.812223175157929,
      "learning_rate": 9.63907945197218e-06,
      "loss": 0.6484,
      "step": 1157
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8271691930980212,
      "learning_rate": 9.638305703096702e-06,
      "loss": 0.7634,
      "step": 1158
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6201639830377834,
      "learning_rate": 9.637531156842702e-06,
      "loss": 0.8689,
      "step": 1159
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3716538648828065,
      "learning_rate": 9.636755813343334e-06,
      "loss": 0.8671,
      "step": 1160
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.9737263377329664,
      "learning_rate": 9.635979672731888e-06,
      "loss": 0.8927,
      "step": 1161
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6191431746475256,
      "learning_rate": 9.635202735141792e-06,
      "loss": 0.9468,
      "step": 1162
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4018612074270644,
      "learning_rate": 9.634425000706607e-06,
      "loss": 0.92,
      "step": 1163
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8557839282222204,
      "learning_rate": 9.633646469560039e-06,
      "loss": 0.8228,
      "step": 1164
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5292328597378295,
      "learning_rate": 9.632867141835926e-06,
      "loss": 0.9065,
      "step": 1165
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.7306515591655436,
      "learning_rate": 9.632087017668242e-06,
      "loss": 0.9476,
      "step": 1166
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4653646777978127,
      "learning_rate": 9.6313060971911e-06,
      "loss": 0.8313,
      "step": 1167
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4055195957038646,
      "learning_rate": 9.630524380538748e-06,
      "loss": 0.9418,
      "step": 1168
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.331634204840469,
      "learning_rate": 9.629741867845574e-06,
      "loss": 0.812,
      "step": 1169
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.862624430529954,
      "learning_rate": 9.628958559246101e-06,
      "loss": 0.8594,
      "step": 1170
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.629151543286237,
      "learning_rate": 9.628174454874988e-06,
      "loss": 0.8501,
      "step": 1171
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8763284131462736,
      "learning_rate": 9.627389554867032e-06,
      "loss": 0.9564,
      "step": 1172
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3808159039527843,
      "learning_rate": 9.626603859357165e-06,
      "loss": 0.8673,
      "step": 1173
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.599080291795144,
      "learning_rate": 9.625817368480459e-06,
      "loss": 0.8851,
      "step": 1174
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8526432967414576,
      "learning_rate": 9.625030082372122e-06,
      "loss": 0.657,
      "step": 1175
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5543382494086335,
      "learning_rate": 9.624242001167493e-06,
      "loss": 0.8039,
      "step": 1176
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8182248723922412,
      "learning_rate": 9.623453125002056e-06,
      "loss": 0.9874,
      "step": 1177
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8851296572078913,
      "learning_rate": 9.622663454011429e-06,
      "loss": 0.8474,
      "step": 1178
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.496854871052169,
      "learning_rate": 9.621872988331362e-06,
      "loss": 0.8358,
      "step": 1179
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5435616563883177,
      "learning_rate": 9.621081728097747e-06,
      "loss": 0.7893,
      "step": 1180
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5479114752951195,
      "learning_rate": 9.620289673446611e-06,
      "loss": 0.8651,
      "step": 1181
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.01440245145946,
      "learning_rate": 9.619496824514118e-06,
      "loss": 0.8946,
      "step": 1182
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9156442518747661,
      "learning_rate": 9.618703181436566e-06,
      "loss": 0.6644,
      "step": 1183
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6312185506744892,
      "learning_rate": 9.617908744350392e-06,
      "loss": 0.8635,
      "step": 1184
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6450108135308559,
      "learning_rate": 9.61711351339217e-06,
      "loss": 0.8057,
      "step": 1185
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5112382380896614,
      "learning_rate": 9.61631748869861e-06,
      "loss": 0.8574,
      "step": 1186
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.493863069826153,
      "learning_rate": 9.615520670406555e-06,
      "loss": 0.8725,
      "step": 1187
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5036233352643675,
      "learning_rate": 9.61472305865299e-06,
      "loss": 0.8299,
      "step": 1188
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6287037883550708,
      "learning_rate": 9.613924653575034e-06,
      "loss": 0.8322,
      "step": 1189
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5903524774628022,
      "learning_rate": 9.61312545530994e-06,
      "loss": 0.8614,
      "step": 1190
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3469878563002324,
      "learning_rate": 9.612325463995099e-06,
      "loss": 0.8621,
      "step": 1191
    },
    {
      "epoch": 0.15,
      "grad_norm": 2.0206187699850515,
      "learning_rate": 9.61152467976804e-06,
      "loss": 0.7952,
      "step": 1192
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9881394754200248,
      "learning_rate": 9.610723102766429e-06,
      "loss": 0.6573,
      "step": 1193
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4571836911929739,
      "learning_rate": 9.609920733128064e-06,
      "loss": 0.8916,
      "step": 1194
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.7063174180126368,
      "learning_rate": 9.609117570990882e-06,
      "loss": 0.9482,
      "step": 1195
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4903530853088038,
      "learning_rate": 9.608313616492954e-06,
      "loss": 0.8426,
      "step": 1196
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5859691284480557,
      "learning_rate": 9.607508869772495e-06,
      "loss": 0.8777,
      "step": 1197
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4254773437288015,
      "learning_rate": 9.606703330967843e-06,
      "loss": 0.8525,
      "step": 1198
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5062982663789932,
      "learning_rate": 9.605897000217485e-06,
      "loss": 0.9332,
      "step": 1199
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.948234297035555,
      "learning_rate": 9.605089877660036e-06,
      "loss": 0.9337,
      "step": 1200
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6916906780316912,
      "learning_rate": 9.60428196343425e-06,
      "loss": 0.9321,
      "step": 1201
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.7233858379055167,
      "learning_rate": 9.603473257679018e-06,
      "loss": 0.8932,
      "step": 1202
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.429362454782184,
      "learning_rate": 9.602663760533364e-06,
      "loss": 0.7696,
      "step": 1203
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.95781241811273,
      "learning_rate": 9.601853472136451e-06,
      "loss": 0.9079,
      "step": 1204
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8055145874314817,
      "learning_rate": 9.601042392627577e-06,
      "loss": 0.9022,
      "step": 1205
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5401136185167648,
      "learning_rate": 9.600230522146176e-06,
      "loss": 0.8459,
      "step": 1206
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9313391821689535,
      "learning_rate": 9.599417860831818e-06,
      "loss": 0.6925,
      "step": 1207
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3365840458967861,
      "learning_rate": 9.598604408824209e-06,
      "loss": 0.9724,
      "step": 1208
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.91940650859578,
      "learning_rate": 9.59779016626319e-06,
      "loss": 0.891,
      "step": 1209
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4197377059541452,
      "learning_rate": 9.596975133288738e-06,
      "loss": 0.8421,
      "step": 1210
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8503391380612848,
      "learning_rate": 9.596159310040968e-06,
      "loss": 0.8321,
      "step": 1211
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.793409789584151,
      "learning_rate": 9.595342696660133e-06,
      "loss": 0.8433,
      "step": 1212
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7111076971961103,
      "learning_rate": 9.594525293286611e-06,
      "loss": 0.9213,
      "step": 1213
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9575601716652338,
      "learning_rate": 9.593707100060927e-06,
      "loss": 0.6237,
      "step": 1214
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5149917762798688,
      "learning_rate": 9.59288811712374e-06,
      "loss": 0.8587,
      "step": 1215
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6536608728217386,
      "learning_rate": 9.592068344615837e-06,
      "loss": 0.8181,
      "step": 1216
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5916935257712364,
      "learning_rate": 9.591247782678153e-06,
      "loss": 0.9581,
      "step": 1217
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9196398654835507,
      "learning_rate": 9.590426431451748e-06,
      "loss": 0.6699,
      "step": 1218
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3049216286433076,
      "learning_rate": 9.58960429107782e-06,
      "loss": 0.8048,
      "step": 1219
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5476676681298387,
      "learning_rate": 9.58878136169771e-06,
      "loss": 0.8381,
      "step": 1220
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7110238416245949,
      "learning_rate": 9.587957643452886e-06,
      "loss": 0.9296,
      "step": 1221
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4630923869021368,
      "learning_rate": 9.587133136484953e-06,
      "loss": 0.9427,
      "step": 1222
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.875474769910877,
      "learning_rate": 9.586307840935658e-06,
      "loss": 0.6964,
      "step": 1223
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4131704591369327,
      "learning_rate": 9.585481756946875e-06,
      "loss": 0.8538,
      "step": 1224
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3951995251036675,
      "learning_rate": 9.584654884660618e-06,
      "loss": 0.8607,
      "step": 1225
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8938979369623915,
      "learning_rate": 9.583827224219035e-06,
      "loss": 0.6177,
      "step": 1226
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7832778541427796,
      "learning_rate": 9.582998775764414e-06,
      "loss": 0.9091,
      "step": 1227
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.392936906606448,
      "learning_rate": 9.582169539439173e-06,
      "loss": 0.8318,
      "step": 1228
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.450016305753428,
      "learning_rate": 9.581339515385866e-06,
      "loss": 0.7561,
      "step": 1229
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9324373985793806,
      "learning_rate": 9.580508703747185e-06,
      "loss": 0.748,
      "step": 1230
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9842950273377005,
      "learning_rate": 9.579677104665957e-06,
      "loss": 0.8845,
      "step": 1231
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3681299220637184,
      "learning_rate": 9.578844718285141e-06,
      "loss": 0.812,
      "step": 1232
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4135846664196816,
      "learning_rate": 9.578011544747836e-06,
      "loss": 0.7827,
      "step": 1233
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5835426285183638,
      "learning_rate": 9.577177584197274e-06,
      "loss": 0.8371,
      "step": 1234
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.498464217997704,
      "learning_rate": 9.576342836776822e-06,
      "loss": 0.9087,
      "step": 1235
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4873654187184164,
      "learning_rate": 9.575507302629982e-06,
      "loss": 0.8411,
      "step": 1236
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.140005820445799,
      "learning_rate": 9.574670981900394e-06,
      "loss": 0.9432,
      "step": 1237
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9877496166136991,
      "learning_rate": 9.57383387473183e-06,
      "loss": 0.5617,
      "step": 1238
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0347417943789128,
      "learning_rate": 9.572995981268199e-06,
      "loss": 0.6953,
      "step": 1239
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.501502850730282,
      "learning_rate": 9.572157301653542e-06,
      "loss": 0.8372,
      "step": 1240
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8895439399762766,
      "learning_rate": 9.571317836032042e-06,
      "loss": 0.8984,
      "step": 1241
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5961975805769706,
      "learning_rate": 9.570477584548008e-06,
      "loss": 0.8441,
      "step": 1242
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4574908541580869,
      "learning_rate": 9.569636547345895e-06,
      "loss": 0.8344,
      "step": 1243
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0311619896713318,
      "learning_rate": 9.568794724570282e-06,
      "loss": 0.605,
      "step": 1244
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7940489337907872,
      "learning_rate": 9.567952116365889e-06,
      "loss": 0.8579,
      "step": 1245
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4837162929818444,
      "learning_rate": 9.567108722877572e-06,
      "loss": 0.8947,
      "step": 1246
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5749988007854807,
      "learning_rate": 9.566264544250319e-06,
      "loss": 0.9117,
      "step": 1247
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.692129002021829,
      "learning_rate": 9.565419580629254e-06,
      "loss": 0.9061,
      "step": 1248
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5104997805602607,
      "learning_rate": 9.564573832159638e-06,
      "loss": 0.9199,
      "step": 1249
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6376870091826594,
      "learning_rate": 9.56372729898686e-06,
      "loss": 0.7772,
      "step": 1250
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5585097565348036,
      "learning_rate": 9.562879981256455e-06,
      "loss": 0.9088,
      "step": 1251
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4765260492217267,
      "learning_rate": 9.562031879114082e-06,
      "loss": 0.8532,
      "step": 1252
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4624216463551563,
      "learning_rate": 9.561182992705541e-06,
      "loss": 0.8981,
      "step": 1253
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.524451234254348,
      "learning_rate": 9.560333322176767e-06,
      "loss": 0.9063,
      "step": 1254
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7875934234738189,
      "learning_rate": 9.559482867673825e-06,
      "loss": 0.8017,
      "step": 1255
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0171769820651797,
      "learning_rate": 9.558631629342922e-06,
      "loss": 0.7034,
      "step": 1256
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4761110813824492,
      "learning_rate": 9.557779607330393e-06,
      "loss": 0.7839,
      "step": 1257
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6812658220256091,
      "learning_rate": 9.556926801782714e-06,
      "loss": 0.9108,
      "step": 1258
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7977186728534169,
      "learning_rate": 9.556073212846485e-06,
      "loss": 0.63,
      "step": 1259
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9698991862591438,
      "learning_rate": 9.555218840668454e-06,
      "loss": 0.71,
      "step": 1260
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9354024688911464,
      "learning_rate": 9.554363685395496e-06,
      "loss": 0.8159,
      "step": 1261
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.2948465451023177,
      "learning_rate": 9.553507747174622e-06,
      "loss": 0.7928,
      "step": 1262
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8311544851537136,
      "learning_rate": 9.552651026152978e-06,
      "loss": 0.9104,
      "step": 1263
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6179581507514802,
      "learning_rate": 9.551793522477842e-06,
      "loss": 0.8677,
      "step": 1264
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.957139977438536,
      "learning_rate": 9.55093523629663e-06,
      "loss": 0.889,
      "step": 1265
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8810412322384872,
      "learning_rate": 9.550076167756892e-06,
      "loss": 0.7171,
      "step": 1266
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8317882623769608,
      "learning_rate": 9.549216317006313e-06,
      "loss": 0.8593,
      "step": 1267
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9018749606719523,
      "learning_rate": 9.548355684192712e-06,
      "loss": 0.8624,
      "step": 1268
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8987249398270625,
      "learning_rate": 9.547494269464037e-06,
      "loss": 0.8312,
      "step": 1269
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5846127217210282,
      "learning_rate": 9.546632072968379e-06,
      "loss": 0.9117,
      "step": 1270
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.717870171121195,
      "learning_rate": 9.545769094853958e-06,
      "loss": 0.9614,
      "step": 1271
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4879249277605102,
      "learning_rate": 9.54490533526913e-06,
      "loss": 0.8728,
      "step": 1272
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2857717832735034,
      "learning_rate": 9.544040794362389e-06,
      "loss": 0.8785,
      "step": 1273
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1514349068254655,
      "learning_rate": 9.543175472282353e-06,
      "loss": 0.6801,
      "step": 1274
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.454318430319013,
      "learning_rate": 9.542309369177785e-06,
      "loss": 0.8604,
      "step": 1275
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6554700101452644,
      "learning_rate": 9.541442485197577e-06,
      "loss": 0.8943,
      "step": 1276
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.855759837124519,
      "learning_rate": 9.540574820490759e-06,
      "loss": 0.5739,
      "step": 1277
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9243299793161661,
      "learning_rate": 9.539706375206487e-06,
      "loss": 0.7701,
      "step": 1278
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.874654787249005,
      "learning_rate": 9.538837149494065e-06,
      "loss": 0.7693,
      "step": 1279
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.483151761644666,
      "learning_rate": 9.537967143502915e-06,
      "loss": 0.9236,
      "step": 1280
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4015371797652403,
      "learning_rate": 9.537096357382606e-06,
      "loss": 0.901,
      "step": 1281
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6479297900510814,
      "learning_rate": 9.536224791282834e-06,
      "loss": 0.9399,
      "step": 1282
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.588843660464501,
      "learning_rate": 9.53535244535343e-06,
      "loss": 0.8879,
      "step": 1283
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5941535595780287,
      "learning_rate": 9.534479319744366e-06,
      "loss": 0.7943,
      "step": 1284
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8031201683378062,
      "learning_rate": 9.533605414605736e-06,
      "loss": 0.8784,
      "step": 1285
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.954317065456058,
      "learning_rate": 9.532730730087779e-06,
      "loss": 0.6237,
      "step": 1286
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6816237051902208,
      "learning_rate": 9.53185526634086e-06,
      "loss": 0.9318,
      "step": 1287
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3475377375195094,
      "learning_rate": 9.530979023515483e-06,
      "loss": 0.8357,
      "step": 1288
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8500978946248727,
      "learning_rate": 9.530102001762285e-06,
      "loss": 0.7403,
      "step": 1289
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.658826744472284,
      "learning_rate": 9.529224201232034e-06,
      "loss": 0.916,
      "step": 1290
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8550824736973247,
      "learning_rate": 9.528345622075636e-06,
      "loss": 0.661,
      "step": 1291
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4092225057993375,
      "learning_rate": 9.52746626444413e-06,
      "loss": 0.925,
      "step": 1292
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6781018742261344,
      "learning_rate": 9.526586128488686e-06,
      "loss": 0.9216,
      "step": 1293
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6612382536151558,
      "learning_rate": 9.52570521436061e-06,
      "loss": 0.9415,
      "step": 1294
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7738383987641408,
      "learning_rate": 9.52482352221134e-06,
      "loss": 0.9163,
      "step": 1295
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.497291657577303,
      "learning_rate": 9.52394105219245e-06,
      "loss": 0.8927,
      "step": 1296
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4239686038286505,
      "learning_rate": 9.523057804455648e-06,
      "loss": 0.87,
      "step": 1297
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7589994318466233,
      "learning_rate": 9.522173779152773e-06,
      "loss": 0.7824,
      "step": 1298
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.538867972786197,
      "learning_rate": 9.5212889764358e-06,
      "loss": 0.8392,
      "step": 1299
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7145824938654843,
      "learning_rate": 9.520403396456838e-06,
      "loss": 0.8814,
      "step": 1300
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9142789897930792,
      "learning_rate": 9.519517039368127e-06,
      "loss": 0.7818,
      "step": 1301
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9201708860903076,
      "learning_rate": 9.518629905322041e-06,
      "loss": 0.7127,
      "step": 1302
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9209215921937076,
      "learning_rate": 9.517741994471091e-06,
      "loss": 0.6586,
      "step": 1303
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6621722170788038,
      "learning_rate": 9.516853306967917e-06,
      "loss": 0.8397,
      "step": 1304
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.449281853694586,
      "learning_rate": 9.515963842965294e-06,
      "loss": 0.886,
      "step": 1305
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6220596907008205,
      "learning_rate": 9.515073602616135e-06,
      "loss": 1.0558,
      "step": 1306
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9649533352797843,
      "learning_rate": 9.51418258607348e-06,
      "loss": 0.7298,
      "step": 1307
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.9436191332394035,
      "learning_rate": 9.513290793490506e-06,
      "loss": 0.7919,
      "step": 1308
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.508968212420663,
      "learning_rate": 9.512398225020523e-06,
      "loss": 0.9571,
      "step": 1309
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4992478638178086,
      "learning_rate": 9.511504880816971e-06,
      "loss": 0.8858,
      "step": 1310
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4904209658255023,
      "learning_rate": 9.510610761033427e-06,
      "loss": 0.8981,
      "step": 1311
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.841913575754803,
      "learning_rate": 9.509715865823605e-06,
      "loss": 0.938,
      "step": 1312
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7460919980067078,
      "learning_rate": 9.508820195341343e-06,
      "loss": 0.8447,
      "step": 1313
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5216212564227063,
      "learning_rate": 9.507923749740619e-06,
      "loss": 0.8625,
      "step": 1314
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4798082119516442,
      "learning_rate": 9.50702652917554e-06,
      "loss": 0.9149,
      "step": 1315
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.728614974412048,
      "learning_rate": 9.506128533800353e-06,
      "loss": 0.8429,
      "step": 1316
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.376639520877408,
      "learning_rate": 9.505229763769432e-06,
      "loss": 0.837,
      "step": 1317
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.2960138737031515,
      "learning_rate": 9.504330219237284e-06,
      "loss": 0.835,
      "step": 1318
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.248512867022924,
      "learning_rate": 9.503429900358554e-06,
      "loss": 0.9662,
      "step": 1319
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5371762634061732,
      "learning_rate": 9.502528807288014e-06,
      "loss": 0.833,
      "step": 1320
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7225927779363595,
      "learning_rate": 9.501626940180574e-06,
      "loss": 0.8183,
      "step": 1321
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9435625335251685,
      "learning_rate": 9.50072429919128e-06,
      "loss": 0.6685,
      "step": 1322
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8033514159757655,
      "learning_rate": 9.499820884475296e-06,
      "loss": 0.886,
      "step": 1323
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.528302562845328,
      "learning_rate": 9.498916696187942e-06,
      "loss": 0.9128,
      "step": 1324
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.536936680072623,
      "learning_rate": 9.498011734484647e-06,
      "loss": 0.7765,
      "step": 1325
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7656790463309373,
      "learning_rate": 9.49710599952099e-06,
      "loss": 1.0337,
      "step": 1326
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9027075818808149,
      "learning_rate": 9.49619949145268e-06,
      "loss": 0.6724,
      "step": 1327
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6489078515695927,
      "learning_rate": 9.49529221043555e-06,
      "loss": 0.8525,
      "step": 1328
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.727734093215518,
      "learning_rate": 9.494384156625575e-06,
      "loss": 0.7788,
      "step": 1329
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7202623603854048,
      "learning_rate": 9.49347533017886e-06,
      "loss": 0.9799,
      "step": 1330
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5877450959524775,
      "learning_rate": 9.492565731251645e-06,
      "loss": 0.9292,
      "step": 1331
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5617842645575675,
      "learning_rate": 9.491655360000298e-06,
      "loss": 0.8946,
      "step": 1332
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4628437002744337,
      "learning_rate": 9.490744216581323e-06,
      "loss": 0.8984,
      "step": 1333
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4884923099707095,
      "learning_rate": 9.489832301151354e-06,
      "loss": 0.8284,
      "step": 1334
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5411295581956854,
      "learning_rate": 9.488919613867162e-06,
      "loss": 0.9008,
      "step": 1335
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.40715525477527,
      "learning_rate": 9.48800615488565e-06,
      "loss": 0.826,
      "step": 1336
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4920152387062848,
      "learning_rate": 9.487091924363852e-06,
      "loss": 1.0083,
      "step": 1337
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5562092989299767,
      "learning_rate": 9.486176922458929e-06,
      "loss": 0.8424,
      "step": 1338
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.8483071922237113,
      "learning_rate": 9.485261149328189e-06,
      "loss": 0.6635,
      "step": 1339
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7627095517430904,
      "learning_rate": 9.484344605129057e-06,
      "loss": 0.9089,
      "step": 1340
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5412007487094295,
      "learning_rate": 9.4834272900191e-06,
      "loss": 0.8688,
      "step": 1341
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9460314293655576,
      "learning_rate": 9.482509204156019e-06,
      "loss": 0.6958,
      "step": 1342
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4382215265077216,
      "learning_rate": 9.481590347697638e-06,
      "loss": 0.8545,
      "step": 1343
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8088576589121617,
      "learning_rate": 9.480670720801921e-06,
      "loss": 0.8296,
      "step": 1344
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6084532128937516,
      "learning_rate": 9.479750323626963e-06,
      "loss": 0.8735,
      "step": 1345
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.868493124324513,
      "learning_rate": 9.47882915633099e-06,
      "loss": 0.7131,
      "step": 1346
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.5092812209189503,
      "learning_rate": 9.477907219072362e-06,
      "loss": 0.8108,
      "step": 1347
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3489085141741204,
      "learning_rate": 9.476984512009572e-06,
      "loss": 0.8815,
      "step": 1348
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4962497587485024,
      "learning_rate": 9.476061035301242e-06,
      "loss": 0.8461,
      "step": 1349
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4700050938590288,
      "learning_rate": 9.475136789106128e-06,
      "loss": 0.8152,
      "step": 1350
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5032939497372784,
      "learning_rate": 9.474211773583122e-06,
      "loss": 0.8644,
      "step": 1351
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7233525379736048,
      "learning_rate": 9.47328598889124e-06,
      "loss": 0.8582,
      "step": 1352
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6101775817742474,
      "learning_rate": 9.47235943518964e-06,
      "loss": 0.9467,
      "step": 1353
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4195890830538116,
      "learning_rate": 9.471432112637604e-06,
      "loss": 0.7871,
      "step": 1354
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8739686582535628,
      "learning_rate": 9.47050402139455e-06,
      "loss": 0.8731,
      "step": 1355
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4619302798527771,
      "learning_rate": 9.469575161620029e-06,
      "loss": 0.99,
      "step": 1356
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6283223204132815,
      "learning_rate": 9.468645533473721e-06,
      "loss": 0.811,
      "step": 1357
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7207892140578107,
      "learning_rate": 9.467715137115442e-06,
      "loss": 0.8329,
      "step": 1358
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4894611055736093,
      "learning_rate": 9.466783972705138e-06,
      "loss": 0.8341,
      "step": 1359
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6299119402426723,
      "learning_rate": 9.465852040402883e-06,
      "loss": 0.8788,
      "step": 1360
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.369090705244657,
      "learning_rate": 9.46491934036889e-06,
      "loss": 0.8343,
      "step": 1361
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7240296700133726,
      "learning_rate": 9.463985872763501e-06,
      "loss": 0.9091,
      "step": 1362
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.9022209700514017,
      "learning_rate": 9.463051637747191e-06,
      "loss": 0.852,
      "step": 1363
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5501407753708631,
      "learning_rate": 9.462116635480562e-06,
      "loss": 0.862,
      "step": 1364
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.0744790889360276,
      "learning_rate": 9.461180866124357e-06,
      "loss": 0.8456,
      "step": 1365
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.716877261662,
      "learning_rate": 9.46024432983944e-06,
      "loss": 0.8161,
      "step": 1366
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.771012183337637,
      "learning_rate": 9.459307026786817e-06,
      "loss": 0.838,
      "step": 1367
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.773047362103338,
      "learning_rate": 9.458368957127616e-06,
      "loss": 0.8977,
      "step": 1368
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5092100446694319,
      "learning_rate": 9.45743012102311e-06,
      "loss": 0.8013,
      "step": 1369
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2655629427249147,
      "learning_rate": 9.456490518634688e-06,
      "loss": 0.7578,
      "step": 1370
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9089288956602543,
      "learning_rate": 9.455550150123884e-06,
      "loss": 0.6787,
      "step": 1371
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4329155952306956,
      "learning_rate": 9.454609015652355e-06,
      "loss": 0.8985,
      "step": 1372
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.624141126993692,
      "learning_rate": 9.453667115381893e-06,
      "loss": 0.8355,
      "step": 1373
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.504977378188656,
      "learning_rate": 9.452724449474423e-06,
      "loss": 0.8615,
      "step": 1374
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5337713570720026,
      "learning_rate": 9.451781018092e-06,
      "loss": 0.8521,
      "step": 1375
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4824063486851955,
      "learning_rate": 9.45083682139681e-06,
      "loss": 0.8073,
      "step": 1376
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6531006393716574,
      "learning_rate": 9.449891859551172e-06,
      "loss": 0.9686,
      "step": 1377
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5701652812570364,
      "learning_rate": 9.448946132717536e-06,
      "loss": 0.863,
      "step": 1378
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8476680988202581,
      "learning_rate": 9.447999641058486e-06,
      "loss": 0.7132,
      "step": 1379
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4674124045615748,
      "learning_rate": 9.447052384736729e-06,
      "loss": 0.8498,
      "step": 1380
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.861201761202812,
      "learning_rate": 9.446104363915112e-06,
      "loss": 0.6873,
      "step": 1381
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4173505536838127,
      "learning_rate": 9.445155578756612e-06,
      "loss": 0.917,
      "step": 1382
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9139745091157578,
      "learning_rate": 9.444206029424334e-06,
      "loss": 0.789,
      "step": 1383
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4315671727144534,
      "learning_rate": 9.443255716081522e-06,
      "loss": 0.9194,
      "step": 1384
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.7314528070769861,
      "learning_rate": 9.442304638891538e-06,
      "loss": 0.8834,
      "step": 1385
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.621898081512654,
      "learning_rate": 9.441352798017886e-06,
      "loss": 0.8317,
      "step": 1386
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3948415691799125,
      "learning_rate": 9.440400193624202e-06,
      "loss": 0.8754,
      "step": 1387
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8647563372995111,
      "learning_rate": 9.439446825874248e-06,
      "loss": 0.6714,
      "step": 1388
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6191698782833563,
      "learning_rate": 9.438492694931916e-06,
      "loss": 0.9894,
      "step": 1389
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.691152523114617,
      "learning_rate": 9.437537800961235e-06,
      "loss": 0.9317,
      "step": 1390
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4127998524820065,
      "learning_rate": 9.436582144126362e-06,
      "loss": 0.8743,
      "step": 1391
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4914874447508646,
      "learning_rate": 9.435625724591584e-06,
      "loss": 0.8755,
      "step": 1392
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5650926418901612,
      "learning_rate": 9.434668542521323e-06,
      "loss": 0.8103,
      "step": 1393
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1051544198642826,
      "learning_rate": 9.433710598080128e-06,
      "loss": 0.9075,
      "step": 1394
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.647574303757469,
      "learning_rate": 9.432751891432681e-06,
      "loss": 0.9298,
      "step": 1395
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.2300668549793694,
      "learning_rate": 9.431792422743795e-06,
      "loss": 0.8457,
      "step": 1396
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9359452552754481,
      "learning_rate": 9.430832192178413e-06,
      "loss": 0.645,
      "step": 1397
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5007922165962677,
      "learning_rate": 9.429871199901614e-06,
      "loss": 0.9179,
      "step": 1398
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3641437415437463,
      "learning_rate": 9.428909446078597e-06,
      "loss": 0.8624,
      "step": 1399
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1750007011054278,
      "learning_rate": 9.427946930874704e-06,
      "loss": 0.9322,
      "step": 1400
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5877580387923667,
      "learning_rate": 9.426983654455399e-06,
      "loss": 0.9041,
      "step": 1401
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4324334247835782,
      "learning_rate": 9.426019616986281e-06,
      "loss": 0.7705,
      "step": 1402
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9588356596339459,
      "learning_rate": 9.425054818633081e-06,
      "loss": 0.7215,
      "step": 1403
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8527933599712687,
      "learning_rate": 9.424089259561658e-06,
      "loss": 0.6301,
      "step": 1404
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.9261502023480788,
      "learning_rate": 9.423122939938003e-06,
      "loss": 0.8527,
      "step": 1405
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.476491396461467,
      "learning_rate": 9.422155859928237e-06,
      "loss": 0.8522,
      "step": 1406
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.928262178088178,
      "learning_rate": 9.421188019698613e-06,
      "loss": 0.8646,
      "step": 1407
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8293417789578614,
      "learning_rate": 9.420219419415513e-06,
      "loss": 0.6589,
      "step": 1408
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4278107883879119,
      "learning_rate": 9.419250059245453e-06,
      "loss": 0.8342,
      "step": 1409
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4288226231593968,
      "learning_rate": 9.418279939355073e-06,
      "loss": 0.8641,
      "step": 1410
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6526280445535084,
      "learning_rate": 9.417309059911152e-06,
      "loss": 0.7596,
      "step": 1411
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5591933551110597,
      "learning_rate": 9.416337421080594e-06,
      "loss": 0.8848,
      "step": 1412
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8455707413087497,
      "learning_rate": 9.415365023030433e-06,
      "loss": 0.6178,
      "step": 1413
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.7318798865049194,
      "learning_rate": 9.41439186592784e-06,
      "loss": 0.8207,
      "step": 1414
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.722747823053153,
      "learning_rate": 9.413417949940107e-06,
      "loss": 0.9042,
      "step": 1415
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.9521238492707826,
      "learning_rate": 9.412443275234663e-06,
      "loss": 0.9564,
      "step": 1416
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6627656239165565,
      "learning_rate": 9.411467841979069e-06,
      "loss": 0.9512,
      "step": 1417
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.509993319501623,
      "learning_rate": 9.410491650341009e-06,
      "loss": 0.9031,
      "step": 1418
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9832235075839194,
      "learning_rate": 9.409514700488304e-06,
      "loss": 0.6723,
      "step": 1419
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5901380046433613,
      "learning_rate": 9.408536992588903e-06,
      "loss": 0.8977,
      "step": 1420
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5310611554264928,
      "learning_rate": 9.407558526810884e-06,
      "loss": 0.9685,
      "step": 1421
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4968919855519731,
      "learning_rate": 9.406579303322458e-06,
      "loss": 0.8234,
      "step": 1422
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6005074575896807,
      "learning_rate": 9.405599322291963e-06,
      "loss": 0.82,
      "step": 1423
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4909650822846447,
      "learning_rate": 9.404618583887872e-06,
      "loss": 0.9008,
      "step": 1424
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4863134581558042,
      "learning_rate": 9.403637088278784e-06,
      "loss": 0.8061,
      "step": 1425
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.610256292228208,
      "learning_rate": 9.402654835633429e-06,
      "loss": 0.7861,
      "step": 1426
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9302247641841601,
      "learning_rate": 9.401671826120667e-06,
      "loss": 0.7335,
      "step": 1427
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.7010467549872719,
      "learning_rate": 9.400688059909489e-06,
      "loss": 0.9943,
      "step": 1428
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5291983522661472,
      "learning_rate": 9.399703537169017e-06,
      "loss": 0.7882,
      "step": 1429
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6739405539576366,
      "learning_rate": 9.398718258068502e-06,
      "loss": 0.8609,
      "step": 1430
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3251942590610128,
      "learning_rate": 9.397732222777323e-06,
      "loss": 0.7901,
      "step": 1431
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.9983605800295656,
      "learning_rate": 9.396745431464993e-06,
      "loss": 0.7803,
      "step": 1432
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4946447194530632,
      "learning_rate": 9.395757884301152e-06,
      "loss": 0.8324,
      "step": 1433
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5630605279180492,
      "learning_rate": 9.394769581455569e-06,
      "loss": 0.9624,
      "step": 1434
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5981140242559133,
      "learning_rate": 9.393780523098148e-06,
      "loss": 0.9199,
      "step": 1435
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6092916410008475,
      "learning_rate": 9.392790709398916e-06,
      "loss": 0.8881,
      "step": 1436
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3196626452282556,
      "learning_rate": 9.391800140528038e-06,
      "loss": 0.8836,
      "step": 1437
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5515838149798147,
      "learning_rate": 9.390808816655801e-06,
      "loss": 0.807,
      "step": 1438
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6033119777953209,
      "learning_rate": 9.389816737952624e-06,
      "loss": 0.8323,
      "step": 1439
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4934704849983775,
      "learning_rate": 9.388823904589062e-06,
      "loss": 0.9404,
      "step": 1440
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3725220828123372,
      "learning_rate": 9.387830316735789e-06,
      "loss": 0.8017,
      "step": 1441
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.873457114891386,
      "learning_rate": 9.386835974563616e-06,
      "loss": 0.9439,
      "step": 1442
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.9886315183629387,
      "learning_rate": 9.385840878243482e-06,
      "loss": 0.6198,
      "step": 1443
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.449280254829471,
      "learning_rate": 9.384845027946458e-06,
      "loss": 0.8554,
      "step": 1444
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6212128085835595,
      "learning_rate": 9.38384842384374e-06,
      "loss": 0.8816,
      "step": 1445
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9229280094683199,
      "learning_rate": 9.382851066106655e-06,
      "loss": 0.6821,
      "step": 1446
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.359170932304644,
      "learning_rate": 9.381852954906662e-06,
      "loss": 0.7907,
      "step": 1447
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.1234765341325765,
      "learning_rate": 9.380854090415347e-06,
      "loss": 0.8866,
      "step": 1448
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8060748991663642,
      "learning_rate": 9.379854472804425e-06,
      "loss": 0.7523,
      "step": 1449
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4813040237209556,
      "learning_rate": 9.378854102245747e-06,
      "loss": 0.9169,
      "step": 1450
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7769345488155583,
      "learning_rate": 9.377852978911282e-06,
      "loss": 0.6397,
      "step": 1451
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4778893616992415,
      "learning_rate": 9.376851102973139e-06,
      "loss": 0.8257,
      "step": 1452
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5320358223814496,
      "learning_rate": 9.375848474603549e-06,
      "loss": 0.8006,
      "step": 1453
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.665771409012452,
      "learning_rate": 9.374845093974879e-06,
      "loss": 0.8632,
      "step": 1454
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6448021452466202,
      "learning_rate": 9.373840961259619e-06,
      "loss": 0.9437,
      "step": 1455
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8192651894498448,
      "learning_rate": 9.372836076630391e-06,
      "loss": 0.8658,
      "step": 1456
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6515729221090782,
      "learning_rate": 9.371830440259948e-06,
      "loss": 0.7973,
      "step": 1457
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8903045488115175,
      "learning_rate": 9.370824052321168e-06,
      "loss": 0.9443,
      "step": 1458
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9394213563539378,
      "learning_rate": 9.369816912987066e-06,
      "loss": 0.7007,
      "step": 1459
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3781129521613658,
      "learning_rate": 9.368809022430773e-06,
      "loss": 0.8186,
      "step": 1460
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5404435617852137,
      "learning_rate": 9.367800380825564e-06,
      "loss": 0.9125,
      "step": 1461
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.541877098754549,
      "learning_rate": 9.366790988344835e-06,
      "loss": 0.8112,
      "step": 1462
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4989819656463006,
      "learning_rate": 9.365780845162109e-06,
      "loss": 0.9564,
      "step": 1463
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4999588721552906,
      "learning_rate": 9.364769951451045e-06,
      "loss": 0.8846,
      "step": 1464
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5641961025072133,
      "learning_rate": 9.363758307385423e-06,
      "loss": 0.8358,
      "step": 1465
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.0113306783493665,
      "learning_rate": 9.36274591313916e-06,
      "loss": 0.8839,
      "step": 1466
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.552674723433299,
      "learning_rate": 9.361732768886299e-06,
      "loss": 0.8531,
      "step": 1467
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9300178411467739,
      "learning_rate": 9.360718874801007e-06,
      "loss": 0.6601,
      "step": 1468
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8418049296550603,
      "learning_rate": 9.359704231057587e-06,
      "loss": 0.6775,
      "step": 1469
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4312958058385143,
      "learning_rate": 9.358688837830469e-06,
      "loss": 0.7583,
      "step": 1470
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0154473887606028,
      "learning_rate": 9.357672695294208e-06,
      "loss": 0.7485,
      "step": 1471
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8891260223657482,
      "learning_rate": 9.356655803623493e-06,
      "loss": 0.8597,
      "step": 1472
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4922613290097908,
      "learning_rate": 9.355638162993139e-06,
      "loss": 0.8522,
      "step": 1473
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.7297603042253897,
      "learning_rate": 9.354619773578088e-06,
      "loss": 0.836,
      "step": 1474
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4279828825259973,
      "learning_rate": 9.353600635553418e-06,
      "loss": 0.8266,
      "step": 1475
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.415016652188395,
      "learning_rate": 9.352580749094325e-06,
      "loss": 0.8,
      "step": 1476
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4432289950856074,
      "learning_rate": 9.351560114376142e-06,
      "loss": 0.9708,
      "step": 1477
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3343349825994233,
      "learning_rate": 9.350538731574329e-06,
      "loss": 0.6805,
      "step": 1478
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.9509909314239913,
      "learning_rate": 9.349516600864473e-06,
      "loss": 0.9342,
      "step": 1479
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5167826011793342,
      "learning_rate": 9.348493722422288e-06,
      "loss": 0.9002,
      "step": 1480
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6678586023512016,
      "learning_rate": 9.347470096423618e-06,
      "loss": 0.9044,
      "step": 1481
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8328906747959752,
      "learning_rate": 9.346445723044441e-06,
      "loss": 0.8517,
      "step": 1482
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5034336282454346,
      "learning_rate": 9.345420602460856e-06,
      "loss": 0.9274,
      "step": 1483
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6470250127919996,
      "learning_rate": 9.344394734849092e-06,
      "loss": 0.8588,
      "step": 1484
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5321345736336087,
      "learning_rate": 9.343368120385508e-06,
      "loss": 0.7594,
      "step": 1485
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3155917068740999,
      "learning_rate": 9.342340759246591e-06,
      "loss": 0.8145,
      "step": 1486
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5349553619530663,
      "learning_rate": 9.341312651608957e-06,
      "loss": 0.8915,
      "step": 1487
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8187846585825234,
      "learning_rate": 9.340283797649352e-06,
      "loss": 0.7021,
      "step": 1488
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.551166903499025,
      "learning_rate": 9.339254197544642e-06,
      "loss": 0.9528,
      "step": 1489
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4531442686248595,
      "learning_rate": 9.338223851471833e-06,
      "loss": 0.9608,
      "step": 1490
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5347090020195397,
      "learning_rate": 9.33719275960805e-06,
      "loss": 0.9695,
      "step": 1491
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7994702178963058,
      "learning_rate": 9.33616092213055e-06,
      "loss": 0.6383,
      "step": 1492
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0434187982149883,
      "learning_rate": 9.335128339216719e-06,
      "loss": 0.596,
      "step": 1493
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.9893938454508702,
      "learning_rate": 9.33409501104407e-06,
      "loss": 0.8493,
      "step": 1494
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.345056303458915,
      "learning_rate": 9.333060937790243e-06,
      "loss": 0.9045,
      "step": 1495
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3256046615273631,
      "learning_rate": 9.332026119633007e-06,
      "loss": 0.8737,
      "step": 1496
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6154397929199658,
      "learning_rate": 9.33099055675026e-06,
      "loss": 0.7812,
      "step": 1497
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6297865260525826,
      "learning_rate": 9.329954249320028e-06,
      "loss": 0.8333,
      "step": 1498
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4877986566471109,
      "learning_rate": 9.328917197520461e-06,
      "loss": 0.881,
      "step": 1499
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6221954321359662,
      "learning_rate": 9.327879401529846e-06,
      "loss": 0.8633,
      "step": 1500
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4149188235070183,
      "learning_rate": 9.326840861526587e-06,
      "loss": 0.9048,
      "step": 1501
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9011374859764687,
      "learning_rate": 9.325801577689224e-06,
      "loss": 0.6695,
      "step": 1502
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4602694026488716,
      "learning_rate": 9.32476155019642e-06,
      "loss": 0.9434,
      "step": 1503
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8212558479761192,
      "learning_rate": 9.323720779226969e-06,
      "loss": 0.8594,
      "step": 1504
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4240244354254612,
      "learning_rate": 9.322679264959789e-06,
      "loss": 0.7284,
      "step": 1505
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5293570122375926,
      "learning_rate": 9.321637007573932e-06,
      "loss": 0.8398,
      "step": 1506
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5392498622376036,
      "learning_rate": 9.320594007248573e-06,
      "loss": 0.8092,
      "step": 1507
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6869702991354083,
      "learning_rate": 9.319550264163015e-06,
      "loss": 0.9107,
      "step": 1508
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.16362703343837,
      "learning_rate": 9.318505778496692e-06,
      "loss": 0.8322,
      "step": 1509
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.74730342765446,
      "learning_rate": 9.317460550429159e-06,
      "loss": 0.8457,
      "step": 1510
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5756132285097544,
      "learning_rate": 9.316414580140105e-06,
      "loss": 0.8916,
      "step": 1511
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8581272952715404,
      "learning_rate": 9.315367867809346e-06,
      "loss": 0.687,
      "step": 1512
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3951512040060876,
      "learning_rate": 9.314320413616821e-06,
      "loss": 0.8814,
      "step": 1513
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6059543191619392,
      "learning_rate": 9.313272217742604e-06,
      "loss": 0.795,
      "step": 1514
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.9427280859839113,
      "learning_rate": 9.312223280366886e-06,
      "loss": 0.9008,
      "step": 1515
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3998491243005067,
      "learning_rate": 9.311173601669996e-06,
      "loss": 0.9251,
      "step": 1516
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4338100525715982,
      "learning_rate": 9.310123181832382e-06,
      "loss": 0.935,
      "step": 1517
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.8269615911724575,
      "learning_rate": 9.309072021034629e-06,
      "loss": 0.873,
      "step": 1518
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5865995592867543,
      "learning_rate": 9.308020119457439e-06,
      "loss": 0.691,
      "step": 1519
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4655547628119363,
      "learning_rate": 9.306967477281648e-06,
      "loss": 0.9482,
      "step": 1520
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5961923445275334,
      "learning_rate": 9.305914094688216e-06,
      "loss": 0.8716,
      "step": 1521
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8515761159939653,
      "learning_rate": 9.304859971858233e-06,
      "loss": 0.6936,
      "step": 1522
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6319944986904011,
      "learning_rate": 9.303805108972916e-06,
      "loss": 0.8586,
      "step": 1523
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.873829035354479,
      "learning_rate": 9.302749506213607e-06,
      "loss": 0.8919,
      "step": 1524
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5299299995384472,
      "learning_rate": 9.301693163761774e-06,
      "loss": 0.8874,
      "step": 1525
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5672646588544374,
      "learning_rate": 9.300636081799017e-06,
      "loss": 0.8343,
      "step": 1526
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3741487071052099,
      "learning_rate": 9.299578260507061e-06,
      "loss": 0.8543,
      "step": 1527
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.54126311763733,
      "learning_rate": 9.298519700067757e-06,
      "loss": 0.8362,
      "step": 1528
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3386622449753982,
      "learning_rate": 9.297460400663083e-06,
      "loss": 0.7472,
      "step": 1529
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3097077015137968,
      "learning_rate": 9.296400362475149e-06,
      "loss": 0.7732,
      "step": 1530
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6186521090000154,
      "learning_rate": 9.29533958568618e-06,
      "loss": 0.8603,
      "step": 1531
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4615201481293558,
      "learning_rate": 9.294278070478544e-06,
      "loss": 0.9864,
      "step": 1532
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.533276284798558,
      "learning_rate": 9.293215817034722e-06,
      "loss": 0.8949,
      "step": 1533
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3841335714326746,
      "learning_rate": 9.29215282553733e-06,
      "loss": 0.8585,
      "step": 1534
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.8288900954493568,
      "learning_rate": 9.291089096169109e-06,
      "loss": 0.8679,
      "step": 1535
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.839524038803983,
      "learning_rate": 9.290024629112927e-06,
      "loss": 0.9412,
      "step": 1536
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5371365543351296,
      "learning_rate": 9.288959424551775e-06,
      "loss": 0.8511,
      "step": 1537
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3683573016107085,
      "learning_rate": 9.287893482668774e-06,
      "loss": 0.9718,
      "step": 1538
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.882377669080029,
      "learning_rate": 9.286826803647178e-06,
      "loss": 0.6512,
      "step": 1539
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6590034400964049,
      "learning_rate": 9.285759387670357e-06,
      "loss": 0.7868,
      "step": 1540
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5202158093462212,
      "learning_rate": 9.28469123492181e-06,
      "loss": 0.8323,
      "step": 1541
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3421119729944229,
      "learning_rate": 9.283622345585169e-06,
      "loss": 0.7521,
      "step": 1542
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3560432080959097,
      "learning_rate": 9.282552719844186e-06,
      "loss": 0.8811,
      "step": 1543
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8777194772480741,
      "learning_rate": 9.281482357882743e-06,
      "loss": 0.6515,
      "step": 1544
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4561480463985137,
      "learning_rate": 9.280411259884847e-06,
      "loss": 0.8038,
      "step": 1545
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4516504617213781,
      "learning_rate": 9.279339426034634e-06,
      "loss": 0.7607,
      "step": 1546
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5249268627328403,
      "learning_rate": 9.278266856516363e-06,
      "loss": 0.9152,
      "step": 1547
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5140923883967357,
      "learning_rate": 9.27719355151442e-06,
      "loss": 0.926,
      "step": 1548
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.405576974453447,
      "learning_rate": 9.276119511213321e-06,
      "loss": 0.8485,
      "step": 1549
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5073141109279844,
      "learning_rate": 9.275044735797705e-06,
      "loss": 0.8994,
      "step": 1550
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8749344051935376,
      "learning_rate": 9.27396922545234e-06,
      "loss": 0.6663,
      "step": 1551
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.7251113535951883,
      "learning_rate": 9.272892980362113e-06,
      "loss": 0.8451,
      "step": 1552
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5259317018058174,
      "learning_rate": 9.27181600071205e-06,
      "loss": 0.7029,
      "step": 1553
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5409954323600392,
      "learning_rate": 9.270738286687293e-06,
      "loss": 0.6891,
      "step": 1554
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.405757884972193,
      "learning_rate": 9.269659838473113e-06,
      "loss": 0.8597,
      "step": 1555
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4039715792739724,
      "learning_rate": 9.26858065625491e-06,
      "loss": 0.9164,
      "step": 1556
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.47868512867808,
      "learning_rate": 9.267500740218205e-06,
      "loss": 0.8328,
      "step": 1557
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3803952907171662,
      "learning_rate": 9.266420090548652e-06,
      "loss": 0.9231,
      "step": 1558
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3956384282374006,
      "learning_rate": 9.265338707432024e-06,
      "loss": 0.7502,
      "step": 1559
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5320259701314947,
      "learning_rate": 9.264256591054222e-06,
      "loss": 0.8674,
      "step": 1560
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3978819202930934,
      "learning_rate": 9.263173741601278e-06,
      "loss": 0.8841,
      "step": 1561
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4833025726717288,
      "learning_rate": 9.262090159259345e-06,
      "loss": 0.9212,
      "step": 1562
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8781962539063175,
      "learning_rate": 9.261005844214703e-06,
      "loss": 0.7728,
      "step": 1563
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8740102949648489,
      "learning_rate": 9.25992079665376e-06,
      "loss": 0.7101,
      "step": 1564
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.527144200520957,
      "learning_rate": 9.258835016763044e-06,
      "loss": 0.8915,
      "step": 1565
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.610755669858157,
      "learning_rate": 9.257748504729218e-06,
      "loss": 0.9058,
      "step": 1566
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.795726759011834,
      "learning_rate": 9.256661260739065e-06,
      "loss": 0.6784,
      "step": 1567
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4119029727025487,
      "learning_rate": 9.255573284979491e-06,
      "loss": 0.819,
      "step": 1568
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0156406663800592,
      "learning_rate": 9.254484577637534e-06,
      "loss": 0.6967,
      "step": 1569
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9359151321901175,
      "learning_rate": 9.253395138900359e-06,
      "loss": 0.6822,
      "step": 1570
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5825322819991343,
      "learning_rate": 9.252304968955248e-06,
      "loss": 0.913,
      "step": 1571
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.8695576330051082,
      "learning_rate": 9.251214067989617e-06,
      "loss": 0.8153,
      "step": 1572
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4839262920801217,
      "learning_rate": 9.250122436191002e-06,
      "loss": 0.8772,
      "step": 1573
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6324369180357594,
      "learning_rate": 9.249030073747069e-06,
      "loss": 0.9004,
      "step": 1574
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8196919102831759,
      "learning_rate": 9.247936980845608e-06,
      "loss": 0.6633,
      "step": 1575
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8246084577095756,
      "learning_rate": 9.246843157674535e-06,
      "loss": 0.673,
      "step": 1576
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5626726925717076,
      "learning_rate": 9.245748604421888e-06,
      "loss": 0.8687,
      "step": 1577
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5986151713371937,
      "learning_rate": 9.244653321275834e-06,
      "loss": 0.8076,
      "step": 1578
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5766358299783152,
      "learning_rate": 9.243557308424667e-06,
      "loss": 0.8411,
      "step": 1579
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.7050262481365863,
      "learning_rate": 9.242460566056803e-06,
      "loss": 0.8658,
      "step": 1580
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9386146107423473,
      "learning_rate": 9.241363094360785e-06,
      "loss": 0.7119,
      "step": 1581
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5913925739024966,
      "learning_rate": 9.240264893525281e-06,
      "loss": 0.8514,
      "step": 1582
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3759572486051594,
      "learning_rate": 9.239165963739084e-06,
      "loss": 0.9305,
      "step": 1583
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.7885709088062944,
      "learning_rate": 9.238066305191113e-06,
      "loss": 0.8881,
      "step": 1584
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8651263061506574,
      "learning_rate": 9.236965918070413e-06,
      "loss": 0.6831,
      "step": 1585
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.480062791778933,
      "learning_rate": 9.235864802566153e-06,
      "loss": 0.8507,
      "step": 1586
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5475568592599769,
      "learning_rate": 9.234762958867627e-06,
      "loss": 0.818,
      "step": 1587
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.679449056323572,
      "learning_rate": 9.233660387164254e-06,
      "loss": 0.8332,
      "step": 1588
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.0379929190789796,
      "learning_rate": 9.23255708764558e-06,
      "loss": 0.8943,
      "step": 1589
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.7059603265987588,
      "learning_rate": 9.231453060501274e-06,
      "loss": 0.857,
      "step": 1590
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.384898691488588,
      "learning_rate": 9.230348305921131e-06,
      "loss": 0.8348,
      "step": 1591
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5360826356830872,
      "learning_rate": 9.229242824095074e-06,
      "loss": 0.7693,
      "step": 1592
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2648012100192965,
      "learning_rate": 9.228136615213144e-06,
      "loss": 0.7548,
      "step": 1593
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4365431524813177,
      "learning_rate": 9.227029679465515e-06,
      "loss": 0.8194,
      "step": 1594
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4235026142964569,
      "learning_rate": 9.225922017042478e-06,
      "loss": 0.8546,
      "step": 1595
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5013391326979533,
      "learning_rate": 9.224813628134457e-06,
      "loss": 0.8208,
      "step": 1596
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.8353593005576134,
      "learning_rate": 9.223704512931994e-06,
      "loss": 0.6961,
      "step": 1597
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.9000959124308285,
      "learning_rate": 9.22259467162576e-06,
      "loss": 0.876,
      "step": 1598
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.432790180161252,
      "learning_rate": 9.221484104406551e-06,
      "loss": 0.7658,
      "step": 1599
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.26405089859369,
      "learning_rate": 9.220372811465282e-06,
      "loss": 0.7929,
      "step": 1600
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.904818524657438,
      "learning_rate": 9.219260792993001e-06,
      "loss": 0.6731,
      "step": 1601
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.005188805729943,
      "learning_rate": 9.218148049180878e-06,
      "loss": 0.6559,
      "step": 1602
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8334454789526058,
      "learning_rate": 9.217034580220203e-06,
      "loss": 0.638,
      "step": 1603
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4524204996291858,
      "learning_rate": 9.215920386302393e-06,
      "loss": 0.7803,
      "step": 1604
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.0628412465266397,
      "learning_rate": 9.214805467618996e-06,
      "loss": 0.8141,
      "step": 1605
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.409721946255708,
      "learning_rate": 9.213689824361678e-06,
      "loss": 0.8075,
      "step": 1606
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.8419533377286572,
      "learning_rate": 9.212573456722227e-06,
      "loss": 0.8759,
      "step": 1607
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.879985739331042,
      "learning_rate": 9.211456364892566e-06,
      "loss": 0.8558,
      "step": 1608
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.534906355137523,
      "learning_rate": 9.210338549064728e-06,
      "loss": 0.7698,
      "step": 1609
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4717386661671603,
      "learning_rate": 9.209220009430886e-06,
      "loss": 0.9328,
      "step": 1610
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3900245142736587,
      "learning_rate": 9.208100746183327e-06,
      "loss": 0.9034,
      "step": 1611
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3832641653003324,
      "learning_rate": 9.206980759514464e-06,
      "loss": 0.7692,
      "step": 1612
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.9610215898840533,
      "learning_rate": 9.205860049616837e-06,
      "loss": 0.899,
      "step": 1613
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5480565398013293,
      "learning_rate": 9.20473861668311e-06,
      "loss": 0.8963,
      "step": 1614
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6138413603883006,
      "learning_rate": 9.203616460906068e-06,
      "loss": 0.8137,
      "step": 1615
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.560587320492463,
      "learning_rate": 9.202493582478625e-06,
      "loss": 0.8701,
      "step": 1616
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.367085522634258,
      "learning_rate": 9.201369981593816e-06,
      "loss": 0.7908,
      "step": 1617
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.7407537434781646,
      "learning_rate": 9.200245658444799e-06,
      "loss": 0.904,
      "step": 1618
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6623688144343307,
      "learning_rate": 9.199120613224862e-06,
      "loss": 0.8879,
      "step": 1619
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.8972346983859036,
      "learning_rate": 9.197994846127409e-06,
      "loss": 0.8273,
      "step": 1620
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.529269113705934,
      "learning_rate": 9.196868357345976e-06,
      "loss": 0.8145,
      "step": 1621
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4318108710544086,
      "learning_rate": 9.195741147074218e-06,
      "loss": 0.8567,
      "step": 1622
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.44063231113243,
      "learning_rate": 9.194613215505916e-06,
      "loss": 0.9782,
      "step": 1623
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6344083602155441,
      "learning_rate": 9.193484562834973e-06,
      "loss": 0.805,
      "step": 1624
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4792007965409322,
      "learning_rate": 9.192355189255418e-06,
      "loss": 0.8277,
      "step": 1625
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5917367683456547,
      "learning_rate": 9.191225094961407e-06,
      "loss": 0.8946,
      "step": 1626
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5466362108893223,
      "learning_rate": 9.19009428014721e-06,
      "loss": 0.9043,
      "step": 1627
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.56637752904758,
      "learning_rate": 9.188962745007233e-06,
      "loss": 0.8671,
      "step": 1628
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.8866574061994283,
      "learning_rate": 9.187830489735996e-06,
      "loss": 0.8729,
      "step": 1629
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.8143093202507077,
      "learning_rate": 9.18669751452815e-06,
      "loss": 0.9351,
      "step": 1630
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3954160863525997,
      "learning_rate": 9.185563819578462e-06,
      "loss": 0.905,
      "step": 1631
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3539126863467228,
      "learning_rate": 9.184429405081832e-06,
      "loss": 0.9145,
      "step": 1632
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8183493373056578,
      "learning_rate": 9.183294271233278e-06,
      "loss": 0.6583,
      "step": 1633
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.326022763265933,
      "learning_rate": 9.18215841822794e-06,
      "loss": 0.9422,
      "step": 1634
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6833877631075587,
      "learning_rate": 9.181021846261088e-06,
      "loss": 0.8706,
      "step": 1635
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4675473315500671,
      "learning_rate": 9.17988455552811e-06,
      "loss": 0.8365,
      "step": 1636
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.392775090261933,
      "learning_rate": 9.178746546224517e-06,
      "loss": 0.8271,
      "step": 1637
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.552524657841415,
      "learning_rate": 9.177607818545951e-06,
      "loss": 0.9174,
      "step": 1638
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3451401076635159,
      "learning_rate": 9.176468372688168e-06,
      "loss": 0.7846,
      "step": 1639
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.416730364296789,
      "learning_rate": 9.175328208847056e-06,
      "loss": 0.8895,
      "step": 1640
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9175292129088561,
      "learning_rate": 9.17418732721862e-06,
      "loss": 0.7149,
      "step": 1641
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4108711601555837,
      "learning_rate": 9.17304572799899e-06,
      "loss": 0.8372,
      "step": 1642
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.9944955604024088,
      "learning_rate": 9.171903411384422e-06,
      "loss": 0.7743,
      "step": 1643
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7846962207464048,
      "learning_rate": 9.170760377571293e-06,
      "loss": 0.6437,
      "step": 1644
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5560258881753168,
      "learning_rate": 9.169616626756103e-06,
      "loss": 0.8711,
      "step": 1645
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9210169187351629,
      "learning_rate": 9.168472159135477e-06,
      "loss": 0.6907,
      "step": 1646
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6823827150112496,
      "learning_rate": 9.167326974906161e-06,
      "loss": 0.811,
      "step": 1647
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5963498224739185,
      "learning_rate": 9.166181074265027e-06,
      "loss": 0.8016,
      "step": 1648
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5284793020047207,
      "learning_rate": 9.165034457409066e-06,
      "loss": 1.0649,
      "step": 1649
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4908314605722879,
      "learning_rate": 9.163887124535398e-06,
      "loss": 0.7732,
      "step": 1650
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.366433500788943,
      "learning_rate": 9.162739075841263e-06,
      "loss": 0.9356,
      "step": 1651
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6824669171289253,
      "learning_rate": 9.16159031152402e-06,
      "loss": 0.8764,
      "step": 1652
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.776618634231624,
      "learning_rate": 9.160440831781157e-06,
      "loss": 0.8915,
      "step": 1653
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.190647744683402,
      "learning_rate": 9.159290636810284e-06,
      "loss": 0.7362,
      "step": 1654
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2916927798980928,
      "learning_rate": 9.158139726809132e-06,
      "loss": 0.8748,
      "step": 1655
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3166898473116242,
      "learning_rate": 9.156988101975555e-06,
      "loss": 0.832,
      "step": 1656
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4756782959796333,
      "learning_rate": 9.155835762507532e-06,
      "loss": 0.8024,
      "step": 1657
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3204596479514221,
      "learning_rate": 9.154682708603162e-06,
      "loss": 0.8712,
      "step": 1658
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5348854038196906,
      "learning_rate": 9.153528940460669e-06,
      "loss": 0.7072,
      "step": 1659
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.426590287540935,
      "learning_rate": 9.152374458278402e-06,
      "loss": 0.9972,
      "step": 1660
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4930923519590071,
      "learning_rate": 9.151219262254824e-06,
      "loss": 0.9093,
      "step": 1661
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.436943959631322,
      "learning_rate": 9.150063352588531e-06,
      "loss": 0.8822,
      "step": 1662
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.253671245581734,
      "learning_rate": 9.148906729478236e-06,
      "loss": 0.8036,
      "step": 1663
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6404820106394153,
      "learning_rate": 9.147749393122776e-06,
      "loss": 0.9511,
      "step": 1664
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.7466878720435695,
      "learning_rate": 9.14659134372111e-06,
      "loss": 0.887,
      "step": 1665
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8393969151153305,
      "learning_rate": 9.145432581472323e-06,
      "loss": 0.7107,
      "step": 1666
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.060983999969696,
      "learning_rate": 9.144273106575614e-06,
      "loss": 0.7291,
      "step": 1667
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.7656601138817116,
      "learning_rate": 9.143112919230314e-06,
      "loss": 0.8681,
      "step": 1668
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4395422035650713,
      "learning_rate": 9.141952019635874e-06,
      "loss": 0.8948,
      "step": 1669
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2711397435994902,
      "learning_rate": 9.140790407991862e-06,
      "loss": 0.7907,
      "step": 1670
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5763685244790195,
      "learning_rate": 9.139628084497975e-06,
      "loss": 0.8517,
      "step": 1671
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9056577084607105,
      "learning_rate": 9.138465049354031e-06,
      "loss": 0.6904,
      "step": 1672
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8952805521076831,
      "learning_rate": 9.137301302759968e-06,
      "loss": 0.7523,
      "step": 1673
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5270747802796414,
      "learning_rate": 9.136136844915847e-06,
      "loss": 0.8289,
      "step": 1674
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5359857685616631,
      "learning_rate": 9.134971676021851e-06,
      "loss": 0.9264,
      "step": 1675
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9238296502536489,
      "learning_rate": 9.133805796278288e-06,
      "loss": 0.6393,
      "step": 1676
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.425780540040853,
      "learning_rate": 9.132639205885584e-06,
      "loss": 0.8459,
      "step": 1677
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.447170167400074,
      "learning_rate": 9.131471905044294e-06,
      "loss": 0.8245,
      "step": 1678
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8310094155925764,
      "learning_rate": 9.130303893955084e-06,
      "loss": 0.623,
      "step": 1679
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4141085074823296,
      "learning_rate": 9.129135172818754e-06,
      "loss": 0.73,
      "step": 1680
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.8063201398578774,
      "learning_rate": 9.127965741836218e-06,
      "loss": 0.8608,
      "step": 1681
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4402257735781017,
      "learning_rate": 9.126795601208516e-06,
      "loss": 0.7714,
      "step": 1682
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4150016871139763,
      "learning_rate": 9.125624751136809e-06,
      "loss": 0.8473,
      "step": 1683
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3802917647864361,
      "learning_rate": 9.124453191822376e-06,
      "loss": 0.9904,
      "step": 1684
    },
    {
      "epoch": 0.22,
      "grad_norm": 5.12510547774835,
      "learning_rate": 9.123280923466627e-06,
      "loss": 0.8183,
      "step": 1685
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3282507780374915,
      "learning_rate": 9.122107946271086e-06,
      "loss": 0.8421,
      "step": 1686
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.554184086907349,
      "learning_rate": 9.1209342604374e-06,
      "loss": 0.8971,
      "step": 1687
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.310281588091445,
      "learning_rate": 9.119759866167342e-06,
      "loss": 0.9114,
      "step": 1688
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3182414162243268,
      "learning_rate": 9.118584763662803e-06,
      "loss": 0.9144,
      "step": 1689
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4516546833079682,
      "learning_rate": 9.117408953125794e-06,
      "loss": 0.8095,
      "step": 1690
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.8729472616810754,
      "learning_rate": 9.116232434758456e-06,
      "loss": 0.7658,
      "step": 1691
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4975373480101397,
      "learning_rate": 9.115055208763042e-06,
      "loss": 0.866,
      "step": 1692
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.431356132914231,
      "learning_rate": 9.113877275341932e-06,
      "loss": 0.7941,
      "step": 1693
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4858891284768148,
      "learning_rate": 9.112698634697625e-06,
      "loss": 0.8625,
      "step": 1694
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.4838176277787474,
      "learning_rate": 9.111519287032745e-06,
      "loss": 0.8668,
      "step": 1695
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9101004721391011,
      "learning_rate": 9.110339232550034e-06,
      "loss": 0.6391,
      "step": 1696
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8032322903924513,
      "learning_rate": 9.109158471452358e-06,
      "loss": 0.739,
      "step": 1697
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8164809781071641,
      "learning_rate": 9.107977003942703e-06,
      "loss": 0.6376,
      "step": 1698
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.462050458229149,
      "learning_rate": 9.106794830224179e-06,
      "loss": 0.9252,
      "step": 1699
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6938278022472733,
      "learning_rate": 9.105611950500012e-06,
      "loss": 0.689,
      "step": 1700
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.50878478123281,
      "learning_rate": 9.104428364973555e-06,
      "loss": 0.8527,
      "step": 1701
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6085790212017512,
      "learning_rate": 9.10324407384828e-06,
      "loss": 0.828,
      "step": 1702
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7591456719058078,
      "learning_rate": 9.102059077327779e-06,
      "loss": 0.8696,
      "step": 1703
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4913157749418402,
      "learning_rate": 9.100873375615767e-06,
      "loss": 0.7655,
      "step": 1704
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4812306261516952,
      "learning_rate": 9.099686968916081e-06,
      "loss": 0.8759,
      "step": 1705
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.7043175901756125,
      "learning_rate": 9.098499857432677e-06,
      "loss": 0.9311,
      "step": 1706
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8633778607328224,
      "learning_rate": 9.097312041369634e-06,
      "loss": 0.6817,
      "step": 1707
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5249104598909584,
      "learning_rate": 9.09612352093115e-06,
      "loss": 0.8645,
      "step": 1708
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6656618752093189,
      "learning_rate": 9.094934296321549e-06,
      "loss": 0.9897,
      "step": 1709
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7962346330523997,
      "learning_rate": 9.093744367745267e-06,
      "loss": 0.9516,
      "step": 1710
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8815827193382839,
      "learning_rate": 9.092553735406871e-06,
      "loss": 0.692,
      "step": 1711
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.629276542447974,
      "learning_rate": 9.091362399511043e-06,
      "loss": 0.7758,
      "step": 1712
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.57882822059774,
      "learning_rate": 9.090170360262587e-06,
      "loss": 0.7586,
      "step": 1713
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.475912728583568,
      "learning_rate": 9.088977617866428e-06,
      "loss": 0.7727,
      "step": 1714
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5847864963758806,
      "learning_rate": 9.087784172527614e-06,
      "loss": 0.7523,
      "step": 1715
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4801102923399911,
      "learning_rate": 9.086590024451312e-06,
      "loss": 0.8557,
      "step": 1716
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.9358809582239138,
      "learning_rate": 9.085395173842807e-06,
      "loss": 0.8398,
      "step": 1717
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.63875612925568,
      "learning_rate": 9.08419962090751e-06,
      "loss": 0.8016,
      "step": 1718
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5353426075827878,
      "learning_rate": 9.08300336585095e-06,
      "loss": 0.7198,
      "step": 1719
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7879399358717538,
      "learning_rate": 9.081806408878778e-06,
      "loss": 0.8255,
      "step": 1720
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4971071669291356,
      "learning_rate": 9.080608750196764e-06,
      "loss": 0.8008,
      "step": 1721
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5314604308126205,
      "learning_rate": 9.079410390010798e-06,
      "loss": 0.9758,
      "step": 1722
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4781357384648672,
      "learning_rate": 9.078211328526896e-06,
      "loss": 0.874,
      "step": 1723
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.789081657763869,
      "learning_rate": 9.077011565951186e-06,
      "loss": 0.8876,
      "step": 1724
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8192666565896679,
      "learning_rate": 9.075811102489923e-06,
      "loss": 0.6256,
      "step": 1725
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0330012208311157,
      "learning_rate": 9.074609938349481e-06,
      "loss": 0.6777,
      "step": 1726
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.2565382173868005,
      "learning_rate": 9.073408073736355e-06,
      "loss": 0.8112,
      "step": 1727
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5078855387341241,
      "learning_rate": 9.072205508857155e-06,
      "loss": 0.9379,
      "step": 1728
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.467123877072047,
      "learning_rate": 9.071002243918621e-06,
      "loss": 0.9214,
      "step": 1729
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5537531437471783,
      "learning_rate": 9.069798279127606e-06,
      "loss": 0.8199,
      "step": 1730
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5306285302630154,
      "learning_rate": 9.068593614691086e-06,
      "loss": 0.8379,
      "step": 1731
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.693729343289389,
      "learning_rate": 9.067388250816155e-06,
      "loss": 0.8558,
      "step": 1732
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4239765737207806,
      "learning_rate": 9.066182187710032e-06,
      "loss": 0.8341,
      "step": 1733
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6654670784299614,
      "learning_rate": 9.064975425580051e-06,
      "loss": 0.8111,
      "step": 1734
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5815026094906375,
      "learning_rate": 9.06376796463367e-06,
      "loss": 0.8652,
      "step": 1735
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4906212225816722,
      "learning_rate": 9.062559805078463e-06,
      "loss": 0.8897,
      "step": 1736
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.821840298988043,
      "learning_rate": 9.061350947122129e-06,
      "loss": 0.9147,
      "step": 1737
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5507677809626423,
      "learning_rate": 9.060141390972486e-06,
      "loss": 0.7754,
      "step": 1738
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4729593575206243,
      "learning_rate": 9.058931136837465e-06,
      "loss": 0.7741,
      "step": 1739
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2388231615684961,
      "learning_rate": 9.05772018492513e-06,
      "loss": 0.9113,
      "step": 1740
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.828842253299538,
      "learning_rate": 9.056508535443652e-06,
      "loss": 0.7022,
      "step": 1741
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.67333033609902,
      "learning_rate": 9.05529618860133e-06,
      "loss": 0.8964,
      "step": 1742
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4900571189664091,
      "learning_rate": 9.05408314460658e-06,
      "loss": 0.8181,
      "step": 1743
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.807057129456524,
      "learning_rate": 9.052869403667938e-06,
      "loss": 0.8921,
      "step": 1744
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2972337785701844,
      "learning_rate": 9.051654965994062e-06,
      "loss": 0.8957,
      "step": 1745
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5738267568861326,
      "learning_rate": 9.050439831793726e-06,
      "loss": 0.7401,
      "step": 1746
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7027990163603086,
      "learning_rate": 9.049224001275825e-06,
      "loss": 0.7758,
      "step": 1747
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.1713650393755577,
      "learning_rate": 9.048007474649377e-06,
      "loss": 0.8247,
      "step": 1748
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4996803716031584,
      "learning_rate": 9.046790252123514e-06,
      "loss": 0.8766,
      "step": 1749
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5041866631765581,
      "learning_rate": 9.045572333907495e-06,
      "loss": 0.8323,
      "step": 1750
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9343141297894184,
      "learning_rate": 9.04435372021069e-06,
      "loss": 0.713,
      "step": 1751
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3315452165014168,
      "learning_rate": 9.043134411242593e-06,
      "loss": 0.8035,
      "step": 1752
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3185732472781375,
      "learning_rate": 9.041914407212821e-06,
      "loss": 0.8998,
      "step": 1753
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.616579651979882,
      "learning_rate": 9.040693708331103e-06,
      "loss": 0.8945,
      "step": 1754
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5600774214592312,
      "learning_rate": 9.039472314807293e-06,
      "loss": 0.8945,
      "step": 1755
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8972039559766697,
      "learning_rate": 9.038250226851362e-06,
      "loss": 0.7378,
      "step": 1756
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5403873126186773,
      "learning_rate": 9.037027444673402e-06,
      "loss": 0.7649,
      "step": 1757
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7463314658025202,
      "learning_rate": 9.035803968483625e-06,
      "loss": 0.816,
      "step": 1758
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4680114487595703,
      "learning_rate": 9.034579798492356e-06,
      "loss": 0.9381,
      "step": 1759
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.854120485096156,
      "learning_rate": 9.033354934910049e-06,
      "loss": 0.9302,
      "step": 1760
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9114259422025734,
      "learning_rate": 9.032129377947267e-06,
      "loss": 0.7317,
      "step": 1761
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.536571631662393,
      "learning_rate": 9.030903127814704e-06,
      "loss": 0.8712,
      "step": 1762
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6097996548575524,
      "learning_rate": 9.029676184723161e-06,
      "loss": 0.916,
      "step": 1763
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5515337748482698,
      "learning_rate": 9.028448548883566e-06,
      "loss": 0.8884,
      "step": 1764
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5203565772358663,
      "learning_rate": 9.027220220506964e-06,
      "loss": 0.9438,
      "step": 1765
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8420175137571759,
      "learning_rate": 9.025991199804518e-06,
      "loss": 0.6077,
      "step": 1766
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.702063062634241,
      "learning_rate": 9.024761486987512e-06,
      "loss": 0.8456,
      "step": 1767
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4347921938527863,
      "learning_rate": 9.023531082267347e-06,
      "loss": 0.8629,
      "step": 1768
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7636499811615496,
      "learning_rate": 9.022299985855544e-06,
      "loss": 0.9242,
      "step": 1769
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.677813207028558,
      "learning_rate": 9.021068197963744e-06,
      "loss": 0.791,
      "step": 1770
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4214236534556832,
      "learning_rate": 9.019835718803704e-06,
      "loss": 0.8482,
      "step": 1771
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.353999459431575,
      "learning_rate": 9.018602548587303e-06,
      "loss": 0.8036,
      "step": 1772
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.280499275093653,
      "learning_rate": 9.017368687526535e-06,
      "loss": 0.8748,
      "step": 1773
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.8370199444196396,
      "learning_rate": 9.016134135833517e-06,
      "loss": 0.8203,
      "step": 1774
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6069842339756055,
      "learning_rate": 9.01489889372048e-06,
      "loss": 0.8884,
      "step": 1775
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8632052064426468,
      "learning_rate": 9.01366296139978e-06,
      "loss": 0.6038,
      "step": 1776
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2596191726853465,
      "learning_rate": 9.012426339083887e-06,
      "loss": 0.7894,
      "step": 1777
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6077525970926057,
      "learning_rate": 9.01118902698539e-06,
      "loss": 0.82,
      "step": 1778
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.883138214447528,
      "learning_rate": 9.009951025316998e-06,
      "loss": 0.929,
      "step": 1779
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4148306194537406,
      "learning_rate": 9.008712334291536e-06,
      "loss": 0.9307,
      "step": 1780
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.48050130596494,
      "learning_rate": 9.007472954121952e-06,
      "loss": 0.8942,
      "step": 1781
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.714450239560964,
      "learning_rate": 9.006232885021309e-06,
      "loss": 0.8788,
      "step": 1782
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5142829649008143,
      "learning_rate": 9.004992127202787e-06,
      "loss": 0.8621,
      "step": 1783
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8874187819305426,
      "learning_rate": 9.00375068087969e-06,
      "loss": 0.6208,
      "step": 1784
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4784972172086044,
      "learning_rate": 9.002508546265433e-06,
      "loss": 0.9135,
      "step": 1785
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6755621793932702,
      "learning_rate": 9.001265723573559e-06,
      "loss": 0.7714,
      "step": 1786
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2586324012793206,
      "learning_rate": 9.00002221301772e-06,
      "loss": 0.8686,
      "step": 1787
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.688353764091291,
      "learning_rate": 8.998778014811688e-06,
      "loss": 0.767,
      "step": 1788
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4916014135482887,
      "learning_rate": 8.99753312916936e-06,
      "loss": 0.8634,
      "step": 1789
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5305743644834917,
      "learning_rate": 8.996287556304743e-06,
      "loss": 0.8724,
      "step": 1790
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.060963546454335,
      "learning_rate": 8.995041296431965e-06,
      "loss": 0.8311,
      "step": 1791
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.457384772331666,
      "learning_rate": 8.993794349765275e-06,
      "loss": 0.8586,
      "step": 1792
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9290134693692355,
      "learning_rate": 8.992546716519034e-06,
      "loss": 0.7216,
      "step": 1793
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.552510641958831,
      "learning_rate": 8.99129839690773e-06,
      "loss": 0.9254,
      "step": 1794
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6854981370439486,
      "learning_rate": 8.99004939114596e-06,
      "loss": 0.8193,
      "step": 1795
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.441528261862731,
      "learning_rate": 8.988799699448442e-06,
      "loss": 0.7321,
      "step": 1796
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.477645823596134,
      "learning_rate": 8.987549322030013e-06,
      "loss": 0.7409,
      "step": 1797
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.839780583004581,
      "learning_rate": 8.986298259105629e-06,
      "loss": 0.7655,
      "step": 1798
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7716934068138457,
      "learning_rate": 8.98504651089036e-06,
      "loss": 0.9125,
      "step": 1799
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4729443246871663,
      "learning_rate": 8.983794077599398e-06,
      "loss": 0.9427,
      "step": 1800
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.484177212636276,
      "learning_rate": 8.98254095944805e-06,
      "loss": 0.8296,
      "step": 1801
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3192421367563074,
      "learning_rate": 8.981287156651741e-06,
      "loss": 0.845,
      "step": 1802
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5759738882604133,
      "learning_rate": 8.980032669426015e-06,
      "loss": 0.8118,
      "step": 1803
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3488493030205906,
      "learning_rate": 8.978777497986533e-06,
      "loss": 0.9238,
      "step": 1804
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8827248632581984,
      "learning_rate": 8.977521642549073e-06,
      "loss": 0.6871,
      "step": 1805
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6277446725072087,
      "learning_rate": 8.97626510332953e-06,
      "loss": 0.7706,
      "step": 1806
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8422659394424492,
      "learning_rate": 8.97500788054392e-06,
      "loss": 0.6643,
      "step": 1807
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.9084578054874108,
      "learning_rate": 8.973749974408375e-06,
      "loss": 0.8485,
      "step": 1808
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5091605006313313,
      "learning_rate": 8.972491385139138e-06,
      "loss": 0.8404,
      "step": 1809
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4313116607163754,
      "learning_rate": 8.971232112952581e-06,
      "loss": 0.8204,
      "step": 1810
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4571650263229323,
      "learning_rate": 8.969972158065185e-06,
      "loss": 0.83,
      "step": 1811
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4005907691160457,
      "learning_rate": 8.968711520693551e-06,
      "loss": 0.8447,
      "step": 1812
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5450286923277647,
      "learning_rate": 8.967450201054397e-06,
      "loss": 0.8939,
      "step": 1813
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6670614623519195,
      "learning_rate": 8.96618819936456e-06,
      "loss": 0.7872,
      "step": 1814
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5007480425759325,
      "learning_rate": 8.964925515840991e-06,
      "loss": 0.8959,
      "step": 1815
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4759848153337043,
      "learning_rate": 8.963662150700761e-06,
      "loss": 0.8009,
      "step": 1816
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3811472062224825,
      "learning_rate": 8.962398104161055e-06,
      "loss": 0.8913,
      "step": 1817
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.642244371419476,
      "learning_rate": 8.96113337643918e-06,
      "loss": 0.7521,
      "step": 1818
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5912405519533412,
      "learning_rate": 8.959867967752556e-06,
      "loss": 0.7544,
      "step": 1819
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7811803136923403,
      "learning_rate": 8.95860187831872e-06,
      "loss": 0.7761,
      "step": 1820
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6030511198665145,
      "learning_rate": 8.957335108355332e-06,
      "loss": 0.8965,
      "step": 1821
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.628797172191494,
      "learning_rate": 8.956067658080158e-06,
      "loss": 0.9122,
      "step": 1822
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5006519729841474,
      "learning_rate": 8.954799527711094e-06,
      "loss": 0.8109,
      "step": 1823
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.814595450874603,
      "learning_rate": 8.953530717466143e-06,
      "loss": 0.6186,
      "step": 1824
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4902286517275745,
      "learning_rate": 8.952261227563427e-06,
      "loss": 0.9259,
      "step": 1825
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6175208933627245,
      "learning_rate": 8.950991058221187e-06,
      "loss": 0.7963,
      "step": 1826
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.6290785765254299,
      "learning_rate": 8.949720209657781e-06,
      "loss": 0.8778,
      "step": 1827
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3226394163772055,
      "learning_rate": 8.948448682091684e-06,
      "loss": 0.8878,
      "step": 1828
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2730060997652828,
      "learning_rate": 8.947176475741482e-06,
      "loss": 0.8675,
      "step": 1829
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3368024370216818,
      "learning_rate": 8.945903590825884e-06,
      "loss": 0.8616,
      "step": 1830
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5503941503312169,
      "learning_rate": 8.944630027563714e-06,
      "loss": 0.8174,
      "step": 1831
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.7658307124449694,
      "learning_rate": 8.943355786173913e-06,
      "loss": 0.6434,
      "step": 1832
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4473685663701743,
      "learning_rate": 8.942080866875538e-06,
      "loss": 0.9087,
      "step": 1833
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5528671572149828,
      "learning_rate": 8.94080526988776e-06,
      "loss": 0.8727,
      "step": 1834
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.616391032531746,
      "learning_rate": 8.93952899542987e-06,
      "loss": 0.8355,
      "step": 1835
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5720769259007927,
      "learning_rate": 8.938252043721275e-06,
      "loss": 0.9493,
      "step": 1836
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5734686497612007,
      "learning_rate": 8.936974414981498e-06,
      "loss": 0.8856,
      "step": 1837
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6303140896785637,
      "learning_rate": 8.935696109430178e-06,
      "loss": 0.8812,
      "step": 1838
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.759826713234885,
      "learning_rate": 8.93441712728707e-06,
      "loss": 0.8959,
      "step": 1839
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.519800831591831,
      "learning_rate": 8.933137468772047e-06,
      "loss": 0.7949,
      "step": 1840
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.551308652539306,
      "learning_rate": 8.931857134105093e-06,
      "loss": 0.7879,
      "step": 1841
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.603996528295748,
      "learning_rate": 8.930576123506318e-06,
      "loss": 0.8263,
      "step": 1842
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8605494253081949,
      "learning_rate": 8.929294437195942e-06,
      "loss": 0.7126,
      "step": 1843
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3940611044002735,
      "learning_rate": 8.928012075394297e-06,
      "loss": 0.8498,
      "step": 1844
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9424986552487674,
      "learning_rate": 8.92672903832184e-06,
      "loss": 0.6266,
      "step": 1845
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6076513998111275,
      "learning_rate": 8.925445326199138e-06,
      "loss": 0.8547,
      "step": 1846
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8292327381448776,
      "learning_rate": 8.924160939246877e-06,
      "loss": 0.8814,
      "step": 1847
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8345643511050894,
      "learning_rate": 8.922875877685859e-06,
      "loss": 0.6402,
      "step": 1848
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8291477786346593,
      "learning_rate": 8.921590141737e-06,
      "loss": 0.8419,
      "step": 1849
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.449178135720904,
      "learning_rate": 8.920303731621332e-06,
      "loss": 0.9157,
      "step": 1850
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.7340091326943534,
      "learning_rate": 8.919016647560003e-06,
      "loss": 0.8499,
      "step": 1851
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4872344555504426,
      "learning_rate": 8.91772888977428e-06,
      "loss": 0.871,
      "step": 1852
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5454183104863766,
      "learning_rate": 8.916440458485542e-06,
      "loss": 0.8452,
      "step": 1853
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.458755349276845,
      "learning_rate": 8.915151353915288e-06,
      "loss": 0.8553,
      "step": 1854
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.42804703739263,
      "learning_rate": 8.913861576285126e-06,
      "loss": 0.8031,
      "step": 1855
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.7183199446438526,
      "learning_rate": 8.912571125816787e-06,
      "loss": 0.9044,
      "step": 1856
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6013808598965453,
      "learning_rate": 8.911280002732112e-06,
      "loss": 0.8867,
      "step": 1857
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.103358640966847,
      "learning_rate": 8.909988207253062e-06,
      "loss": 0.8281,
      "step": 1858
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4135965186808543,
      "learning_rate": 8.90869573960171e-06,
      "loss": 0.8368,
      "step": 1859
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9569754722253611,
      "learning_rate": 8.907402600000248e-06,
      "loss": 0.7177,
      "step": 1860
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.618750898000189,
      "learning_rate": 8.906108788670979e-06,
      "loss": 0.8306,
      "step": 1861
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.407679425635754,
      "learning_rate": 8.904814305836326e-06,
      "loss": 0.7937,
      "step": 1862
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6842374903212378,
      "learning_rate": 8.903519151718826e-06,
      "loss": 0.7655,
      "step": 1863
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3856000192702322,
      "learning_rate": 8.90222332654113e-06,
      "loss": 0.8637,
      "step": 1864
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3122377907012759,
      "learning_rate": 8.900926830526006e-06,
      "loss": 0.8618,
      "step": 1865
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.449683093022878,
      "learning_rate": 8.899629663896336e-06,
      "loss": 0.9432,
      "step": 1866
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8235626245049523,
      "learning_rate": 8.898331826875119e-06,
      "loss": 0.8329,
      "step": 1867
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.7622715723676812,
      "learning_rate": 8.897033319685466e-06,
      "loss": 0.8315,
      "step": 1868
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.498320931399116,
      "learning_rate": 8.89573414255061e-06,
      "loss": 0.8912,
      "step": 1869
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3606891919131272,
      "learning_rate": 8.89443429569389e-06,
      "loss": 0.7672,
      "step": 1870
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.468702213332575,
      "learning_rate": 8.893133779338765e-06,
      "loss": 0.7747,
      "step": 1871
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4574109851972652,
      "learning_rate": 8.89183259370881e-06,
      "loss": 0.8138,
      "step": 1872
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.441638435311962,
      "learning_rate": 8.890530739027718e-06,
      "loss": 0.8871,
      "step": 1873
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4310003243857286,
      "learning_rate": 8.889228215519286e-06,
      "loss": 0.7385,
      "step": 1874
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9422686139532406,
      "learning_rate": 8.887925023407437e-06,
      "loss": 0.6369,
      "step": 1875
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4313613279282775,
      "learning_rate": 8.886621162916204e-06,
      "loss": 0.8178,
      "step": 1876
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5213805868048473,
      "learning_rate": 8.885316634269735e-06,
      "loss": 0.898,
      "step": 1877
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3752784219000185,
      "learning_rate": 8.884011437692295e-06,
      "loss": 0.7868,
      "step": 1878
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.398693110309637,
      "learning_rate": 8.882705573408258e-06,
      "loss": 0.7989,
      "step": 1879
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3168287580881033,
      "learning_rate": 8.881399041642125e-06,
      "loss": 0.8081,
      "step": 1880
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.5195681437844146,
      "learning_rate": 8.880091842618498e-06,
      "loss": 0.8774,
      "step": 1881
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4704683075833482,
      "learning_rate": 8.878783976562102e-06,
      "loss": 0.8328,
      "step": 1882
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5855068064802529,
      "learning_rate": 8.877475443697773e-06,
      "loss": 0.7831,
      "step": 1883
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.7175752552024164,
      "learning_rate": 8.876166244250463e-06,
      "loss": 0.8817,
      "step": 1884
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4143458993655165,
      "learning_rate": 8.87485637844524e-06,
      "loss": 0.7725,
      "step": 1885
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6780927014657554,
      "learning_rate": 8.873545846507286e-06,
      "loss": 0.9157,
      "step": 1886
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3040503722011596,
      "learning_rate": 8.872234648661893e-06,
      "loss": 0.7629,
      "step": 1887
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8097939068055724,
      "learning_rate": 8.870922785134473e-06,
      "loss": 0.7088,
      "step": 1888
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5783194407312577,
      "learning_rate": 8.869610256150552e-06,
      "loss": 0.8335,
      "step": 1889
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5369803261783646,
      "learning_rate": 8.868297061935767e-06,
      "loss": 0.8412,
      "step": 1890
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5357464036672035,
      "learning_rate": 8.86698320271587e-06,
      "loss": 0.982,
      "step": 1891
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4502577323045256,
      "learning_rate": 8.865668678716734e-06,
      "loss": 0.8296,
      "step": 1892
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8159028573823828,
      "learning_rate": 8.864353490164335e-06,
      "loss": 0.6448,
      "step": 1893
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3329822392459962,
      "learning_rate": 8.863037637284773e-06,
      "loss": 0.84,
      "step": 1894
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4865413977625832,
      "learning_rate": 8.861721120304257e-06,
      "loss": 0.906,
      "step": 1895
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6737519274671393,
      "learning_rate": 8.86040393944911e-06,
      "loss": 0.9241,
      "step": 1896
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2949608334944611,
      "learning_rate": 8.859086094945773e-06,
      "loss": 0.8492,
      "step": 1897
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6361875105475343,
      "learning_rate": 8.857767587020798e-06,
      "loss": 0.8726,
      "step": 1898
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4180378028476486,
      "learning_rate": 8.856448415900851e-06,
      "loss": 0.8941,
      "step": 1899
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4837623918959808,
      "learning_rate": 8.855128581812714e-06,
      "loss": 0.8022,
      "step": 1900
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4272860985655476,
      "learning_rate": 8.853808084983282e-06,
      "loss": 0.8217,
      "step": 1901
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8858551439841402,
      "learning_rate": 8.852486925639562e-06,
      "loss": 0.7254,
      "step": 1902
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.392156764791402,
      "learning_rate": 8.851165104008678e-06,
      "loss": 0.8078,
      "step": 1903
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4394504223313658,
      "learning_rate": 8.849842620317865e-06,
      "loss": 0.8129,
      "step": 1904
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.316577948019074,
      "learning_rate": 8.848519474794476e-06,
      "loss": 0.8968,
      "step": 1905
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3708289742909239,
      "learning_rate": 8.847195667665974e-06,
      "loss": 0.7873,
      "step": 1906
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5958262028479588,
      "learning_rate": 8.845871199159935e-06,
      "loss": 0.7968,
      "step": 1907
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4524271650917862,
      "learning_rate": 8.844546069504051e-06,
      "loss": 0.7138,
      "step": 1908
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2940990084554613,
      "learning_rate": 8.843220278926128e-06,
      "loss": 0.8605,
      "step": 1909
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.500544276349774,
      "learning_rate": 8.841893827654087e-06,
      "loss": 0.8667,
      "step": 1910
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.831096805055263,
      "learning_rate": 8.840566715915955e-06,
      "loss": 0.6693,
      "step": 1911
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6945858414277164,
      "learning_rate": 8.839238943939883e-06,
      "loss": 0.8439,
      "step": 1912
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.61787987480668,
      "learning_rate": 8.837910511954128e-06,
      "loss": 0.8673,
      "step": 1913
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6137401804910227,
      "learning_rate": 8.836581420187062e-06,
      "loss": 0.794,
      "step": 1914
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.7702453475914242,
      "learning_rate": 8.835251668867172e-06,
      "loss": 0.8362,
      "step": 1915
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6693756970064146,
      "learning_rate": 8.833921258223059e-06,
      "loss": 0.9527,
      "step": 1916
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4303250191241748,
      "learning_rate": 8.832590188483437e-06,
      "loss": 0.8673,
      "step": 1917
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5948788801533702,
      "learning_rate": 8.831258459877128e-06,
      "loss": 0.8433,
      "step": 1918
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.377943681940566,
      "learning_rate": 8.829926072633075e-06,
      "loss": 0.8775,
      "step": 1919
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4982846061588861,
      "learning_rate": 8.828593026980328e-06,
      "loss": 0.8641,
      "step": 1920
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6191854030977495,
      "learning_rate": 8.827259323148056e-06,
      "loss": 0.7658,
      "step": 1921
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2967283741173332,
      "learning_rate": 8.825924961365538e-06,
      "loss": 0.9014,
      "step": 1922
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3742064334305264,
      "learning_rate": 8.824589941862164e-06,
      "loss": 0.8124,
      "step": 1923
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3220196852096362,
      "learning_rate": 8.82325426486744e-06,
      "loss": 0.8583,
      "step": 1924
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4546458075627733,
      "learning_rate": 8.821917930610987e-06,
      "loss": 0.8945,
      "step": 1925
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4616617449373133,
      "learning_rate": 8.820580939322532e-06,
      "loss": 0.7851,
      "step": 1926
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.7697331912077825,
      "learning_rate": 8.819243291231922e-06,
      "loss": 0.9504,
      "step": 1927
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.035713652515535,
      "learning_rate": 8.817904986569115e-06,
      "loss": 0.686,
      "step": 1928
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.8902944672619646,
      "learning_rate": 8.81656602556418e-06,
      "loss": 0.8866,
      "step": 1929
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.238848782359079,
      "learning_rate": 8.815226408447298e-06,
      "loss": 0.878,
      "step": 1930
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4517338842919036,
      "learning_rate": 8.813886135448766e-06,
      "loss": 0.7808,
      "step": 1931
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4978935472889523,
      "learning_rate": 8.812545206798995e-06,
      "loss": 0.8558,
      "step": 1932
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4389491765991613,
      "learning_rate": 8.811203622728504e-06,
      "loss": 0.8691,
      "step": 1933
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5739638242179386,
      "learning_rate": 8.809861383467926e-06,
      "loss": 0.8955,
      "step": 1934
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.554570325077058,
      "learning_rate": 8.808518489248009e-06,
      "loss": 0.7825,
      "step": 1935
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3022171544547092,
      "learning_rate": 8.807174940299613e-06,
      "loss": 0.9406,
      "step": 1936
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.441093413093848,
      "learning_rate": 8.805830736853705e-06,
      "loss": 0.8345,
      "step": 1937
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8445281826294997,
      "learning_rate": 8.804485879141375e-06,
      "loss": 0.6967,
      "step": 1938
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8327835544289725,
      "learning_rate": 8.803140367393815e-06,
      "loss": 0.6365,
      "step": 1939
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.313111387230523,
      "learning_rate": 8.801794201842337e-06,
      "loss": 0.8754,
      "step": 1940
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4138826415701253,
      "learning_rate": 8.800447382718362e-06,
      "loss": 0.8243,
      "step": 1941
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7643405047993498,
      "learning_rate": 8.799099910253424e-06,
      "loss": 0.7161,
      "step": 1942
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3878306987720097,
      "learning_rate": 8.797751784679167e-06,
      "loss": 0.7791,
      "step": 1943
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3014681522766947,
      "learning_rate": 8.796403006227352e-06,
      "loss": 0.7612,
      "step": 1944
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.388040468806287,
      "learning_rate": 8.795053575129846e-06,
      "loss": 0.9065,
      "step": 1945
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5696046368774736,
      "learning_rate": 8.793703491618638e-06,
      "loss": 0.8661,
      "step": 1946
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.266701937770625,
      "learning_rate": 8.792352755925817e-06,
      "loss": 0.8523,
      "step": 1947
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4763164985788644,
      "learning_rate": 8.791001368283593e-06,
      "loss": 0.8476,
      "step": 1948
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.7653076172818247,
      "learning_rate": 8.789649328924286e-06,
      "loss": 0.9615,
      "step": 1949
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4528608317410094,
      "learning_rate": 8.788296638080325e-06,
      "loss": 0.8592,
      "step": 1950
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2354323769018851,
      "learning_rate": 8.786943295984254e-06,
      "loss": 0.7333,
      "step": 1951
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6806790286968134,
      "learning_rate": 8.785589302868729e-06,
      "loss": 0.8657,
      "step": 1952
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3871598579779376,
      "learning_rate": 8.784234658966514e-06,
      "loss": 0.8697,
      "step": 1953
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3495738725541861,
      "learning_rate": 8.782879364510494e-06,
      "loss": 0.8295,
      "step": 1954
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4117789232662459,
      "learning_rate": 8.781523419733655e-06,
      "loss": 0.8496,
      "step": 1955
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4947918708318213,
      "learning_rate": 8.7801668248691e-06,
      "loss": 0.8279,
      "step": 1956
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4758746648158223,
      "learning_rate": 8.778809580150044e-06,
      "loss": 0.9391,
      "step": 1957
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2619145190067989,
      "learning_rate": 8.777451685809817e-06,
      "loss": 0.7363,
      "step": 1958
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.7625418792750838,
      "learning_rate": 8.77609314208185e-06,
      "loss": 0.81,
      "step": 1959
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4096518262111815,
      "learning_rate": 8.774733949199696e-06,
      "loss": 0.7266,
      "step": 1960
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.406981755845598,
      "learning_rate": 8.773374107397017e-06,
      "loss": 0.8355,
      "step": 1961
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.883842448563081,
      "learning_rate": 8.772013616907584e-06,
      "loss": 0.6768,
      "step": 1962
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.201838459927045,
      "learning_rate": 8.77065247796528e-06,
      "loss": 0.8945,
      "step": 1963
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.8059513096557018,
      "learning_rate": 8.769290690804104e-06,
      "loss": 0.9535,
      "step": 1964
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.7364911868453332,
      "learning_rate": 8.767928255658158e-06,
      "loss": 0.935,
      "step": 1965
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.9138868941696865,
      "learning_rate": 8.766565172761666e-06,
      "loss": 0.8097,
      "step": 1966
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5079319905956943,
      "learning_rate": 8.765201442348953e-06,
      "loss": 0.846,
      "step": 1967
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.512081191528599,
      "learning_rate": 8.763837064654464e-06,
      "loss": 0.7787,
      "step": 1968
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.565845976783834,
      "learning_rate": 8.762472039912748e-06,
      "loss": 0.8253,
      "step": 1969
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4494288031129838,
      "learning_rate": 8.76110636835847e-06,
      "loss": 0.9509,
      "step": 1970
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.916273431878239,
      "learning_rate": 8.759740050226406e-06,
      "loss": 0.5931,
      "step": 1971
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.297308605252988,
      "learning_rate": 8.758373085751439e-06,
      "loss": 0.7539,
      "step": 1972
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.513088888099764,
      "learning_rate": 8.75700547516857e-06,
      "loss": 0.8959,
      "step": 1973
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8355048730414132,
      "learning_rate": 8.755637218712902e-06,
      "loss": 0.6752,
      "step": 1974
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.385898542752044,
      "learning_rate": 8.75426831661966e-06,
      "loss": 0.8564,
      "step": 1975
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.433021202224081,
      "learning_rate": 8.75289876912417e-06,
      "loss": 0.8682,
      "step": 1976
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.402624541255735,
      "learning_rate": 8.751528576461873e-06,
      "loss": 0.8703,
      "step": 1977
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.308839318004977,
      "learning_rate": 8.750157738868323e-06,
      "loss": 0.8966,
      "step": 1978
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.778315945875186,
      "learning_rate": 8.748786256579182e-06,
      "loss": 0.9037,
      "step": 1979
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4650464807365855,
      "learning_rate": 8.747414129830225e-06,
      "loss": 0.8092,
      "step": 1980
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4121991292714613,
      "learning_rate": 8.746041358857334e-06,
      "loss": 0.8475,
      "step": 1981
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7972897566167422,
      "learning_rate": 8.744667943896507e-06,
      "loss": 0.6042,
      "step": 1982
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8868513884837772,
      "learning_rate": 8.743293885183847e-06,
      "loss": 0.6713,
      "step": 1983
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4448147071801543,
      "learning_rate": 8.741919182955573e-06,
      "loss": 0.9382,
      "step": 1984
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4695300949526588,
      "learning_rate": 8.740543837448012e-06,
      "loss": 0.7891,
      "step": 1985
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2441354018282627,
      "learning_rate": 8.739167848897601e-06,
      "loss": 0.8482,
      "step": 1986
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3721532457620251,
      "learning_rate": 8.737791217540887e-06,
      "loss": 0.799,
      "step": 1987
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.9557039748668783,
      "learning_rate": 8.736413943614533e-06,
      "loss": 0.9521,
      "step": 1988
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.7042784108934688,
      "learning_rate": 8.735036027355304e-06,
      "loss": 0.7527,
      "step": 1989
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.8225685003434473,
      "learning_rate": 8.733657469000081e-06,
      "loss": 0.9307,
      "step": 1990
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.013792505737465,
      "learning_rate": 8.732278268785856e-06,
      "loss": 0.792,
      "step": 1991
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5853332832814555,
      "learning_rate": 8.730898426949728e-06,
      "loss": 0.9156,
      "step": 1992
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6796973469102834,
      "learning_rate": 8.729517943728909e-06,
      "loss": 0.816,
      "step": 1993
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3187529294372966,
      "learning_rate": 8.728136819360717e-06,
      "loss": 0.7983,
      "step": 1994
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4501573937435148,
      "learning_rate": 8.726755054082589e-06,
      "loss": 0.8642,
      "step": 1995
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3263965833958415,
      "learning_rate": 8.72537264813206e-06,
      "loss": 0.7091,
      "step": 1996
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6868509523874136,
      "learning_rate": 8.723989601746785e-06,
      "loss": 0.8835,
      "step": 1997
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5586038368514028,
      "learning_rate": 8.722605915164526e-06,
      "loss": 0.8752,
      "step": 1998
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.533612683008347,
      "learning_rate": 8.721221588623154e-06,
      "loss": 0.9112,
      "step": 1999
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.68630841434495,
      "learning_rate": 8.71983662236065e-06,
      "loss": 0.8687,
      "step": 2000
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.591339565005503,
      "learning_rate": 8.718451016615108e-06,
      "loss": 0.8444,
      "step": 2001
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5171857272918445,
      "learning_rate": 8.717064771624728e-06,
      "loss": 0.9003,
      "step": 2002
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.401840482700145,
      "learning_rate": 8.715677887627822e-06,
      "loss": 0.8831,
      "step": 2003
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8386174028068931,
      "learning_rate": 8.71429036486281e-06,
      "loss": 0.6556,
      "step": 2004
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9062112414163577,
      "learning_rate": 8.712902203568226e-06,
      "loss": 0.7631,
      "step": 2005
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3953255425331008,
      "learning_rate": 8.711513403982708e-06,
      "loss": 0.699,
      "step": 2006
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8729631647597215,
      "learning_rate": 8.710123966345008e-06,
      "loss": 0.6123,
      "step": 2007
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.944094524444551,
      "learning_rate": 8.708733890893987e-06,
      "loss": 0.632,
      "step": 2008
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5520265727211808,
      "learning_rate": 8.707343177868616e-06,
      "loss": 0.8038,
      "step": 2009
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3766584038584544,
      "learning_rate": 8.705951827507974e-06,
      "loss": 0.7206,
      "step": 2010
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8768945973037551,
      "learning_rate": 8.704559840051249e-06,
      "loss": 0.6596,
      "step": 2011
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3991927393262258,
      "learning_rate": 8.70316721573774e-06,
      "loss": 0.7802,
      "step": 2012
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.423940558865594,
      "learning_rate": 8.701773954806856e-06,
      "loss": 0.9081,
      "step": 2013
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6769445541023627,
      "learning_rate": 8.700380057498115e-06,
      "loss": 0.7533,
      "step": 2014
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5670811023593028,
      "learning_rate": 8.698985524051143e-06,
      "loss": 0.8905,
      "step": 2015
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6812657562376054,
      "learning_rate": 8.697590354705679e-06,
      "loss": 0.8625,
      "step": 2016
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3646089694717622,
      "learning_rate": 8.696194549701564e-06,
      "loss": 0.8712,
      "step": 2017
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5163940453431715,
      "learning_rate": 8.694798109278758e-06,
      "loss": 0.8343,
      "step": 2018
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4513094059077036,
      "learning_rate": 8.693401033677322e-06,
      "loss": 0.9479,
      "step": 2019
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6718982291095457,
      "learning_rate": 8.69200332313743e-06,
      "loss": 0.8852,
      "step": 2020
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8632294810377256,
      "learning_rate": 8.690604977899369e-06,
      "loss": 0.7017,
      "step": 2021
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8925003068410717,
      "learning_rate": 8.689205998203522e-06,
      "loss": 0.6821,
      "step": 2022
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3468970320510274,
      "learning_rate": 8.6878063842904e-06,
      "loss": 0.7906,
      "step": 2023
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7914293851909643,
      "learning_rate": 8.686406136400604e-06,
      "loss": 0.6207,
      "step": 2024
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.463541039207316,
      "learning_rate": 8.685005254774859e-06,
      "loss": 0.8461,
      "step": 2025
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3427308799184663,
      "learning_rate": 8.68360373965399e-06,
      "loss": 0.8718,
      "step": 2026
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5808050077766571,
      "learning_rate": 8.682201591278934e-06,
      "loss": 0.8342,
      "step": 2027
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6717084320740698,
      "learning_rate": 8.680798809890737e-06,
      "loss": 0.9157,
      "step": 2028
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6736078605388325,
      "learning_rate": 8.679395395730552e-06,
      "loss": 0.8535,
      "step": 2029
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6017077060204954,
      "learning_rate": 8.677991349039644e-06,
      "loss": 0.8183,
      "step": 2030
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.453878546222414,
      "learning_rate": 8.676586670059383e-06,
      "loss": 0.9079,
      "step": 2031
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4311941590465422,
      "learning_rate": 8.675181359031253e-06,
      "loss": 0.917,
      "step": 2032
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.440833976139571,
      "learning_rate": 8.673775416196838e-06,
      "loss": 0.7603,
      "step": 2033
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3644237594939108,
      "learning_rate": 8.672368841797842e-06,
      "loss": 0.9217,
      "step": 2034
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9485221620535054,
      "learning_rate": 8.670961636076067e-06,
      "loss": 0.6405,
      "step": 2035
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.569406259445542,
      "learning_rate": 8.669553799273429e-06,
      "loss": 0.8024,
      "step": 2036
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6917550162370316,
      "learning_rate": 8.668145331631953e-06,
      "loss": 0.7748,
      "step": 2037
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6062756338208775,
      "learning_rate": 8.666736233393769e-06,
      "loss": 0.8867,
      "step": 2038
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.678213772645254,
      "learning_rate": 8.665326504801117e-06,
      "loss": 0.9925,
      "step": 2039
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.8227507380701544,
      "learning_rate": 8.663916146096348e-06,
      "loss": 0.8932,
      "step": 2040
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.435135165620217,
      "learning_rate": 8.662505157521918e-06,
      "loss": 0.8825,
      "step": 2041
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4602346701044866,
      "learning_rate": 8.66109353932039e-06,
      "loss": 0.863,
      "step": 2042
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.8814883287728863,
      "learning_rate": 8.659681291734441e-06,
      "loss": 0.8255,
      "step": 2043
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8660083012878761,
      "learning_rate": 8.658268415006853e-06,
      "loss": 0.6577,
      "step": 2044
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.54794824342519,
      "learning_rate": 8.656854909380512e-06,
      "loss": 0.8826,
      "step": 2045
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5512382733000822,
      "learning_rate": 8.655440775098418e-06,
      "loss": 0.7968,
      "step": 2046
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.812498951987377,
      "learning_rate": 8.654026012403678e-06,
      "loss": 0.8803,
      "step": 2047
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4809640667919906,
      "learning_rate": 8.652610621539505e-06,
      "loss": 0.8642,
      "step": 2048
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4777874886774525,
      "learning_rate": 8.651194602749223e-06,
      "loss": 0.8394,
      "step": 2049
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5783139759893114,
      "learning_rate": 8.649777956276257e-06,
      "loss": 0.9335,
      "step": 2050
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1998690228031663,
      "learning_rate": 8.648360682364153e-06,
      "loss": 0.7345,
      "step": 2051
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.486836649931874,
      "learning_rate": 8.646942781256548e-06,
      "loss": 0.8193,
      "step": 2052
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4861019905974273,
      "learning_rate": 8.645524253197202e-06,
      "loss": 0.9517,
      "step": 2053
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.9823172819107515,
      "learning_rate": 8.644105098429975e-06,
      "loss": 0.8735,
      "step": 2054
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4495797033232802,
      "learning_rate": 8.642685317198833e-06,
      "loss": 0.7771,
      "step": 2055
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3171974995467672,
      "learning_rate": 8.64126490974786e-06,
      "loss": 0.9183,
      "step": 2056
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4075745868358107,
      "learning_rate": 8.639843876321232e-06,
      "loss": 0.8346,
      "step": 2057
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6316122774837072,
      "learning_rate": 8.638422217163244e-06,
      "loss": 0.8148,
      "step": 2058
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6436643415697068,
      "learning_rate": 8.6369999325183e-06,
      "loss": 0.9071,
      "step": 2059
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6363377874158287,
      "learning_rate": 8.6355770226309e-06,
      "loss": 0.794,
      "step": 2060
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.7834696137490096,
      "learning_rate": 8.634153487745667e-06,
      "loss": 0.6837,
      "step": 2061
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4144352769574418,
      "learning_rate": 8.632729328107317e-06,
      "loss": 0.8375,
      "step": 2062
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4736323904801407,
      "learning_rate": 8.63130454396068e-06,
      "loss": 0.8707,
      "step": 2063
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6029950319793376,
      "learning_rate": 8.629879135550695e-06,
      "loss": 0.8827,
      "step": 2064
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3948176252019722,
      "learning_rate": 8.628453103122404e-06,
      "loss": 0.858,
      "step": 2065
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4465512231949107,
      "learning_rate": 8.627026446920963e-06,
      "loss": 0.8278,
      "step": 2066
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.7335004672046899,
      "learning_rate": 8.625599167191627e-06,
      "loss": 0.902,
      "step": 2067
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3315529947309812,
      "learning_rate": 8.624171264179761e-06,
      "loss": 0.7801,
      "step": 2068
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.307051031912509,
      "learning_rate": 8.62274273813084e-06,
      "loss": 0.8815,
      "step": 2069
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3981021931587543,
      "learning_rate": 8.621313589290446e-06,
      "loss": 0.9751,
      "step": 2070
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.732094064468486,
      "learning_rate": 8.619883817904262e-06,
      "loss": 0.7782,
      "step": 2071
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.763028809678932,
      "learning_rate": 8.618453424218085e-06,
      "loss": 0.9485,
      "step": 2072
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.539030252664677,
      "learning_rate": 8.617022408477816e-06,
      "loss": 0.8978,
      "step": 2073
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8024757961489156,
      "learning_rate": 8.615590770929461e-06,
      "loss": 0.7197,
      "step": 2074
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6545906397277756,
      "learning_rate": 8.614158511819138e-06,
      "loss": 0.8733,
      "step": 2075
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4275247422569999,
      "learning_rate": 8.612725631393068e-06,
      "loss": 0.8825,
      "step": 2076
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9181348866388754,
      "learning_rate": 8.611292129897581e-06,
      "loss": 0.7875,
      "step": 2077
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8073321997271957,
      "learning_rate": 8.60985800757911e-06,
      "loss": 0.6614,
      "step": 2078
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6761480036237544,
      "learning_rate": 8.608423264684198e-06,
      "loss": 0.8597,
      "step": 2079
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5232861763382575,
      "learning_rate": 8.606987901459497e-06,
      "loss": 0.8774,
      "step": 2080
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5905286820713165,
      "learning_rate": 8.605551918151755e-06,
      "loss": 0.8397,
      "step": 2081
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8555005026298032,
      "learning_rate": 8.604115315007844e-06,
      "loss": 0.6846,
      "step": 2082
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5272329917438985,
      "learning_rate": 8.602678092274725e-06,
      "loss": 0.7993,
      "step": 2083
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.043324169310662,
      "learning_rate": 8.601240250199476e-06,
      "loss": 0.8767,
      "step": 2084
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.635014004385728,
      "learning_rate": 8.599801789029281e-06,
      "loss": 0.8799,
      "step": 2085
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3492657431449764,
      "learning_rate": 8.598362709011425e-06,
      "loss": 0.7693,
      "step": 2086
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5191920205866176,
      "learning_rate": 8.596923010393303e-06,
      "loss": 0.7198,
      "step": 2087
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7916817848581432,
      "learning_rate": 8.595482693422416e-06,
      "loss": 0.8881,
      "step": 2088
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8041581792368413,
      "learning_rate": 8.594041758346372e-06,
      "loss": 0.8215,
      "step": 2089
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9515939304466717,
      "learning_rate": 8.592600205412884e-06,
      "loss": 0.6851,
      "step": 2090
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7019867973604563,
      "learning_rate": 8.591158034869773e-06,
      "loss": 0.7944,
      "step": 2091
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3183730021787528,
      "learning_rate": 8.589715246964963e-06,
      "loss": 0.8928,
      "step": 2092
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8067056145133527,
      "learning_rate": 8.588271841946485e-06,
      "loss": 0.6513,
      "step": 2093
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3191633064976886,
      "learning_rate": 8.58682782006248e-06,
      "loss": 0.7896,
      "step": 2094
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8391414532854302,
      "learning_rate": 8.585383181561191e-06,
      "loss": 0.7383,
      "step": 2095
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3169200502639935,
      "learning_rate": 8.583937926690967e-06,
      "loss": 0.7061,
      "step": 2096
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.681322867408806,
      "learning_rate": 8.582492055700264e-06,
      "loss": 0.8346,
      "step": 2097
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.508144352157998,
      "learning_rate": 8.581045568837647e-06,
      "loss": 0.8225,
      "step": 2098
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.461108976849118,
      "learning_rate": 8.57959846635178e-06,
      "loss": 0.8926,
      "step": 2099
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.31493906313846,
      "learning_rate": 8.578150748491438e-06,
      "loss": 0.8476,
      "step": 2100
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8708984927928471,
      "learning_rate": 8.576702415505501e-06,
      "loss": 0.8408,
      "step": 2101
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3857748321842387,
      "learning_rate": 8.575253467642954e-06,
      "loss": 0.8869,
      "step": 2102
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7951123078508266,
      "learning_rate": 8.57380390515289e-06,
      "loss": 0.8753,
      "step": 2103
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7876693658052576,
      "learning_rate": 8.5723537282845e-06,
      "loss": 0.8354,
      "step": 2104
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7669718815652542,
      "learning_rate": 8.570902937287093e-06,
      "loss": 0.8386,
      "step": 2105
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.309555907014011,
      "learning_rate": 8.569451532410073e-06,
      "loss": 0.7609,
      "step": 2106
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8683954390375404,
      "learning_rate": 8.567999513902953e-06,
      "loss": 0.8843,
      "step": 2107
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5680593566764491,
      "learning_rate": 8.566546882015355e-06,
      "loss": 0.8519,
      "step": 2108
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5858352644278255,
      "learning_rate": 8.565093636996999e-06,
      "loss": 0.7801,
      "step": 2109
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.018812165485954,
      "learning_rate": 8.563639779097717e-06,
      "loss": 0.8288,
      "step": 2110
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2564670737957326,
      "learning_rate": 8.562185308567443e-06,
      "loss": 0.9,
      "step": 2111
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4753760427410119,
      "learning_rate": 8.56073022565622e-06,
      "loss": 0.7647,
      "step": 2112
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.854669796876567,
      "learning_rate": 8.55927453061419e-06,
      "loss": 0.6673,
      "step": 2113
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3859013375138387,
      "learning_rate": 8.557818223691607e-06,
      "loss": 0.8466,
      "step": 2114
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8027140439539744,
      "learning_rate": 8.556361305138825e-06,
      "loss": 0.806,
      "step": 2115
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7330525755398203,
      "learning_rate": 8.554903775206305e-06,
      "loss": 0.9146,
      "step": 2116
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.522078279191332,
      "learning_rate": 8.553445634144614e-06,
      "loss": 0.866,
      "step": 2117
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9647319474557315,
      "learning_rate": 8.551986882204424e-06,
      "loss": 0.7112,
      "step": 2118
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5064049951969432,
      "learning_rate": 8.550527519636511e-06,
      "loss": 0.8724,
      "step": 2119
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8421092805332022,
      "learning_rate": 8.549067546691756e-06,
      "loss": 0.7017,
      "step": 2120
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.571715889944172,
      "learning_rate": 8.547606963621146e-06,
      "loss": 0.8783,
      "step": 2121
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.8181984864998868,
      "learning_rate": 8.54614577067577e-06,
      "loss": 0.8075,
      "step": 2122
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4638385535477707,
      "learning_rate": 8.544683968106827e-06,
      "loss": 0.8479,
      "step": 2123
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5931175827921735,
      "learning_rate": 8.543221556165615e-06,
      "loss": 0.8673,
      "step": 2124
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7235361888239193,
      "learning_rate": 8.541758535103542e-06,
      "loss": 0.8414,
      "step": 2125
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5431918913132314,
      "learning_rate": 8.540294905172117e-06,
      "loss": 0.8582,
      "step": 2126
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7684710033550044,
      "learning_rate": 8.538830666622955e-06,
      "loss": 0.8331,
      "step": 2127
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3061543293043387,
      "learning_rate": 8.537365819707776e-06,
      "loss": 0.8459,
      "step": 2128
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4892966037368958,
      "learning_rate": 8.535900364678403e-06,
      "loss": 0.8081,
      "step": 2129
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5291680266585224,
      "learning_rate": 8.534434301786767e-06,
      "loss": 0.819,
      "step": 2130
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3823185946457104,
      "learning_rate": 8.532967631284898e-06,
      "loss": 0.9465,
      "step": 2131
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8451385865762787,
      "learning_rate": 8.531500353424937e-06,
      "loss": 0.6331,
      "step": 2132
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7068701125100156,
      "learning_rate": 8.530032468459126e-06,
      "loss": 0.9392,
      "step": 2133
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6196565117250834,
      "learning_rate": 8.528563976639807e-06,
      "loss": 0.9994,
      "step": 2134
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.43697611469319,
      "learning_rate": 8.527094878219435e-06,
      "loss": 0.7593,
      "step": 2135
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4042623797958425,
      "learning_rate": 8.525625173450564e-06,
      "loss": 0.661,
      "step": 2136
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.845584589155113,
      "learning_rate": 8.524154862585854e-06,
      "loss": 0.7247,
      "step": 2137
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5569998225260122,
      "learning_rate": 8.522683945878068e-06,
      "loss": 0.8105,
      "step": 2138
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4936952383708446,
      "learning_rate": 8.52121242358007e-06,
      "loss": 0.8191,
      "step": 2139
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.72503910559625,
      "learning_rate": 8.519740295944838e-06,
      "loss": 0.9483,
      "step": 2140
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7605929601103412,
      "learning_rate": 8.518267563225443e-06,
      "loss": 0.7276,
      "step": 2141
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3234029674958507,
      "learning_rate": 8.51679422567507e-06,
      "loss": 0.7979,
      "step": 2142
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.9286316125905594,
      "learning_rate": 8.515320283546996e-06,
      "loss": 0.7231,
      "step": 2143
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8258980996646346,
      "learning_rate": 8.513845737094613e-06,
      "loss": 0.7372,
      "step": 2144
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5377414677088674,
      "learning_rate": 8.51237058657141e-06,
      "loss": 0.9346,
      "step": 2145
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7294069404317698,
      "learning_rate": 8.510894832230988e-06,
      "loss": 0.9453,
      "step": 2146
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5007748646259103,
      "learning_rate": 8.50941847432704e-06,
      "loss": 0.7982,
      "step": 2147
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2514909490158936,
      "learning_rate": 8.507941513113372e-06,
      "loss": 0.8782,
      "step": 2148
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4564177447557418,
      "learning_rate": 8.506463948843891e-06,
      "loss": 0.9184,
      "step": 2149
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.943722256746699,
      "learning_rate": 8.504985781772606e-06,
      "loss": 0.6935,
      "step": 2150
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8312366517140398,
      "learning_rate": 8.503507012153632e-06,
      "loss": 0.648,
      "step": 2151
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.534400301484199,
      "learning_rate": 8.502027640241188e-06,
      "loss": 0.827,
      "step": 2152
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2499975355650175,
      "learning_rate": 8.500547666289592e-06,
      "loss": 0.7369,
      "step": 2153
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4222320853537078,
      "learning_rate": 8.49906709055327e-06,
      "loss": 0.8462,
      "step": 2154
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6966672191889451,
      "learning_rate": 8.497585913286752e-06,
      "loss": 0.8591,
      "step": 2155
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.267475862868951,
      "learning_rate": 8.496104134744667e-06,
      "loss": 0.8959,
      "step": 2156
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2743566365022183,
      "learning_rate": 8.49462175518175e-06,
      "loss": 0.825,
      "step": 2157
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1753927056724036,
      "learning_rate": 8.493138774852842e-06,
      "loss": 0.8696,
      "step": 2158
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5460431656233289,
      "learning_rate": 8.49165519401288e-06,
      "loss": 0.8935,
      "step": 2159
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8964414001283396,
      "learning_rate": 8.490171012916915e-06,
      "loss": 0.9563,
      "step": 2160
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.525376768893409,
      "learning_rate": 8.488686231820089e-06,
      "loss": 0.9194,
      "step": 2161
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.388981798883527,
      "learning_rate": 8.487200850977657e-06,
      "loss": 0.8507,
      "step": 2162
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4934452365737616,
      "learning_rate": 8.48571487064497e-06,
      "loss": 0.7308,
      "step": 2163
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9234776305192143,
      "learning_rate": 8.484228291077488e-06,
      "loss": 0.6712,
      "step": 2164
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5275180612122405,
      "learning_rate": 8.48274111253077e-06,
      "loss": 0.7756,
      "step": 2165
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8423801556026487,
      "learning_rate": 8.481253335260478e-06,
      "loss": 0.8476,
      "step": 2166
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.77604897919084,
      "learning_rate": 8.479764959522381e-06,
      "loss": 0.8919,
      "step": 2167
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9800882087354322,
      "learning_rate": 8.478275985572346e-06,
      "loss": 0.7203,
      "step": 2168
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8518006395911135,
      "learning_rate": 8.476786413666346e-06,
      "loss": 0.7321,
      "step": 2169
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.45099790364226,
      "learning_rate": 8.475296244060454e-06,
      "loss": 0.8122,
      "step": 2170
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5499472704435373,
      "learning_rate": 8.473805477010848e-06,
      "loss": 0.754,
      "step": 2171
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.574423696579497,
      "learning_rate": 8.472314112773813e-06,
      "loss": 0.7818,
      "step": 2172
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2732579250237905,
      "learning_rate": 8.470822151605723e-06,
      "loss": 0.8881,
      "step": 2173
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.478661703918829,
      "learning_rate": 8.469329593763069e-06,
      "loss": 0.898,
      "step": 2174
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9583276971165873,
      "learning_rate": 8.467836439502439e-06,
      "loss": 0.6552,
      "step": 2175
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6482811674371998,
      "learning_rate": 8.46634268908052e-06,
      "loss": 0.934,
      "step": 2176
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.488851447014417,
      "learning_rate": 8.46484834275411e-06,
      "loss": 0.7633,
      "step": 2177
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.906124980102916,
      "learning_rate": 8.463353400780101e-06,
      "loss": 0.7941,
      "step": 2178
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.1738472212105484,
      "learning_rate": 8.461857863415493e-06,
      "loss": 0.8857,
      "step": 2179
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.7915476500163416,
      "learning_rate": 8.460361730917384e-06,
      "loss": 0.6682,
      "step": 2180
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9494035301923249,
      "learning_rate": 8.458865003542975e-06,
      "loss": 0.6985,
      "step": 2181
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5562511889538377,
      "learning_rate": 8.457367681549577e-06,
      "loss": 0.8184,
      "step": 2182
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8043217467182513,
      "learning_rate": 8.455869765194592e-06,
      "loss": 0.6933,
      "step": 2183
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4437263809266934,
      "learning_rate": 8.45437125473553e-06,
      "loss": 0.9042,
      "step": 2184
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.720967613565138,
      "learning_rate": 8.452872150430002e-06,
      "loss": 0.9306,
      "step": 2185
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6970312005409331,
      "learning_rate": 8.451372452535724e-06,
      "loss": 0.8582,
      "step": 2186
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.503655030974374,
      "learning_rate": 8.44987216131051e-06,
      "loss": 0.8369,
      "step": 2187
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6639963567058413,
      "learning_rate": 8.448371277012275e-06,
      "loss": 0.8701,
      "step": 2188
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4170624365816202,
      "learning_rate": 8.446869799899042e-06,
      "loss": 0.9071,
      "step": 2189
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4099540529957677,
      "learning_rate": 8.44536773022893e-06,
      "loss": 0.7514,
      "step": 2190
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.9233464179689996,
      "learning_rate": 8.443865068260164e-06,
      "loss": 0.8769,
      "step": 2191
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8875208317096066,
      "learning_rate": 8.442361814251069e-06,
      "loss": 0.9275,
      "step": 2192
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8814502868805587,
      "learning_rate": 8.440857968460068e-06,
      "loss": 0.8164,
      "step": 2193
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6944208311635287,
      "learning_rate": 8.439353531145695e-06,
      "loss": 0.9763,
      "step": 2194
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9788141460414294,
      "learning_rate": 8.437848502566576e-06,
      "loss": 0.6732,
      "step": 2195
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9397551536408282,
      "learning_rate": 8.436342882981445e-06,
      "loss": 0.7385,
      "step": 2196
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5397921939379122,
      "learning_rate": 8.434836672649134e-06,
      "loss": 0.7346,
      "step": 2197
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8598148978426349,
      "learning_rate": 8.433329871828582e-06,
      "loss": 0.617,
      "step": 2198
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.705200842575841,
      "learning_rate": 8.431822480778818e-06,
      "loss": 0.8933,
      "step": 2199
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.577558120591337,
      "learning_rate": 8.430314499758986e-06,
      "loss": 0.854,
      "step": 2200
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.604199651366395,
      "learning_rate": 8.428805929028327e-06,
      "loss": 0.903,
      "step": 2201
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8283523525343763,
      "learning_rate": 8.427296768846176e-06,
      "loss": 0.6835,
      "step": 2202
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3540330028812213,
      "learning_rate": 8.425787019471979e-06,
      "loss": 0.7323,
      "step": 2203
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8714571587114366,
      "learning_rate": 8.424276681165276e-06,
      "loss": 0.7485,
      "step": 2204
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4972551125305347,
      "learning_rate": 8.422765754185716e-06,
      "loss": 0.851,
      "step": 2205
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4119486853959275,
      "learning_rate": 8.421254238793041e-06,
      "loss": 0.8628,
      "step": 2206
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6480971415723213,
      "learning_rate": 8.419742135247099e-06,
      "loss": 0.7422,
      "step": 2207
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8697333643566971,
      "learning_rate": 8.418229443807842e-06,
      "loss": 0.7991,
      "step": 2208
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.483185701049151,
      "learning_rate": 8.416716164735315e-06,
      "loss": 0.9611,
      "step": 2209
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8582378978683013,
      "learning_rate": 8.415202298289668e-06,
      "loss": 0.6167,
      "step": 2210
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.571294520556443,
      "learning_rate": 8.413687844731155e-06,
      "loss": 0.7833,
      "step": 2211
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9442296867051043,
      "learning_rate": 8.412172804320127e-06,
      "loss": 0.6278,
      "step": 2212
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3030316507414772,
      "learning_rate": 8.410657177317035e-06,
      "loss": 0.7032,
      "step": 2213
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5784251364494521,
      "learning_rate": 8.409140963982436e-06,
      "loss": 0.8781,
      "step": 2214
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.593267454392134,
      "learning_rate": 8.407624164576982e-06,
      "loss": 0.8154,
      "step": 2215
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.442560190245378,
      "learning_rate": 8.406106779361429e-06,
      "loss": 0.7941,
      "step": 2216
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6017227291706664,
      "learning_rate": 8.404588808596635e-06,
      "loss": 0.9201,
      "step": 2217
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6918392402034055,
      "learning_rate": 8.403070252543555e-06,
      "loss": 0.7635,
      "step": 2218
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3514244651179512,
      "learning_rate": 8.401551111463246e-06,
      "loss": 0.802,
      "step": 2219
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5555740777717664,
      "learning_rate": 8.400031385616868e-06,
      "loss": 0.8181,
      "step": 2220
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4240860525255532,
      "learning_rate": 8.398511075265677e-06,
      "loss": 0.9018,
      "step": 2221
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.7839156785230237,
      "learning_rate": 8.396990180671034e-06,
      "loss": 0.8865,
      "step": 2222
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.560720702509598,
      "learning_rate": 8.395468702094399e-06,
      "loss": 0.7935,
      "step": 2223
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.8369447157990004,
      "learning_rate": 8.393946639797328e-06,
      "loss": 0.9009,
      "step": 2224
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5462141093326456,
      "learning_rate": 8.392423994041486e-06,
      "loss": 0.8795,
      "step": 2225
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5532238354611667,
      "learning_rate": 8.39090076508863e-06,
      "loss": 0.9167,
      "step": 2226
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.740862184472213,
      "learning_rate": 8.389376953200622e-06,
      "loss": 0.812,
      "step": 2227
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.286923870536665,
      "learning_rate": 8.387852558639422e-06,
      "loss": 0.8138,
      "step": 2228
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0165668252260724,
      "learning_rate": 8.386327581667091e-06,
      "loss": 0.8332,
      "step": 2229
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5425636152326214,
      "learning_rate": 8.384802022545793e-06,
      "loss": 1.0148,
      "step": 2230
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4786611015104987,
      "learning_rate": 8.383275881537786e-06,
      "loss": 0.7897,
      "step": 2231
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9516472194481331,
      "learning_rate": 8.381749158905433e-06,
      "loss": 0.7636,
      "step": 2232
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4189418447286033,
      "learning_rate": 8.380221854911195e-06,
      "loss": 0.7958,
      "step": 2233
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5331766402983011,
      "learning_rate": 8.378693969817633e-06,
      "loss": 0.7784,
      "step": 2234
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4415167316500737,
      "learning_rate": 8.37716550388741e-06,
      "loss": 0.7669,
      "step": 2235
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.458256562603973,
      "learning_rate": 8.375636457383282e-06,
      "loss": 0.819,
      "step": 2236
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4649979084283458,
      "learning_rate": 8.374106830568117e-06,
      "loss": 0.7859,
      "step": 2237
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.766101482356468,
      "learning_rate": 8.372576623704872e-06,
      "loss": 0.8617,
      "step": 2238
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3456388793212946,
      "learning_rate": 8.371045837056603e-06,
      "loss": 0.856,
      "step": 2239
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.419731910304027,
      "learning_rate": 8.369514470886478e-06,
      "loss": 0.8578,
      "step": 2240
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.857536388554001,
      "learning_rate": 8.36798252545775e-06,
      "loss": 0.8513,
      "step": 2241
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6128310354252362,
      "learning_rate": 8.366450001033784e-06,
      "loss": 0.8086,
      "step": 2242
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7022563191488556,
      "learning_rate": 8.364916897878033e-06,
      "loss": 0.9184,
      "step": 2243
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4808568404478193,
      "learning_rate": 8.363383216254058e-06,
      "loss": 0.761,
      "step": 2244
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3372665506745547,
      "learning_rate": 8.361848956425516e-06,
      "loss": 0.9183,
      "step": 2245
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5577780450389416,
      "learning_rate": 8.360314118656165e-06,
      "loss": 0.882,
      "step": 2246
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7409223910440526,
      "learning_rate": 8.358778703209862e-06,
      "loss": 0.8886,
      "step": 2247
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7763688213642014,
      "learning_rate": 8.357242710350561e-06,
      "loss": 0.6738,
      "step": 2248
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.053603629638142,
      "learning_rate": 8.355706140342317e-06,
      "loss": 0.9712,
      "step": 2249
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2479136281573553,
      "learning_rate": 8.354168993449285e-06,
      "loss": 0.7938,
      "step": 2250
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4851553604474086,
      "learning_rate": 8.352631269935719e-06,
      "loss": 0.8946,
      "step": 2251
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5571442488100458,
      "learning_rate": 8.35109297006597e-06,
      "loss": 0.8472,
      "step": 2252
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3922149272556499,
      "learning_rate": 8.349554094104491e-06,
      "loss": 0.8268,
      "step": 2253
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5829230719117144,
      "learning_rate": 8.348014642315831e-06,
      "loss": 0.8544,
      "step": 2254
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8863578482518845,
      "learning_rate": 8.346474614964642e-06,
      "loss": 0.677,
      "step": 2255
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7261177929402096,
      "learning_rate": 8.34493401231567e-06,
      "loss": 0.8538,
      "step": 2256
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6815425179831274,
      "learning_rate": 8.34339283463376e-06,
      "loss": 0.7871,
      "step": 2257
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4505733474206672,
      "learning_rate": 8.341851082183868e-06,
      "loss": 0.9705,
      "step": 2258
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4385679081188496,
      "learning_rate": 8.340308755231027e-06,
      "loss": 0.9082,
      "step": 2259
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.759226484385402,
      "learning_rate": 8.338765854040391e-06,
      "loss": 0.8113,
      "step": 2260
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7801020258460534,
      "learning_rate": 8.337222378877196e-06,
      "loss": 0.8464,
      "step": 2261
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3529319541353853,
      "learning_rate": 8.33567833000679e-06,
      "loss": 0.8159,
      "step": 2262
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.447240235787024,
      "learning_rate": 8.334133707694603e-06,
      "loss": 0.9347,
      "step": 2263
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4894760236098255,
      "learning_rate": 8.33258851220618e-06,
      "loss": 0.8469,
      "step": 2264
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9251946934202704,
      "learning_rate": 8.33104274380716e-06,
      "loss": 0.8873,
      "step": 2265
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5017111602753839,
      "learning_rate": 8.329496402763275e-06,
      "loss": 0.8088,
      "step": 2266
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8817782509201593,
      "learning_rate": 8.327949489340359e-06,
      "loss": 0.6985,
      "step": 2267
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7831918398112752,
      "learning_rate": 8.326402003804344e-06,
      "loss": 0.8744,
      "step": 2268
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7890867368826888,
      "learning_rate": 8.324853946421261e-06,
      "loss": 0.88,
      "step": 2269
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4111810433183978,
      "learning_rate": 8.323305317457241e-06,
      "loss": 0.7988,
      "step": 2270
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4137479804813868,
      "learning_rate": 8.32175611717851e-06,
      "loss": 0.7557,
      "step": 2271
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3482800302108795,
      "learning_rate": 8.320206345851393e-06,
      "loss": 0.8469,
      "step": 2272
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4904317296462866,
      "learning_rate": 8.318656003742314e-06,
      "loss": 0.7998,
      "step": 2273
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4332614959768646,
      "learning_rate": 8.317105091117795e-06,
      "loss": 0.7653,
      "step": 2274
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.468460649639113,
      "learning_rate": 8.315553608244453e-06,
      "loss": 0.9144,
      "step": 2275
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8391640126950158,
      "learning_rate": 8.314001555389014e-06,
      "loss": 0.6557,
      "step": 2276
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5127846131029603,
      "learning_rate": 8.312448932818284e-06,
      "loss": 0.8165,
      "step": 2277
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.4352426882170084,
      "learning_rate": 8.310895740799181e-06,
      "loss": 0.8303,
      "step": 2278
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.546267393382236,
      "learning_rate": 8.30934197959872e-06,
      "loss": 0.7242,
      "step": 2279
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5783844611511086,
      "learning_rate": 8.307787649484005e-06,
      "loss": 0.8547,
      "step": 2280
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4112826022104041,
      "learning_rate": 8.306232750722248e-06,
      "loss": 0.7813,
      "step": 2281
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6124774071467647,
      "learning_rate": 8.30467728358075e-06,
      "loss": 0.7932,
      "step": 2282
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4641846875266116,
      "learning_rate": 8.303121248326917e-06,
      "loss": 0.7872,
      "step": 2283
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2416169704812143,
      "learning_rate": 8.301564645228249e-06,
      "loss": 0.8185,
      "step": 2284
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3407920449325348,
      "learning_rate": 8.300007474552343e-06,
      "loss": 0.8352,
      "step": 2285
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5415256683182204,
      "learning_rate": 8.298449736566894e-06,
      "loss": 0.8646,
      "step": 2286
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8805258337219404,
      "learning_rate": 8.296891431539696e-06,
      "loss": 0.6064,
      "step": 2287
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.364800410784384,
      "learning_rate": 8.29533255973864e-06,
      "loss": 0.826,
      "step": 2288
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.519251716173342,
      "learning_rate": 8.293773121431717e-06,
      "loss": 0.8422,
      "step": 2289
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3904463275448762,
      "learning_rate": 8.292213116887008e-06,
      "loss": 0.7877,
      "step": 2290
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.485835219902574,
      "learning_rate": 8.290652546372698e-06,
      "loss": 0.8904,
      "step": 2291
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.670406212585795,
      "learning_rate": 8.289091410157067e-06,
      "loss": 0.8118,
      "step": 2292
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5026174923220086,
      "learning_rate": 8.28752970850849e-06,
      "loss": 0.8867,
      "step": 2293
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4182899596564298,
      "learning_rate": 8.285967441695445e-06,
      "loss": 0.8259,
      "step": 2294
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5734294251262297,
      "learning_rate": 8.284404609986505e-06,
      "loss": 0.88,
      "step": 2295
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3180455104312214,
      "learning_rate": 8.282841213650334e-06,
      "loss": 0.8312,
      "step": 2296
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.505007022264162,
      "learning_rate": 8.281277252955699e-06,
      "loss": 0.8375,
      "step": 2297
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5502300332707228,
      "learning_rate": 8.279712728171468e-06,
      "loss": 0.8713,
      "step": 2298
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5592746833419113,
      "learning_rate": 8.278147639566596e-06,
      "loss": 0.8133,
      "step": 2299
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5448227467454216,
      "learning_rate": 8.27658198741014e-06,
      "loss": 0.8286,
      "step": 2300
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.8220443386034522,
      "learning_rate": 8.275015771971255e-06,
      "loss": 0.7595,
      "step": 2301
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4889452727802024,
      "learning_rate": 8.273448993519194e-06,
      "loss": 0.8244,
      "step": 2302
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.5893957908626557,
      "learning_rate": 8.2718816523233e-06,
      "loss": 0.8519,
      "step": 2303
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9188363060336796,
      "learning_rate": 8.270313748653018e-06,
      "loss": 0.7276,
      "step": 2304
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8917707143755091,
      "learning_rate": 8.268745282777893e-06,
      "loss": 0.6292,
      "step": 2305
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.388978197915459,
      "learning_rate": 8.267176254967556e-06,
      "loss": 0.8883,
      "step": 2306
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.553428724535308,
      "learning_rate": 8.265606665491746e-06,
      "loss": 0.9159,
      "step": 2307
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3687278312981557,
      "learning_rate": 8.264036514620292e-06,
      "loss": 0.9654,
      "step": 2308
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3798653136617693,
      "learning_rate": 8.262465802623122e-06,
      "loss": 0.8799,
      "step": 2309
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4417343994218037,
      "learning_rate": 8.260894529770258e-06,
      "loss": 0.862,
      "step": 2310
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.388991045611181,
      "learning_rate": 8.25932269633182e-06,
      "loss": 0.822,
      "step": 2311
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4399233987169089,
      "learning_rate": 8.257750302578027e-06,
      "loss": 0.8374,
      "step": 2312
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4333262051995073,
      "learning_rate": 8.256177348779188e-06,
      "loss": 0.8444,
      "step": 2313
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4401339774926758,
      "learning_rate": 8.254603835205715e-06,
      "loss": 0.9069,
      "step": 2314
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.584999289225178,
      "learning_rate": 8.253029762128111e-06,
      "loss": 0.8349,
      "step": 2315
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8879880871773426,
      "learning_rate": 8.25145512981698e-06,
      "loss": 0.6651,
      "step": 2316
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.349669161304973,
      "learning_rate": 8.249879938543017e-06,
      "loss": 0.8674,
      "step": 2317
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.990055344943468,
      "learning_rate": 8.248304188577018e-06,
      "loss": 0.811,
      "step": 2318
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.556730610670232,
      "learning_rate": 8.24672788018987e-06,
      "loss": 0.8224,
      "step": 2319
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5630878348347288,
      "learning_rate": 8.245151013652561e-06,
      "loss": 0.8571,
      "step": 2320
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.644469294824537,
      "learning_rate": 8.24357358923617e-06,
      "loss": 0.9051,
      "step": 2321
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6128056065087397,
      "learning_rate": 8.241995607211878e-06,
      "loss": 0.9225,
      "step": 2322
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4245745821106326,
      "learning_rate": 8.240417067850957e-06,
      "loss": 0.8402,
      "step": 2323
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4025706706901928,
      "learning_rate": 8.238837971424776e-06,
      "loss": 0.8841,
      "step": 2324
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6251809793136833,
      "learning_rate": 8.2372583182048e-06,
      "loss": 0.8466,
      "step": 2325
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.400067920884788,
      "learning_rate": 8.235678108462589e-06,
      "loss": 0.9997,
      "step": 2326
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2876203867510452,
      "learning_rate": 8.2340973424698e-06,
      "loss": 0.7181,
      "step": 2327
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6086485416464444,
      "learning_rate": 8.232516020498184e-06,
      "loss": 0.7736,
      "step": 2328
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8514027652653688,
      "learning_rate": 8.230934142819588e-06,
      "loss": 0.6497,
      "step": 2329
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.902369266734045,
      "learning_rate": 8.229351709705961e-06,
      "loss": 0.8085,
      "step": 2330
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4177634241934665,
      "learning_rate": 8.227768721429334e-06,
      "loss": 0.8391,
      "step": 2331
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.451297342972801,
      "learning_rate": 8.226185178261846e-06,
      "loss": 0.914,
      "step": 2332
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4137036904524507,
      "learning_rate": 8.224601080475723e-06,
      "loss": 0.7882,
      "step": 2333
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3829091982497266,
      "learning_rate": 8.223016428343294e-06,
      "loss": 0.8021,
      "step": 2334
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5405473589151877,
      "learning_rate": 8.221431222136976e-06,
      "loss": 0.8733,
      "step": 2335
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.544967714032941,
      "learning_rate": 8.219845462129284e-06,
      "loss": 0.7,
      "step": 2336
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4311888455474069,
      "learning_rate": 8.218259148592828e-06,
      "loss": 0.8944,
      "step": 2337
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3875358885928788,
      "learning_rate": 8.216672281800317e-06,
      "loss": 0.7123,
      "step": 2338
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.6195946004044446,
      "learning_rate": 8.21508486202455e-06,
      "loss": 0.7483,
      "step": 2339
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9279107520536466,
      "learning_rate": 8.213496889538422e-06,
      "loss": 0.6164,
      "step": 2340
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4309650271980163,
      "learning_rate": 8.211908364614924e-06,
      "loss": 0.7804,
      "step": 2341
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5059501995867566,
      "learning_rate": 8.210319287527143e-06,
      "loss": 0.7877,
      "step": 2342
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.86120607378529,
      "learning_rate": 8.20872965854826e-06,
      "loss": 0.6451,
      "step": 2343
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6176867270068576,
      "learning_rate": 8.207139477951549e-06,
      "loss": 0.9317,
      "step": 2344
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4824374469204038,
      "learning_rate": 8.205548746010383e-06,
      "loss": 0.8152,
      "step": 2345
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3298258753318246,
      "learning_rate": 8.203957462998225e-06,
      "loss": 0.8609,
      "step": 2346
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6666405668152964,
      "learning_rate": 8.202365629188634e-06,
      "loss": 0.8338,
      "step": 2347
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.918162010283041,
      "learning_rate": 8.200773244855267e-06,
      "loss": 0.6608,
      "step": 2348
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4904416821354294,
      "learning_rate": 8.199180310271873e-06,
      "loss": 0.8477,
      "step": 2349
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.79730206266422,
      "learning_rate": 8.197586825712295e-06,
      "loss": 0.8036,
      "step": 2350
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2822762686069311,
      "learning_rate": 8.195992791450475e-06,
      "loss": 0.8717,
      "step": 2351
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4153615518378773,
      "learning_rate": 8.19439820776044e-06,
      "loss": 0.8358,
      "step": 2352
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2291737170421675,
      "learning_rate": 8.19280307491632e-06,
      "loss": 0.8264,
      "step": 2353
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.426281820613182,
      "learning_rate": 8.19120739319234e-06,
      "loss": 0.8292,
      "step": 2354
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.545370116131614,
      "learning_rate": 8.189611162862811e-06,
      "loss": 0.7821,
      "step": 2355
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4789954652031143,
      "learning_rate": 8.188014384202148e-06,
      "loss": 0.8877,
      "step": 2356
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6844233867506888,
      "learning_rate": 8.186417057484851e-06,
      "loss": 0.9081,
      "step": 2357
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9350193363832675,
      "learning_rate": 8.184819182985524e-06,
      "loss": 1.005,
      "step": 2358
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.558100908071594,
      "learning_rate": 8.183220760978858e-06,
      "loss": 0.8502,
      "step": 2359
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.530518609643568,
      "learning_rate": 8.18162179173964e-06,
      "loss": 0.7766,
      "step": 2360
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.474078153666751,
      "learning_rate": 8.18002227554275e-06,
      "loss": 0.7985,
      "step": 2361
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6553114751579092,
      "learning_rate": 8.178422212663166e-06,
      "loss": 0.8201,
      "step": 2362
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.257288053082423,
      "learning_rate": 8.176821603375955e-06,
      "loss": 0.8036,
      "step": 2363
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5479061944760313,
      "learning_rate": 8.175220447956282e-06,
      "loss": 0.8677,
      "step": 2364
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6649915096699204,
      "learning_rate": 8.173618746679406e-06,
      "loss": 0.8204,
      "step": 2365
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5295311648670584,
      "learning_rate": 8.172016499820672e-06,
      "loss": 0.7771,
      "step": 2366
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.350249996759894,
      "learning_rate": 8.170413707655532e-06,
      "loss": 0.7709,
      "step": 2367
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6530299785244151,
      "learning_rate": 8.168810370459519e-06,
      "loss": 0.748,
      "step": 2368
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.8256791796103307,
      "learning_rate": 8.167206488508268e-06,
      "loss": 0.8925,
      "step": 2369
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3954669064179779,
      "learning_rate": 8.165602062077502e-06,
      "loss": 0.7265,
      "step": 2370
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5807135657086833,
      "learning_rate": 8.163997091443046e-06,
      "loss": 0.8323,
      "step": 2371
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3568848272223233,
      "learning_rate": 8.162391576880808e-06,
      "loss": 0.7772,
      "step": 2372
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8634208129035199,
      "learning_rate": 8.160785518666795e-06,
      "loss": 0.6097,
      "step": 2373
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4058513290480115,
      "learning_rate": 8.159178917077112e-06,
      "loss": 0.7241,
      "step": 2374
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4889670471653986,
      "learning_rate": 8.157571772387947e-06,
      "loss": 0.8214,
      "step": 2375
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.9474655006016128,
      "learning_rate": 8.155964084875587e-06,
      "loss": 0.852,
      "step": 2376
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4243856215248447,
      "learning_rate": 8.154355854816416e-06,
      "loss": 0.7878,
      "step": 2377
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3139814524119315,
      "learning_rate": 8.152747082486905e-06,
      "loss": 0.8607,
      "step": 2378
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.361457478910048,
      "learning_rate": 8.15113776816362e-06,
      "loss": 0.8393,
      "step": 2379
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.535169855407706,
      "learning_rate": 8.14952791212322e-06,
      "loss": 0.9617,
      "step": 2380
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1108009245346486,
      "learning_rate": 8.147917514642462e-06,
      "loss": 0.8763,
      "step": 2381
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3312998541748802,
      "learning_rate": 8.146306575998188e-06,
      "loss": 0.7683,
      "step": 2382
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4913417559662032,
      "learning_rate": 8.14469509646734e-06,
      "loss": 0.7429,
      "step": 2383
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.474329945977221,
      "learning_rate": 8.143083076326947e-06,
      "loss": 0.7088,
      "step": 2384
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4904967913782934,
      "learning_rate": 8.141470515854137e-06,
      "loss": 0.8613,
      "step": 2385
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4119335359095193,
      "learning_rate": 8.139857415326125e-06,
      "loss": 0.8242,
      "step": 2386
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6018403689169662,
      "learning_rate": 8.138243775020222e-06,
      "loss": 0.8651,
      "step": 2387
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4327395894730561,
      "learning_rate": 8.136629595213834e-06,
      "loss": 0.8722,
      "step": 2388
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.596419287879371,
      "learning_rate": 8.135014876184454e-06,
      "loss": 0.8254,
      "step": 2389
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7778114087424652,
      "learning_rate": 8.133399618209675e-06,
      "loss": 0.8485,
      "step": 2390
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6025089834092805,
      "learning_rate": 8.131783821567175e-06,
      "loss": 0.9256,
      "step": 2391
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2781813196062632,
      "learning_rate": 8.13016748653473e-06,
      "loss": 0.8739,
      "step": 2392
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8209475416831455,
      "learning_rate": 8.128550613390205e-06,
      "loss": 0.6761,
      "step": 2393
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5745479595620275,
      "learning_rate": 8.12693320241156e-06,
      "loss": 0.8009,
      "step": 2394
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5187201362252927,
      "learning_rate": 8.12531525387685e-06,
      "loss": 0.8785,
      "step": 2395
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4601452342304289,
      "learning_rate": 8.123696768064212e-06,
      "loss": 0.8852,
      "step": 2396
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4656858632476952,
      "learning_rate": 8.122077745251888e-06,
      "loss": 0.8738,
      "step": 2397
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9062679575030318,
      "learning_rate": 8.120458185718206e-06,
      "loss": 0.6622,
      "step": 2398
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6362729960013158,
      "learning_rate": 8.118838089741585e-06,
      "loss": 0.7928,
      "step": 2399
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3651676487939401,
      "learning_rate": 8.117217457600541e-06,
      "loss": 0.9363,
      "step": 2400
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9251965254380854,
      "learning_rate": 8.11559628957368e-06,
      "loss": 0.6665,
      "step": 2401
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6692507968090495,
      "learning_rate": 8.113974585939694e-06,
      "loss": 0.7107,
      "step": 2402
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5622113257401364,
      "learning_rate": 8.112352346977378e-06,
      "loss": 0.8845,
      "step": 2403
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6179763445134796,
      "learning_rate": 8.110729572965613e-06,
      "loss": 0.9111,
      "step": 2404
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7730993442919839,
      "learning_rate": 8.109106264183369e-06,
      "loss": 0.6469,
      "step": 2405
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.516685423735154,
      "learning_rate": 8.107482420909719e-06,
      "loss": 0.9587,
      "step": 2406
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4221326001193821,
      "learning_rate": 8.105858043423811e-06,
      "loss": 0.8969,
      "step": 2407
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.767664387918717,
      "learning_rate": 8.104233132004902e-06,
      "loss": 0.6626,
      "step": 2408
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4762508507010723,
      "learning_rate": 8.10260768693233e-06,
      "loss": 0.7858,
      "step": 2409
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.801994374335898,
      "learning_rate": 8.100981708485527e-06,
      "loss": 0.7786,
      "step": 2410
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.677287822731108,
      "learning_rate": 8.09935519694402e-06,
      "loss": 0.7973,
      "step": 2411
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5796066308570824,
      "learning_rate": 8.09772815258742e-06,
      "loss": 0.8447,
      "step": 2412
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.489780839683244,
      "learning_rate": 8.096100575695443e-06,
      "loss": 0.8581,
      "step": 2413
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8311181230775198,
      "learning_rate": 8.094472466547882e-06,
      "loss": 0.6884,
      "step": 2414
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5441227274962956,
      "learning_rate": 8.09284382542463e-06,
      "loss": 0.9402,
      "step": 2415
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6658846182461187,
      "learning_rate": 8.09121465260567e-06,
      "loss": 0.8045,
      "step": 2416
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5002518922861747,
      "learning_rate": 8.089584948371074e-06,
      "loss": 0.8422,
      "step": 2417
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2560121039460286,
      "learning_rate": 8.087954713001007e-06,
      "loss": 0.7597,
      "step": 2418
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.8362878491455468,
      "learning_rate": 8.086323946775727e-06,
      "loss": 0.7227,
      "step": 2419
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2625932133444717,
      "learning_rate": 8.084692649975583e-06,
      "loss": 0.868,
      "step": 2420
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.8359865909569066,
      "learning_rate": 8.083060822881008e-06,
      "loss": 0.8048,
      "step": 2421
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.486026742233607,
      "learning_rate": 8.081428465772539e-06,
      "loss": 0.7991,
      "step": 2422
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3200341910351223,
      "learning_rate": 8.079795578930792e-06,
      "loss": 0.8877,
      "step": 2423
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3912168571694792,
      "learning_rate": 8.07816216263648e-06,
      "loss": 0.8567,
      "step": 2424
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5800343916576607,
      "learning_rate": 8.076528217170408e-06,
      "loss": 0.8359,
      "step": 2425
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.47331989611217,
      "learning_rate": 8.07489374281347e-06,
      "loss": 0.8732,
      "step": 2426
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2840424248611013,
      "learning_rate": 8.07325873984665e-06,
      "loss": 0.7655,
      "step": 2427
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2793756719497151,
      "learning_rate": 8.071623208551023e-06,
      "loss": 0.7896,
      "step": 2428
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4599153154056634,
      "learning_rate": 8.069987149207759e-06,
      "loss": 0.8673,
      "step": 2429
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4122552878004944,
      "learning_rate": 8.068350562098113e-06,
      "loss": 0.9649,
      "step": 2430
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4966187150483259,
      "learning_rate": 8.066713447503434e-06,
      "loss": 0.8465,
      "step": 2431
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4638791180400672,
      "learning_rate": 8.065075805705161e-06,
      "loss": 0.831,
      "step": 2432
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2419751688149634,
      "learning_rate": 8.063437636984824e-06,
      "loss": 0.8917,
      "step": 2433
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6425914052699584,
      "learning_rate": 8.061798941624041e-06,
      "loss": 0.9501,
      "step": 2434
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3882740636151751,
      "learning_rate": 8.060159719904526e-06,
      "loss": 0.7808,
      "step": 2435
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4646128297598635,
      "learning_rate": 8.058519972108078e-06,
      "loss": 0.8897,
      "step": 2436
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4044440107764224,
      "learning_rate": 8.05687969851659e-06,
      "loss": 0.8464,
      "step": 2437
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5428596907298855,
      "learning_rate": 8.055238899412046e-06,
      "loss": 0.8441,
      "step": 2438
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.593509692689468,
      "learning_rate": 8.053597575076513e-06,
      "loss": 0.7891,
      "step": 2439
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4392013043164225,
      "learning_rate": 8.051955725792155e-06,
      "loss": 0.8316,
      "step": 2440
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.300520866473046,
      "learning_rate": 8.050313351841229e-06,
      "loss": 0.8598,
      "step": 2441
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8623575367174094,
      "learning_rate": 8.048670453506074e-06,
      "loss": 0.6948,
      "step": 2442
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7133263043004996,
      "learning_rate": 8.047027031069126e-06,
      "loss": 0.7943,
      "step": 2443
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2764084952415737,
      "learning_rate": 8.045383084812907e-06,
      "loss": 0.7898,
      "step": 2444
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4677604659714183,
      "learning_rate": 8.04373861502003e-06,
      "loss": 0.9444,
      "step": 2445
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5952081125628381,
      "learning_rate": 8.0420936219732e-06,
      "loss": 0.7902,
      "step": 2446
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.4776552810877495,
      "learning_rate": 8.040448105955209e-06,
      "loss": 0.9237,
      "step": 2447
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5300042812166204,
      "learning_rate": 8.03880206724894e-06,
      "loss": 0.8256,
      "step": 2448
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3760050849624823,
      "learning_rate": 8.037155506137367e-06,
      "loss": 0.6997,
      "step": 2449
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8458487025715766,
      "learning_rate": 8.035508422903554e-06,
      "loss": 0.6222,
      "step": 2450
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7092127024271844,
      "learning_rate": 8.033860817830651e-06,
      "loss": 0.8917,
      "step": 2451
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8589050580331853,
      "learning_rate": 8.0322126912019e-06,
      "loss": 0.6395,
      "step": 2452
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3902575928509413,
      "learning_rate": 8.03056404330064e-06,
      "loss": 0.8911,
      "step": 2453
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.7451287143634389,
      "learning_rate": 8.028914874410284e-06,
      "loss": 0.8704,
      "step": 2454
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3587333237801191,
      "learning_rate": 8.027265184814349e-06,
      "loss": 0.84,
      "step": 2455
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.8701316932851707,
      "learning_rate": 8.025614974796432e-06,
      "loss": 0.7397,
      "step": 2456
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3687349784999743,
      "learning_rate": 8.023964244640225e-06,
      "loss": 0.6455,
      "step": 2457
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.626245347830341,
      "learning_rate": 8.022312994629508e-06,
      "loss": 0.8419,
      "step": 2458
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4016672701883324,
      "learning_rate": 8.020661225048149e-06,
      "loss": 0.7851,
      "step": 2459
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.492496762167656,
      "learning_rate": 8.019008936180108e-06,
      "loss": 0.8946,
      "step": 2460
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8625680045660253,
      "learning_rate": 8.017356128309432e-06,
      "loss": 0.6991,
      "step": 2461
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4234007891709521,
      "learning_rate": 8.015702801720255e-06,
      "loss": 0.8825,
      "step": 2462
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5421806812976975,
      "learning_rate": 8.014048956696807e-06,
      "loss": 0.8114,
      "step": 2463
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7258021479689752,
      "learning_rate": 8.012394593523403e-06,
      "loss": 0.5979,
      "step": 2464
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.348452546751104,
      "learning_rate": 8.010739712484443e-06,
      "loss": 0.7849,
      "step": 2465
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.562751132066771,
      "learning_rate": 8.009084313864424e-06,
      "loss": 0.8602,
      "step": 2466
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3495603459882166,
      "learning_rate": 8.007428397947926e-06,
      "loss": 0.8498,
      "step": 2467
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.380053853224513,
      "learning_rate": 8.005771965019622e-06,
      "loss": 0.7713,
      "step": 2468
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3553736396554221,
      "learning_rate": 8.004115015364273e-06,
      "loss": 0.8851,
      "step": 2469
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.752753283121944,
      "learning_rate": 8.002457549266725e-06,
      "loss": 0.6324,
      "step": 2470
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.710142014940653,
      "learning_rate": 8.000799567011916e-06,
      "loss": 0.8397,
      "step": 2471
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.621662147646683,
      "learning_rate": 7.999141068884873e-06,
      "loss": 0.777,
      "step": 2472
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4791673795911575,
      "learning_rate": 7.997482055170712e-06,
      "loss": 0.8074,
      "step": 2473
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5400438682100757,
      "learning_rate": 7.995822526154636e-06,
      "loss": 0.7413,
      "step": 2474
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6487901331505852,
      "learning_rate": 7.994162482121936e-06,
      "loss": 0.8604,
      "step": 2475
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3322444717195074,
      "learning_rate": 7.992501923357996e-06,
      "loss": 0.7863,
      "step": 2476
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3291626964139955,
      "learning_rate": 7.990840850148283e-06,
      "loss": 0.8262,
      "step": 2477
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.285264137012107,
      "learning_rate": 7.989179262778356e-06,
      "loss": 0.7498,
      "step": 2478
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7697501049229438,
      "learning_rate": 7.987517161533858e-06,
      "loss": 0.921,
      "step": 2479
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4744444490715414,
      "learning_rate": 7.985854546700526e-06,
      "loss": 0.9685,
      "step": 2480
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.525035225828865,
      "learning_rate": 7.984191418564183e-06,
      "loss": 0.7817,
      "step": 2481
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7735794195216555,
      "learning_rate": 7.982527777410738e-06,
      "loss": 0.6658,
      "step": 2482
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3710077045675115,
      "learning_rate": 7.980863623526195e-06,
      "loss": 0.895,
      "step": 2483
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8046232756767165,
      "learning_rate": 7.979198957196634e-06,
      "loss": 0.7305,
      "step": 2484
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.368831767491092,
      "learning_rate": 7.977533778708237e-06,
      "loss": 0.8574,
      "step": 2485
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.223493763753696,
      "learning_rate": 7.975868088347263e-06,
      "loss": 0.8139,
      "step": 2486
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5457980369839794,
      "learning_rate": 7.974201886400066e-06,
      "loss": 0.798,
      "step": 2487
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8314642235935604,
      "learning_rate": 7.972535173153087e-06,
      "loss": 0.662,
      "step": 2488
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.523337665312362,
      "learning_rate": 7.970867948892849e-06,
      "loss": 0.802,
      "step": 2489
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4394005231431808,
      "learning_rate": 7.96920021390597e-06,
      "loss": 0.8895,
      "step": 2490
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8165572811695119,
      "learning_rate": 7.967531968479152e-06,
      "loss": 0.6483,
      "step": 2491
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3797105556542795,
      "learning_rate": 7.965863212899185e-06,
      "loss": 0.8765,
      "step": 2492
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.298953574074564,
      "learning_rate": 7.96419394745295e-06,
      "loss": 0.722,
      "step": 2493
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.343911350288765,
      "learning_rate": 7.962524172427412e-06,
      "loss": 0.7089,
      "step": 2494
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2801105612640444,
      "learning_rate": 7.960853888109624e-06,
      "loss": 0.7404,
      "step": 2495
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5480341205852677,
      "learning_rate": 7.959183094786726e-06,
      "loss": 0.8374,
      "step": 2496
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.995431196525673,
      "learning_rate": 7.957511792745948e-06,
      "loss": 0.6591,
      "step": 2497
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4689425228343662,
      "learning_rate": 7.955839982274608e-06,
      "loss": 0.7635,
      "step": 2498
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.662035528936465,
      "learning_rate": 7.954167663660108e-06,
      "loss": 0.9524,
      "step": 2499
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.51697238883023,
      "learning_rate": 7.952494837189937e-06,
      "loss": 0.9201,
      "step": 2500
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.431918100008319,
      "learning_rate": 7.950821503151678e-06,
      "loss": 0.6979,
      "step": 2501
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3985224268338399,
      "learning_rate": 7.949147661832992e-06,
      "loss": 0.8138,
      "step": 2502
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.355895016596216,
      "learning_rate": 7.947473313521635e-06,
      "loss": 0.7499,
      "step": 2503
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8920589361879832,
      "learning_rate": 7.945798458505442e-06,
      "loss": 0.719,
      "step": 2504
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.625920738318694,
      "learning_rate": 7.944123097072348e-06,
      "loss": 0.8671,
      "step": 2505
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9117284899031233,
      "learning_rate": 7.942447229510359e-06,
      "loss": 0.9518,
      "step": 2506
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5762314273032696,
      "learning_rate": 7.94077085610758e-06,
      "loss": 0.8005,
      "step": 2507
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.86846856714475,
      "learning_rate": 7.9390939771522e-06,
      "loss": 0.7068,
      "step": 2508
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3548488235816638,
      "learning_rate": 7.93741659293249e-06,
      "loss": 0.8543,
      "step": 2509
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4528695552379907,
      "learning_rate": 7.935738703736817e-06,
      "loss": 0.7835,
      "step": 2510
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.931398907013088,
      "learning_rate": 7.934060309853627e-06,
      "loss": 0.8341,
      "step": 2511
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.810564055293258,
      "learning_rate": 7.932381411571453e-06,
      "loss": 0.6957,
      "step": 2512
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8498494938049166,
      "learning_rate": 7.930702009178919e-06,
      "loss": 0.6529,
      "step": 2513
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.482017409790597,
      "learning_rate": 7.929022102964736e-06,
      "loss": 0.8957,
      "step": 2514
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4886811852790558,
      "learning_rate": 7.927341693217697e-06,
      "loss": 0.7629,
      "step": 2515
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3562350633753941,
      "learning_rate": 7.925660780226683e-06,
      "loss": 0.8749,
      "step": 2516
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4283462126068422,
      "learning_rate": 7.923979364280664e-06,
      "loss": 0.8239,
      "step": 2517
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.434708765984926,
      "learning_rate": 7.922297445668695e-06,
      "loss": 0.8326,
      "step": 2518
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7329508945455303,
      "learning_rate": 7.920615024679917e-06,
      "loss": 0.8554,
      "step": 2519
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8411913844505605,
      "learning_rate": 7.918932101603556e-06,
      "loss": 0.8446,
      "step": 2520
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7408166731470991,
      "learning_rate": 7.917248676728929e-06,
      "loss": 0.648,
      "step": 2521
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2733222533453754,
      "learning_rate": 7.915564750345436e-06,
      "loss": 0.7806,
      "step": 2522
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.288501703388992,
      "learning_rate": 7.91388032274256e-06,
      "loss": 0.7327,
      "step": 2523
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4725956288034852,
      "learning_rate": 7.912195394209877e-06,
      "loss": 0.7765,
      "step": 2524
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.781791812014227,
      "learning_rate": 7.910509965037045e-06,
      "loss": 0.742,
      "step": 2525
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.507155970932404,
      "learning_rate": 7.90882403551381e-06,
      "loss": 0.7815,
      "step": 2526
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.47218883631629,
      "learning_rate": 7.907137605929998e-06,
      "loss": 0.7974,
      "step": 2527
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6242821260585354,
      "learning_rate": 7.90545067657553e-06,
      "loss": 0.847,
      "step": 2528
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3330602647492955,
      "learning_rate": 7.903763247740407e-06,
      "loss": 0.7792,
      "step": 2529
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4448069688037,
      "learning_rate": 7.902075319714722e-06,
      "loss": 0.8136,
      "step": 2530
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9931556389497611,
      "learning_rate": 7.900386892788644e-06,
      "loss": 0.7023,
      "step": 2531
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.525395113851195,
      "learning_rate": 7.898697967252433e-06,
      "loss": 0.8622,
      "step": 2532
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8224461038553539,
      "learning_rate": 7.897008543396438e-06,
      "loss": 0.7373,
      "step": 2533
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.553176164914423,
      "learning_rate": 7.89531862151109e-06,
      "loss": 0.7818,
      "step": 2534
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8188431738226156,
      "learning_rate": 7.893628201886906e-06,
      "loss": 0.8392,
      "step": 2535
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.5746040665581618,
      "learning_rate": 7.891937284814489e-06,
      "loss": 0.7588,
      "step": 2536
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8147154947133722,
      "learning_rate": 7.890245870584523e-06,
      "loss": 0.691,
      "step": 2537
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.8565345999151934,
      "learning_rate": 7.888553959487788e-06,
      "loss": 0.7963,
      "step": 2538
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5675884327066232,
      "learning_rate": 7.886861551815139e-06,
      "loss": 0.8282,
      "step": 2539
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4914725071817083,
      "learning_rate": 7.885168647857523e-06,
      "loss": 0.8034,
      "step": 2540
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5333121537498318,
      "learning_rate": 7.88347524790597e-06,
      "loss": 0.8584,
      "step": 2541
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7073931886056561,
      "learning_rate": 7.881781352251591e-06,
      "loss": 0.9411,
      "step": 2542
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5068533436860374,
      "learning_rate": 7.88008696118559e-06,
      "loss": 0.8486,
      "step": 2543
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2903972398742285,
      "learning_rate": 7.878392074999252e-06,
      "loss": 0.8131,
      "step": 2544
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6494611622247366,
      "learning_rate": 7.876696693983947e-06,
      "loss": 0.842,
      "step": 2545
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.8703394366046904,
      "learning_rate": 7.875000818431132e-06,
      "loss": 0.882,
      "step": 2546
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.334969035735136,
      "learning_rate": 7.873304448632345e-06,
      "loss": 0.8468,
      "step": 2547
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8383076372828062,
      "learning_rate": 7.871607584879211e-06,
      "loss": 0.6537,
      "step": 2548
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7437295096248024,
      "learning_rate": 7.869910227463447e-06,
      "loss": 0.8736,
      "step": 2549
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1946995417927047,
      "learning_rate": 7.86821237667684e-06,
      "loss": 0.791,
      "step": 2550
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4380836021770356,
      "learning_rate": 7.866514032811276e-06,
      "loss": 0.8269,
      "step": 2551
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6539100148322319,
      "learning_rate": 7.864815196158718e-06,
      "loss": 0.7864,
      "step": 2552
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.214881162546284,
      "learning_rate": 7.863115867011217e-06,
      "loss": 0.7821,
      "step": 2553
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7969203391288036,
      "learning_rate": 7.861416045660906e-06,
      "loss": 0.8771,
      "step": 2554
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.534299711183934,
      "learning_rate": 7.859715732400004e-06,
      "loss": 0.7926,
      "step": 2555
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3824050634543064,
      "learning_rate": 7.858014927520815e-06,
      "loss": 0.8207,
      "step": 2556
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.428290319253428,
      "learning_rate": 7.856313631315726e-06,
      "loss": 0.9289,
      "step": 2557
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3668345356498848,
      "learning_rate": 7.854611844077213e-06,
      "loss": 0.8582,
      "step": 2558
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8594888482049735,
      "learning_rate": 7.852909566097828e-06,
      "loss": 0.6722,
      "step": 2559
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3713078747580867,
      "learning_rate": 7.851206797670217e-06,
      "loss": 0.978,
      "step": 2560
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.492743989099601,
      "learning_rate": 7.849503539087102e-06,
      "loss": 0.8801,
      "step": 2561
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4498847744639116,
      "learning_rate": 7.847799790641295e-06,
      "loss": 0.8322,
      "step": 2562
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5952633750855603,
      "learning_rate": 7.846095552625688e-06,
      "loss": 0.8973,
      "step": 2563
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2343106426127586,
      "learning_rate": 7.844390825333264e-06,
      "loss": 0.9086,
      "step": 2564
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.4374989820727846,
      "learning_rate": 7.842685609057078e-06,
      "loss": 0.9093,
      "step": 2565
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3446042338395616,
      "learning_rate": 7.840979904090282e-06,
      "loss": 0.871,
      "step": 2566
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3456862698749306,
      "learning_rate": 7.839273710726107e-06,
      "loss": 0.9796,
      "step": 2567
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.841875273760072,
      "learning_rate": 7.837567029257864e-06,
      "loss": 0.6733,
      "step": 2568
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3341066003460285,
      "learning_rate": 7.835859859978952e-06,
      "loss": 0.8011,
      "step": 2569
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6666827684960484,
      "learning_rate": 7.834152203182854e-06,
      "loss": 0.8564,
      "step": 2570
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4734535014189452,
      "learning_rate": 7.832444059163137e-06,
      "loss": 0.7737,
      "step": 2571
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8341279985514091,
      "learning_rate": 7.830735428213451e-06,
      "loss": 0.7068,
      "step": 2572
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.481661615680828,
      "learning_rate": 7.829026310627526e-06,
      "loss": 0.8453,
      "step": 2573
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.481060318849526,
      "learning_rate": 7.827316706699182e-06,
      "loss": 0.8188,
      "step": 2574
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.4433098517287104,
      "learning_rate": 7.825606616722319e-06,
      "loss": 0.8192,
      "step": 2575
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3215696519822104,
      "learning_rate": 7.823896040990922e-06,
      "loss": 0.8362,
      "step": 2576
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5168040007621857,
      "learning_rate": 7.822184979799057e-06,
      "loss": 0.7649,
      "step": 2577
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4592220043007191,
      "learning_rate": 7.820473433440876e-06,
      "loss": 0.8911,
      "step": 2578
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6576931044574754,
      "learning_rate": 7.818761402210616e-06,
      "loss": 0.9143,
      "step": 2579
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5257539561295008,
      "learning_rate": 7.817048886402591e-06,
      "loss": 0.7618,
      "step": 2580
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7249377270555049,
      "learning_rate": 7.815335886311205e-06,
      "loss": 0.7548,
      "step": 2581
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6929665381776833,
      "learning_rate": 7.813622402230943e-06,
      "loss": 0.7631,
      "step": 2582
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.0123468284654558,
      "learning_rate": 7.811908434456372e-06,
      "loss": 0.9052,
      "step": 2583
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3797246406876158,
      "learning_rate": 7.810193983282142e-06,
      "loss": 0.8402,
      "step": 2584
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4093055429710661,
      "learning_rate": 7.808479049002988e-06,
      "loss": 0.8593,
      "step": 2585
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5094868030302981,
      "learning_rate": 7.806763631913726e-06,
      "loss": 0.9206,
      "step": 2586
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4063440457988614,
      "learning_rate": 7.805047732309257e-06,
      "loss": 0.7573,
      "step": 2587
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3646399202178743,
      "learning_rate": 7.803331350484563e-06,
      "loss": 0.7955,
      "step": 2588
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.40035745900753,
      "learning_rate": 7.801614486734712e-06,
      "loss": 0.6967,
      "step": 2589
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6511681771186304,
      "learning_rate": 7.799897141354854e-06,
      "loss": 0.8809,
      "step": 2590
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4768120469221773,
      "learning_rate": 7.798179314640214e-06,
      "loss": 0.7198,
      "step": 2591
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4954259288387075,
      "learning_rate": 7.79646100688611e-06,
      "loss": 0.8981,
      "step": 2592
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3207757217593965,
      "learning_rate": 7.794742218387943e-06,
      "loss": 0.7682,
      "step": 2593
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5215974294340253,
      "learning_rate": 7.793022949441189e-06,
      "loss": 0.7648,
      "step": 2594
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7066905789451556,
      "learning_rate": 7.79130320034141e-06,
      "loss": 0.8456,
      "step": 2595
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5208768690894405,
      "learning_rate": 7.789582971384252e-06,
      "loss": 0.8275,
      "step": 2596
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3884180536146713,
      "learning_rate": 7.787862262865438e-06,
      "loss": 0.8179,
      "step": 2597
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2927256703264776,
      "learning_rate": 7.786141075080786e-06,
      "loss": 0.7923,
      "step": 2598
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.376953160554178,
      "learning_rate": 7.784419408326181e-06,
      "loss": 0.7599,
      "step": 2599
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6924391609487952,
      "learning_rate": 7.782697262897601e-06,
      "loss": 0.8775,
      "step": 2600
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5208636819555652,
      "learning_rate": 7.7809746390911e-06,
      "loss": 0.9252,
      "step": 2601
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4340507287476163,
      "learning_rate": 7.77925153720282e-06,
      "loss": 0.836,
      "step": 2602
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6891959120605704,
      "learning_rate": 7.777527957528982e-06,
      "loss": 0.858,
      "step": 2603
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.47967317061906,
      "learning_rate": 7.775803900365885e-06,
      "loss": 0.7411,
      "step": 2604
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.563162733506055,
      "learning_rate": 7.77407936600992e-06,
      "loss": 0.7241,
      "step": 2605
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4819820203681986,
      "learning_rate": 7.77235435475755e-06,
      "loss": 0.7819,
      "step": 2606
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4377896369154033,
      "learning_rate": 7.77062886690533e-06,
      "loss": 0.875,
      "step": 2607
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.554605503621285,
      "learning_rate": 7.768902902749885e-06,
      "loss": 0.8737,
      "step": 2608
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6599103093404977,
      "learning_rate": 7.767176462587932e-06,
      "loss": 0.8803,
      "step": 2609
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5535415697539896,
      "learning_rate": 7.765449546716266e-06,
      "loss": 0.7948,
      "step": 2610
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.4357158161889654,
      "learning_rate": 7.76372215543176e-06,
      "loss": 0.9615,
      "step": 2611
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.368456400379589,
      "learning_rate": 7.76199428903138e-06,
      "loss": 0.8814,
      "step": 2612
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3611246214160608,
      "learning_rate": 7.76026594781216e-06,
      "loss": 0.8638,
      "step": 2613
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7292361644561725,
      "learning_rate": 7.758537132071224e-06,
      "loss": 0.8145,
      "step": 2614
    },
    {
      "epoch": 0.33,
      "grad_norm": 8.142189632158129,
      "learning_rate": 7.756807842105774e-06,
      "loss": 0.7711,
      "step": 2615
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4805918912639093,
      "learning_rate": 7.755078078213099e-06,
      "loss": 0.8094,
      "step": 2616
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.9669628759747375,
      "learning_rate": 7.75334784069056e-06,
      "loss": 0.8806,
      "step": 2617
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4082815354527243,
      "learning_rate": 7.75161712983561e-06,
      "loss": 0.8289,
      "step": 2618
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3333403004253095,
      "learning_rate": 7.749885945945774e-06,
      "loss": 0.8174,
      "step": 2619
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8183618344944932,
      "learning_rate": 7.748154289318666e-06,
      "loss": 0.8382,
      "step": 2620
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8191341215352446,
      "learning_rate": 7.746422160251975e-06,
      "loss": 0.7397,
      "step": 2621
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4063265610830997,
      "learning_rate": 7.744689559043475e-06,
      "loss": 0.645,
      "step": 2622
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.701374033627714,
      "learning_rate": 7.742956485991022e-06,
      "loss": 0.8867,
      "step": 2623
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.42601409026458,
      "learning_rate": 7.74122294139255e-06,
      "loss": 0.8267,
      "step": 2624
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5372460577084093,
      "learning_rate": 7.739488925546074e-06,
      "loss": 0.835,
      "step": 2625
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3569044267362709,
      "learning_rate": 7.737754438749694e-06,
      "loss": 0.806,
      "step": 2626
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.8819982111502633,
      "learning_rate": 7.736019481301587e-06,
      "loss": 0.8442,
      "step": 2627
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8220869817431451,
      "learning_rate": 7.734284053500015e-06,
      "loss": 0.6417,
      "step": 2628
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3327822354540815,
      "learning_rate": 7.732548155643311e-06,
      "loss": 0.8136,
      "step": 2629
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.7071697840777451,
      "learning_rate": 7.730811788029903e-06,
      "loss": 0.9157,
      "step": 2630
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3639468828821009,
      "learning_rate": 7.72907495095829e-06,
      "loss": 0.8256,
      "step": 2631
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3644727787231692,
      "learning_rate": 7.727337644727055e-06,
      "loss": 0.8847,
      "step": 2632
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6238340567460339,
      "learning_rate": 7.725599869634861e-06,
      "loss": 0.8673,
      "step": 2633
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8602534093135453,
      "learning_rate": 7.72386162598045e-06,
      "loss": 0.701,
      "step": 2634
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6502530854454924,
      "learning_rate": 7.722122914062649e-06,
      "loss": 0.8585,
      "step": 2635
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4052233137087062,
      "learning_rate": 7.720383734180362e-06,
      "loss": 0.7026,
      "step": 2636
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5843850420859695,
      "learning_rate": 7.718644086632575e-06,
      "loss": 0.7657,
      "step": 2637
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2887648544401402,
      "learning_rate": 7.71690397171835e-06,
      "loss": 0.7802,
      "step": 2638
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4058433007684337,
      "learning_rate": 7.715163389736834e-06,
      "loss": 0.9121,
      "step": 2639
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6052923287746192,
      "learning_rate": 7.713422340987258e-06,
      "loss": 0.7938,
      "step": 2640
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8516399352857703,
      "learning_rate": 7.711680825768922e-06,
      "loss": 0.7392,
      "step": 2641
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5597337425545816,
      "learning_rate": 7.709938844381217e-06,
      "loss": 0.8654,
      "step": 2642
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5720575804264199,
      "learning_rate": 7.708196397123607e-06,
      "loss": 0.7668,
      "step": 2643
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8331778197559437,
      "learning_rate": 7.706453484295643e-06,
      "loss": 0.6159,
      "step": 2644
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5521801639771486,
      "learning_rate": 7.704710106196947e-06,
      "loss": 0.8541,
      "step": 2645
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4857973598918417,
      "learning_rate": 7.702966263127227e-06,
      "loss": 0.8535,
      "step": 2646
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.283472964567779,
      "learning_rate": 7.701221955386273e-06,
      "loss": 0.7984,
      "step": 2647
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3347750860102883,
      "learning_rate": 7.699477183273949e-06,
      "loss": 0.7427,
      "step": 2648
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.390401401240114,
      "learning_rate": 7.6977319470902e-06,
      "loss": 0.6845,
      "step": 2649
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4138390151239195,
      "learning_rate": 7.695986247135058e-06,
      "loss": 0.7925,
      "step": 2650
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4032773942770473,
      "learning_rate": 7.694240083708623e-06,
      "loss": 0.8627,
      "step": 2651
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.539538146530755,
      "learning_rate": 7.692493457111085e-06,
      "loss": 0.6856,
      "step": 2652
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.326095383148938,
      "learning_rate": 7.690746367642707e-06,
      "loss": 0.8648,
      "step": 2653
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4283544214028003,
      "learning_rate": 7.688998815603837e-06,
      "loss": 0.9581,
      "step": 2654
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.671457944736464,
      "learning_rate": 7.687250801294893e-06,
      "loss": 0.8503,
      "step": 2655
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4460292443013738,
      "learning_rate": 7.685502325016384e-06,
      "loss": 0.8499,
      "step": 2656
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4236753604533305,
      "learning_rate": 7.683753387068894e-06,
      "loss": 0.7545,
      "step": 2657
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.619082658829281,
      "learning_rate": 7.682003987753082e-06,
      "loss": 0.8862,
      "step": 2658
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.301039237678236,
      "learning_rate": 7.680254127369695e-06,
      "loss": 0.8703,
      "step": 2659
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.1099345139816434,
      "learning_rate": 7.67850380621955e-06,
      "loss": 0.7677,
      "step": 2660
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2765607121919782,
      "learning_rate": 7.676753024603546e-06,
      "loss": 0.9017,
      "step": 2661
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3879450386077237,
      "learning_rate": 7.675001782822669e-06,
      "loss": 0.8151,
      "step": 2662
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.423582688891477,
      "learning_rate": 7.673250081177974e-06,
      "loss": 0.8118,
      "step": 2663
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6330025426978692,
      "learning_rate": 7.671497919970598e-06,
      "loss": 0.7997,
      "step": 2664
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3545785670851593,
      "learning_rate": 7.669745299501758e-06,
      "loss": 0.9243,
      "step": 2665
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5887305205089297,
      "learning_rate": 7.667992220072751e-06,
      "loss": 0.7406,
      "step": 2666
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.405326528903026,
      "learning_rate": 7.666238681984952e-06,
      "loss": 0.8582,
      "step": 2667
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5366332375113172,
      "learning_rate": 7.664484685539814e-06,
      "loss": 0.8793,
      "step": 2668
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5128108228867574,
      "learning_rate": 7.662730231038869e-06,
      "loss": 0.971,
      "step": 2669
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4657392682277675,
      "learning_rate": 7.66097531878373e-06,
      "loss": 0.8071,
      "step": 2670
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5120377207237714,
      "learning_rate": 7.659219949076082e-06,
      "loss": 0.767,
      "step": 2671
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.9491324426147236,
      "learning_rate": 7.657464122217699e-06,
      "loss": 0.809,
      "step": 2672
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6743331729568722,
      "learning_rate": 7.655707838510423e-06,
      "loss": 0.9012,
      "step": 2673
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5310209020062888,
      "learning_rate": 7.653951098256184e-06,
      "loss": 0.8278,
      "step": 2674
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5543259212032772,
      "learning_rate": 7.652193901756983e-06,
      "loss": 0.8002,
      "step": 2675
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5092104888921787,
      "learning_rate": 7.650436249314902e-06,
      "loss": 0.8337,
      "step": 2676
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4880806026465474,
      "learning_rate": 7.648678141232107e-06,
      "loss": 0.7826,
      "step": 2677
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.7236100074720415,
      "learning_rate": 7.646919577810831e-06,
      "loss": 0.9148,
      "step": 2678
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4763947247673286,
      "learning_rate": 7.645160559353392e-06,
      "loss": 0.8706,
      "step": 2679
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.384392225074949,
      "learning_rate": 7.64340108616219e-06,
      "loss": 0.8747,
      "step": 2680
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4767229886586382,
      "learning_rate": 7.641641158539696e-06,
      "loss": 0.7933,
      "step": 2681
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5286628562010642,
      "learning_rate": 7.639880776788464e-06,
      "loss": 0.8683,
      "step": 2682
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1927007552677986,
      "learning_rate": 7.63811994121112e-06,
      "loss": 0.8776,
      "step": 2683
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4736537056636683,
      "learning_rate": 7.636358652110375e-06,
      "loss": 0.9309,
      "step": 2684
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4970372290263758,
      "learning_rate": 7.634596909789014e-06,
      "loss": 0.8284,
      "step": 2685
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.841479030076314,
      "learning_rate": 7.632834714549902e-06,
      "loss": 0.9221,
      "step": 2686
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4683992519229947,
      "learning_rate": 7.63107206669598e-06,
      "loss": 0.7652,
      "step": 2687
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6578430034575542,
      "learning_rate": 7.629308966530268e-06,
      "loss": 0.8113,
      "step": 2688
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.734399565333511,
      "learning_rate": 7.6275454143558614e-06,
      "loss": 0.9239,
      "step": 2689
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.7841565163218136,
      "learning_rate": 7.6257814104759385e-06,
      "loss": 0.9871,
      "step": 2690
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.687426688577984,
      "learning_rate": 7.62401695519375e-06,
      "loss": 0.805,
      "step": 2691
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.3535876355766545,
      "learning_rate": 7.6222520488126286e-06,
      "loss": 0.942,
      "step": 2692
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.513176650039893,
      "learning_rate": 7.620486691635978e-06,
      "loss": 0.9093,
      "step": 2693
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4349471996296042,
      "learning_rate": 7.618720883967285e-06,
      "loss": 0.8963,
      "step": 2694
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4223797409218386,
      "learning_rate": 7.616954626110116e-06,
      "loss": 0.7029,
      "step": 2695
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5291142111983178,
      "learning_rate": 7.615187918368107e-06,
      "loss": 0.7827,
      "step": 2696
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3635663502025368,
      "learning_rate": 7.613420761044976e-06,
      "loss": 0.8651,
      "step": 2697
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7932599169128133,
      "learning_rate": 7.611653154444521e-06,
      "loss": 0.6662,
      "step": 2698
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.522627863666386,
      "learning_rate": 7.60988509887061e-06,
      "loss": 0.7548,
      "step": 2699
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.761410677973505,
      "learning_rate": 7.608116594627195e-06,
      "loss": 0.8421,
      "step": 2700
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3170899628172736,
      "learning_rate": 7.606347642018301e-06,
      "loss": 0.8941,
      "step": 2701
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.826977888945324,
      "learning_rate": 7.604578241348033e-06,
      "loss": 0.6598,
      "step": 2702
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.9487495496537601,
      "learning_rate": 7.602808392920568e-06,
      "loss": 0.8449,
      "step": 2703
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5509676685715255,
      "learning_rate": 7.601038097040169e-06,
      "loss": 0.9812,
      "step": 2704
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5051527825407263,
      "learning_rate": 7.599267354011166e-06,
      "loss": 0.9027,
      "step": 2705
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5095036095718033,
      "learning_rate": 7.597496164137972e-06,
      "loss": 0.7128,
      "step": 2706
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0945544202013644,
      "learning_rate": 7.595724527725074e-06,
      "loss": 0.828,
      "step": 2707
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6008405236025274,
      "learning_rate": 7.593952445077035e-06,
      "loss": 0.8309,
      "step": 2708
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7162628620022495,
      "learning_rate": 7.592179916498503e-06,
      "loss": 0.8322,
      "step": 2709
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.496494016734403,
      "learning_rate": 7.590406942294191e-06,
      "loss": 0.8346,
      "step": 2710
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.749426775174018,
      "learning_rate": 7.588633522768896e-06,
      "loss": 0.933,
      "step": 2711
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4819721260847052,
      "learning_rate": 7.586859658227487e-06,
      "loss": 0.9166,
      "step": 2712
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4187082616515627,
      "learning_rate": 7.585085348974912e-06,
      "loss": 0.8,
      "step": 2713
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8968311996324767,
      "learning_rate": 7.5833105953161986e-06,
      "loss": 0.7687,
      "step": 2714
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5882963473649645,
      "learning_rate": 7.581535397556445e-06,
      "loss": 0.7895,
      "step": 2715
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.520362333120982,
      "learning_rate": 7.579759756000829e-06,
      "loss": 0.849,
      "step": 2716
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8767692734214364,
      "learning_rate": 7.577983670954604e-06,
      "loss": 0.7321,
      "step": 2717
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.334456957617463,
      "learning_rate": 7.5762071427231e-06,
      "loss": 0.7513,
      "step": 2718
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6030127812496053,
      "learning_rate": 7.5744301716117206e-06,
      "loss": 0.8586,
      "step": 2719
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6154644523019914,
      "learning_rate": 7.572652757925951e-06,
      "loss": 0.7917,
      "step": 2720
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5204195961508071,
      "learning_rate": 7.570874901971347e-06,
      "loss": 0.8703,
      "step": 2721
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5246024023743197,
      "learning_rate": 7.569096604053543e-06,
      "loss": 0.8353,
      "step": 2722
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4941891756883932,
      "learning_rate": 7.5673178644782475e-06,
      "loss": 0.8173,
      "step": 2723
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.193812383085687,
      "learning_rate": 7.565538683551251e-06,
      "loss": 0.818,
      "step": 2724
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.758157883730917,
      "learning_rate": 7.563759061578412e-06,
      "loss": 0.6564,
      "step": 2725
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.539487020094118,
      "learning_rate": 7.561978998865667e-06,
      "loss": 0.8519,
      "step": 2726
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5482385051976641,
      "learning_rate": 7.560198495719032e-06,
      "loss": 0.7749,
      "step": 2727
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.549672842177137,
      "learning_rate": 7.558417552444595e-06,
      "loss": 0.7658,
      "step": 2728
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.487457063371643,
      "learning_rate": 7.556636169348524e-06,
      "loss": 0.8599,
      "step": 2729
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6266257580823182,
      "learning_rate": 7.554854346737053e-06,
      "loss": 0.8888,
      "step": 2730
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4904971686676711,
      "learning_rate": 7.5530720849165e-06,
      "loss": 0.8564,
      "step": 2731
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.341409861936326,
      "learning_rate": 7.551289384193261e-06,
      "loss": 0.7725,
      "step": 2732
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8225568349255172,
      "learning_rate": 7.549506244873799e-06,
      "loss": 0.6581,
      "step": 2733
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.0323445971440335,
      "learning_rate": 7.547722667264656e-06,
      "loss": 0.8571,
      "step": 2734
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8259877430062055,
      "learning_rate": 7.545938651672453e-06,
      "loss": 0.8836,
      "step": 2735
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8348272345137188,
      "learning_rate": 7.5441541984038795e-06,
      "loss": 0.6614,
      "step": 2736
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4524907811249896,
      "learning_rate": 7.542369307765705e-06,
      "loss": 0.865,
      "step": 2737
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9506234490122626,
      "learning_rate": 7.540583980064772e-06,
      "loss": 0.6788,
      "step": 2738
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5540296701978016,
      "learning_rate": 7.538798215608001e-06,
      "loss": 0.7438,
      "step": 2739
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6954733428287208,
      "learning_rate": 7.537012014702383e-06,
      "loss": 0.7821,
      "step": 2740
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5423313954394258,
      "learning_rate": 7.535225377654989e-06,
      "loss": 0.8659,
      "step": 2741
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6506843124999326,
      "learning_rate": 7.533438304772962e-06,
      "loss": 0.6936,
      "step": 2742
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.906865699942701,
      "learning_rate": 7.531650796363521e-06,
      "loss": 0.6179,
      "step": 2743
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4470084266273,
      "learning_rate": 7.529862852733958e-06,
      "loss": 0.9142,
      "step": 2744
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.82597528991756,
      "learning_rate": 7.52807447419164e-06,
      "loss": 0.707,
      "step": 2745
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.506239407855411,
      "learning_rate": 7.526285661044015e-06,
      "loss": 0.7669,
      "step": 2746
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.426389435102324,
      "learning_rate": 7.524496413598596e-06,
      "loss": 0.7488,
      "step": 2747
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4302223282284368,
      "learning_rate": 7.522706732162976e-06,
      "loss": 0.7756,
      "step": 2748
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7894224887344141,
      "learning_rate": 7.520916617044826e-06,
      "loss": 0.6856,
      "step": 2749
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8128802620887812,
      "learning_rate": 7.519126068551882e-06,
      "loss": 0.6817,
      "step": 2750
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6016490366932896,
      "learning_rate": 7.517335086991963e-06,
      "loss": 0.8817,
      "step": 2751
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4858733958455872,
      "learning_rate": 7.51554367267296e-06,
      "loss": 0.8867,
      "step": 2752
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7067218008962604,
      "learning_rate": 7.513751825902837e-06,
      "loss": 0.9431,
      "step": 2753
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5746533661177393,
      "learning_rate": 7.5119595469896325e-06,
      "loss": 0.9334,
      "step": 2754
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5610949898178867,
      "learning_rate": 7.51016683624146e-06,
      "loss": 0.8681,
      "step": 2755
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4684149687353827,
      "learning_rate": 7.50837369396651e-06,
      "loss": 0.8844,
      "step": 2756
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5192652344483621,
      "learning_rate": 7.506580120473042e-06,
      "loss": 0.7939,
      "step": 2757
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4546371400819402,
      "learning_rate": 7.504786116069391e-06,
      "loss": 0.8686,
      "step": 2758
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.488771360978899,
      "learning_rate": 7.502991681063969e-06,
      "loss": 0.9637,
      "step": 2759
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.558673134293315,
      "learning_rate": 7.5011968157652615e-06,
      "loss": 0.8845,
      "step": 2760
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.447188486071914,
      "learning_rate": 7.499401520481824e-06,
      "loss": 0.8265,
      "step": 2761
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3786197462191725,
      "learning_rate": 7.497605795522289e-06,
      "loss": 0.885,
      "step": 2762
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6630282369194611,
      "learning_rate": 7.495809641195364e-06,
      "loss": 0.8434,
      "step": 2763
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6589787746307194,
      "learning_rate": 7.494013057809827e-06,
      "loss": 0.7403,
      "step": 2764
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5434812333645513,
      "learning_rate": 7.492216045674532e-06,
      "loss": 0.7652,
      "step": 2765
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3284677121510795,
      "learning_rate": 7.490418605098408e-06,
      "loss": 0.7892,
      "step": 2766
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3643050662090477,
      "learning_rate": 7.488620736390454e-06,
      "loss": 0.7425,
      "step": 2767
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4873195286832566,
      "learning_rate": 7.486822439859744e-06,
      "loss": 0.8133,
      "step": 2768
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.8338364069666351,
      "learning_rate": 7.485023715815427e-06,
      "loss": 0.6591,
      "step": 2769
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2125885075496488,
      "learning_rate": 7.483224564566725e-06,
      "loss": 0.8603,
      "step": 2770
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5343015722173898,
      "learning_rate": 7.481424986422933e-06,
      "loss": 0.9307,
      "step": 2771
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5533947979491716,
      "learning_rate": 7.479624981693416e-06,
      "loss": 0.8036,
      "step": 2772
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.8802812386985648,
      "learning_rate": 7.47782455068762e-06,
      "loss": 0.7865,
      "step": 2773
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5303374129909384,
      "learning_rate": 7.476023693715059e-06,
      "loss": 0.7866,
      "step": 2774
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3642303866602103,
      "learning_rate": 7.47422241108532e-06,
      "loss": 0.8377,
      "step": 2775
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5502014813822433,
      "learning_rate": 7.4724207031080645e-06,
      "loss": 0.8328,
      "step": 2776
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8278787340682399,
      "learning_rate": 7.4706185700930266e-06,
      "loss": 0.8136,
      "step": 2777
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.083320021330305,
      "learning_rate": 7.4688160123500165e-06,
      "loss": 0.8329,
      "step": 2778
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4072329528444638,
      "learning_rate": 7.467013030188912e-06,
      "loss": 0.7548,
      "step": 2779
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8993054934523104,
      "learning_rate": 7.465209623919668e-06,
      "loss": 0.7023,
      "step": 2780
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4971028864685931,
      "learning_rate": 7.46340579385231e-06,
      "loss": 0.7198,
      "step": 2781
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3970797896440468,
      "learning_rate": 7.4616015402969375e-06,
      "loss": 0.7586,
      "step": 2782
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6584406431988576,
      "learning_rate": 7.459796863563723e-06,
      "loss": 0.7346,
      "step": 2783
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5496790182855773,
      "learning_rate": 7.457991763962912e-06,
      "loss": 0.864,
      "step": 2784
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8978058822745827,
      "learning_rate": 7.456186241804821e-06,
      "loss": 0.7423,
      "step": 2785
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.377903776840282,
      "learning_rate": 7.45438029739984e-06,
      "loss": 0.9152,
      "step": 2786
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4792154963281723,
      "learning_rate": 7.4525739310584326e-06,
      "loss": 0.8029,
      "step": 2787
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.321075825424751,
      "learning_rate": 7.450767143091133e-06,
      "loss": 0.8178,
      "step": 2788
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5202723826092492,
      "learning_rate": 7.448959933808552e-06,
      "loss": 0.8147,
      "step": 2789
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4146829212640915,
      "learning_rate": 7.447152303521366e-06,
      "loss": 0.8383,
      "step": 2790
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2123389781837022,
      "learning_rate": 7.445344252540327e-06,
      "loss": 0.8728,
      "step": 2791
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4035807456657168,
      "learning_rate": 7.443535781176265e-06,
      "loss": 0.7227,
      "step": 2792
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3968313035574944,
      "learning_rate": 7.441726889740075e-06,
      "loss": 0.7561,
      "step": 2793
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.820068599363176,
      "learning_rate": 7.439917578542723e-06,
      "loss": 0.67,
      "step": 2794
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.32433305832177,
      "learning_rate": 7.438107847895256e-06,
      "loss": 0.7533,
      "step": 2795
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8699364990516651,
      "learning_rate": 7.436297698108783e-06,
      "loss": 0.6424,
      "step": 2796
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7104408519550058,
      "learning_rate": 7.434487129494494e-06,
      "loss": 0.8005,
      "step": 2797
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3389894534840856,
      "learning_rate": 7.4326761423636415e-06,
      "loss": 0.8014,
      "step": 2798
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.75730045374723,
      "learning_rate": 7.430864737027561e-06,
      "loss": 0.8571,
      "step": 2799
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6141879422281542,
      "learning_rate": 7.429052913797649e-06,
      "loss": 0.8108,
      "step": 2800
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4339281972789015,
      "learning_rate": 7.4272406729853805e-06,
      "loss": 0.8759,
      "step": 2801
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4283070385274867,
      "learning_rate": 7.425428014902304e-06,
      "loss": 0.8721,
      "step": 2802
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3794681779947848,
      "learning_rate": 7.423614939860033e-06,
      "loss": 0.8091,
      "step": 2803
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6046087447736364,
      "learning_rate": 7.421801448170256e-06,
      "loss": 0.8974,
      "step": 2804
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8033432247306136,
      "learning_rate": 7.419987540144733e-06,
      "loss": 0.8664,
      "step": 2805
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2964366328221668,
      "learning_rate": 7.4181732160952995e-06,
      "loss": 0.8464,
      "step": 2806
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7717736250141247,
      "learning_rate": 7.416358476333856e-06,
      "loss": 0.8036,
      "step": 2807
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3794475313333616,
      "learning_rate": 7.414543321172376e-06,
      "loss": 0.853,
      "step": 2808
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3905878899110653,
      "learning_rate": 7.412727750922908e-06,
      "loss": 0.9187,
      "step": 2809
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.360853021549326,
      "learning_rate": 7.4109117658975685e-06,
      "loss": 0.759,
      "step": 2810
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7877424979148194,
      "learning_rate": 7.409095366408547e-06,
      "loss": 0.6327,
      "step": 2811
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8385748346757902,
      "learning_rate": 7.407278552768103e-06,
      "loss": 0.8615,
      "step": 2812
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5785455869652354,
      "learning_rate": 7.40546132528857e-06,
      "loss": 0.9137,
      "step": 2813
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6386903573660918,
      "learning_rate": 7.403643684282347e-06,
      "loss": 0.8733,
      "step": 2814
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8512418797263128,
      "learning_rate": 7.40182563006191e-06,
      "loss": 0.6616,
      "step": 2815
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8950609823275006,
      "learning_rate": 7.4000071629398015e-06,
      "loss": 0.6184,
      "step": 2816
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5207320328911977,
      "learning_rate": 7.398188283228641e-06,
      "loss": 0.8561,
      "step": 2817
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5173692204314435,
      "learning_rate": 7.39636899124111e-06,
      "loss": 0.8129,
      "step": 2818
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.27449200561561,
      "learning_rate": 7.39454928728997e-06,
      "loss": 0.8718,
      "step": 2819
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8197333001571587,
      "learning_rate": 7.392729171688047e-06,
      "loss": 0.795,
      "step": 2820
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.386083706326073,
      "learning_rate": 7.39090864474824e-06,
      "loss": 0.8368,
      "step": 2821
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.785188993281904,
      "learning_rate": 7.389087706783518e-06,
      "loss": 0.8121,
      "step": 2822
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8455383410693347,
      "learning_rate": 7.387266358106925e-06,
      "loss": 0.7113,
      "step": 2823
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5720911691162323,
      "learning_rate": 7.385444599031568e-06,
      "loss": 0.8884,
      "step": 2824
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.399412251526618,
      "learning_rate": 7.38362242987063e-06,
      "loss": 0.8698,
      "step": 2825
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.522961070334776,
      "learning_rate": 7.381799850937363e-06,
      "loss": 0.8761,
      "step": 2826
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7210589955106226,
      "learning_rate": 7.379976862545091e-06,
      "loss": 0.8618,
      "step": 2827
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8241064846034573,
      "learning_rate": 7.378153465007203e-06,
      "loss": 0.655,
      "step": 2828
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2738020056395192,
      "learning_rate": 7.376329658637167e-06,
      "loss": 0.7998,
      "step": 2829
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4889466722048632,
      "learning_rate": 7.374505443748512e-06,
      "loss": 0.8521,
      "step": 2830
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.8375452883889287,
      "learning_rate": 7.372680820654844e-06,
      "loss": 0.7565,
      "step": 2831
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5444520173017868,
      "learning_rate": 7.3708557896698375e-06,
      "loss": 0.8531,
      "step": 2832
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.119959524030197,
      "learning_rate": 7.3690303511072324e-06,
      "loss": 0.8884,
      "step": 2833
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.505011513343721,
      "learning_rate": 7.367204505280848e-06,
      "loss": 0.8288,
      "step": 2834
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2860987214827873,
      "learning_rate": 7.365378252504567e-06,
      "loss": 0.834,
      "step": 2835
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7721630573716028,
      "learning_rate": 7.363551593092342e-06,
      "loss": 0.6232,
      "step": 2836
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3418019848549732,
      "learning_rate": 7.361724527358195e-06,
      "loss": 0.8254,
      "step": 2837
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9049245382715465,
      "learning_rate": 7.359897055616225e-06,
      "loss": 0.6561,
      "step": 2838
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6067676168211102,
      "learning_rate": 7.358069178180592e-06,
      "loss": 0.8707,
      "step": 2839
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7225869403969292,
      "learning_rate": 7.356240895365531e-06,
      "loss": 0.8146,
      "step": 2840
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.405152483627981,
      "learning_rate": 7.354412207485343e-06,
      "loss": 0.8613,
      "step": 2841
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7939643928655102,
      "learning_rate": 7.352583114854402e-06,
      "loss": 0.8853,
      "step": 2842
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9205665370495609,
      "learning_rate": 7.350753617787151e-06,
      "loss": 0.6165,
      "step": 2843
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5171318205616515,
      "learning_rate": 7.348923716598099e-06,
      "loss": 0.8226,
      "step": 2844
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4926342091755698,
      "learning_rate": 7.347093411601831e-06,
      "loss": 0.8088,
      "step": 2845
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7915953062346217,
      "learning_rate": 7.3452627031129964e-06,
      "loss": 0.7613,
      "step": 2846
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4392208934397963,
      "learning_rate": 7.3434315914463125e-06,
      "loss": 0.7979,
      "step": 2847
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.339709346273725,
      "learning_rate": 7.341600076916571e-06,
      "loss": 0.9611,
      "step": 2848
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4535542443914051,
      "learning_rate": 7.33976815983863e-06,
      "loss": 0.8536,
      "step": 2849
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4885650355845634,
      "learning_rate": 7.3379358405274195e-06,
      "loss": 0.9688,
      "step": 2850
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4868651998408309,
      "learning_rate": 7.33610311929793e-06,
      "loss": 0.9001,
      "step": 2851
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4399315595656779,
      "learning_rate": 7.334269996465236e-06,
      "loss": 0.9156,
      "step": 2852
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.562205200049307,
      "learning_rate": 7.332436472344468e-06,
      "loss": 0.8925,
      "step": 2853
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7896897210795049,
      "learning_rate": 7.330602547250828e-06,
      "loss": 0.7335,
      "step": 2854
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7843106308137653,
      "learning_rate": 7.3287682214995934e-06,
      "loss": 0.6382,
      "step": 2855
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3982918939463422,
      "learning_rate": 7.326933495406103e-06,
      "loss": 0.8121,
      "step": 2856
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3939581520324935,
      "learning_rate": 7.32509836928577e-06,
      "loss": 0.8542,
      "step": 2857
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7461397330363598,
      "learning_rate": 7.323262843454071e-06,
      "loss": 0.6654,
      "step": 2858
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.35689264118411,
      "learning_rate": 7.321426918226557e-06,
      "loss": 0.7673,
      "step": 2859
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.8331753668815636,
      "learning_rate": 7.319590593918844e-06,
      "loss": 0.8152,
      "step": 2860
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.484848172582085,
      "learning_rate": 7.317753870846615e-06,
      "loss": 0.8384,
      "step": 2861
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.293105032947157,
      "learning_rate": 7.315916749325626e-06,
      "loss": 0.7732,
      "step": 2862
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3561340184140676,
      "learning_rate": 7.3140792296717004e-06,
      "loss": 0.7623,
      "step": 2863
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3464419410192972,
      "learning_rate": 7.312241312200727e-06,
      "loss": 0.8481,
      "step": 2864
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3337426882312897,
      "learning_rate": 7.310402997228667e-06,
      "loss": 0.7987,
      "step": 2865
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8004357919160584,
      "learning_rate": 7.308564285071547e-06,
      "loss": 0.6666,
      "step": 2866
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8458898153801274,
      "learning_rate": 7.306725176045464e-06,
      "loss": 0.7003,
      "step": 2867
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4627501222544672,
      "learning_rate": 7.304885670466581e-06,
      "loss": 0.7851,
      "step": 2868
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6357190384656108,
      "learning_rate": 7.3030457686511305e-06,
      "loss": 0.8476,
      "step": 2869
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3930480321828567,
      "learning_rate": 7.3012054709154124e-06,
      "loss": 0.9001,
      "step": 2870
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4441786964299501,
      "learning_rate": 7.299364777575797e-06,
      "loss": 0.7648,
      "step": 2871
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5033961321632732,
      "learning_rate": 7.29752368894872e-06,
      "loss": 0.8212,
      "step": 2872
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3629145192621275,
      "learning_rate": 7.295682205350685e-06,
      "loss": 0.7987,
      "step": 2873
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6015191296799973,
      "learning_rate": 7.293840327098265e-06,
      "loss": 0.8197,
      "step": 2874
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3788039693003806,
      "learning_rate": 7.291998054508102e-06,
      "loss": 0.742,
      "step": 2875
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2922991818844172,
      "learning_rate": 7.2901553878969e-06,
      "loss": 0.8479,
      "step": 2876
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4923646668619022,
      "learning_rate": 7.288312327581439e-06,
      "loss": 0.9038,
      "step": 2877
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7549770494481873,
      "learning_rate": 7.286468873878559e-06,
      "loss": 0.7715,
      "step": 2878
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.375548590654965,
      "learning_rate": 7.2846250271051735e-06,
      "loss": 0.7897,
      "step": 2879
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4070472813960242,
      "learning_rate": 7.282780787578258e-06,
      "loss": 0.9017,
      "step": 2880
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0122359384597943,
      "learning_rate": 7.280936155614864e-06,
      "loss": 0.8024,
      "step": 2881
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7775501666251776,
      "learning_rate": 7.2790911315321015e-06,
      "loss": 0.7718,
      "step": 2882
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4345396762345601,
      "learning_rate": 7.2772457156471496e-06,
      "loss": 0.7812,
      "step": 2883
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6425166175853814,
      "learning_rate": 7.275399908277261e-06,
      "loss": 0.8181,
      "step": 2884
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3812920377105025,
      "learning_rate": 7.273553709739749e-06,
      "loss": 0.7832,
      "step": 2885
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4789848414862785,
      "learning_rate": 7.271707120351997e-06,
      "loss": 0.8804,
      "step": 2886
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3814065026796511,
      "learning_rate": 7.269860140431455e-06,
      "loss": 0.8059,
      "step": 2887
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4487818574100766,
      "learning_rate": 7.268012770295641e-06,
      "loss": 0.7928,
      "step": 2888
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.511537461907794,
      "learning_rate": 7.266165010262138e-06,
      "loss": 0.8476,
      "step": 2889
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0375725192525165,
      "learning_rate": 7.264316860648598e-06,
      "loss": 0.8126,
      "step": 2890
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3750563182254654,
      "learning_rate": 7.26246832177274e-06,
      "loss": 0.8571,
      "step": 2891
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9460462943656731,
      "learning_rate": 7.2606193939523496e-06,
      "loss": 0.7279,
      "step": 2892
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4584826697246671,
      "learning_rate": 7.258770077505276e-06,
      "loss": 0.7749,
      "step": 2893
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.8475489637954073,
      "learning_rate": 7.256920372749441e-06,
      "loss": 0.7503,
      "step": 2894
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4454850385254712,
      "learning_rate": 7.255070280002829e-06,
      "loss": 0.8166,
      "step": 2895
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4235554895310918,
      "learning_rate": 7.253219799583495e-06,
      "loss": 0.775,
      "step": 2896
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0275932651479296,
      "learning_rate": 7.251368931809554e-06,
      "loss": 0.6932,
      "step": 2897
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.408173911849316,
      "learning_rate": 7.249517676999192e-06,
      "loss": 0.8371,
      "step": 2898
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4389961665913724,
      "learning_rate": 7.247666035470666e-06,
      "loss": 0.8961,
      "step": 2899
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7483426967208489,
      "learning_rate": 7.24581400754229e-06,
      "loss": 0.8874,
      "step": 2900
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.389961824647502,
      "learning_rate": 7.24396159353245e-06,
      "loss": 0.8575,
      "step": 2901
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9344350221221673,
      "learning_rate": 7.242108793759597e-06,
      "loss": 0.7936,
      "step": 2902
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5942304482384992,
      "learning_rate": 7.240255608542252e-06,
      "loss": 0.8486,
      "step": 2903
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5352041682399638,
      "learning_rate": 7.238402038198995e-06,
      "loss": 0.7682,
      "step": 2904
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4251385834609966,
      "learning_rate": 7.236548083048478e-06,
      "loss": 0.6482,
      "step": 2905
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4609813893902504,
      "learning_rate": 7.234693743409418e-06,
      "loss": 0.7569,
      "step": 2906
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4167660523237287,
      "learning_rate": 7.232839019600595e-06,
      "loss": 0.7218,
      "step": 2907
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5874098308883542,
      "learning_rate": 7.230983911940861e-06,
      "loss": 0.7526,
      "step": 2908
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.272916633723372,
      "learning_rate": 7.229128420749127e-06,
      "loss": 0.7148,
      "step": 2909
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.7295078649732725,
      "learning_rate": 7.227272546344377e-06,
      "loss": 0.7265,
      "step": 2910
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3813052315317202,
      "learning_rate": 7.225416289045655e-06,
      "loss": 0.7994,
      "step": 2911
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7928954123296692,
      "learning_rate": 7.2235596491720724e-06,
      "loss": 0.6617,
      "step": 2912
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5607202112379321,
      "learning_rate": 7.22170262704281e-06,
      "loss": 0.7787,
      "step": 2913
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.381609123355821,
      "learning_rate": 7.21984522297711e-06,
      "loss": 0.7945,
      "step": 2914
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.836583882453309,
      "learning_rate": 7.217987437294281e-06,
      "loss": 0.7326,
      "step": 2915
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3179892890657607,
      "learning_rate": 7.216129270313698e-06,
      "loss": 0.7393,
      "step": 2916
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.984454214343071,
      "learning_rate": 7.214270722354802e-06,
      "loss": 0.5962,
      "step": 2917
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5614677715611152,
      "learning_rate": 7.2124117937371e-06,
      "loss": 0.7363,
      "step": 2918
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5768899506593674,
      "learning_rate": 7.21055248478016e-06,
      "loss": 0.8576,
      "step": 2919
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7615511178229527,
      "learning_rate": 7.208692795803622e-06,
      "loss": 0.6236,
      "step": 2920
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.409348723886895,
      "learning_rate": 7.206832727127186e-06,
      "loss": 0.8415,
      "step": 2921
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4169252371375636,
      "learning_rate": 7.204972279070623e-06,
      "loss": 0.885,
      "step": 2922
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5791947197775107,
      "learning_rate": 7.203111451953761e-06,
      "loss": 0.7786,
      "step": 2923
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4266942477125084,
      "learning_rate": 7.201250246096501e-06,
      "loss": 0.8387,
      "step": 2924
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3609580841732964,
      "learning_rate": 7.1993886618188025e-06,
      "loss": 0.8472,
      "step": 2925
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5827142002615615,
      "learning_rate": 7.1975266994406965e-06,
      "loss": 0.8253,
      "step": 2926
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4465063060216237,
      "learning_rate": 7.195664359282275e-06,
      "loss": 0.8176,
      "step": 2927
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.952698642809645,
      "learning_rate": 7.193801641663697e-06,
      "loss": 0.6899,
      "step": 2928
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.595257576535429,
      "learning_rate": 7.191938546905183e-06,
      "loss": 0.849,
      "step": 2929
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4152813134472833,
      "learning_rate": 7.190075075327021e-06,
      "loss": 0.7651,
      "step": 2930
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.2501658086045144,
      "learning_rate": 7.188211227249565e-06,
      "loss": 0.7801,
      "step": 2931
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3368886186569537,
      "learning_rate": 7.186347002993233e-06,
      "loss": 0.7037,
      "step": 2932
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3285981136711598,
      "learning_rate": 7.184482402878501e-06,
      "loss": 0.8215,
      "step": 2933
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4186118107320123,
      "learning_rate": 7.182617427225922e-06,
      "loss": 0.8873,
      "step": 2934
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4851074619444236,
      "learning_rate": 7.180752076356102e-06,
      "loss": 0.7098,
      "step": 2935
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7755452523209039,
      "learning_rate": 7.178886350589721e-06,
      "loss": 0.7152,
      "step": 2936
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4129088997611865,
      "learning_rate": 7.177020250247515e-06,
      "loss": 0.7294,
      "step": 2937
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8845165033667264,
      "learning_rate": 7.17515377565029e-06,
      "loss": 0.7593,
      "step": 2938
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8739786100825222,
      "learning_rate": 7.173286927118914e-06,
      "loss": 0.6713,
      "step": 2939
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5036540952843032,
      "learning_rate": 7.171419704974321e-06,
      "loss": 0.8002,
      "step": 2940
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5659402150448576,
      "learning_rate": 7.169552109537507e-06,
      "loss": 0.8755,
      "step": 2941
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4465885363232596,
      "learning_rate": 7.167684141129536e-06,
      "loss": 0.8308,
      "step": 2942
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4899347779081047,
      "learning_rate": 7.165815800071529e-06,
      "loss": 0.8071,
      "step": 2943
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4590198708126905,
      "learning_rate": 7.163947086684677e-06,
      "loss": 0.8359,
      "step": 2944
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7892784834764324,
      "learning_rate": 7.1620780012902356e-06,
      "loss": 0.6756,
      "step": 2945
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8242310306639611,
      "learning_rate": 7.160208544209521e-06,
      "loss": 0.6481,
      "step": 2946
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9639089391403848,
      "learning_rate": 7.158338715763912e-06,
      "loss": 0.7375,
      "step": 2947
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.669908070716395,
      "learning_rate": 7.156468516274859e-06,
      "loss": 0.823,
      "step": 2948
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.716653782775127,
      "learning_rate": 7.154597946063867e-06,
      "loss": 0.8166,
      "step": 2949
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4009898847905857,
      "learning_rate": 7.152727005452511e-06,
      "loss": 0.7893,
      "step": 2950
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5795899917182374,
      "learning_rate": 7.1508556947624245e-06,
      "loss": 0.7893,
      "step": 2951
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4776774455554351,
      "learning_rate": 7.14898401431531e-06,
      "loss": 0.8408,
      "step": 2952
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0363549968129777,
      "learning_rate": 7.14711196443293e-06,
      "loss": 0.7894,
      "step": 2953
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6675441074112507,
      "learning_rate": 7.145239545437113e-06,
      "loss": 0.7903,
      "step": 2954
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.606720064721167,
      "learning_rate": 7.143366757649746e-06,
      "loss": 0.7691,
      "step": 2955
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.378018160207071,
      "learning_rate": 7.141493601392787e-06,
      "loss": 0.7635,
      "step": 2956
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6892879414250628,
      "learning_rate": 7.139620076988252e-06,
      "loss": 0.8345,
      "step": 2957
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7687245920169732,
      "learning_rate": 7.137746184758218e-06,
      "loss": 0.8174,
      "step": 2958
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3408887621662064,
      "learning_rate": 7.135871925024835e-06,
      "loss": 0.8735,
      "step": 2959
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7828808042126278,
      "learning_rate": 7.133997298110308e-06,
      "loss": 0.6407,
      "step": 2960
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.569407614691593,
      "learning_rate": 7.1321223043369034e-06,
      "loss": 0.6768,
      "step": 2961
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.0122991957436893,
      "learning_rate": 7.130246944026958e-06,
      "loss": 0.8401,
      "step": 2962
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6102555649707477,
      "learning_rate": 7.128371217502868e-06,
      "loss": 0.8033,
      "step": 2963
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5453910017091272,
      "learning_rate": 7.12649512508709e-06,
      "loss": 0.8027,
      "step": 2964
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.162578989125628,
      "learning_rate": 7.1246186671021475e-06,
      "loss": 0.8005,
      "step": 2965
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5461207614650627,
      "learning_rate": 7.122741843870626e-06,
      "loss": 0.9208,
      "step": 2966
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2772904844677015,
      "learning_rate": 7.120864655715172e-06,
      "loss": 0.849,
      "step": 2967
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4784233144713013,
      "learning_rate": 7.118987102958498e-06,
      "loss": 0.7852,
      "step": 2968
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.715343408718862,
      "learning_rate": 7.117109185923374e-06,
      "loss": 0.8615,
      "step": 2969
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4585521861727504,
      "learning_rate": 7.115230904932639e-06,
      "loss": 0.7931,
      "step": 2970
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4896258969710523,
      "learning_rate": 7.113352260309189e-06,
      "loss": 0.8128,
      "step": 2971
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6600774349670422,
      "learning_rate": 7.111473252375983e-06,
      "loss": 0.9688,
      "step": 2972
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4093113620640376,
      "learning_rate": 7.109593881456048e-06,
      "loss": 0.9499,
      "step": 2973
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.250447456622808,
      "learning_rate": 7.10771414787247e-06,
      "loss": 0.859,
      "step": 2974
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7956468317982772,
      "learning_rate": 7.105834051948395e-06,
      "loss": 0.8648,
      "step": 2975
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5753665175229348,
      "learning_rate": 7.1039535940070305e-06,
      "loss": 0.914,
      "step": 2976
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4880586330280066,
      "learning_rate": 7.102072774371654e-06,
      "loss": 0.8493,
      "step": 2977
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3959947913553639,
      "learning_rate": 7.1001915933655994e-06,
      "loss": 0.9122,
      "step": 2978
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6457963166821785,
      "learning_rate": 7.098310051312261e-06,
      "loss": 0.8481,
      "step": 2979
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5973623201427756,
      "learning_rate": 7.096428148535101e-06,
      "loss": 0.8896,
      "step": 2980
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3543647951863684,
      "learning_rate": 7.094545885357636e-06,
      "loss": 0.7148,
      "step": 2981
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2362388204661503,
      "learning_rate": 7.092663262103452e-06,
      "loss": 0.7938,
      "step": 2982
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9908696868755118,
      "learning_rate": 7.0907802790961925e-06,
      "loss": 0.7231,
      "step": 2983
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6473759762907163,
      "learning_rate": 7.088896936659566e-06,
      "loss": 0.8486,
      "step": 2984
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4204729862768881,
      "learning_rate": 7.087013235117339e-06,
      "loss": 0.814,
      "step": 2985
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4887141221277398,
      "learning_rate": 7.0851291747933415e-06,
      "loss": 0.801,
      "step": 2986
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8673008093687093,
      "learning_rate": 7.083244756011466e-06,
      "loss": 0.7287,
      "step": 2987
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6312647003691787,
      "learning_rate": 7.081359979095667e-06,
      "loss": 0.8593,
      "step": 2988
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.2855917114654765,
      "learning_rate": 7.079474844369958e-06,
      "loss": 0.8309,
      "step": 2989
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.357661315808293,
      "learning_rate": 7.077589352158415e-06,
      "loss": 0.7706,
      "step": 2990
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6431265485361966,
      "learning_rate": 7.075703502785178e-06,
      "loss": 0.8988,
      "step": 2991
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.9656169564576225,
      "learning_rate": 7.073817296574444e-06,
      "loss": 0.7814,
      "step": 2992
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4144629076841628,
      "learning_rate": 7.071930733850476e-06,
      "loss": 0.7566,
      "step": 2993
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.498463106224267,
      "learning_rate": 7.070043814937595e-06,
      "loss": 0.8466,
      "step": 2994
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.427975621436016,
      "learning_rate": 7.068156540160182e-06,
      "loss": 0.9199,
      "step": 2995
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3895446922342423,
      "learning_rate": 7.066268909842687e-06,
      "loss": 0.8775,
      "step": 2996
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2917108000213593,
      "learning_rate": 7.06438092430961e-06,
      "loss": 0.7598,
      "step": 2997
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8112531090130826,
      "learning_rate": 7.062492583885521e-06,
      "loss": 0.6833,
      "step": 2998
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2549034777228028,
      "learning_rate": 7.060603888895046e-06,
      "loss": 0.8842,
      "step": 2999
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2661244602105144,
      "learning_rate": 7.058714839662874e-06,
      "loss": 0.7789,
      "step": 3000
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2850080536065729,
      "learning_rate": 7.056825436513754e-06,
      "loss": 0.768,
      "step": 3001
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5726158610747258,
      "learning_rate": 7.054935679772497e-06,
      "loss": 0.8927,
      "step": 3002
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5246072175480656,
      "learning_rate": 7.053045569763973e-06,
      "loss": 0.8222,
      "step": 3003
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5583328657451894,
      "learning_rate": 7.051155106813114e-06,
      "loss": 0.8493,
      "step": 3004
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.267310942481773,
      "learning_rate": 7.049264291244915e-06,
      "loss": 0.8842,
      "step": 3005
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.446466244092973,
      "learning_rate": 7.047373123384426e-06,
      "loss": 0.9002,
      "step": 3006
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5417744736628867,
      "learning_rate": 7.045481603556763e-06,
      "loss": 0.8867,
      "step": 3007
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3804355523284113,
      "learning_rate": 7.043589732087098e-06,
      "loss": 0.8163,
      "step": 3008
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5976668337322588,
      "learning_rate": 7.041697509300667e-06,
      "loss": 0.7791,
      "step": 3009
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8804480385653939,
      "learning_rate": 7.039804935522766e-06,
      "loss": 0.6993,
      "step": 3010
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5273940860053756,
      "learning_rate": 7.037912011078749e-06,
      "loss": 0.8451,
      "step": 3011
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3707905646618197,
      "learning_rate": 7.03601873629403e-06,
      "loss": 0.8254,
      "step": 3012
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4921330875107441,
      "learning_rate": 7.0341251114940864e-06,
      "loss": 0.8285,
      "step": 3013
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6481377859944777,
      "learning_rate": 7.032231137004457e-06,
      "loss": 0.8328,
      "step": 3014
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3260561137429383,
      "learning_rate": 7.030336813150734e-06,
      "loss": 0.8485,
      "step": 3015
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3208042845453407,
      "learning_rate": 7.028442140258576e-06,
      "loss": 0.7943,
      "step": 3016
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4467825383861173,
      "learning_rate": 7.026547118653697e-06,
      "loss": 0.7735,
      "step": 3017
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3059313378434088,
      "learning_rate": 7.024651748661875e-06,
      "loss": 0.8115,
      "step": 3018
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.488684046439574,
      "learning_rate": 7.022756030608946e-06,
      "loss": 0.8088,
      "step": 3019
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5688450025443008,
      "learning_rate": 7.0208599648208054e-06,
      "loss": 0.8684,
      "step": 3020
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9049843234841559,
      "learning_rate": 7.01896355162341e-06,
      "loss": 0.7434,
      "step": 3021
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6523695793292819,
      "learning_rate": 7.017066791342773e-06,
      "loss": 0.9124,
      "step": 3022
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3965851665934035,
      "learning_rate": 7.01516968430497e-06,
      "loss": 0.8464,
      "step": 3023
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9923912318991832,
      "learning_rate": 7.013272230836139e-06,
      "loss": 0.6993,
      "step": 3024
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.270883333548536,
      "learning_rate": 7.01137443126247e-06,
      "loss": 0.8188,
      "step": 3025
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4261006417368842,
      "learning_rate": 7.009476285910218e-06,
      "loss": 0.8185,
      "step": 3026
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8207797187048018,
      "learning_rate": 7.007577795105697e-06,
      "loss": 0.6476,
      "step": 3027
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4481644210529436,
      "learning_rate": 7.005678959175279e-06,
      "loss": 0.8062,
      "step": 3028
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4569512926347579,
      "learning_rate": 7.003779778445398e-06,
      "loss": 0.8304,
      "step": 3029
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.2185107128318515,
      "learning_rate": 7.001880253242541e-06,
      "loss": 0.8931,
      "step": 3030
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3197083784870023,
      "learning_rate": 6.999980383893261e-06,
      "loss": 0.8187,
      "step": 3031
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5143993303102952,
      "learning_rate": 6.998080170724167e-06,
      "loss": 0.8349,
      "step": 3032
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5819908739414117,
      "learning_rate": 6.996179614061929e-06,
      "loss": 0.7741,
      "step": 3033
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6537595318291618,
      "learning_rate": 6.9942787142332735e-06,
      "loss": 0.9186,
      "step": 3034
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.349434601944607,
      "learning_rate": 6.992377471564987e-06,
      "loss": 0.9501,
      "step": 3035
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4331349573195622,
      "learning_rate": 6.990475886383915e-06,
      "loss": 0.6617,
      "step": 3036
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1450797930625498,
      "learning_rate": 6.988573959016963e-06,
      "loss": 0.781,
      "step": 3037
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4566135766765707,
      "learning_rate": 6.9866716897910945e-06,
      "loss": 0.8812,
      "step": 3038
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.257979995505633,
      "learning_rate": 6.984769079033331e-06,
      "loss": 0.7229,
      "step": 3039
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8713975888200661,
      "learning_rate": 6.982866127070753e-06,
      "loss": 0.6853,
      "step": 3040
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3138423062652906,
      "learning_rate": 6.9809628342305e-06,
      "loss": 0.7756,
      "step": 3041
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8892816500849758,
      "learning_rate": 6.9790592008397705e-06,
      "loss": 0.6301,
      "step": 3042
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4698142435852353,
      "learning_rate": 6.9771552272258226e-06,
      "loss": 0.8566,
      "step": 3043
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.376695762586604,
      "learning_rate": 6.975250913715968e-06,
      "loss": 0.7791,
      "step": 3044
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.480381633357781,
      "learning_rate": 6.973346260637583e-06,
      "loss": 0.8097,
      "step": 3045
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.46802663940333,
      "learning_rate": 6.9714412683181e-06,
      "loss": 0.7963,
      "step": 3046
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4095931939565634,
      "learning_rate": 6.969535937085006e-06,
      "loss": 0.8598,
      "step": 3047
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6020349748531129,
      "learning_rate": 6.967630267265854e-06,
      "loss": 0.7145,
      "step": 3048
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.035894591454736,
      "learning_rate": 6.965724259188246e-06,
      "loss": 0.658,
      "step": 3049
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5073566975611385,
      "learning_rate": 6.96381791317985e-06,
      "loss": 0.8759,
      "step": 3050
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.470401374078234,
      "learning_rate": 6.961911229568388e-06,
      "loss": 0.7496,
      "step": 3051
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7211918725897561,
      "learning_rate": 6.9600042086816424e-06,
      "loss": 0.8262,
      "step": 3052
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6423392287330703,
      "learning_rate": 6.958096850847451e-06,
      "loss": 0.8728,
      "step": 3053
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5319371090898446,
      "learning_rate": 6.956189156393709e-06,
      "loss": 0.847,
      "step": 3054
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3714174619507236,
      "learning_rate": 6.954281125648373e-06,
      "loss": 0.7806,
      "step": 3055
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8198108224436002,
      "learning_rate": 6.952372758939457e-06,
      "loss": 0.6132,
      "step": 3056
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3647127936070267,
      "learning_rate": 6.9504640565950295e-06,
      "loss": 0.8168,
      "step": 3057
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6321349114847983,
      "learning_rate": 6.948555018943219e-06,
      "loss": 0.9771,
      "step": 3058
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7572295118081096,
      "learning_rate": 6.946645646312212e-06,
      "loss": 0.8479,
      "step": 3059
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7743804637246625,
      "learning_rate": 6.944735939030249e-06,
      "loss": 0.6131,
      "step": 3060
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5885719409854187,
      "learning_rate": 6.942825897425633e-06,
      "loss": 0.8023,
      "step": 3061
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.510460888428261,
      "learning_rate": 6.940915521826723e-06,
      "loss": 0.7842,
      "step": 3062
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4795244768223081,
      "learning_rate": 6.939004812561934e-06,
      "loss": 0.7617,
      "step": 3063
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.467013782945534,
      "learning_rate": 6.937093769959737e-06,
      "loss": 0.8323,
      "step": 3064
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.6390309530634053,
      "learning_rate": 6.9351823943486654e-06,
      "loss": 0.7223,
      "step": 3065
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5600732635893333,
      "learning_rate": 6.933270686057308e-06,
      "loss": 0.728,
      "step": 3066
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.875318918242841,
      "learning_rate": 6.931358645414304e-06,
      "loss": 0.6959,
      "step": 3067
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.602798443106992,
      "learning_rate": 6.929446272748361e-06,
      "loss": 0.7973,
      "step": 3068
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4352828427505542,
      "learning_rate": 6.927533568388232e-06,
      "loss": 0.9631,
      "step": 3069
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9872869450344112,
      "learning_rate": 6.92562053266274e-06,
      "loss": 0.7087,
      "step": 3070
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.466893260208844,
      "learning_rate": 6.923707165900753e-06,
      "loss": 0.774,
      "step": 3071
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4279069160841438,
      "learning_rate": 6.921793468431204e-06,
      "loss": 0.8016,
      "step": 3072
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5139726299932652,
      "learning_rate": 6.9198794405830776e-06,
      "loss": 0.8008,
      "step": 3073
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4049944705285182,
      "learning_rate": 6.917965082685418e-06,
      "loss": 0.8186,
      "step": 3074
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.548491075946647,
      "learning_rate": 6.9160503950673276e-06,
      "loss": 0.8514,
      "step": 3075
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0062014090765186,
      "learning_rate": 6.914135378057959e-06,
      "loss": 0.6994,
      "step": 3076
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.2452280447138238,
      "learning_rate": 6.912220031986531e-06,
      "loss": 0.8165,
      "step": 3077
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3228862955081169,
      "learning_rate": 6.910304357182308e-06,
      "loss": 0.7949,
      "step": 3078
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4781987800888674,
      "learning_rate": 6.908388353974622e-06,
      "loss": 0.8567,
      "step": 3079
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.367981386671336,
      "learning_rate": 6.906472022692854e-06,
      "loss": 0.8167,
      "step": 3080
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.404874544715627,
      "learning_rate": 6.904555363666443e-06,
      "loss": 0.7795,
      "step": 3081
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7081440507576062,
      "learning_rate": 6.902638377224886e-06,
      "loss": 0.8288,
      "step": 3082
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5408409950334678,
      "learning_rate": 6.900721063697733e-06,
      "loss": 0.8599,
      "step": 3083
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8673887777040348,
      "learning_rate": 6.898803423414595e-06,
      "loss": 0.6536,
      "step": 3084
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4943803460312532,
      "learning_rate": 6.896885456705137e-06,
      "loss": 0.8326,
      "step": 3085
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4630791732731763,
      "learning_rate": 6.894967163899077e-06,
      "loss": 0.9007,
      "step": 3086
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4639781839354717,
      "learning_rate": 6.893048545326193e-06,
      "loss": 0.8227,
      "step": 3087
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7589937390985255,
      "learning_rate": 6.891129601316319e-06,
      "loss": 0.8934,
      "step": 3088
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3003069890834953,
      "learning_rate": 6.889210332199343e-06,
      "loss": 0.8391,
      "step": 3089
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5278236929491744,
      "learning_rate": 6.887290738305208e-06,
      "loss": 0.8072,
      "step": 3090
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2584179794219668,
      "learning_rate": 6.885370819963917e-06,
      "loss": 0.7926,
      "step": 3091
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5377327067216122,
      "learning_rate": 6.883450577505524e-06,
      "loss": 0.9242,
      "step": 3092
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8895148326255395,
      "learning_rate": 6.881530011260142e-06,
      "loss": 0.6636,
      "step": 3093
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8815661168251082,
      "learning_rate": 6.879609121557938e-06,
      "loss": 0.6476,
      "step": 3094
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5270846661221136,
      "learning_rate": 6.877687908729137e-06,
      "loss": 0.8686,
      "step": 3095
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7791820150663251,
      "learning_rate": 6.875766373104016e-06,
      "loss": 0.7661,
      "step": 3096
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.526380007907996,
      "learning_rate": 6.873844515012909e-06,
      "loss": 0.8869,
      "step": 3097
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7066462881298652,
      "learning_rate": 6.871922334786206e-06,
      "loss": 0.8293,
      "step": 3098
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7411665574967279,
      "learning_rate": 6.8699998327543545e-06,
      "loss": 0.848,
      "step": 3099
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4327056393817323,
      "learning_rate": 6.868077009247852e-06,
      "loss": 0.843,
      "step": 3100
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.234394619524291,
      "learning_rate": 6.866153864597254e-06,
      "loss": 0.7262,
      "step": 3101
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4896800624230524,
      "learning_rate": 6.864230399133172e-06,
      "loss": 0.8466,
      "step": 3102
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4230194706135122,
      "learning_rate": 6.862306613186275e-06,
      "loss": 0.7593,
      "step": 3103
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6673297837074659,
      "learning_rate": 6.86038250708728e-06,
      "loss": 0.8865,
      "step": 3104
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4783582962815252,
      "learning_rate": 6.858458081166964e-06,
      "loss": 0.7503,
      "step": 3105
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.7493588567449786,
      "learning_rate": 6.856533335756159e-06,
      "loss": 0.6279,
      "step": 3106
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6010224391971986,
      "learning_rate": 6.854608271185752e-06,
      "loss": 0.7614,
      "step": 3107
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.589550494583977,
      "learning_rate": 6.852682887786681e-06,
      "loss": 0.8945,
      "step": 3108
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4690627552246969,
      "learning_rate": 6.850757185889945e-06,
      "loss": 0.8618,
      "step": 3109
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.365031217961497,
      "learning_rate": 6.848831165826591e-06,
      "loss": 0.773,
      "step": 3110
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.703181446236969,
      "learning_rate": 6.846904827927728e-06,
      "loss": 0.7742,
      "step": 3111
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.2563986836548753,
      "learning_rate": 6.844978172524514e-06,
      "loss": 0.9205,
      "step": 3112
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.62413169746195,
      "learning_rate": 6.843051199948162e-06,
      "loss": 0.7896,
      "step": 3113
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.9330314781729547,
      "learning_rate": 6.841123910529943e-06,
      "loss": 0.902,
      "step": 3114
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6628574851155753,
      "learning_rate": 6.839196304601179e-06,
      "loss": 0.8819,
      "step": 3115
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.484194863509774,
      "learning_rate": 6.837268382493248e-06,
      "loss": 0.8921,
      "step": 3116
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8489104104715378,
      "learning_rate": 6.835340144537584e-06,
      "loss": 0.6141,
      "step": 3117
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5260618675349815,
      "learning_rate": 6.833411591065673e-06,
      "loss": 0.8775,
      "step": 3118
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.525763516706739,
      "learning_rate": 6.831482722409053e-06,
      "loss": 0.7611,
      "step": 3119
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.470913934020024,
      "learning_rate": 6.829553538899321e-06,
      "loss": 0.7616,
      "step": 3120
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8536385166697549,
      "learning_rate": 6.8276240408681245e-06,
      "loss": 0.667,
      "step": 3121
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5234583576444514,
      "learning_rate": 6.825694228647169e-06,
      "loss": 0.8178,
      "step": 3122
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5027330244642887,
      "learning_rate": 6.823764102568211e-06,
      "loss": 0.8479,
      "step": 3123
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8223156310942223,
      "learning_rate": 6.82183366296306e-06,
      "loss": 0.7431,
      "step": 3124
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.498557870682554,
      "learning_rate": 6.819902910163582e-06,
      "loss": 0.7678,
      "step": 3125
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.311633434605066,
      "learning_rate": 6.817971844501695e-06,
      "loss": 0.8566,
      "step": 3126
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5309316339912242,
      "learning_rate": 6.8160404663093725e-06,
      "loss": 0.7886,
      "step": 3127
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5007129652272404,
      "learning_rate": 6.814108775918642e-06,
      "loss": 0.8256,
      "step": 3128
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6287199444020783,
      "learning_rate": 6.812176773661579e-06,
      "loss": 0.8151,
      "step": 3129
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6522893162288317,
      "learning_rate": 6.810244459870322e-06,
      "loss": 0.8301,
      "step": 3130
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4455333322194692,
      "learning_rate": 6.808311834877057e-06,
      "loss": 0.8795,
      "step": 3131
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7798783546801127,
      "learning_rate": 6.806378899014023e-06,
      "loss": 0.8645,
      "step": 3132
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7925821670523465,
      "learning_rate": 6.804445652613514e-06,
      "loss": 0.7082,
      "step": 3133
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5174415801782775,
      "learning_rate": 6.802512096007879e-06,
      "loss": 0.8914,
      "step": 3134
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.573346633325526,
      "learning_rate": 6.800578229529519e-06,
      "loss": 0.7969,
      "step": 3135
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.452485671341413,
      "learning_rate": 6.798644053510886e-06,
      "loss": 0.8287,
      "step": 3136
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7221214193918544,
      "learning_rate": 6.796709568284488e-06,
      "loss": 0.8378,
      "step": 3137
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4317396210501745,
      "learning_rate": 6.794774774182887e-06,
      "loss": 0.8733,
      "step": 3138
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.332002069451318,
      "learning_rate": 6.792839671538696e-06,
      "loss": 0.7785,
      "step": 3139
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8842711822018648,
      "learning_rate": 6.790904260684581e-06,
      "loss": 0.658,
      "step": 3140
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7529361217734631,
      "learning_rate": 6.788968541953262e-06,
      "loss": 0.7076,
      "step": 3141
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4488420177764045,
      "learning_rate": 6.787032515677509e-06,
      "loss": 0.7297,
      "step": 3142
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5055653087445537,
      "learning_rate": 6.785096182190152e-06,
      "loss": 0.811,
      "step": 3143
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3024623588184387,
      "learning_rate": 6.783159541824065e-06,
      "loss": 0.7395,
      "step": 3144
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4447736165938314,
      "learning_rate": 6.781222594912182e-06,
      "loss": 0.8041,
      "step": 3145
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5805019781947591,
      "learning_rate": 6.779285341787484e-06,
      "loss": 0.8247,
      "step": 3146
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.443033057002384,
      "learning_rate": 6.7773477827830085e-06,
      "loss": 0.8915,
      "step": 3147
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.472895064125661,
      "learning_rate": 6.775409918231843e-06,
      "loss": 0.7436,
      "step": 3148
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.356482353626805,
      "learning_rate": 6.773471748467133e-06,
      "loss": 0.7526,
      "step": 3149
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.766713740359519,
      "learning_rate": 6.771533273822069e-06,
      "loss": 0.8596,
      "step": 3150
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.468151191180781,
      "learning_rate": 6.769594494629898e-06,
      "loss": 0.8042,
      "step": 3151
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.118353998027517,
      "learning_rate": 6.767655411223917e-06,
      "loss": 0.8028,
      "step": 3152
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5158264122421594,
      "learning_rate": 6.76571602393748e-06,
      "loss": 0.9275,
      "step": 3153
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.7632444230184462,
      "learning_rate": 6.7637763331039885e-06,
      "loss": 0.6555,
      "step": 3154
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8196964308257633,
      "learning_rate": 6.761836339056896e-06,
      "loss": 0.7836,
      "step": 3155
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4141395905863254,
      "learning_rate": 6.759896042129713e-06,
      "loss": 0.9428,
      "step": 3156
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9190196088320911,
      "learning_rate": 6.757955442655998e-06,
      "loss": 0.6798,
      "step": 3157
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.486274819888135,
      "learning_rate": 6.756014540969362e-06,
      "loss": 0.8265,
      "step": 3158
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.8329859420360223,
      "learning_rate": 6.754073337403469e-06,
      "loss": 0.7698,
      "step": 3159
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3362809623443983,
      "learning_rate": 6.752131832292036e-06,
      "loss": 0.7858,
      "step": 3160
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.417994745656635,
      "learning_rate": 6.750190025968827e-06,
      "loss": 0.8022,
      "step": 3161
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4891140944417567,
      "learning_rate": 6.748247918767662e-06,
      "loss": 0.856,
      "step": 3162
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5997177859286862,
      "learning_rate": 6.746305511022414e-06,
      "loss": 0.7746,
      "step": 3163
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4646424604383599,
      "learning_rate": 6.744362803067003e-06,
      "loss": 0.8711,
      "step": 3164
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6411847044150347,
      "learning_rate": 6.742419795235403e-06,
      "loss": 0.862,
      "step": 3165
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3804881537602367,
      "learning_rate": 6.74047648786164e-06,
      "loss": 0.778,
      "step": 3166
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8250827561045517,
      "learning_rate": 6.738532881279794e-06,
      "loss": 0.6401,
      "step": 3167
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9896120163650792,
      "learning_rate": 6.73658897582399e-06,
      "loss": 0.6626,
      "step": 3168
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1022266064907518,
      "learning_rate": 6.734644771828407e-06,
      "loss": 0.8947,
      "step": 3169
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4580862749327255,
      "learning_rate": 6.7327002696272795e-06,
      "loss": 0.9606,
      "step": 3170
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6055010067981748,
      "learning_rate": 6.730755469554888e-06,
      "loss": 0.7946,
      "step": 3171
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4178701905745879,
      "learning_rate": 6.728810371945567e-06,
      "loss": 0.8699,
      "step": 3172
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.688875976281984,
      "learning_rate": 6.7268649771337e-06,
      "loss": 0.8792,
      "step": 3173
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5231801169614532,
      "learning_rate": 6.724919285453726e-06,
      "loss": 0.7618,
      "step": 3174
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.243544498150584,
      "learning_rate": 6.722973297240128e-06,
      "loss": 0.7532,
      "step": 3175
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4966856168863183,
      "learning_rate": 6.721027012827444e-06,
      "loss": 0.8001,
      "step": 3176
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8886247468682544,
      "learning_rate": 6.719080432550269e-06,
      "loss": 0.7877,
      "step": 3177
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.399938712167895,
      "learning_rate": 6.7171335567432365e-06,
      "loss": 0.8222,
      "step": 3178
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.356626813865272,
      "learning_rate": 6.7151863857410375e-06,
      "loss": 0.7324,
      "step": 3179
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5865060651494127,
      "learning_rate": 6.713238919878415e-06,
      "loss": 0.9502,
      "step": 3180
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.5679875782734007,
      "learning_rate": 6.711291159490162e-06,
      "loss": 0.7394,
      "step": 3181
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4927708376580038,
      "learning_rate": 6.709343104911119e-06,
      "loss": 0.7498,
      "step": 3182
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.494897226156021,
      "learning_rate": 6.70739475647618e-06,
      "loss": 0.7801,
      "step": 3183
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5605093182475938,
      "learning_rate": 6.705446114520289e-06,
      "loss": 0.7515,
      "step": 3184
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.1012794918987097,
      "learning_rate": 6.7034971793784385e-06,
      "loss": 0.8483,
      "step": 3185
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.424395274564723,
      "learning_rate": 6.701547951385675e-06,
      "loss": 0.9584,
      "step": 3186
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3083033079133979,
      "learning_rate": 6.699598430877092e-06,
      "loss": 0.7528,
      "step": 3187
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9522901296270976,
      "learning_rate": 6.697648618187836e-06,
      "loss": 0.8001,
      "step": 3188
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6568961487345055,
      "learning_rate": 6.6956985136531015e-06,
      "loss": 0.9312,
      "step": 3189
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9072067363758787,
      "learning_rate": 6.693748117608134e-06,
      "loss": 0.5662,
      "step": 3190
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.341117545423125,
      "learning_rate": 6.69179743038823e-06,
      "loss": 0.9167,
      "step": 3191
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6411328916003254,
      "learning_rate": 6.6898464523287354e-06,
      "loss": 0.773,
      "step": 3192
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5894158329979045,
      "learning_rate": 6.687895183765043e-06,
      "loss": 0.8625,
      "step": 3193
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3806584030237052,
      "learning_rate": 6.685943625032602e-06,
      "loss": 0.8189,
      "step": 3194
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3957254031729922,
      "learning_rate": 6.683991776466907e-06,
      "loss": 0.8887,
      "step": 3195
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5070923824715659,
      "learning_rate": 6.682039638403503e-06,
      "loss": 0.737,
      "step": 3196
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4240729157410543,
      "learning_rate": 6.6800872111779854e-06,
      "loss": 0.7345,
      "step": 3197
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.3963959322956994,
      "learning_rate": 6.678134495125999e-06,
      "loss": 0.7404,
      "step": 3198
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.5153615267728497,
      "learning_rate": 6.676181490583238e-06,
      "loss": 0.72,
      "step": 3199
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.766470618188615,
      "learning_rate": 6.674228197885448e-06,
      "loss": 0.7147,
      "step": 3200
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5436959714675837,
      "learning_rate": 6.67227461736842e-06,
      "loss": 0.8367,
      "step": 3201
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2558553636741205,
      "learning_rate": 6.670320749367998e-06,
      "loss": 0.8021,
      "step": 3202
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3805279841178217,
      "learning_rate": 6.668366594220076e-06,
      "loss": 0.7438,
      "step": 3203
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7071738020438019,
      "learning_rate": 6.666412152260595e-06,
      "loss": 0.8228,
      "step": 3204
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.51817021656269,
      "learning_rate": 6.664457423825547e-06,
      "loss": 0.8033,
      "step": 3205
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5511027254354366,
      "learning_rate": 6.662502409250971e-06,
      "loss": 0.8439,
      "step": 3206
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.405167736236595,
      "learning_rate": 6.660547108872959e-06,
      "loss": 0.7923,
      "step": 3207
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.683946618611721,
      "learning_rate": 6.6585915230276445e-06,
      "loss": 0.8294,
      "step": 3208
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.7403731928895818,
      "learning_rate": 6.656635652051222e-06,
      "loss": 0.8173,
      "step": 3209
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9269626583239778,
      "learning_rate": 6.654679496279925e-06,
      "loss": 0.7801,
      "step": 3210
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8265409256502259,
      "learning_rate": 6.6527230560500415e-06,
      "loss": 0.9517,
      "step": 3211
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6849609464428816,
      "learning_rate": 6.6507663316979025e-06,
      "loss": 0.8236,
      "step": 3212
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3341139029726115,
      "learning_rate": 6.648809323559895e-06,
      "loss": 0.7005,
      "step": 3213
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5450514116504475,
      "learning_rate": 6.64685203197245e-06,
      "loss": 0.7905,
      "step": 3214
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3160866958112716,
      "learning_rate": 6.644894457272048e-06,
      "loss": 0.7438,
      "step": 3215
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.347626379193021,
      "learning_rate": 6.64293659979522e-06,
      "loss": 0.8232,
      "step": 3216
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3873485059378001,
      "learning_rate": 6.640978459878543e-06,
      "loss": 0.7984,
      "step": 3217
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3705110017419515,
      "learning_rate": 6.639020037858647e-06,
      "loss": 0.7659,
      "step": 3218
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.608275231152084,
      "learning_rate": 6.637061334072204e-06,
      "loss": 0.8579,
      "step": 3219
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5420398687464187,
      "learning_rate": 6.635102348855939e-06,
      "loss": 0.7988,
      "step": 3220
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2619886103426998,
      "learning_rate": 6.6331430825466245e-06,
      "loss": 0.7672,
      "step": 3221
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.8777731683582646,
      "learning_rate": 6.631183535481082e-06,
      "loss": 0.8547,
      "step": 3222
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5632397292550804,
      "learning_rate": 6.629223707996177e-06,
      "loss": 0.7586,
      "step": 3223
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9789637152557105,
      "learning_rate": 6.627263600428833e-06,
      "loss": 0.7808,
      "step": 3224
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5266911596238852,
      "learning_rate": 6.625303213116009e-06,
      "loss": 0.7073,
      "step": 3225
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4560454633382844,
      "learning_rate": 6.62334254639472e-06,
      "loss": 0.6676,
      "step": 3226
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4075277472264094,
      "learning_rate": 6.621381600602028e-06,
      "loss": 0.7671,
      "step": 3227
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3685348908680517,
      "learning_rate": 6.619420376075043e-06,
      "loss": 0.747,
      "step": 3228
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.413852936668949,
      "learning_rate": 6.617458873150922e-06,
      "loss": 0.8561,
      "step": 3229
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.573614538020398,
      "learning_rate": 6.6154970921668685e-06,
      "loss": 0.8803,
      "step": 3230
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8640684500270948,
      "learning_rate": 6.613535033460135e-06,
      "loss": 0.6995,
      "step": 3231
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4931596429476868,
      "learning_rate": 6.611572697368026e-06,
      "loss": 0.9121,
      "step": 3232
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7221496039144935,
      "learning_rate": 6.6096100842278865e-06,
      "loss": 0.6796,
      "step": 3233
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6929947833199814,
      "learning_rate": 6.607647194377113e-06,
      "loss": 0.8783,
      "step": 3234
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.634647422987348,
      "learning_rate": 6.60568402815315e-06,
      "loss": 0.8467,
      "step": 3235
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6370592817921692,
      "learning_rate": 6.603720585893487e-06,
      "loss": 0.9122,
      "step": 3236
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.6878441928849806,
      "learning_rate": 6.601756867935664e-06,
      "loss": 0.8434,
      "step": 3237
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9185505788456916,
      "learning_rate": 6.599792874617267e-06,
      "loss": 0.6596,
      "step": 3238
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.226949338778538,
      "learning_rate": 6.597828606275928e-06,
      "loss": 0.838,
      "step": 3239
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.399090329632855,
      "learning_rate": 6.595864063249326e-06,
      "loss": 0.8107,
      "step": 3240
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3517574535181203,
      "learning_rate": 6.593899245875193e-06,
      "loss": 0.8352,
      "step": 3241
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4030509200479917,
      "learning_rate": 6.591934154491301e-06,
      "loss": 0.7003,
      "step": 3242
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5110504133268257,
      "learning_rate": 6.589968789435472e-06,
      "loss": 1.0118,
      "step": 3243
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7127930404944547,
      "learning_rate": 6.588003151045577e-06,
      "loss": 0.6209,
      "step": 3244
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3968788074844463,
      "learning_rate": 6.586037239659529e-06,
      "loss": 0.7439,
      "step": 3245
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6003114267432292,
      "learning_rate": 6.584071055615293e-06,
      "loss": 0.8694,
      "step": 3246
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4742762784811132,
      "learning_rate": 6.582104599250878e-06,
      "loss": 0.7884,
      "step": 3247
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.434400147918678,
      "learning_rate": 6.580137870904342e-06,
      "loss": 0.8033,
      "step": 3248
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2877891310244631,
      "learning_rate": 6.578170870913787e-06,
      "loss": 0.938,
      "step": 3249
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5590706109578862,
      "learning_rate": 6.576203599617363e-06,
      "loss": 0.8591,
      "step": 3250
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7102199835585887,
      "learning_rate": 6.574236057353268e-06,
      "loss": 0.8888,
      "step": 3251
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6791151165060316,
      "learning_rate": 6.572268244459745e-06,
      "loss": 0.985,
      "step": 3252
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3336227451833034,
      "learning_rate": 6.570300161275084e-06,
      "loss": 0.892,
      "step": 3253
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3661752338268256,
      "learning_rate": 6.568331808137619e-06,
      "loss": 0.8341,
      "step": 3254
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3972977639833926,
      "learning_rate": 6.5663631853857355e-06,
      "loss": 0.8956,
      "step": 3255
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.8369424406425987,
      "learning_rate": 6.564394293357861e-06,
      "loss": 0.8533,
      "step": 3256
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.372960800916742,
      "learning_rate": 6.562425132392473e-06,
      "loss": 0.7774,
      "step": 3257
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5629050287204638,
      "learning_rate": 6.560455702828089e-06,
      "loss": 0.8836,
      "step": 3258
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5877106322016918,
      "learning_rate": 6.558486005003281e-06,
      "loss": 0.7652,
      "step": 3259
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.632865395601131,
      "learning_rate": 6.556516039256662e-06,
      "loss": 0.7839,
      "step": 3260
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8836709227806704,
      "learning_rate": 6.554545805926891e-06,
      "loss": 0.7052,
      "step": 3261
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4822976091365745,
      "learning_rate": 6.552575305352672e-06,
      "loss": 0.7888,
      "step": 3262
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6178948979001835,
      "learning_rate": 6.55060453787276e-06,
      "loss": 0.8776,
      "step": 3263
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.708457945323568,
      "learning_rate": 6.548633503825953e-06,
      "loss": 0.8545,
      "step": 3264
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6587242108788294,
      "learning_rate": 6.546662203551092e-06,
      "loss": 0.7691,
      "step": 3265
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.307623703779778,
      "learning_rate": 6.544690637387068e-06,
      "loss": 0.6934,
      "step": 3266
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5722375917906204,
      "learning_rate": 6.5427188056728165e-06,
      "loss": 0.8155,
      "step": 3267
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.505284804737008,
      "learning_rate": 6.540746708747317e-06,
      "loss": 0.8015,
      "step": 3268
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4440027799394466,
      "learning_rate": 6.538774346949597e-06,
      "loss": 0.7988,
      "step": 3269
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6746814812300141,
      "learning_rate": 6.536801720618727e-06,
      "loss": 0.8415,
      "step": 3270
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4912180194310873,
      "learning_rate": 6.534828830093827e-06,
      "loss": 0.9224,
      "step": 3271
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3618455804318568,
      "learning_rate": 6.532855675714055e-06,
      "loss": 0.7853,
      "step": 3272
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3125351668971237,
      "learning_rate": 6.5308822578186225e-06,
      "loss": 0.8473,
      "step": 3273
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8945136874024611,
      "learning_rate": 6.528908576746784e-06,
      "loss": 0.6758,
      "step": 3274
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3650043594276824,
      "learning_rate": 6.526934632837835e-06,
      "loss": 0.8253,
      "step": 3275
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4511900202205925,
      "learning_rate": 6.5249604264311216e-06,
      "loss": 0.6964,
      "step": 3276
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3255418135545691,
      "learning_rate": 6.522985957866032e-06,
      "loss": 0.8238,
      "step": 3277
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8027635073820448,
      "learning_rate": 6.521011227482e-06,
      "loss": 0.64,
      "step": 3278
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3350692312208363,
      "learning_rate": 6.519036235618505e-06,
      "loss": 0.7365,
      "step": 3279
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2823005972327148,
      "learning_rate": 6.517060982615071e-06,
      "loss": 0.7634,
      "step": 3280
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2659218649952284,
      "learning_rate": 6.5150854688112686e-06,
      "loss": 0.7996,
      "step": 3281
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4758524254518217,
      "learning_rate": 6.513109694546707e-06,
      "loss": 0.8156,
      "step": 3282
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4828962315259606,
      "learning_rate": 6.511133660161047e-06,
      "loss": 0.793,
      "step": 3283
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5108182944012387,
      "learning_rate": 6.5091573659939945e-06,
      "loss": 0.7493,
      "step": 3284
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3802025957798183,
      "learning_rate": 6.507180812385295e-06,
      "loss": 0.7823,
      "step": 3285
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.7251043416118268,
      "learning_rate": 6.50520399967474e-06,
      "loss": 0.8604,
      "step": 3286
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.542621043486384,
      "learning_rate": 6.503226928202167e-06,
      "loss": 0.7915,
      "step": 3287
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3459075278017782,
      "learning_rate": 6.5012495983074605e-06,
      "loss": 0.7195,
      "step": 3288
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7877385229682635,
      "learning_rate": 6.499272010330543e-06,
      "loss": 0.655,
      "step": 3289
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3576464038672293,
      "learning_rate": 6.497294164611385e-06,
      "loss": 0.8361,
      "step": 3290
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.91835852061312,
      "learning_rate": 6.495316061490003e-06,
      "loss": 0.697,
      "step": 3291
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7726306544503941,
      "learning_rate": 6.493337701306454e-06,
      "loss": 0.6592,
      "step": 3292
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3370859661168846,
      "learning_rate": 6.4913590844008436e-06,
      "loss": 0.7777,
      "step": 3293
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6277018490474,
      "learning_rate": 6.489380211113316e-06,
      "loss": 0.7571,
      "step": 3294
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5760429804847087,
      "learning_rate": 6.487401081784063e-06,
      "loss": 0.9685,
      "step": 3295
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.8317807246797935,
      "learning_rate": 6.485421696753321e-06,
      "loss": 0.8613,
      "step": 3296
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6333329225066244,
      "learning_rate": 6.4834420563613685e-06,
      "loss": 0.8351,
      "step": 3297
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4328833330991722,
      "learning_rate": 6.481462160948531e-06,
      "loss": 0.7834,
      "step": 3298
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5214091290641638,
      "learning_rate": 6.479482010855172e-06,
      "loss": 0.7996,
      "step": 3299
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6001728681587812,
      "learning_rate": 6.477501606421703e-06,
      "loss": 0.7337,
      "step": 3300
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3848572503287213,
      "learning_rate": 6.4755209479885806e-06,
      "loss": 0.7798,
      "step": 3301
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8546528544515015,
      "learning_rate": 6.473540035896301e-06,
      "loss": 0.642,
      "step": 3302
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2213111716751373,
      "learning_rate": 6.471558870485407e-06,
      "loss": 0.6517,
      "step": 3303
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.9381912849599905,
      "learning_rate": 6.469577452096483e-06,
      "loss": 0.8094,
      "step": 3304
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9030353454620841,
      "learning_rate": 6.467595781070158e-06,
      "loss": 0.6168,
      "step": 3305
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8449551861512159,
      "learning_rate": 6.4656138577471036e-06,
      "loss": 0.6965,
      "step": 3306
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2952469216577847,
      "learning_rate": 6.463631682468038e-06,
      "loss": 0.77,
      "step": 3307
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.343877607280959,
      "learning_rate": 6.461649255573716e-06,
      "loss": 0.7965,
      "step": 3308
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.379729818766807,
      "learning_rate": 6.459666577404944e-06,
      "loss": 0.6846,
      "step": 3309
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8245528507449814,
      "learning_rate": 6.457683648302565e-06,
      "loss": 0.6387,
      "step": 3310
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5300376176244916,
      "learning_rate": 6.455700468607469e-06,
      "loss": 0.8773,
      "step": 3311
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4764302888519136,
      "learning_rate": 6.453717038660584e-06,
      "loss": 0.8361,
      "step": 3312
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3057463767167157,
      "learning_rate": 6.451733358802889e-06,
      "loss": 0.7584,
      "step": 3313
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3126217573175742,
      "learning_rate": 6.449749429375398e-06,
      "loss": 0.7358,
      "step": 3314
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4485988315823772,
      "learning_rate": 6.4477652507191744e-06,
      "loss": 0.8095,
      "step": 3315
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4754566015652106,
      "learning_rate": 6.44578082317532e-06,
      "loss": 0.8593,
      "step": 3316
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4540133528349584,
      "learning_rate": 6.443796147084982e-06,
      "loss": 0.7058,
      "step": 3317
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6635707427433162,
      "learning_rate": 6.441811222789347e-06,
      "loss": 0.7436,
      "step": 3318
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8286876206656486,
      "learning_rate": 6.439826050629649e-06,
      "loss": 0.5628,
      "step": 3319
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.7997772742196043,
      "learning_rate": 6.4378406309471605e-06,
      "loss": 0.744,
      "step": 3320
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5122598428607745,
      "learning_rate": 6.435854964083199e-06,
      "loss": 0.7994,
      "step": 3321
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4004954292022032,
      "learning_rate": 6.433869050379122e-06,
      "loss": 0.8213,
      "step": 3322
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4271094464932326,
      "learning_rate": 6.431882890176334e-06,
      "loss": 0.8753,
      "step": 3323
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5045558150465042,
      "learning_rate": 6.429896483816277e-06,
      "loss": 0.8361,
      "step": 3324
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7659135779527773,
      "learning_rate": 6.427909831640438e-06,
      "loss": 0.7262,
      "step": 3325
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6705108707976994,
      "learning_rate": 6.425922933990344e-06,
      "loss": 0.9449,
      "step": 3326
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6217593207505174,
      "learning_rate": 6.423935791207568e-06,
      "loss": 0.8581,
      "step": 3327
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5170872757432285,
      "learning_rate": 6.421948403633721e-06,
      "loss": 0.735,
      "step": 3328
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7715508190508972,
      "learning_rate": 6.4199607716104605e-06,
      "loss": 0.6245,
      "step": 3329
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4501815623985965,
      "learning_rate": 6.41797289547948e-06,
      "loss": 0.7424,
      "step": 3330
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.610319920883225,
      "learning_rate": 6.415984775582521e-06,
      "loss": 0.7709,
      "step": 3331
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3058070971506492,
      "learning_rate": 6.413996412261363e-06,
      "loss": 0.8159,
      "step": 3332
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5732213007014837,
      "learning_rate": 6.412007805857828e-06,
      "loss": 0.7386,
      "step": 3333
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8431989555231819,
      "learning_rate": 6.410018956713784e-06,
      "loss": 0.7349,
      "step": 3334
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.7061560928457504,
      "learning_rate": 6.408029865171135e-06,
      "loss": 0.7885,
      "step": 3335
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.519763468473771,
      "learning_rate": 6.406040531571828e-06,
      "loss": 0.8002,
      "step": 3336
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.491528996791979,
      "learning_rate": 6.404050956257853e-06,
      "loss": 0.9144,
      "step": 3337
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4934418879222986,
      "learning_rate": 6.402061139571243e-06,
      "loss": 0.7411,
      "step": 3338
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3956514147678925,
      "learning_rate": 6.400071081854068e-06,
      "loss": 0.8274,
      "step": 3339
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.545417997024395,
      "learning_rate": 6.398080783448443e-06,
      "loss": 0.7551,
      "step": 3340
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4877837456664404,
      "learning_rate": 6.396090244696523e-06,
      "loss": 0.8713,
      "step": 3341
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2862577806668078,
      "learning_rate": 6.394099465940505e-06,
      "loss": 0.8161,
      "step": 3342
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4700564853969853,
      "learning_rate": 6.3921084475226295e-06,
      "loss": 0.7482,
      "step": 3343
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.508380821512487,
      "learning_rate": 6.39011718978517e-06,
      "loss": 0.8216,
      "step": 3344
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.903343276369558,
      "learning_rate": 6.388125693070452e-06,
      "loss": 0.7913,
      "step": 3345
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5746526233693998,
      "learning_rate": 6.386133957720833e-06,
      "loss": 0.8171,
      "step": 3346
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4766310415346269,
      "learning_rate": 6.384141984078719e-06,
      "loss": 0.7506,
      "step": 3347
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3149320533134383,
      "learning_rate": 6.38214977248655e-06,
      "loss": 0.7987,
      "step": 3348
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.365550778052576,
      "learning_rate": 6.380157323286813e-06,
      "loss": 0.694,
      "step": 3349
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.7538596766208936,
      "learning_rate": 6.378164636822033e-06,
      "loss": 0.8375,
      "step": 3350
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.7769221118915242,
      "learning_rate": 6.376171713434771e-06,
      "loss": 0.7562,
      "step": 3351
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6252036747225318,
      "learning_rate": 6.3741785534676404e-06,
      "loss": 0.8791,
      "step": 3352
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4492373326679036,
      "learning_rate": 6.372185157263287e-06,
      "loss": 0.848,
      "step": 3353
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3297083522256556,
      "learning_rate": 6.370191525164394e-06,
      "loss": 0.777,
      "step": 3354
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.903276250028889,
      "learning_rate": 6.368197657513695e-06,
      "loss": 0.7704,
      "step": 3355
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4302218587195923,
      "learning_rate": 6.366203554653957e-06,
      "loss": 0.8779,
      "step": 3356
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7696099419888183,
      "learning_rate": 6.36420921692799e-06,
      "loss": 0.6471,
      "step": 3357
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3618877695676053,
      "learning_rate": 6.362214644678641e-06,
      "loss": 0.8018,
      "step": 3358
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3856772488417193,
      "learning_rate": 6.360219838248806e-06,
      "loss": 0.8322,
      "step": 3359
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4611977887655538,
      "learning_rate": 6.358224797981409e-06,
      "loss": 0.7946,
      "step": 3360
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4526360054658145,
      "learning_rate": 6.356229524219425e-06,
      "loss": 0.8062,
      "step": 3361
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3891474199497926,
      "learning_rate": 6.354234017305863e-06,
      "loss": 0.7061,
      "step": 3362
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.624689938044453,
      "learning_rate": 6.352238277583773e-06,
      "loss": 0.8108,
      "step": 3363
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5417828063715058,
      "learning_rate": 6.350242305396247e-06,
      "loss": 0.8563,
      "step": 3364
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5779780099041072,
      "learning_rate": 6.348246101086414e-06,
      "loss": 0.8884,
      "step": 3365
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6022739037927571,
      "learning_rate": 6.346249664997448e-06,
      "loss": 0.8474,
      "step": 3366
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4372299103753392,
      "learning_rate": 6.344252997472556e-06,
      "loss": 0.7285,
      "step": 3367
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4501589270562765,
      "learning_rate": 6.342256098854992e-06,
      "loss": 0.8041,
      "step": 3368
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4117748326951043,
      "learning_rate": 6.34025896948804e-06,
      "loss": 0.8251,
      "step": 3369
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3788865828842798,
      "learning_rate": 6.338261609715037e-06,
      "loss": 0.8183,
      "step": 3370
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.451370738518963,
      "learning_rate": 6.336264019879348e-06,
      "loss": 0.8997,
      "step": 3371
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0327958511662492,
      "learning_rate": 6.334266200324381e-06,
      "loss": 0.6397,
      "step": 3372
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4140908538325128,
      "learning_rate": 6.332268151393589e-06,
      "loss": 0.8776,
      "step": 3373
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.841904273044573,
      "learning_rate": 6.330269873430455e-06,
      "loss": 0.9241,
      "step": 3374
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5513715683383509,
      "learning_rate": 6.3282713667785086e-06,
      "loss": 0.8607,
      "step": 3375
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8271914710468007,
      "learning_rate": 6.326272631781314e-06,
      "loss": 0.6347,
      "step": 3376
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.282318692620968,
      "learning_rate": 6.32427366878248e-06,
      "loss": 0.7938,
      "step": 3377
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5094977977736166,
      "learning_rate": 6.322274478125651e-06,
      "loss": 0.7705,
      "step": 3378
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5367468129163149,
      "learning_rate": 6.320275060154508e-06,
      "loss": 0.8018,
      "step": 3379
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.40496814045718,
      "learning_rate": 6.318275415212777e-06,
      "loss": 0.7897,
      "step": 3380
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8901592663767973,
      "learning_rate": 6.316275543644219e-06,
      "loss": 0.6796,
      "step": 3381
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.601739026536006,
      "learning_rate": 6.314275445792637e-06,
      "loss": 0.7524,
      "step": 3382
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.7109212016735742,
      "learning_rate": 6.312275122001867e-06,
      "loss": 0.8822,
      "step": 3383
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7820539722472523,
      "learning_rate": 6.310274572615792e-06,
      "loss": 0.6553,
      "step": 3384
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6087494133603857,
      "learning_rate": 6.308273797978328e-06,
      "loss": 0.7553,
      "step": 3385
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.696445089198175,
      "learning_rate": 6.30627279843343e-06,
      "loss": 0.8621,
      "step": 3386
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.8552328090091595,
      "learning_rate": 6.304271574325096e-06,
      "loss": 0.6096,
      "step": 3387
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.4647441170487996,
      "learning_rate": 6.3022701259973565e-06,
      "loss": 0.9049,
      "step": 3388
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.8879229293555049,
      "learning_rate": 6.300268453794287e-06,
      "loss": 0.885,
      "step": 3389
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4336582531599724,
      "learning_rate": 6.298266558059995e-06,
      "loss": 0.8809,
      "step": 3390
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4785189212177643,
      "learning_rate": 6.296264439138631e-06,
      "loss": 0.7886,
      "step": 3391
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4921086676673516,
      "learning_rate": 6.294262097374383e-06,
      "loss": 0.8417,
      "step": 3392
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5920507361874374,
      "learning_rate": 6.292259533111474e-06,
      "loss": 0.8142,
      "step": 3393
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5742026170418202,
      "learning_rate": 6.2902567466941725e-06,
      "loss": 0.8245,
      "step": 3394
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.1236586712958125,
      "learning_rate": 6.288253738466777e-06,
      "loss": 0.844,
      "step": 3395
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.632361395380266,
      "learning_rate": 6.286250508773631e-06,
      "loss": 0.7697,
      "step": 3396
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.375995618522045,
      "learning_rate": 6.284247057959107e-06,
      "loss": 0.7104,
      "step": 3397
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5623671166827409,
      "learning_rate": 6.282243386367628e-06,
      "loss": 0.7801,
      "step": 3398
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6446552689085088,
      "learning_rate": 6.280239494343647e-06,
      "loss": 0.8676,
      "step": 3399
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3529954318486024,
      "learning_rate": 6.278235382231654e-06,
      "loss": 0.7535,
      "step": 3400
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4829166284081545,
      "learning_rate": 6.27623105037618e-06,
      "loss": 1.0038,
      "step": 3401
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5783751559253016,
      "learning_rate": 6.274226499121793e-06,
      "loss": 0.7791,
      "step": 3402
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7652047202301688,
      "learning_rate": 6.272221728813099e-06,
      "loss": 0.7826,
      "step": 3403
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5889062461277186,
      "learning_rate": 6.270216739794741e-06,
      "loss": 0.7315,
      "step": 3404
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4724045686918248,
      "learning_rate": 6.2682115324114e-06,
      "loss": 0.7606,
      "step": 3405
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2874871296456685,
      "learning_rate": 6.266206107007793e-06,
      "loss": 0.8486,
      "step": 3406
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.365091479643858,
      "learning_rate": 6.264200463928679e-06,
      "loss": 0.8054,
      "step": 3407
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6155165280307124,
      "learning_rate": 6.2621946035188474e-06,
      "loss": 0.745,
      "step": 3408
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3971035182277893,
      "learning_rate": 6.260188526123133e-06,
      "loss": 0.7433,
      "step": 3409
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6828292290061635,
      "learning_rate": 6.2581822320864e-06,
      "loss": 0.8396,
      "step": 3410
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6191437147298635,
      "learning_rate": 6.256175721753556e-06,
      "loss": 0.8505,
      "step": 3411
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3955288675616997,
      "learning_rate": 6.254168995469541e-06,
      "loss": 0.902,
      "step": 3412
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.489540830129053,
      "learning_rate": 6.252162053579338e-06,
      "loss": 0.685,
      "step": 3413
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.36840128490618,
      "learning_rate": 6.250154896427962e-06,
      "loss": 0.8215,
      "step": 3414
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8322191101891812,
      "learning_rate": 6.2481475243604654e-06,
      "loss": 0.7326,
      "step": 3415
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6327858298077307,
      "learning_rate": 6.246139937721939e-06,
      "loss": 0.7984,
      "step": 3416
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5552684711548657,
      "learning_rate": 6.244132136857511e-06,
      "loss": 0.7799,
      "step": 3417
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5654130796068886,
      "learning_rate": 6.242124122112347e-06,
      "loss": 0.7856,
      "step": 3418
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2475663185760593,
      "learning_rate": 6.240115893831644e-06,
      "loss": 0.7153,
      "step": 3419
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.9145631102574703,
      "learning_rate": 6.238107452360643e-06,
      "loss": 0.8157,
      "step": 3420
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4898528987294402,
      "learning_rate": 6.236098798044619e-06,
      "loss": 0.846,
      "step": 3421
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.3500418495160122,
      "learning_rate": 6.2340899312288795e-06,
      "loss": 0.8569,
      "step": 3422
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8255970277623369,
      "learning_rate": 6.232080852258776e-06,
      "loss": 0.646,
      "step": 3423
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8426625080354927,
      "learning_rate": 6.23007156147969e-06,
      "loss": 0.6467,
      "step": 3424
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3006548731005227,
      "learning_rate": 6.228062059237041e-06,
      "loss": 0.7667,
      "step": 3425
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8576242050679547,
      "learning_rate": 6.226052345876288e-06,
      "loss": 0.6923,
      "step": 3426
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8281730171133919,
      "learning_rate": 6.224042421742924e-06,
      "loss": 0.717,
      "step": 3427
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3700793317473208,
      "learning_rate": 6.222032287182477e-06,
      "loss": 0.8192,
      "step": 3428
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4594178807022544,
      "learning_rate": 6.220021942540512e-06,
      "loss": 0.844,
      "step": 3429
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6442258019689473,
      "learning_rate": 6.21801138816263e-06,
      "loss": 0.8501,
      "step": 3430
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6054803973491327,
      "learning_rate": 6.2160006243944726e-06,
      "loss": 0.8176,
      "step": 3431
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4102458210610722,
      "learning_rate": 6.213989651581711e-06,
      "loss": 0.7751,
      "step": 3432
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5195278316051566,
      "learning_rate": 6.211978470070052e-06,
      "loss": 0.9447,
      "step": 3433
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4278015718297243,
      "learning_rate": 6.209967080205244e-06,
      "loss": 0.7932,
      "step": 3434
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.50191172141465,
      "learning_rate": 6.20795548233307e-06,
      "loss": 0.8628,
      "step": 3435
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8337391575963851,
      "learning_rate": 6.205943676799344e-06,
      "loss": 0.6411,
      "step": 3436
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.352629303193655,
      "learning_rate": 6.203931663949918e-06,
      "loss": 0.8471,
      "step": 3437
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9001172307662871,
      "learning_rate": 6.201919444130684e-06,
      "loss": 0.6434,
      "step": 3438
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8422648238379962,
      "learning_rate": 6.199907017687562e-06,
      "loss": 0.778,
      "step": 3439
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.4470016835888653,
      "learning_rate": 6.197894384966513e-06,
      "loss": 0.8516,
      "step": 3440
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.521414135638155,
      "learning_rate": 6.195881546313533e-06,
      "loss": 0.8764,
      "step": 3441
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8194778435447205,
      "learning_rate": 6.193868502074651e-06,
      "loss": 0.6383,
      "step": 3442
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5527335048208453,
      "learning_rate": 6.191855252595933e-06,
      "loss": 0.9072,
      "step": 3443
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3315732701955674,
      "learning_rate": 6.189841798223479e-06,
      "loss": 0.7745,
      "step": 3444
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3362039823408094,
      "learning_rate": 6.1878281393034275e-06,
      "loss": 0.839,
      "step": 3445
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4548746182828427,
      "learning_rate": 6.1858142761819484e-06,
      "loss": 0.8387,
      "step": 3446
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.364246923432398,
      "learning_rate": 6.1838002092052465e-06,
      "loss": 0.7877,
      "step": 3447
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7876765169842329,
      "learning_rate": 6.181785938719566e-06,
      "loss": 0.6148,
      "step": 3448
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7678809406595393,
      "learning_rate": 6.179771465071182e-06,
      "loss": 0.8498,
      "step": 3449
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7406483094337126,
      "learning_rate": 6.177756788606406e-06,
      "loss": 0.6394,
      "step": 3450
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.548797435613985,
      "learning_rate": 6.175741909671584e-06,
      "loss": 0.8417,
      "step": 3451
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4616283847982372,
      "learning_rate": 6.173726828613098e-06,
      "loss": 0.8175,
      "step": 3452
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6735337998539068,
      "learning_rate": 6.171711545777363e-06,
      "loss": 0.8565,
      "step": 3453
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.435300630169237,
      "learning_rate": 6.169696061510831e-06,
      "loss": 0.7907,
      "step": 3454
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8510244820277385,
      "learning_rate": 6.167680376159983e-06,
      "loss": 0.7317,
      "step": 3455
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4610014970745362,
      "learning_rate": 6.165664490071343e-06,
      "loss": 0.6886,
      "step": 3456
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6124265350216158,
      "learning_rate": 6.163648403591462e-06,
      "loss": 0.8394,
      "step": 3457
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4927454328746592,
      "learning_rate": 6.161632117066932e-06,
      "loss": 0.808,
      "step": 3458
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3750662011502683,
      "learning_rate": 6.1596156308443746e-06,
      "loss": 0.695,
      "step": 3459
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7596828068735304,
      "learning_rate": 6.157598945270447e-06,
      "loss": 0.6791,
      "step": 3460
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4039543597100472,
      "learning_rate": 6.1555820606918384e-06,
      "loss": 0.8713,
      "step": 3461
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7140534544442567,
      "learning_rate": 6.153564977455278e-06,
      "loss": 0.7423,
      "step": 3462
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5320108311216376,
      "learning_rate": 6.151547695907525e-06,
      "loss": 0.8785,
      "step": 3463
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5097368860538183,
      "learning_rate": 6.149530216395374e-06,
      "loss": 0.8326,
      "step": 3464
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5213648777034505,
      "learning_rate": 6.1475125392656506e-06,
      "loss": 1.0347,
      "step": 3465
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4066325050798965,
      "learning_rate": 6.1454946648652204e-06,
      "loss": 0.827,
      "step": 3466
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7888062537096419,
      "learning_rate": 6.143476593540976e-06,
      "loss": 0.7608,
      "step": 3467
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3470441599133867,
      "learning_rate": 6.1414583256398494e-06,
      "loss": 0.8085,
      "step": 3468
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.539529760614332,
      "learning_rate": 6.139439861508804e-06,
      "loss": 0.9124,
      "step": 3469
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5355982810933144,
      "learning_rate": 6.137421201494837e-06,
      "loss": 0.8414,
      "step": 3470
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5289755570407024,
      "learning_rate": 6.135402345944979e-06,
      "loss": 0.7304,
      "step": 3471
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4468977144282424,
      "learning_rate": 6.1333832952062945e-06,
      "loss": 0.7619,
      "step": 3472
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.6173939755789313,
      "learning_rate": 6.1313640496258834e-06,
      "loss": 0.8792,
      "step": 3473
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3088908632895808,
      "learning_rate": 6.129344609550876e-06,
      "loss": 0.7382,
      "step": 3474
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.431548354557638,
      "learning_rate": 6.127324975328437e-06,
      "loss": 0.8469,
      "step": 3475
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.352683039681282,
      "learning_rate": 6.125305147305764e-06,
      "loss": 0.7553,
      "step": 3476
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3294346334107416,
      "learning_rate": 6.1232851258300944e-06,
      "loss": 0.8686,
      "step": 3477
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3183734925831303,
      "learning_rate": 6.121264911248688e-06,
      "loss": 0.7626,
      "step": 3478
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8175584480184244,
      "learning_rate": 6.1192445039088435e-06,
      "loss": 0.6052,
      "step": 3479
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4189002430159856,
      "learning_rate": 6.117223904157893e-06,
      "loss": 0.7927,
      "step": 3480
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.98415771939235,
      "learning_rate": 6.115203112343203e-06,
      "loss": 0.8043,
      "step": 3481
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5532330170999742,
      "learning_rate": 6.11318212881217e-06,
      "loss": 0.7836,
      "step": 3482
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4621353687191103,
      "learning_rate": 6.111160953912222e-06,
      "loss": 0.8014,
      "step": 3483
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3874072984381438,
      "learning_rate": 6.1091395879908255e-06,
      "loss": 0.7239,
      "step": 3484
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5762282143297404,
      "learning_rate": 6.107118031395475e-06,
      "loss": 0.8035,
      "step": 3485
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9623871512115065,
      "learning_rate": 6.1050962844737005e-06,
      "loss": 0.7345,
      "step": 3486
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.693278333901835,
      "learning_rate": 6.103074347573062e-06,
      "loss": 0.8748,
      "step": 3487
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8604202177981327,
      "learning_rate": 6.1010522210411575e-06,
      "loss": 0.6147,
      "step": 3488
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.769840669404792,
      "learning_rate": 6.0990299052256105e-06,
      "loss": 0.7863,
      "step": 3489
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7753220823489686,
      "learning_rate": 6.097007400474081e-06,
      "loss": 0.7719,
      "step": 3490
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4421605778950355,
      "learning_rate": 6.094984707134263e-06,
      "loss": 0.7968,
      "step": 3491
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5849773397793763,
      "learning_rate": 6.092961825553881e-06,
      "loss": 0.7942,
      "step": 3492
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9134746572269055,
      "learning_rate": 6.090938756080688e-06,
      "loss": 0.6749,
      "step": 3493
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.2549685631716656,
      "learning_rate": 6.088915499062475e-06,
      "loss": 0.7431,
      "step": 3494
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3257811867507174,
      "learning_rate": 6.0868920548470654e-06,
      "loss": 0.7978,
      "step": 3495
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3901341921325474,
      "learning_rate": 6.084868423782312e-06,
      "loss": 0.7713,
      "step": 3496
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8457236243850642,
      "learning_rate": 6.082844606216098e-06,
      "loss": 0.6865,
      "step": 3497
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3077180656380254,
      "learning_rate": 6.080820602496345e-06,
      "loss": 0.8178,
      "step": 3498
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.372700061854311,
      "learning_rate": 6.078796412970997e-06,
      "loss": 0.7847,
      "step": 3499
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.240504992103308,
      "learning_rate": 6.076772037988042e-06,
      "loss": 0.7289,
      "step": 3500
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7091916054746998,
      "learning_rate": 6.07474747789549e-06,
      "loss": 0.8905,
      "step": 3501
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9980268367938885,
      "learning_rate": 6.072722733041387e-06,
      "loss": 0.8914,
      "step": 3502
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5139250117042433,
      "learning_rate": 6.07069780377381e-06,
      "loss": 0.7614,
      "step": 3503
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3493797397300424,
      "learning_rate": 6.068672690440868e-06,
      "loss": 0.8029,
      "step": 3504
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8319642986219322,
      "learning_rate": 6.066647393390701e-06,
      "loss": 0.6743,
      "step": 3505
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3907570410950876,
      "learning_rate": 6.064621912971483e-06,
      "loss": 0.8638,
      "step": 3506
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5051276061024759,
      "learning_rate": 6.062596249531414e-06,
      "loss": 0.822,
      "step": 3507
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5154699127683138,
      "learning_rate": 6.060570403418731e-06,
      "loss": 0.8151,
      "step": 3508
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.608594847877078,
      "learning_rate": 6.058544374981701e-06,
      "loss": 0.8617,
      "step": 3509
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3158584007540073,
      "learning_rate": 6.056518164568622e-06,
      "loss": 0.8367,
      "step": 3510
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8345706345177533,
      "learning_rate": 6.054491772527822e-06,
      "loss": 0.7044,
      "step": 3511
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5146785754620167,
      "learning_rate": 6.052465199207661e-06,
      "loss": 0.8673,
      "step": 3512
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9254345146942289,
      "learning_rate": 6.050438444956531e-06,
      "loss": 0.6557,
      "step": 3513
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3841885146374833,
      "learning_rate": 6.048411510122855e-06,
      "loss": 0.8204,
      "step": 3514
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3575665388912515,
      "learning_rate": 6.046384395055086e-06,
      "loss": 0.8048,
      "step": 3515
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4291809610724748,
      "learning_rate": 6.04435710010171e-06,
      "loss": 0.837,
      "step": 3516
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.50085488345188,
      "learning_rate": 6.042329625611239e-06,
      "loss": 0.7732,
      "step": 3517
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8490323597333937,
      "learning_rate": 6.040301971932223e-06,
      "loss": 0.6597,
      "step": 3518
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4129430182927132,
      "learning_rate": 6.038274139413238e-06,
      "loss": 0.8054,
      "step": 3519
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.0695380342158782,
      "learning_rate": 6.036246128402892e-06,
      "loss": 0.9158,
      "step": 3520
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9545739256056688,
      "learning_rate": 6.034217939249823e-06,
      "loss": 0.7211,
      "step": 3521
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.313498486590061,
      "learning_rate": 6.0321895723027e-06,
      "loss": 0.8228,
      "step": 3522
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.7122598591633236,
      "learning_rate": 6.030161027910223e-06,
      "loss": 0.873,
      "step": 3523
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.326173110535559,
      "learning_rate": 6.028132306421124e-06,
      "loss": 0.6921,
      "step": 3524
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.6147832191301552,
      "learning_rate": 6.026103408184162e-06,
      "loss": 0.7494,
      "step": 3525
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4295200193343967,
      "learning_rate": 6.0240743335481265e-06,
      "loss": 0.8125,
      "step": 3526
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.333413709787485,
      "learning_rate": 6.0220450828618424e-06,
      "loss": 0.8127,
      "step": 3527
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5767397032472859,
      "learning_rate": 6.0200156564741606e-06,
      "loss": 0.7504,
      "step": 3528
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5277362785642494,
      "learning_rate": 6.017986054733962e-06,
      "loss": 0.9347,
      "step": 3529
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5479194642653058,
      "learning_rate": 6.0159562779901605e-06,
      "loss": 0.7667,
      "step": 3530
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.568028403177776,
      "learning_rate": 6.013926326591695e-06,
      "loss": 0.7594,
      "step": 3531
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4285701247117435,
      "learning_rate": 6.0118962008875395e-06,
      "loss": 0.8074,
      "step": 3532
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3406877009840554,
      "learning_rate": 6.009865901226697e-06,
      "loss": 0.8003,
      "step": 3533
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9341697974781038,
      "learning_rate": 6.007835427958199e-06,
      "loss": 0.8008,
      "step": 3534
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.429844611722609,
      "learning_rate": 6.005804781431106e-06,
      "loss": 0.8102,
      "step": 3535
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4652465051039298,
      "learning_rate": 6.0037739619945114e-06,
      "loss": 0.7659,
      "step": 3536
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3965999961239426,
      "learning_rate": 6.001742969997535e-06,
      "loss": 0.8008,
      "step": 3537
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4415232592020604,
      "learning_rate": 5.99971180578933e-06,
      "loss": 0.8069,
      "step": 3538
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5598379738037664,
      "learning_rate": 5.997680469719076e-06,
      "loss": 0.8156,
      "step": 3539
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.53720498262798,
      "learning_rate": 5.995648962135983e-06,
      "loss": 0.8439,
      "step": 3540
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3400766238511184,
      "learning_rate": 5.993617283389289e-06,
      "loss": 0.8959,
      "step": 3541
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4889710832725864,
      "learning_rate": 5.991585433828267e-06,
      "loss": 0.8328,
      "step": 3542
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.9218679393055949,
      "learning_rate": 5.9895534138022136e-06,
      "loss": 0.693,
      "step": 3543
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2824214302886674,
      "learning_rate": 5.9875212236604564e-06,
      "loss": 0.8532,
      "step": 3544
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4732273995080687,
      "learning_rate": 5.985488863752351e-06,
      "loss": 0.9141,
      "step": 3545
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.833335147542888,
      "learning_rate": 5.983456334427286e-06,
      "loss": 0.7935,
      "step": 3546
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.6027466612981098,
      "learning_rate": 5.9814236360346765e-06,
      "loss": 0.8083,
      "step": 3547
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.411995900557069,
      "learning_rate": 5.9793907689239675e-06,
      "loss": 0.8139,
      "step": 3548
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5257844384017951,
      "learning_rate": 5.97735773344463e-06,
      "loss": 0.8984,
      "step": 3549
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.660964958679677,
      "learning_rate": 5.975324529946166e-06,
      "loss": 0.8731,
      "step": 3550
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.5712955519762262,
      "learning_rate": 5.973291158778109e-06,
      "loss": 0.7224,
      "step": 3551
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2248347681052,
      "learning_rate": 5.97125762029002e-06,
      "loss": 0.78,
      "step": 3552
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4144092040219378,
      "learning_rate": 5.969223914831485e-06,
      "loss": 0.7787,
      "step": 3553
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4897074397754113,
      "learning_rate": 5.967190042752123e-06,
      "loss": 0.7776,
      "step": 3554
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6156943479974082,
      "learning_rate": 5.965156004401581e-06,
      "loss": 0.7926,
      "step": 3555
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.373383486589726,
      "learning_rate": 5.9631218001295325e-06,
      "loss": 0.7853,
      "step": 3556
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3781712927287963,
      "learning_rate": 5.961087430285681e-06,
      "loss": 0.7268,
      "step": 3557
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4071503233974048,
      "learning_rate": 5.959052895219758e-06,
      "loss": 0.9237,
      "step": 3558
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5213717470161778,
      "learning_rate": 5.957018195281523e-06,
      "loss": 0.7795,
      "step": 3559
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4815384882635996,
      "learning_rate": 5.954983330820767e-06,
      "loss": 0.9058,
      "step": 3560
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.1260051282793797,
      "learning_rate": 5.9529483021873055e-06,
      "loss": 0.8453,
      "step": 3561
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7813554879719031,
      "learning_rate": 5.950913109730983e-06,
      "loss": 0.8208,
      "step": 3562
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3995641323079666,
      "learning_rate": 5.948877753801673e-06,
      "loss": 0.8927,
      "step": 3563
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4559921762511248,
      "learning_rate": 5.946842234749275e-06,
      "loss": 0.8234,
      "step": 3564
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.335035793880123,
      "learning_rate": 5.944806552923722e-06,
      "loss": 0.7731,
      "step": 3565
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9224549338658007,
      "learning_rate": 5.942770708674969e-06,
      "loss": 0.606,
      "step": 3566
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4259416894203938,
      "learning_rate": 5.940734702353002e-06,
      "loss": 0.8451,
      "step": 3567
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4869536697737191,
      "learning_rate": 5.938698534307833e-06,
      "loss": 0.8783,
      "step": 3568
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8222775020795523,
      "learning_rate": 5.936662204889504e-06,
      "loss": 0.5799,
      "step": 3569
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.3255994983600337,
      "learning_rate": 5.934625714448084e-06,
      "loss": 0.784,
      "step": 3570
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6035584879634055,
      "learning_rate": 5.932589063333668e-06,
      "loss": 0.8079,
      "step": 3571
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6708630253914785,
      "learning_rate": 5.9305522518963795e-06,
      "loss": 0.8739,
      "step": 3572
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8642644916786782,
      "learning_rate": 5.928515280486372e-06,
      "loss": 0.6274,
      "step": 3573
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5755517150679434,
      "learning_rate": 5.9264781494538235e-06,
      "loss": 0.7165,
      "step": 3574
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3866920504616755,
      "learning_rate": 5.924440859148941e-06,
      "loss": 0.7843,
      "step": 3575
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4484892405644276,
      "learning_rate": 5.922403409921957e-06,
      "loss": 0.7752,
      "step": 3576
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.2742407203863264,
      "learning_rate": 5.9203658021231335e-06,
      "loss": 0.7658,
      "step": 3577
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8381953289244043,
      "learning_rate": 5.918328036102758e-06,
      "loss": 0.7085,
      "step": 3578
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.2181290398785167,
      "learning_rate": 5.916290112211149e-06,
      "loss": 0.7246,
      "step": 3579
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.7797760979967634,
      "learning_rate": 5.9142520307986455e-06,
      "loss": 0.7381,
      "step": 3580
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4558200693221834,
      "learning_rate": 5.91221379221562e-06,
      "loss": 0.6988,
      "step": 3581
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5950476045330273,
      "learning_rate": 5.910175396812468e-06,
      "loss": 0.9127,
      "step": 3582
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8905445008645675,
      "learning_rate": 5.908136844939612e-06,
      "loss": 0.6751,
      "step": 3583
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4881185162570025,
      "learning_rate": 5.906098136947506e-06,
      "loss": 0.9261,
      "step": 3584
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4837199572389885,
      "learning_rate": 5.904059273186627e-06,
      "loss": 0.7656,
      "step": 3585
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.669169830393648,
      "learning_rate": 5.9020202540074755e-06,
      "loss": 0.9079,
      "step": 3586
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8735302467036,
      "learning_rate": 5.899981079760586e-06,
      "loss": 0.5765,
      "step": 3587
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5361903347146004,
      "learning_rate": 5.897941750796517e-06,
      "loss": 0.9117,
      "step": 3588
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8052947398707517,
      "learning_rate": 5.895902267465851e-06,
      "loss": 0.9108,
      "step": 3589
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6979060910198631,
      "learning_rate": 5.893862630119197e-06,
      "loss": 0.7377,
      "step": 3590
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8878157757652162,
      "learning_rate": 5.891822839107195e-06,
      "loss": 0.6901,
      "step": 3591
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4115294859565806,
      "learning_rate": 5.8897828947805094e-06,
      "loss": 0.6827,
      "step": 3592
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4933149568379362,
      "learning_rate": 5.887742797489828e-06,
      "loss": 0.7965,
      "step": 3593
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4782500066429014,
      "learning_rate": 5.8857025475858676e-06,
      "loss": 0.8132,
      "step": 3594
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8863589052800153,
      "learning_rate": 5.883662145419373e-06,
      "loss": 0.6381,
      "step": 3595
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4835999838825698,
      "learning_rate": 5.881621591341109e-06,
      "loss": 0.8093,
      "step": 3596
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8646445897533823,
      "learning_rate": 5.879580885701874e-06,
      "loss": 0.6375,
      "step": 3597
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4957035962160368,
      "learning_rate": 5.877540028852489e-06,
      "loss": 0.7474,
      "step": 3598
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8323621944696875,
      "learning_rate": 5.875499021143799e-06,
      "loss": 0.8032,
      "step": 3599
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4005983236804436,
      "learning_rate": 5.873457862926677e-06,
      "loss": 0.6936,
      "step": 3600
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4749015172460165,
      "learning_rate": 5.871416554552021e-06,
      "loss": 0.8613,
      "step": 3601
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8809645025785103,
      "learning_rate": 5.869375096370759e-06,
      "loss": 0.6757,
      "step": 3602
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3547145559971092,
      "learning_rate": 5.86733348873384e-06,
      "loss": 0.7135,
      "step": 3603
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8257331019929693,
      "learning_rate": 5.8652917319922374e-06,
      "loss": 0.6342,
      "step": 3604
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.570220052399205,
      "learning_rate": 5.863249826496955e-06,
      "loss": 0.8876,
      "step": 3605
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2755110473626106,
      "learning_rate": 5.8612077725990206e-06,
      "loss": 0.8092,
      "step": 3606
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3793948451505478,
      "learning_rate": 5.859165570649485e-06,
      "loss": 0.6499,
      "step": 3607
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4068481510873676,
      "learning_rate": 5.857123220999429e-06,
      "loss": 0.8179,
      "step": 3608
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4494829344409408,
      "learning_rate": 5.855080723999954e-06,
      "loss": 0.7669,
      "step": 3609
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3787216762044063,
      "learning_rate": 5.853038080002189e-06,
      "loss": 0.7331,
      "step": 3610
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4289333609302923,
      "learning_rate": 5.85099528935729e-06,
      "loss": 0.8439,
      "step": 3611
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.598776624096086,
      "learning_rate": 5.848952352416434e-06,
      "loss": 0.7257,
      "step": 3612
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3725822763127444,
      "learning_rate": 5.8469092695308274e-06,
      "loss": 0.8087,
      "step": 3613
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5427273101580778,
      "learning_rate": 5.844866041051699e-06,
      "loss": 0.8072,
      "step": 3614
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3477294236486104,
      "learning_rate": 5.8428226673303026e-06,
      "loss": 0.8599,
      "step": 3615
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5658959464429403,
      "learning_rate": 5.84077914871792e-06,
      "loss": 0.7324,
      "step": 3616
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.944418082300725,
      "learning_rate": 5.838735485565855e-06,
      "loss": 0.9301,
      "step": 3617
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.676312756948049,
      "learning_rate": 5.8366916782254345e-06,
      "loss": 0.7734,
      "step": 3618
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4979469739443596,
      "learning_rate": 5.834647727048016e-06,
      "loss": 0.8196,
      "step": 3619
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3703500726258986,
      "learning_rate": 5.832603632384978e-06,
      "loss": 0.6958,
      "step": 3620
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2954877707091763,
      "learning_rate": 5.8305593945877236e-06,
      "loss": 0.8768,
      "step": 3621
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2817705818870604,
      "learning_rate": 5.828515014007678e-06,
      "loss": 0.7263,
      "step": 3622
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2662266190027287,
      "learning_rate": 5.826470490996299e-06,
      "loss": 0.7253,
      "step": 3623
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5989863375292992,
      "learning_rate": 5.82442582590506e-06,
      "loss": 0.868,
      "step": 3624
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.447089409324334,
      "learning_rate": 5.822381019085466e-06,
      "loss": 0.8431,
      "step": 3625
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.858278860621735,
      "learning_rate": 5.820336070889038e-06,
      "loss": 0.8505,
      "step": 3626
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.737781116379982,
      "learning_rate": 5.8182909816673316e-06,
      "loss": 0.6628,
      "step": 3627
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.405280530921271,
      "learning_rate": 5.816245751771917e-06,
      "loss": 0.9395,
      "step": 3628
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.541696581556681,
      "learning_rate": 5.814200381554397e-06,
      "loss": 0.8648,
      "step": 3629
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8129865370092489,
      "learning_rate": 5.81215487136639e-06,
      "loss": 0.6934,
      "step": 3630
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4379579996775178,
      "learning_rate": 5.810109221559548e-06,
      "loss": 0.7231,
      "step": 3631
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.8375748665860565,
      "learning_rate": 5.808063432485538e-06,
      "loss": 0.7639,
      "step": 3632
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.796371682328899,
      "learning_rate": 5.806017504496055e-06,
      "loss": 0.6735,
      "step": 3633
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4932806833534757,
      "learning_rate": 5.803971437942819e-06,
      "loss": 0.9153,
      "step": 3634
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7827076280537806,
      "learning_rate": 5.801925233177574e-06,
      "loss": 0.6547,
      "step": 3635
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.619956367437134,
      "learning_rate": 5.799878890552083e-06,
      "loss": 0.9196,
      "step": 3636
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4289772520879536,
      "learning_rate": 5.79783241041814e-06,
      "loss": 0.7648,
      "step": 3637
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.388526986281155,
      "learning_rate": 5.795785793127554e-06,
      "loss": 0.798,
      "step": 3638
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5990461374462066,
      "learning_rate": 5.793739039032166e-06,
      "loss": 0.8621,
      "step": 3639
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.1961292624776423,
      "learning_rate": 5.791692148483834e-06,
      "loss": 0.6829,
      "step": 3640
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6297382272242438,
      "learning_rate": 5.789645121834445e-06,
      "loss": 0.82,
      "step": 3641
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8729971882616714,
      "learning_rate": 5.7875979594359045e-06,
      "loss": 0.6667,
      "step": 3642
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.413752390517224,
      "learning_rate": 5.785550661640145e-06,
      "loss": 0.824,
      "step": 3643
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4991830151134538,
      "learning_rate": 5.783503228799119e-06,
      "loss": 0.8498,
      "step": 3644
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7573405640256488,
      "learning_rate": 5.781455661264805e-06,
      "loss": 0.8588,
      "step": 3645
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4471056839731211,
      "learning_rate": 5.779407959389205e-06,
      "loss": 0.7727,
      "step": 3646
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5251871808163249,
      "learning_rate": 5.777360123524338e-06,
      "loss": 0.9298,
      "step": 3647
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5462987544426812,
      "learning_rate": 5.775312154022256e-06,
      "loss": 0.8931,
      "step": 3648
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4434545029182302,
      "learning_rate": 5.773264051235026e-06,
      "loss": 0.8711,
      "step": 3649
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.574548586018933,
      "learning_rate": 5.771215815514741e-06,
      "loss": 0.7537,
      "step": 3650
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7742454435180104,
      "learning_rate": 5.7691674472135175e-06,
      "loss": 0.8032,
      "step": 3651
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6476193671635755,
      "learning_rate": 5.767118946683491e-06,
      "loss": 0.8339,
      "step": 3652
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7969773641817105,
      "learning_rate": 5.765070314276826e-06,
      "loss": 0.6691,
      "step": 3653
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4832635837278598,
      "learning_rate": 5.763021550345703e-06,
      "loss": 0.7934,
      "step": 3654
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3206275323236207,
      "learning_rate": 5.760972655242332e-06,
      "loss": 0.8104,
      "step": 3655
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5684055106156018,
      "learning_rate": 5.758923629318938e-06,
      "loss": 0.811,
      "step": 3656
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.522167599418749,
      "learning_rate": 5.756874472927775e-06,
      "loss": 0.8243,
      "step": 3657
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8393134805626407,
      "learning_rate": 5.7548251864211135e-06,
      "loss": 0.5997,
      "step": 3658
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5665862641893176,
      "learning_rate": 5.752775770151254e-06,
      "loss": 0.8035,
      "step": 3659
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.439268854935103,
      "learning_rate": 5.750726224470513e-06,
      "loss": 0.6911,
      "step": 3660
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5558716152741163,
      "learning_rate": 5.748676549731229e-06,
      "loss": 0.9158,
      "step": 3661
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3991638592227547,
      "learning_rate": 5.746626746285767e-06,
      "loss": 0.7891,
      "step": 3662
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3883857439220344,
      "learning_rate": 5.744576814486512e-06,
      "loss": 0.9308,
      "step": 3663
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.848040930208954,
      "learning_rate": 5.742526754685872e-06,
      "loss": 0.8138,
      "step": 3664
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.9644126157633304,
      "learning_rate": 5.740476567236273e-06,
      "loss": 0.862,
      "step": 3665
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3342504131854245,
      "learning_rate": 5.738426252490168e-06,
      "loss": 0.7533,
      "step": 3666
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5806499930879494,
      "learning_rate": 5.73637581080003e-06,
      "loss": 0.8819,
      "step": 3667
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3693094687884269,
      "learning_rate": 5.734325242518355e-06,
      "loss": 0.7723,
      "step": 3668
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5216831967718432,
      "learning_rate": 5.732274547997655e-06,
      "loss": 0.8715,
      "step": 3669
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2340681792472454,
      "learning_rate": 5.730223727590472e-06,
      "loss": 0.7492,
      "step": 3670
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4038812728234544,
      "learning_rate": 5.728172781649365e-06,
      "loss": 0.733,
      "step": 3671
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8820739627745023,
      "learning_rate": 5.726121710526914e-06,
      "loss": 0.7586,
      "step": 3672
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5637022042455644,
      "learning_rate": 5.7240705145757244e-06,
      "loss": 0.8121,
      "step": 3673
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5310399878366399,
      "learning_rate": 5.722019194148419e-06,
      "loss": 0.7534,
      "step": 3674
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.68763224243193,
      "learning_rate": 5.719967749597644e-06,
      "loss": 0.7808,
      "step": 3675
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4592088627268835,
      "learning_rate": 5.717916181276065e-06,
      "loss": 0.7803,
      "step": 3676
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6113020141933287,
      "learning_rate": 5.715864489536373e-06,
      "loss": 0.8952,
      "step": 3677
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.884866618102201,
      "learning_rate": 5.713812674731276e-06,
      "loss": 0.9237,
      "step": 3678
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.58444902173736,
      "learning_rate": 5.711760737213504e-06,
      "loss": 0.8118,
      "step": 3679
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3069643378922493,
      "learning_rate": 5.70970867733581e-06,
      "loss": 0.8172,
      "step": 3680
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4692294917568909,
      "learning_rate": 5.707656495450969e-06,
      "loss": 0.855,
      "step": 3681
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.622713895464484,
      "learning_rate": 5.70560419191177e-06,
      "loss": 0.8243,
      "step": 3682
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.356419315928535,
      "learning_rate": 5.7035517670710304e-06,
      "loss": 0.8198,
      "step": 3683
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3501646621982104,
      "learning_rate": 5.701499221281587e-06,
      "loss": 0.8384,
      "step": 3684
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3092470625404335,
      "learning_rate": 5.699446554896294e-06,
      "loss": 0.8826,
      "step": 3685
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2938191201233409,
      "learning_rate": 5.697393768268031e-06,
      "loss": 0.807,
      "step": 3686
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.086242561216388,
      "learning_rate": 5.695340861749693e-06,
      "loss": 0.8007,
      "step": 3687
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2626764518661446,
      "learning_rate": 5.6932878356942005e-06,
      "loss": 0.8812,
      "step": 3688
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3887897703977592,
      "learning_rate": 5.691234690454491e-06,
      "loss": 0.8525,
      "step": 3689
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.519382693619038,
      "learning_rate": 5.6891814263835245e-06,
      "loss": 0.8635,
      "step": 3690
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0254632385129765,
      "learning_rate": 5.687128043834282e-06,
      "loss": 0.5881,
      "step": 3691
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3374931031370523,
      "learning_rate": 5.685074543159763e-06,
      "loss": 0.8606,
      "step": 3692
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.343453439462209,
      "learning_rate": 5.683020924712987e-06,
      "loss": 0.7946,
      "step": 3693
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5335142803007293,
      "learning_rate": 5.680967188846996e-06,
      "loss": 0.7608,
      "step": 3694
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.611585763829211,
      "learning_rate": 5.678913335914852e-06,
      "loss": 0.8941,
      "step": 3695
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8138762017361435,
      "learning_rate": 5.676859366269635e-06,
      "loss": 0.6515,
      "step": 3696
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.050255561441062,
      "learning_rate": 5.6748052802644445e-06,
      "loss": 0.7882,
      "step": 3697
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6894649915261568,
      "learning_rate": 5.672751078252403e-06,
      "loss": 0.8525,
      "step": 3698
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.514339158954797,
      "learning_rate": 5.670696760586654e-06,
      "loss": 0.7773,
      "step": 3699
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.2467495584375374,
      "learning_rate": 5.668642327620356e-06,
      "loss": 0.779,
      "step": 3700
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.530215030820789,
      "learning_rate": 5.66658777970669e-06,
      "loss": 0.8906,
      "step": 3701
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8151775866702596,
      "learning_rate": 5.664533117198856e-06,
      "loss": 0.634,
      "step": 3702
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6378133708453415,
      "learning_rate": 5.662478340450076e-06,
      "loss": 0.8296,
      "step": 3703
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.8672515732678124,
      "learning_rate": 5.660423449813588e-06,
      "loss": 0.6681,
      "step": 3704
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.483793874597526,
      "learning_rate": 5.658368445642655e-06,
      "loss": 0.7881,
      "step": 3705
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4460270670461066,
      "learning_rate": 5.656313328290552e-06,
      "loss": 0.7413,
      "step": 3706
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7764711763362493,
      "learning_rate": 5.65425809811058e-06,
      "loss": 0.8812,
      "step": 3707
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.7773516961311598,
      "learning_rate": 5.652202755456055e-06,
      "loss": 0.6105,
      "step": 3708
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5268674359096217,
      "learning_rate": 5.650147300680318e-06,
      "loss": 0.7735,
      "step": 3709
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4446417073889972,
      "learning_rate": 5.6480917341367205e-06,
      "loss": 0.8708,
      "step": 3710
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2994994670933269,
      "learning_rate": 5.646036056178641e-06,
      "loss": 0.76,
      "step": 3711
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8950653817287215,
      "learning_rate": 5.643980267159474e-06,
      "loss": 0.7245,
      "step": 3712
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5112965112094403,
      "learning_rate": 5.641924367432634e-06,
      "loss": 0.7835,
      "step": 3713
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4789523992631688,
      "learning_rate": 5.639868357351554e-06,
      "loss": 0.9243,
      "step": 3714
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8800109269549541,
      "learning_rate": 5.637812237269683e-06,
      "loss": 0.6655,
      "step": 3715
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4180165911155576,
      "learning_rate": 5.635756007540495e-06,
      "loss": 0.823,
      "step": 3716
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.412976976533187,
      "learning_rate": 5.6336996685174795e-06,
      "loss": 0.876,
      "step": 3717
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7581684428906035,
      "learning_rate": 5.631643220554146e-06,
      "loss": 0.9059,
      "step": 3718
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8592071439021655,
      "learning_rate": 5.629586664004018e-06,
      "loss": 0.6414,
      "step": 3719
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5145755339312994,
      "learning_rate": 5.6275299992206444e-06,
      "loss": 0.791,
      "step": 3720
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.8949797895410696,
      "learning_rate": 5.625473226557588e-06,
      "loss": 0.7923,
      "step": 3721
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7146512843997528,
      "learning_rate": 5.623416346368434e-06,
      "loss": 0.7873,
      "step": 3722
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4357660416047346,
      "learning_rate": 5.621359359006784e-06,
      "loss": 0.7252,
      "step": 3723
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.556809140583476,
      "learning_rate": 5.6193022648262555e-06,
      "loss": 0.8826,
      "step": 3724
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.0496543156583296,
      "learning_rate": 5.617245064180488e-06,
      "loss": 0.862,
      "step": 3725
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.475961796422558,
      "learning_rate": 5.615187757423137e-06,
      "loss": 0.7398,
      "step": 3726
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.296911954312795,
      "learning_rate": 5.613130344907881e-06,
      "loss": 0.7846,
      "step": 3727
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5576326247851784,
      "learning_rate": 5.611072826988409e-06,
      "loss": 0.8099,
      "step": 3728
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5862625505175216,
      "learning_rate": 5.609015204018435e-06,
      "loss": 0.8261,
      "step": 3729
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.903917568675348,
      "learning_rate": 5.6069574763516866e-06,
      "loss": 0.8544,
      "step": 3730
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8178565510522411,
      "learning_rate": 5.604899644341911e-06,
      "loss": 0.7435,
      "step": 3731
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.456203450142741,
      "learning_rate": 5.602841708342876e-06,
      "loss": 0.848,
      "step": 3732
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3786143643860327,
      "learning_rate": 5.60078366870836e-06,
      "loss": 0.7642,
      "step": 3733
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4803217376437405,
      "learning_rate": 5.598725525792168e-06,
      "loss": 0.7684,
      "step": 3734
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7454363845175858,
      "learning_rate": 5.596667279948117e-06,
      "loss": 0.7996,
      "step": 3735
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.006139482674431,
      "learning_rate": 5.594608931530044e-06,
      "loss": 0.8161,
      "step": 3736
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.2205582733368487,
      "learning_rate": 5.592550480891801e-06,
      "loss": 0.7756,
      "step": 3737
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6014685071820633,
      "learning_rate": 5.590491928387261e-06,
      "loss": 0.7277,
      "step": 3738
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7918309762849052,
      "learning_rate": 5.588433274370314e-06,
      "loss": 0.6802,
      "step": 3739
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8195247530044208,
      "learning_rate": 5.586374519194863e-06,
      "loss": 0.6647,
      "step": 3740
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4292580010392333,
      "learning_rate": 5.584315663214836e-06,
      "loss": 0.6599,
      "step": 3741
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3798658463068016,
      "learning_rate": 5.582256706784174e-06,
      "loss": 0.7777,
      "step": 3742
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.749740255874957,
      "learning_rate": 5.580197650256832e-06,
      "loss": 0.859,
      "step": 3743
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3956426540235007,
      "learning_rate": 5.578138493986788e-06,
      "loss": 0.7858,
      "step": 3744
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6141356565952616,
      "learning_rate": 5.576079238328035e-06,
      "loss": 0.7608,
      "step": 3745
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5679235117326966,
      "learning_rate": 5.574019883634582e-06,
      "loss": 0.806,
      "step": 3746
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.961680521659438,
      "learning_rate": 5.571960430260457e-06,
      "loss": 0.739,
      "step": 3747
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3794212916475166,
      "learning_rate": 5.569900878559704e-06,
      "loss": 0.8041,
      "step": 3748
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8008107004403335,
      "learning_rate": 5.567841228886381e-06,
      "loss": 0.6776,
      "step": 3749
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3790728590522152,
      "learning_rate": 5.56578148159457e-06,
      "loss": 0.7629,
      "step": 3750
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5117634060427345,
      "learning_rate": 5.5637216370383615e-06,
      "loss": 0.7159,
      "step": 3751
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7292435504189927,
      "learning_rate": 5.561661695571869e-06,
      "loss": 0.8585,
      "step": 3752
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4410708745624894,
      "learning_rate": 5.559601657549219e-06,
      "loss": 0.8669,
      "step": 3753
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3452938927256786,
      "learning_rate": 5.557541523324558e-06,
      "loss": 0.8125,
      "step": 3754
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.430191714550704,
      "learning_rate": 5.555481293252044e-06,
      "loss": 0.7821,
      "step": 3755
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8372411994175682,
      "learning_rate": 5.553420967685857e-06,
      "loss": 0.7171,
      "step": 3756
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8193897483863248,
      "learning_rate": 5.551360546980191e-06,
      "loss": 0.7724,
      "step": 3757
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6606309100318357,
      "learning_rate": 5.549300031489252e-06,
      "loss": 0.8248,
      "step": 3758
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5270739169933873,
      "learning_rate": 5.547239421567272e-06,
      "loss": 0.8494,
      "step": 3759
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3193422685215137,
      "learning_rate": 5.545178717568491e-06,
      "loss": 0.7292,
      "step": 3760
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7355292104843475,
      "learning_rate": 5.5431179198471674e-06,
      "loss": 0.6465,
      "step": 3761
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6127249126562897,
      "learning_rate": 5.5410570287575775e-06,
      "loss": 0.8738,
      "step": 3762
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6213323174208207,
      "learning_rate": 5.538996044654011e-06,
      "loss": 0.7579,
      "step": 3763
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2473097796091224,
      "learning_rate": 5.536934967890778e-06,
      "loss": 0.8281,
      "step": 3764
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.489632968331363,
      "learning_rate": 5.5348737988221964e-06,
      "loss": 0.7602,
      "step": 3765
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4087642399812688,
      "learning_rate": 5.532812537802611e-06,
      "loss": 0.7843,
      "step": 3766
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7302489860581585,
      "learning_rate": 5.530751185186372e-06,
      "loss": 0.7507,
      "step": 3767
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8518583984717525,
      "learning_rate": 5.528689741327851e-06,
      "loss": 0.8633,
      "step": 3768
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8411108111603652,
      "learning_rate": 5.526628206581434e-06,
      "loss": 0.6139,
      "step": 3769
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8006806140326918,
      "learning_rate": 5.5245665813015245e-06,
      "loss": 0.6474,
      "step": 3770
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8501926563620095,
      "learning_rate": 5.522504865842537e-06,
      "loss": 0.7701,
      "step": 3771
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3133429091394937,
      "learning_rate": 5.520443060558907e-06,
      "loss": 0.7552,
      "step": 3772
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4751342957691425,
      "learning_rate": 5.51838116580508e-06,
      "loss": 0.7075,
      "step": 3773
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8037977486232165,
      "learning_rate": 5.5163191819355225e-06,
      "loss": 0.7102,
      "step": 3774
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.9074409379008384,
      "learning_rate": 5.514257109304712e-06,
      "loss": 0.8061,
      "step": 3775
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7621522270380462,
      "learning_rate": 5.51219494826714e-06,
      "loss": 0.665,
      "step": 3776
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4821409383494317,
      "learning_rate": 5.51013269917732e-06,
      "loss": 0.8069,
      "step": 3777
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.841963397018046,
      "learning_rate": 5.5080703623897754e-06,
      "loss": 0.8401,
      "step": 3778
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8419359312682072,
      "learning_rate": 5.506007938259045e-06,
      "loss": 0.6657,
      "step": 3779
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.688254029385249,
      "learning_rate": 5.5039454271396856e-06,
      "loss": 0.8959,
      "step": 3780
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7537767043684256,
      "learning_rate": 5.501882829386262e-06,
      "loss": 0.8063,
      "step": 3781
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6002785055109048,
      "learning_rate": 5.499820145353364e-06,
      "loss": 0.7664,
      "step": 3782
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.7001880874076205,
      "learning_rate": 5.497757375395588e-06,
      "loss": 0.6794,
      "step": 3783
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.472328657794186,
      "learning_rate": 5.49569451986755e-06,
      "loss": 0.8649,
      "step": 3784
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.254305432485427,
      "learning_rate": 5.493631579123876e-06,
      "loss": 0.7875,
      "step": 3785
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.766503144062598,
      "learning_rate": 5.49156855351921e-06,
      "loss": 0.6604,
      "step": 3786
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2472340848748282,
      "learning_rate": 5.4895054434082115e-06,
      "loss": 0.8949,
      "step": 3787
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.8687543923482124,
      "learning_rate": 5.487442249145554e-06,
      "loss": 0.7518,
      "step": 3788
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4068225722820509,
      "learning_rate": 5.485378971085921e-06,
      "loss": 0.7122,
      "step": 3789
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9178639035076862,
      "learning_rate": 5.4833156095840155e-06,
      "loss": 0.7034,
      "step": 3790
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4283742473014598,
      "learning_rate": 5.481252164994555e-06,
      "loss": 0.7924,
      "step": 3791
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.9808198958991134,
      "learning_rate": 5.479188637672269e-06,
      "loss": 0.8796,
      "step": 3792
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4380283915185934,
      "learning_rate": 5.4771250279719e-06,
      "loss": 0.8273,
      "step": 3793
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.552094125957848,
      "learning_rate": 5.475061336248208e-06,
      "loss": 0.8071,
      "step": 3794
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8094931069006839,
      "learning_rate": 5.4729975628559626e-06,
      "loss": 0.6357,
      "step": 3795
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8977464173241191,
      "learning_rate": 5.470933708149955e-06,
      "loss": 0.6506,
      "step": 3796
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4808195659048558,
      "learning_rate": 5.468869772484982e-06,
      "loss": 0.7368,
      "step": 3797
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8658411296012142,
      "learning_rate": 5.4668057562158604e-06,
      "loss": 0.6813,
      "step": 3798
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5856082674086875,
      "learning_rate": 5.464741659697419e-06,
      "loss": 0.798,
      "step": 3799
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.538402736594656,
      "learning_rate": 5.462677483284496e-06,
      "loss": 0.787,
      "step": 3800
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4126163576706152,
      "learning_rate": 5.46061322733195e-06,
      "loss": 0.7949,
      "step": 3801
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3497127974994205,
      "learning_rate": 5.458548892194652e-06,
      "loss": 0.7621,
      "step": 3802
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5549470269459704,
      "learning_rate": 5.4564844782274826e-06,
      "loss": 0.7571,
      "step": 3803
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7940412758603912,
      "learning_rate": 5.45441998578534e-06,
      "loss": 0.6066,
      "step": 3804
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6370306540768464,
      "learning_rate": 5.452355415223132e-06,
      "loss": 0.8275,
      "step": 3805
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.896111674344965,
      "learning_rate": 5.450290766895786e-06,
      "loss": 0.8084,
      "step": 3806
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.527727232394863,
      "learning_rate": 5.4482260411582365e-06,
      "loss": 0.7763,
      "step": 3807
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5055242592062823,
      "learning_rate": 5.446161238365433e-06,
      "loss": 0.7999,
      "step": 3808
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.437129086501598,
      "learning_rate": 5.44409635887234e-06,
      "loss": 0.8269,
      "step": 3809
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.577937806266877,
      "learning_rate": 5.4420314030339375e-06,
      "loss": 0.7856,
      "step": 3810
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5790701661037232,
      "learning_rate": 5.439966371205209e-06,
      "loss": 0.8043,
      "step": 3811
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.9161534875965802,
      "learning_rate": 5.437901263741163e-06,
      "loss": 0.8267,
      "step": 3812
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3974503566890448,
      "learning_rate": 5.435836080996812e-06,
      "loss": 0.7896,
      "step": 3813
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8583395805072548,
      "learning_rate": 5.433770823327187e-06,
      "loss": 0.6808,
      "step": 3814
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.20700500612742,
      "learning_rate": 5.431705491087327e-06,
      "loss": 0.7078,
      "step": 3815
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.355882753324428,
      "learning_rate": 5.42964008463229e-06,
      "loss": 0.7509,
      "step": 3816
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6777756941800404,
      "learning_rate": 5.427574604317142e-06,
      "loss": 0.8124,
      "step": 3817
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.446414566288946,
      "learning_rate": 5.4255090504969606e-06,
      "loss": 0.7481,
      "step": 3818
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2774072635347162,
      "learning_rate": 5.423443423526842e-06,
      "loss": 0.761,
      "step": 3819
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7168319522654711,
      "learning_rate": 5.42137772376189e-06,
      "loss": 0.8291,
      "step": 3820
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4023600076858118,
      "learning_rate": 5.419311951557222e-06,
      "loss": 0.8665,
      "step": 3821
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5771985300654947,
      "learning_rate": 5.417246107267968e-06,
      "loss": 0.8341,
      "step": 3822
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.848053234966978,
      "learning_rate": 5.415180191249271e-06,
      "loss": 0.87,
      "step": 3823
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.505157256760532,
      "learning_rate": 5.413114203856287e-06,
      "loss": 0.7973,
      "step": 3824
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5110660241732174,
      "learning_rate": 5.411048145444182e-06,
      "loss": 0.7653,
      "step": 3825
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6404762857770863,
      "learning_rate": 5.408982016368134e-06,
      "loss": 0.8243,
      "step": 3826
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.508798431254349,
      "learning_rate": 5.406915816983337e-06,
      "loss": 0.8642,
      "step": 3827
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4513220180009079,
      "learning_rate": 5.404849547644993e-06,
      "loss": 0.8875,
      "step": 3828
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5761320332929791,
      "learning_rate": 5.40278320870832e-06,
      "loss": 0.8138,
      "step": 3829
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7981790887926873,
      "learning_rate": 5.400716800528542e-06,
      "loss": 0.7139,
      "step": 3830
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.675372611256811,
      "learning_rate": 5.398650323460904e-06,
      "loss": 0.7747,
      "step": 3831
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.450235760493464,
      "learning_rate": 5.39658377786065e-06,
      "loss": 0.8859,
      "step": 3832
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8314329872949713,
      "learning_rate": 5.394517164083047e-06,
      "loss": 0.6333,
      "step": 3833
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.458768255592524,
      "learning_rate": 5.392450482483372e-06,
      "loss": 0.7808,
      "step": 3834
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4414589643650044,
      "learning_rate": 5.39038373341691e-06,
      "loss": 0.7264,
      "step": 3835
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.42348158820462,
      "learning_rate": 5.388316917238956e-06,
      "loss": 0.9096,
      "step": 3836
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5413005909270574,
      "learning_rate": 5.386250034304823e-06,
      "loss": 0.7417,
      "step": 3837
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.406262447588193,
      "learning_rate": 5.384183084969832e-06,
      "loss": 0.7951,
      "step": 3838
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5424766168921724,
      "learning_rate": 5.382116069589315e-06,
      "loss": 0.7424,
      "step": 3839
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5268070941337208,
      "learning_rate": 5.380048988518613e-06,
      "loss": 0.8681,
      "step": 3840
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.565652823453297,
      "learning_rate": 5.3779818421130865e-06,
      "loss": 0.8886,
      "step": 3841
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4659908894926417,
      "learning_rate": 5.3759146307281e-06,
      "loss": 0.7062,
      "step": 3842
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.935468067058444,
      "learning_rate": 5.37384735471903e-06,
      "loss": 0.8082,
      "step": 3843
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.540701661430166,
      "learning_rate": 5.371780014441265e-06,
      "loss": 0.8062,
      "step": 3844
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.17933549033121,
      "learning_rate": 5.369712610250206e-06,
      "loss": 0.7122,
      "step": 3845
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6184074151481636,
      "learning_rate": 5.367645142501262e-06,
      "loss": 0.778,
      "step": 3846
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3257045301120136,
      "learning_rate": 5.365577611549856e-06,
      "loss": 0.8468,
      "step": 3847
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8807051574511632,
      "learning_rate": 5.363510017751422e-06,
      "loss": 0.6221,
      "step": 3848
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7970997846104826,
      "learning_rate": 5.3614423614614016e-06,
      "loss": 0.6384,
      "step": 3849
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4737273480190654,
      "learning_rate": 5.359374643035248e-06,
      "loss": 0.7387,
      "step": 3850
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8079320219811532,
      "learning_rate": 5.357306862828427e-06,
      "loss": 0.6677,
      "step": 3851
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3173970200913283,
      "learning_rate": 5.355239021196416e-06,
      "loss": 0.7473,
      "step": 3852
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5029543588776133,
      "learning_rate": 5.353171118494698e-06,
      "loss": 0.8056,
      "step": 3853
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.766340501364734,
      "learning_rate": 5.351103155078768e-06,
      "loss": 0.8947,
      "step": 3854
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7651077678090628,
      "learning_rate": 5.349035131304138e-06,
      "loss": 0.6487,
      "step": 3855
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5954211462245427,
      "learning_rate": 5.346967047526321e-06,
      "loss": 0.7765,
      "step": 3856
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3782017767194217,
      "learning_rate": 5.344898904100848e-06,
      "loss": 0.8911,
      "step": 3857
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.344340230703154,
      "learning_rate": 5.342830701383254e-06,
      "loss": 0.8271,
      "step": 3858
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.6384090856196865,
      "learning_rate": 5.340762439729088e-06,
      "loss": 0.7564,
      "step": 3859
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.376479907137161,
      "learning_rate": 5.338694119493908e-06,
      "loss": 0.7789,
      "step": 3860
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.8873250917388492,
      "learning_rate": 5.336625741033283e-06,
      "loss": 0.6925,
      "step": 3861
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2613739833039193,
      "learning_rate": 5.33455730470279e-06,
      "loss": 0.7491,
      "step": 3862
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.417041733253155,
      "learning_rate": 5.332488810858017e-06,
      "loss": 0.7033,
      "step": 3863
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5662340561697732,
      "learning_rate": 5.330420259854564e-06,
      "loss": 0.7547,
      "step": 3864
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3966026464117725,
      "learning_rate": 5.328351652048037e-06,
      "loss": 0.7814,
      "step": 3865
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.592155782726776,
      "learning_rate": 5.326282987794056e-06,
      "loss": 0.7876,
      "step": 3866
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2565201182733263,
      "learning_rate": 5.3242142674482456e-06,
      "loss": 0.7726,
      "step": 3867
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4298093628248596,
      "learning_rate": 5.322145491366244e-06,
      "loss": 0.7786,
      "step": 3868
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.427325984540683,
      "learning_rate": 5.320076659903698e-06,
      "loss": 0.8611,
      "step": 3869
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8389295756176961,
      "learning_rate": 5.318007773416264e-06,
      "loss": 0.6471,
      "step": 3870
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.441936728008811,
      "learning_rate": 5.315938832259606e-06,
      "loss": 0.7972,
      "step": 3871
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4123371274596779,
      "learning_rate": 5.3138698367894e-06,
      "loss": 0.8057,
      "step": 3872
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8562489280690707,
      "learning_rate": 5.311800787361332e-06,
      "loss": 0.6525,
      "step": 3873
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4577052691413586,
      "learning_rate": 5.309731684331093e-06,
      "loss": 0.8418,
      "step": 3874
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.389171653731852,
      "learning_rate": 5.307662528054387e-06,
      "loss": 0.7183,
      "step": 3875
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7853756019750842,
      "learning_rate": 5.305593318886925e-06,
      "loss": 0.8144,
      "step": 3876
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3746690166122244,
      "learning_rate": 5.303524057184429e-06,
      "loss": 0.7584,
      "step": 3877
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6474753596606824,
      "learning_rate": 5.301454743302629e-06,
      "loss": 0.8773,
      "step": 3878
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7691359219352718,
      "learning_rate": 5.299385377597265e-06,
      "loss": 0.7919,
      "step": 3879
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.468827559865123,
      "learning_rate": 5.297315960424081e-06,
      "loss": 0.8239,
      "step": 3880
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2726511503147808,
      "learning_rate": 5.295246492138839e-06,
      "loss": 0.8411,
      "step": 3881
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2809286320697115,
      "learning_rate": 5.293176973097303e-06,
      "loss": 0.8329,
      "step": 3882
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9001246662031609,
      "learning_rate": 5.2911074036552426e-06,
      "loss": 0.6391,
      "step": 3883
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.7988168732421792,
      "learning_rate": 5.289037784168448e-06,
      "loss": 0.674,
      "step": 3884
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3798542440492054,
      "learning_rate": 5.286968114992706e-06,
      "loss": 0.8732,
      "step": 3885
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3727880854141432,
      "learning_rate": 5.28489839648382e-06,
      "loss": 0.7171,
      "step": 3886
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4816301906124651,
      "learning_rate": 5.282828628997595e-06,
      "loss": 0.7629,
      "step": 3887
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4848371793442856,
      "learning_rate": 5.28075881288985e-06,
      "loss": 0.7964,
      "step": 3888
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.354809537837912,
      "learning_rate": 5.2786889485164115e-06,
      "loss": 0.7439,
      "step": 3889
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4810694272447187,
      "learning_rate": 5.276619036233111e-06,
      "loss": 0.8486,
      "step": 3890
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4458118013700474,
      "learning_rate": 5.274549076395792e-06,
      "loss": 0.8212,
      "step": 3891
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.2125587062752663,
      "learning_rate": 5.2724790693603025e-06,
      "loss": 0.7473,
      "step": 3892
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.324586411506257,
      "learning_rate": 5.270409015482504e-06,
      "loss": 0.7467,
      "step": 3893
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3924606376003341,
      "learning_rate": 5.268338915118258e-06,
      "loss": 0.8479,
      "step": 3894
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.247810773813609,
      "learning_rate": 5.266268768623445e-06,
      "loss": 0.698,
      "step": 3895
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8460011701909271,
      "learning_rate": 5.264198576353942e-06,
      "loss": 0.7102,
      "step": 3896
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4843924662157957,
      "learning_rate": 5.262128338665641e-06,
      "loss": 0.8379,
      "step": 3897
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.547561427168356,
      "learning_rate": 5.26005805591444e-06,
      "loss": 0.9742,
      "step": 3898
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.365222106792871,
      "learning_rate": 5.257987728456244e-06,
      "loss": 0.7873,
      "step": 3899
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6415118969008062,
      "learning_rate": 5.255917356646968e-06,
      "loss": 0.7077,
      "step": 3900
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2382603050596799,
      "learning_rate": 5.2538469408425284e-06,
      "loss": 0.7671,
      "step": 3901
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8004528166613903,
      "learning_rate": 5.25177648139886e-06,
      "loss": 0.6972,
      "step": 3902
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6321001104814794,
      "learning_rate": 5.2497059786718955e-06,
      "loss": 0.7526,
      "step": 3903
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.279478720165178,
      "learning_rate": 5.247635433017576e-06,
      "loss": 0.8489,
      "step": 3904
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.400290441501396,
      "learning_rate": 5.245564844791857e-06,
      "loss": 0.8977,
      "step": 3905
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3780104565176337,
      "learning_rate": 5.243494214350693e-06,
      "loss": 0.6863,
      "step": 3906
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3300844209647336,
      "learning_rate": 5.2414235420500516e-06,
      "loss": 0.7697,
      "step": 3907
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6432451577957272,
      "learning_rate": 5.2393528282459036e-06,
      "loss": 0.803,
      "step": 3908
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8591127149826921,
      "learning_rate": 5.237282073294231e-06,
      "loss": 0.6365,
      "step": 3909
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8623541038191782,
      "learning_rate": 5.235211277551019e-06,
      "loss": 0.684,
      "step": 3910
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3653595428591119,
      "learning_rate": 5.2331404413722595e-06,
      "loss": 0.712,
      "step": 3911
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8323635282953014,
      "learning_rate": 5.231069565113957e-06,
      "loss": 0.7149,
      "step": 3912
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3135926170054792,
      "learning_rate": 5.2289986491321176e-06,
      "loss": 0.7722,
      "step": 3913
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.380301663229188,
      "learning_rate": 5.226927693782755e-06,
      "loss": 0.8637,
      "step": 3914
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4154577694230357,
      "learning_rate": 5.22485669942189e-06,
      "loss": 0.6867,
      "step": 3915
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3813912237455221,
      "learning_rate": 5.222785666405553e-06,
      "loss": 0.7864,
      "step": 3916
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8068607366136819,
      "learning_rate": 5.220714595089777e-06,
      "loss": 0.7056,
      "step": 3917
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6226519559810892,
      "learning_rate": 5.218643485830604e-06,
      "loss": 0.8156,
      "step": 3918
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5936285990319041,
      "learning_rate": 5.216572338984081e-06,
      "loss": 0.9204,
      "step": 3919
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4163654406443673,
      "learning_rate": 5.21450115490626e-06,
      "loss": 0.8315,
      "step": 3920
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.772573645188968,
      "learning_rate": 5.212429933953207e-06,
      "loss": 0.6858,
      "step": 3921
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4742561360509125,
      "learning_rate": 5.210358676480983e-06,
      "loss": 0.8986,
      "step": 3922
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.41144508288577,
      "learning_rate": 5.208287382845666e-06,
      "loss": 0.7484,
      "step": 3923
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8784545002521257,
      "learning_rate": 5.206216053403333e-06,
      "loss": 0.7356,
      "step": 3924
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4566693521339427,
      "learning_rate": 5.204144688510069e-06,
      "loss": 0.7454,
      "step": 3925
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.58881230540355,
      "learning_rate": 5.202073288521965e-06,
      "loss": 0.7875,
      "step": 3926
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3492506130032085,
      "learning_rate": 5.2000018537951226e-06,
      "loss": 0.8613,
      "step": 3927
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3682329035771859,
      "learning_rate": 5.197930384685642e-06,
      "loss": 0.7557,
      "step": 3928
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.375595197172286,
      "learning_rate": 5.195858881549633e-06,
      "loss": 0.8543,
      "step": 3929
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.827770020825568,
      "learning_rate": 5.19378734474321e-06,
      "loss": 0.7162,
      "step": 3930
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5533514002784983,
      "learning_rate": 5.1917157746225e-06,
      "loss": 0.8553,
      "step": 3931
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5704144233780997,
      "learning_rate": 5.189644171543624e-06,
      "loss": 0.7148,
      "step": 3932
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.662253619168778,
      "learning_rate": 5.187572535862715e-06,
      "loss": 0.8496,
      "step": 3933
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6276093353540892,
      "learning_rate": 5.185500867935913e-06,
      "loss": 0.7737,
      "step": 3934
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5778487670302963,
      "learning_rate": 5.183429168119362e-06,
      "loss": 0.8484,
      "step": 3935
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.881276558463671,
      "learning_rate": 5.181357436769211e-06,
      "loss": 0.6356,
      "step": 3936
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3476349944314723,
      "learning_rate": 5.1792856742416145e-06,
      "loss": 0.7715,
      "step": 3937
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.318907330113716,
      "learning_rate": 5.17721388089273e-06,
      "loss": 0.8132,
      "step": 3938
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.015485637142805,
      "learning_rate": 5.175142057078727e-06,
      "loss": 0.8758,
      "step": 3939
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.754288716017893,
      "learning_rate": 5.173070203155772e-06,
      "loss": 0.6941,
      "step": 3940
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3267436244917812,
      "learning_rate": 5.170998319480044e-06,
      "loss": 0.6435,
      "step": 3941
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6609515750022534,
      "learning_rate": 5.168926406407723e-06,
      "loss": 0.7925,
      "step": 3942
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5190610647878418,
      "learning_rate": 5.166854464294993e-06,
      "loss": 0.6293,
      "step": 3943
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4493969857099898,
      "learning_rate": 5.164782493498046e-06,
      "loss": 0.7992,
      "step": 3944
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.8081530681334618,
      "learning_rate": 5.16271049437308e-06,
      "loss": 0.7387,
      "step": 3945
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3388405566994652,
      "learning_rate": 5.160638467276293e-06,
      "loss": 0.8492,
      "step": 3946
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6415542104962295,
      "learning_rate": 5.15856641256389e-06,
      "loss": 0.7461,
      "step": 3947
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.011477357407336,
      "learning_rate": 5.156494330592084e-06,
      "loss": 0.7663,
      "step": 3948
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.444058961587846,
      "learning_rate": 5.154422221717087e-06,
      "loss": 0.7831,
      "step": 3949
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5869966434826022,
      "learning_rate": 5.152350086295121e-06,
      "loss": 0.7496,
      "step": 3950
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.853478588862134,
      "learning_rate": 5.150277924682408e-06,
      "loss": 0.5583,
      "step": 3951
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4770592941787142,
      "learning_rate": 5.148205737235178e-06,
      "loss": 0.7371,
      "step": 3952
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3358963179465257,
      "learning_rate": 5.146133524309664e-06,
      "loss": 0.677,
      "step": 3953
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8634323023868261,
      "learning_rate": 5.144061286262102e-06,
      "loss": 0.6257,
      "step": 3954
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8767241481326884,
      "learning_rate": 5.141989023448736e-06,
      "loss": 0.7828,
      "step": 3955
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5539157082589967,
      "learning_rate": 5.139916736225811e-06,
      "loss": 0.7403,
      "step": 3956
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.389848558102653,
      "learning_rate": 5.137844424949576e-06,
      "loss": 0.8644,
      "step": 3957
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3253924850467613,
      "learning_rate": 5.135772089976285e-06,
      "loss": 0.7103,
      "step": 3958
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3353566900824814,
      "learning_rate": 5.133699731662201e-06,
      "loss": 0.8913,
      "step": 3959
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7780308941112087,
      "learning_rate": 5.131627350363582e-06,
      "loss": 0.7002,
      "step": 3960
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.601791299599909,
      "learning_rate": 5.1295549464366944e-06,
      "loss": 0.7476,
      "step": 3961
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.531499578026323,
      "learning_rate": 5.1274825202378085e-06,
      "loss": 0.948,
      "step": 3962
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3377246498598125,
      "learning_rate": 5.125410072123203e-06,
      "loss": 0.7919,
      "step": 3963
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6886915085464558,
      "learning_rate": 5.12333760244915e-06,
      "loss": 0.7509,
      "step": 3964
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5096756164157208,
      "learning_rate": 5.121265111571933e-06,
      "loss": 0.8081,
      "step": 3965
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.600206341828798,
      "learning_rate": 5.119192599847838e-06,
      "loss": 0.778,
      "step": 3966
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4676724051989058,
      "learning_rate": 5.1171200676331535e-06,
      "loss": 0.839,
      "step": 3967
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8792533560350554,
      "learning_rate": 5.115047515284173e-06,
      "loss": 0.6854,
      "step": 3968
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4802665895077445,
      "learning_rate": 5.112974943157188e-06,
      "loss": 0.7922,
      "step": 3969
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2298751873362523,
      "learning_rate": 5.110902351608504e-06,
      "loss": 0.7436,
      "step": 3970
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4323646849882672,
      "learning_rate": 5.108829740994417e-06,
      "loss": 0.8054,
      "step": 3971
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7306245164937288,
      "learning_rate": 5.106757111671235e-06,
      "loss": 0.8021,
      "step": 3972
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4488073369452754,
      "learning_rate": 5.104684463995271e-06,
      "loss": 0.8333,
      "step": 3973
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3400400287467586,
      "learning_rate": 5.102611798322833e-06,
      "loss": 0.8224,
      "step": 3974
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6540928167081939,
      "learning_rate": 5.100539115010237e-06,
      "loss": 0.8244,
      "step": 3975
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5991307226315032,
      "learning_rate": 5.098466414413801e-06,
      "loss": 0.893,
      "step": 3976
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.535153591827184,
      "learning_rate": 5.096393696889848e-06,
      "loss": 0.932,
      "step": 3977
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8298667748024864,
      "learning_rate": 5.094320962794701e-06,
      "loss": 0.8604,
      "step": 3978
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.514271399222027,
      "learning_rate": 5.092248212484686e-06,
      "loss": 0.8624,
      "step": 3979
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5894834968510596,
      "learning_rate": 5.090175446316133e-06,
      "loss": 0.763,
      "step": 3980
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2479501215263418,
      "learning_rate": 5.088102664645378e-06,
      "loss": 0.6924,
      "step": 3981
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3972007706362,
      "learning_rate": 5.086029867828752e-06,
      "loss": 0.7793,
      "step": 3982
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9204978016718505,
      "learning_rate": 5.083957056222595e-06,
      "loss": 0.6988,
      "step": 3983
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.76117175279253,
      "learning_rate": 5.081884230183247e-06,
      "loss": 0.8335,
      "step": 3984
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8271064986737104,
      "learning_rate": 5.079811390067049e-06,
      "loss": 0.6269,
      "step": 3985
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4419618266453902,
      "learning_rate": 5.07773853623035e-06,
      "loss": 0.7584,
      "step": 3986
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4836122108481122,
      "learning_rate": 5.075665669029494e-06,
      "loss": 0.9228,
      "step": 3987
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.933079166667104,
      "learning_rate": 5.073592788820832e-06,
      "loss": 0.7753,
      "step": 3988
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6695474590387283,
      "learning_rate": 5.071519895960717e-06,
      "loss": 0.7726,
      "step": 3989
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4881120200225118,
      "learning_rate": 5.069446990805501e-06,
      "loss": 0.7114,
      "step": 3990
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4822578489781189,
      "learning_rate": 5.067374073711545e-06,
      "loss": 0.7847,
      "step": 3991
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7360222367214546,
      "learning_rate": 5.065301145035204e-06,
      "loss": 0.8295,
      "step": 3992
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.392865503330954,
      "learning_rate": 5.063228205132838e-06,
      "loss": 0.8254,
      "step": 3993
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.848746160768987,
      "learning_rate": 5.061155254360811e-06,
      "loss": 0.711,
      "step": 3994
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4205064054263599,
      "learning_rate": 5.059082293075487e-06,
      "loss": 0.8361,
      "step": 3995
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5633604422492557,
      "learning_rate": 5.057009321633233e-06,
      "loss": 0.7834,
      "step": 3996
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.0648721555347014,
      "learning_rate": 5.054936340390414e-06,
      "loss": 0.8275,
      "step": 3997
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5807764110692317,
      "learning_rate": 5.052863349703402e-06,
      "loss": 0.7676,
      "step": 3998
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3924937836281903,
      "learning_rate": 5.050790349928566e-06,
      "loss": 0.8499,
      "step": 3999
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4048307680102492,
      "learning_rate": 5.048717341422282e-06,
      "loss": 0.7899,
      "step": 4000
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4400415960450996,
      "learning_rate": 5.0466443245409215e-06,
      "loss": 0.7883,
      "step": 4001
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5022214377523062,
      "learning_rate": 5.04457129964086e-06,
      "loss": 0.8231,
      "step": 4002
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9404234474086527,
      "learning_rate": 5.042498267078476e-06,
      "loss": 0.6703,
      "step": 4003
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5097116415803364,
      "learning_rate": 5.040425227210148e-06,
      "loss": 0.7996,
      "step": 4004
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.340641325698222,
      "learning_rate": 5.038352180392254e-06,
      "loss": 0.7598,
      "step": 4005
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7849946088912263,
      "learning_rate": 5.036279126981176e-06,
      "loss": 0.8389,
      "step": 4006
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.192631105407879,
      "learning_rate": 5.034206067333296e-06,
      "loss": 0.8248,
      "step": 4007
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3333608610196297,
      "learning_rate": 5.032133001804994e-06,
      "loss": 0.8741,
      "step": 4008
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3719208652447568,
      "learning_rate": 5.030059930752659e-06,
      "loss": 0.7422,
      "step": 4009
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5358688849492232,
      "learning_rate": 5.027986854532673e-06,
      "loss": 0.8022,
      "step": 4010
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6838252137904093,
      "learning_rate": 5.025913773501421e-06,
      "loss": 0.796,
      "step": 4011
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.932024797075233,
      "learning_rate": 5.023840688015291e-06,
      "loss": 0.8476,
      "step": 4012
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.7110844973089832,
      "learning_rate": 5.021767598430672e-06,
      "loss": 0.8427,
      "step": 4013
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.8610086778990043,
      "learning_rate": 5.019694505103949e-06,
      "loss": 0.6571,
      "step": 4014
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4839087481136661,
      "learning_rate": 5.017621408391513e-06,
      "loss": 0.8711,
      "step": 4015
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.8442176234860308,
      "learning_rate": 5.015548308649752e-06,
      "loss": 0.8146,
      "step": 4016
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4585525942429483,
      "learning_rate": 5.013475206235056e-06,
      "loss": 0.8194,
      "step": 4017
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4125978586698493,
      "learning_rate": 5.0114021015038185e-06,
      "loss": 0.7061,
      "step": 4018
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5443747673530115,
      "learning_rate": 5.0093289948124244e-06,
      "loss": 0.8325,
      "step": 4019
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4361266841938152,
      "learning_rate": 5.00725588651727e-06,
      "loss": 0.7973,
      "step": 4020
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.42299015716574,
      "learning_rate": 5.005182776974745e-06,
      "loss": 0.8764,
      "step": 4021
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.918665052929136,
      "learning_rate": 5.0031096665412385e-06,
      "loss": 0.8434,
      "step": 4022
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.5626097059961153,
      "learning_rate": 5.0010365555731455e-06,
      "loss": 0.889,
      "step": 4023
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4017095957942614,
      "learning_rate": 4.998963444426855e-06,
      "loss": 0.8141,
      "step": 4024
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4657229724064744,
      "learning_rate": 4.996890333458762e-06,
      "loss": 0.7976,
      "step": 4025
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7892893790752576,
      "learning_rate": 4.994817223025256e-06,
      "loss": 0.5917,
      "step": 4026
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.7466159381216717,
      "learning_rate": 4.992744113482731e-06,
      "loss": 0.6344,
      "step": 4027
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3899479980612264,
      "learning_rate": 4.990671005187576e-06,
      "loss": 0.8305,
      "step": 4028
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.613181098730717,
      "learning_rate": 4.988597898496183e-06,
      "loss": 0.9307,
      "step": 4029
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4927990758672236,
      "learning_rate": 4.9865247937649445e-06,
      "loss": 0.8365,
      "step": 4030
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3931534015313927,
      "learning_rate": 4.98445169135025e-06,
      "loss": 0.8416,
      "step": 4031
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6935996234328048,
      "learning_rate": 4.982378591608489e-06,
      "loss": 0.8959,
      "step": 4032
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5764533925320496,
      "learning_rate": 4.980305494896052e-06,
      "loss": 0.8081,
      "step": 4033
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5150016479672814,
      "learning_rate": 4.978232401569329e-06,
      "loss": 0.7614,
      "step": 4034
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.464192561797981,
      "learning_rate": 4.97615931198471e-06,
      "loss": 0.7504,
      "step": 4035
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3170886946481,
      "learning_rate": 4.974086226498581e-06,
      "loss": 0.8514,
      "step": 4036
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.432980452767792,
      "learning_rate": 4.972013145467329e-06,
      "loss": 0.7993,
      "step": 4037
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9159197370953995,
      "learning_rate": 4.969940069247343e-06,
      "loss": 0.7503,
      "step": 4038
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7824711931966815,
      "learning_rate": 4.9678669981950076e-06,
      "loss": 0.8384,
      "step": 4039
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6115320282665346,
      "learning_rate": 4.965793932666707e-06,
      "loss": 0.7773,
      "step": 4040
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5117870239697635,
      "learning_rate": 4.963720873018826e-06,
      "loss": 0.8301,
      "step": 4041
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3708682154620044,
      "learning_rate": 4.961647819607749e-06,
      "loss": 0.8172,
      "step": 4042
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3372056035996471,
      "learning_rate": 4.959574772789853e-06,
      "loss": 0.8027,
      "step": 4043
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4250431586796364,
      "learning_rate": 4.957501732921524e-06,
      "loss": 0.829,
      "step": 4044
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9404017704924186,
      "learning_rate": 4.955428700359141e-06,
      "loss": 0.7639,
      "step": 4045
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5640151247113605,
      "learning_rate": 4.953355675459081e-06,
      "loss": 0.7172,
      "step": 4046
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4968732202205834,
      "learning_rate": 4.951282658577719e-06,
      "loss": 0.8603,
      "step": 4047
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3330731622869307,
      "learning_rate": 4.9492096500714346e-06,
      "loss": 0.7231,
      "step": 4048
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6715564779185736,
      "learning_rate": 4.947136650296601e-06,
      "loss": 0.8716,
      "step": 4049
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7466975741736879,
      "learning_rate": 4.945063659609588e-06,
      "loss": 0.7497,
      "step": 4050
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6733246098204995,
      "learning_rate": 4.94299067836677e-06,
      "loss": 0.7962,
      "step": 4051
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6801231064497777,
      "learning_rate": 4.940917706924513e-06,
      "loss": 0.7459,
      "step": 4052
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4171698896403429,
      "learning_rate": 4.93884474563919e-06,
      "loss": 0.8425,
      "step": 4053
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5222026111451068,
      "learning_rate": 4.936771794867163e-06,
      "loss": 0.793,
      "step": 4054
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4732846525422338,
      "learning_rate": 4.9346988549647974e-06,
      "loss": 0.8294,
      "step": 4055
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6701177556350058,
      "learning_rate": 4.9326259262884565e-06,
      "loss": 0.7668,
      "step": 4056
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.9712049452915803,
      "learning_rate": 4.9305530091945e-06,
      "loss": 0.8307,
      "step": 4057
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6359169160500533,
      "learning_rate": 4.928480104039285e-06,
      "loss": 0.754,
      "step": 4058
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0154488734656,
      "learning_rate": 4.92640721117917e-06,
      "loss": 0.6855,
      "step": 4059
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4116486501094847,
      "learning_rate": 4.924334330970509e-06,
      "loss": 0.8304,
      "step": 4060
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4843354546282104,
      "learning_rate": 4.922261463769652e-06,
      "loss": 0.8427,
      "step": 4061
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5509675137284455,
      "learning_rate": 4.920188609932951e-06,
      "loss": 0.8467,
      "step": 4062
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3290687914118053,
      "learning_rate": 4.918115769816754e-06,
      "loss": 0.8073,
      "step": 4063
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6425482046441602,
      "learning_rate": 4.9160429437774065e-06,
      "loss": 0.7148,
      "step": 4064
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4770545192807234,
      "learning_rate": 4.913970132171248e-06,
      "loss": 0.819,
      "step": 4065
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3670466642823769,
      "learning_rate": 4.911897335354624e-06,
      "loss": 0.8153,
      "step": 4066
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5228089440730992,
      "learning_rate": 4.909824553683868e-06,
      "loss": 0.698,
      "step": 4067
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5409469700442278,
      "learning_rate": 4.907751787515316e-06,
      "loss": 0.7949,
      "step": 4068
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3458820793946298,
      "learning_rate": 4.905679037205302e-06,
      "loss": 0.8225,
      "step": 4069
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.6805071774671063,
      "learning_rate": 4.903606303110153e-06,
      "loss": 0.8193,
      "step": 4070
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.378180500767448,
      "learning_rate": 4.9015335855862e-06,
      "loss": 0.8036,
      "step": 4071
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3924038703318913,
      "learning_rate": 4.899460884989764e-06,
      "loss": 0.7168,
      "step": 4072
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5993295499385252,
      "learning_rate": 4.897388201677169e-06,
      "loss": 0.8592,
      "step": 4073
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.7347170921635653,
      "learning_rate": 4.895315536004731e-06,
      "loss": 0.8419,
      "step": 4074
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8981903917508396,
      "learning_rate": 4.893242888328765e-06,
      "loss": 0.8649,
      "step": 4075
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8822626135178966,
      "learning_rate": 4.891170259005585e-06,
      "loss": 0.6395,
      "step": 4076
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5790744043761373,
      "learning_rate": 4.8890976483915e-06,
      "loss": 0.8358,
      "step": 4077
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4022228178711356,
      "learning_rate": 4.887025056842815e-06,
      "loss": 0.7778,
      "step": 4078
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.539665799975211,
      "learning_rate": 4.88495248471583e-06,
      "loss": 0.8658,
      "step": 4079
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5224228804810755,
      "learning_rate": 4.8828799323668465e-06,
      "loss": 0.7347,
      "step": 4080
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3328976945694995,
      "learning_rate": 4.880807400152162e-06,
      "loss": 0.7729,
      "step": 4081
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4280885972034902,
      "learning_rate": 4.878734888428068e-06,
      "loss": 0.8041,
      "step": 4082
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3675065147782548,
      "learning_rate": 4.876662397550851e-06,
      "loss": 0.7286,
      "step": 4083
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4689200796278559,
      "learning_rate": 4.874589927876799e-06,
      "loss": 0.7567,
      "step": 4084
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5183839627717812,
      "learning_rate": 4.872517479762192e-06,
      "loss": 0.7465,
      "step": 4085
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8558776624628641,
      "learning_rate": 4.870445053563307e-06,
      "loss": 0.7884,
      "step": 4086
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6221934987500768,
      "learning_rate": 4.868372649636421e-06,
      "loss": 0.8942,
      "step": 4087
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5443103096990367,
      "learning_rate": 4.866300268337802e-06,
      "loss": 0.7876,
      "step": 4088
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.351343225835538,
      "learning_rate": 4.864227910023714e-06,
      "loss": 0.8769,
      "step": 4089
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2281747043462432,
      "learning_rate": 4.862155575050426e-06,
      "loss": 0.7843,
      "step": 4090
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.891259253686358,
      "learning_rate": 4.86008326377419e-06,
      "loss": 0.6935,
      "step": 4091
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.396442832706062,
      "learning_rate": 4.858010976551265e-06,
      "loss": 0.8653,
      "step": 4092
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8743545224925802,
      "learning_rate": 4.855938713737899e-06,
      "loss": 0.6692,
      "step": 4093
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.328617906004696,
      "learning_rate": 4.853866475690338e-06,
      "loss": 0.7134,
      "step": 4094
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.6898372332046283,
      "learning_rate": 4.851794262764824e-06,
      "loss": 0.7438,
      "step": 4095
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3787271933353766,
      "learning_rate": 4.849722075317594e-06,
      "loss": 0.8346,
      "step": 4096
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4646822919105893,
      "learning_rate": 4.847649913704881e-06,
      "loss": 0.8519,
      "step": 4097
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.8179245688026453,
      "learning_rate": 4.845577778282913e-06,
      "loss": 0.7946,
      "step": 4098
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6097308428698782,
      "learning_rate": 4.843505669407917e-06,
      "loss": 0.8363,
      "step": 4099
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5582083974851915,
      "learning_rate": 4.841433587436111e-06,
      "loss": 0.7487,
      "step": 4100
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.640805318249173,
      "learning_rate": 4.839361532723708e-06,
      "loss": 0.754,
      "step": 4101
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4566210020943264,
      "learning_rate": 4.837289505626921e-06,
      "loss": 0.6953,
      "step": 4102
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4495115598685762,
      "learning_rate": 4.835217506501955e-06,
      "loss": 0.8307,
      "step": 4103
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.482362110829742,
      "learning_rate": 4.8331455357050084e-06,
      "loss": 0.9607,
      "step": 4104
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7760371428811392,
      "learning_rate": 4.831073593592279e-06,
      "loss": 0.7136,
      "step": 4105
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9371538289739082,
      "learning_rate": 4.829001680519958e-06,
      "loss": 0.6975,
      "step": 4106
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.887817113175298,
      "learning_rate": 4.826929796844228e-06,
      "loss": 0.7612,
      "step": 4107
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2655547945719754,
      "learning_rate": 4.824857942921274e-06,
      "loss": 0.6795,
      "step": 4108
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4481943427239414,
      "learning_rate": 4.822786119107271e-06,
      "loss": 0.709,
      "step": 4109
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6259492462789948,
      "learning_rate": 4.820714325758388e-06,
      "loss": 0.72,
      "step": 4110
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.529718928635376,
      "learning_rate": 4.818642563230791e-06,
      "loss": 0.7903,
      "step": 4111
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6769266335234585,
      "learning_rate": 4.8165708318806385e-06,
      "loss": 0.7639,
      "step": 4112
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.0330494158913566,
      "learning_rate": 4.814499132064088e-06,
      "loss": 0.8397,
      "step": 4113
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5289752035983672,
      "learning_rate": 4.8124274641372875e-06,
      "loss": 0.7312,
      "step": 4114
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.3363201493964443,
      "learning_rate": 4.810355828456379e-06,
      "loss": 0.8376,
      "step": 4115
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.8397660579680917,
      "learning_rate": 4.808284225377503e-06,
      "loss": 0.742,
      "step": 4116
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5250578658438592,
      "learning_rate": 4.8062126552567896e-06,
      "loss": 0.6887,
      "step": 4117
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5414384639854755,
      "learning_rate": 4.804141118450369e-06,
      "loss": 0.8352,
      "step": 4118
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5398161167201347,
      "learning_rate": 4.80206961531436e-06,
      "loss": 0.7985,
      "step": 4119
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4458530090026402,
      "learning_rate": 4.799998146204879e-06,
      "loss": 0.8536,
      "step": 4120
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6480583618357778,
      "learning_rate": 4.797926711478037e-06,
      "loss": 0.9722,
      "step": 4121
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9235106221403024,
      "learning_rate": 4.7958553114899335e-06,
      "loss": 0.6245,
      "step": 4122
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6746555999228185,
      "learning_rate": 4.793783946596669e-06,
      "loss": 0.8175,
      "step": 4123
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3400560431837767,
      "learning_rate": 4.791712617154336e-06,
      "loss": 0.9066,
      "step": 4124
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.8904621843125158,
      "learning_rate": 4.789641323519018e-06,
      "loss": 0.8926,
      "step": 4125
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6902366785661196,
      "learning_rate": 4.787570066046794e-06,
      "loss": 0.7203,
      "step": 4126
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9809771043515352,
      "learning_rate": 4.785498845093739e-06,
      "loss": 0.8245,
      "step": 4127
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3372561936068,
      "learning_rate": 4.78342766101592e-06,
      "loss": 0.8059,
      "step": 4128
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5723171901857511,
      "learning_rate": 4.7813565141693965e-06,
      "loss": 0.8984,
      "step": 4129
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5084845203334312,
      "learning_rate": 4.7792854049102234e-06,
      "loss": 0.8612,
      "step": 4130
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6415584854785004,
      "learning_rate": 4.7772143335944486e-06,
      "loss": 0.8474,
      "step": 4131
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2694467777879388,
      "learning_rate": 4.775143300578112e-06,
      "loss": 0.6572,
      "step": 4132
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9175891647361462,
      "learning_rate": 4.773072306217247e-06,
      "loss": 0.6879,
      "step": 4133
    },
    {
      "epoch": 0.53,
      "grad_norm": 7.818278571232107,
      "learning_rate": 4.771001350867886e-06,
      "loss": 0.7509,
      "step": 4134
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3714954830057742,
      "learning_rate": 4.768930434886044e-06,
      "loss": 0.8323,
      "step": 4135
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7901053951101364,
      "learning_rate": 4.766859558627741e-06,
      "loss": 0.6721,
      "step": 4136
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5708989310738615,
      "learning_rate": 4.7647887224489834e-06,
      "loss": 0.7955,
      "step": 4137
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4360218457159937,
      "learning_rate": 4.762717926705771e-06,
      "loss": 0.7862,
      "step": 4138
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4311159629681627,
      "learning_rate": 4.760647171754098e-06,
      "loss": 0.8032,
      "step": 4139
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.0962847837724112,
      "learning_rate": 4.75857645794995e-06,
      "loss": 0.7731,
      "step": 4140
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.703591790395706,
      "learning_rate": 4.756505785649309e-06,
      "loss": 0.8484,
      "step": 4141
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.2631121651126676,
      "learning_rate": 4.754435155208146e-06,
      "loss": 0.7829,
      "step": 4142
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5573167106026407,
      "learning_rate": 4.752364566982425e-06,
      "loss": 0.9599,
      "step": 4143
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3974289869441032,
      "learning_rate": 4.750294021328105e-06,
      "loss": 0.8039,
      "step": 4144
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5967716889822954,
      "learning_rate": 4.748223518601141e-06,
      "loss": 0.7395,
      "step": 4145
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5037071298529092,
      "learning_rate": 4.7461530591574715e-06,
      "loss": 0.6918,
      "step": 4146
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.935772591106119,
      "learning_rate": 4.744082643353034e-06,
      "loss": 0.8828,
      "step": 4147
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9236503876733355,
      "learning_rate": 4.742012271543757e-06,
      "loss": 0.7353,
      "step": 4148
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5736176080392161,
      "learning_rate": 4.739941944085561e-06,
      "loss": 0.8796,
      "step": 4149
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8702132306790271,
      "learning_rate": 4.73787166133436e-06,
      "loss": 0.6462,
      "step": 4150
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8676786407795872,
      "learning_rate": 4.735801423646059e-06,
      "loss": 0.6521,
      "step": 4151
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6046312367851787,
      "learning_rate": 4.733731231376557e-06,
      "loss": 0.8448,
      "step": 4152
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7221897940158604,
      "learning_rate": 4.731661084881744e-06,
      "loss": 0.8527,
      "step": 4153
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8667013120768462,
      "learning_rate": 4.729590984517498e-06,
      "loss": 0.6965,
      "step": 4154
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.605404718882359,
      "learning_rate": 4.727520930639698e-06,
      "loss": 0.853,
      "step": 4155
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5904275696502956,
      "learning_rate": 4.7254509236042105e-06,
      "loss": 0.8756,
      "step": 4156
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.562653185051749,
      "learning_rate": 4.723380963766891e-06,
      "loss": 0.7653,
      "step": 4157
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6876960696299985,
      "learning_rate": 4.72131105148359e-06,
      "loss": 0.7406,
      "step": 4158
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4173961442667913,
      "learning_rate": 4.719241187110152e-06,
      "loss": 0.8814,
      "step": 4159
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3614045314985666,
      "learning_rate": 4.717171371002407e-06,
      "loss": 0.7704,
      "step": 4160
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7947329695998622,
      "learning_rate": 4.715101603516183e-06,
      "loss": 0.8276,
      "step": 4161
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4018054000130042,
      "learning_rate": 4.713031885007296e-06,
      "loss": 0.7678,
      "step": 4162
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5513713069418678,
      "learning_rate": 4.710962215831553e-06,
      "loss": 0.7388,
      "step": 4163
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4413156159691491,
      "learning_rate": 4.708892596344758e-06,
      "loss": 0.7624,
      "step": 4164
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4949048128046714,
      "learning_rate": 4.706823026902699e-06,
      "loss": 0.8999,
      "step": 4165
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3679793172344836,
      "learning_rate": 4.7047535078611626e-06,
      "loss": 0.7887,
      "step": 4166
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4533815545222277,
      "learning_rate": 4.70268403957592e-06,
      "loss": 0.7271,
      "step": 4167
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3941540514080226,
      "learning_rate": 4.700614622402737e-06,
      "loss": 0.8445,
      "step": 4168
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.9169430134668672,
      "learning_rate": 4.698545256697373e-06,
      "loss": 0.8402,
      "step": 4169
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4041572532618953,
      "learning_rate": 4.696475942815573e-06,
      "loss": 0.8629,
      "step": 4170
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4392357554593702,
      "learning_rate": 4.6944066811130775e-06,
      "loss": 0.8749,
      "step": 4171
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3547726457713591,
      "learning_rate": 4.692337471945614e-06,
      "loss": 0.856,
      "step": 4172
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5856210375628852,
      "learning_rate": 4.690268315668908e-06,
      "loss": 0.712,
      "step": 4173
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.8728373386399882,
      "learning_rate": 4.688199212638669e-06,
      "loss": 0.7183,
      "step": 4174
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4866121847664635,
      "learning_rate": 4.6861301632106005e-06,
      "loss": 0.8974,
      "step": 4175
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7345601461515818,
      "learning_rate": 4.684061167740395e-06,
      "loss": 0.7337,
      "step": 4176
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.7785114558204735,
      "learning_rate": 4.6819922265837385e-06,
      "loss": 0.7768,
      "step": 4177
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3718352268423288,
      "learning_rate": 4.679923340096304e-06,
      "loss": 0.7413,
      "step": 4178
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6709935081311487,
      "learning_rate": 4.677854508633757e-06,
      "loss": 0.886,
      "step": 4179
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8273037330998806,
      "learning_rate": 4.675785732551756e-06,
      "loss": 0.6412,
      "step": 4180
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8365650217441292,
      "learning_rate": 4.673717012205945e-06,
      "loss": 0.7847,
      "step": 4181
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.285759077431891,
      "learning_rate": 4.671648347951963e-06,
      "loss": 0.8226,
      "step": 4182
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5106457938695144,
      "learning_rate": 4.669579740145436e-06,
      "loss": 0.7929,
      "step": 4183
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7725999473312737,
      "learning_rate": 4.6675111891419835e-06,
      "loss": 0.8137,
      "step": 4184
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6629238742780947,
      "learning_rate": 4.665442695297212e-06,
      "loss": 0.7973,
      "step": 4185
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4058608696263881,
      "learning_rate": 4.663374258966718e-06,
      "loss": 0.7243,
      "step": 4186
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8002853806084507,
      "learning_rate": 4.661305880506094e-06,
      "loss": 0.8625,
      "step": 4187
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4295672901187453,
      "learning_rate": 4.659237560270914e-06,
      "loss": 0.8766,
      "step": 4188
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.4021989498966567,
      "learning_rate": 4.657169298616748e-06,
      "loss": 0.7167,
      "step": 4189
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2972034791663165,
      "learning_rate": 4.655101095899154e-06,
      "loss": 0.7814,
      "step": 4190
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7971659808589449,
      "learning_rate": 4.653032952473678e-06,
      "loss": 0.7132,
      "step": 4191
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5169756366004064,
      "learning_rate": 4.650964868695863e-06,
      "loss": 0.7782,
      "step": 4192
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9274981764549153,
      "learning_rate": 4.648896844921233e-06,
      "loss": 0.7847,
      "step": 4193
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7850794483757219,
      "learning_rate": 4.6468288815053045e-06,
      "loss": 0.6567,
      "step": 4194
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.606650149948892,
      "learning_rate": 4.644760978803587e-06,
      "loss": 0.8021,
      "step": 4195
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8622947179981544,
      "learning_rate": 4.642693137171575e-06,
      "loss": 0.8627,
      "step": 4196
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6099987896982078,
      "learning_rate": 4.640625356964753e-06,
      "loss": 0.7719,
      "step": 4197
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5066061314806434,
      "learning_rate": 4.638557638538601e-06,
      "loss": 0.7267,
      "step": 4198
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3002303735042005,
      "learning_rate": 4.63648998224858e-06,
      "loss": 0.7591,
      "step": 4199
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8741921161590632,
      "learning_rate": 4.634422388450144e-06,
      "loss": 0.6913,
      "step": 4200
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.038121515361745,
      "learning_rate": 4.632354857498738e-06,
      "loss": 0.7792,
      "step": 4201
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5255331700985872,
      "learning_rate": 4.6302873897497955e-06,
      "loss": 0.8649,
      "step": 4202
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.2654862031723515,
      "learning_rate": 4.628219985558737e-06,
      "loss": 0.8044,
      "step": 4203
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8559071326496536,
      "learning_rate": 4.626152645280972e-06,
      "loss": 0.6263,
      "step": 4204
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3869940206234777,
      "learning_rate": 4.624085369271902e-06,
      "loss": 0.832,
      "step": 4205
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.5466363333183053,
      "learning_rate": 4.622018157886915e-06,
      "loss": 0.862,
      "step": 4206
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4093645357689637,
      "learning_rate": 4.6199510114813875e-06,
      "loss": 0.8309,
      "step": 4207
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5294432682295782,
      "learning_rate": 4.617883930410688e-06,
      "loss": 0.7712,
      "step": 4208
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.827299409176838,
      "learning_rate": 4.615816915030169e-06,
      "loss": 0.6392,
      "step": 4209
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4116775882022856,
      "learning_rate": 4.613749965695178e-06,
      "loss": 0.7925,
      "step": 4210
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5289334259042704,
      "learning_rate": 4.611683082761046e-06,
      "loss": 0.8186,
      "step": 4211
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4742936469014694,
      "learning_rate": 4.609616266583093e-06,
      "loss": 0.8302,
      "step": 4212
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8420034050886064,
      "learning_rate": 4.607549517516629e-06,
      "loss": 0.7466,
      "step": 4213
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.612290746519332,
      "learning_rate": 4.605482835916954e-06,
      "loss": 0.7923,
      "step": 4214
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8766495897618,
      "learning_rate": 4.603416222139352e-06,
      "loss": 0.7824,
      "step": 4215
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8102233173364661,
      "learning_rate": 4.6013496765391e-06,
      "loss": 0.8421,
      "step": 4216
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.553326768183008,
      "learning_rate": 4.59928319947146e-06,
      "loss": 0.8523,
      "step": 4217
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9433022879721452,
      "learning_rate": 4.597216791291681e-06,
      "loss": 0.6617,
      "step": 4218
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3540476129215695,
      "learning_rate": 4.595150452355006e-06,
      "loss": 0.8139,
      "step": 4219
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3271021862561263,
      "learning_rate": 4.593084183016664e-06,
      "loss": 0.7937,
      "step": 4220
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6800506978533896,
      "learning_rate": 4.5910179836318665e-06,
      "loss": 0.8539,
      "step": 4221
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.804903121683599,
      "learning_rate": 4.58895185455582e-06,
      "loss": 0.8162,
      "step": 4222
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8463866501803047,
      "learning_rate": 4.586885796143715e-06,
      "loss": 0.6605,
      "step": 4223
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.413754348677632,
      "learning_rate": 4.58481980875073e-06,
      "loss": 0.7202,
      "step": 4224
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.682745422642523,
      "learning_rate": 4.582753892732033e-06,
      "loss": 0.7735,
      "step": 4225
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.357191337529684,
      "learning_rate": 4.58068804844278e-06,
      "loss": 0.9533,
      "step": 4226
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.5245004989163267,
      "learning_rate": 4.578622276238112e-06,
      "loss": 0.6983,
      "step": 4227
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6326784629241469,
      "learning_rate": 4.576556576473158e-06,
      "loss": 0.7063,
      "step": 4228
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.63452631532535,
      "learning_rate": 4.57449094950304e-06,
      "loss": 0.766,
      "step": 4229
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.778819817994663,
      "learning_rate": 4.572425395682859e-06,
      "loss": 0.7212,
      "step": 4230
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4321395861710868,
      "learning_rate": 4.570359915367711e-06,
      "loss": 0.8035,
      "step": 4231
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.58821101864907,
      "learning_rate": 4.568294508912674e-06,
      "loss": 0.8682,
      "step": 4232
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7684266153515684,
      "learning_rate": 4.566229176672815e-06,
      "loss": 0.6694,
      "step": 4233
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4549483862330028,
      "learning_rate": 4.5641639190031894e-06,
      "loss": 0.844,
      "step": 4234
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3975763536775245,
      "learning_rate": 4.56209873625884e-06,
      "loss": 0.7705,
      "step": 4235
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5523304531980144,
      "learning_rate": 4.560033628794792e-06,
      "loss": 0.7161,
      "step": 4236
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4057346582381842,
      "learning_rate": 4.557968596966063e-06,
      "loss": 0.9241,
      "step": 4237
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.645197962481737,
      "learning_rate": 4.5559036411276596e-06,
      "loss": 0.9226,
      "step": 4238
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.8715393718471143,
      "learning_rate": 4.553838761634569e-06,
      "loss": 0.8084,
      "step": 4239
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.505997637319452,
      "learning_rate": 4.551773958841765e-06,
      "loss": 0.8305,
      "step": 4240
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.436513693401019,
      "learning_rate": 4.549709233104216e-06,
      "loss": 0.8007,
      "step": 4241
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6294765996760077,
      "learning_rate": 4.54764458477687e-06,
      "loss": 0.687,
      "step": 4242
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3153060088528483,
      "learning_rate": 4.5455800142146626e-06,
      "loss": 0.7661,
      "step": 4243
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.7385393787520159,
      "learning_rate": 4.54351552177252e-06,
      "loss": 0.6396,
      "step": 4244
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4499999354856792,
      "learning_rate": 4.541451107805351e-06,
      "loss": 0.8019,
      "step": 4245
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8197957037795885,
      "learning_rate": 4.53938677266805e-06,
      "loss": 0.6683,
      "step": 4246
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9624649365889766,
      "learning_rate": 4.537322516715505e-06,
      "loss": 0.8074,
      "step": 4247
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.9720823098955185,
      "learning_rate": 4.535258340302583e-06,
      "loss": 0.8929,
      "step": 4248
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.62147652516828,
      "learning_rate": 4.53319424378414e-06,
      "loss": 0.8688,
      "step": 4249
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.661397740737005,
      "learning_rate": 4.531130227515019e-06,
      "loss": 0.8718,
      "step": 4250
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3081928816256347,
      "learning_rate": 4.529066291850047e-06,
      "loss": 0.7328,
      "step": 4251
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8545807034611598,
      "learning_rate": 4.527002437144039e-06,
      "loss": 0.6926,
      "step": 4252
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.6138851827254923,
      "learning_rate": 4.524938663751796e-06,
      "loss": 0.7566,
      "step": 4253
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5222276779929953,
      "learning_rate": 4.522874972028103e-06,
      "loss": 0.7538,
      "step": 4254
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.7378122775764677,
      "learning_rate": 4.520811362327732e-06,
      "loss": 0.7495,
      "step": 4255
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.648282590729676,
      "learning_rate": 4.518747835005445e-06,
      "loss": 0.7935,
      "step": 4256
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9649967562121179,
      "learning_rate": 4.516684390415985e-06,
      "loss": 0.6093,
      "step": 4257
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7116795175869441,
      "learning_rate": 4.51462102891408e-06,
      "loss": 0.8841,
      "step": 4258
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3145493690355454,
      "learning_rate": 4.512557750854448e-06,
      "loss": 0.7641,
      "step": 4259
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.343378887915639,
      "learning_rate": 4.51049455659179e-06,
      "loss": 0.7235,
      "step": 4260
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6518674444544215,
      "learning_rate": 4.508431446480792e-06,
      "loss": 0.8091,
      "step": 4261
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4531897116434307,
      "learning_rate": 4.506368420876127e-06,
      "loss": 0.8112,
      "step": 4262
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7051799183746823,
      "learning_rate": 4.504305480132454e-06,
      "loss": 0.7779,
      "step": 4263
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4788008612194468,
      "learning_rate": 4.502242624604413e-06,
      "loss": 0.8557,
      "step": 4264
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2852836339648417,
      "learning_rate": 4.5001798546466365e-06,
      "loss": 0.7585,
      "step": 4265
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7719264012507404,
      "learning_rate": 4.498117170613738e-06,
      "loss": 0.6055,
      "step": 4266
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3619305674794489,
      "learning_rate": 4.496054572860317e-06,
      "loss": 0.8221,
      "step": 4267
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7426884584668847,
      "learning_rate": 4.493992061740956e-06,
      "loss": 0.7692,
      "step": 4268
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8622041019949767,
      "learning_rate": 4.491929637610225e-06,
      "loss": 0.7582,
      "step": 4269
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4860619783860993,
      "learning_rate": 4.489867300822681e-06,
      "loss": 0.7208,
      "step": 4270
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5889560484762337,
      "learning_rate": 4.4878050517328625e-06,
      "loss": 0.7483,
      "step": 4271
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.7737041331239147,
      "learning_rate": 4.485742890695292e-06,
      "loss": 0.6415,
      "step": 4272
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6332819043626416,
      "learning_rate": 4.483680818064481e-06,
      "loss": 0.8756,
      "step": 4273
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4064377453082908,
      "learning_rate": 4.481618834194921e-06,
      "loss": 0.7542,
      "step": 4274
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5176334302348256,
      "learning_rate": 4.479556939441095e-06,
      "loss": 0.7215,
      "step": 4275
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6792116219342812,
      "learning_rate": 4.477495134157464e-06,
      "loss": 0.7388,
      "step": 4276
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6323613215960877,
      "learning_rate": 4.475433418698477e-06,
      "loss": 0.7131,
      "step": 4277
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.563848698881416,
      "learning_rate": 4.473371793418567e-06,
      "loss": 0.7356,
      "step": 4278
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5583786866465748,
      "learning_rate": 4.471310258672151e-06,
      "loss": 0.8206,
      "step": 4279
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8589827927133321,
      "learning_rate": 4.469248814813631e-06,
      "loss": 0.6773,
      "step": 4280
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8040873917433443,
      "learning_rate": 4.467187462197392e-06,
      "loss": 0.6469,
      "step": 4281
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7409980476318578,
      "learning_rate": 4.465126201177804e-06,
      "loss": 0.8756,
      "step": 4282
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.380811805147042,
      "learning_rate": 4.463065032109224e-06,
      "loss": 0.9747,
      "step": 4283
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6740868636832102,
      "learning_rate": 4.461003955345989e-06,
      "loss": 0.9906,
      "step": 4284
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4866614101394708,
      "learning_rate": 4.458942971242423e-06,
      "loss": 0.7596,
      "step": 4285
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.692839820121257,
      "learning_rate": 4.456882080152834e-06,
      "loss": 0.8131,
      "step": 4286
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2482411624356033,
      "learning_rate": 4.454821282431511e-06,
      "loss": 0.8454,
      "step": 4287
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5150983232953987,
      "learning_rate": 4.4527605784327295e-06,
      "loss": 0.8512,
      "step": 4288
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6552450326795318,
      "learning_rate": 4.450699968510749e-06,
      "loss": 0.8358,
      "step": 4289
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5470104183636313,
      "learning_rate": 4.448639453019812e-06,
      "loss": 0.7336,
      "step": 4290
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8873579590267326,
      "learning_rate": 4.446579032314145e-06,
      "loss": 0.6441,
      "step": 4291
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7572669630258728,
      "learning_rate": 4.444518706747956e-06,
      "loss": 0.74,
      "step": 4292
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.1401805671442244,
      "learning_rate": 4.442458476675443e-06,
      "loss": 0.8262,
      "step": 4293
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4730675714320132,
      "learning_rate": 4.440398342450782e-06,
      "loss": 0.7254,
      "step": 4294
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9549837297947028,
      "learning_rate": 4.438338304428132e-06,
      "loss": 0.8223,
      "step": 4295
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4426985877400955,
      "learning_rate": 4.43627836296164e-06,
      "loss": 0.7862,
      "step": 4296
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4358967331958794,
      "learning_rate": 4.434218518405432e-06,
      "loss": 0.7593,
      "step": 4297
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7039473229631854,
      "learning_rate": 4.43215877111362e-06,
      "loss": 0.8343,
      "step": 4298
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4712390553220696,
      "learning_rate": 4.4300991214402986e-06,
      "loss": 0.8718,
      "step": 4299
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8821705671651445,
      "learning_rate": 4.428039569739544e-06,
      "loss": 0.8583,
      "step": 4300
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3525229901235187,
      "learning_rate": 4.425980116365419e-06,
      "loss": 0.7253,
      "step": 4301
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.658180566512506,
      "learning_rate": 4.423920761671965e-06,
      "loss": 0.8027,
      "step": 4302
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7071102926095791,
      "learning_rate": 4.421861506013213e-06,
      "loss": 0.7875,
      "step": 4303
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5999327983184926,
      "learning_rate": 4.419802349743169e-06,
      "loss": 0.774,
      "step": 4304
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4708484166352844,
      "learning_rate": 4.417743293215827e-06,
      "loss": 0.8278,
      "step": 4305
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.8115585137123964,
      "learning_rate": 4.415684336785165e-06,
      "loss": 0.8297,
      "step": 4306
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3908284992325244,
      "learning_rate": 4.413625480805138e-06,
      "loss": 0.8943,
      "step": 4307
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.391406016449454,
      "learning_rate": 4.411566725629688e-06,
      "loss": 0.8874,
      "step": 4308
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9671696762469872,
      "learning_rate": 4.409508071612741e-06,
      "loss": 0.7717,
      "step": 4309
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5309583127964648,
      "learning_rate": 4.407449519108203e-06,
      "loss": 0.8086,
      "step": 4310
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.038282463315509,
      "learning_rate": 4.405391068469958e-06,
      "loss": 0.7628,
      "step": 4311
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5207640026991829,
      "learning_rate": 4.403332720051884e-06,
      "loss": 0.8882,
      "step": 4312
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9764370210690814,
      "learning_rate": 4.401274474207833e-06,
      "loss": 0.6736,
      "step": 4313
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5142763217301274,
      "learning_rate": 4.3992163312916404e-06,
      "loss": 0.8273,
      "step": 4314
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6688922102507455,
      "learning_rate": 4.397158291657125e-06,
      "loss": 0.8482,
      "step": 4315
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3620349602448196,
      "learning_rate": 4.39510035565809e-06,
      "loss": 0.6883,
      "step": 4316
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3981973945654522,
      "learning_rate": 4.393042523648315e-06,
      "loss": 0.8664,
      "step": 4317
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3868004757453463,
      "learning_rate": 4.390984795981566e-06,
      "loss": 0.7235,
      "step": 4318
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7175923071252521,
      "learning_rate": 4.388927173011592e-06,
      "loss": 0.9162,
      "step": 4319
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6430975656444489,
      "learning_rate": 4.38686965509212e-06,
      "loss": 0.8471,
      "step": 4320
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3235616611246024,
      "learning_rate": 4.384812242576863e-06,
      "loss": 0.898,
      "step": 4321
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8553179161830088,
      "learning_rate": 4.382754935819514e-06,
      "loss": 0.7416,
      "step": 4322
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.512024565377962,
      "learning_rate": 4.380697735173745e-06,
      "loss": 0.8341,
      "step": 4323
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8125464261540005,
      "learning_rate": 4.378640640993218e-06,
      "loss": 0.7354,
      "step": 4324
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.042867114034577,
      "learning_rate": 4.376583653631567e-06,
      "loss": 0.8895,
      "step": 4325
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6622086957459363,
      "learning_rate": 4.374526773442413e-06,
      "loss": 0.7582,
      "step": 4326
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5627450247000612,
      "learning_rate": 4.372470000779357e-06,
      "loss": 0.8152,
      "step": 4327
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3972816621270783,
      "learning_rate": 4.370413335995985e-06,
      "loss": 0.7307,
      "step": 4328
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.330912522770453,
      "learning_rate": 4.368356779445856e-06,
      "loss": 0.7954,
      "step": 4329
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5904182417556612,
      "learning_rate": 4.36630033148252e-06,
      "loss": 0.8832,
      "step": 4330
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.479932421444292,
      "learning_rate": 4.364243992459506e-06,
      "loss": 0.8029,
      "step": 4331
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4479230346129253,
      "learning_rate": 4.362187762730319e-06,
      "loss": 0.797,
      "step": 4332
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5340919954515957,
      "learning_rate": 4.360131642648449e-06,
      "loss": 0.7341,
      "step": 4333
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8026028203137816,
      "learning_rate": 4.358075632567368e-06,
      "loss": 0.6751,
      "step": 4334
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.661171857961447,
      "learning_rate": 4.356019732840528e-06,
      "loss": 0.7536,
      "step": 4335
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4273324623391335,
      "learning_rate": 4.3539639438213606e-06,
      "loss": 0.8044,
      "step": 4336
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.3442750634046416,
      "learning_rate": 4.351908265863282e-06,
      "loss": 0.7283,
      "step": 4337
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4592936941652814,
      "learning_rate": 4.349852699319686e-06,
      "loss": 0.8974,
      "step": 4338
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2700125838686198,
      "learning_rate": 4.347797244543945e-06,
      "loss": 0.8207,
      "step": 4339
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.7183919377967816,
      "learning_rate": 4.34574190188942e-06,
      "loss": 0.785,
      "step": 4340
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.203267929410859,
      "learning_rate": 4.343686671709449e-06,
      "loss": 0.7786,
      "step": 4341
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.539166520027386,
      "learning_rate": 4.341631554357347e-06,
      "loss": 0.7451,
      "step": 4342
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3608058865645662,
      "learning_rate": 4.339576550186413e-06,
      "loss": 0.8412,
      "step": 4343
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5893005785933887,
      "learning_rate": 4.3375216595499254e-06,
      "loss": 0.7945,
      "step": 4344
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4451372279620933,
      "learning_rate": 4.335466882801146e-06,
      "loss": 0.8916,
      "step": 4345
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5914448366201337,
      "learning_rate": 4.333412220293313e-06,
      "loss": 0.799,
      "step": 4346
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7409829985520902,
      "learning_rate": 4.3313576723796464e-06,
      "loss": 0.8575,
      "step": 4347
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5036166307521865,
      "learning_rate": 4.329303239413346e-06,
      "loss": 0.856,
      "step": 4348
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7975200799672063,
      "learning_rate": 4.327248921747597e-06,
      "loss": 0.6434,
      "step": 4349
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5755861794792603,
      "learning_rate": 4.325194719735557e-06,
      "loss": 0.8116,
      "step": 4350
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.270664789710948,
      "learning_rate": 4.3231406337303665e-06,
      "loss": 0.7847,
      "step": 4351
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.259258581127623,
      "learning_rate": 4.321086664085149e-06,
      "loss": 0.8361,
      "step": 4352
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.315749031126158,
      "learning_rate": 4.319032811153005e-06,
      "loss": 0.7523,
      "step": 4353
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6746240023905117,
      "learning_rate": 4.316979075287014e-06,
      "loss": 0.9778,
      "step": 4354
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6333404661763147,
      "learning_rate": 4.314925456840239e-06,
      "loss": 0.7233,
      "step": 4355
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7519573457719968,
      "learning_rate": 4.3128719561657205e-06,
      "loss": 0.6861,
      "step": 4356
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3138374316973869,
      "learning_rate": 4.310818573616476e-06,
      "loss": 0.7616,
      "step": 4357
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8494079771175299,
      "learning_rate": 4.30876530954551e-06,
      "loss": 0.6437,
      "step": 4358
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.050633612431894,
      "learning_rate": 4.3067121643058e-06,
      "loss": 0.8342,
      "step": 4359
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3017302250484861,
      "learning_rate": 4.304659138250309e-06,
      "loss": 0.8248,
      "step": 4360
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3530662545536774,
      "learning_rate": 4.302606231731971e-06,
      "loss": 0.9188,
      "step": 4361
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5947660521286864,
      "learning_rate": 4.300553445103707e-06,
      "loss": 0.8415,
      "step": 4362
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.851746876213713,
      "learning_rate": 4.298500778718415e-06,
      "loss": 0.8073,
      "step": 4363
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8445151457249956,
      "learning_rate": 4.296448232928971e-06,
      "loss": 0.73,
      "step": 4364
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2422083756310165,
      "learning_rate": 4.294395808088232e-06,
      "loss": 0.7262,
      "step": 4365
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4265381445230738,
      "learning_rate": 4.292343504549032e-06,
      "loss": 0.9437,
      "step": 4366
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5035843798801756,
      "learning_rate": 4.29029132266419e-06,
      "loss": 0.8092,
      "step": 4367
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7016367734891527,
      "learning_rate": 4.288239262786497e-06,
      "loss": 0.8548,
      "step": 4368
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.6831378870401306,
      "learning_rate": 4.286187325268726e-06,
      "loss": 0.8529,
      "step": 4369
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5918427064347707,
      "learning_rate": 4.284135510463628e-06,
      "loss": 0.7319,
      "step": 4370
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6532637524332376,
      "learning_rate": 4.282083818723937e-06,
      "loss": 0.831,
      "step": 4371
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6217084157359785,
      "learning_rate": 4.280032250402358e-06,
      "loss": 0.8093,
      "step": 4372
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.324096743996844,
      "learning_rate": 4.2779808058515825e-06,
      "loss": 0.675,
      "step": 4373
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.536439394751047,
      "learning_rate": 4.275929485424278e-06,
      "loss": 0.8795,
      "step": 4374
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.237249102122347,
      "learning_rate": 4.2738782894730876e-06,
      "loss": 0.7878,
      "step": 4375
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.436677656179467,
      "learning_rate": 4.271827218350636e-06,
      "loss": 0.8466,
      "step": 4376
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4654381242219854,
      "learning_rate": 4.269776272409529e-06,
      "loss": 0.817,
      "step": 4377
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4889513282267772,
      "learning_rate": 4.2677254520023465e-06,
      "loss": 0.7667,
      "step": 4378
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4449977830285314,
      "learning_rate": 4.265674757481647e-06,
      "loss": 0.7473,
      "step": 4379
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.886492975539797,
      "learning_rate": 4.263624189199971e-06,
      "loss": 0.6063,
      "step": 4380
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.1276228404999986,
      "learning_rate": 4.261573747509833e-06,
      "loss": 0.8693,
      "step": 4381
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4210929677436255,
      "learning_rate": 4.259523432763728e-06,
      "loss": 0.8006,
      "step": 4382
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3901989094122844,
      "learning_rate": 4.25747324531413e-06,
      "loss": 0.8285,
      "step": 4383
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2302232506476614,
      "learning_rate": 4.25542318551349e-06,
      "loss": 0.7866,
      "step": 4384
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.4826854034930337,
      "learning_rate": 4.2533732537142335e-06,
      "loss": 0.6967,
      "step": 4385
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.508927483398381,
      "learning_rate": 4.2513234502687725e-06,
      "loss": 0.8095,
      "step": 4386
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6091384785045961,
      "learning_rate": 4.249273775529489e-06,
      "loss": 0.845,
      "step": 4387
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.960252324998364,
      "learning_rate": 4.247224229848747e-06,
      "loss": 0.7193,
      "step": 4388
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4146790486821588,
      "learning_rate": 4.245174813578887e-06,
      "loss": 0.8164,
      "step": 4389
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8987748599005142,
      "learning_rate": 4.243125527072227e-06,
      "loss": 0.6586,
      "step": 4390
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4286298160779425,
      "learning_rate": 4.241076370681064e-06,
      "loss": 0.7827,
      "step": 4391
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9318880829760658,
      "learning_rate": 4.239027344757671e-06,
      "loss": 0.6826,
      "step": 4392
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8263607177092941,
      "learning_rate": 4.2369784496542986e-06,
      "loss": 0.6848,
      "step": 4393
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5152598140617848,
      "learning_rate": 4.234929685723175e-06,
      "loss": 0.8446,
      "step": 4394
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5423790056024034,
      "learning_rate": 4.2328810533165095e-06,
      "loss": 0.7391,
      "step": 4395
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4553677837095118,
      "learning_rate": 4.230832552786485e-06,
      "loss": 0.8587,
      "step": 4396
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.8144229411139708,
      "learning_rate": 4.2287841844852595e-06,
      "loss": 0.6747,
      "step": 4397
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3630019747422975,
      "learning_rate": 4.226735948764976e-06,
      "loss": 0.8549,
      "step": 4398
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6771385277312305,
      "learning_rate": 4.2246878459777465e-06,
      "loss": 0.8196,
      "step": 4399
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4400000210837303,
      "learning_rate": 4.222639876475663e-06,
      "loss": 0.7454,
      "step": 4400
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4699382254704652,
      "learning_rate": 4.220592040610798e-06,
      "loss": 0.8537,
      "step": 4401
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.9156252610913787,
      "learning_rate": 4.218544338735197e-06,
      "loss": 0.7132,
      "step": 4402
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.768107702029608,
      "learning_rate": 4.216496771200881e-06,
      "loss": 0.7663,
      "step": 4403
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.334193773483063,
      "learning_rate": 4.214449338359856e-06,
      "loss": 0.8652,
      "step": 4404
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.6519109001879253,
      "learning_rate": 4.2124020405640955e-06,
      "loss": 0.836,
      "step": 4405
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5370618015376136,
      "learning_rate": 4.2103548781655555e-06,
      "loss": 0.8145,
      "step": 4406
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7198501072554335,
      "learning_rate": 4.2083078515161664e-06,
      "loss": 0.771,
      "step": 4407
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.5744251472667488,
      "learning_rate": 4.206260960967836e-06,
      "loss": 0.8148,
      "step": 4408
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4039731401167825,
      "learning_rate": 4.204214206872448e-06,
      "loss": 0.7315,
      "step": 4409
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.496978186472838,
      "learning_rate": 4.202167589581863e-06,
      "loss": 0.8588,
      "step": 4410
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.05190640759559,
      "learning_rate": 4.200121109447919e-06,
      "loss": 0.7755,
      "step": 4411
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.837408041014244,
      "learning_rate": 4.198074766822429e-06,
      "loss": 0.7262,
      "step": 4412
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.582653191319285,
      "learning_rate": 4.196028562057181e-06,
      "loss": 0.8213,
      "step": 4413
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3188357359016358,
      "learning_rate": 4.193982495503946e-06,
      "loss": 0.677,
      "step": 4414
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.6087449731462518,
      "learning_rate": 4.191936567514464e-06,
      "loss": 0.7688,
      "step": 4415
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6765472644048507,
      "learning_rate": 4.189890778440454e-06,
      "loss": 0.7605,
      "step": 4416
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.425955101848177,
      "learning_rate": 4.187845128633611e-06,
      "loss": 0.8679,
      "step": 4417
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.480563547417064,
      "learning_rate": 4.185799618445605e-06,
      "loss": 0.8445,
      "step": 4418
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4938116606992613,
      "learning_rate": 4.1837542482280845e-06,
      "loss": 0.8118,
      "step": 4419
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8762745499938165,
      "learning_rate": 4.181709018332672e-06,
      "loss": 0.7879,
      "step": 4420
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3396288499790012,
      "learning_rate": 4.179663929110964e-06,
      "loss": 0.7887,
      "step": 4421
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.353271813839193,
      "learning_rate": 4.177618980914536e-06,
      "loss": 0.8089,
      "step": 4422
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3129103485185873,
      "learning_rate": 4.1755741740949405e-06,
      "loss": 0.6821,
      "step": 4423
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7451203927734955,
      "learning_rate": 4.173529509003702e-06,
      "loss": 0.6457,
      "step": 4424
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3973886716987858,
      "learning_rate": 4.171484985992323e-06,
      "loss": 0.7217,
      "step": 4425
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.479914576749264,
      "learning_rate": 4.169440605412278e-06,
      "loss": 0.8965,
      "step": 4426
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9363075484587149,
      "learning_rate": 4.167396367615023e-06,
      "loss": 0.6545,
      "step": 4427
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7881139751629525,
      "learning_rate": 4.165352272951985e-06,
      "loss": 0.67,
      "step": 4428
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6055315235949565,
      "learning_rate": 4.163308321774566e-06,
      "loss": 0.851,
      "step": 4429
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3612735515413845,
      "learning_rate": 4.161264514434148e-06,
      "loss": 0.7643,
      "step": 4430
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1874155474441557,
      "learning_rate": 4.15922085128208e-06,
      "loss": 0.842,
      "step": 4431
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8776480474177476,
      "learning_rate": 4.157177332669698e-06,
      "loss": 0.7103,
      "step": 4432
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5968568828906076,
      "learning_rate": 4.155133958948302e-06,
      "loss": 0.76,
      "step": 4433
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6861687196635482,
      "learning_rate": 4.153090730469174e-06,
      "loss": 0.7162,
      "step": 4434
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5483182599875802,
      "learning_rate": 4.151047647583568e-06,
      "loss": 0.7975,
      "step": 4435
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.551059410126396,
      "learning_rate": 4.149004710642712e-06,
      "loss": 0.7904,
      "step": 4436
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5214745504866325,
      "learning_rate": 4.146961919997813e-06,
      "loss": 0.7452,
      "step": 4437
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4767179041517826,
      "learning_rate": 4.144919276000048e-06,
      "loss": 0.8066,
      "step": 4438
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8227244665282972,
      "learning_rate": 4.142876779000573e-06,
      "loss": 0.634,
      "step": 4439
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5610146884620608,
      "learning_rate": 4.1408344293505154e-06,
      "loss": 0.8053,
      "step": 4440
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5296566471640858,
      "learning_rate": 4.13879222740098e-06,
      "loss": 0.8164,
      "step": 4441
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4410811525795895,
      "learning_rate": 4.136750173503046e-06,
      "loss": 0.8567,
      "step": 4442
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5603775901378152,
      "learning_rate": 4.134708268007764e-06,
      "loss": 0.8415,
      "step": 4443
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5993812988692158,
      "learning_rate": 4.132666511266162e-06,
      "loss": 0.7482,
      "step": 4444
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4687237696142075,
      "learning_rate": 4.130624903629242e-06,
      "loss": 0.7837,
      "step": 4445
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9607091448997152,
      "learning_rate": 4.12858344544798e-06,
      "loss": 0.8361,
      "step": 4446
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.299088836411745,
      "learning_rate": 4.126542137073325e-06,
      "loss": 0.7958,
      "step": 4447
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.582614992032634,
      "learning_rate": 4.124500978856204e-06,
      "loss": 0.801,
      "step": 4448
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9646319714496374,
      "learning_rate": 4.122459971147514e-06,
      "loss": 0.6555,
      "step": 4449
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7737540777259976,
      "learning_rate": 4.120419114298127e-06,
      "loss": 0.6513,
      "step": 4450
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6849936025515329,
      "learning_rate": 4.118378408658891e-06,
      "loss": 0.8933,
      "step": 4451
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3579660237247353,
      "learning_rate": 4.1163378545806286e-06,
      "loss": 0.7408,
      "step": 4452
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6078330630362903,
      "learning_rate": 4.114297452414133e-06,
      "loss": 0.7858,
      "step": 4453
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3493288009738582,
      "learning_rate": 4.112257202510173e-06,
      "loss": 0.7446,
      "step": 4454
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3925156682687847,
      "learning_rate": 4.110217105219492e-06,
      "loss": 0.8244,
      "step": 4455
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8248730007802302,
      "learning_rate": 4.108177160892807e-06,
      "loss": 0.6407,
      "step": 4456
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8324703959365362,
      "learning_rate": 4.106137369880804e-06,
      "loss": 0.6978,
      "step": 4457
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.8014248636753991,
      "learning_rate": 4.104097732534153e-06,
      "loss": 0.819,
      "step": 4458
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.042214199444182,
      "learning_rate": 4.102058249203483e-06,
      "loss": 0.8109,
      "step": 4459
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.73904610233044,
      "learning_rate": 4.1000189202394144e-06,
      "loss": 0.7263,
      "step": 4460
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5326514712340014,
      "learning_rate": 4.097979745992526e-06,
      "loss": 0.9471,
      "step": 4461
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3472457741015145,
      "learning_rate": 4.095940726813375e-06,
      "loss": 0.7051,
      "step": 4462
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.81102864064348,
      "learning_rate": 4.093901863052495e-06,
      "loss": 0.8292,
      "step": 4463
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3878961033176143,
      "learning_rate": 4.091863155060389e-06,
      "loss": 0.8542,
      "step": 4464
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4831723724012686,
      "learning_rate": 4.0898246031875346e-06,
      "loss": 0.7787,
      "step": 4465
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6893685479307932,
      "learning_rate": 4.087786207784383e-06,
      "loss": 0.8737,
      "step": 4466
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4818275919361963,
      "learning_rate": 4.085747969201357e-06,
      "loss": 0.7107,
      "step": 4467
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5079730439919956,
      "learning_rate": 4.083709887788852e-06,
      "loss": 0.8125,
      "step": 4468
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.7725354573429413,
      "learning_rate": 4.081671963897241e-06,
      "loss": 0.7304,
      "step": 4469
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5544787703002327,
      "learning_rate": 4.079634197876867e-06,
      "loss": 0.7488,
      "step": 4470
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.306234156690736,
      "learning_rate": 4.077596590078044e-06,
      "loss": 0.8237,
      "step": 4471
    },
    {
      "epoch": 0.57,
      "grad_norm": 8.165904184656801,
      "learning_rate": 4.075559140851061e-06,
      "loss": 0.7054,
      "step": 4472
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4597618185262269,
      "learning_rate": 4.073521850546177e-06,
      "loss": 0.7241,
      "step": 4473
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5150039689378219,
      "learning_rate": 4.07148471951363e-06,
      "loss": 0.8073,
      "step": 4474
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6380686176608448,
      "learning_rate": 4.069447748103621e-06,
      "loss": 0.8473,
      "step": 4475
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4111363599408295,
      "learning_rate": 4.067410936666335e-06,
      "loss": 0.8003,
      "step": 4476
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.63905099377986,
      "learning_rate": 4.065374285551917e-06,
      "loss": 0.6928,
      "step": 4477
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.623601714103439,
      "learning_rate": 4.063337795110497e-06,
      "loss": 0.7464,
      "step": 4478
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4775798831947258,
      "learning_rate": 4.0613014656921675e-06,
      "loss": 0.802,
      "step": 4479
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5511194932024412,
      "learning_rate": 4.059265297646999e-06,
      "loss": 0.7388,
      "step": 4480
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5949784580164355,
      "learning_rate": 4.057229291325032e-06,
      "loss": 0.7274,
      "step": 4481
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.612492061734396,
      "learning_rate": 4.05519344707628e-06,
      "loss": 0.8279,
      "step": 4482
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.981832673331064,
      "learning_rate": 4.0531577652507256e-06,
      "loss": 0.8199,
      "step": 4483
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2718251327487387,
      "learning_rate": 4.05112224619833e-06,
      "loss": 0.7919,
      "step": 4484
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.7700922625167526,
      "learning_rate": 4.049086890269021e-06,
      "loss": 0.9244,
      "step": 4485
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.9160547300917186,
      "learning_rate": 4.047051697812697e-06,
      "loss": 0.7272,
      "step": 4486
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.5444950842584,
      "learning_rate": 4.0450166691792335e-06,
      "loss": 0.7925,
      "step": 4487
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3132496443175383,
      "learning_rate": 4.042981804718478e-06,
      "loss": 0.7638,
      "step": 4488
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.8226335828317676,
      "learning_rate": 4.040947104780244e-06,
      "loss": 0.6486,
      "step": 4489
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.5314889067856337,
      "learning_rate": 4.03891256971432e-06,
      "loss": 0.807,
      "step": 4490
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6676460861622846,
      "learning_rate": 4.036878199870469e-06,
      "loss": 0.7693,
      "step": 4491
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.946656362913018,
      "learning_rate": 4.034843995598421e-06,
      "loss": 0.882,
      "step": 4492
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3962831589155158,
      "learning_rate": 4.032809957247878e-06,
      "loss": 0.8119,
      "step": 4493
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.500463729223561,
      "learning_rate": 4.030776085168516e-06,
      "loss": 0.8115,
      "step": 4494
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.538667240195546,
      "learning_rate": 4.028742379709982e-06,
      "loss": 0.8194,
      "step": 4495
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.723407582780864,
      "learning_rate": 4.0267088412218906e-06,
      "loss": 0.7772,
      "step": 4496
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8028008354606112,
      "learning_rate": 4.024675470053836e-06,
      "loss": 0.7213,
      "step": 4497
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4423825099083136,
      "learning_rate": 4.0226422665553724e-06,
      "loss": 0.8269,
      "step": 4498
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6738141067327352,
      "learning_rate": 4.020609231076035e-06,
      "loss": 0.8345,
      "step": 4499
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.477429895493892,
      "learning_rate": 4.018576363965324e-06,
      "loss": 0.7092,
      "step": 4500
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.732222462332587,
      "learning_rate": 4.0165436655727144e-06,
      "loss": 0.8218,
      "step": 4501
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4731235620674243,
      "learning_rate": 4.01451113624765e-06,
      "loss": 0.796,
      "step": 4502
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4373939277696848,
      "learning_rate": 4.012478776339547e-06,
      "loss": 0.7005,
      "step": 4503
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8327152128458744,
      "learning_rate": 4.010446586197788e-06,
      "loss": 0.6591,
      "step": 4504
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4757173901622664,
      "learning_rate": 4.008414566171733e-06,
      "loss": 0.7516,
      "step": 4505
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3776824061425619,
      "learning_rate": 4.006382716610711e-06,
      "loss": 0.8385,
      "step": 4506
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8493200236255266,
      "learning_rate": 4.00435103786402e-06,
      "loss": 0.6837,
      "step": 4507
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3599311915178387,
      "learning_rate": 4.002319530280925e-06,
      "loss": 0.7468,
      "step": 4508
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5475416076702115,
      "learning_rate": 4.000288194210671e-06,
      "loss": 0.8326,
      "step": 4509
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6176801352131458,
      "learning_rate": 3.998257030002466e-06,
      "loss": 0.7692,
      "step": 4510
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4125513868298314,
      "learning_rate": 3.996226038005491e-06,
      "loss": 0.7606,
      "step": 4511
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.501663173974925,
      "learning_rate": 3.994195218568896e-06,
      "loss": 0.6817,
      "step": 4512
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.2482023676888887,
      "learning_rate": 3.992164572041805e-06,
      "loss": 0.7962,
      "step": 4513
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2943837505267446,
      "learning_rate": 3.990134098773304e-06,
      "loss": 0.8336,
      "step": 4514
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4002246850293052,
      "learning_rate": 3.988103799112461e-06,
      "loss": 0.6945,
      "step": 4515
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6452842560499825,
      "learning_rate": 3.986073673408306e-06,
      "loss": 0.6909,
      "step": 4516
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.0577358123515506,
      "learning_rate": 3.984043722009842e-06,
      "loss": 0.7673,
      "step": 4517
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5468702114525843,
      "learning_rate": 3.98201394526604e-06,
      "loss": 0.7622,
      "step": 4518
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6153599598152797,
      "learning_rate": 3.97998434352584e-06,
      "loss": 0.828,
      "step": 4519
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3625949094535528,
      "learning_rate": 3.977954917138158e-06,
      "loss": 0.8046,
      "step": 4520
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9648728058357653,
      "learning_rate": 3.975925666451875e-06,
      "loss": 0.6747,
      "step": 4521
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.625629063863153,
      "learning_rate": 3.973896591815841e-06,
      "loss": 0.8659,
      "step": 4522
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4770821005242063,
      "learning_rate": 3.971867693578879e-06,
      "loss": 0.8621,
      "step": 4523
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3967020978129285,
      "learning_rate": 3.969838972089778e-06,
      "loss": 0.8906,
      "step": 4524
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.3622986861698263,
      "learning_rate": 3.967810427697301e-06,
      "loss": 0.8014,
      "step": 4525
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.1855507497039186,
      "learning_rate": 3.965782060750178e-06,
      "loss": 0.938,
      "step": 4526
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.670783329303424,
      "learning_rate": 3.96375387159711e-06,
      "loss": 0.9133,
      "step": 4527
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4200695432356445,
      "learning_rate": 3.961725860586763e-06,
      "loss": 0.7869,
      "step": 4528
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.43466997751339,
      "learning_rate": 3.9596980280677775e-06,
      "loss": 0.8719,
      "step": 4529
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4654351546430835,
      "learning_rate": 3.957670374388762e-06,
      "loss": 0.8506,
      "step": 4530
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.814879661952846,
      "learning_rate": 3.955642899898293e-06,
      "loss": 0.6557,
      "step": 4531
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3756030939602821,
      "learning_rate": 3.953615604944915e-06,
      "loss": 0.7642,
      "step": 4532
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3387905792101475,
      "learning_rate": 3.9515884898771455e-06,
      "loss": 0.7919,
      "step": 4533
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5953002330808412,
      "learning_rate": 3.949561555043469e-06,
      "loss": 0.8288,
      "step": 4534
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3426826082237033,
      "learning_rate": 3.94753480079234e-06,
      "loss": 0.7991,
      "step": 4535
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.807604472653216,
      "learning_rate": 3.94550822747218e-06,
      "loss": 0.6629,
      "step": 4536
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.3014576191312504,
      "learning_rate": 3.943481835431379e-06,
      "loss": 0.8255,
      "step": 4537
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5119100495262692,
      "learning_rate": 3.9414556250183e-06,
      "loss": 0.7779,
      "step": 4538
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5347887411786254,
      "learning_rate": 3.939429596581271e-06,
      "loss": 0.7409,
      "step": 4539
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.60928346872892,
      "learning_rate": 3.937403750468588e-06,
      "loss": 0.793,
      "step": 4540
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6035152734454698,
      "learning_rate": 3.935378087028521e-06,
      "loss": 0.8327,
      "step": 4541
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6153481827794436,
      "learning_rate": 3.9333526066093e-06,
      "loss": 0.7346,
      "step": 4542
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3578171288678944,
      "learning_rate": 3.931327309559133e-06,
      "loss": 0.7639,
      "step": 4543
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.718985927981498,
      "learning_rate": 3.9293021962261906e-06,
      "loss": 0.8084,
      "step": 4544
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8289014297149595,
      "learning_rate": 3.927277266958614e-06,
      "loss": 0.7283,
      "step": 4545
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8459612600776298,
      "learning_rate": 3.925252522104512e-06,
      "loss": 0.8288,
      "step": 4546
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3632059897852895,
      "learning_rate": 3.923227962011959e-06,
      "loss": 0.8346,
      "step": 4547
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5610187243768248,
      "learning_rate": 3.9212035870290035e-06,
      "loss": 0.7282,
      "step": 4548
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4939579210362863,
      "learning_rate": 3.919179397503659e-06,
      "loss": 0.8512,
      "step": 4549
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9072143532615308,
      "learning_rate": 3.917155393783903e-06,
      "loss": 0.6493,
      "step": 4550
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5919184129519217,
      "learning_rate": 3.9151315762176885e-06,
      "loss": 0.7734,
      "step": 4551
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2927332481636353,
      "learning_rate": 3.9131079451529345e-06,
      "loss": 0.7246,
      "step": 4552
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6298388136136723,
      "learning_rate": 3.9110845009375255e-06,
      "loss": 0.8132,
      "step": 4553
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3375398798240228,
      "learning_rate": 3.909061243919313e-06,
      "loss": 0.8567,
      "step": 4554
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.8211812832998129,
      "learning_rate": 3.907038174446122e-06,
      "loss": 0.6494,
      "step": 4555
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.7890529450475522,
      "learning_rate": 3.905015292865738e-06,
      "loss": 0.5489,
      "step": 4556
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.6838111629425885,
      "learning_rate": 3.902992599525921e-06,
      "loss": 0.6542,
      "step": 4557
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5903693438692328,
      "learning_rate": 3.900970094774391e-06,
      "loss": 0.7724,
      "step": 4558
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.342053263583184,
      "learning_rate": 3.898947778958845e-06,
      "loss": 0.8101,
      "step": 4559
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5670814376522617,
      "learning_rate": 3.8969256524269395e-06,
      "loss": 0.7591,
      "step": 4560
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.349183862034335,
      "learning_rate": 3.894903715526301e-06,
      "loss": 0.8704,
      "step": 4561
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.330096315149583,
      "learning_rate": 3.892881968604525e-06,
      "loss": 0.7513,
      "step": 4562
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9373031586220968,
      "learning_rate": 3.890860412009176e-06,
      "loss": 0.6851,
      "step": 4563
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7737755442060426,
      "learning_rate": 3.888839046087779e-06,
      "loss": 0.8543,
      "step": 4564
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4663365165509175,
      "learning_rate": 3.886817871187832e-06,
      "loss": 0.7438,
      "step": 4565
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4989719622923932,
      "learning_rate": 3.8847968876567985e-06,
      "loss": 0.9112,
      "step": 4566
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3444255758337358,
      "learning_rate": 3.882776095842108e-06,
      "loss": 0.6941,
      "step": 4567
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5041708218224379,
      "learning_rate": 3.880755496091158e-06,
      "loss": 0.8117,
      "step": 4568
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.837907193670246,
      "learning_rate": 3.878735088751315e-06,
      "loss": 0.7804,
      "step": 4569
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.7208721228583679,
      "learning_rate": 3.876714874169906e-06,
      "loss": 0.817,
      "step": 4570
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4744160655673775,
      "learning_rate": 3.874694852694236e-06,
      "loss": 0.7806,
      "step": 4571
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.774157261384527,
      "learning_rate": 3.8726750246715635e-06,
      "loss": 0.7232,
      "step": 4572
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.676044011170684,
      "learning_rate": 3.870655390449126e-06,
      "loss": 0.835,
      "step": 4573
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.692873783722363,
      "learning_rate": 3.868635950374119e-06,
      "loss": 0.7563,
      "step": 4574
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.484653663166105,
      "learning_rate": 3.866616704793706e-06,
      "loss": 0.8008,
      "step": 4575
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7718601482927245,
      "learning_rate": 3.864597654055024e-06,
      "loss": 0.5895,
      "step": 4576
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9539396963219868,
      "learning_rate": 3.862578798505166e-06,
      "loss": 0.7101,
      "step": 4577
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.696015376940843,
      "learning_rate": 3.860560138491199e-06,
      "loss": 0.7447,
      "step": 4578
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5552522945089797,
      "learning_rate": 3.858541674360151e-06,
      "loss": 0.8801,
      "step": 4579
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9580979784079815,
      "learning_rate": 3.856523406459025e-06,
      "loss": 0.8836,
      "step": 4580
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.348525931040945,
      "learning_rate": 3.854505335134781e-06,
      "loss": 0.9027,
      "step": 4581
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.761973761327832,
      "learning_rate": 3.852487460734351e-06,
      "loss": 0.7401,
      "step": 4582
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.611085650054957,
      "learning_rate": 3.850469783604628e-06,
      "loss": 0.7509,
      "step": 4583
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.1070699257550087,
      "learning_rate": 3.848452304092477e-06,
      "loss": 0.7611,
      "step": 4584
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6092627707738183,
      "learning_rate": 3.846435022544724e-06,
      "loss": 0.8142,
      "step": 4585
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.434438724895378,
      "learning_rate": 3.844417939308163e-06,
      "loss": 0.8065,
      "step": 4586
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7278506046412325,
      "learning_rate": 3.842401054729557e-06,
      "loss": 0.7535,
      "step": 4587
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3989394395175936,
      "learning_rate": 3.840384369155626e-06,
      "loss": 0.8838,
      "step": 4588
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4035113408016344,
      "learning_rate": 3.838367882933068e-06,
      "loss": 0.7949,
      "step": 4589
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.280800633892895,
      "learning_rate": 3.836351596408537e-06,
      "loss": 0.7535,
      "step": 4590
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5711904412477566,
      "learning_rate": 3.834335509928658e-06,
      "loss": 0.8367,
      "step": 4591
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.6859058555583852,
      "learning_rate": 3.832319623840018e-06,
      "loss": 0.6694,
      "step": 4592
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6016752409167718,
      "learning_rate": 3.830303938489172e-06,
      "loss": 0.7466,
      "step": 4593
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6491288872698076,
      "learning_rate": 3.8282884542226385e-06,
      "loss": 0.7497,
      "step": 4594
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7831201092216666,
      "learning_rate": 3.826273171386904e-06,
      "loss": 0.7463,
      "step": 4595
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8133207529369453,
      "learning_rate": 3.8242580903284186e-06,
      "loss": 0.7484,
      "step": 4596
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.519468953133883,
      "learning_rate": 3.822243211393596e-06,
      "loss": 0.8454,
      "step": 4597
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3974517615261757,
      "learning_rate": 3.820228534928818e-06,
      "loss": 0.7616,
      "step": 4598
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8145478825406947,
      "learning_rate": 3.818214061280435e-06,
      "loss": 0.6399,
      "step": 4599
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3074429186489984,
      "learning_rate": 3.816199790794754e-06,
      "loss": 0.7434,
      "step": 4600
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5126810543647187,
      "learning_rate": 3.8141857238180537e-06,
      "loss": 0.7595,
      "step": 4601
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3980142667958788,
      "learning_rate": 3.812171860696574e-06,
      "loss": 0.8022,
      "step": 4602
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.7536292591918484,
      "learning_rate": 3.810158201776523e-06,
      "loss": 0.7252,
      "step": 4603
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6406423079987458,
      "learning_rate": 3.808144747404069e-06,
      "loss": 0.8993,
      "step": 4604
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5799059464995218,
      "learning_rate": 3.806131497925351e-06,
      "loss": 0.6863,
      "step": 4605
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.588564764837769,
      "learning_rate": 3.8041184536864694e-06,
      "loss": 0.7067,
      "step": 4606
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.357159636228145,
      "learning_rate": 3.802105615033488e-06,
      "loss": 0.7293,
      "step": 4607
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.400725073169159,
      "learning_rate": 3.8000929823124387e-06,
      "loss": 0.7647,
      "step": 4608
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.419685031075157,
      "learning_rate": 3.798080555869318e-06,
      "loss": 0.7935,
      "step": 4609
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5278350882305267,
      "learning_rate": 3.796068336050083e-06,
      "loss": 0.8046,
      "step": 4610
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5846260509935055,
      "learning_rate": 3.7940563232006573e-06,
      "loss": 0.7842,
      "step": 4611
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2673251213326544,
      "learning_rate": 3.792044517666931e-06,
      "loss": 0.7559,
      "step": 4612
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6550017974871567,
      "learning_rate": 3.790032919794757e-06,
      "loss": 0.8799,
      "step": 4613
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4266011365165967,
      "learning_rate": 3.788021529929949e-06,
      "loss": 0.7321,
      "step": 4614
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5681514960617986,
      "learning_rate": 3.786010348418292e-06,
      "loss": 0.6912,
      "step": 4615
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3486393713078617,
      "learning_rate": 3.783999375605527e-06,
      "loss": 0.843,
      "step": 4616
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6092268189219388,
      "learning_rate": 3.7819886118373694e-06,
      "loss": 0.7383,
      "step": 4617
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5460804608449874,
      "learning_rate": 3.77997805745949e-06,
      "loss": 0.7369,
      "step": 4618
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.83354420173624,
      "learning_rate": 3.7779677128175247e-06,
      "loss": 0.7571,
      "step": 4619
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5607951829649753,
      "learning_rate": 3.775957578257078e-06,
      "loss": 0.8298,
      "step": 4620
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3974253855488572,
      "learning_rate": 3.7739476541237137e-06,
      "loss": 0.7549,
      "step": 4621
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.478625476423619,
      "learning_rate": 3.7719379407629597e-06,
      "loss": 0.7599,
      "step": 4622
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9100615996505192,
      "learning_rate": 3.769928438520312e-06,
      "loss": 0.8451,
      "step": 4623
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.378450062374142,
      "learning_rate": 3.7679191477412263e-06,
      "loss": 0.7411,
      "step": 4624
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8689117146058336,
      "learning_rate": 3.7659100687711205e-06,
      "loss": 0.8586,
      "step": 4625
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6087614421412457,
      "learning_rate": 3.7639012019553813e-06,
      "loss": 0.7754,
      "step": 4626
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.765764433342213,
      "learning_rate": 3.761892547639357e-06,
      "loss": 0.7709,
      "step": 4627
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6179258688661535,
      "learning_rate": 3.7598841061683566e-06,
      "loss": 0.7613,
      "step": 4628
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7546184272720984,
      "learning_rate": 3.7578758778876546e-06,
      "loss": 0.7083,
      "step": 4629
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6732826526098625,
      "learning_rate": 3.75586786314249e-06,
      "loss": 0.7375,
      "step": 4630
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4937981895864934,
      "learning_rate": 3.753860062278063e-06,
      "loss": 0.7854,
      "step": 4631
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3550316403663065,
      "learning_rate": 3.7518524756395362e-06,
      "loss": 0.6805,
      "step": 4632
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.525936982483266,
      "learning_rate": 3.74984510357204e-06,
      "loss": 0.6888,
      "step": 4633
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.5495307307413984,
      "learning_rate": 3.747837946420664e-06,
      "loss": 0.776,
      "step": 4634
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3893862435999655,
      "learning_rate": 3.7458310045304586e-06,
      "loss": 0.8112,
      "step": 4635
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7800335428152831,
      "learning_rate": 3.7438242782464453e-06,
      "loss": 0.8634,
      "step": 4636
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3299396720932186,
      "learning_rate": 3.7418177679136005e-06,
      "loss": 0.7825,
      "step": 4637
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5345628845840429,
      "learning_rate": 3.7398114738768686e-06,
      "loss": 0.8287,
      "step": 4638
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4334626497851142,
      "learning_rate": 3.7378053964811534e-06,
      "loss": 0.8087,
      "step": 4639
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8549494429553033,
      "learning_rate": 3.735799536071322e-06,
      "loss": 0.711,
      "step": 4640
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.7116449328054375,
      "learning_rate": 3.733793892992208e-06,
      "loss": 0.8475,
      "step": 4641
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.832453061225762,
      "learning_rate": 3.7317884675886025e-06,
      "loss": 0.7026,
      "step": 4642
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.48858054845929,
      "learning_rate": 3.7297832602052608e-06,
      "loss": 0.7328,
      "step": 4643
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5265074501796474,
      "learning_rate": 3.727778271186901e-06,
      "loss": 0.8048,
      "step": 4644
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5051278978421156,
      "learning_rate": 3.7257735008782076e-06,
      "loss": 0.7984,
      "step": 4645
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6241003208533675,
      "learning_rate": 3.7237689496238217e-06,
      "loss": 0.8389,
      "step": 4646
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7054035487730002,
      "learning_rate": 3.721764617768347e-06,
      "loss": 0.786,
      "step": 4647
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3642172282632141,
      "learning_rate": 3.7197605056563545e-06,
      "loss": 0.8133,
      "step": 4648
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4484895020865731,
      "learning_rate": 3.7177566136323726e-06,
      "loss": 0.8526,
      "step": 4649
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8267626379033158,
      "learning_rate": 3.7157529420408933e-06,
      "loss": 0.6282,
      "step": 4650
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.688453483461803,
      "learning_rate": 3.7137494912263723e-06,
      "loss": 0.8814,
      "step": 4651
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8440795331690862,
      "learning_rate": 3.7117462615332254e-06,
      "loss": 0.6792,
      "step": 4652
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9727813213459864,
      "learning_rate": 3.7097432533058288e-06,
      "loss": 0.691,
      "step": 4653
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5723410614582418,
      "learning_rate": 3.7077404668885263e-06,
      "loss": 0.752,
      "step": 4654
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2825418510090507,
      "learning_rate": 3.7057379026256185e-06,
      "loss": 0.728,
      "step": 4655
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.740744799265246,
      "learning_rate": 3.7037355608613703e-06,
      "loss": 0.8628,
      "step": 4656
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9238373701149698,
      "learning_rate": 3.701733441940007e-06,
      "loss": 0.6532,
      "step": 4657
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3610670465525414,
      "learning_rate": 3.699731546205715e-06,
      "loss": 0.9122,
      "step": 4658
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5313655829710053,
      "learning_rate": 3.6977298740026448e-06,
      "loss": 0.7629,
      "step": 4659
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6442575495661529,
      "learning_rate": 3.695728425674906e-06,
      "loss": 0.7499,
      "step": 4660
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5781018670496763,
      "learning_rate": 3.693727201566571e-06,
      "loss": 0.6959,
      "step": 4661
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.556190604692628,
      "learning_rate": 3.6917262020216727e-06,
      "loss": 0.8676,
      "step": 4662
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9632509984863284,
      "learning_rate": 3.6897254273842087e-06,
      "loss": 0.8462,
      "step": 4663
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6576596327265343,
      "learning_rate": 3.6877248779981332e-06,
      "loss": 0.7831,
      "step": 4664
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6669301669142131,
      "learning_rate": 3.685724554207365e-06,
      "loss": 0.7472,
      "step": 4665
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.655326060761093,
      "learning_rate": 3.6837244563557815e-06,
      "loss": 0.8015,
      "step": 4666
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.887820373353302,
      "learning_rate": 3.6817245847872253e-06,
      "loss": 0.6696,
      "step": 4667
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2997247572235993,
      "learning_rate": 3.679724939845494e-06,
      "loss": 0.7309,
      "step": 4668
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7547466944865746,
      "learning_rate": 3.677725521874352e-06,
      "loss": 0.8111,
      "step": 4669
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7375505963211193,
      "learning_rate": 3.6757263312175216e-06,
      "loss": 0.7897,
      "step": 4670
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.326904646210383,
      "learning_rate": 3.673727368218687e-06,
      "loss": 0.7635,
      "step": 4671
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5422129061590395,
      "learning_rate": 3.671728633221493e-06,
      "loss": 0.8316,
      "step": 4672
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5292249690097282,
      "learning_rate": 3.669730126569546e-06,
      "loss": 0.8152,
      "step": 4673
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5460749490082357,
      "learning_rate": 3.667731848606413e-06,
      "loss": 0.9291,
      "step": 4674
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4663755060124053,
      "learning_rate": 3.665733799675619e-06,
      "loss": 0.7955,
      "step": 4675
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5091876453169295,
      "learning_rate": 3.663735980120653e-06,
      "loss": 0.7432,
      "step": 4676
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.686518332381191,
      "learning_rate": 3.6617383902849645e-06,
      "loss": 0.7708,
      "step": 4677
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4542341781802441,
      "learning_rate": 3.6597410305119605e-06,
      "loss": 0.7935,
      "step": 4678
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7019502913646134,
      "learning_rate": 3.6577439011450112e-06,
      "loss": 0.8455,
      "step": 4679
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7972997330643907,
      "learning_rate": 3.6557470025274453e-06,
      "loss": 0.7543,
      "step": 4680
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9249401687734632,
      "learning_rate": 3.6537503350025525e-06,
      "loss": 0.6543,
      "step": 4681
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7661327591476335,
      "learning_rate": 3.6517538989135866e-06,
      "loss": 0.8435,
      "step": 4682
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5441460396228102,
      "learning_rate": 3.649757694603754e-06,
      "loss": 0.9527,
      "step": 4683
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8451949309917304,
      "learning_rate": 3.647761722416229e-06,
      "loss": 0.6781,
      "step": 4684
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8345903107907694,
      "learning_rate": 3.645765982694139e-06,
      "loss": 0.6313,
      "step": 4685
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7600137296496223,
      "learning_rate": 3.643770475780576e-06,
      "loss": 0.8725,
      "step": 4686
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5403977814535952,
      "learning_rate": 3.641775202018592e-06,
      "loss": 0.7089,
      "step": 4687
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8037304026393965,
      "learning_rate": 3.6397801617511965e-06,
      "loss": 0.7251,
      "step": 4688
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3743024309328125,
      "learning_rate": 3.6377853553213593e-06,
      "loss": 0.7754,
      "step": 4689
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6290842605461158,
      "learning_rate": 3.635790783072012e-06,
      "loss": 0.7719,
      "step": 4690
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2779127260579306,
      "learning_rate": 3.633796445346044e-06,
      "loss": 0.7649,
      "step": 4691
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6834429359918808,
      "learning_rate": 3.6318023424863057e-06,
      "loss": 0.716,
      "step": 4692
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.464610516050942,
      "learning_rate": 3.6298084748356077e-06,
      "loss": 0.7614,
      "step": 4693
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3997985889348141,
      "learning_rate": 3.6278148427367154e-06,
      "loss": 0.7885,
      "step": 4694
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.401108919411943,
      "learning_rate": 3.6258214465323604e-06,
      "loss": 0.8215,
      "step": 4695
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3459953350248732,
      "learning_rate": 3.6238282865652304e-06,
      "loss": 0.8158,
      "step": 4696
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.6120144322598153,
      "learning_rate": 3.62183536317797e-06,
      "loss": 0.8179,
      "step": 4697
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4478433814746179,
      "learning_rate": 3.6198426767131893e-06,
      "loss": 0.7831,
      "step": 4698
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8463371643367568,
      "learning_rate": 3.6178502275134507e-06,
      "loss": 0.8674,
      "step": 4699
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.376783409394161,
      "learning_rate": 3.6158580159212833e-06,
      "loss": 0.8565,
      "step": 4700
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9230712620551648,
      "learning_rate": 3.6138660422791673e-06,
      "loss": 0.6113,
      "step": 4701
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.476009930857959,
      "learning_rate": 3.6118743069295503e-06,
      "loss": 0.8359,
      "step": 4702
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4010664622685791,
      "learning_rate": 3.609882810214832e-06,
      "loss": 0.8416,
      "step": 4703
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4319849779601004,
      "learning_rate": 3.6078915524773726e-06,
      "loss": 0.7077,
      "step": 4704
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3184930756115496,
      "learning_rate": 3.605900534059496e-06,
      "loss": 0.8837,
      "step": 4705
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4416414989378736,
      "learning_rate": 3.603909755303479e-06,
      "loss": 0.8064,
      "step": 4706
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4148164490728476,
      "learning_rate": 3.6019192165515595e-06,
      "loss": 0.7475,
      "step": 4707
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8472466519939268,
      "learning_rate": 3.5999289181459346e-06,
      "loss": 0.7433,
      "step": 4708
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2504243273770888,
      "learning_rate": 3.597938860428758e-06,
      "loss": 0.833,
      "step": 4709
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.975913921726314,
      "learning_rate": 3.5959490437421473e-06,
      "loss": 0.7904,
      "step": 4710
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6509088514278814,
      "learning_rate": 3.5939594684281736e-06,
      "loss": 0.7763,
      "step": 4711
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6233452809801263,
      "learning_rate": 3.591970134828866e-06,
      "loss": 0.7952,
      "step": 4712
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5978702871421446,
      "learning_rate": 3.589981043286217e-06,
      "loss": 0.8037,
      "step": 4713
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.8815525369809709,
      "learning_rate": 3.587992194142173e-06,
      "loss": 0.6371,
      "step": 4714
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.8459583820740453,
      "learning_rate": 3.586003587738639e-06,
      "loss": 0.7262,
      "step": 4715
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.63861846318822,
      "learning_rate": 3.584015224417482e-06,
      "loss": 0.8284,
      "step": 4716
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6055742135643183,
      "learning_rate": 3.5820271045205227e-06,
      "loss": 0.8299,
      "step": 4717
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4643222070675028,
      "learning_rate": 3.580039228389541e-06,
      "loss": 0.8739,
      "step": 4718
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.576419342204081,
      "learning_rate": 3.578051596366279e-06,
      "loss": 0.729,
      "step": 4719
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5026594545307104,
      "learning_rate": 3.576064208792433e-06,
      "loss": 0.7911,
      "step": 4720
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4412985778531913,
      "learning_rate": 3.574077066009657e-06,
      "loss": 0.7406,
      "step": 4721
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.471897406872403,
      "learning_rate": 3.5720901683595633e-06,
      "loss": 0.8233,
      "step": 4722
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.9706267431243505,
      "learning_rate": 3.570103516183724e-06,
      "loss": 0.7828,
      "step": 4723
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3930108159439802,
      "learning_rate": 3.568117109823668e-06,
      "loss": 0.7957,
      "step": 4724
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.432636879930236,
      "learning_rate": 3.5661309496208785e-06,
      "loss": 0.7199,
      "step": 4725
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.7275114112799643,
      "learning_rate": 3.564145035916803e-06,
      "loss": 0.7309,
      "step": 4726
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.373450166713999,
      "learning_rate": 3.56215936905284e-06,
      "loss": 0.7944,
      "step": 4727
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7619995913873083,
      "learning_rate": 3.5601739493703517e-06,
      "loss": 0.5974,
      "step": 4728
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4697155246392664,
      "learning_rate": 3.5581887772106536e-06,
      "loss": 0.8421,
      "step": 4729
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.8324537936006398,
      "learning_rate": 3.5562038529150187e-06,
      "loss": 0.7317,
      "step": 4730
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4112755084282664,
      "learning_rate": 3.554219176824681e-06,
      "loss": 0.8692,
      "step": 4731
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8277203341938719,
      "learning_rate": 3.5522347492808272e-06,
      "loss": 0.6573,
      "step": 4732
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.421846493258976,
      "learning_rate": 3.5502505706246027e-06,
      "loss": 0.779,
      "step": 4733
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5767286112587966,
      "learning_rate": 3.5482666411971134e-06,
      "loss": 0.7928,
      "step": 4734
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6613390541164494,
      "learning_rate": 3.5462829613394186e-06,
      "loss": 0.8579,
      "step": 4735
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.437547726689631,
      "learning_rate": 3.544299531392533e-06,
      "loss": 0.8597,
      "step": 4736
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5408044064598965,
      "learning_rate": 3.5423163516974356e-06,
      "loss": 0.8164,
      "step": 4737
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5870792297297225,
      "learning_rate": 3.540333422595057e-06,
      "loss": 0.719,
      "step": 4738
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6733024235537868,
      "learning_rate": 3.538350744426285e-06,
      "loss": 0.8508,
      "step": 4739
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5326459265450045,
      "learning_rate": 3.5363683175319637e-06,
      "loss": 0.7649,
      "step": 4740
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4536944978466793,
      "learning_rate": 3.5343861422528973e-06,
      "loss": 0.8604,
      "step": 4741
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8093211073486005,
      "learning_rate": 3.5324042189298445e-06,
      "loss": 0.6962,
      "step": 4742
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3258621179575567,
      "learning_rate": 3.5304225479035193e-06,
      "loss": 0.7982,
      "step": 4743
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.638159852790889,
      "learning_rate": 3.5284411295145954e-06,
      "loss": 0.794,
      "step": 4744
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4874713541708364,
      "learning_rate": 3.526459964103701e-06,
      "loss": 0.7599,
      "step": 4745
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.385455030248734,
      "learning_rate": 3.5244790520114202e-06,
      "loss": 0.7179,
      "step": 4746
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6164772298842873,
      "learning_rate": 3.5224983935782975e-06,
      "loss": 0.7649,
      "step": 4747
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3846155039338373,
      "learning_rate": 3.5205179891448294e-06,
      "loss": 0.8369,
      "step": 4748
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8740079846872317,
      "learning_rate": 3.518537839051471e-06,
      "loss": 0.6603,
      "step": 4749
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.796233472690454,
      "learning_rate": 3.5165579436386323e-06,
      "loss": 0.6877,
      "step": 4750
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.49385981592103,
      "learning_rate": 3.51457830324668e-06,
      "loss": 0.7248,
      "step": 4751
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4769286901234522,
      "learning_rate": 3.5125989182159393e-06,
      "loss": 0.7011,
      "step": 4752
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3718919415088429,
      "learning_rate": 3.5106197888866873e-06,
      "loss": 0.6444,
      "step": 4753
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5492926796142594,
      "learning_rate": 3.508640915599159e-06,
      "loss": 0.7439,
      "step": 4754
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4543671868666932,
      "learning_rate": 3.506662298693546e-06,
      "loss": 0.9111,
      "step": 4755
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.422106999666315,
      "learning_rate": 3.5046839385099977e-06,
      "loss": 0.8165,
      "step": 4756
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.558341991751416,
      "learning_rate": 3.502705835388616e-06,
      "loss": 0.9027,
      "step": 4757
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7941517788867438,
      "learning_rate": 3.500727989669458e-06,
      "loss": 0.6247,
      "step": 4758
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3671321338446154,
      "learning_rate": 3.498750401692541e-06,
      "loss": 0.6567,
      "step": 4759
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7674077319949528,
      "learning_rate": 3.496773071797834e-06,
      "loss": 0.8752,
      "step": 4760
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4799118836341782,
      "learning_rate": 3.4947960003252614e-06,
      "loss": 0.7229,
      "step": 4761
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6533469317165344,
      "learning_rate": 3.492819187614707e-06,
      "loss": 0.8031,
      "step": 4762
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5761996974443933,
      "learning_rate": 3.4908426340060075e-06,
      "loss": 0.8229,
      "step": 4763
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8007455106582735,
      "learning_rate": 3.488866339838953e-06,
      "loss": 0.6388,
      "step": 4764
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8097927650759605,
      "learning_rate": 3.4868903054532934e-06,
      "loss": 0.7144,
      "step": 4765
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7734951815098509,
      "learning_rate": 3.4849145311887335e-06,
      "loss": 0.6775,
      "step": 4766
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5686721969553021,
      "learning_rate": 3.4829390173849296e-06,
      "loss": 0.8078,
      "step": 4767
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.900086966811838,
      "learning_rate": 3.4809637643814965e-06,
      "loss": 0.7047,
      "step": 4768
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8696655579384744,
      "learning_rate": 3.478988772518001e-06,
      "loss": 0.6868,
      "step": 4769
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7972809840790165,
      "learning_rate": 3.47701404213397e-06,
      "loss": 0.6014,
      "step": 4770
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4485909325509592,
      "learning_rate": 3.475039573568881e-06,
      "loss": 0.905,
      "step": 4771
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.850334901841896,
      "learning_rate": 3.4730653671621667e-06,
      "loss": 0.7722,
      "step": 4772
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9548383326682315,
      "learning_rate": 3.4710914232532167e-06,
      "loss": 0.5924,
      "step": 4773
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4388971216681807,
      "learning_rate": 3.4691177421813783e-06,
      "loss": 0.8132,
      "step": 4774
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4684655356145706,
      "learning_rate": 3.4671443242859465e-06,
      "loss": 0.8707,
      "step": 4775
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3469898735249988,
      "learning_rate": 3.465171169906175e-06,
      "loss": 0.7595,
      "step": 4776
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6862968177882158,
      "learning_rate": 3.4631982793812745e-06,
      "loss": 0.8339,
      "step": 4777
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.378430175477784,
      "learning_rate": 3.461225653050405e-06,
      "loss": 0.7243,
      "step": 4778
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5967048471898195,
      "learning_rate": 3.4592532912526845e-06,
      "loss": 0.7292,
      "step": 4779
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5160504065356462,
      "learning_rate": 3.4572811943271856e-06,
      "loss": 0.8307,
      "step": 4780
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4526252585101536,
      "learning_rate": 3.4553093626129343e-06,
      "loss": 0.7319,
      "step": 4781
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8257894897800144,
      "learning_rate": 3.45333779644891e-06,
      "loss": 0.6226,
      "step": 4782
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.0827931046913295,
      "learning_rate": 3.451366496174048e-06,
      "loss": 0.7916,
      "step": 4783
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6980033596554267,
      "learning_rate": 3.4493954621272407e-06,
      "loss": 0.7602,
      "step": 4784
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6536239872364025,
      "learning_rate": 3.447424694647329e-06,
      "loss": 0.7117,
      "step": 4785
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5925476590826868,
      "learning_rate": 3.445454194073111e-06,
      "loss": 0.9303,
      "step": 4786
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5258436960701385,
      "learning_rate": 3.4434839607433396e-06,
      "loss": 0.827,
      "step": 4787
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.246758602159573,
      "learning_rate": 3.4415139949967203e-06,
      "loss": 0.7226,
      "step": 4788
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8047975310555304,
      "learning_rate": 3.439544297171913e-06,
      "loss": 0.7081,
      "step": 4789
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3841832720039324,
      "learning_rate": 3.437574867607529e-06,
      "loss": 0.794,
      "step": 4790
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.45700522175887,
      "learning_rate": 3.435605706642141e-06,
      "loss": 0.7295,
      "step": 4791
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3541260404658761,
      "learning_rate": 3.4336368146142653e-06,
      "loss": 0.8488,
      "step": 4792
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3487307621818725,
      "learning_rate": 3.4316681918623825e-06,
      "loss": 0.6944,
      "step": 4793
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4669426143845483,
      "learning_rate": 3.4296998387249175e-06,
      "loss": 0.8527,
      "step": 4794
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3435917128188297,
      "learning_rate": 3.427731755540256e-06,
      "loss": 0.7213,
      "step": 4795
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6779424854278213,
      "learning_rate": 3.425763942646733e-06,
      "loss": 0.8235,
      "step": 4796
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5515605145821008,
      "learning_rate": 3.423796400382637e-06,
      "loss": 0.8393,
      "step": 4797
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4225613265595165,
      "learning_rate": 3.421829129086215e-06,
      "loss": 0.7893,
      "step": 4798
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5080933676341923,
      "learning_rate": 3.4198621290956603e-06,
      "loss": 0.7628,
      "step": 4799
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7199078786413564,
      "learning_rate": 3.4178954007491237e-06,
      "loss": 0.7997,
      "step": 4800
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.8164110237712389,
      "learning_rate": 3.4159289443847077e-06,
      "loss": 0.6007,
      "step": 4801
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5247209468956424,
      "learning_rate": 3.4139627603404724e-06,
      "loss": 0.8217,
      "step": 4802
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4385361578959388,
      "learning_rate": 3.4119968489544254e-06,
      "loss": 0.8126,
      "step": 4803
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5098745764077952,
      "learning_rate": 3.4100312105645283e-06,
      "loss": 0.8352,
      "step": 4804
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3950032683332994,
      "learning_rate": 3.4080658455087e-06,
      "loss": 0.766,
      "step": 4805
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6708273991005982,
      "learning_rate": 3.4061007541248093e-06,
      "loss": 0.7916,
      "step": 4806
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5510229752978475,
      "learning_rate": 3.404135936750674e-06,
      "loss": 0.6761,
      "step": 4807
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7041597737183394,
      "learning_rate": 3.4021713937240748e-06,
      "loss": 0.839,
      "step": 4808
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8490571190148668,
      "learning_rate": 3.4002071253827356e-06,
      "loss": 0.8512,
      "step": 4809
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.4191519810724684,
      "learning_rate": 3.398243132064336e-06,
      "loss": 0.8642,
      "step": 4810
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4999015835126526,
      "learning_rate": 3.3962794141065136e-06,
      "loss": 0.851,
      "step": 4811
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.39635374285162,
      "learning_rate": 3.3943159718468503e-06,
      "loss": 0.7753,
      "step": 4812
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8342122225173099,
      "learning_rate": 3.392352805622888e-06,
      "loss": 0.8926,
      "step": 4813
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5173096162647521,
      "learning_rate": 3.3903899157721156e-06,
      "loss": 0.7772,
      "step": 4814
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0599933376543123,
      "learning_rate": 3.388427302631975e-06,
      "loss": 0.6751,
      "step": 4815
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5320252292141676,
      "learning_rate": 3.386464966539865e-06,
      "loss": 0.8168,
      "step": 4816
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.76369103671759,
      "learning_rate": 3.3845029078331344e-06,
      "loss": 0.8047,
      "step": 4817
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.7247960613315483,
      "learning_rate": 3.3825411268490803e-06,
      "loss": 0.7823,
      "step": 4818
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3471725728074262,
      "learning_rate": 3.380579623924959e-06,
      "loss": 0.7857,
      "step": 4819
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5893655246773075,
      "learning_rate": 3.378618399397972e-06,
      "loss": 0.8455,
      "step": 4820
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.9572154590618376,
      "learning_rate": 3.3766574536052808e-06,
      "loss": 0.8533,
      "step": 4821
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6017763781717076,
      "learning_rate": 3.374696786883992e-06,
      "loss": 0.811,
      "step": 4822
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9021974246740552,
      "learning_rate": 3.3727363995711695e-06,
      "loss": 0.7882,
      "step": 4823
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4036279532217593,
      "learning_rate": 3.3707762920038235e-06,
      "loss": 0.8427,
      "step": 4824
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4823122873874006,
      "learning_rate": 3.3688164645189198e-06,
      "loss": 0.8664,
      "step": 4825
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3985986271421045,
      "learning_rate": 3.366856917453377e-06,
      "loss": 0.6757,
      "step": 4826
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5198929598726403,
      "learning_rate": 3.3648976511440636e-06,
      "loss": 0.829,
      "step": 4827
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3963072338925318,
      "learning_rate": 3.3629386659277984e-06,
      "loss": 0.8209,
      "step": 4828
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.600978274783237,
      "learning_rate": 3.3609799621413554e-06,
      "loss": 0.8188,
      "step": 4829
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3765013389965441,
      "learning_rate": 3.359021540121457e-06,
      "loss": 0.7855,
      "step": 4830
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.838910888056817,
      "learning_rate": 3.3570634002047815e-06,
      "loss": 0.638,
      "step": 4831
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.441607552327874,
      "learning_rate": 3.355105542727954e-06,
      "loss": 0.6975,
      "step": 4832
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8705563060564505,
      "learning_rate": 3.353147968027552e-06,
      "loss": 0.7255,
      "step": 4833
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8328808028835554,
      "learning_rate": 3.351190676440107e-06,
      "loss": 0.6888,
      "step": 4834
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9644005030835303,
      "learning_rate": 3.3492336683021e-06,
      "loss": 0.802,
      "step": 4835
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5147492391771495,
      "learning_rate": 3.347276943949961e-06,
      "loss": 0.708,
      "step": 4836
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.8722273574335837,
      "learning_rate": 3.3453205037200766e-06,
      "loss": 0.9314,
      "step": 4837
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5680422457052754,
      "learning_rate": 3.3433643479487777e-06,
      "loss": 0.8175,
      "step": 4838
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.0359335809042647,
      "learning_rate": 3.3414084769723554e-06,
      "loss": 0.8378,
      "step": 4839
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.125206813823293,
      "learning_rate": 3.339452891127043e-06,
      "loss": 0.8222,
      "step": 4840
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.505969143024137,
      "learning_rate": 3.33749759074903e-06,
      "loss": 0.8344,
      "step": 4841
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4622110941907325,
      "learning_rate": 3.3355425761744553e-06,
      "loss": 0.6925,
      "step": 4842
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.337482040428529,
      "learning_rate": 3.3335878477394058e-06,
      "loss": 0.9452,
      "step": 4843
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.546352597535736,
      "learning_rate": 3.331633405779926e-06,
      "loss": 0.771,
      "step": 4844
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.401849648184953,
      "learning_rate": 3.3296792506320043e-06,
      "loss": 0.7839,
      "step": 4845
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8393637084442925,
      "learning_rate": 3.3277253826315824e-06,
      "loss": 0.658,
      "step": 4846
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.695277568655311,
      "learning_rate": 3.325771802114555e-06,
      "loss": 0.6917,
      "step": 4847
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.9874813779220712,
      "learning_rate": 3.323818509416763e-06,
      "loss": 0.8962,
      "step": 4848
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.438723555112831,
      "learning_rate": 3.321865504874002e-06,
      "loss": 0.7568,
      "step": 4849
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5131234760862307,
      "learning_rate": 3.3199127888220162e-06,
      "loss": 0.7959,
      "step": 4850
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3623109455786713,
      "learning_rate": 3.317960361596498e-06,
      "loss": 0.8141,
      "step": 4851
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4759321029130608,
      "learning_rate": 3.3160082235330937e-06,
      "loss": 0.7466,
      "step": 4852
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4719583113197725,
      "learning_rate": 3.3140563749673994e-06,
      "loss": 0.7062,
      "step": 4853
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4512079129529367,
      "learning_rate": 3.3121048162349577e-06,
      "loss": 0.8308,
      "step": 4854
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8431282855343789,
      "learning_rate": 3.3101535476712675e-06,
      "loss": 0.6708,
      "step": 4855
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8194126034786079,
      "learning_rate": 3.3082025696117723e-06,
      "loss": 0.6463,
      "step": 4856
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5995514372377297,
      "learning_rate": 3.3062518823918664e-06,
      "loss": 0.781,
      "step": 4857
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6564335335711633,
      "learning_rate": 3.3043014863468985e-06,
      "loss": 0.7683,
      "step": 4858
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.586715947983345,
      "learning_rate": 3.3023513818121645e-06,
      "loss": 0.8406,
      "step": 4859
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.893576789687951,
      "learning_rate": 3.3004015691229086e-06,
      "loss": 0.6685,
      "step": 4860
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.349977503801615,
      "learning_rate": 3.298452048614326e-06,
      "loss": 0.7997,
      "step": 4861
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4622823319523455,
      "learning_rate": 3.2965028206215627e-06,
      "loss": 0.7977,
      "step": 4862
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3861215630680288,
      "learning_rate": 3.2945538854797134e-06,
      "loss": 0.7183,
      "step": 4863
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7783362758141656,
      "learning_rate": 3.292605243523821e-06,
      "loss": 0.6771,
      "step": 4864
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7489927231525629,
      "learning_rate": 3.2906568950888827e-06,
      "loss": 0.6057,
      "step": 4865
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3393889325390715,
      "learning_rate": 3.288708840509838e-06,
      "loss": 0.749,
      "step": 4866
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6158048777562257,
      "learning_rate": 3.286761080121585e-06,
      "loss": 0.8592,
      "step": 4867
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5130857275385765,
      "learning_rate": 3.2848136142589637e-06,
      "loss": 0.8144,
      "step": 4868
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3482754982229253,
      "learning_rate": 3.282866443256765e-06,
      "loss": 0.7178,
      "step": 4869
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6588003842898695,
      "learning_rate": 3.280919567449733e-06,
      "loss": 0.7122,
      "step": 4870
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6263707315542952,
      "learning_rate": 3.278972987172556e-06,
      "loss": 0.7133,
      "step": 4871
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9144214166741766,
      "learning_rate": 3.277026702759874e-06,
      "loss": 0.6921,
      "step": 4872
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6157185616364613,
      "learning_rate": 3.275080714546277e-06,
      "loss": 0.7482,
      "step": 4873
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3972651550063646,
      "learning_rate": 3.2731350228663024e-06,
      "loss": 0.7947,
      "step": 4874
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5337104002853896,
      "learning_rate": 3.2711896280544343e-06,
      "loss": 0.7031,
      "step": 4875
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.629718682422277,
      "learning_rate": 3.2692445304451128e-06,
      "loss": 0.7849,
      "step": 4876
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6205554667679376,
      "learning_rate": 3.2672997303727217e-06,
      "loss": 0.8504,
      "step": 4877
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8005021120828906,
      "learning_rate": 3.265355228171594e-06,
      "loss": 0.6671,
      "step": 4878
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6334168576803243,
      "learning_rate": 3.263411024176012e-06,
      "loss": 0.7473,
      "step": 4879
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3266851472520793,
      "learning_rate": 3.2614671187202075e-06,
      "loss": 0.7754,
      "step": 4880
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3748756313398527,
      "learning_rate": 3.2595235121383608e-06,
      "loss": 0.7947,
      "step": 4881
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.506935799768703,
      "learning_rate": 3.2575802047645977e-06,
      "loss": 0.8555,
      "step": 4882
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6532359422119216,
      "learning_rate": 3.2556371969329992e-06,
      "loss": 0.8257,
      "step": 4883
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9376146303672432,
      "learning_rate": 3.2536944889775868e-06,
      "loss": 0.6319,
      "step": 4884
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5205306309554798,
      "learning_rate": 3.2517520812323382e-06,
      "loss": 0.6627,
      "step": 4885
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5359082128206523,
      "learning_rate": 3.2498099740311752e-06,
      "loss": 0.8225,
      "step": 4886
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4638291880645211,
      "learning_rate": 3.2478681677079655e-06,
      "loss": 0.8578,
      "step": 4887
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5437125533062972,
      "learning_rate": 3.2459266625965315e-06,
      "loss": 0.8049,
      "step": 4888
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5248103482647364,
      "learning_rate": 3.24398545903064e-06,
      "loss": 0.9313,
      "step": 4889
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3893336082902124,
      "learning_rate": 3.2420445573440027e-06,
      "loss": 0.8436,
      "step": 4890
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.414318889334563,
      "learning_rate": 3.2401039578702886e-06,
      "loss": 0.7238,
      "step": 4891
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.189050078154781,
      "learning_rate": 3.2381636609431065e-06,
      "loss": 0.762,
      "step": 4892
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5647179099694923,
      "learning_rate": 3.2362236668960144e-06,
      "loss": 0.7365,
      "step": 4893
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5689505164807651,
      "learning_rate": 3.234283976062521e-06,
      "loss": 0.7462,
      "step": 4894
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6432986369902738,
      "learning_rate": 3.2323445887760837e-06,
      "loss": 0.7817,
      "step": 4895
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3939046651876312,
      "learning_rate": 3.230405505370104e-06,
      "loss": 0.7907,
      "step": 4896
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4910575262189127,
      "learning_rate": 3.228466726177932e-06,
      "loss": 0.6958,
      "step": 4897
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2234412936871286,
      "learning_rate": 3.2265282515328676e-06,
      "loss": 0.8203,
      "step": 4898
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7120820592048323,
      "learning_rate": 3.2245900817681576e-06,
      "loss": 0.8015,
      "step": 4899
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4692961526050814,
      "learning_rate": 3.2226522172169928e-06,
      "loss": 0.7359,
      "step": 4900
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7059537668139213,
      "learning_rate": 3.220714658212518e-06,
      "loss": 0.8751,
      "step": 4901
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4534372642324722,
      "learning_rate": 3.2187774050878213e-06,
      "loss": 0.7523,
      "step": 4902
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9412880546808489,
      "learning_rate": 3.2168404581759362e-06,
      "loss": 0.6725,
      "step": 4903
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5024907389775202,
      "learning_rate": 3.21490381780985e-06,
      "loss": 0.679,
      "step": 4904
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4579985867676328,
      "learning_rate": 3.212967484322491e-06,
      "loss": 0.8227,
      "step": 4905
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6829900523191892,
      "learning_rate": 3.2110314580467404e-06,
      "loss": 0.8345,
      "step": 4906
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3629607579816045,
      "learning_rate": 3.209095739315421e-06,
      "loss": 0.8345,
      "step": 4907
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8407983090399901,
      "learning_rate": 3.2071603284613052e-06,
      "loss": 0.6877,
      "step": 4908
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6801301568301743,
      "learning_rate": 3.2052252258171142e-06,
      "loss": 0.6504,
      "step": 4909
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.420491086222181,
      "learning_rate": 3.2032904317155133e-06,
      "loss": 0.7708,
      "step": 4910
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.82975134778065,
      "learning_rate": 3.2013559464891162e-06,
      "loss": 0.6943,
      "step": 4911
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.471535710398367,
      "learning_rate": 3.199421770470482e-06,
      "loss": 0.6954,
      "step": 4912
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6580836134138623,
      "learning_rate": 3.1974879039921214e-06,
      "loss": 0.7435,
      "step": 4913
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6157824199331907,
      "learning_rate": 3.1955543473864868e-06,
      "loss": 0.7795,
      "step": 4914
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6508746947035593,
      "learning_rate": 3.1936211009859786e-06,
      "loss": 0.6927,
      "step": 4915
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2441017090795128,
      "learning_rate": 3.1916881651229447e-06,
      "loss": 0.7137,
      "step": 4916
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7797004989482463,
      "learning_rate": 3.189755540129679e-06,
      "loss": 0.6452,
      "step": 4917
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7995404970217064,
      "learning_rate": 3.1878232263384214e-06,
      "loss": 0.6608,
      "step": 4918
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.901024295215373,
      "learning_rate": 3.1858912240813607e-06,
      "loss": 0.6904,
      "step": 4919
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.732512454753882,
      "learning_rate": 3.183959533690629e-06,
      "loss": 0.7788,
      "step": 4920
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4326379752757643,
      "learning_rate": 3.1820281554983056e-06,
      "loss": 0.7943,
      "step": 4921
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6844446483262647,
      "learning_rate": 3.1800970898364194e-06,
      "loss": 0.8183,
      "step": 4922
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3743440473025355,
      "learning_rate": 3.178166337036941e-06,
      "loss": 0.7156,
      "step": 4923
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4206073953480913,
      "learning_rate": 3.176235897431791e-06,
      "loss": 0.7375,
      "step": 4924
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7653549588434115,
      "learning_rate": 3.1743057713528325e-06,
      "loss": 0.5606,
      "step": 4925
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.111312321876899,
      "learning_rate": 3.172375959131876e-06,
      "loss": 0.862,
      "step": 4926
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.21924442988196,
      "learning_rate": 3.1704464611006813e-06,
      "loss": 0.7763,
      "step": 4927
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4719141827436109,
      "learning_rate": 3.16851727759095e-06,
      "loss": 0.7458,
      "step": 4928
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.529214887203743,
      "learning_rate": 3.1665884089343296e-06,
      "loss": 0.8258,
      "step": 4929
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.8161991818338918,
      "learning_rate": 3.1646598554624174e-06,
      "loss": 0.6549,
      "step": 4930
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2770890022174888,
      "learning_rate": 3.1627316175067515e-06,
      "loss": 0.7121,
      "step": 4931
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3996695893571207,
      "learning_rate": 3.160803695398822e-06,
      "loss": 0.8193,
      "step": 4932
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.543384916568836,
      "learning_rate": 3.1588760894700575e-06,
      "loss": 0.8509,
      "step": 4933
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.550849819054835,
      "learning_rate": 3.156948800051839e-06,
      "loss": 0.847,
      "step": 4934
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1729432751148554,
      "learning_rate": 3.1550218274754887e-06,
      "loss": 0.7468,
      "step": 4935
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7021545399893618,
      "learning_rate": 3.153095172072273e-06,
      "loss": 0.7267,
      "step": 4936
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4416157970472432,
      "learning_rate": 3.15116883417341e-06,
      "loss": 0.7883,
      "step": 4937
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5208674944472511,
      "learning_rate": 3.1492428141100575e-06,
      "loss": 0.7512,
      "step": 4938
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5518846010550316,
      "learning_rate": 3.1473171122133207e-06,
      "loss": 0.7592,
      "step": 4939
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.344975834676279,
      "learning_rate": 3.14539172881425e-06,
      "loss": 0.7552,
      "step": 4940
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7504103787691246,
      "learning_rate": 3.1434666642438416e-06,
      "loss": 0.6611,
      "step": 4941
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3281108601514988,
      "learning_rate": 3.141541918833037e-06,
      "loss": 0.6952,
      "step": 4942
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4766021228891342,
      "learning_rate": 3.139617492912722e-06,
      "loss": 0.8934,
      "step": 4943
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4670126868227225,
      "learning_rate": 3.1376933868137267e-06,
      "loss": 0.7716,
      "step": 4944
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3523983975617764,
      "learning_rate": 3.1357696008668285e-06,
      "loss": 0.8006,
      "step": 4945
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5717995902282274,
      "learning_rate": 3.133846135402748e-06,
      "loss": 0.9099,
      "step": 4946
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6124632792284999,
      "learning_rate": 3.1319229907521502e-06,
      "loss": 0.8474,
      "step": 4947
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.9145124770353241,
      "learning_rate": 3.130000167245648e-06,
      "loss": 0.7202,
      "step": 4948
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3260191589295927,
      "learning_rate": 3.128077665213794e-06,
      "loss": 0.7488,
      "step": 4949
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4415927448623416,
      "learning_rate": 3.1261554849870925e-06,
      "loss": 0.8812,
      "step": 4950
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.499873407049118,
      "learning_rate": 3.124233626895985e-06,
      "loss": 0.9462,
      "step": 4951
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3773791348509574,
      "learning_rate": 3.1223120912708647e-06,
      "loss": 0.8818,
      "step": 4952
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.485040373411642,
      "learning_rate": 3.1203908784420635e-06,
      "loss": 0.7852,
      "step": 4953
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.7900426108418988,
      "learning_rate": 3.1184699887398594e-06,
      "loss": 0.657,
      "step": 4954
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4259480454635596,
      "learning_rate": 3.116549422494478e-06,
      "loss": 0.7921,
      "step": 4955
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6621569615555079,
      "learning_rate": 3.1146291800360863e-06,
      "loss": 0.7825,
      "step": 4956
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.697712878031212,
      "learning_rate": 3.1127092616947935e-06,
      "loss": 0.7568,
      "step": 4957
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9295119031837831,
      "learning_rate": 3.1107896678006577e-06,
      "loss": 0.6418,
      "step": 4958
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2532379387959396,
      "learning_rate": 3.108870398683681e-06,
      "loss": 0.8395,
      "step": 4959
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.603846400896171,
      "learning_rate": 3.106951454673808e-06,
      "loss": 0.8235,
      "step": 4960
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3764422856264238,
      "learning_rate": 3.105032836100925e-06,
      "loss": 0.7435,
      "step": 4961
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5363844874767894,
      "learning_rate": 3.1031145432948644e-06,
      "loss": 0.8685,
      "step": 4962
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4954101112743854,
      "learning_rate": 3.1011965765854056e-06,
      "loss": 0.8465,
      "step": 4963
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4618262306198309,
      "learning_rate": 3.099278936302269e-06,
      "loss": 0.852,
      "step": 4964
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4853288721106614,
      "learning_rate": 3.097361622775117e-06,
      "loss": 0.8432,
      "step": 4965
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2661011621944331,
      "learning_rate": 3.095444636333559e-06,
      "loss": 0.723,
      "step": 4966
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3220883422272784,
      "learning_rate": 3.0935279773071492e-06,
      "loss": 0.8125,
      "step": 4967
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.274911604789304,
      "learning_rate": 3.0916116460253787e-06,
      "loss": 0.9214,
      "step": 4968
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.336844045849597,
      "learning_rate": 3.0896956428176916e-06,
      "loss": 0.7873,
      "step": 4969
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.605049112283086,
      "learning_rate": 3.0877799680134713e-06,
      "loss": 0.8454,
      "step": 4970
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4870505109467478,
      "learning_rate": 3.085864621942042e-06,
      "loss": 0.8688,
      "step": 4971
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7910989403112096,
      "learning_rate": 3.0839496049326745e-06,
      "loss": 0.7515,
      "step": 4972
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.2739813834767264,
      "learning_rate": 3.0820349173145823e-06,
      "loss": 0.7272,
      "step": 4973
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6314693942322034,
      "learning_rate": 3.080120559416924e-06,
      "loss": 0.8426,
      "step": 4974
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6466471932370046,
      "learning_rate": 3.0782065315687975e-06,
      "loss": 0.8148,
      "step": 4975
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.4749064083417256,
      "learning_rate": 3.0762928340992483e-06,
      "loss": 0.8893,
      "step": 4976
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4017957921746593,
      "learning_rate": 3.0743794673372605e-06,
      "loss": 0.8977,
      "step": 4977
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.393140101705851,
      "learning_rate": 3.072466431611768e-06,
      "loss": 0.7643,
      "step": 4978
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6450507306137612,
      "learning_rate": 3.0705537272516406e-06,
      "loss": 0.8031,
      "step": 4979
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4507258433710486,
      "learning_rate": 3.0686413545856975e-06,
      "loss": 0.7433,
      "step": 4980
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2509798571154866,
      "learning_rate": 3.0667293139426944e-06,
      "loss": 0.7229,
      "step": 4981
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.305969188679492,
      "learning_rate": 3.064817605651336e-06,
      "loss": 0.6986,
      "step": 4982
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3581152899639752,
      "learning_rate": 3.0629062300402636e-06,
      "loss": 0.8167,
      "step": 4983
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.594423657777275,
      "learning_rate": 3.0609951874380685e-06,
      "loss": 0.7299,
      "step": 4984
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.39589529827333,
      "learning_rate": 3.05908447817328e-06,
      "loss": 0.8019,
      "step": 4985
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3829232051877332,
      "learning_rate": 3.057174102574367e-06,
      "loss": 0.753,
      "step": 4986
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5884979139932565,
      "learning_rate": 3.0552640609697514e-06,
      "loss": 0.8219,
      "step": 4987
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4223626708707302,
      "learning_rate": 3.0533543536877897e-06,
      "loss": 0.7029,
      "step": 4988
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7881207868089721,
      "learning_rate": 3.0514449810567827e-06,
      "loss": 0.7569,
      "step": 4989
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.0963190726036975,
      "learning_rate": 3.049535943404971e-06,
      "loss": 0.7573,
      "step": 4990
    },
    {
      "epoch": 0.64,
      "grad_norm": 9.698542017886963,
      "learning_rate": 3.047627241060544e-06,
      "loss": 0.7477,
      "step": 4991
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8282533741931132,
      "learning_rate": 3.0457188743516275e-06,
      "loss": 0.6707,
      "step": 4992
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3158753354703814,
      "learning_rate": 3.043810843606292e-06,
      "loss": 0.7017,
      "step": 4993
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.8995679744597626,
      "learning_rate": 3.041903149152552e-06,
      "loss": 0.6804,
      "step": 4994
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5215048566422327,
      "learning_rate": 3.039995791318358e-06,
      "loss": 0.7641,
      "step": 4995
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5205531672749275,
      "learning_rate": 3.038088770431612e-06,
      "loss": 0.7652,
      "step": 4996
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.42705540161514,
      "learning_rate": 3.0361820868201497e-06,
      "loss": 0.8298,
      "step": 4997
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6720179956004715,
      "learning_rate": 3.0342757408117544e-06,
      "loss": 0.8564,
      "step": 4998
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6723422895340707,
      "learning_rate": 3.0323697327341483e-06,
      "loss": 0.8819,
      "step": 4999
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9059027947526304,
      "learning_rate": 3.030464062914995e-06,
      "loss": 0.6243,
      "step": 5000
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3955413952020919,
      "learning_rate": 3.028558731681902e-06,
      "loss": 0.7686,
      "step": 5001
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.8939270851963403,
      "learning_rate": 3.0266537393624185e-06,
      "loss": 0.7782,
      "step": 5002
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4866306657131738,
      "learning_rate": 3.024749086284034e-06,
      "loss": 0.7498,
      "step": 5003
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4201642487182855,
      "learning_rate": 3.02284477277418e-06,
      "loss": 0.7723,
      "step": 5004
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5477514252609736,
      "learning_rate": 3.020940799160229e-06,
      "loss": 0.6932,
      "step": 5005
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.193350073649546,
      "learning_rate": 3.0190371657695005e-06,
      "loss": 0.7643,
      "step": 5006
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.149362595080391,
      "learning_rate": 3.017133872929249e-06,
      "loss": 0.7828,
      "step": 5007
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4905640835220288,
      "learning_rate": 3.0152309209666703e-06,
      "loss": 0.7941,
      "step": 5008
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6864454816268064,
      "learning_rate": 3.0133283102089067e-06,
      "loss": 0.8591,
      "step": 5009
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.052026367961487,
      "learning_rate": 3.0114260409830386e-06,
      "loss": 0.71,
      "step": 5010
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9129599298267685,
      "learning_rate": 3.009524113616086e-06,
      "loss": 0.6858,
      "step": 5011
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5496073175033778,
      "learning_rate": 3.0076225284350147e-06,
      "loss": 0.881,
      "step": 5012
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4954110099345415,
      "learning_rate": 3.005721285766729e-06,
      "loss": 0.736,
      "step": 5013
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7743983706448851,
      "learning_rate": 3.0038203859380717e-06,
      "loss": 0.822,
      "step": 5014
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5823365877790219,
      "learning_rate": 3.0019198292758327e-06,
      "loss": 0.7646,
      "step": 5015
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7902300139425332,
      "learning_rate": 3.0000196161067398e-06,
      "loss": 0.6792,
      "step": 5016
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3982950685370388,
      "learning_rate": 2.998119746757461e-06,
      "loss": 0.7986,
      "step": 5017
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7285480604437873,
      "learning_rate": 2.9962202215546043e-06,
      "loss": 0.8514,
      "step": 5018
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.387315673038049,
      "learning_rate": 2.994321040824722e-06,
      "loss": 0.7018,
      "step": 5019
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.093689963256113,
      "learning_rate": 2.9924222048943046e-06,
      "loss": 0.8434,
      "step": 5020
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1906967136830644,
      "learning_rate": 2.990523714089785e-06,
      "loss": 0.7992,
      "step": 5021
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7351436823227675,
      "learning_rate": 2.988625568737532e-06,
      "loss": 0.693,
      "step": 5022
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3246029567880955,
      "learning_rate": 2.986727769163862e-06,
      "loss": 0.7173,
      "step": 5023
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6126865252057279,
      "learning_rate": 2.9848303156950297e-06,
      "loss": 0.7657,
      "step": 5024
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4499795270099574,
      "learning_rate": 2.982933208657228e-06,
      "loss": 0.7671,
      "step": 5025
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.524043715773257,
      "learning_rate": 2.9810364483765913e-06,
      "loss": 0.7885,
      "step": 5026
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3769714938343969,
      "learning_rate": 2.9791400351791954e-06,
      "loss": 0.7451,
      "step": 5027
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4170350515002206,
      "learning_rate": 2.9772439693910554e-06,
      "loss": 0.8361,
      "step": 5028
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.432075499586906,
      "learning_rate": 2.975348251338126e-06,
      "loss": 0.7576,
      "step": 5029
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4411986795833276,
      "learning_rate": 2.973452881346305e-06,
      "loss": 0.7502,
      "step": 5030
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3889976572322635,
      "learning_rate": 2.9715578597414268e-06,
      "loss": 0.8468,
      "step": 5031
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8754377835986753,
      "learning_rate": 2.9696631868492664e-06,
      "loss": 0.7999,
      "step": 5032
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7089140481595984,
      "learning_rate": 2.9677688629955438e-06,
      "loss": 0.8341,
      "step": 5033
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7887415300803681,
      "learning_rate": 2.965874888505913e-06,
      "loss": 0.649,
      "step": 5034
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5591294346868378,
      "learning_rate": 2.9639812637059717e-06,
      "loss": 0.7154,
      "step": 5035
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.7828273050608702,
      "learning_rate": 2.962087988921253e-06,
      "loss": 0.5804,
      "step": 5036
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.7867138756651049,
      "learning_rate": 2.9601950644772352e-06,
      "loss": 0.7777,
      "step": 5037
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.618852013204824,
      "learning_rate": 2.958302490699334e-06,
      "loss": 0.7559,
      "step": 5038
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.015865123240602,
      "learning_rate": 2.9564102679129027e-06,
      "loss": 0.7484,
      "step": 5039
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4417217354671141,
      "learning_rate": 2.954518396443239e-06,
      "loss": 0.8144,
      "step": 5040
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.3810172352647525,
      "learning_rate": 2.9526268766155753e-06,
      "loss": 0.6371,
      "step": 5041
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3325982975108566,
      "learning_rate": 2.9507357087550857e-06,
      "loss": 0.8366,
      "step": 5042
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5194592604926125,
      "learning_rate": 2.948844893186886e-06,
      "loss": 0.7705,
      "step": 5043
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4164636909335795,
      "learning_rate": 2.9469544302360283e-06,
      "loss": 0.8942,
      "step": 5044
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5025324847679662,
      "learning_rate": 2.945064320227505e-06,
      "loss": 0.7415,
      "step": 5045
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8198490766953437,
      "learning_rate": 2.9431745634862484e-06,
      "loss": 0.6485,
      "step": 5046
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6412146543302737,
      "learning_rate": 2.9412851603371277e-06,
      "loss": 0.7886,
      "step": 5047
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.486205933229139,
      "learning_rate": 2.9393961111049564e-06,
      "loss": 0.8018,
      "step": 5048
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.442458712029356,
      "learning_rate": 2.937507416114481e-06,
      "loss": 0.6913,
      "step": 5049
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5733559639889982,
      "learning_rate": 2.9356190756903913e-06,
      "loss": 0.8182,
      "step": 5050
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.420347361304678,
      "learning_rate": 2.9337310901573134e-06,
      "loss": 0.7262,
      "step": 5051
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9189763351953076,
      "learning_rate": 2.9318434598398173e-06,
      "loss": 0.6108,
      "step": 5052
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.1302507556023405,
      "learning_rate": 2.929956185062407e-06,
      "loss": 0.7845,
      "step": 5053
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8314075256091403,
      "learning_rate": 2.9280692661495247e-06,
      "loss": 0.6538,
      "step": 5054
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3787919083708586,
      "learning_rate": 2.9261827034255575e-06,
      "loss": 0.8038,
      "step": 5055
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.443087770810425,
      "learning_rate": 2.9242964972148245e-06,
      "loss": 0.7054,
      "step": 5056
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.195624583503672,
      "learning_rate": 2.922410647841586e-06,
      "loss": 0.7553,
      "step": 5057
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.896225316749444,
      "learning_rate": 2.920525155630044e-06,
      "loss": 0.6687,
      "step": 5058
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.8422040410196514,
      "learning_rate": 2.918640020904334e-06,
      "loss": 0.7988,
      "step": 5059
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9810619332108634,
      "learning_rate": 2.9167552439885333e-06,
      "loss": 0.7198,
      "step": 5060
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8800823365165663,
      "learning_rate": 2.914870825206659e-06,
      "loss": 0.6836,
      "step": 5061
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6160733832666314,
      "learning_rate": 2.9129867648826623e-06,
      "loss": 0.6591,
      "step": 5062
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5395719111706907,
      "learning_rate": 2.9111030633404354e-06,
      "loss": 0.785,
      "step": 5063
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4949309301893086,
      "learning_rate": 2.9092197209038087e-06,
      "loss": 0.734,
      "step": 5064
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.774192569214314,
      "learning_rate": 2.90733673789655e-06,
      "loss": 0.6759,
      "step": 5065
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3733699533492765,
      "learning_rate": 2.905454114642365e-06,
      "loss": 0.8322,
      "step": 5066
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.547242620143209,
      "learning_rate": 2.9035718514649013e-06,
      "loss": 0.7867,
      "step": 5067
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.700228621571161,
      "learning_rate": 2.9016899486877404e-06,
      "loss": 0.7654,
      "step": 5068
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9073901137294698,
      "learning_rate": 2.8998084066344005e-06,
      "loss": 0.6847,
      "step": 5069
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5370204059840116,
      "learning_rate": 2.8979272256283453e-06,
      "loss": 0.8137,
      "step": 5070
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.426131139327348,
      "learning_rate": 2.89604640599297e-06,
      "loss": 0.8455,
      "step": 5071
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.8380739435455655,
      "learning_rate": 2.8941659480516083e-06,
      "loss": 0.8796,
      "step": 5072
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.679784450603084,
      "learning_rate": 2.892285852127532e-06,
      "loss": 0.7815,
      "step": 5073
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4618268931148497,
      "learning_rate": 2.8904061185439513e-06,
      "loss": 0.6994,
      "step": 5074
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.601939408617786,
      "learning_rate": 2.8885267476240173e-06,
      "loss": 0.89,
      "step": 5075
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5125549999971903,
      "learning_rate": 2.8866477396908143e-06,
      "loss": 0.794,
      "step": 5076
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3852618324731993,
      "learning_rate": 2.8847690950673642e-06,
      "loss": 0.7877,
      "step": 5077
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8220388605914287,
      "learning_rate": 2.882890814076629e-06,
      "loss": 0.5874,
      "step": 5078
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.314432469248995,
      "learning_rate": 2.8810128970415035e-06,
      "loss": 0.7827,
      "step": 5079
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6535274728929752,
      "learning_rate": 2.879135344284829e-06,
      "loss": 0.7633,
      "step": 5080
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3410616790770618,
      "learning_rate": 2.8772581561293743e-06,
      "loss": 0.7273,
      "step": 5081
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4324994304342387,
      "learning_rate": 2.875381332897853e-06,
      "loss": 0.751,
      "step": 5082
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7422440833857697,
      "learning_rate": 2.873504874912911e-06,
      "loss": 0.7701,
      "step": 5083
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6087275546234416,
      "learning_rate": 2.8716287824971344e-06,
      "loss": 0.7432,
      "step": 5084
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4327689371098236,
      "learning_rate": 2.869753055973044e-06,
      "loss": 0.8076,
      "step": 5085
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.0041864265720326,
      "learning_rate": 2.8678776956630995e-06,
      "loss": 0.7943,
      "step": 5086
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7239216894210043,
      "learning_rate": 2.866002701889694e-06,
      "loss": 0.817,
      "step": 5087
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9410365449448248,
      "learning_rate": 2.8641280749751655e-06,
      "loss": 0.6271,
      "step": 5088
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.7684401630888493,
      "learning_rate": 2.8622538152417804e-06,
      "loss": 0.7151,
      "step": 5089
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5749802893544802,
      "learning_rate": 2.8603799230117495e-06,
      "loss": 0.7499,
      "step": 5090
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.071014346850702,
      "learning_rate": 2.858506398607214e-06,
      "loss": 0.8199,
      "step": 5091
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.624410147075256,
      "learning_rate": 2.8566332423502553e-06,
      "loss": 0.7447,
      "step": 5092
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5721506652342756,
      "learning_rate": 2.8547604545628903e-06,
      "loss": 0.8656,
      "step": 5093
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.379504110785563,
      "learning_rate": 2.852888035567073e-06,
      "loss": 0.8346,
      "step": 5094
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.9158270230566086,
      "learning_rate": 2.851015985684691e-06,
      "loss": 0.7715,
      "step": 5095
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3660373213492907,
      "learning_rate": 2.8491443052375767e-06,
      "loss": 0.8298,
      "step": 5096
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.372427450923808,
      "learning_rate": 2.84727299454749e-06,
      "loss": 0.6972,
      "step": 5097
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.621361252939832,
      "learning_rate": 2.845402053936133e-06,
      "loss": 0.7617,
      "step": 5098
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4687703327008577,
      "learning_rate": 2.8435314837251414e-06,
      "loss": 0.8246,
      "step": 5099
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.374985479098036,
      "learning_rate": 2.841661284236088e-06,
      "loss": 0.7572,
      "step": 5100
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.827677866452505,
      "learning_rate": 2.8397914557904816e-06,
      "loss": 0.7478,
      "step": 5101
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4208284599453924,
      "learning_rate": 2.837921998709765e-06,
      "loss": 0.8202,
      "step": 5102
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3634071227702995,
      "learning_rate": 2.8360529133153237e-06,
      "loss": 0.818,
      "step": 5103
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.758090315975734,
      "learning_rate": 2.8341841999284725e-06,
      "loss": 0.7597,
      "step": 5104
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6268467139316405,
      "learning_rate": 2.832315858870467e-06,
      "loss": 0.8409,
      "step": 5105
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.7729146924884452,
      "learning_rate": 2.830447890462492e-06,
      "loss": 0.6523,
      "step": 5106
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5178299226188154,
      "learning_rate": 2.828580295025679e-06,
      "loss": 0.8258,
      "step": 5107
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4757147408614428,
      "learning_rate": 2.8267130728810866e-06,
      "loss": 0.8194,
      "step": 5108
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6072924677788805,
      "learning_rate": 2.824846224349712e-06,
      "loss": 0.8198,
      "step": 5109
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4909101205872362,
      "learning_rate": 2.822979749752486e-06,
      "loss": 0.8556,
      "step": 5110
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3131821549295681,
      "learning_rate": 2.821113649410281e-06,
      "loss": 0.8582,
      "step": 5111
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2957513465629238,
      "learning_rate": 2.8192479236438987e-06,
      "loss": 0.7708,
      "step": 5112
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4764622461688797,
      "learning_rate": 2.8173825727740808e-06,
      "loss": 0.7782,
      "step": 5113
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3843111974427016,
      "learning_rate": 2.815517597121501e-06,
      "loss": 0.8575,
      "step": 5114
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4539212330037437,
      "learning_rate": 2.8136529970067715e-06,
      "loss": 0.7969,
      "step": 5115
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6375448237835017,
      "learning_rate": 2.8117887727504355e-06,
      "loss": 0.8603,
      "step": 5116
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5151877419375852,
      "learning_rate": 2.809924924672978e-06,
      "loss": 0.734,
      "step": 5117
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.411014200163787,
      "learning_rate": 2.8080614530948174e-06,
      "loss": 0.8839,
      "step": 5118
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4119583827797366,
      "learning_rate": 2.806198358336304e-06,
      "loss": 0.7289,
      "step": 5119
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8482994806362807,
      "learning_rate": 2.804335640717726e-06,
      "loss": 0.7655,
      "step": 5120
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8775985514097492,
      "learning_rate": 2.802473300559305e-06,
      "loss": 0.616,
      "step": 5121
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8766618828836175,
      "learning_rate": 2.8006113381812e-06,
      "loss": 0.8523,
      "step": 5122
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4089888488917006,
      "learning_rate": 2.798749753903501e-06,
      "loss": 0.7398,
      "step": 5123
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5620349426107372,
      "learning_rate": 2.7968885480462406e-06,
      "loss": 0.78,
      "step": 5124
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5132745108759036,
      "learning_rate": 2.7950277209293774e-06,
      "loss": 0.8167,
      "step": 5125
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8547437162844831,
      "learning_rate": 2.7931672728728137e-06,
      "loss": 0.6523,
      "step": 5126
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7169255130259053,
      "learning_rate": 2.7913072041963797e-06,
      "loss": 0.7886,
      "step": 5127
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8461201908681901,
      "learning_rate": 2.789447515219842e-06,
      "loss": 0.6659,
      "step": 5128
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4866622447011415,
      "learning_rate": 2.7875882062629033e-06,
      "loss": 0.7254,
      "step": 5129
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5616302622270646,
      "learning_rate": 2.7857292776452003e-06,
      "loss": 0.6868,
      "step": 5130
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8064270947100787,
      "learning_rate": 2.783870729686303e-06,
      "loss": 0.8246,
      "step": 5131
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2798726221467243,
      "learning_rate": 2.782012562705721e-06,
      "loss": 0.8192,
      "step": 5132
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.036789768777895,
      "learning_rate": 2.780154777022892e-06,
      "loss": 0.8219,
      "step": 5133
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8983292907512843,
      "learning_rate": 2.77829737295719e-06,
      "loss": 0.8141,
      "step": 5134
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8299191757636564,
      "learning_rate": 2.7764403508279275e-06,
      "loss": 0.8094,
      "step": 5135
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8229456262576373,
      "learning_rate": 2.774583710954346e-06,
      "loss": 0.7233,
      "step": 5136
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5009962479782846,
      "learning_rate": 2.7727274536556248e-06,
      "loss": 0.7372,
      "step": 5137
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.352534627331775,
      "learning_rate": 2.770871579250872e-06,
      "loss": 0.8419,
      "step": 5138
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5284568187419179,
      "learning_rate": 2.76901608805914e-06,
      "loss": 0.8372,
      "step": 5139
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.4595947902151507,
      "learning_rate": 2.767160980399406e-06,
      "loss": 0.793,
      "step": 5140
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4624389183778392,
      "learning_rate": 2.7653062565905842e-06,
      "loss": 0.742,
      "step": 5141
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7882661341096429,
      "learning_rate": 2.7634519169515237e-06,
      "loss": 0.6601,
      "step": 5142
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.52086787349415,
      "learning_rate": 2.7615979618010057e-06,
      "loss": 0.7774,
      "step": 5143
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4377697303227464,
      "learning_rate": 2.759744391457749e-06,
      "loss": 0.7006,
      "step": 5144
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.2306612005997084,
      "learning_rate": 2.757891206240404e-06,
      "loss": 0.6931,
      "step": 5145
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3094369613336199,
      "learning_rate": 2.7560384064675505e-06,
      "loss": 0.7573,
      "step": 5146
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4137310860874888,
      "learning_rate": 2.7541859924577106e-06,
      "loss": 0.7377,
      "step": 5147
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5080049322706401,
      "learning_rate": 2.7523339645293357e-06,
      "loss": 0.8279,
      "step": 5148
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8136520845298311,
      "learning_rate": 2.750482323000808e-06,
      "loss": 0.6379,
      "step": 5149
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4113225408793437,
      "learning_rate": 2.748631068190449e-06,
      "loss": 0.6522,
      "step": 5150
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.831647006051496,
      "learning_rate": 2.746780200416509e-06,
      "loss": 0.833,
      "step": 5151
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7125959350309747,
      "learning_rate": 2.7449297199971713e-06,
      "loss": 0.8635,
      "step": 5152
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5070890223214877,
      "learning_rate": 2.743079627250559e-06,
      "loss": 0.7722,
      "step": 5153
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4041211805598677,
      "learning_rate": 2.741229922494724e-06,
      "loss": 0.6454,
      "step": 5154
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3895068883864985,
      "learning_rate": 2.7393806060476525e-06,
      "loss": 0.837,
      "step": 5155
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.543565229515143,
      "learning_rate": 2.737531678227261e-06,
      "loss": 0.7555,
      "step": 5156
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8272412546130309,
      "learning_rate": 2.7356831393514033e-06,
      "loss": 0.6955,
      "step": 5157
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5503650522146353,
      "learning_rate": 2.733834989737864e-06,
      "loss": 0.6895,
      "step": 5158
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8758413835912252,
      "learning_rate": 2.7319872297043604e-06,
      "loss": 0.5912,
      "step": 5159
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3397512916718501,
      "learning_rate": 2.7301398595685456e-06,
      "loss": 0.8356,
      "step": 5160
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.501239949571223,
      "learning_rate": 2.7282928796480047e-06,
      "loss": 0.8404,
      "step": 5161
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3663581768585393,
      "learning_rate": 2.726446290260251e-06,
      "loss": 0.8201,
      "step": 5162
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4457897613155468,
      "learning_rate": 2.72460009172274e-06,
      "loss": 0.7235,
      "step": 5163
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5395691051445142,
      "learning_rate": 2.722754284352851e-06,
      "loss": 0.8509,
      "step": 5164
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.097490865290693,
      "learning_rate": 2.7209088684679015e-06,
      "loss": 0.7449,
      "step": 5165
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.710724705147035,
      "learning_rate": 2.719063844385138e-06,
      "loss": 0.9093,
      "step": 5166
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.9517225841344792,
      "learning_rate": 2.7172192124217418e-06,
      "loss": 0.7687,
      "step": 5167
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5691514889883589,
      "learning_rate": 2.7153749728948286e-06,
      "loss": 0.7674,
      "step": 5168
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3042946116495802,
      "learning_rate": 2.7135311261214425e-06,
      "loss": 0.7688,
      "step": 5169
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4947843655183093,
      "learning_rate": 2.711687672418564e-06,
      "loss": 0.7734,
      "step": 5170
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9533608188917152,
      "learning_rate": 2.7098446121031008e-06,
      "loss": 0.6727,
      "step": 5171
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5574972910356717,
      "learning_rate": 2.7080019454919e-06,
      "loss": 0.7277,
      "step": 5172
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7972968023165147,
      "learning_rate": 2.706159672901736e-06,
      "loss": 0.6688,
      "step": 5173
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3502028432568083,
      "learning_rate": 2.7043177946493148e-06,
      "loss": 0.8187,
      "step": 5174
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2559337162740771,
      "learning_rate": 2.7024763110512808e-06,
      "loss": 0.8483,
      "step": 5175
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4932246524430643,
      "learning_rate": 2.700635222424204e-06,
      "loss": 0.8392,
      "step": 5176
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.8954084762605035,
      "learning_rate": 2.6987945290845884e-06,
      "loss": 0.7654,
      "step": 5177
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5461572999616635,
      "learning_rate": 2.6969542313488716e-06,
      "loss": 0.7837,
      "step": 5178
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.2282433702196083,
      "learning_rate": 2.695114329533422e-06,
      "loss": 0.77,
      "step": 5179
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7838409971355328,
      "learning_rate": 2.693274823954537e-06,
      "loss": 0.6371,
      "step": 5180
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.942996761886917,
      "learning_rate": 2.6914357149284522e-06,
      "loss": 0.6293,
      "step": 5181
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3958910111181724,
      "learning_rate": 2.689597002771333e-06,
      "loss": 0.7831,
      "step": 5182
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8044679243898241,
      "learning_rate": 2.6877586877992735e-06,
      "loss": 0.7384,
      "step": 5183
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5557407034823827,
      "learning_rate": 2.6859207703283012e-06,
      "loss": 0.8896,
      "step": 5184
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.035695238801761,
      "learning_rate": 2.6840832506743757e-06,
      "loss": 0.6076,
      "step": 5185
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3413132481964785,
      "learning_rate": 2.6822461291533874e-06,
      "loss": 0.8309,
      "step": 5186
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8595526130845367,
      "learning_rate": 2.6804094060811604e-06,
      "loss": 0.6357,
      "step": 5187
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3118077582150647,
      "learning_rate": 2.6785730817734446e-06,
      "loss": 0.9036,
      "step": 5188
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5873864321277908,
      "learning_rate": 2.67673715654593e-06,
      "loss": 0.7559,
      "step": 5189
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.6857660428896604,
      "learning_rate": 2.6749016307142307e-06,
      "loss": 0.7057,
      "step": 5190
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5259790677092941,
      "learning_rate": 2.6730665045938975e-06,
      "loss": 0.7926,
      "step": 5191
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.600433784987976,
      "learning_rate": 2.671231778500408e-06,
      "loss": 0.7577,
      "step": 5192
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5169181093664996,
      "learning_rate": 2.669397452749173e-06,
      "loss": 0.877,
      "step": 5193
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.501461928056122,
      "learning_rate": 2.667563527655535e-06,
      "loss": 0.7768,
      "step": 5194
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.516143373547727,
      "learning_rate": 2.6657300035347643e-06,
      "loss": 0.7282,
      "step": 5195
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6055785863845133,
      "learning_rate": 2.6638968807020693e-06,
      "loss": 0.8236,
      "step": 5196
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5411900905761322,
      "learning_rate": 2.6620641594725834e-06,
      "loss": 0.8437,
      "step": 5197
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8403164512272128,
      "learning_rate": 2.6602318401613715e-06,
      "loss": 0.6323,
      "step": 5198
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.539519400486157,
      "learning_rate": 2.6583999230834294e-06,
      "loss": 0.8378,
      "step": 5199
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8569919424438428,
      "learning_rate": 2.656568408553689e-06,
      "loss": 0.5842,
      "step": 5200
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3776416811495427,
      "learning_rate": 2.654737296887006e-06,
      "loss": 0.9043,
      "step": 5201
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.677867282454458,
      "learning_rate": 2.652906588398171e-06,
      "loss": 0.774,
      "step": 5202
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3514412214606728,
      "learning_rate": 2.6510762834019006e-06,
      "loss": 0.7847,
      "step": 5203
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.568197436992122,
      "learning_rate": 2.64924638221285e-06,
      "loss": 0.9019,
      "step": 5204
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8483447605534992,
      "learning_rate": 2.6474168851455995e-06,
      "loss": 0.7829,
      "step": 5205
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3346940071969757,
      "learning_rate": 2.645587792514659e-06,
      "loss": 0.7861,
      "step": 5206
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.9310472681412514,
      "learning_rate": 2.6437591046344724e-06,
      "loss": 0.8262,
      "step": 5207
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3771356288440104,
      "learning_rate": 2.641930821819409e-06,
      "loss": 0.7263,
      "step": 5208
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.433374278502041,
      "learning_rate": 2.6401029443837767e-06,
      "loss": 0.7665,
      "step": 5209
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4437911118938171,
      "learning_rate": 2.6382754726418047e-06,
      "loss": 0.7134,
      "step": 5210
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3042131047047885,
      "learning_rate": 2.63644840690766e-06,
      "loss": 0.8233,
      "step": 5211
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7932483985049552,
      "learning_rate": 2.634621747495435e-06,
      "loss": 0.9569,
      "step": 5212
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.284803630706169,
      "learning_rate": 2.632795494719154e-06,
      "loss": 0.8058,
      "step": 5213
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8729304020647418,
      "learning_rate": 2.6309696488927692e-06,
      "loss": 0.7578,
      "step": 5214
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.531682652806705,
      "learning_rate": 2.6291442103301667e-06,
      "loss": 0.7403,
      "step": 5215
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4482227088746975,
      "learning_rate": 2.6273191793451575e-06,
      "loss": 0.7238,
      "step": 5216
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.574013240760798,
      "learning_rate": 2.6254945562514877e-06,
      "loss": 0.8561,
      "step": 5217
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.1059386656882775,
      "learning_rate": 2.623670341362834e-06,
      "loss": 0.7386,
      "step": 5218
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.613740271799259,
      "learning_rate": 2.621846534992797e-06,
      "loss": 0.7868,
      "step": 5219
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.576279535588165,
      "learning_rate": 2.62002313745491e-06,
      "loss": 0.8007,
      "step": 5220
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4980839248177904,
      "learning_rate": 2.6182001490626374e-06,
      "loss": 0.6492,
      "step": 5221
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.61963368128885,
      "learning_rate": 2.6163775701293714e-06,
      "loss": 0.7435,
      "step": 5222
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.368703433079259,
      "learning_rate": 2.6145554009684343e-06,
      "loss": 0.8167,
      "step": 5223
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4941593987914192,
      "learning_rate": 2.612733641893076e-06,
      "loss": 0.8726,
      "step": 5224
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4944512630699553,
      "learning_rate": 2.610912293216483e-06,
      "loss": 0.8691,
      "step": 5225
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5936018416006719,
      "learning_rate": 2.6090913552517626e-06,
      "loss": 0.8293,
      "step": 5226
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5476960754255373,
      "learning_rate": 2.6072708283119543e-06,
      "loss": 0.8461,
      "step": 5227
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.348364432118813,
      "learning_rate": 2.6054507127100315e-06,
      "loss": 0.8684,
      "step": 5228
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1220067706520178,
      "learning_rate": 2.6036310087588913e-06,
      "loss": 0.7063,
      "step": 5229
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4768045511114836,
      "learning_rate": 2.601811716771362e-06,
      "loss": 0.8398,
      "step": 5230
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8832418008000258,
      "learning_rate": 2.599992837060198e-06,
      "loss": 0.6477,
      "step": 5231
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4944398862553958,
      "learning_rate": 2.598174369938091e-06,
      "loss": 0.8621,
      "step": 5232
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4459127523842534,
      "learning_rate": 2.596356315717654e-06,
      "loss": 0.6531,
      "step": 5233
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4945421642149028,
      "learning_rate": 2.594538674711432e-06,
      "loss": 0.7198,
      "step": 5234
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3447543650051321,
      "learning_rate": 2.5927214472318983e-06,
      "loss": 0.6901,
      "step": 5235
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6085790754804552,
      "learning_rate": 2.5909046335914533e-06,
      "loss": 0.7767,
      "step": 5236
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6999922469873923,
      "learning_rate": 2.5890882341024328e-06,
      "loss": 0.7482,
      "step": 5237
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4915805252741767,
      "learning_rate": 2.5872722490770917e-06,
      "loss": 0.8062,
      "step": 5238
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4744558903255993,
      "learning_rate": 2.5854566788276247e-06,
      "loss": 0.7706,
      "step": 5239
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4550396461837463,
      "learning_rate": 2.583641523666146e-06,
      "loss": 0.7234,
      "step": 5240
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6221708650503268,
      "learning_rate": 2.5818267839047018e-06,
      "loss": 0.8317,
      "step": 5241
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.419614219462595,
      "learning_rate": 2.5800124598552676e-06,
      "loss": 0.86,
      "step": 5242
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7264384340446997,
      "learning_rate": 2.5781985518297468e-06,
      "loss": 0.7377,
      "step": 5243
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6135652090557466,
      "learning_rate": 2.576385060139971e-06,
      "loss": 0.7852,
      "step": 5244
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5105540380930076,
      "learning_rate": 2.574571985097698e-06,
      "loss": 0.7837,
      "step": 5245
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.315158393899039,
      "learning_rate": 2.572759327014618e-06,
      "loss": 0.8158,
      "step": 5246
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.7042797597392143,
      "learning_rate": 2.5709470862023517e-06,
      "loss": 0.8813,
      "step": 5247
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9724380935548619,
      "learning_rate": 2.5691352629724407e-06,
      "loss": 0.5854,
      "step": 5248
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3557070712909178,
      "learning_rate": 2.567323857636359e-06,
      "loss": 0.784,
      "step": 5249
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3779533436434914,
      "learning_rate": 2.565512870505509e-06,
      "loss": 0.8288,
      "step": 5250
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4600257554635276,
      "learning_rate": 2.5637023018912187e-06,
      "loss": 0.692,
      "step": 5251
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4946915357004114,
      "learning_rate": 2.561892152104745e-06,
      "loss": 0.8695,
      "step": 5252
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8163970240705022,
      "learning_rate": 2.5600824214572774e-06,
      "loss": 0.5745,
      "step": 5253
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4173872142088944,
      "learning_rate": 2.558273110259925e-06,
      "loss": 0.8521,
      "step": 5254
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4873765467475304,
      "learning_rate": 2.5564642188237345e-06,
      "loss": 0.7164,
      "step": 5255
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5117146240811032,
      "learning_rate": 2.5546557474596725e-06,
      "loss": 0.9448,
      "step": 5256
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5142917950588957,
      "learning_rate": 2.5528476964786365e-06,
      "loss": 0.7524,
      "step": 5257
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9581169895720847,
      "learning_rate": 2.5510400661914503e-06,
      "loss": 0.6384,
      "step": 5258
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6321343107558748,
      "learning_rate": 2.5492328569088666e-06,
      "loss": 0.7427,
      "step": 5259
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.505663147856151,
      "learning_rate": 2.5474260689415687e-06,
      "loss": 0.6925,
      "step": 5260
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6048949194819533,
      "learning_rate": 2.5456197026001613e-06,
      "loss": 0.8129,
      "step": 5261
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.36179956381095,
      "learning_rate": 2.543813758195181e-06,
      "loss": 0.9042,
      "step": 5262
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.392824591353325,
      "learning_rate": 2.54200823603709e-06,
      "loss": 0.791,
      "step": 5263
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4099506638741752,
      "learning_rate": 2.5402031364362772e-06,
      "loss": 0.8466,
      "step": 5264
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.387433094925082,
      "learning_rate": 2.5383984597030638e-06,
      "loss": 0.7898,
      "step": 5265
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3329457985867927,
      "learning_rate": 2.5365942061476924e-06,
      "loss": 0.7667,
      "step": 5266
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.481951046848994,
      "learning_rate": 2.5347903760803327e-06,
      "loss": 0.7508,
      "step": 5267
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5653335390137924,
      "learning_rate": 2.532986969811089e-06,
      "loss": 0.7768,
      "step": 5268
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6166973681529122,
      "learning_rate": 2.5311839876499843e-06,
      "loss": 0.6975,
      "step": 5269
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5461492170325866,
      "learning_rate": 2.5293814299069742e-06,
      "loss": 0.8608,
      "step": 5270
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.520719173336036,
      "learning_rate": 2.5275792968919376e-06,
      "loss": 0.7715,
      "step": 5271
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3302077091462419,
      "learning_rate": 2.525777588914683e-06,
      "loss": 0.6844,
      "step": 5272
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4137878557643726,
      "learning_rate": 2.5239763062849424e-06,
      "loss": 0.7678,
      "step": 5273
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.364148781088041,
      "learning_rate": 2.5221754493123798e-06,
      "loss": 0.7495,
      "step": 5274
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3715577721170469,
      "learning_rate": 2.520375018306584e-06,
      "loss": 0.8093,
      "step": 5275
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5897332015035592,
      "learning_rate": 2.5185750135770694e-06,
      "loss": 0.7901,
      "step": 5276
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.0076429106760623,
      "learning_rate": 2.516775435433276e-06,
      "loss": 0.8044,
      "step": 5277
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5341967794267986,
      "learning_rate": 2.514976284184575e-06,
      "loss": 0.7784,
      "step": 5278
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.795202454626726,
      "learning_rate": 2.5131775601402588e-06,
      "loss": 0.7831,
      "step": 5279
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4224901013894755,
      "learning_rate": 2.511379263609547e-06,
      "loss": 0.7573,
      "step": 5280
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.9149675732537481,
      "learning_rate": 2.5095813949015934e-06,
      "loss": 0.8803,
      "step": 5281
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6328909633847717,
      "learning_rate": 2.507783954325467e-06,
      "loss": 0.8537,
      "step": 5282
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8813080764510812,
      "learning_rate": 2.505986942190173e-06,
      "loss": 0.6448,
      "step": 5283
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7644478393319818,
      "learning_rate": 2.504190358804637e-06,
      "loss": 0.5868,
      "step": 5284
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6610434510068752,
      "learning_rate": 2.5023942044777114e-06,
      "loss": 0.7788,
      "step": 5285
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4553388733003485,
      "learning_rate": 2.5005984795181783e-06,
      "loss": 0.7094,
      "step": 5286
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.584401336188608,
      "learning_rate": 2.498803184234741e-06,
      "loss": 0.7698,
      "step": 5287
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.818480381612151,
      "learning_rate": 2.497008318936031e-06,
      "loss": 0.7073,
      "step": 5288
    },
    {
      "epoch": 0.68,
      "grad_norm": 10.392802116768246,
      "learning_rate": 2.49521388393061e-06,
      "loss": 0.7729,
      "step": 5289
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7636107050547223,
      "learning_rate": 2.4934198795269603e-06,
      "loss": 0.8472,
      "step": 5290
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5460770874113636,
      "learning_rate": 2.4916263060334903e-06,
      "loss": 0.7848,
      "step": 5291
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8569838803656846,
      "learning_rate": 2.48983316375854e-06,
      "loss": 0.7584,
      "step": 5292
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.55232162887157,
      "learning_rate": 2.488040453010369e-06,
      "loss": 0.7866,
      "step": 5293
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4116474551781422,
      "learning_rate": 2.486248174097165e-06,
      "loss": 0.6808,
      "step": 5294
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4550164288480565,
      "learning_rate": 2.4844563273270404e-06,
      "loss": 0.8815,
      "step": 5295
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7582727279110586,
      "learning_rate": 2.482664913008037e-06,
      "loss": 0.653,
      "step": 5296
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7117361785136984,
      "learning_rate": 2.4808739314481196e-06,
      "loss": 0.7315,
      "step": 5297
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.265267929650474,
      "learning_rate": 2.4790833829551764e-06,
      "loss": 0.7497,
      "step": 5298
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4942657484572488,
      "learning_rate": 2.4772932678370255e-06,
      "loss": 0.7461,
      "step": 5299
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3323454630182316,
      "learning_rate": 2.475503586401407e-06,
      "loss": 0.7045,
      "step": 5300
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7964078837003766,
      "learning_rate": 2.473714338955987e-06,
      "loss": 0.642,
      "step": 5301
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8247366485378114,
      "learning_rate": 2.4719255258083614e-06,
      "loss": 0.7652,
      "step": 5302
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8194326472050062,
      "learning_rate": 2.4701371472660433e-06,
      "loss": 0.7677,
      "step": 5303
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.520606970982034,
      "learning_rate": 2.4683492036364805e-06,
      "loss": 0.734,
      "step": 5304
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4652763541412632,
      "learning_rate": 2.466561695227039e-06,
      "loss": 0.8521,
      "step": 5305
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6107070277114677,
      "learning_rate": 2.4647746223450123e-06,
      "loss": 0.7573,
      "step": 5306
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8474626430386446,
      "learning_rate": 2.462987985297619e-06,
      "loss": 0.6547,
      "step": 5307
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5309791464398768,
      "learning_rate": 2.461201784392002e-06,
      "loss": 0.7773,
      "step": 5308
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.232515344905738,
      "learning_rate": 2.459416019935229e-06,
      "loss": 0.7621,
      "step": 5309
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.348232818109603,
      "learning_rate": 2.4576306922342956e-06,
      "loss": 0.7391,
      "step": 5310
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.7530936204634333,
      "learning_rate": 2.4558458015961213e-06,
      "loss": 0.7849,
      "step": 5311
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3751331494117418,
      "learning_rate": 2.4540613483275484e-06,
      "loss": 0.8134,
      "step": 5312
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7758634262332216,
      "learning_rate": 2.4522773327353446e-06,
      "loss": 0.8327,
      "step": 5313
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3883949064405756,
      "learning_rate": 2.4504937551262024e-06,
      "loss": 0.9023,
      "step": 5314
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7648391618299907,
      "learning_rate": 2.448710615806741e-06,
      "loss": 0.6344,
      "step": 5315
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6148544738035342,
      "learning_rate": 2.4469279150834996e-06,
      "loss": 0.7165,
      "step": 5316
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3354565585775742,
      "learning_rate": 2.445145653262949e-06,
      "loss": 0.8281,
      "step": 5317
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5420513389627506,
      "learning_rate": 2.4433638306514794e-06,
      "loss": 0.7292,
      "step": 5318
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4163707081373924,
      "learning_rate": 2.4415824475554046e-06,
      "loss": 0.7428,
      "step": 5319
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3985593546886357,
      "learning_rate": 2.439801504280968e-06,
      "loss": 0.7458,
      "step": 5320
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6204706811862262,
      "learning_rate": 2.438021001134334e-06,
      "loss": 0.7779,
      "step": 5321
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5180626562022737,
      "learning_rate": 2.436240938421591e-06,
      "loss": 0.6661,
      "step": 5322
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8759323943843809,
      "learning_rate": 2.4344613164487513e-06,
      "loss": 0.5963,
      "step": 5323
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6000844566976935,
      "learning_rate": 2.432682135521752e-06,
      "loss": 0.7422,
      "step": 5324
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5092335775477723,
      "learning_rate": 2.430903395946459e-06,
      "loss": 0.8221,
      "step": 5325
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.482395345779823,
      "learning_rate": 2.429125098028655e-06,
      "loss": 0.7541,
      "step": 5326
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7303890682089278,
      "learning_rate": 2.427347242074051e-06,
      "loss": 0.8809,
      "step": 5327
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.473953576606139,
      "learning_rate": 2.4255698283882794e-06,
      "loss": 0.8163,
      "step": 5328
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4207907155085922,
      "learning_rate": 2.4237928572769016e-06,
      "loss": 0.7461,
      "step": 5329
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7452845325874864,
      "learning_rate": 2.4220163290453973e-06,
      "loss": 0.7271,
      "step": 5330
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.735446409479612,
      "learning_rate": 2.4202402439991708e-06,
      "loss": 0.7203,
      "step": 5331
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3431768914297795,
      "learning_rate": 2.4184646024435547e-06,
      "loss": 0.6932,
      "step": 5332
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8409105011881455,
      "learning_rate": 2.416689404683802e-06,
      "loss": 0.8299,
      "step": 5333
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.549831776770975,
      "learning_rate": 2.4149146510250885e-06,
      "loss": 0.8468,
      "step": 5334
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5832778696123817,
      "learning_rate": 2.4131403417725156e-06,
      "loss": 0.8509,
      "step": 5335
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4156005719876918,
      "learning_rate": 2.4113664772311076e-06,
      "loss": 0.8414,
      "step": 5336
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.1598631441264824,
      "learning_rate": 2.40959305770581e-06,
      "loss": 0.7377,
      "step": 5337
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5071512938032927,
      "learning_rate": 2.4078200835014983e-06,
      "loss": 0.8273,
      "step": 5338
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.511528364603591,
      "learning_rate": 2.4060475549229634e-06,
      "loss": 0.9422,
      "step": 5339
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5206918806767793,
      "learning_rate": 2.4042754722749274e-06,
      "loss": 0.8694,
      "step": 5340
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3079439787973623,
      "learning_rate": 2.40250383586203e-06,
      "loss": 0.7997,
      "step": 5341
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5849592387447493,
      "learning_rate": 2.400732645988836e-06,
      "loss": 0.8631,
      "step": 5342
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5399156187922702,
      "learning_rate": 2.398961902959833e-06,
      "loss": 0.9891,
      "step": 5343
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3334828212022312,
      "learning_rate": 2.3971916070794337e-06,
      "loss": 0.7524,
      "step": 5344
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.472040922457229,
      "learning_rate": 2.3954217586519692e-06,
      "loss": 0.8695,
      "step": 5345
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9779494233857708,
      "learning_rate": 2.3936523579817005e-06,
      "loss": 0.6902,
      "step": 5346
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.386395794118626,
      "learning_rate": 2.391883405372805e-06,
      "loss": 0.8307,
      "step": 5347
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.286894642785795,
      "learning_rate": 2.3901149011293906e-06,
      "loss": 0.7218,
      "step": 5348
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2656140320142673,
      "learning_rate": 2.388346845555481e-06,
      "loss": 0.7984,
      "step": 5349
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.533992425464135,
      "learning_rate": 2.386579238955025e-06,
      "loss": 0.7722,
      "step": 5350
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.8807008606371429,
      "learning_rate": 2.384812081631895e-06,
      "loss": 0.6128,
      "step": 5351
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3959253870266632,
      "learning_rate": 2.3830453738898852e-06,
      "loss": 0.7568,
      "step": 5352
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5491018037466937,
      "learning_rate": 2.3812791160327154e-06,
      "loss": 0.7623,
      "step": 5353
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5698284862764955,
      "learning_rate": 2.379513308364024e-06,
      "loss": 0.7612,
      "step": 5354
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.352878097258302,
      "learning_rate": 2.377747951187375e-06,
      "loss": 0.8262,
      "step": 5355
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7698303747075229,
      "learning_rate": 2.3759830448062497e-06,
      "loss": 0.6295,
      "step": 5356
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9490071569751741,
      "learning_rate": 2.3742185895240623e-06,
      "loss": 0.6488,
      "step": 5357
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3169722933998738,
      "learning_rate": 2.3724545856441394e-06,
      "loss": 0.6789,
      "step": 5358
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3445465449902032,
      "learning_rate": 2.370691033469735e-06,
      "loss": 0.867,
      "step": 5359
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6291221435015792,
      "learning_rate": 2.368927933304021e-06,
      "loss": 0.7676,
      "step": 5360
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4837175113635288,
      "learning_rate": 2.3671652854500995e-06,
      "loss": 0.7616,
      "step": 5361
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.927659739789363,
      "learning_rate": 2.3654030902109877e-06,
      "loss": 0.688,
      "step": 5362
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5405015469882533,
      "learning_rate": 2.3636413478896276e-06,
      "loss": 0.7888,
      "step": 5363
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7773707964490641,
      "learning_rate": 2.361880058788883e-06,
      "loss": 0.6425,
      "step": 5364
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.553354306693777,
      "learning_rate": 2.3601192232115376e-06,
      "loss": 0.8507,
      "step": 5365
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6333315999473965,
      "learning_rate": 2.3583588414603046e-06,
      "loss": 0.8512,
      "step": 5366
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.042591125588884,
      "learning_rate": 2.3565989138378094e-06,
      "loss": 0.7691,
      "step": 5367
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4774047890019708,
      "learning_rate": 2.3548394406466074e-06,
      "loss": 0.8082,
      "step": 5368
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8412895589649015,
      "learning_rate": 2.3530804221891707e-06,
      "loss": 0.7257,
      "step": 5369
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5388942727168808,
      "learning_rate": 2.3513218587678952e-06,
      "loss": 0.798,
      "step": 5370
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7866123111036131,
      "learning_rate": 2.349563750685099e-06,
      "loss": 0.6826,
      "step": 5371
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4946374696173734,
      "learning_rate": 2.3478060982430193e-06,
      "loss": 0.8694,
      "step": 5372
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4438673384009189,
      "learning_rate": 2.3460489017438176e-06,
      "loss": 0.7921,
      "step": 5373
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.497854587774588,
      "learning_rate": 2.3442921614895783e-06,
      "loss": 0.7552,
      "step": 5374
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.785852233561191,
      "learning_rate": 2.342535877782302e-06,
      "loss": 0.7986,
      "step": 5375
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.913864750913052,
      "learning_rate": 2.340780050923918e-06,
      "loss": 0.5812,
      "step": 5376
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.8754516555273262,
      "learning_rate": 2.339024681216272e-06,
      "loss": 0.7185,
      "step": 5377
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.41289599763715,
      "learning_rate": 2.3372697689611317e-06,
      "loss": 0.8535,
      "step": 5378
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5126907036001023,
      "learning_rate": 2.3355153144601873e-06,
      "loss": 0.7577,
      "step": 5379
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.844840650571452,
      "learning_rate": 2.3337613180150497e-06,
      "loss": 0.6922,
      "step": 5380
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4143892503158433,
      "learning_rate": 2.3320077799272493e-06,
      "loss": 0.7819,
      "step": 5381
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.403959509930968,
      "learning_rate": 2.3302547004982434e-06,
      "loss": 0.8501,
      "step": 5382
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4558293923240349,
      "learning_rate": 2.328502080029405e-06,
      "loss": 0.8189,
      "step": 5383
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6045055390990606,
      "learning_rate": 2.326749918822028e-06,
      "loss": 0.7254,
      "step": 5384
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5198742245274555,
      "learning_rate": 2.3249982171773322e-06,
      "loss": 0.7775,
      "step": 5385
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5953627360443456,
      "learning_rate": 2.323246975396454e-06,
      "loss": 0.9036,
      "step": 5386
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.590143168029234,
      "learning_rate": 2.321496193780453e-06,
      "loss": 0.7297,
      "step": 5387
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8193030122507593,
      "learning_rate": 2.3197458726303064e-06,
      "loss": 0.6605,
      "step": 5388
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3593260762240944,
      "learning_rate": 2.3179960122469173e-06,
      "loss": 0.7831,
      "step": 5389
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3805487819584272,
      "learning_rate": 2.3162466129311074e-06,
      "loss": 0.8001,
      "step": 5390
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6008391796305568,
      "learning_rate": 2.314497674983617e-06,
      "loss": 0.7995,
      "step": 5391
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.533444360597115,
      "learning_rate": 2.3127491987051086e-06,
      "loss": 0.8582,
      "step": 5392
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.809905051324898,
      "learning_rate": 2.311001184396165e-06,
      "loss": 0.6588,
      "step": 5393
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.837038514551234,
      "learning_rate": 2.3092536323572933e-06,
      "loss": 0.9017,
      "step": 5394
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.471001884148233,
      "learning_rate": 2.307506542888916e-06,
      "loss": 0.856,
      "step": 5395
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.693782475202338,
      "learning_rate": 2.305759916291376e-06,
      "loss": 0.7557,
      "step": 5396
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8750888628906003,
      "learning_rate": 2.3040137528649424e-06,
      "loss": 0.6039,
      "step": 5397
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.495887014135526,
      "learning_rate": 2.3022680529097995e-06,
      "loss": 0.8814,
      "step": 5398
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6959341147119342,
      "learning_rate": 2.300522816726053e-06,
      "loss": 0.7874,
      "step": 5399
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5099851186894235,
      "learning_rate": 2.298778044613729e-06,
      "loss": 0.8151,
      "step": 5400
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2434479463007697,
      "learning_rate": 2.2970337368727753e-06,
      "loss": 0.7108,
      "step": 5401
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3020417141404659,
      "learning_rate": 2.2952898938030554e-06,
      "loss": 0.8296,
      "step": 5402
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4882023438784555,
      "learning_rate": 2.293546515704358e-06,
      "loss": 0.8658,
      "step": 5403
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9273005289576053,
      "learning_rate": 2.2918036028763928e-06,
      "loss": 0.6653,
      "step": 5404
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2546282352489797,
      "learning_rate": 2.290061155618784e-06,
      "loss": 0.7277,
      "step": 5405
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.1970918443876832,
      "learning_rate": 2.2883191742310795e-06,
      "loss": 0.7335,
      "step": 5406
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3653100339658486,
      "learning_rate": 2.2865776590127447e-06,
      "loss": 0.83,
      "step": 5407
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8198478325910968,
      "learning_rate": 2.2848366102631674e-06,
      "loss": 0.6775,
      "step": 5408
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.452077732830712,
      "learning_rate": 2.283096028281652e-06,
      "loss": 0.7472,
      "step": 5409
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8518387450019758,
      "learning_rate": 2.281355913367428e-06,
      "loss": 0.6484,
      "step": 5410
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5055111031451187,
      "learning_rate": 2.2796162658196397e-06,
      "loss": 0.7644,
      "step": 5411
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.2138719478374584,
      "learning_rate": 2.2778770859373504e-06,
      "loss": 0.8409,
      "step": 5412
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6459592434552355,
      "learning_rate": 2.27613837401955e-06,
      "loss": 0.9522,
      "step": 5413
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4754728618962514,
      "learning_rate": 2.2744001303651407e-06,
      "loss": 0.7794,
      "step": 5414
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.9031444749150255,
      "learning_rate": 2.2726623552729473e-06,
      "loss": 0.7664,
      "step": 5415
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.475599559046227,
      "learning_rate": 2.2709250490417124e-06,
      "loss": 0.8856,
      "step": 5416
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2688588557145397,
      "learning_rate": 2.2691882119700983e-06,
      "loss": 0.6634,
      "step": 5417
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.509271484831122,
      "learning_rate": 2.2674518443566908e-06,
      "loss": 0.8861,
      "step": 5418
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.3551040774080416,
      "learning_rate": 2.265715946499989e-06,
      "loss": 0.8222,
      "step": 5419
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6033346236511088,
      "learning_rate": 2.2639805186984148e-06,
      "loss": 0.6903,
      "step": 5420
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9196174938423145,
      "learning_rate": 2.2622455612503064e-06,
      "loss": 0.6151,
      "step": 5421
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.7963848978194833,
      "learning_rate": 2.2605110744539266e-06,
      "loss": 0.6987,
      "step": 5422
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5619317498403245,
      "learning_rate": 2.258777058607452e-06,
      "loss": 0.8127,
      "step": 5423
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3275039682182637,
      "learning_rate": 2.257043514008978e-06,
      "loss": 0.7034,
      "step": 5424
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.8492881414176465,
      "learning_rate": 2.255310440956525e-06,
      "loss": 0.7532,
      "step": 5425
    },
    {
      "epoch": 0.69,
      "grad_norm": 4.192525812313588,
      "learning_rate": 2.2535778397480263e-06,
      "loss": 0.7879,
      "step": 5426
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.7632337971029866,
      "learning_rate": 2.251845710681336e-06,
      "loss": 0.8542,
      "step": 5427
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.319279804682299,
      "learning_rate": 2.250114054054228e-06,
      "loss": 0.7759,
      "step": 5428
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.4172935203647303,
      "learning_rate": 2.2483828701643933e-06,
      "loss": 0.857,
      "step": 5429
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5040368677801148,
      "learning_rate": 2.2466521593094404e-06,
      "loss": 0.8744,
      "step": 5430
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7398193905034147,
      "learning_rate": 2.2449219217869013e-06,
      "loss": 0.6278,
      "step": 5431
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2723125680581715,
      "learning_rate": 2.243192157894225e-06,
      "loss": 0.8387,
      "step": 5432
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3802858566207719,
      "learning_rate": 2.241462867928777e-06,
      "loss": 0.9197,
      "step": 5433
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3535465145528662,
      "learning_rate": 2.239734052187841e-06,
      "loss": 0.7175,
      "step": 5434
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.9772241008761162,
      "learning_rate": 2.2380057109686213e-06,
      "loss": 0.8063,
      "step": 5435
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7631665968437116,
      "learning_rate": 2.2362778445682403e-06,
      "loss": 0.6485,
      "step": 5436
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7215338868695167,
      "learning_rate": 2.234550453283737e-06,
      "loss": 0.8379,
      "step": 5437
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5152750382659859,
      "learning_rate": 2.2328235374120694e-06,
      "loss": 0.8144,
      "step": 5438
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3488276949908984,
      "learning_rate": 2.231097097250115e-06,
      "loss": 0.9031,
      "step": 5439
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.729162564950022,
      "learning_rate": 2.229371133094671e-06,
      "loss": 0.8223,
      "step": 5440
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7693513105493035,
      "learning_rate": 2.22764564524245e-06,
      "loss": 0.7461,
      "step": 5441
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.7659540038195813,
      "learning_rate": 2.225920633990082e-06,
      "loss": 0.5169,
      "step": 5442
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2843071511598838,
      "learning_rate": 2.2241960996341166e-06,
      "loss": 0.7019,
      "step": 5443
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.2571323739796614,
      "learning_rate": 2.2224720424710222e-06,
      "loss": 0.8999,
      "step": 5444
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.7877866545568795,
      "learning_rate": 2.2207484627971817e-06,
      "loss": 0.83,
      "step": 5445
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.020782621601942,
      "learning_rate": 2.2190253609089014e-06,
      "loss": 0.6743,
      "step": 5446
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.388106703793628,
      "learning_rate": 2.217302737102402e-06,
      "loss": 0.801,
      "step": 5447
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.538414168480804,
      "learning_rate": 2.2155805916738215e-06,
      "loss": 0.8709,
      "step": 5448
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7921812683487448,
      "learning_rate": 2.2138589249192156e-06,
      "loss": 0.7587,
      "step": 5449
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3444738513256371,
      "learning_rate": 2.212137737134562e-06,
      "loss": 0.7201,
      "step": 5450
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4406519832030222,
      "learning_rate": 2.2104170286157506e-06,
      "loss": 0.865,
      "step": 5451
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4077077025171911,
      "learning_rate": 2.20869679965859e-06,
      "loss": 0.8069,
      "step": 5452
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2849282939780093,
      "learning_rate": 2.206977050558811e-06,
      "loss": 0.8256,
      "step": 5453
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.808944338463198,
      "learning_rate": 2.205257781612057e-06,
      "loss": 0.6293,
      "step": 5454
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4062226401208144,
      "learning_rate": 2.2035389931138896e-06,
      "loss": 0.6915,
      "step": 5455
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.854411766438393,
      "learning_rate": 2.201820685359788e-06,
      "loss": 0.6823,
      "step": 5456
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6693928968735259,
      "learning_rate": 2.20010285864515e-06,
      "loss": 0.8145,
      "step": 5457
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.0788610518003714,
      "learning_rate": 2.198385513265289e-06,
      "loss": 0.8699,
      "step": 5458
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4337491290328797,
      "learning_rate": 2.1966686495154375e-06,
      "loss": 0.6873,
      "step": 5459
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.591864508527549,
      "learning_rate": 2.194952267690744e-06,
      "loss": 0.8041,
      "step": 5460
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7013532878907847,
      "learning_rate": 2.193236368086275e-06,
      "loss": 0.7406,
      "step": 5461
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.559821873409157,
      "learning_rate": 2.191520950997014e-06,
      "loss": 0.814,
      "step": 5462
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6019111162278394,
      "learning_rate": 2.1898060167178604e-06,
      "loss": 0.7913,
      "step": 5463
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6108037977989575,
      "learning_rate": 2.18809156554363e-06,
      "loss": 0.781,
      "step": 5464
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4250837344036207,
      "learning_rate": 2.1863775977690588e-06,
      "loss": 0.7043,
      "step": 5465
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8160902268300254,
      "learning_rate": 2.1846641136887947e-06,
      "loss": 0.6598,
      "step": 5466
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5580162396032677,
      "learning_rate": 2.182951113597408e-06,
      "loss": 0.8356,
      "step": 5467
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4567024794383163,
      "learning_rate": 2.1812385977893844e-06,
      "loss": 0.817,
      "step": 5468
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5250299344320817,
      "learning_rate": 2.1795265665591236e-06,
      "loss": 0.7153,
      "step": 5469
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6199828460008066,
      "learning_rate": 2.177815020200944e-06,
      "loss": 0.8194,
      "step": 5470
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8034291869165817,
      "learning_rate": 2.17610395900908e-06,
      "loss": 0.7246,
      "step": 5471
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6300323321146426,
      "learning_rate": 2.174393383277683e-06,
      "loss": 0.67,
      "step": 5472
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4541453926411632,
      "learning_rate": 2.1726832933008185e-06,
      "loss": 0.8901,
      "step": 5473
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5053508689832371,
      "learning_rate": 2.170973689372475e-06,
      "loss": 0.8382,
      "step": 5474
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0648985236685515,
      "learning_rate": 2.1692645717865515e-06,
      "loss": 0.7068,
      "step": 5475
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.461698673135798,
      "learning_rate": 2.1675559408368623e-06,
      "loss": 0.7963,
      "step": 5476
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.393747300127744,
      "learning_rate": 2.165847796817145e-06,
      "loss": 0.8632,
      "step": 5477
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3847777394186065,
      "learning_rate": 2.164140140021049e-06,
      "loss": 0.6569,
      "step": 5478
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5870281710762544,
      "learning_rate": 2.1624329707421374e-06,
      "loss": 0.7932,
      "step": 5479
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5184421779025714,
      "learning_rate": 2.1607262892738956e-06,
      "loss": 0.7579,
      "step": 5480
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5862945160399808,
      "learning_rate": 2.1590200959097173e-06,
      "loss": 0.7594,
      "step": 5481
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.41188116618818,
      "learning_rate": 2.157314390942923e-06,
      "loss": 0.7672,
      "step": 5482
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5770445460019216,
      "learning_rate": 2.1556091746667392e-06,
      "loss": 0.6955,
      "step": 5483
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3805413862073277,
      "learning_rate": 2.1539044473743136e-06,
      "loss": 0.8286,
      "step": 5484
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6179190745941459,
      "learning_rate": 2.152200209358708e-06,
      "loss": 0.908,
      "step": 5485
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9529058285988085,
      "learning_rate": 2.1504964609128994e-06,
      "loss": 0.6247,
      "step": 5486
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5471318811084167,
      "learning_rate": 2.1487932023297853e-06,
      "loss": 0.7743,
      "step": 5487
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.548872448194459,
      "learning_rate": 2.147090433902172e-06,
      "loss": 0.7231,
      "step": 5488
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8160006346062886,
      "learning_rate": 2.1453881559227883e-06,
      "loss": 0.6282,
      "step": 5489
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4678547877860921,
      "learning_rate": 2.143686368684274e-06,
      "loss": 0.8752,
      "step": 5490
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5076989951248883,
      "learning_rate": 2.141985072479187e-06,
      "loss": 0.681,
      "step": 5491
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5453468410782116,
      "learning_rate": 2.1402842675999978e-06,
      "loss": 0.7576,
      "step": 5492
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.023741230098485,
      "learning_rate": 2.1385839543390967e-06,
      "loss": 0.6775,
      "step": 5493
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5866295954102896,
      "learning_rate": 2.136884132988784e-06,
      "loss": 0.8513,
      "step": 5494
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.90904479335089,
      "learning_rate": 2.1351848038412832e-06,
      "loss": 0.7574,
      "step": 5495
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5244645975465345,
      "learning_rate": 2.1334859671887236e-06,
      "loss": 0.7093,
      "step": 5496
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.8114159248052857,
      "learning_rate": 2.1317876233231606e-06,
      "loss": 0.7597,
      "step": 5497
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.51100321254915,
      "learning_rate": 2.1300897725365555e-06,
      "loss": 0.8229,
      "step": 5498
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.432924033666772,
      "learning_rate": 2.12839241512079e-06,
      "loss": 0.7807,
      "step": 5499
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5609419448186643,
      "learning_rate": 2.1266955513676584e-06,
      "loss": 0.8395,
      "step": 5500
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8210033070046738,
      "learning_rate": 2.124999181568872e-06,
      "loss": 0.6368,
      "step": 5501
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.42206645626637,
      "learning_rate": 2.1233033060160542e-06,
      "loss": 0.887,
      "step": 5502
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.494823297492447,
      "learning_rate": 2.121607925000749e-06,
      "loss": 0.7779,
      "step": 5503
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.394800071623032,
      "learning_rate": 2.1199130388144098e-06,
      "loss": 0.7088,
      "step": 5504
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4407283342944621,
      "learning_rate": 2.1182186477484094e-06,
      "loss": 0.7292,
      "step": 5505
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.455276747419629,
      "learning_rate": 2.1165247520940317e-06,
      "loss": 0.7606,
      "step": 5506
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.49681446669118,
      "learning_rate": 2.114831352142478e-06,
      "loss": 0.7162,
      "step": 5507
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6000040678208254,
      "learning_rate": 2.1131384481848614e-06,
      "loss": 0.742,
      "step": 5508
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.9425875741389793,
      "learning_rate": 2.111446040512212e-06,
      "loss": 0.7638,
      "step": 5509
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.2692034113972746,
      "learning_rate": 2.1097541294154773e-06,
      "loss": 0.7764,
      "step": 5510
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.279298502849443,
      "learning_rate": 2.108062715185514e-06,
      "loss": 0.7349,
      "step": 5511
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6386574020172144,
      "learning_rate": 2.1063717981130952e-06,
      "loss": 0.8207,
      "step": 5512
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3260873400428512,
      "learning_rate": 2.10468137848891e-06,
      "loss": 0.7559,
      "step": 5513
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.421711163194455,
      "learning_rate": 2.102991456603562e-06,
      "loss": 0.8942,
      "step": 5514
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5122036585960146,
      "learning_rate": 2.1013020327475683e-06,
      "loss": 0.867,
      "step": 5515
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5584344493488753,
      "learning_rate": 2.099613107211359e-06,
      "loss": 0.773,
      "step": 5516
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4005825587591414,
      "learning_rate": 2.0979246802852794e-06,
      "loss": 0.7577,
      "step": 5517
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7768203130560658,
      "learning_rate": 2.096236752259592e-06,
      "loss": 0.7759,
      "step": 5518
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5228790361887679,
      "learning_rate": 2.0945493234244714e-06,
      "loss": 0.7597,
      "step": 5519
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.5606527886942025,
      "learning_rate": 2.0928623940700044e-06,
      "loss": 0.8395,
      "step": 5520
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.342288888427658,
      "learning_rate": 2.091175964486194e-06,
      "loss": 0.7814,
      "step": 5521
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4723094059792976,
      "learning_rate": 2.0894900349629576e-06,
      "loss": 0.8134,
      "step": 5522
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5417762312383274,
      "learning_rate": 2.087804605790124e-06,
      "loss": 0.7863,
      "step": 5523
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7717543340889927,
      "learning_rate": 2.08611967725744e-06,
      "loss": 0.6924,
      "step": 5524
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5153266521983226,
      "learning_rate": 2.0844352496545652e-06,
      "loss": 0.8068,
      "step": 5525
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.612749692029306,
      "learning_rate": 2.0827513232710716e-06,
      "loss": 0.8187,
      "step": 5526
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.0947443342552865,
      "learning_rate": 2.081067898396445e-06,
      "loss": 0.8206,
      "step": 5527
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3201203089723452,
      "learning_rate": 2.0793849753200855e-06,
      "loss": 0.7397,
      "step": 5528
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.1244891102111096,
      "learning_rate": 2.077702554331308e-06,
      "loss": 0.6853,
      "step": 5529
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4570000000221521,
      "learning_rate": 2.0760206357193373e-06,
      "loss": 0.738,
      "step": 5530
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7700267838649821,
      "learning_rate": 2.0743392197733193e-06,
      "loss": 0.7877,
      "step": 5531
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5080687994317463,
      "learning_rate": 2.0726583067823046e-06,
      "loss": 0.8394,
      "step": 5532
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3890345051705122,
      "learning_rate": 2.0709778970352657e-06,
      "loss": 0.767,
      "step": 5533
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4354547658722125,
      "learning_rate": 2.069297990821082e-06,
      "loss": 0.7671,
      "step": 5534
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4423909488679587,
      "learning_rate": 2.0676185884285495e-06,
      "loss": 0.6852,
      "step": 5535
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.350144251678829,
      "learning_rate": 2.0659396901463764e-06,
      "loss": 0.8645,
      "step": 5536
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5763459868291694,
      "learning_rate": 2.064261296263185e-06,
      "loss": 0.8762,
      "step": 5537
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.268813548191989,
      "learning_rate": 2.0625834070675094e-06,
      "loss": 0.7613,
      "step": 5538
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6110399865288507,
      "learning_rate": 2.0609060228478017e-06,
      "loss": 0.7623,
      "step": 5539
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.270124777503479,
      "learning_rate": 2.0592291438924213e-06,
      "loss": 0.7662,
      "step": 5540
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.56938235252026,
      "learning_rate": 2.0575527704896414e-06,
      "loss": 0.7702,
      "step": 5541
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3611758956306828,
      "learning_rate": 2.055876902927654e-06,
      "loss": 0.7869,
      "step": 5542
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7026091118339743,
      "learning_rate": 2.0542015414945577e-06,
      "loss": 0.7187,
      "step": 5543
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.632106598856262,
      "learning_rate": 2.0525266864783676e-06,
      "loss": 0.7657,
      "step": 5544
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.749591211039564,
      "learning_rate": 2.050852338167008e-06,
      "loss": 0.6089,
      "step": 5545
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.846846859102813,
      "learning_rate": 2.049178496848323e-06,
      "loss": 0.7104,
      "step": 5546
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.323113271392953,
      "learning_rate": 2.0475051628100635e-06,
      "loss": 0.8094,
      "step": 5547
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7618855874937931,
      "learning_rate": 2.045832336339894e-06,
      "loss": 0.6314,
      "step": 5548
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5119167169416892,
      "learning_rate": 2.044160017725394e-06,
      "loss": 0.7597,
      "step": 5549
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5107220234639154,
      "learning_rate": 2.042488207254054e-06,
      "loss": 0.7767,
      "step": 5550
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9229096000265611,
      "learning_rate": 2.040816905213276e-06,
      "loss": 0.695,
      "step": 5551
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8450996988419626,
      "learning_rate": 2.0391461118903788e-06,
      "loss": 0.6634,
      "step": 5552
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.73201910868452,
      "learning_rate": 2.0374758275725893e-06,
      "loss": 0.7581,
      "step": 5553
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5620672540320728,
      "learning_rate": 2.0358060525470507e-06,
      "loss": 0.9215,
      "step": 5554
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4363286601177416,
      "learning_rate": 2.0341367871008154e-06,
      "loss": 0.8047,
      "step": 5555
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.51738717511569,
      "learning_rate": 2.0324680315208505e-06,
      "loss": 0.8351,
      "step": 5556
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4284486584207865,
      "learning_rate": 2.0307997860940333e-06,
      "loss": 0.7687,
      "step": 5557
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.8623906319832813,
      "learning_rate": 2.0291320511071544e-06,
      "loss": 0.688,
      "step": 5558
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4968025080379659,
      "learning_rate": 2.0274648268469154e-06,
      "loss": 0.7647,
      "step": 5559
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.7844135939899393,
      "learning_rate": 2.025798113599933e-06,
      "loss": 0.6719,
      "step": 5560
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3764384784087722,
      "learning_rate": 2.0241319116527376e-06,
      "loss": 0.7658,
      "step": 5561
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6708679311409371,
      "learning_rate": 2.022466221291765e-06,
      "loss": 0.8666,
      "step": 5562
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6167074575774667,
      "learning_rate": 2.0208010428033675e-06,
      "loss": 0.8444,
      "step": 5563
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4833175837082802,
      "learning_rate": 2.0191363764738087e-06,
      "loss": 0.7589,
      "step": 5564
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4244868794300336,
      "learning_rate": 2.017472222589264e-06,
      "loss": 0.8142,
      "step": 5565
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.367089289260048,
      "learning_rate": 2.0158085814358187e-06,
      "loss": 0.769,
      "step": 5566
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.616398374092823,
      "learning_rate": 2.014145453299476e-06,
      "loss": 0.7529,
      "step": 5567
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5410315626253903,
      "learning_rate": 2.012482838466145e-06,
      "loss": 0.846,
      "step": 5568
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4337334733563287,
      "learning_rate": 2.010820737221646e-06,
      "loss": 0.7562,
      "step": 5569
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7157477738167823,
      "learning_rate": 2.0091591498517184e-06,
      "loss": 0.7991,
      "step": 5570
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4734352867676772,
      "learning_rate": 2.007498076642005e-06,
      "loss": 0.7998,
      "step": 5571
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.373925033329447,
      "learning_rate": 2.0058375178780644e-06,
      "loss": 0.7954,
      "step": 5572
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4725061384943696,
      "learning_rate": 2.004177473845366e-06,
      "loss": 0.6678,
      "step": 5573
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.591255527467475,
      "learning_rate": 2.0025179448292886e-06,
      "loss": 0.7899,
      "step": 5574
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6189731376378322,
      "learning_rate": 2.000858931115128e-06,
      "loss": 0.731,
      "step": 5575
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4607157152414232,
      "learning_rate": 1.999200432988086e-06,
      "loss": 0.8738,
      "step": 5576
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.8676984035777902,
      "learning_rate": 1.997542450733278e-06,
      "loss": 0.7886,
      "step": 5577
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3287572711337952,
      "learning_rate": 1.9958849846357287e-06,
      "loss": 0.7762,
      "step": 5578
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4891037924483217,
      "learning_rate": 1.994228034980378e-06,
      "loss": 0.821,
      "step": 5579
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6950088288420786,
      "learning_rate": 1.992571602052075e-06,
      "loss": 0.8436,
      "step": 5580
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.7596546537330657,
      "learning_rate": 1.9909156861355767e-06,
      "loss": 0.8083,
      "step": 5581
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.320422681440483,
      "learning_rate": 1.9892602875155582e-06,
      "loss": 0.8534,
      "step": 5582
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4110386676853346,
      "learning_rate": 1.9876054064765993e-06,
      "loss": 0.9148,
      "step": 5583
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.3349366742296604,
      "learning_rate": 1.9859510433031943e-06,
      "loss": 0.7521,
      "step": 5584
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.3466155880171575,
      "learning_rate": 1.984297198279746e-06,
      "loss": 0.7975,
      "step": 5585
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.8660877703549155,
      "learning_rate": 1.982643871690571e-06,
      "loss": 0.8076,
      "step": 5586
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3778076941404345,
      "learning_rate": 1.980991063819893e-06,
      "loss": 0.7354,
      "step": 5587
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4241621267870694,
      "learning_rate": 1.9793387749518517e-06,
      "loss": 0.7439,
      "step": 5588
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6886436053790517,
      "learning_rate": 1.9776870053704917e-06,
      "loss": 0.8139,
      "step": 5589
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4044523206976796,
      "learning_rate": 1.976035755359775e-06,
      "loss": 0.8287,
      "step": 5590
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.507475609743655,
      "learning_rate": 1.974385025203569e-06,
      "loss": 0.7343,
      "step": 5591
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.366421617282327,
      "learning_rate": 1.9727348151856535e-06,
      "loss": 0.7677,
      "step": 5592
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6481469160494233,
      "learning_rate": 1.9710851255897173e-06,
      "loss": 0.8282,
      "step": 5593
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6775688700277932,
      "learning_rate": 1.969435956699363e-06,
      "loss": 0.6449,
      "step": 5594
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.85515155871638,
      "learning_rate": 1.967787308798099e-06,
      "loss": 0.8584,
      "step": 5595
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8553945170578184,
      "learning_rate": 1.966139182169351e-06,
      "loss": 0.6044,
      "step": 5596
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7994632821165348,
      "learning_rate": 1.9644915770964472e-06,
      "loss": 0.6607,
      "step": 5597
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4581383643063177,
      "learning_rate": 1.9628444938626336e-06,
      "loss": 0.7431,
      "step": 5598
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3229387081521198,
      "learning_rate": 1.9611979327510617e-06,
      "loss": 0.8198,
      "step": 5599
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5002659316794895,
      "learning_rate": 1.9595518940447933e-06,
      "loss": 0.8729,
      "step": 5600
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4398579678927115,
      "learning_rate": 1.9579063780268026e-06,
      "loss": 0.7985,
      "step": 5601
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7039093417783904,
      "learning_rate": 1.9562613849799704e-06,
      "loss": 0.7558,
      "step": 5602
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4926978334128893,
      "learning_rate": 1.9546169151870943e-06,
      "loss": 0.819,
      "step": 5603
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.019612207176257,
      "learning_rate": 1.9529729689308756e-06,
      "loss": 0.7757,
      "step": 5604
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8307096514508107,
      "learning_rate": 1.9513295464939274e-06,
      "loss": 0.6648,
      "step": 5605
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.274700122692206,
      "learning_rate": 1.9496866481587717e-06,
      "loss": 0.8025,
      "step": 5606
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6080796269668511,
      "learning_rate": 1.9480442742078455e-06,
      "loss": 0.8488,
      "step": 5607
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4679698204636356,
      "learning_rate": 1.9464024249234895e-06,
      "loss": 0.8333,
      "step": 5608
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7595997803223908,
      "learning_rate": 1.9447611005879573e-06,
      "loss": 0.7474,
      "step": 5609
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.626177198762552,
      "learning_rate": 1.9431203014834093e-06,
      "loss": 0.8803,
      "step": 5610
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.830764704806689,
      "learning_rate": 1.9414800278919223e-06,
      "loss": 0.7408,
      "step": 5611
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5877833555765275,
      "learning_rate": 1.9398402800954746e-06,
      "loss": 0.7203,
      "step": 5612
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5761919528799992,
      "learning_rate": 1.9382010583759604e-06,
      "loss": 0.8841,
      "step": 5613
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4846646583600804,
      "learning_rate": 1.936562363015179e-06,
      "loss": 0.7803,
      "step": 5614
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5787134350947842,
      "learning_rate": 1.9349241942948405e-06,
      "loss": 0.7811,
      "step": 5615
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4798624324325185,
      "learning_rate": 1.9332865524965677e-06,
      "loss": 0.8779,
      "step": 5616
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.311908961989963,
      "learning_rate": 1.9316494379018876e-06,
      "loss": 0.6823,
      "step": 5617
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.778539633670768,
      "learning_rate": 1.9300128507922417e-06,
      "loss": 0.7799,
      "step": 5618
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7617642033705652,
      "learning_rate": 1.9283767914489777e-06,
      "loss": 0.8553,
      "step": 5619
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2965336437489352,
      "learning_rate": 1.926741260153352e-06,
      "loss": 0.835,
      "step": 5620
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3570254578366545,
      "learning_rate": 1.925106257186532e-06,
      "loss": 0.8181,
      "step": 5621
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7292931789370576,
      "learning_rate": 1.923471782829594e-06,
      "loss": 0.7929,
      "step": 5622
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3535585402498862,
      "learning_rate": 1.921837837363521e-06,
      "loss": 0.7849,
      "step": 5623
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9014097621399095,
      "learning_rate": 1.92020442106921e-06,
      "loss": 0.6687,
      "step": 5624
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7274138717518168,
      "learning_rate": 1.918571534227462e-06,
      "loss": 0.6235,
      "step": 5625
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5029066432407552,
      "learning_rate": 1.9169391771189915e-06,
      "loss": 0.7472,
      "step": 5626
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.2253837499345646,
      "learning_rate": 1.915307350024419e-06,
      "loss": 0.8285,
      "step": 5627
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5104577354229107,
      "learning_rate": 1.913676053224273e-06,
      "loss": 0.817,
      "step": 5628
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3506019868642265,
      "learning_rate": 1.9120452869989943e-06,
      "loss": 0.7106,
      "step": 5629
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7067331274856328,
      "learning_rate": 1.9104150516289283e-06,
      "loss": 0.7157,
      "step": 5630
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4153339857307543,
      "learning_rate": 1.9087853473943313e-06,
      "loss": 0.7944,
      "step": 5631
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7754080176316465,
      "learning_rate": 1.9071561745753715e-06,
      "loss": 0.8626,
      "step": 5632
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4855875167601154,
      "learning_rate": 1.90552753345212e-06,
      "loss": 0.8708,
      "step": 5633
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2677165345147632,
      "learning_rate": 1.9038994243045582e-06,
      "loss": 0.7535,
      "step": 5634
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8373510755779573,
      "learning_rate": 1.90227184741258e-06,
      "loss": 0.6489,
      "step": 5635
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5316152177811457,
      "learning_rate": 1.9006448030559832e-06,
      "loss": 0.7641,
      "step": 5636
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.827877961536677,
      "learning_rate": 1.899018291514476e-06,
      "loss": 0.7375,
      "step": 5637
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.940368492187012,
      "learning_rate": 1.897392313067672e-06,
      "loss": 0.8592,
      "step": 5638
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.456321328463445,
      "learning_rate": 1.8957668679950997e-06,
      "loss": 0.7785,
      "step": 5639
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.1484597636677485,
      "learning_rate": 1.8941419565761903e-06,
      "loss": 0.776,
      "step": 5640
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4597821013541967,
      "learning_rate": 1.892517579090285e-06,
      "loss": 0.7922,
      "step": 5641
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7119583069816142,
      "learning_rate": 1.8908937358166323e-06,
      "loss": 0.8392,
      "step": 5642
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4570145154464962,
      "learning_rate": 1.8892704270343887e-06,
      "loss": 0.7616,
      "step": 5643
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.655493838622029,
      "learning_rate": 1.8876476530226235e-06,
      "loss": 0.7648,
      "step": 5644
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6019390118093018,
      "learning_rate": 1.8860254140603063e-06,
      "loss": 0.7342,
      "step": 5645
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9737153899168268,
      "learning_rate": 1.8844037104263225e-06,
      "loss": 0.6253,
      "step": 5646
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7747753624534982,
      "learning_rate": 1.8827825423994595e-06,
      "loss": 0.588,
      "step": 5647
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8005492368335759,
      "learning_rate": 1.8811619102584155e-06,
      "loss": 0.6725,
      "step": 5648
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.743887296876414,
      "learning_rate": 1.8795418142817962e-06,
      "loss": 0.7532,
      "step": 5649
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5624397323818735,
      "learning_rate": 1.877922254748114e-06,
      "loss": 0.8398,
      "step": 5650
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4874468759942638,
      "learning_rate": 1.876303231935791e-06,
      "loss": 0.801,
      "step": 5651
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5171317216008808,
      "learning_rate": 1.8746847461231533e-06,
      "loss": 0.8037,
      "step": 5652
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.7695341697406414,
      "learning_rate": 1.8730667975884398e-06,
      "loss": 0.6773,
      "step": 5653
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5726941917820998,
      "learning_rate": 1.8714493866097955e-06,
      "loss": 0.7226,
      "step": 5654
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.629446704288904,
      "learning_rate": 1.8698325134652711e-06,
      "loss": 0.8541,
      "step": 5655
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4677919875038108,
      "learning_rate": 1.8682161784328262e-06,
      "loss": 0.8529,
      "step": 5656
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7522087282695036,
      "learning_rate": 1.8666003817903267e-06,
      "loss": 0.8126,
      "step": 5657
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8724915508188037,
      "learning_rate": 1.8649851238155465e-06,
      "loss": 0.6452,
      "step": 5658
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5630128784257853,
      "learning_rate": 1.8633704047861667e-06,
      "loss": 0.7218,
      "step": 5659
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2859394352215026,
      "learning_rate": 1.8617562249797788e-06,
      "loss": 0.7666,
      "step": 5660
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4493463401143976,
      "learning_rate": 1.8601425846738775e-06,
      "loss": 0.6861,
      "step": 5661
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8023030294094138,
      "learning_rate": 1.858529484145864e-06,
      "loss": 0.6633,
      "step": 5662
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.234681688200333,
      "learning_rate": 1.8569169236730533e-06,
      "loss": 0.76,
      "step": 5663
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.8699682992390843,
      "learning_rate": 1.8553049035326615e-06,
      "loss": 0.7834,
      "step": 5664
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3510747094299511,
      "learning_rate": 1.8536934240018129e-06,
      "loss": 0.8095,
      "step": 5665
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8060641799083584,
      "learning_rate": 1.852082485357538e-06,
      "loss": 0.6389,
      "step": 5666
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4364337697141012,
      "learning_rate": 1.8504720878767797e-06,
      "loss": 0.7264,
      "step": 5667
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4547188485151255,
      "learning_rate": 1.8488622318363814e-06,
      "loss": 0.7416,
      "step": 5668
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9447432854834982,
      "learning_rate": 1.847252917513097e-06,
      "loss": 0.6193,
      "step": 5669
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5979382728105198,
      "learning_rate": 1.845644145183586e-06,
      "loss": 0.7781,
      "step": 5670
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2409601974511575,
      "learning_rate": 1.844035915124413e-06,
      "loss": 0.7314,
      "step": 5671
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9400821468529994,
      "learning_rate": 1.8424282276120547e-06,
      "loss": 0.7985,
      "step": 5672
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.525704575848228,
      "learning_rate": 1.84082108292289e-06,
      "loss": 0.7983,
      "step": 5673
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.989187999384173,
      "learning_rate": 1.8392144813332041e-06,
      "loss": 0.785,
      "step": 5674
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6920489234362854,
      "learning_rate": 1.8376084231191932e-06,
      "loss": 0.7272,
      "step": 5675
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.742417368552365,
      "learning_rate": 1.8360029085569558e-06,
      "loss": 0.814,
      "step": 5676
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6171490120644658,
      "learning_rate": 1.8343979379224991e-06,
      "loss": 0.7044,
      "step": 5677
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3396676112896155,
      "learning_rate": 1.832793511491735e-06,
      "loss": 0.8164,
      "step": 5678
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9383388581252596,
      "learning_rate": 1.831189629540484e-06,
      "loss": 0.7006,
      "step": 5679
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8214846453313067,
      "learning_rate": 1.8295862923444702e-06,
      "loss": 0.6089,
      "step": 5680
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4953232122889866,
      "learning_rate": 1.8279835001793272e-06,
      "loss": 0.6824,
      "step": 5681
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.476294133994853,
      "learning_rate": 1.8263812533205955e-06,
      "loss": 0.7277,
      "step": 5682
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6072718036452578,
      "learning_rate": 1.8247795520437177e-06,
      "loss": 0.8088,
      "step": 5683
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5881227658912578,
      "learning_rate": 1.8231783966240458e-06,
      "loss": 0.791,
      "step": 5684
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2237359367109255,
      "learning_rate": 1.8215777873368363e-06,
      "loss": 0.7788,
      "step": 5685
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5696631489525896,
      "learning_rate": 1.8199777244572525e-06,
      "loss": 0.8251,
      "step": 5686
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5426064759546259,
      "learning_rate": 1.8183782082603618e-06,
      "loss": 0.7209,
      "step": 5687
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3551556008781895,
      "learning_rate": 1.8167792390211435e-06,
      "loss": 0.7802,
      "step": 5688
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3993907554007037,
      "learning_rate": 1.8151808170144751e-06,
      "loss": 0.8195,
      "step": 5689
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7205826087635787,
      "learning_rate": 1.813582942515148e-06,
      "loss": 0.818,
      "step": 5690
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.2356671938575343,
      "learning_rate": 1.8119856157978534e-06,
      "loss": 0.8257,
      "step": 5691
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.686256376611754,
      "learning_rate": 1.8103888371371898e-06,
      "loss": 0.7578,
      "step": 5692
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.836914298005361,
      "learning_rate": 1.8087926068076622e-06,
      "loss": 0.6255,
      "step": 5693
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.4009377845461493,
      "learning_rate": 1.8071969250836813e-06,
      "loss": 0.7648,
      "step": 5694
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3940473231608486,
      "learning_rate": 1.8056017922395607e-06,
      "loss": 0.7609,
      "step": 5695
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3954466793827291,
      "learning_rate": 1.8040072085495276e-06,
      "loss": 0.8183,
      "step": 5696
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5915751693073619,
      "learning_rate": 1.8024131742877054e-06,
      "loss": 0.8117,
      "step": 5697
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6413073246703442,
      "learning_rate": 1.8008196897281287e-06,
      "loss": 0.7705,
      "step": 5698
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.0049828079724294,
      "learning_rate": 1.7992267551447334e-06,
      "loss": 0.7336,
      "step": 5699
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9462013620140304,
      "learning_rate": 1.7976343708113675e-06,
      "loss": 0.817,
      "step": 5700
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7970735651916455,
      "learning_rate": 1.7960425370017782e-06,
      "loss": 0.6504,
      "step": 5701
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.423278538644307,
      "learning_rate": 1.794451253989618e-06,
      "loss": 0.7477,
      "step": 5702
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5899747989898942,
      "learning_rate": 1.7928605220484513e-06,
      "loss": 0.7795,
      "step": 5703
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5405620345214301,
      "learning_rate": 1.7912703414517413e-06,
      "loss": 0.8367,
      "step": 5704
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.553243064749687,
      "learning_rate": 1.7896807124728582e-06,
      "loss": 0.7766,
      "step": 5705
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.2074853706112623,
      "learning_rate": 1.788091635385078e-06,
      "loss": 0.7659,
      "step": 5706
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2839794721616486,
      "learning_rate": 1.7865031104615809e-06,
      "loss": 0.7207,
      "step": 5707
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0228487153428907,
      "learning_rate": 1.784915137975452e-06,
      "loss": 0.6838,
      "step": 5708
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4736241861705137,
      "learning_rate": 1.783327718199685e-06,
      "loss": 0.8772,
      "step": 5709
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.523043141914968,
      "learning_rate": 1.7817408514071722e-06,
      "loss": 0.7444,
      "step": 5710
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7995853627283024,
      "learning_rate": 1.780154537870718e-06,
      "loss": 0.6031,
      "step": 5711
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5862671606176206,
      "learning_rate": 1.7785687778630268e-06,
      "loss": 0.846,
      "step": 5712
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3646796110274995,
      "learning_rate": 1.776983571656708e-06,
      "loss": 0.7341,
      "step": 5713
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.0534263725369346,
      "learning_rate": 1.7753989195242782e-06,
      "loss": 0.8271,
      "step": 5714
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7864384482300906,
      "learning_rate": 1.7738148217381568e-06,
      "loss": 0.7833,
      "step": 5715
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3385733122141126,
      "learning_rate": 1.772231278570667e-06,
      "loss": 0.8464,
      "step": 5716
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.411393216681038,
      "learning_rate": 1.7706482902940397e-06,
      "loss": 0.6989,
      "step": 5717
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4645971809388745,
      "learning_rate": 1.7690658571804109e-06,
      "loss": 0.9232,
      "step": 5718
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0204673919617273,
      "learning_rate": 1.7674839795018173e-06,
      "loss": 0.68,
      "step": 5719
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5727706764655065,
      "learning_rate": 1.7659026575302025e-06,
      "loss": 0.6865,
      "step": 5720
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.274049088820519,
      "learning_rate": 1.764321891537414e-06,
      "loss": 0.8103,
      "step": 5721
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.406406975915742,
      "learning_rate": 1.7627416817952032e-06,
      "loss": 0.616,
      "step": 5722
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7497172278180142,
      "learning_rate": 1.7611620285752246e-06,
      "loss": 0.6443,
      "step": 5723
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5002175974796101,
      "learning_rate": 1.7595829321490437e-06,
      "loss": 0.7767,
      "step": 5724
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.487625912341215,
      "learning_rate": 1.7580043927881224e-06,
      "loss": 0.8451,
      "step": 5725
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4585428262071831,
      "learning_rate": 1.756426410763829e-06,
      "loss": 0.8776,
      "step": 5726
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.614628962313228,
      "learning_rate": 1.7548489863474393e-06,
      "loss": 0.8021,
      "step": 5727
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6512855279618552,
      "learning_rate": 1.753272119810131e-06,
      "loss": 0.702,
      "step": 5728
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7855518224524523,
      "learning_rate": 1.7516958114229837e-06,
      "loss": 0.7756,
      "step": 5729
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5864103347326177,
      "learning_rate": 1.7501200614569847e-06,
      "loss": 0.7925,
      "step": 5730
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.581297319821924,
      "learning_rate": 1.7485448701830205e-06,
      "loss": 0.7697,
      "step": 5731
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5609561998109067,
      "learning_rate": 1.7469702378718894e-06,
      "loss": 0.861,
      "step": 5732
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6367657312569488,
      "learning_rate": 1.7453961647942868e-06,
      "loss": 0.8006,
      "step": 5733
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.974493768735198,
      "learning_rate": 1.743822651220814e-06,
      "loss": 0.773,
      "step": 5734
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4086929723659085,
      "learning_rate": 1.7422496974219761e-06,
      "loss": 0.8884,
      "step": 5735
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4135142025435676,
      "learning_rate": 1.7406773036681807e-06,
      "loss": 0.8896,
      "step": 5736
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.7873319981930655,
      "learning_rate": 1.7391054702297439e-06,
      "loss": 0.8216,
      "step": 5737
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.636268836006277,
      "learning_rate": 1.737534197376879e-06,
      "loss": 0.721,
      "step": 5738
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9551909744353803,
      "learning_rate": 1.7359634853797081e-06,
      "loss": 0.6602,
      "step": 5739
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.8519290842238567,
      "learning_rate": 1.7343933345082547e-06,
      "loss": 0.6957,
      "step": 5740
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3155307086994676,
      "learning_rate": 1.7328237450324454e-06,
      "loss": 0.6072,
      "step": 5741
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2782682820557592,
      "learning_rate": 1.73125471722211e-06,
      "loss": 0.8282,
      "step": 5742
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.498997361654205,
      "learning_rate": 1.7296862513469836e-06,
      "loss": 0.7698,
      "step": 5743
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.031270438858182,
      "learning_rate": 1.7281183476767016e-06,
      "loss": 0.8522,
      "step": 5744
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.4522450229573773,
      "learning_rate": 1.7265510064808084e-06,
      "loss": 0.7994,
      "step": 5745
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4812230256049568,
      "learning_rate": 1.7249842280287442e-06,
      "loss": 0.7096,
      "step": 5746
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5600509479852493,
      "learning_rate": 1.7234180125898608e-06,
      "loss": 0.9486,
      "step": 5747
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.652936283938887,
      "learning_rate": 1.721852360433406e-06,
      "loss": 0.7019,
      "step": 5748
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4343775108622525,
      "learning_rate": 1.7202872718285341e-06,
      "loss": 0.7596,
      "step": 5749
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4060161023335955,
      "learning_rate": 1.7187227470443013e-06,
      "loss": 0.698,
      "step": 5750
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8119501116024755,
      "learning_rate": 1.7171587863496686e-06,
      "loss": 0.6724,
      "step": 5751
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4364604318676037,
      "learning_rate": 1.715595390013497e-06,
      "loss": 0.7883,
      "step": 5752
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4782553289757532,
      "learning_rate": 1.7140325583045553e-06,
      "loss": 0.9035,
      "step": 5753
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2851704714907757,
      "learning_rate": 1.7124702914915097e-06,
      "loss": 0.758,
      "step": 5754
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4778802860599918,
      "learning_rate": 1.7109085898429345e-06,
      "loss": 0.7621,
      "step": 5755
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8079729123312037,
      "learning_rate": 1.7093474536273037e-06,
      "loss": 0.6679,
      "step": 5756
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4735870836627525,
      "learning_rate": 1.7077868831129935e-06,
      "loss": 0.8824,
      "step": 5757
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5102113045543564,
      "learning_rate": 1.7062268785682852e-06,
      "loss": 0.8195,
      "step": 5758
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.524485163113603,
      "learning_rate": 1.7046674402613594e-06,
      "loss": 0.8509,
      "step": 5759
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3299458383112903,
      "learning_rate": 1.703108568460305e-06,
      "loss": 0.7899,
      "step": 5760
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5283316610971225,
      "learning_rate": 1.7015502634331083e-06,
      "loss": 0.7161,
      "step": 5761
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.7741392614602681,
      "learning_rate": 1.6999925254476606e-06,
      "loss": 0.7193,
      "step": 5762
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.523419359110215,
      "learning_rate": 1.698435354771753e-06,
      "loss": 0.7927,
      "step": 5763
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7451578179792895,
      "learning_rate": 1.6968787516730845e-06,
      "loss": 0.749,
      "step": 5764
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4256228527371289,
      "learning_rate": 1.6953227164192516e-06,
      "loss": 0.9196,
      "step": 5765
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.603359138433034,
      "learning_rate": 1.6937672492777547e-06,
      "loss": 0.7864,
      "step": 5766
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3747965938421622,
      "learning_rate": 1.6922123505159955e-06,
      "loss": 0.8179,
      "step": 5767
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5484031487190466,
      "learning_rate": 1.6906580204012818e-06,
      "loss": 0.8257,
      "step": 5768
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2996549015580257,
      "learning_rate": 1.68910425920082e-06,
      "loss": 0.7636,
      "step": 5769
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4158794535454413,
      "learning_rate": 1.6875510671817186e-06,
      "loss": 0.786,
      "step": 5770
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5353241812735303,
      "learning_rate": 1.6859984446109906e-06,
      "loss": 0.68,
      "step": 5771
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2647443563806435,
      "learning_rate": 1.6844463917555487e-06,
      "loss": 0.7543,
      "step": 5772
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4378820523898952,
      "learning_rate": 1.6828949088822077e-06,
      "loss": 0.7564,
      "step": 5773
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4671769311449616,
      "learning_rate": 1.6813439962576872e-06,
      "loss": 0.6553,
      "step": 5774
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5706024038146442,
      "learning_rate": 1.6797936541486082e-06,
      "loss": 0.7805,
      "step": 5775
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6151300556306414,
      "learning_rate": 1.6782438828214913e-06,
      "loss": 0.717,
      "step": 5776
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.448956279781387,
      "learning_rate": 1.6766946825427605e-06,
      "loss": 0.7834,
      "step": 5777
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.500928319317388,
      "learning_rate": 1.6751460535787407e-06,
      "loss": 0.7254,
      "step": 5778
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8914295137193624,
      "learning_rate": 1.6735979961956588e-06,
      "loss": 0.7088,
      "step": 5779
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5983666900361189,
      "learning_rate": 1.6720505106596429e-06,
      "loss": 0.7605,
      "step": 5780
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5176311092572858,
      "learning_rate": 1.6705035972367272e-06,
      "loss": 0.8092,
      "step": 5781
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.1278767405571344,
      "learning_rate": 1.6689572561928397e-06,
      "loss": 0.753,
      "step": 5782
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6247186049923295,
      "learning_rate": 1.6674114877938185e-06,
      "loss": 0.8868,
      "step": 5783
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.031241559104049,
      "learning_rate": 1.6658662923053974e-06,
      "loss": 0.6453,
      "step": 5784
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.9027405616207764,
      "learning_rate": 1.664321669993213e-06,
      "loss": 0.6923,
      "step": 5785
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.44899771949174,
      "learning_rate": 1.6627776211228041e-06,
      "loss": 0.8123,
      "step": 5786
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5635335360149043,
      "learning_rate": 1.661234145959611e-06,
      "loss": 0.7652,
      "step": 5787
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6689035020864313,
      "learning_rate": 1.6596912447689723e-06,
      "loss": 0.6762,
      "step": 5788
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4463830921898393,
      "learning_rate": 1.6581489178161348e-06,
      "loss": 0.7854,
      "step": 5789
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7493573953316686,
      "learning_rate": 1.6566071653662403e-06,
      "loss": 0.7657,
      "step": 5790
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8377151174790224,
      "learning_rate": 1.6550659876843317e-06,
      "loss": 0.7521,
      "step": 5791
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4177615704287032,
      "learning_rate": 1.65352538503536e-06,
      "loss": 0.7521,
      "step": 5792
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3931222295943977,
      "learning_rate": 1.6519853576841698e-06,
      "loss": 0.8875,
      "step": 5793
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4200098738689673,
      "learning_rate": 1.6504459058955108e-06,
      "loss": 0.8042,
      "step": 5794
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5416796229586793,
      "learning_rate": 1.6489070299340298e-06,
      "loss": 0.74,
      "step": 5795
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8441000746537939,
      "learning_rate": 1.6473687300642815e-06,
      "loss": 0.8405,
      "step": 5796
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3933271623239003,
      "learning_rate": 1.6458310065507154e-06,
      "loss": 0.7315,
      "step": 5797
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4668736046871416,
      "learning_rate": 1.6442938596576842e-06,
      "loss": 0.6781,
      "step": 5798
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.2565189034635367,
      "learning_rate": 1.6427572896494408e-06,
      "loss": 0.8447,
      "step": 5799
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5215907884393423,
      "learning_rate": 1.6412212967901386e-06,
      "loss": 0.6939,
      "step": 5800
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.667898946072956,
      "learning_rate": 1.6396858813438355e-06,
      "loss": 0.6977,
      "step": 5801
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6555254469716678,
      "learning_rate": 1.638151043574485e-06,
      "loss": 0.8265,
      "step": 5802
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.904264009689275,
      "learning_rate": 1.6366167837459429e-06,
      "loss": 0.6917,
      "step": 5803
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4702404345260287,
      "learning_rate": 1.6350831021219686e-06,
      "loss": 0.7948,
      "step": 5804
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8080714025426965,
      "learning_rate": 1.6335499989662185e-06,
      "loss": 0.789,
      "step": 5805
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.2189404023534816,
      "learning_rate": 1.6320174745422513e-06,
      "loss": 0.844,
      "step": 5806
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6569045884206894,
      "learning_rate": 1.6304855291135247e-06,
      "loss": 0.7834,
      "step": 5807
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0285791747907032,
      "learning_rate": 1.6289541629433986e-06,
      "loss": 0.6441,
      "step": 5808
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.354690679283237,
      "learning_rate": 1.6274233762951308e-06,
      "loss": 0.8798,
      "step": 5809
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4081745026321826,
      "learning_rate": 1.6258931694318831e-06,
      "loss": 0.8621,
      "step": 5810
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4735254377108893,
      "learning_rate": 1.624363542616717e-06,
      "loss": 0.8479,
      "step": 5811
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.617012873281891,
      "learning_rate": 1.6228344961125914e-06,
      "loss": 0.8547,
      "step": 5812
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8730159149681331,
      "learning_rate": 1.6213060301823674e-06,
      "loss": 0.6317,
      "step": 5813
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4136346504220012,
      "learning_rate": 1.6197781450888067e-06,
      "loss": 0.8053,
      "step": 5814
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8640304083257694,
      "learning_rate": 1.618250841094569e-06,
      "loss": 0.7031,
      "step": 5815
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5662028506204149,
      "learning_rate": 1.616724118462215e-06,
      "loss": 0.7654,
      "step": 5816
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5727198298034544,
      "learning_rate": 1.6151979774542087e-06,
      "loss": 0.742,
      "step": 5817
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5457422349275003,
      "learning_rate": 1.6136724183329106e-06,
      "loss": 0.8352,
      "step": 5818
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.7389667249990732,
      "learning_rate": 1.6121474413605792e-06,
      "loss": 0.7939,
      "step": 5819
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7600197159527204,
      "learning_rate": 1.61062304679938e-06,
      "loss": 0.7555,
      "step": 5820
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5895749496057956,
      "learning_rate": 1.609099234911372e-06,
      "loss": 0.7471,
      "step": 5821
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4129615055833469,
      "learning_rate": 1.6075760059585166e-06,
      "loss": 0.7309,
      "step": 5822
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.573066022006072,
      "learning_rate": 1.6060533602026734e-06,
      "loss": 0.8185,
      "step": 5823
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.470970122430513,
      "learning_rate": 1.6045312979056027e-06,
      "loss": 0.7806,
      "step": 5824
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6608878806027967,
      "learning_rate": 1.6030098193289667e-06,
      "loss": 0.8019,
      "step": 5825
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7457959224444461,
      "learning_rate": 1.601488924734324e-06,
      "loss": 0.8977,
      "step": 5826
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8064217979640618,
      "learning_rate": 1.5999686143831344e-06,
      "loss": 0.6131,
      "step": 5827
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7183935137292314,
      "learning_rate": 1.5984488885367543e-06,
      "loss": 0.8481,
      "step": 5828
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.7366297251506486,
      "learning_rate": 1.5969297474564465e-06,
      "loss": 0.787,
      "step": 5829
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8303370115718574,
      "learning_rate": 1.595411191403367e-06,
      "loss": 0.7783,
      "step": 5830
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6042539834996423,
      "learning_rate": 1.5938932206385716e-06,
      "loss": 0.8802,
      "step": 5831
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.449676907779407,
      "learning_rate": 1.5923758354230196e-06,
      "loss": 0.7891,
      "step": 5832
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8029287913484364,
      "learning_rate": 1.5908590360175663e-06,
      "loss": 0.7962,
      "step": 5833
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.316981689916007,
      "learning_rate": 1.5893428226829672e-06,
      "loss": 0.6266,
      "step": 5834
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4780713378564674,
      "learning_rate": 1.5878271956798762e-06,
      "loss": 0.7728,
      "step": 5835
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7662833700631007,
      "learning_rate": 1.5863121552688477e-06,
      "loss": 0.7101,
      "step": 5836
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.361226704022216,
      "learning_rate": 1.5847977017103327e-06,
      "loss": 0.7969,
      "step": 5837
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.51261660074808,
      "learning_rate": 1.5832838352646856e-06,
      "loss": 0.7529,
      "step": 5838
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5304139554431353,
      "learning_rate": 1.5817705561921587e-06,
      "loss": 0.7755,
      "step": 5839
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5085308110155091,
      "learning_rate": 1.5802578647529005e-06,
      "loss": 0.7712,
      "step": 5840
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.942239702861732,
      "learning_rate": 1.5787457612069607e-06,
      "loss": 0.6815,
      "step": 5841
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3746949400549786,
      "learning_rate": 1.577234245814287e-06,
      "loss": 0.7522,
      "step": 5842
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5568640472833728,
      "learning_rate": 1.5757233188347265e-06,
      "loss": 0.7947,
      "step": 5843
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.02823752465137,
      "learning_rate": 1.5742129805280249e-06,
      "loss": 0.803,
      "step": 5844
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4709765477233185,
      "learning_rate": 1.572703231153826e-06,
      "loss": 0.8627,
      "step": 5845
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8917633831442174,
      "learning_rate": 1.5711940709716755e-06,
      "loss": 0.6767,
      "step": 5846
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5104241024906397,
      "learning_rate": 1.5696855002410127e-06,
      "loss": 0.8484,
      "step": 5847
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4091625054222694,
      "learning_rate": 1.5681775192211819e-06,
      "loss": 0.7727,
      "step": 5848
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.752857321720114,
      "learning_rate": 1.5666701281714202e-06,
      "loss": 0.7609,
      "step": 5849
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4894704503468423,
      "learning_rate": 1.5651633273508666e-06,
      "loss": 0.7704,
      "step": 5850
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4821327053800997,
      "learning_rate": 1.5636571170185565e-06,
      "loss": 0.8301,
      "step": 5851
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8267888286222913,
      "learning_rate": 1.5621514974334246e-06,
      "loss": 0.8293,
      "step": 5852
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8595366756078562,
      "learning_rate": 1.5606464688543066e-06,
      "loss": 0.7338,
      "step": 5853
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.481546682053033,
      "learning_rate": 1.5591420315399324e-06,
      "loss": 0.7967,
      "step": 5854
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.729024999439851,
      "learning_rate": 1.5576381857489337e-06,
      "loss": 0.8354,
      "step": 5855
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3619919685690736,
      "learning_rate": 1.556134931739836e-06,
      "loss": 0.8123,
      "step": 5856
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5383916733915137,
      "learning_rate": 1.5546322697710697e-06,
      "loss": 0.7748,
      "step": 5857
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8447517074609725,
      "learning_rate": 1.553130200100959e-06,
      "loss": 0.6216,
      "step": 5858
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.569195982309448,
      "learning_rate": 1.5516287229877242e-06,
      "loss": 0.6871,
      "step": 5859
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8495850207077265,
      "learning_rate": 1.5501278386894907e-06,
      "loss": 0.736,
      "step": 5860
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4171126139896397,
      "learning_rate": 1.5486275474642765e-06,
      "loss": 0.7418,
      "step": 5861
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4265709389671806,
      "learning_rate": 1.5471278495699982e-06,
      "loss": 0.6945,
      "step": 5862
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.3594460905570562,
      "learning_rate": 1.545628745264472e-06,
      "loss": 0.7293,
      "step": 5863
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8993540347820244,
      "learning_rate": 1.5441302348054105e-06,
      "loss": 0.6066,
      "step": 5864
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4096215758800312,
      "learning_rate": 1.5426323184504244e-06,
      "loss": 0.7793,
      "step": 5865
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5030875890381123,
      "learning_rate": 1.5411349964570254e-06,
      "loss": 0.7646,
      "step": 5866
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8187799476296587,
      "learning_rate": 1.5396382690826173e-06,
      "loss": 0.617,
      "step": 5867
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.875670129249973,
      "learning_rate": 1.5381421365845083e-06,
      "loss": 0.6455,
      "step": 5868
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.8564471112669187,
      "learning_rate": 1.5366465992198997e-06,
      "loss": 0.8154,
      "step": 5869
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5511346069206629,
      "learning_rate": 1.5351516572458913e-06,
      "loss": 0.7757,
      "step": 5870
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4800869664710747,
      "learning_rate": 1.5336573109194807e-06,
      "loss": 0.6738,
      "step": 5871
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6976845123545232,
      "learning_rate": 1.5321635604975637e-06,
      "loss": 0.7906,
      "step": 5872
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3624386863584323,
      "learning_rate": 1.530670406236932e-06,
      "loss": 0.6779,
      "step": 5873
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.56061964546233,
      "learning_rate": 1.5291778483942771e-06,
      "loss": 0.6735,
      "step": 5874
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3798410311444682,
      "learning_rate": 1.527685887226189e-06,
      "loss": 0.7833,
      "step": 5875
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2991710178894091,
      "learning_rate": 1.5261945229891512e-06,
      "loss": 0.8312,
      "step": 5876
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.6427811670497054,
      "learning_rate": 1.5247037559395467e-06,
      "loss": 0.9293,
      "step": 5877
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3360498115524386,
      "learning_rate": 1.5232135863336556e-06,
      "loss": 0.753,
      "step": 5878
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7620821504295797,
      "learning_rate": 1.5217240144276558e-06,
      "loss": 0.6425,
      "step": 5879
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.392922189929082,
      "learning_rate": 1.5202350404776196e-06,
      "loss": 0.8602,
      "step": 5880
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.408573058964174,
      "learning_rate": 1.5187466647395227e-06,
      "loss": 0.7417,
      "step": 5881
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.372343610041355,
      "learning_rate": 1.5172588874692318e-06,
      "loss": 0.7429,
      "step": 5882
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4512222474046135,
      "learning_rate": 1.5157717089225144e-06,
      "loss": 0.8148,
      "step": 5883
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9262337857535144,
      "learning_rate": 1.5142851293550303e-06,
      "loss": 0.6313,
      "step": 5884
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4508381759144924,
      "learning_rate": 1.5127991490223449e-06,
      "loss": 0.7443,
      "step": 5885
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.067196645030685,
      "learning_rate": 1.5113137681799123e-06,
      "loss": 0.7155,
      "step": 5886
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3349018485624244,
      "learning_rate": 1.5098289870830869e-06,
      "loss": 0.7936,
      "step": 5887
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8738141677401162,
      "learning_rate": 1.508344805987119e-06,
      "loss": 0.674,
      "step": 5888
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7420631059833005,
      "learning_rate": 1.5068612251471592e-06,
      "loss": 0.6466,
      "step": 5889
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.658972096034239,
      "learning_rate": 1.5053782448182509e-06,
      "loss": 0.6728,
      "step": 5890
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3799917786741467,
      "learning_rate": 1.5038958652553354e-06,
      "loss": 0.6756,
      "step": 5891
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.498144163841576,
      "learning_rate": 1.502414086713251e-06,
      "loss": 0.8858,
      "step": 5892
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.762691596476297,
      "learning_rate": 1.5009329094467313e-06,
      "loss": 0.7959,
      "step": 5893
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.0181134253168134,
      "learning_rate": 1.49945233371041e-06,
      "loss": 0.7193,
      "step": 5894
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4004020108896742,
      "learning_rate": 1.497972359758813e-06,
      "loss": 0.8005,
      "step": 5895
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5662937138933877,
      "learning_rate": 1.4964929878463685e-06,
      "loss": 0.6952,
      "step": 5896
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5117387367881832,
      "learning_rate": 1.4950142182273947e-06,
      "loss": 0.7151,
      "step": 5897
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.386631433022214,
      "learning_rate": 1.493536051156111e-06,
      "loss": 0.726,
      "step": 5898
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.3546022023417077,
      "learning_rate": 1.4920584868866295e-06,
      "loss": 0.8343,
      "step": 5899
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7307359099065176,
      "learning_rate": 1.4905815256729621e-06,
      "loss": 0.8542,
      "step": 5900
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.548297516261544,
      "learning_rate": 1.4891051677690156e-06,
      "loss": 0.8143,
      "step": 5901
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7454932819127973,
      "learning_rate": 1.4876294134285902e-06,
      "loss": 0.834,
      "step": 5902
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5452425047113,
      "learning_rate": 1.4861542629053882e-06,
      "loss": 0.7668,
      "step": 5903
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.89153474068716,
      "learning_rate": 1.4846797164530051e-06,
      "loss": 0.8339,
      "step": 5904
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6902760438011062,
      "learning_rate": 1.4832057743249329e-06,
      "loss": 0.8398,
      "step": 5905
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.336919245079536,
      "learning_rate": 1.4817324367745573e-06,
      "loss": 0.7558,
      "step": 5906
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8678912685960276,
      "learning_rate": 1.4802597040551636e-06,
      "loss": 0.6285,
      "step": 5907
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6185518831604826,
      "learning_rate": 1.4787875764199312e-06,
      "loss": 0.8917,
      "step": 5908
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4484559051105756,
      "learning_rate": 1.4773160541219338e-06,
      "loss": 0.8783,
      "step": 5909
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5135119019537393,
      "learning_rate": 1.4758451374141469e-06,
      "loss": 0.7721,
      "step": 5910
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5210411148394576,
      "learning_rate": 1.474374826549435e-06,
      "loss": 0.7749,
      "step": 5911
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5483677083391902,
      "learning_rate": 1.4729051217805645e-06,
      "loss": 0.7959,
      "step": 5912
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.667460743132298,
      "learning_rate": 1.4714360233601933e-06,
      "loss": 0.8979,
      "step": 5913
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.643406815620209,
      "learning_rate": 1.4699675315408756e-06,
      "loss": 0.7057,
      "step": 5914
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6355568831998857,
      "learning_rate": 1.468499646575064e-06,
      "loss": 0.7853,
      "step": 5915
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5331246790970476,
      "learning_rate": 1.4670323687151012e-06,
      "loss": 0.7758,
      "step": 5916
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4116844623002758,
      "learning_rate": 1.4655656982132338e-06,
      "loss": 0.7322,
      "step": 5917
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.623877400291321,
      "learning_rate": 1.464099635321598e-06,
      "loss": 0.8637,
      "step": 5918
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4308439468715315,
      "learning_rate": 1.4626341802922262e-06,
      "loss": 0.808,
      "step": 5919
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4865232263701946,
      "learning_rate": 1.461169333377047e-06,
      "loss": 0.769,
      "step": 5920
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.427858148516365,
      "learning_rate": 1.459705094827884e-06,
      "loss": 0.7842,
      "step": 5921
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3558073543039395,
      "learning_rate": 1.4582414648964594e-06,
      "loss": 0.7203,
      "step": 5922
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4056713763265622,
      "learning_rate": 1.4567784438343868e-06,
      "loss": 0.8039,
      "step": 5923
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.359342643388746,
      "learning_rate": 1.455316031893174e-06,
      "loss": 0.7389,
      "step": 5924
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8682233983474684,
      "learning_rate": 1.4538542293242307e-06,
      "loss": 0.5982,
      "step": 5925
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5807685537906053,
      "learning_rate": 1.4523930363788562e-06,
      "loss": 0.7241,
      "step": 5926
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7934741248925377,
      "learning_rate": 1.450932453308246e-06,
      "loss": 0.8039,
      "step": 5927
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4291205490332728,
      "learning_rate": 1.4494724803634912e-06,
      "loss": 0.7951,
      "step": 5928
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4901913311806771,
      "learning_rate": 1.448013117795578e-06,
      "loss": 0.8264,
      "step": 5929
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9617490004457575,
      "learning_rate": 1.446554365855387e-06,
      "loss": 0.6696,
      "step": 5930
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.529973657646112,
      "learning_rate": 1.445096224793695e-06,
      "loss": 0.8245,
      "step": 5931
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3241394034877771,
      "learning_rate": 1.4436386948611763e-06,
      "loss": 0.6788,
      "step": 5932
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0109460016638574,
      "learning_rate": 1.442181776308394e-06,
      "loss": 0.653,
      "step": 5933
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8202164951569758,
      "learning_rate": 1.4407254693858108e-06,
      "loss": 0.6669,
      "step": 5934
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.9613477927841811,
      "learning_rate": 1.4392697743437816e-06,
      "loss": 0.8661,
      "step": 5935
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2333871924836362,
      "learning_rate": 1.437814691432558e-06,
      "loss": 0.9299,
      "step": 5936
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8707625382553223,
      "learning_rate": 1.4363602209022837e-06,
      "loss": 0.6671,
      "step": 5937
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3798684502024179,
      "learning_rate": 1.4349063630030018e-06,
      "loss": 0.8138,
      "step": 5938
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2976673792930675,
      "learning_rate": 1.4334531179846455e-06,
      "loss": 0.7675,
      "step": 5939
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3906937449055785,
      "learning_rate": 1.432000486097046e-06,
      "loss": 0.7925,
      "step": 5940
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.330489539721959,
      "learning_rate": 1.4305484675899272e-06,
      "loss": 0.8129,
      "step": 5941
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7404571277767694,
      "learning_rate": 1.4290970627129075e-06,
      "loss": 0.6467,
      "step": 5942
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5783599834237803,
      "learning_rate": 1.4276462717154999e-06,
      "loss": 0.6381,
      "step": 5943
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.193812713464356,
      "learning_rate": 1.4261960948471122e-06,
      "loss": 0.8706,
      "step": 5944
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.1918359586234124,
      "learning_rate": 1.424746532357046e-06,
      "loss": 0.7195,
      "step": 5945
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5559112599962541,
      "learning_rate": 1.4232975844944997e-06,
      "loss": 0.8673,
      "step": 5946
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8559249202653042,
      "learning_rate": 1.4218492515085636e-06,
      "loss": 0.6841,
      "step": 5947
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9132394377431421,
      "learning_rate": 1.4204015336482213e-06,
      "loss": 0.6949,
      "step": 5948
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8750905124647946,
      "learning_rate": 1.418954431162355e-06,
      "loss": 0.7002,
      "step": 5949
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6628098391182524,
      "learning_rate": 1.417507944299737e-06,
      "loss": 0.8187,
      "step": 5950
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8857457160633966,
      "learning_rate": 1.4160620733090351e-06,
      "loss": 0.7422,
      "step": 5951
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2877347200128209,
      "learning_rate": 1.4146168184388099e-06,
      "loss": 0.6971,
      "step": 5952
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.7444295141307116,
      "learning_rate": 1.413172179937521e-06,
      "loss": 0.6865,
      "step": 5953
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.805870796337672,
      "learning_rate": 1.4117281580535158e-06,
      "loss": 0.596,
      "step": 5954
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4323561156015592,
      "learning_rate": 1.410284753035039e-06,
      "loss": 0.7798,
      "step": 5955
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.475315061882325,
      "learning_rate": 1.4088419651302288e-06,
      "loss": 0.7597,
      "step": 5956
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.296773568627675,
      "learning_rate": 1.407399794587117e-06,
      "loss": 0.707,
      "step": 5957
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.509070445087952,
      "learning_rate": 1.4059582416536282e-06,
      "loss": 0.83,
      "step": 5958
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3309569282028793,
      "learning_rate": 1.4045173065775852e-06,
      "loss": 0.7002,
      "step": 5959
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.8491660608726005,
      "learning_rate": 1.4030769896066975e-06,
      "loss": 0.6447,
      "step": 5960
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.836654701186463,
      "learning_rate": 1.4016372909885762e-06,
      "loss": 0.67,
      "step": 5961
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4699160853235809,
      "learning_rate": 1.4001982109707201e-06,
      "loss": 0.763,
      "step": 5962
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.650886702974509,
      "learning_rate": 1.3987597498005245e-06,
      "loss": 0.8278,
      "step": 5963
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7079170847243377,
      "learning_rate": 1.397321907725277e-06,
      "loss": 0.8678,
      "step": 5964
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3163570964653684,
      "learning_rate": 1.3958846849921593e-06,
      "loss": 0.7817,
      "step": 5965
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6244426144033697,
      "learning_rate": 1.3944480818482448e-06,
      "loss": 0.9081,
      "step": 5966
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4777153576180384,
      "learning_rate": 1.393012098540505e-06,
      "loss": 0.8995,
      "step": 5967
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5710955356798324,
      "learning_rate": 1.3915767353158022e-06,
      "loss": 0.6904,
      "step": 5968
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6915684766171628,
      "learning_rate": 1.3901419924208908e-06,
      "loss": 0.8351,
      "step": 5969
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.369941446238217,
      "learning_rate": 1.3887078701024204e-06,
      "loss": 0.8203,
      "step": 5970
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.5487674352360488,
      "learning_rate": 1.3872743686069328e-06,
      "loss": 0.7652,
      "step": 5971
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6991373731363817,
      "learning_rate": 1.3858414881808634e-06,
      "loss": 0.6348,
      "step": 5972
    },
    {
      "epoch": 0.76,
      "grad_norm": 2.3533757966241,
      "learning_rate": 1.3844092290705396e-06,
      "loss": 0.6514,
      "step": 5973
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.84302507469419,
      "learning_rate": 1.382977591522186e-06,
      "loss": 0.783,
      "step": 5974
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.8165923521226264,
      "learning_rate": 1.3815465757819174e-06,
      "loss": 0.8121,
      "step": 5975
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4332703667236288,
      "learning_rate": 1.3801161820957386e-06,
      "loss": 0.7842,
      "step": 5976
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5846152186424771,
      "learning_rate": 1.378686410709556e-06,
      "loss": 0.7632,
      "step": 5977
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6649869847933347,
      "learning_rate": 1.3772572618691604e-06,
      "loss": 0.8502,
      "step": 5978
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8898148997267041,
      "learning_rate": 1.3758287358202404e-06,
      "loss": 0.6488,
      "step": 5979
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4572631544738108,
      "learning_rate": 1.3744008328083758e-06,
      "loss": 0.7143,
      "step": 5980
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9237818458208447,
      "learning_rate": 1.3729735530790378e-06,
      "loss": 0.6592,
      "step": 5981
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5276850733376484,
      "learning_rate": 1.3715468968775952e-06,
      "loss": 0.7839,
      "step": 5982
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.0444566264154105,
      "learning_rate": 1.3701208644493064e-06,
      "loss": 0.7864,
      "step": 5983
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4321092104556292,
      "learning_rate": 1.3686954560393218e-06,
      "loss": 0.8439,
      "step": 5984
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5394811996295221,
      "learning_rate": 1.3672706718926849e-06,
      "loss": 0.838,
      "step": 5985
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8563863233059676,
      "learning_rate": 1.3658465122543346e-06,
      "loss": 0.7001,
      "step": 5986
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7414527834419555,
      "learning_rate": 1.3644229773690997e-06,
      "loss": 0.6783,
      "step": 5987
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9460298996071885,
      "learning_rate": 1.3630000674817011e-06,
      "loss": 0.863,
      "step": 5988
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.520789078540987,
      "learning_rate": 1.361577782836756e-06,
      "loss": 0.8705,
      "step": 5989
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8532162495897746,
      "learning_rate": 1.3601561236787702e-06,
      "loss": 0.8524,
      "step": 5990
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4110964328590478,
      "learning_rate": 1.3587350902521435e-06,
      "loss": 0.8342,
      "step": 5991
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5853401476275926,
      "learning_rate": 1.357314682801168e-06,
      "loss": 0.726,
      "step": 5992
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4887606498890251,
      "learning_rate": 1.3558949015700278e-06,
      "loss": 0.8256,
      "step": 5993
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.3394176623978105,
      "learning_rate": 1.3544757468027986e-06,
      "loss": 0.8283,
      "step": 5994
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2565313494013834,
      "learning_rate": 1.3530572187434531e-06,
      "loss": 0.7918,
      "step": 5995
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7071304639972646,
      "learning_rate": 1.351639317635849e-06,
      "loss": 0.7383,
      "step": 5996
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3202814492748642,
      "learning_rate": 1.3502220437237429e-06,
      "loss": 0.7568,
      "step": 5997
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.315784757397807,
      "learning_rate": 1.3488053972507792e-06,
      "loss": 0.8246,
      "step": 5998
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5412337000274647,
      "learning_rate": 1.3473893784604963e-06,
      "loss": 0.8143,
      "step": 5999
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5592054613208044,
      "learning_rate": 1.345973987596324e-06,
      "loss": 0.7354,
      "step": 6000
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.737185264794381,
      "learning_rate": 1.3445592249015843e-06,
      "loss": 0.6314,
      "step": 6001
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.4392890606248883,
      "learning_rate": 1.3431450906194892e-06,
      "loss": 0.7872,
      "step": 6002
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8445180966663527,
      "learning_rate": 1.3417315849931495e-06,
      "loss": 0.6724,
      "step": 6003
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3290826958511153,
      "learning_rate": 1.3403187082655584e-06,
      "loss": 0.7219,
      "step": 6004
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3172383528406955,
      "learning_rate": 1.3389064606796098e-06,
      "loss": 0.7005,
      "step": 6005
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5080818425056508,
      "learning_rate": 1.3374948424780836e-06,
      "loss": 0.7587,
      "step": 6006
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4139842677301155,
      "learning_rate": 1.336083853903653e-06,
      "loss": 0.6992,
      "step": 6007
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.571511768094762,
      "learning_rate": 1.3346734951988844e-06,
      "loss": 0.7156,
      "step": 6008
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.642807662781334,
      "learning_rate": 1.333263766606232e-06,
      "loss": 0.7529,
      "step": 6009
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4826185897776354,
      "learning_rate": 1.3318546683680483e-06,
      "loss": 0.8712,
      "step": 6010
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9453811853807834,
      "learning_rate": 1.3304462007265716e-06,
      "loss": 0.7058,
      "step": 6011
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5342965835965758,
      "learning_rate": 1.3290383639239347e-06,
      "loss": 0.7466,
      "step": 6012
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6221703149631626,
      "learning_rate": 1.3276311582021583e-06,
      "loss": 0.6778,
      "step": 6013
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8282223938953082,
      "learning_rate": 1.3262245838031618e-06,
      "loss": 0.9176,
      "step": 6014
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9038254518820015,
      "learning_rate": 1.3248186409687491e-06,
      "loss": 0.6155,
      "step": 6015
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7363050126260602,
      "learning_rate": 1.3234133299406183e-06,
      "loss": 0.8096,
      "step": 6016
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.1124682167901314,
      "learning_rate": 1.3220086509603569e-06,
      "loss": 0.7993,
      "step": 6017
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.338714633576141,
      "learning_rate": 1.3206046042694493e-06,
      "loss": 0.7919,
      "step": 6018
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.311535661809599,
      "learning_rate": 1.3192011901092654e-06,
      "loss": 0.762,
      "step": 6019
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6516756665757375,
      "learning_rate": 1.3177984087210682e-06,
      "loss": 0.9111,
      "step": 6020
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.502112589447103,
      "learning_rate": 1.3163962603460123e-06,
      "loss": 0.8332,
      "step": 6021
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6744963369123615,
      "learning_rate": 1.3149947452251422e-06,
      "loss": 0.6979,
      "step": 6022
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3867141047844098,
      "learning_rate": 1.3135938635993966e-06,
      "loss": 0.7025,
      "step": 6023
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8074786923408084,
      "learning_rate": 1.312193615709601e-06,
      "loss": 0.8155,
      "step": 6024
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.642341859824005,
      "learning_rate": 1.310794001796477e-06,
      "loss": 0.845,
      "step": 6025
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5703696254322188,
      "learning_rate": 1.3093950221006329e-06,
      "loss": 0.8643,
      "step": 6026
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4167666014117124,
      "learning_rate": 1.30799667686257e-06,
      "loss": 0.7957,
      "step": 6027
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6000043961325632,
      "learning_rate": 1.3065989663226797e-06,
      "loss": 0.7854,
      "step": 6028
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.34476548576356,
      "learning_rate": 1.3052018907212448e-06,
      "loss": 0.8093,
      "step": 6029
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.875416609991865,
      "learning_rate": 1.303805450298437e-06,
      "loss": 0.7926,
      "step": 6030
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3680381940417259,
      "learning_rate": 1.3024096452943236e-06,
      "loss": 0.6802,
      "step": 6031
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8476546051720166,
      "learning_rate": 1.301014475948857e-06,
      "loss": 0.6805,
      "step": 6032
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3194959264914161,
      "learning_rate": 1.2996199425018858e-06,
      "loss": 0.7063,
      "step": 6033
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5886223489517675,
      "learning_rate": 1.2982260451931445e-06,
      "loss": 0.7495,
      "step": 6034
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9067901072329946,
      "learning_rate": 1.2968327842622612e-06,
      "loss": 0.6429,
      "step": 6035
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3067411159304387,
      "learning_rate": 1.2954401599487531e-06,
      "loss": 0.8114,
      "step": 6036
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3081012012885485,
      "learning_rate": 1.2940481724920284e-06,
      "loss": 0.7309,
      "step": 6037
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9511166039394646,
      "learning_rate": 1.292656822131384e-06,
      "loss": 0.6683,
      "step": 6038
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8189334605968822,
      "learning_rate": 1.291266109106013e-06,
      "loss": 0.6704,
      "step": 6039
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3552497598590678,
      "learning_rate": 1.2898760336549931e-06,
      "loss": 0.8681,
      "step": 6040
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4406400978606961,
      "learning_rate": 1.2884865960172931e-06,
      "loss": 0.7754,
      "step": 6041
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3466468254493347,
      "learning_rate": 1.287097796431776e-06,
      "loss": 0.8148,
      "step": 6042
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4273749414904076,
      "learning_rate": 1.2857096351371917e-06,
      "loss": 0.7026,
      "step": 6043
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5036935214521396,
      "learning_rate": 1.2843221123721804e-06,
      "loss": 0.7519,
      "step": 6044
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3501531054107396,
      "learning_rate": 1.2829352283752728e-06,
      "loss": 0.7089,
      "step": 6045
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5972774495957889,
      "learning_rate": 1.2815489833848927e-06,
      "loss": 0.7757,
      "step": 6046
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8640124291281063,
      "learning_rate": 1.28016337763935e-06,
      "loss": 0.6616,
      "step": 6047
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5524687242974657,
      "learning_rate": 1.278778411376847e-06,
      "loss": 0.7249,
      "step": 6048
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4028387369854538,
      "learning_rate": 1.2773940848354754e-06,
      "loss": 0.7403,
      "step": 6049
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.441681730362225,
      "learning_rate": 1.2760103982532152e-06,
      "loss": 0.8845,
      "step": 6050
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7927893180892123,
      "learning_rate": 1.274627351867941e-06,
      "loss": 0.6687,
      "step": 6051
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.159741135978403,
      "learning_rate": 1.2732449459174134e-06,
      "loss": 0.7828,
      "step": 6052
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.3607469187119103,
      "learning_rate": 1.2718631806392823e-06,
      "loss": 0.7363,
      "step": 6053
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3542556878637164,
      "learning_rate": 1.2704820562710923e-06,
      "loss": 0.7773,
      "step": 6054
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2879587414622982,
      "learning_rate": 1.2691015730502732e-06,
      "loss": 0.77,
      "step": 6055
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.973784658237563,
      "learning_rate": 1.2677217312141455e-06,
      "loss": 0.6674,
      "step": 6056
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3807829261937563,
      "learning_rate": 1.2663425309999205e-06,
      "loss": 0.7029,
      "step": 6057
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5919319858021341,
      "learning_rate": 1.2649639726446994e-06,
      "loss": 0.7547,
      "step": 6058
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.730255884926683,
      "learning_rate": 1.2635860563854695e-06,
      "loss": 0.8509,
      "step": 6059
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4534706592208264,
      "learning_rate": 1.2622087824591129e-06,
      "loss": 0.8103,
      "step": 6060
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.336224405356804,
      "learning_rate": 1.2608321511024007e-06,
      "loss": 0.9345,
      "step": 6061
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5962647266735348,
      "learning_rate": 1.2594561625519891e-06,
      "loss": 0.8639,
      "step": 6062
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5035600192020282,
      "learning_rate": 1.258080817044428e-06,
      "loss": 0.6815,
      "step": 6063
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4952378342190062,
      "learning_rate": 1.256706114816154e-06,
      "loss": 0.7581,
      "step": 6064
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.634445614583038,
      "learning_rate": 1.2553320561034955e-06,
      "loss": 0.6244,
      "step": 6065
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3146691248534628,
      "learning_rate": 1.2539586411426664e-06,
      "loss": 0.7331,
      "step": 6066
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5009366371706863,
      "learning_rate": 1.2525858701697762e-06,
      "loss": 0.7411,
      "step": 6067
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4906508750126937,
      "learning_rate": 1.2512137434208188e-06,
      "loss": 0.789,
      "step": 6068
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9073865479360375,
      "learning_rate": 1.2498422611316767e-06,
      "loss": 0.8094,
      "step": 6069
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.673015352668018,
      "learning_rate": 1.2484714235381278e-06,
      "loss": 0.7186,
      "step": 6070
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6398146552345592,
      "learning_rate": 1.2471012308758324e-06,
      "loss": 0.7373,
      "step": 6071
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.342816522162776,
      "learning_rate": 1.2457316833803424e-06,
      "loss": 0.728,
      "step": 6072
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5695915850336823,
      "learning_rate": 1.244362781287099e-06,
      "loss": 0.8156,
      "step": 6073
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.397353655983138,
      "learning_rate": 1.2429945248314317e-06,
      "loss": 0.8393,
      "step": 6074
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.366353656493056,
      "learning_rate": 1.2416269142485615e-06,
      "loss": 0.8374,
      "step": 6075
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4759894432630822,
      "learning_rate": 1.2402599497735961e-06,
      "loss": 0.7893,
      "step": 6076
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5899968602080665,
      "learning_rate": 1.2388936316415317e-06,
      "loss": 0.7457,
      "step": 6077
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.786496405640751,
      "learning_rate": 1.237527960087253e-06,
      "loss": 0.8388,
      "step": 6078
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7432222725671703,
      "learning_rate": 1.2361629353455378e-06,
      "loss": 0.5896,
      "step": 6079
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.461371198850328,
      "learning_rate": 1.234798557651048e-06,
      "loss": 0.8296,
      "step": 6080
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7928586792497014,
      "learning_rate": 1.233434827238335e-06,
      "loss": 0.5887,
      "step": 6081
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6280967664307038,
      "learning_rate": 1.2320717443418422e-06,
      "loss": 0.8142,
      "step": 6082
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.565317120947142,
      "learning_rate": 1.2307093091958983e-06,
      "loss": 0.8377,
      "step": 6083
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0142896885315453,
      "learning_rate": 1.2293475220347212e-06,
      "loss": 0.6818,
      "step": 6084
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5121494409019371,
      "learning_rate": 1.2279863830924183e-06,
      "loss": 0.7754,
      "step": 6085
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3839630188861722,
      "learning_rate": 1.2266258926029851e-06,
      "loss": 0.8167,
      "step": 6086
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4950037999879544,
      "learning_rate": 1.2252660508003045e-06,
      "loss": 0.8037,
      "step": 6087
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.486129255535994,
      "learning_rate": 1.2239068579181497e-06,
      "loss": 0.8263,
      "step": 6088
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4872064038322002,
      "learning_rate": 1.222548314190184e-06,
      "loss": 0.8306,
      "step": 6089
    },
    {
      "epoch": 0.78,
      "grad_norm": 6.99766583457599,
      "learning_rate": 1.2211904198499551e-06,
      "loss": 0.7855,
      "step": 6090
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5710701217888785,
      "learning_rate": 1.2198331751309006e-06,
      "loss": 0.743,
      "step": 6091
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4300606613873368,
      "learning_rate": 1.2184765802663468e-06,
      "loss": 0.7322,
      "step": 6092
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5477326703394105,
      "learning_rate": 1.2171206354895081e-06,
      "loss": 0.7629,
      "step": 6093
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5432232166901798,
      "learning_rate": 1.2157653410334875e-06,
      "loss": 0.7671,
      "step": 6094
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.514016464572769,
      "learning_rate": 1.214410697131273e-06,
      "loss": 0.7752,
      "step": 6095
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.560986276118742,
      "learning_rate": 1.2130567040157465e-06,
      "loss": 0.8554,
      "step": 6096
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4763374526508861,
      "learning_rate": 1.2117033619196762e-06,
      "loss": 0.7934,
      "step": 6097
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8550703142301821,
      "learning_rate": 1.2103506710757156e-06,
      "loss": 0.6611,
      "step": 6098
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5287818736203744,
      "learning_rate": 1.2089986317164075e-06,
      "loss": 0.8078,
      "step": 6099
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7245352666791125,
      "learning_rate": 1.2076472440741844e-06,
      "loss": 0.8744,
      "step": 6100
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8163065167678775,
      "learning_rate": 1.2062965083813643e-06,
      "loss": 0.6073,
      "step": 6101
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.371520119853311,
      "learning_rate": 1.2049464248701537e-06,
      "loss": 0.7494,
      "step": 6102
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4901064521199248,
      "learning_rate": 1.20359699377265e-06,
      "loss": 0.7376,
      "step": 6103
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9896781340445238,
      "learning_rate": 1.202248215320835e-06,
      "loss": 0.7893,
      "step": 6104
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9279435570462272,
      "learning_rate": 1.2009000897465782e-06,
      "loss": 0.6661,
      "step": 6105
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4078133261364045,
      "learning_rate": 1.1995526172816385e-06,
      "loss": 0.6931,
      "step": 6106
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2882472883928295,
      "learning_rate": 1.1982057981576634e-06,
      "loss": 0.7977,
      "step": 6107
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4029465074263971,
      "learning_rate": 1.196859632606186e-06,
      "loss": 0.9115,
      "step": 6108
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2407528618518566,
      "learning_rate": 1.1955141208586257e-06,
      "loss": 0.6965,
      "step": 6109
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5323645108439792,
      "learning_rate": 1.1941692631462954e-06,
      "loss": 0.8755,
      "step": 6110
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7439572164869783,
      "learning_rate": 1.1928250597003893e-06,
      "loss": 0.8306,
      "step": 6111
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5262542148686848,
      "learning_rate": 1.1914815107519922e-06,
      "loss": 0.8568,
      "step": 6112
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5878566972412758,
      "learning_rate": 1.1901386165320755e-06,
      "loss": 0.7829,
      "step": 6113
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4416803294987632,
      "learning_rate": 1.1887963772714982e-06,
      "loss": 0.7007,
      "step": 6114
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.769938470349444,
      "learning_rate": 1.1874547932010054e-06,
      "loss": 0.8176,
      "step": 6115
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5120389350549814,
      "learning_rate": 1.1861138645512343e-06,
      "loss": 0.7323,
      "step": 6116
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.449246480615511,
      "learning_rate": 1.1847735915527026e-06,
      "loss": 0.6923,
      "step": 6117
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4045915086207061,
      "learning_rate": 1.183433974435822e-06,
      "loss": 0.6747,
      "step": 6118
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4843775154803251,
      "learning_rate": 1.1820950134308862e-06,
      "loss": 0.7502,
      "step": 6119
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3365233573084885,
      "learning_rate": 1.1807567087680787e-06,
      "loss": 0.7777,
      "step": 6120
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4159420686281405,
      "learning_rate": 1.1794190606774696e-06,
      "loss": 0.8377,
      "step": 6121
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.9150921535237075,
      "learning_rate": 1.178082069389016e-06,
      "loss": 0.7904,
      "step": 6122
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5465267814413666,
      "learning_rate": 1.1767457351325605e-06,
      "loss": 0.6743,
      "step": 6123
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5012637805774636,
      "learning_rate": 1.1754100581378365e-06,
      "loss": 0.7182,
      "step": 6124
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4959865044941993,
      "learning_rate": 1.174075038634463e-06,
      "loss": 0.8223,
      "step": 6125
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3212051817940964,
      "learning_rate": 1.1727406768519444e-06,
      "loss": 0.7797,
      "step": 6126
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3357382689069932,
      "learning_rate": 1.171406973019673e-06,
      "loss": 0.7981,
      "step": 6127
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.7002657422631644,
      "learning_rate": 1.1700739273669277e-06,
      "loss": 0.7251,
      "step": 6128
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.648419856950716,
      "learning_rate": 1.168741540122874e-06,
      "loss": 0.784,
      "step": 6129
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3537761933805406,
      "learning_rate": 1.1674098115165645e-06,
      "loss": 0.8122,
      "step": 6130
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.479125063445274,
      "learning_rate": 1.166078741776941e-06,
      "loss": 0.7644,
      "step": 6131
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4712448882722124,
      "learning_rate": 1.1647483311328285e-06,
      "loss": 0.8031,
      "step": 6132
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.7592219675683323,
      "learning_rate": 1.1634185798129383e-06,
      "loss": 0.732,
      "step": 6133
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4592308608997964,
      "learning_rate": 1.1620894880458732e-06,
      "loss": 0.8072,
      "step": 6134
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6802134948464071,
      "learning_rate": 1.1607610560601179e-06,
      "loss": 0.8485,
      "step": 6135
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.527768377939536,
      "learning_rate": 1.1594332840840455e-06,
      "loss": 0.8129,
      "step": 6136
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.594323802420623,
      "learning_rate": 1.1581061723459153e-06,
      "loss": 0.7566,
      "step": 6137
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.393739321844352,
      "learning_rate": 1.1567797210738713e-06,
      "loss": 0.7427,
      "step": 6138
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3132165131358984,
      "learning_rate": 1.1554539304959494e-06,
      "loss": 0.7893,
      "step": 6139
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.714312019206943,
      "learning_rate": 1.1541288008400665e-06,
      "loss": 0.8231,
      "step": 6140
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3657919233998754,
      "learning_rate": 1.1528043323340281e-06,
      "loss": 0.6991,
      "step": 6141
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.850498230147523,
      "learning_rate": 1.151480525205525e-06,
      "loss": 0.6195,
      "step": 6142
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6479381576595284,
      "learning_rate": 1.1501573796821348e-06,
      "loss": 0.7787,
      "step": 6143
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.791951035653027,
      "learning_rate": 1.148834895991323e-06,
      "loss": 0.7155,
      "step": 6144
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4623948864612224,
      "learning_rate": 1.147513074360438e-06,
      "loss": 0.7192,
      "step": 6145
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4078087570594024,
      "learning_rate": 1.1461919150167189e-06,
      "loss": 0.6707,
      "step": 6146
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6473952058778443,
      "learning_rate": 1.1448714181872867e-06,
      "loss": 0.7213,
      "step": 6147
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3579894245309985,
      "learning_rate": 1.1435515840991502e-06,
      "loss": 0.7888,
      "step": 6148
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.7467807888594102,
      "learning_rate": 1.1422324129792039e-06,
      "loss": 0.8391,
      "step": 6149
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4129707421642081,
      "learning_rate": 1.1409139050542295e-06,
      "loss": 0.7981,
      "step": 6150
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3389597722768394,
      "learning_rate": 1.1395960605508916e-06,
      "loss": 0.8478,
      "step": 6151
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5491550549816404,
      "learning_rate": 1.1382788796957456e-06,
      "loss": 0.8394,
      "step": 6152
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.464208879208674,
      "learning_rate": 1.1369623627152276e-06,
      "loss": 0.846,
      "step": 6153
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6986474275254473,
      "learning_rate": 1.1356465098356656e-06,
      "loss": 0.8024,
      "step": 6154
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4453084897685557,
      "learning_rate": 1.1343313212832674e-06,
      "loss": 0.7907,
      "step": 6155
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.286406686621138,
      "learning_rate": 1.13301679728413e-06,
      "loss": 0.6784,
      "step": 6156
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4621539549701825,
      "learning_rate": 1.1317029380642353e-06,
      "loss": 0.7628,
      "step": 6157
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8597060336568305,
      "learning_rate": 1.1303897438494503e-06,
      "loss": 0.8612,
      "step": 6158
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8547197309981226,
      "learning_rate": 1.1290772148655278e-06,
      "loss": 0.6025,
      "step": 6159
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.486184845401736,
      "learning_rate": 1.1277653513381083e-06,
      "loss": 0.7983,
      "step": 6160
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9485255630319561,
      "learning_rate": 1.1264541534927148e-06,
      "loss": 0.6866,
      "step": 6161
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6286618680897198,
      "learning_rate": 1.1251436215547596e-06,
      "loss": 0.7053,
      "step": 6162
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4677787254155938,
      "learning_rate": 1.1238337557495372e-06,
      "loss": 0.7899,
      "step": 6163
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6051950468203815,
      "learning_rate": 1.1225245563022285e-06,
      "loss": 0.9118,
      "step": 6164
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5717224291610414,
      "learning_rate": 1.1212160234378999e-06,
      "loss": 0.7635,
      "step": 6165
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8148348174886276,
      "learning_rate": 1.1199081573815023e-06,
      "loss": 0.6517,
      "step": 6166
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3601843474608237,
      "learning_rate": 1.1186009583578761e-06,
      "loss": 0.7688,
      "step": 6167
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4338305511582183,
      "learning_rate": 1.1172944265917419e-06,
      "loss": 0.7469,
      "step": 6168
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.647919087319081,
      "learning_rate": 1.1159885623077076e-06,
      "loss": 0.8712,
      "step": 6169
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6609092525525586,
      "learning_rate": 1.1146833657302659e-06,
      "loss": 0.8061,
      "step": 6170
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3687414744983526,
      "learning_rate": 1.1133788370837972e-06,
      "loss": 0.828,
      "step": 6171
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4439163515859703,
      "learning_rate": 1.1120749765925643e-06,
      "loss": 0.734,
      "step": 6172
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4941549855862322,
      "learning_rate": 1.1107717844807153e-06,
      "loss": 0.7047,
      "step": 6173
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.9397653797202324,
      "learning_rate": 1.1094692609722829e-06,
      "loss": 0.6554,
      "step": 6174
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2978585310448976,
      "learning_rate": 1.108167406291189e-06,
      "loss": 0.8601,
      "step": 6175
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.8118991005791505,
      "learning_rate": 1.1068662206612363e-06,
      "loss": 0.7703,
      "step": 6176
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6068897514349574,
      "learning_rate": 1.1055657043061124e-06,
      "loss": 0.6969,
      "step": 6177
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4528822616592114,
      "learning_rate": 1.104265857449393e-06,
      "loss": 0.7841,
      "step": 6178
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5596901276557393,
      "learning_rate": 1.1029666803145356e-06,
      "loss": 0.7282,
      "step": 6179
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8698526780961755,
      "learning_rate": 1.101668173124883e-06,
      "loss": 0.6506,
      "step": 6180
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4961601849533506,
      "learning_rate": 1.1003703361036644e-06,
      "loss": 0.7859,
      "step": 6181
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6654106100450494,
      "learning_rate": 1.0990731694739947e-06,
      "loss": 0.7487,
      "step": 6182
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4666212307150508,
      "learning_rate": 1.0977766734588707e-06,
      "loss": 0.7957,
      "step": 6183
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.0002578854606297,
      "learning_rate": 1.0964808482811751e-06,
      "loss": 0.7922,
      "step": 6184
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6496710613339158,
      "learning_rate": 1.0951856941636752e-06,
      "loss": 0.848,
      "step": 6185
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6868486648507117,
      "learning_rate": 1.093891211329023e-06,
      "loss": 0.8586,
      "step": 6186
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4047866827095805,
      "learning_rate": 1.0925973999997535e-06,
      "loss": 0.7375,
      "step": 6187
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.0451124280850626,
      "learning_rate": 1.091304260398291e-06,
      "loss": 0.7232,
      "step": 6188
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9121705308902526,
      "learning_rate": 1.0900117927469384e-06,
      "loss": 0.8298,
      "step": 6189
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5389509631635316,
      "learning_rate": 1.088719997267888e-06,
      "loss": 0.7597,
      "step": 6190
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7842222667928597,
      "learning_rate": 1.087428874183214e-06,
      "loss": 0.5897,
      "step": 6191
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8092934308467746,
      "learning_rate": 1.0861384237148749e-06,
      "loss": 0.6716,
      "step": 6192
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.715324558732699,
      "learning_rate": 1.0848486460847135e-06,
      "loss": 0.7584,
      "step": 6193
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4837898064722848,
      "learning_rate": 1.083559541514459e-06,
      "loss": 0.7802,
      "step": 6194
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.408507291119481,
      "learning_rate": 1.0822711102257205e-06,
      "loss": 0.8295,
      "step": 6195
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5238480750432355,
      "learning_rate": 1.0809833524399981e-06,
      "loss": 0.7292,
      "step": 6196
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.8708100948296349,
      "learning_rate": 1.079696268378671e-06,
      "loss": 0.6543,
      "step": 6197
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.317341817813961,
      "learning_rate": 1.0784098582630015e-06,
      "loss": 0.846,
      "step": 6198
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.36476023230202,
      "learning_rate": 1.0771241223141415e-06,
      "loss": 0.7008,
      "step": 6199
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6251276248352642,
      "learning_rate": 1.0758390607531232e-06,
      "loss": 0.7334,
      "step": 6200
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5463426057093728,
      "learning_rate": 1.0745546738008627e-06,
      "loss": 0.6839,
      "step": 6201
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.79100020087073,
      "learning_rate": 1.0732709616781606e-06,
      "loss": 0.6443,
      "step": 6202
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6662298783011904,
      "learning_rate": 1.071987924605704e-06,
      "loss": 0.721,
      "step": 6203
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.421619671388393,
      "learning_rate": 1.0707055628040602e-06,
      "loss": 0.6603,
      "step": 6204
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4287955940765094,
      "learning_rate": 1.0694238764936827e-06,
      "loss": 0.6494,
      "step": 6205
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.636585855756679,
      "learning_rate": 1.0681428658949083e-06,
      "loss": 0.8245,
      "step": 6206
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.332462586515792,
      "learning_rate": 1.0668625312279552e-06,
      "loss": 0.8241,
      "step": 6207
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2668960056489607,
      "learning_rate": 1.0655828727129319e-06,
      "loss": 0.7781,
      "step": 6208
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4191365014611157,
      "learning_rate": 1.0643038905698239e-06,
      "loss": 0.7937,
      "step": 6209
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4168241588736108,
      "learning_rate": 1.0630255850185024e-06,
      "loss": 0.8089,
      "step": 6210
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5127231859848647,
      "learning_rate": 1.0617479562787258e-06,
      "loss": 0.7507,
      "step": 6211
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4796312788083728,
      "learning_rate": 1.060471004570131e-06,
      "loss": 0.751,
      "step": 6212
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4551725886648548,
      "learning_rate": 1.0591947301122424e-06,
      "loss": 0.6929,
      "step": 6213
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3208111776010498,
      "learning_rate": 1.0579191331244648e-06,
      "loss": 0.7301,
      "step": 6214
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.540065535026202,
      "learning_rate": 1.0566442138260885e-06,
      "loss": 0.7869,
      "step": 6215
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4502700813416727,
      "learning_rate": 1.0553699724362866e-06,
      "loss": 0.7242,
      "step": 6216
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4303513109300532,
      "learning_rate": 1.0540964091741157e-06,
      "loss": 0.8221,
      "step": 6217
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.3333940526980093,
      "learning_rate": 1.0528235242585188e-06,
      "loss": 0.8422,
      "step": 6218
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3381350588318999,
      "learning_rate": 1.0515513179083176e-06,
      "loss": 0.7552,
      "step": 6219
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4268055770343837,
      "learning_rate": 1.050279790342219e-06,
      "loss": 0.6724,
      "step": 6220
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7608434973753273,
      "learning_rate": 1.0490089417788135e-06,
      "loss": 0.6182,
      "step": 6221
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2673335573481026,
      "learning_rate": 1.0477387724365752e-06,
      "loss": 0.7174,
      "step": 6222
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3361625370194283,
      "learning_rate": 1.0464692825338584e-06,
      "loss": 0.7617,
      "step": 6223
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5164113043657395,
      "learning_rate": 1.045200472288907e-06,
      "loss": 0.7869,
      "step": 6224
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5329697679137801,
      "learning_rate": 1.0439323419198422e-06,
      "loss": 0.8137,
      "step": 6225
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4002636612244288,
      "learning_rate": 1.0426648916446692e-06,
      "loss": 0.8363,
      "step": 6226
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8286218855936016,
      "learning_rate": 1.0413981216812802e-06,
      "loss": 0.699,
      "step": 6227
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.683425926630093,
      "learning_rate": 1.0401320322474456e-06,
      "loss": 0.8496,
      "step": 6228
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.489676311784446,
      "learning_rate": 1.0388666235608219e-06,
      "loss": 0.768,
      "step": 6229
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2476211481588129,
      "learning_rate": 1.0376018958389472e-06,
      "loss": 0.7895,
      "step": 6230
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7909463321398343,
      "learning_rate": 1.036337849299241e-06,
      "loss": 0.6359,
      "step": 6231
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.272305114199856,
      "learning_rate": 1.0350744841590106e-06,
      "loss": 0.7352,
      "step": 6232
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.337788832138199,
      "learning_rate": 1.0338118006354413e-06,
      "loss": 0.7797,
      "step": 6233
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.265061712109422,
      "learning_rate": 1.032549798945604e-06,
      "loss": 0.7243,
      "step": 6234
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4144915829007216,
      "learning_rate": 1.0312884793064493e-06,
      "loss": 0.8155,
      "step": 6235
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.290016292164917,
      "learning_rate": 1.0300278419348158e-06,
      "loss": 0.7271,
      "step": 6236
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.346108254470629,
      "learning_rate": 1.02876788704742e-06,
      "loss": 0.8637,
      "step": 6237
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.771763428360317,
      "learning_rate": 1.0275086148608614e-06,
      "loss": 0.8385,
      "step": 6238
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5609144187510862,
      "learning_rate": 1.026250025591627e-06,
      "loss": 0.8982,
      "step": 6239
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8238553969509796,
      "learning_rate": 1.0249921194560803e-06,
      "loss": 0.6815,
      "step": 6240
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5600505611429107,
      "learning_rate": 1.0237348966704708e-06,
      "loss": 0.7577,
      "step": 6241
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4836626271628657,
      "learning_rate": 1.022478357450929e-06,
      "loss": 0.7577,
      "step": 6242
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.518743140341507,
      "learning_rate": 1.0212225020134693e-06,
      "loss": 0.8476,
      "step": 6243
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5852678029465335,
      "learning_rate": 1.0199673305739854e-06,
      "loss": 0.7795,
      "step": 6244
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3985382271813431,
      "learning_rate": 1.0187128433482601e-06,
      "loss": 0.7888,
      "step": 6245
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.469315934235605,
      "learning_rate": 1.0174590405519502e-06,
      "loss": 0.7967,
      "step": 6246
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.397828718257173,
      "learning_rate": 1.0162059224006027e-06,
      "loss": 0.863,
      "step": 6247
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5920259401355241,
      "learning_rate": 1.0149534891096408e-06,
      "loss": 0.7548,
      "step": 6248
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4823426901866021,
      "learning_rate": 1.0137017408943729e-06,
      "loss": 0.8625,
      "step": 6249
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.872488108207157,
      "learning_rate": 1.0124506779699882e-06,
      "loss": 0.7766,
      "step": 6250
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4899177731337987,
      "learning_rate": 1.0112003005515603e-06,
      "loss": 0.7885,
      "step": 6251
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5619624288328198,
      "learning_rate": 1.0099506088540418e-06,
      "loss": 0.7409,
      "step": 6252
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.584449242150935,
      "learning_rate": 1.0087016030922709e-06,
      "loss": 0.7561,
      "step": 6253
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7990186184289603,
      "learning_rate": 1.0074532834809647e-06,
      "loss": 0.8655,
      "step": 6254
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3968035772716405,
      "learning_rate": 1.0062056502347257e-06,
      "loss": 0.788,
      "step": 6255
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4858923900240455,
      "learning_rate": 1.0049587035680353e-06,
      "loss": 0.8138,
      "step": 6256
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5086677415835181,
      "learning_rate": 1.003712443695259e-06,
      "loss": 0.7426,
      "step": 6257
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.063900681485184,
      "learning_rate": 1.0024668708306418e-06,
      "loss": 0.9064,
      "step": 6258
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4878702714329939,
      "learning_rate": 1.001221985188312e-06,
      "loss": 0.7877,
      "step": 6259
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.834872104409976,
      "learning_rate": 9.99977786982282e-07,
      "loss": 0.6513,
      "step": 6260
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7939745654104784,
      "learning_rate": 9.987342764264424e-07,
      "loss": 0.8172,
      "step": 6261
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8112906781080023,
      "learning_rate": 9.974914537345675e-07,
      "loss": 0.6947,
      "step": 6262
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6085567513541432,
      "learning_rate": 9.96249319120311e-07,
      "loss": 0.7598,
      "step": 6263
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5454706824937408,
      "learning_rate": 9.95007872797214e-07,
      "loss": 0.7691,
      "step": 6264
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3963301747135815,
      "learning_rate": 9.937671149786933e-07,
      "loss": 0.7129,
      "step": 6265
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.436548896749038,
      "learning_rate": 9.925270458780496e-07,
      "loss": 0.7161,
      "step": 6266
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5026854793992308,
      "learning_rate": 9.91287665708464e-07,
      "loss": 0.7931,
      "step": 6267
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.036412989599903,
      "learning_rate": 9.900489746830034e-07,
      "loss": 0.783,
      "step": 6268
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5494050698536495,
      "learning_rate": 9.888109730146112e-07,
      "loss": 0.8136,
      "step": 6269
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6336163110807707,
      "learning_rate": 9.87573660916114e-07,
      "loss": 0.7776,
      "step": 6270
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.8545556807699095,
      "learning_rate": 9.863370386002214e-07,
      "loss": 0.8292,
      "step": 6271
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3979462276470547,
      "learning_rate": 9.851011062795201e-07,
      "loss": 0.8183,
      "step": 6272
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6924755923545545,
      "learning_rate": 9.83865864166485e-07,
      "loss": 0.8094,
      "step": 6273
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8516007884534227,
      "learning_rate": 9.826313124734654e-07,
      "loss": 0.7047,
      "step": 6274
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4236425694578005,
      "learning_rate": 9.813974514126977e-07,
      "loss": 0.7547,
      "step": 6275
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.640444387070933,
      "learning_rate": 9.801642811962964e-07,
      "loss": 0.7794,
      "step": 6276
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5140982290228968,
      "learning_rate": 9.789318020362564e-07,
      "loss": 0.7903,
      "step": 6277
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.568465323275636,
      "learning_rate": 9.777000141444564e-07,
      "loss": 0.7941,
      "step": 6278
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5153527599097498,
      "learning_rate": 9.764689177326542e-07,
      "loss": 0.7919,
      "step": 6279
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4094477513287662,
      "learning_rate": 9.75238513012488e-07,
      "loss": 0.7797,
      "step": 6280
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.382605319862418,
      "learning_rate": 9.74008800195481e-07,
      "loss": 0.7687,
      "step": 6281
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4926923492264295,
      "learning_rate": 9.727797794930361e-07,
      "loss": 0.8587,
      "step": 6282
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4254796657492508,
      "learning_rate": 9.715514511164343e-07,
      "loss": 0.8371,
      "step": 6283
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4788678420019021,
      "learning_rate": 9.703238152768402e-07,
      "loss": 0.7954,
      "step": 6284
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4409424902675776,
      "learning_rate": 9.690968721852978e-07,
      "loss": 0.7479,
      "step": 6285
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6755882949864978,
      "learning_rate": 9.678706220527333e-07,
      "loss": 0.7362,
      "step": 6286
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8733624834022016,
      "learning_rate": 9.666450650899533e-07,
      "loss": 0.6168,
      "step": 6287
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.8299245014396504,
      "learning_rate": 9.654202015076442e-07,
      "loss": 0.7344,
      "step": 6288
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5849599030921275,
      "learning_rate": 9.641960315163768e-07,
      "loss": 0.7644,
      "step": 6289
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.442301191483504,
      "learning_rate": 9.629725553265983e-07,
      "loss": 0.8792,
      "step": 6290
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.450172389704493,
      "learning_rate": 9.617497731486374e-07,
      "loss": 0.8622,
      "step": 6291
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6020411742895473,
      "learning_rate": 9.605276851927075e-07,
      "loss": 0.8954,
      "step": 6292
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.1472768551700283,
      "learning_rate": 9.593062916688982e-07,
      "loss": 0.7546,
      "step": 6293
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4536550442886926,
      "learning_rate": 9.580855927871808e-07,
      "loss": 0.7624,
      "step": 6294
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4487255011679143,
      "learning_rate": 9.56865588757407e-07,
      "loss": 0.795,
      "step": 6295
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4706251479212757,
      "learning_rate": 9.556462797893113e-07,
      "loss": 0.8641,
      "step": 6296
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6769566952874968,
      "learning_rate": 9.544276660925067e-07,
      "loss": 0.8276,
      "step": 6297
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6033466452893383,
      "learning_rate": 9.532097478764862e-07,
      "loss": 0.6999,
      "step": 6298
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6065017656725242,
      "learning_rate": 9.519925253506246e-07,
      "loss": 0.7401,
      "step": 6299
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5825214554741953,
      "learning_rate": 9.507759987241755e-07,
      "loss": 0.6461,
      "step": 6300
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.680957776337155,
      "learning_rate": 9.495601682062755e-07,
      "loss": 0.6804,
      "step": 6301
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4519366518981494,
      "learning_rate": 9.483450340059386e-07,
      "loss": 0.7294,
      "step": 6302
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4352715386259207,
      "learning_rate": 9.47130596332062e-07,
      "loss": 0.745,
      "step": 6303
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7390511453855466,
      "learning_rate": 9.459168553934211e-07,
      "loss": 0.7528,
      "step": 6304
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5694184701589085,
      "learning_rate": 9.447038113986717e-07,
      "loss": 0.7526,
      "step": 6305
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.3094178849853937,
      "learning_rate": 9.434914645563498e-07,
      "loss": 0.8596,
      "step": 6306
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7397775942512264,
      "learning_rate": 9.422798150748724e-07,
      "loss": 0.7484,
      "step": 6307
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5947889040191976,
      "learning_rate": 9.410688631625364e-07,
      "loss": 0.8059,
      "step": 6308
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.388454731346832,
      "learning_rate": 9.398586090275164e-07,
      "loss": 0.7491,
      "step": 6309
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8292856512606801,
      "learning_rate": 9.386490528778702e-07,
      "loss": 0.7217,
      "step": 6310
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8128095765368455,
      "learning_rate": 9.374401949215367e-07,
      "loss": 0.8315,
      "step": 6311
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5123757689335278,
      "learning_rate": 9.362320353663313e-07,
      "loss": 0.7786,
      "step": 6312
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5225083367069234,
      "learning_rate": 9.350245744199499e-07,
      "loss": 0.6966,
      "step": 6313
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6321436914177325,
      "learning_rate": 9.338178122899693e-07,
      "loss": 0.7938,
      "step": 6314
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5057093638152002,
      "learning_rate": 9.32611749183846e-07,
      "loss": 0.7522,
      "step": 6315
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.350413944852883,
      "learning_rate": 9.31406385308915e-07,
      "loss": 0.7654,
      "step": 6316
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.434186322313224,
      "learning_rate": 9.302017208723951e-07,
      "loss": 0.7937,
      "step": 6317
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5741409595035292,
      "learning_rate": 9.289977560813789e-07,
      "loss": 0.7942,
      "step": 6318
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8582264199720572,
      "learning_rate": 9.27794491142845e-07,
      "loss": 0.6617,
      "step": 6319
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5453538777035176,
      "learning_rate": 9.265919262636469e-07,
      "loss": 0.7464,
      "step": 6320
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6800737744544598,
      "learning_rate": 9.253900616505202e-07,
      "loss": 0.8426,
      "step": 6321
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2790912877259777,
      "learning_rate": 9.241888975100782e-07,
      "loss": 0.8826,
      "step": 6322
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.396156456229413,
      "learning_rate": 9.229884340488149e-07,
      "loss": 0.8171,
      "step": 6323
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7385599121784936,
      "learning_rate": 9.217886714731056e-07,
      "loss": 0.7942,
      "step": 6324
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3831948831050043,
      "learning_rate": 9.205896099892019e-07,
      "loss": 0.8387,
      "step": 6325
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8247784197082916,
      "learning_rate": 9.193912498032376e-07,
      "loss": 0.7,
      "step": 6326
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.345356963954045,
      "learning_rate": 9.181935911212231e-07,
      "loss": 0.7709,
      "step": 6327
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.460909385870723,
      "learning_rate": 9.169966341490499e-07,
      "loss": 0.7994,
      "step": 6328
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.9260700903885506,
      "learning_rate": 9.158003790924908e-07,
      "loss": 0.7257,
      "step": 6329
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.31594078122899,
      "learning_rate": 9.146048261571944e-07,
      "loss": 0.6877,
      "step": 6330
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6041569702423832,
      "learning_rate": 9.134099755486892e-07,
      "loss": 0.8735,
      "step": 6331
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4529914084981874,
      "learning_rate": 9.122158274723863e-07,
      "loss": 0.769,
      "step": 6332
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.343175217705193,
      "learning_rate": 9.110223821335723e-07,
      "loss": 0.718,
      "step": 6333
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.6487088949210387,
      "learning_rate": 9.098296397374146e-07,
      "loss": 0.8056,
      "step": 6334
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3100128243074989,
      "learning_rate": 9.086376004889591e-07,
      "loss": 0.8051,
      "step": 6335
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7454050603560305,
      "learning_rate": 9.074462645931309e-07,
      "loss": 0.8013,
      "step": 6336
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5455726443705615,
      "learning_rate": 9.062556322547333e-07,
      "loss": 0.7625,
      "step": 6337
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8923785550842911,
      "learning_rate": 9.050657036784516e-07,
      "loss": 0.7656,
      "step": 6338
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3291591183082074,
      "learning_rate": 9.038764790688492e-07,
      "loss": 0.7676,
      "step": 6339
    },
    {
      "epoch": 0.81,
      "grad_norm": 4.245248153492193,
      "learning_rate": 9.026879586303666e-07,
      "loss": 0.8668,
      "step": 6340
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3471685199953123,
      "learning_rate": 9.015001425673242e-07,
      "loss": 0.8102,
      "step": 6341
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.611887411734436,
      "learning_rate": 9.003130310839203e-07,
      "loss": 0.8041,
      "step": 6342
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4740953152494123,
      "learning_rate": 8.99126624384235e-07,
      "loss": 0.8128,
      "step": 6343
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5485977549843541,
      "learning_rate": 8.979409226722224e-07,
      "loss": 0.8499,
      "step": 6344
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4262079995892734,
      "learning_rate": 8.967559261517217e-07,
      "loss": 0.8036,
      "step": 6345
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3400322614146147,
      "learning_rate": 8.955716350264454e-07,
      "loss": 0.7951,
      "step": 6346
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7644847533329235,
      "learning_rate": 8.943880494999884e-07,
      "loss": 0.7832,
      "step": 6347
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3024164074499618,
      "learning_rate": 8.932051697758227e-07,
      "loss": 0.78,
      "step": 6348
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8795605837308667,
      "learning_rate": 8.920229960572973e-07,
      "loss": 0.8874,
      "step": 6349
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.731820840137887,
      "learning_rate": 8.908415285476435e-07,
      "loss": 0.8219,
      "step": 6350
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8651090290606183,
      "learning_rate": 8.89660767449968e-07,
      "loss": 0.7567,
      "step": 6351
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.558728936275959,
      "learning_rate": 8.884807129672568e-07,
      "loss": 0.8192,
      "step": 6352
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2830966467192508,
      "learning_rate": 8.873013653023765e-07,
      "loss": 0.7945,
      "step": 6353
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6080880197434462,
      "learning_rate": 8.861227246580706e-07,
      "loss": 0.7676,
      "step": 6354
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5048162451148535,
      "learning_rate": 8.849447912369591e-07,
      "loss": 0.7133,
      "step": 6355
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5446650753453963,
      "learning_rate": 8.837675652415451e-07,
      "loss": 0.7595,
      "step": 6356
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6161995623084628,
      "learning_rate": 8.82591046874206e-07,
      "loss": 0.7831,
      "step": 6357
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2726785030368466,
      "learning_rate": 8.814152363371992e-07,
      "loss": 0.8369,
      "step": 6358
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6767968488803553,
      "learning_rate": 8.802401338326582e-07,
      "loss": 0.7884,
      "step": 6359
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7069955086569366,
      "learning_rate": 8.790657395626001e-07,
      "loss": 0.8174,
      "step": 6360
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8770208419607802,
      "learning_rate": 8.778920537289154e-07,
      "loss": 0.6332,
      "step": 6361
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4989153234535202,
      "learning_rate": 8.767190765333744e-07,
      "loss": 0.7671,
      "step": 6362
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8318945997432509,
      "learning_rate": 8.755468081776252e-07,
      "loss": 0.6896,
      "step": 6363
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5083454240579595,
      "learning_rate": 8.743752488631946e-07,
      "loss": 0.9229,
      "step": 6364
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.8878881172740422,
      "learning_rate": 8.732043987914856e-07,
      "loss": 0.6907,
      "step": 6365
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8989169707341622,
      "learning_rate": 8.720342581637836e-07,
      "loss": 0.7491,
      "step": 6366
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4901430433893759,
      "learning_rate": 8.708648271812469e-07,
      "loss": 0.8646,
      "step": 6367
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7939933762467049,
      "learning_rate": 8.696961060449166e-07,
      "loss": 0.8131,
      "step": 6368
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.591822307095264,
      "learning_rate": 8.685280949557084e-07,
      "loss": 0.7553,
      "step": 6369
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.693336747049562,
      "learning_rate": 8.673607941144169e-07,
      "loss": 0.7966,
      "step": 6370
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4497258830642978,
      "learning_rate": 8.661942037217141e-07,
      "loss": 0.8765,
      "step": 6371
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9655277538544016,
      "learning_rate": 8.650283239781515e-07,
      "loss": 0.7576,
      "step": 6372
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.402437846991173,
      "learning_rate": 8.638631550841553e-07,
      "loss": 0.6635,
      "step": 6373
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.281745659498464,
      "learning_rate": 8.626986972400326e-07,
      "loss": 0.7506,
      "step": 6374
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3082379976639775,
      "learning_rate": 8.615349506459691e-07,
      "loss": 0.7507,
      "step": 6375
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3608190359108876,
      "learning_rate": 8.603719155020246e-07,
      "loss": 0.8388,
      "step": 6376
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4231772775217162,
      "learning_rate": 8.592095920081383e-07,
      "loss": 0.8105,
      "step": 6377
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.389438807693637,
      "learning_rate": 8.580479803641279e-07,
      "loss": 0.6946,
      "step": 6378
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7664921886571057,
      "learning_rate": 8.568870807696872e-07,
      "loss": 0.7851,
      "step": 6379
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8368172869549565,
      "learning_rate": 8.557268934243868e-07,
      "loss": 0.6764,
      "step": 6380
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8614245052451581,
      "learning_rate": 8.545674185276792e-07,
      "loss": 0.6644,
      "step": 6381
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5088208299562391,
      "learning_rate": 8.534086562788907e-07,
      "loss": 0.7107,
      "step": 6382
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4524828001407668,
      "learning_rate": 8.52250606877224e-07,
      "loss": 0.7425,
      "step": 6383
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6381809204440836,
      "learning_rate": 8.510932705217645e-07,
      "loss": 0.7407,
      "step": 6384
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5100972044225442,
      "learning_rate": 8.499366474114695e-07,
      "loss": 0.8587,
      "step": 6385
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4243658361312581,
      "learning_rate": 8.487807377451767e-07,
      "loss": 0.7179,
      "step": 6386
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8402848356165606,
      "learning_rate": 8.476255417216007e-07,
      "loss": 0.6219,
      "step": 6387
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4035972879053706,
      "learning_rate": 8.464710595393306e-07,
      "loss": 0.7762,
      "step": 6388
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3930726307739976,
      "learning_rate": 8.453172913968382e-07,
      "loss": 0.8213,
      "step": 6389
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4328358277445177,
      "learning_rate": 8.441642374924692e-07,
      "loss": 0.8222,
      "step": 6390
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5540510204508864,
      "learning_rate": 8.430118980244462e-07,
      "loss": 0.7677,
      "step": 6391
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3994567697060385,
      "learning_rate": 8.418602731908687e-07,
      "loss": 0.8002,
      "step": 6392
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4467915708990315,
      "learning_rate": 8.407093631897168e-07,
      "loss": 0.7998,
      "step": 6393
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4234027225381218,
      "learning_rate": 8.395591682188442e-07,
      "loss": 0.8209,
      "step": 6394
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.803862169224388,
      "learning_rate": 8.384096884759807e-07,
      "loss": 0.6987,
      "step": 6395
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.756670633274685,
      "learning_rate": 8.372609241587387e-07,
      "loss": 0.901,
      "step": 6396
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4286763856157927,
      "learning_rate": 8.361128754646025e-07,
      "loss": 0.7251,
      "step": 6397
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8317705299314762,
      "learning_rate": 8.349655425909348e-07,
      "loss": 0.638,
      "step": 6398
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5379244511679306,
      "learning_rate": 8.338189257349755e-07,
      "loss": 0.7612,
      "step": 6399
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.765743451925687,
      "learning_rate": 8.326730250938414e-07,
      "loss": 0.7683,
      "step": 6400
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.139909528052308,
      "learning_rate": 8.31527840864525e-07,
      "loss": 0.6952,
      "step": 6401
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.605012601608649,
      "learning_rate": 8.303833732438988e-07,
      "loss": 0.7966,
      "step": 6402
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.525710549931077,
      "learning_rate": 8.29239622428708e-07,
      "loss": 0.8414,
      "step": 6403
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3630725797649381,
      "learning_rate": 8.280965886155789e-07,
      "loss": 0.7405,
      "step": 6404
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8287540031770775,
      "learning_rate": 8.26954272001011e-07,
      "loss": 0.7325,
      "step": 6405
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.531990875730147,
      "learning_rate": 8.25812672781382e-07,
      "loss": 0.7562,
      "step": 6406
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.439623316091855,
      "learning_rate": 8.246717911529456e-07,
      "loss": 0.8029,
      "step": 6407
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.8321417266998107,
      "learning_rate": 8.235316273118333e-07,
      "loss": 0.6441,
      "step": 6408
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3928864590487773,
      "learning_rate": 8.223921814540503e-07,
      "loss": 0.7318,
      "step": 6409
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7886835928275568,
      "learning_rate": 8.212534537754841e-07,
      "loss": 0.6825,
      "step": 6410
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3938284598019064,
      "learning_rate": 8.201154444718917e-07,
      "loss": 0.7159,
      "step": 6411
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4587342859217751,
      "learning_rate": 8.189781537389135e-07,
      "loss": 0.8223,
      "step": 6412
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3732804325345493,
      "learning_rate": 8.178415817720609e-07,
      "loss": 0.8572,
      "step": 6413
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.565396327434561,
      "learning_rate": 8.16705728766724e-07,
      "loss": 0.8402,
      "step": 6414
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.527901744455671,
      "learning_rate": 8.155705949181691e-07,
      "loss": 0.8065,
      "step": 6415
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4803353336334948,
      "learning_rate": 8.144361804215384e-07,
      "loss": 0.8177,
      "step": 6416
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.622409669809874,
      "learning_rate": 8.133024854718524e-07,
      "loss": 0.8252,
      "step": 6417
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4748084725017914,
      "learning_rate": 8.121695102640053e-07,
      "loss": 0.7995,
      "step": 6418
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.532139361869222,
      "learning_rate": 8.110372549927692e-07,
      "loss": 0.8503,
      "step": 6419
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3595894122451997,
      "learning_rate": 8.099057198527899e-07,
      "loss": 0.784,
      "step": 6420
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4306860281209457,
      "learning_rate": 8.087749050385952e-07,
      "loss": 0.8257,
      "step": 6421
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6293718011741236,
      "learning_rate": 8.076448107445822e-07,
      "loss": 0.8174,
      "step": 6422
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7665244674036078,
      "learning_rate": 8.065154371650286e-07,
      "loss": 0.7784,
      "step": 6423
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6440298160372802,
      "learning_rate": 8.053867844940855e-07,
      "loss": 0.8175,
      "step": 6424
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5142268454600436,
      "learning_rate": 8.042588529257828e-07,
      "loss": 0.8156,
      "step": 6425
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9378405208020162,
      "learning_rate": 8.031316426540254e-07,
      "loss": 0.7541,
      "step": 6426
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4986422990098995,
      "learning_rate": 8.02005153872592e-07,
      "loss": 0.8556,
      "step": 6427
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6960866733024564,
      "learning_rate": 8.008793867751402e-07,
      "loss": 0.8464,
      "step": 6428
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5180835461970967,
      "learning_rate": 7.997543415552011e-07,
      "loss": 0.7979,
      "step": 6429
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9839205650859357,
      "learning_rate": 7.986300184061857e-07,
      "loss": 0.765,
      "step": 6430
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4011016996109071,
      "learning_rate": 7.975064175213748e-07,
      "loss": 0.8776,
      "step": 6431
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.593231445358299,
      "learning_rate": 7.963835390939317e-07,
      "loss": 0.7923,
      "step": 6432
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4588419748144406,
      "learning_rate": 7.952613833168909e-07,
      "loss": 0.8391,
      "step": 6433
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4402323837770308,
      "learning_rate": 7.941399503831637e-07,
      "loss": 0.7044,
      "step": 6434
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.322318377746103,
      "learning_rate": 7.930192404855375e-07,
      "loss": 0.7792,
      "step": 6435
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5629992634897636,
      "learning_rate": 7.918992538166753e-07,
      "loss": 0.8364,
      "step": 6436
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0607937190378482,
      "learning_rate": 7.907799905691144e-07,
      "loss": 0.6631,
      "step": 6437
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.843099656117155,
      "learning_rate": 7.896614509352724e-07,
      "loss": 0.6676,
      "step": 6438
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5381724981543323,
      "learning_rate": 7.885436351074355e-07,
      "loss": 0.8305,
      "step": 6439
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.975950478245106,
      "learning_rate": 7.874265432777728e-07,
      "loss": 0.6565,
      "step": 6440
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5275269345943963,
      "learning_rate": 7.863101756383235e-07,
      "loss": 0.7296,
      "step": 6441
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3952095108440066,
      "learning_rate": 7.851945323810045e-07,
      "loss": 0.7451,
      "step": 6442
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.731365685081844,
      "learning_rate": 7.840796136976075e-07,
      "loss": 0.7582,
      "step": 6443
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6545372118932575,
      "learning_rate": 7.829654197797998e-07,
      "loss": 0.8449,
      "step": 6444
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6536923067502,
      "learning_rate": 7.818519508191236e-07,
      "loss": 0.8715,
      "step": 6445
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.615997679828022,
      "learning_rate": 7.807392070069992e-07,
      "loss": 0.6827,
      "step": 6446
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3859096874252799,
      "learning_rate": 7.796271885347189e-07,
      "loss": 0.7474,
      "step": 6447
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7219198052578666,
      "learning_rate": 7.785158955934508e-07,
      "loss": 0.7243,
      "step": 6448
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5850466822355547,
      "learning_rate": 7.774053283742406e-07,
      "loss": 0.7737,
      "step": 6449
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5398143096844645,
      "learning_rate": 7.762954870680067e-07,
      "loss": 0.7757,
      "step": 6450
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4893436764803099,
      "learning_rate": 7.751863718655444e-07,
      "loss": 0.8372,
      "step": 6451
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6139937378791005,
      "learning_rate": 7.740779829575218e-07,
      "loss": 0.7007,
      "step": 6452
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4086274473286389,
      "learning_rate": 7.729703205344863e-07,
      "loss": 0.7478,
      "step": 6453
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4680215703240662,
      "learning_rate": 7.718633847868568e-07,
      "loss": 0.8234,
      "step": 6454
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7719622888483579,
      "learning_rate": 7.707571759049281e-07,
      "loss": 0.6925,
      "step": 6455
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.405598998436967,
      "learning_rate": 7.696516940788701e-07,
      "loss": 0.7741,
      "step": 6456
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5064852499876218,
      "learning_rate": 7.685469394987271e-07,
      "loss": 0.826,
      "step": 6457
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.512476035463748,
      "learning_rate": 7.67442912354422e-07,
      "loss": 0.8174,
      "step": 6458
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2119538700881631,
      "learning_rate": 7.663396128357481e-07,
      "loss": 0.5533,
      "step": 6459
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.299088149594322,
      "learning_rate": 7.652370411323745e-07,
      "loss": 0.8307,
      "step": 6460
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.388460179956495,
      "learning_rate": 7.641351974338478e-07,
      "loss": 0.7169,
      "step": 6461
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7925999645250855,
      "learning_rate": 7.630340819295879e-07,
      "loss": 0.6241,
      "step": 6462
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.9110545603853974,
      "learning_rate": 7.619336948088879e-07,
      "loss": 0.802,
      "step": 6463
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3186922454288648,
      "learning_rate": 7.608340362609174e-07,
      "loss": 0.7313,
      "step": 6464
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6646761529461733,
      "learning_rate": 7.597351064747211e-07,
      "loss": 0.9124,
      "step": 6465
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5440528758205043,
      "learning_rate": 7.586369056392162e-07,
      "loss": 0.8106,
      "step": 6466
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5858995174171422,
      "learning_rate": 7.575394339431969e-07,
      "loss": 0.8233,
      "step": 6467
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7051720453417563,
      "learning_rate": 7.564426915753331e-07,
      "loss": 0.8489,
      "step": 6468
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5266534776496905,
      "learning_rate": 7.553466787241665e-07,
      "loss": 0.8108,
      "step": 6469
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.36911663249557,
      "learning_rate": 7.542513955781139e-07,
      "loss": 0.7122,
      "step": 6470
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.369549303981371,
      "learning_rate": 7.53156842325467e-07,
      "loss": 0.7205,
      "step": 6471
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6271844441449816,
      "learning_rate": 7.520630191543932e-07,
      "loss": 0.8284,
      "step": 6472
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8917645370646696,
      "learning_rate": 7.509699262529308e-07,
      "loss": 0.7329,
      "step": 6473
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4347436115858745,
      "learning_rate": 7.498775638089989e-07,
      "loss": 0.7267,
      "step": 6474
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6222614766993346,
      "learning_rate": 7.487859320103847e-07,
      "loss": 0.8806,
      "step": 6475
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8753504560750682,
      "learning_rate": 7.476950310447523e-07,
      "loss": 0.6257,
      "step": 6476
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7776427334668443,
      "learning_rate": 7.466048610996423e-07,
      "loss": 0.8007,
      "step": 6477
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5678679597808007,
      "learning_rate": 7.455154223624661e-07,
      "loss": 0.8552,
      "step": 6478
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7091857520087221,
      "learning_rate": 7.444267150205108e-07,
      "loss": 0.8416,
      "step": 6479
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.684066674319313,
      "learning_rate": 7.433387392609387e-07,
      "loss": 0.8087,
      "step": 6480
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.1922203750206952,
      "learning_rate": 7.422514952707832e-07,
      "loss": 0.7655,
      "step": 6481
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3805132951572043,
      "learning_rate": 7.411649832369566e-07,
      "loss": 0.7401,
      "step": 6482
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3673686675844077,
      "learning_rate": 7.400792033462428e-07,
      "loss": 0.7081,
      "step": 6483
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7961720564988672,
      "learning_rate": 7.389941557852987e-07,
      "loss": 0.6804,
      "step": 6484
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.2014580381700872,
      "learning_rate": 7.379098407406554e-07,
      "loss": 0.7582,
      "step": 6485
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.54714111338426,
      "learning_rate": 7.368262583987229e-07,
      "loss": 0.8637,
      "step": 6486
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5648208531205854,
      "learning_rate": 7.357434089457788e-07,
      "loss": 0.7234,
      "step": 6487
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5693651318245332,
      "learning_rate": 7.346612925679774e-07,
      "loss": 0.7872,
      "step": 6488
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4019098765272133,
      "learning_rate": 7.33579909451349e-07,
      "loss": 0.7876,
      "step": 6489
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.523156861107383,
      "learning_rate": 7.324992597817948e-07,
      "loss": 0.7571,
      "step": 6490
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8682477991669422,
      "learning_rate": 7.314193437450911e-07,
      "loss": 0.6535,
      "step": 6491
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5462636549892859,
      "learning_rate": 7.30340161526888e-07,
      "loss": 0.8049,
      "step": 6492
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6699695529749474,
      "learning_rate": 7.292617133127083e-07,
      "loss": 0.8895,
      "step": 6493
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8590630607474891,
      "learning_rate": 7.281839992879503e-07,
      "loss": 0.5902,
      "step": 6494
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.6396931906542336,
      "learning_rate": 7.271070196378859e-07,
      "loss": 0.8404,
      "step": 6495
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4137976118595879,
      "learning_rate": 7.260307745476619e-07,
      "loss": 0.7639,
      "step": 6496
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8685028215570039,
      "learning_rate": 7.249552642022956e-07,
      "loss": 0.6885,
      "step": 6497
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5345469579578337,
      "learning_rate": 7.238804887866796e-07,
      "loss": 0.7244,
      "step": 6498
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8226172218994898,
      "learning_rate": 7.228064484855807e-07,
      "loss": 0.6219,
      "step": 6499
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7129715804906969,
      "learning_rate": 7.217331434836395e-07,
      "loss": 0.7961,
      "step": 6500
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8855585504566723,
      "learning_rate": 7.206605739653683e-07,
      "loss": 0.8537,
      "step": 6501
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.8578051111114702,
      "learning_rate": 7.195887401151536e-07,
      "loss": 0.7895,
      "step": 6502
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.227738607176327,
      "learning_rate": 7.185176421172573e-07,
      "loss": 0.7533,
      "step": 6503
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.0967623326835048,
      "learning_rate": 7.174472801558147e-07,
      "loss": 0.7895,
      "step": 6504
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.338812684107665,
      "learning_rate": 7.163776544148321e-07,
      "loss": 0.8372,
      "step": 6505
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.351243878398751,
      "learning_rate": 7.153087650781909e-07,
      "loss": 0.781,
      "step": 6506
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8724958841579896,
      "learning_rate": 7.142406123296452e-07,
      "loss": 0.7169,
      "step": 6507
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5628262826043802,
      "learning_rate": 7.131731963528232e-07,
      "loss": 0.6591,
      "step": 6508
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.627146397651058,
      "learning_rate": 7.121065173312253e-07,
      "loss": 0.8919,
      "step": 6509
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.7511818279987237,
      "learning_rate": 7.110405754482269e-07,
      "loss": 0.8553,
      "step": 6510
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9540574445399858,
      "learning_rate": 7.09975370887076e-07,
      "loss": 0.6385,
      "step": 6511
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4187047083649655,
      "learning_rate": 7.089109038308928e-07,
      "loss": 0.84,
      "step": 6512
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.9670729321658604,
      "learning_rate": 7.078471744626708e-07,
      "loss": 0.7677,
      "step": 6513
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6509699351198912,
      "learning_rate": 7.067841829652794e-07,
      "loss": 0.7628,
      "step": 6514
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.752597194412098,
      "learning_rate": 7.057219295214579e-07,
      "loss": 0.7214,
      "step": 6515
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4932548236565233,
      "learning_rate": 7.046604143138198e-07,
      "loss": 0.756,
      "step": 6516
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.963744562296293,
      "learning_rate": 7.035996375248527e-07,
      "loss": 0.6644,
      "step": 6517
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3329528535266446,
      "learning_rate": 7.025395993369166e-07,
      "loss": 0.8334,
      "step": 6518
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5288581345018506,
      "learning_rate": 7.01480299932244e-07,
      "loss": 0.8635,
      "step": 6519
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4691833661156624,
      "learning_rate": 7.004217394929402e-07,
      "loss": 0.8283,
      "step": 6520
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.6813466385593114,
      "learning_rate": 6.993639182009843e-07,
      "loss": 0.8121,
      "step": 6521
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4744879300541536,
      "learning_rate": 6.983068362382272e-07,
      "loss": 0.7056,
      "step": 6522
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.7580011877107448,
      "learning_rate": 6.972504937863955e-07,
      "loss": 0.6761,
      "step": 6523
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7225585845275184,
      "learning_rate": 6.961948910270844e-07,
      "loss": 0.8266,
      "step": 6524
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.622634906915113,
      "learning_rate": 6.951400281417669e-07,
      "loss": 0.7687,
      "step": 6525
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.641721170401567,
      "learning_rate": 6.940859053117843e-07,
      "loss": 0.8001,
      "step": 6526
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5987649169374096,
      "learning_rate": 6.930325227183537e-07,
      "loss": 0.8833,
      "step": 6527
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5583253185294061,
      "learning_rate": 6.919798805425626e-07,
      "loss": 0.7677,
      "step": 6528
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3358715176681895,
      "learning_rate": 6.909279789653734e-07,
      "loss": 0.7846,
      "step": 6529
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.494515326844921,
      "learning_rate": 6.89876818167618e-07,
      "loss": 0.8444,
      "step": 6530
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.3392532486645137,
      "learning_rate": 6.888263983300048e-07,
      "loss": 0.7255,
      "step": 6531
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8345484238974171,
      "learning_rate": 6.877767196331147e-07,
      "loss": 0.6945,
      "step": 6532
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3732669006639593,
      "learning_rate": 6.867277822573975e-07,
      "loss": 0.7708,
      "step": 6533
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3492480487063503,
      "learning_rate": 6.856795863831789e-07,
      "loss": 0.7636,
      "step": 6534
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4362500995953227,
      "learning_rate": 6.846321321906551e-07,
      "loss": 0.8157,
      "step": 6535
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0147877448847216,
      "learning_rate": 6.835854198598957e-07,
      "loss": 0.9083,
      "step": 6536
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.242706826995213,
      "learning_rate": 6.825394495708415e-07,
      "loss": 0.7585,
      "step": 6537
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7662250456434894,
      "learning_rate": 6.814942215033099e-07,
      "loss": 0.7876,
      "step": 6538
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9348363310452965,
      "learning_rate": 6.804497358369855e-07,
      "loss": 0.7654,
      "step": 6539
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5274043260375065,
      "learning_rate": 6.794059927514268e-07,
      "loss": 0.7245,
      "step": 6540
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5245316468972083,
      "learning_rate": 6.783629924260682e-07,
      "loss": 0.7638,
      "step": 6541
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.40500423132708,
      "learning_rate": 6.773207350402117e-07,
      "loss": 0.7292,
      "step": 6542
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7702335164960659,
      "learning_rate": 6.762792207730334e-07,
      "loss": 0.8347,
      "step": 6543
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4505797856104294,
      "learning_rate": 6.752384498035824e-07,
      "loss": 0.7457,
      "step": 6544
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8904437736754194,
      "learning_rate": 6.741984223107773e-07,
      "loss": 0.8967,
      "step": 6545
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3797544586843373,
      "learning_rate": 6.731591384734138e-07,
      "loss": 0.7816,
      "step": 6546
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8121748387564603,
      "learning_rate": 6.721205984701551e-07,
      "loss": 0.6492,
      "step": 6547
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6420534565488951,
      "learning_rate": 6.71082802479539e-07,
      "loss": 0.7823,
      "step": 6548
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8491862019761981,
      "learning_rate": 6.70045750679974e-07,
      "loss": 0.6497,
      "step": 6549
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5758449133326724,
      "learning_rate": 6.690094432497407e-07,
      "loss": 0.6746,
      "step": 6550
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.482623670153256,
      "learning_rate": 6.679738803669944e-07,
      "loss": 0.8884,
      "step": 6551
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8002984372111147,
      "learning_rate": 6.669390622097577e-07,
      "loss": 0.6549,
      "step": 6552
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3952673676361014,
      "learning_rate": 6.65904988955931e-07,
      "loss": 0.7055,
      "step": 6553
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3848814328347325,
      "learning_rate": 6.648716607832811e-07,
      "loss": 0.81,
      "step": 6554
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.496110571186957,
      "learning_rate": 6.638390778694504e-07,
      "loss": 0.7627,
      "step": 6555
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5856687483051315,
      "learning_rate": 6.628072403919511e-07,
      "loss": 0.7512,
      "step": 6556
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4115258616167017,
      "learning_rate": 6.617761485281687e-07,
      "loss": 0.7695,
      "step": 6557
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4749563876008862,
      "learning_rate": 6.607458024553576e-07,
      "loss": 0.7678,
      "step": 6558
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9139950719854286,
      "learning_rate": 6.597162023506492e-07,
      "loss": 0.781,
      "step": 6559
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7470991683257945,
      "learning_rate": 6.586873483910416e-07,
      "loss": 0.635,
      "step": 6560
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9163938560646521,
      "learning_rate": 6.576592407534088e-07,
      "loss": 0.7489,
      "step": 6561
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7601397634084224,
      "learning_rate": 6.566318796144933e-07,
      "loss": 0.7475,
      "step": 6562
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4934547320584546,
      "learning_rate": 6.556052651509104e-07,
      "loss": 0.8079,
      "step": 6563
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3821779016706137,
      "learning_rate": 6.545793975391468e-07,
      "loss": 0.7347,
      "step": 6564
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6831233020577225,
      "learning_rate": 6.535542769555609e-07,
      "loss": 0.7659,
      "step": 6565
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.473085868189056,
      "learning_rate": 6.525299035763827e-07,
      "loss": 0.6979,
      "step": 6566
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.5241865941649424,
      "learning_rate": 6.515062775777148e-07,
      "loss": 0.7469,
      "step": 6567
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.6548281536852647,
      "learning_rate": 6.504833991355292e-07,
      "loss": 0.7296,
      "step": 6568
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4970000583381577,
      "learning_rate": 6.494612684256718e-07,
      "loss": 0.8192,
      "step": 6569
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5950632041882453,
      "learning_rate": 6.484398856238582e-07,
      "loss": 0.8579,
      "step": 6570
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8613356432985247,
      "learning_rate": 6.474192509056759e-07,
      "loss": 0.6099,
      "step": 6571
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9279364776785048,
      "learning_rate": 6.463993644465843e-07,
      "loss": 0.7485,
      "step": 6572
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5941909598642572,
      "learning_rate": 6.453802264219117e-07,
      "loss": 0.8467,
      "step": 6573
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.394148458516519,
      "learning_rate": 6.443618370068622e-07,
      "loss": 0.768,
      "step": 6574
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8772654728447542,
      "learning_rate": 6.43344196376508e-07,
      "loss": 0.799,
      "step": 6575
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5744658982530126,
      "learning_rate": 6.423273047057932e-07,
      "loss": 0.7091,
      "step": 6576
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8213345439185307,
      "learning_rate": 6.413111621695322e-07,
      "loss": 0.8327,
      "step": 6577
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.173510082832456,
      "learning_rate": 6.402957689424139e-07,
      "loss": 0.6626,
      "step": 6578
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.899834434641758,
      "learning_rate": 6.392811251989944e-07,
      "loss": 0.8025,
      "step": 6579
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4039184882985198,
      "learning_rate": 6.382672311137039e-07,
      "loss": 0.7438,
      "step": 6580
    },
    {
      "epoch": 0.84,
      "grad_norm": 4.625808163799446,
      "learning_rate": 6.372540868608401e-07,
      "loss": 0.7855,
      "step": 6581
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5646804503196614,
      "learning_rate": 6.362416926145775e-07,
      "loss": 0.8049,
      "step": 6582
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.9454352456969692,
      "learning_rate": 6.352300485489571e-07,
      "loss": 0.7294,
      "step": 6583
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.421521749528032,
      "learning_rate": 6.342191548378923e-07,
      "loss": 0.7709,
      "step": 6584
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.7989570655569218,
      "learning_rate": 6.33209011655167e-07,
      "loss": 0.6558,
      "step": 6585
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4971192623877962,
      "learning_rate": 6.321996191744368e-07,
      "loss": 0.8253,
      "step": 6586
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3460455950683092,
      "learning_rate": 6.311909775692265e-07,
      "loss": 0.6428,
      "step": 6587
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.204123127785727,
      "learning_rate": 6.301830870129349e-07,
      "loss": 0.873,
      "step": 6588
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.9470868327359334,
      "learning_rate": 6.291759476788312e-07,
      "loss": 0.7163,
      "step": 6589
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.0180699480807536,
      "learning_rate": 6.281695597400533e-07,
      "loss": 0.84,
      "step": 6590
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.8807090541647893,
      "learning_rate": 6.271639233696103e-07,
      "loss": 0.8301,
      "step": 6591
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5477419038995888,
      "learning_rate": 6.261590387403832e-07,
      "loss": 0.7815,
      "step": 6592
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5166348026848897,
      "learning_rate": 6.251549060251233e-07,
      "loss": 0.7191,
      "step": 6593
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4230564215396975,
      "learning_rate": 6.241515253964515e-07,
      "loss": 0.7317,
      "step": 6594
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4593043570941977,
      "learning_rate": 6.231488970268628e-07,
      "loss": 0.7036,
      "step": 6595
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5176987163129172,
      "learning_rate": 6.221470210887182e-07,
      "loss": 0.9855,
      "step": 6596
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5986870804600606,
      "learning_rate": 6.211458977542545e-07,
      "loss": 0.8435,
      "step": 6597
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6190154885151853,
      "learning_rate": 6.201455271955747e-07,
      "loss": 0.764,
      "step": 6598
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.478297256985788,
      "learning_rate": 6.191459095846547e-07,
      "loss": 0.72,
      "step": 6599
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4377040626427722,
      "learning_rate": 6.181470450933397e-07,
      "loss": 0.7787,
      "step": 6600
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.1420174973290087,
      "learning_rate": 6.171489338933467e-07,
      "loss": 0.8437,
      "step": 6601
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4448941965430344,
      "learning_rate": 6.161515761562614e-07,
      "loss": 0.7552,
      "step": 6602
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4694485701063733,
      "learning_rate": 6.151549720535433e-07,
      "loss": 0.8352,
      "step": 6603
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6969753170316035,
      "learning_rate": 6.141591217565185e-07,
      "loss": 0.7715,
      "step": 6604
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7738898709827535,
      "learning_rate": 6.131640254363847e-07,
      "loss": 0.7853,
      "step": 6605
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7330883601057168,
      "learning_rate": 6.121696832642126e-07,
      "loss": 0.7151,
      "step": 6606
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.065172195269015,
      "learning_rate": 6.111760954109402e-07,
      "loss": 0.763,
      "step": 6607
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3354438106144677,
      "learning_rate": 6.101832620473763e-07,
      "loss": 0.6995,
      "step": 6608
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5502489982415064,
      "learning_rate": 6.091911833441999e-07,
      "loss": 0.8318,
      "step": 6609
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4088945966668665,
      "learning_rate": 6.081998594719629e-07,
      "loss": 0.8325,
      "step": 6610
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8894204592527643,
      "learning_rate": 6.07209290601084e-07,
      "loss": 0.7289,
      "step": 6611
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4297012080030234,
      "learning_rate": 6.062194769018542e-07,
      "loss": 0.8496,
      "step": 6612
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6145422894972197,
      "learning_rate": 6.05230418544433e-07,
      "loss": 0.7584,
      "step": 6613
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5123226917784798,
      "learning_rate": 6.042421156988498e-07,
      "loss": 0.7954,
      "step": 6614
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3778436547819826,
      "learning_rate": 6.032545685350088e-07,
      "loss": 0.8312,
      "step": 6615
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.718924508622309,
      "learning_rate": 6.022677772226781e-07,
      "loss": 0.8058,
      "step": 6616
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.9097240388433698,
      "learning_rate": 6.012817419314992e-07,
      "loss": 0.8401,
      "step": 6617
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3036339880782906,
      "learning_rate": 6.002964628309838e-07,
      "loss": 0.7312,
      "step": 6618
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.740403983821659,
      "learning_rate": 5.993119400905123e-07,
      "loss": 0.7033,
      "step": 6619
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6753673191032086,
      "learning_rate": 5.983281738793351e-07,
      "loss": 0.8132,
      "step": 6620
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8323783887072487,
      "learning_rate": 5.973451643665734e-07,
      "loss": 0.7273,
      "step": 6621
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5222628744557425,
      "learning_rate": 5.963629117212183e-07,
      "loss": 0.7806,
      "step": 6622
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.3480141467257676,
      "learning_rate": 5.95381416112129e-07,
      "loss": 0.7693,
      "step": 6623
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.49982018913603,
      "learning_rate": 5.944006777080363e-07,
      "loss": 0.8925,
      "step": 6624
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5817296708721709,
      "learning_rate": 5.934206966775429e-07,
      "loss": 0.7135,
      "step": 6625
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6194607285309714,
      "learning_rate": 5.924414731891171e-07,
      "loss": 0.7218,
      "step": 6626
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9748304992853468,
      "learning_rate": 5.914630074110989e-07,
      "loss": 0.591,
      "step": 6627
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4739854728441142,
      "learning_rate": 5.904852995116977e-07,
      "loss": 0.7767,
      "step": 6628
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7573310101096828,
      "learning_rate": 5.895083496589932e-07,
      "loss": 0.787,
      "step": 6629
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7748063912217105,
      "learning_rate": 5.885321580209324e-07,
      "loss": 0.8329,
      "step": 6630
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.471105093601827,
      "learning_rate": 5.875567247653374e-07,
      "loss": 0.7789,
      "step": 6631
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4704146978365542,
      "learning_rate": 5.865820500598951e-07,
      "loss": 0.7374,
      "step": 6632
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8120284390736461,
      "learning_rate": 5.85608134072162e-07,
      "loss": 0.6156,
      "step": 6633
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3573753446603924,
      "learning_rate": 5.846349769695675e-07,
      "loss": 0.7192,
      "step": 6634
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7576834424633225,
      "learning_rate": 5.836625789194078e-07,
      "loss": 0.8211,
      "step": 6635
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8920347035250324,
      "learning_rate": 5.826909400888492e-07,
      "loss": 0.8164,
      "step": 6636
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7914620115530966,
      "learning_rate": 5.81720060644928e-07,
      "loss": 0.7313,
      "step": 6637
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6542163695956669,
      "learning_rate": 5.807499407545486e-07,
      "loss": 0.7639,
      "step": 6638
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.591479989323199,
      "learning_rate": 5.797805805844875e-07,
      "loss": 0.7541,
      "step": 6639
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4363070470734067,
      "learning_rate": 5.788119803013881e-07,
      "loss": 0.7331,
      "step": 6640
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4608797197345489,
      "learning_rate": 5.778441400717644e-07,
      "loss": 0.8087,
      "step": 6641
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6638978338954755,
      "learning_rate": 5.768770600619978e-07,
      "loss": 0.8287,
      "step": 6642
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7873358875299914,
      "learning_rate": 5.759107404383429e-07,
      "loss": 0.6613,
      "step": 6643
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5253471036363875,
      "learning_rate": 5.749451813669205e-07,
      "loss": 0.7844,
      "step": 6644
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4801132220032556,
      "learning_rate": 5.739803830137192e-07,
      "loss": 0.7745,
      "step": 6645
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.490382552158571,
      "learning_rate": 5.730163455446025e-07,
      "loss": 0.8399,
      "step": 6646
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.695594885731278,
      "learning_rate": 5.720530691252979e-07,
      "loss": 0.8083,
      "step": 6647
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0212192232331399,
      "learning_rate": 5.71090553921404e-07,
      "loss": 0.6221,
      "step": 6648
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.2940671815421747,
      "learning_rate": 5.701288000983884e-07,
      "loss": 0.8259,
      "step": 6649
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4756352432429887,
      "learning_rate": 5.691678078215873e-07,
      "loss": 0.7344,
      "step": 6650
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.434508546810592,
      "learning_rate": 5.682075772562051e-07,
      "loss": 0.7469,
      "step": 6651
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.439929270615606,
      "learning_rate": 5.672481085673199e-07,
      "loss": 0.8305,
      "step": 6652
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3460960111474258,
      "learning_rate": 5.662894019198722e-07,
      "loss": 0.7559,
      "step": 6653
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3105174315859762,
      "learning_rate": 5.653314574786778e-07,
      "loss": 0.7459,
      "step": 6654
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.505052022012408,
      "learning_rate": 5.643742754084164e-07,
      "loss": 0.841,
      "step": 6655
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4380441403860755,
      "learning_rate": 5.634178558736397e-07,
      "loss": 0.782,
      "step": 6656
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7918245609700207,
      "learning_rate": 5.624621990387669e-07,
      "loss": 0.6645,
      "step": 6657
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.345546305101556,
      "learning_rate": 5.615073050680859e-07,
      "loss": 0.7676,
      "step": 6658
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.846666681902244,
      "learning_rate": 5.605531741257536e-07,
      "loss": 0.6726,
      "step": 6659
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3754110480812691,
      "learning_rate": 5.595998063757985e-07,
      "loss": 0.9065,
      "step": 6660
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6655222372267209,
      "learning_rate": 5.586472019821132e-07,
      "loss": 0.8593,
      "step": 6661
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9367042077457246,
      "learning_rate": 5.576953611084635e-07,
      "loss": 0.6938,
      "step": 6662
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5735300837448998,
      "learning_rate": 5.567442839184805e-07,
      "loss": 0.7691,
      "step": 6663
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.1895331213837035,
      "learning_rate": 5.557939705756665e-07,
      "loss": 0.7861,
      "step": 6664
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6127609262534035,
      "learning_rate": 5.548444212433901e-07,
      "loss": 0.8094,
      "step": 6665
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5534827279451677,
      "learning_rate": 5.538956360848891e-07,
      "loss": 0.7598,
      "step": 6666
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7820286770249114,
      "learning_rate": 5.529476152632735e-07,
      "loss": 0.7967,
      "step": 6667
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.7351228022454596,
      "learning_rate": 5.520003589415168e-07,
      "loss": 0.6462,
      "step": 6668
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3244904479899766,
      "learning_rate": 5.510538672824645e-07,
      "loss": 0.7857,
      "step": 6669
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4502268789794448,
      "learning_rate": 5.501081404488279e-07,
      "loss": 0.7576,
      "step": 6670
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9141262912616972,
      "learning_rate": 5.491631786031904e-07,
      "loss": 0.7048,
      "step": 6671
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.2720255382083603,
      "learning_rate": 5.482189819080014e-07,
      "loss": 0.8129,
      "step": 6672
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5049579101007007,
      "learning_rate": 5.472755505255783e-07,
      "loss": 0.7892,
      "step": 6673
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3494190828226003,
      "learning_rate": 5.463328846181081e-07,
      "loss": 0.7321,
      "step": 6674
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0428017894070645,
      "learning_rate": 5.453909843476468e-07,
      "loss": 0.7827,
      "step": 6675
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.8673692868605816,
      "learning_rate": 5.444498498761181e-07,
      "loss": 0.6779,
      "step": 6676
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.0797904640678064,
      "learning_rate": 5.43509481365313e-07,
      "loss": 0.8015,
      "step": 6677
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.569168864865734,
      "learning_rate": 5.425698789768924e-07,
      "loss": 0.7654,
      "step": 6678
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.612070445411807,
      "learning_rate": 5.416310428723837e-07,
      "loss": 0.8374,
      "step": 6679
    },
    {
      "epoch": 0.86,
      "grad_norm": 11.642114679264635,
      "learning_rate": 5.40692973213185e-07,
      "loss": 0.7144,
      "step": 6680
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5299922275325122,
      "learning_rate": 5.397556701605605e-07,
      "loss": 0.8848,
      "step": 6681
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6514102464537967,
      "learning_rate": 5.388191338756443e-07,
      "loss": 0.7946,
      "step": 6682
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5240582444475337,
      "learning_rate": 5.378833645194375e-07,
      "loss": 0.7948,
      "step": 6683
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.871397258448176,
      "learning_rate": 5.369483622528104e-07,
      "loss": 0.7608,
      "step": 6684
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3700011856806604,
      "learning_rate": 5.360141272364994e-07,
      "loss": 0.7499,
      "step": 6685
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4998970424248468,
      "learning_rate": 5.350806596311109e-07,
      "loss": 0.8507,
      "step": 6686
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5421222657992872,
      "learning_rate": 5.341479595971177e-07,
      "loss": 0.731,
      "step": 6687
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3359456789711104,
      "learning_rate": 5.332160272948628e-07,
      "loss": 0.6217,
      "step": 6688
    },
    {
      "epoch": 0.86,
      "grad_norm": 4.40952742316491,
      "learning_rate": 5.322848628845578e-07,
      "loss": 0.7907,
      "step": 6689
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3959849530612964,
      "learning_rate": 5.313544665262782e-07,
      "loss": 0.884,
      "step": 6690
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.437790047194613,
      "learning_rate": 5.304248383799715e-07,
      "loss": 0.7747,
      "step": 6691
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4487494706692483,
      "learning_rate": 5.294959786054505e-07,
      "loss": 0.7639,
      "step": 6692
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4245642141858004,
      "learning_rate": 5.285678873623973e-07,
      "loss": 0.6931,
      "step": 6693
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.205759755716407,
      "learning_rate": 5.276405648103616e-07,
      "loss": 0.7928,
      "step": 6694
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5447877331372049,
      "learning_rate": 5.267140111087604e-07,
      "loss": 0.8514,
      "step": 6695
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.9856194407574337,
      "learning_rate": 5.257882264168795e-07,
      "loss": 0.8495,
      "step": 6696
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4306587817669554,
      "learning_rate": 5.248632108938728e-07,
      "loss": 0.7722,
      "step": 6697
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.509015459488175,
      "learning_rate": 5.239389646987592e-07,
      "loss": 0.8043,
      "step": 6698
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4035508274265385,
      "learning_rate": 5.230154879904292e-07,
      "loss": 0.7499,
      "step": 6699
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3400044375326596,
      "learning_rate": 5.220927809276383e-07,
      "loss": 0.6924,
      "step": 6700
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6465594753826174,
      "learning_rate": 5.211708436690111e-07,
      "loss": 0.8132,
      "step": 6701
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3649502090129917,
      "learning_rate": 5.20249676373038e-07,
      "loss": 0.7102,
      "step": 6702
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9096884681553425,
      "learning_rate": 5.193292791980803e-07,
      "loss": 0.6363,
      "step": 6703
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5746263294560359,
      "learning_rate": 5.184096523023635e-07,
      "loss": 0.7208,
      "step": 6704
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3753666366195465,
      "learning_rate": 5.174907958439829e-07,
      "loss": 0.782,
      "step": 6705
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8308297055318999,
      "learning_rate": 5.165727099808998e-07,
      "loss": 0.6495,
      "step": 6706
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5160291966857495,
      "learning_rate": 5.156553948709436e-07,
      "loss": 0.8087,
      "step": 6707
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4316211810344346,
      "learning_rate": 5.147388506718127e-07,
      "loss": 0.766,
      "step": 6708
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3068534235083389,
      "learning_rate": 5.138230775410713e-07,
      "loss": 0.6658,
      "step": 6709
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.461871439159743,
      "learning_rate": 5.129080756361499e-07,
      "loss": 0.7738,
      "step": 6710
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.8618382996031086,
      "learning_rate": 5.119938451143502e-07,
      "loss": 0.6907,
      "step": 6711
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7455423137248924,
      "learning_rate": 5.110803861328378e-07,
      "loss": 0.7159,
      "step": 6712
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.492919822911678,
      "learning_rate": 5.10167698848647e-07,
      "loss": 0.6212,
      "step": 6713
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.625099586852435,
      "learning_rate": 5.092557834186795e-07,
      "loss": 0.6992,
      "step": 6714
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7731390460169663,
      "learning_rate": 5.083446399997044e-07,
      "loss": 0.7504,
      "step": 6715
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5507899923765551,
      "learning_rate": 5.074342687483557e-07,
      "loss": 0.7,
      "step": 6716
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3456163259487406,
      "learning_rate": 5.06524669821139e-07,
      "loss": 0.7411,
      "step": 6717
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7153215051013049,
      "learning_rate": 5.056158433744251e-07,
      "loss": 0.7641,
      "step": 6718
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4179497201258484,
      "learning_rate": 5.047077895644514e-07,
      "loss": 0.725,
      "step": 6719
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.716064300552549,
      "learning_rate": 5.038005085473224e-07,
      "loss": 0.7961,
      "step": 6720
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3827952959729752,
      "learning_rate": 5.028940004790106e-07,
      "loss": 0.815,
      "step": 6721
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3852951419614357,
      "learning_rate": 5.019882655153547e-07,
      "loss": 0.7116,
      "step": 6722
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8535823530957691,
      "learning_rate": 5.010833038120605e-07,
      "loss": 0.6262,
      "step": 6723
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4715588682774177,
      "learning_rate": 5.001791155247032e-07,
      "loss": 0.894,
      "step": 6724
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8192127048637985,
      "learning_rate": 4.992757008087218e-07,
      "loss": 0.6654,
      "step": 6725
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5985042774510496,
      "learning_rate": 4.983730598194247e-07,
      "loss": 0.8221,
      "step": 6726
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4759598513114802,
      "learning_rate": 4.974711927119863e-07,
      "loss": 0.8068,
      "step": 6727
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5831323809037765,
      "learning_rate": 4.96570099641448e-07,
      "loss": 0.7967,
      "step": 6728
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4563406009108577,
      "learning_rate": 4.95669780762717e-07,
      "loss": 0.7833,
      "step": 6729
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.796302957792024,
      "learning_rate": 4.9477023623057e-07,
      "loss": 0.7697,
      "step": 6730
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.427690130084658,
      "learning_rate": 4.938714661996469e-07,
      "loss": 0.7842,
      "step": 6731
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.5167158325072463,
      "learning_rate": 4.929734708244599e-07,
      "loss": 0.7342,
      "step": 6732
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7054585561472746,
      "learning_rate": 4.920762502593829e-07,
      "loss": 0.7954,
      "step": 6733
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.011186251390076,
      "learning_rate": 4.911798046586591e-07,
      "loss": 0.6802,
      "step": 6734
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4289842550914171,
      "learning_rate": 4.902841341763964e-07,
      "loss": 0.8354,
      "step": 6735
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6165396617284202,
      "learning_rate": 4.893892389665728e-07,
      "loss": 0.8212,
      "step": 6736
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.250978245721464,
      "learning_rate": 4.884951191830312e-07,
      "loss": 0.7694,
      "step": 6737
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4055380751517066,
      "learning_rate": 4.876017749794787e-07,
      "loss": 0.6937,
      "step": 6738
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.5891288731269424,
      "learning_rate": 4.867092065094947e-07,
      "loss": 0.7723,
      "step": 6739
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6466523782368188,
      "learning_rate": 4.858174139265209e-07,
      "loss": 0.7417,
      "step": 6740
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.8440052444024502,
      "learning_rate": 4.849263973838664e-07,
      "loss": 0.8685,
      "step": 6741
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.629228101419769,
      "learning_rate": 4.840361570347069e-07,
      "loss": 0.8999,
      "step": 6742
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3117064466115833,
      "learning_rate": 4.831466930320861e-07,
      "loss": 0.7904,
      "step": 6743
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5220233432559844,
      "learning_rate": 4.822580055289117e-07,
      "loss": 0.7499,
      "step": 6744
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7867287980364561,
      "learning_rate": 4.813700946779598e-07,
      "loss": 0.6818,
      "step": 6745
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4661380955288636,
      "learning_rate": 4.804829606318745e-07,
      "loss": 0.7912,
      "step": 6746
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7373145732597848,
      "learning_rate": 4.795966035431626e-07,
      "loss": 0.8141,
      "step": 6747
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6575890572575105,
      "learning_rate": 4.787110235642001e-07,
      "loss": 0.8854,
      "step": 6748
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4826378181218276,
      "learning_rate": 4.778262208472273e-07,
      "loss": 0.7357,
      "step": 6749
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5642939919477947,
      "learning_rate": 4.769421955443531e-07,
      "loss": 0.7507,
      "step": 6750
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4308688687644322,
      "learning_rate": 4.7605894780755113e-07,
      "loss": 0.7283,
      "step": 6751
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2778409217641296,
      "learning_rate": 4.751764777886614e-07,
      "loss": 0.7536,
      "step": 6752
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.0966044159797472,
      "learning_rate": 4.742947856393909e-07,
      "loss": 0.8263,
      "step": 6753
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.1022624676712316,
      "learning_rate": 4.734138715113146e-07,
      "loss": 0.8442,
      "step": 6754
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.383388767803632,
      "learning_rate": 4.7253373555587014e-07,
      "loss": 0.7089,
      "step": 6755
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7305343741185708,
      "learning_rate": 4.7165437792436373e-07,
      "loss": 0.8315,
      "step": 6756
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7877166126188826,
      "learning_rate": 4.7077579876796675e-07,
      "loss": 0.647,
      "step": 6757
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3626326532574724,
      "learning_rate": 4.698979982377172e-07,
      "loss": 0.828,
      "step": 6758
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4332857058875204,
      "learning_rate": 4.690209764845183e-07,
      "loss": 0.8287,
      "step": 6759
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.584493195754966,
      "learning_rate": 4.6814473365914217e-07,
      "loss": 0.7361,
      "step": 6760
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7983041554675271,
      "learning_rate": 4.6726926991222386e-07,
      "loss": 0.6357,
      "step": 6761
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7639885509090383,
      "learning_rate": 4.663945853942653e-07,
      "loss": 0.6108,
      "step": 6762
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.482844078371932,
      "learning_rate": 4.655206802556361e-07,
      "loss": 0.8066,
      "step": 6763
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5203884139807777,
      "learning_rate": 4.646475546465706e-07,
      "loss": 0.852,
      "step": 6764
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9614698933034607,
      "learning_rate": 4.6377520871716874e-07,
      "loss": 0.7162,
      "step": 6765
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.589026229372372,
      "learning_rate": 4.629036426173955e-07,
      "loss": 0.8969,
      "step": 6766
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5209343285530341,
      "learning_rate": 4.6203285649708605e-07,
      "loss": 0.8279,
      "step": 6767
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6030605979731565,
      "learning_rate": 4.6116285050593733e-07,
      "loss": 0.8533,
      "step": 6768
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4311837586530376,
      "learning_rate": 4.6029362479351303e-07,
      "loss": 0.9081,
      "step": 6769
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3453837311948873,
      "learning_rate": 4.5942517950924305e-07,
      "loss": 0.6587,
      "step": 6770
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.636760521117876,
      "learning_rate": 4.5855751480242404e-07,
      "loss": 0.8517,
      "step": 6771
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.412309202481378,
      "learning_rate": 4.5769063082221623e-07,
      "loss": 0.821,
      "step": 6772
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5228568565109437,
      "learning_rate": 4.568245277176486e-07,
      "loss": 0.8536,
      "step": 6773
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3863891356439748,
      "learning_rate": 4.559592056376133e-07,
      "loss": 0.8087,
      "step": 6774
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7571908717456057,
      "learning_rate": 4.5509466473087017e-07,
      "loss": 0.8304,
      "step": 6775
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3889148419629878,
      "learning_rate": 4.5423090514604305e-07,
      "loss": 0.7515,
      "step": 6776
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4543676833522463,
      "learning_rate": 4.533679270316227e-07,
      "loss": 0.7756,
      "step": 6777
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.47956171038857,
      "learning_rate": 4.525057305359648e-07,
      "loss": 0.6843,
      "step": 6778
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.388125920452335,
      "learning_rate": 4.5164431580729087e-07,
      "loss": 0.7552,
      "step": 6779
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5321228402198295,
      "learning_rate": 4.507836829936868e-07,
      "loss": 0.7348,
      "step": 6780
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6980307578333291,
      "learning_rate": 4.499238322431071e-07,
      "loss": 0.7968,
      "step": 6781
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.1285529898266704,
      "learning_rate": 4.4906476370337017e-07,
      "loss": 0.7533,
      "step": 6782
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4751451256114063,
      "learning_rate": 4.482064775221595e-07,
      "loss": 0.8374,
      "step": 6783
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8270708470639772,
      "learning_rate": 4.4734897384702434e-07,
      "loss": 0.6726,
      "step": 6784
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6589151629709367,
      "learning_rate": 4.4649225282537954e-07,
      "loss": 0.7579,
      "step": 6785
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8556595912059181,
      "learning_rate": 4.4563631460450506e-07,
      "loss": 0.6868,
      "step": 6786
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8554967089144877,
      "learning_rate": 4.4478115933154597e-07,
      "loss": 0.6978,
      "step": 6787
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4810650945222237,
      "learning_rate": 4.439267871535152e-07,
      "loss": 0.7607,
      "step": 6788
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.9782516070880385,
      "learning_rate": 4.430731982172887e-07,
      "loss": 0.8221,
      "step": 6789
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3660130562766184,
      "learning_rate": 4.4222039266960616e-07,
      "loss": 0.6885,
      "step": 6790
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.433548942019721,
      "learning_rate": 4.413683706570776e-07,
      "loss": 0.8176,
      "step": 6791
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3761436775836395,
      "learning_rate": 4.4051713232617423e-07,
      "loss": 0.7765,
      "step": 6792
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6018287490539516,
      "learning_rate": 4.396666778232345e-07,
      "loss": 0.8927,
      "step": 6793
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.475500787527574,
      "learning_rate": 4.388170072944603e-07,
      "loss": 0.8049,
      "step": 6794
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7938029017670425,
      "learning_rate": 4.3796812088591934e-07,
      "loss": 0.641,
      "step": 6795
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5981517945684143,
      "learning_rate": 4.37120018743547e-07,
      "loss": 0.731,
      "step": 6796
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.390949510414168,
      "learning_rate": 4.362727010131407e-07,
      "loss": 0.6798,
      "step": 6797
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4957793230163086,
      "learning_rate": 4.354261678403643e-07,
      "loss": 0.8001,
      "step": 6798
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7826028101072183,
      "learning_rate": 4.345804193707459e-07,
      "loss": 0.6876,
      "step": 6799
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7979070731002036,
      "learning_rate": 4.3373545574968143e-07,
      "loss": 0.8172,
      "step": 6800
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3712033386977343,
      "learning_rate": 4.3289127712242864e-07,
      "loss": 0.8364,
      "step": 6801
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2736510720993452,
      "learning_rate": 4.320478836341113e-07,
      "loss": 0.7457,
      "step": 6802
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9213123241948601,
      "learning_rate": 4.312052754297197e-07,
      "loss": 0.6256,
      "step": 6803
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5206694649616754,
      "learning_rate": 4.303634526541067e-07,
      "loss": 0.8023,
      "step": 6804
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.8644053052036142,
      "learning_rate": 4.2952241545199226e-07,
      "loss": 0.7842,
      "step": 6805
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.561809869950046,
      "learning_rate": 4.2868216396796057e-07,
      "loss": 0.7863,
      "step": 6806
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5978150905552693,
      "learning_rate": 4.2784269834645955e-07,
      "loss": 0.7807,
      "step": 6807
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3176933035460991,
      "learning_rate": 4.270040187318031e-07,
      "loss": 0.7154,
      "step": 6808
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3084719268970209,
      "learning_rate": 4.2616612526817146e-07,
      "loss": 0.7782,
      "step": 6809
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6109416550923965,
      "learning_rate": 4.253290180996067e-07,
      "loss": 0.8269,
      "step": 6810
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3688569351290254,
      "learning_rate": 4.244926973700181e-07,
      "loss": 0.8063,
      "step": 6811
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.0070984367862272,
      "learning_rate": 4.2365716322317894e-07,
      "loss": 0.709,
      "step": 6812
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.636062421087312,
      "learning_rate": 4.228224158027272e-07,
      "loss": 0.7577,
      "step": 6813
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3958409841298771,
      "learning_rate": 4.2198845525216524e-07,
      "loss": 0.8079,
      "step": 6814
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.290414835322824,
      "learning_rate": 4.2115528171486063e-07,
      "loss": 0.8387,
      "step": 6815
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.303910666442844,
      "learning_rate": 4.2032289533404434e-07,
      "loss": 0.7875,
      "step": 6816
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8250670781518888,
      "learning_rate": 4.194912962528158e-07,
      "loss": 0.7031,
      "step": 6817
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6034354067490895,
      "learning_rate": 4.1866048461413454e-07,
      "loss": 0.6972,
      "step": 6818
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4576471678836493,
      "learning_rate": 4.17830460560828e-07,
      "loss": 1.0042,
      "step": 6819
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4906499628890941,
      "learning_rate": 4.170012242355864e-07,
      "loss": 0.7825,
      "step": 6820
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5738095096743239,
      "learning_rate": 4.161727757809653e-07,
      "loss": 0.6707,
      "step": 6821
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4764885105770222,
      "learning_rate": 4.153451153393839e-07,
      "loss": 0.7822,
      "step": 6822
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4281743830574027,
      "learning_rate": 4.145182430531264e-07,
      "loss": 0.7644,
      "step": 6823
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.561593456105199,
      "learning_rate": 4.1369215906434337e-07,
      "loss": 0.8411,
      "step": 6824
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8989588496202282,
      "learning_rate": 4.1286686351504735e-07,
      "loss": 0.6193,
      "step": 6825
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7470578418950248,
      "learning_rate": 4.120423565471154e-07,
      "loss": 0.6685,
      "step": 6826
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5831085380463457,
      "learning_rate": 4.1121863830229037e-07,
      "loss": 0.7121,
      "step": 6827
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.529433529139142,
      "learning_rate": 4.1039570892217993e-07,
      "loss": 0.7521,
      "step": 6828
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.476173325746109,
      "learning_rate": 4.0957356854825436e-07,
      "loss": 0.8177,
      "step": 6829
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.560775990791589,
      "learning_rate": 4.087522173218489e-07,
      "loss": 0.7786,
      "step": 6830
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6496356711237212,
      "learning_rate": 4.079316553841628e-07,
      "loss": 0.846,
      "step": 6831
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.7867861376801462,
      "learning_rate": 4.0711188287626156e-07,
      "loss": 0.659,
      "step": 6832
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6855556454898635,
      "learning_rate": 4.062928999390736e-07,
      "loss": 0.7469,
      "step": 6833
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8200167407501154,
      "learning_rate": 4.0547470671339075e-07,
      "loss": 0.694,
      "step": 6834
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.69083339697985,
      "learning_rate": 4.0465730333986983e-07,
      "loss": 0.7627,
      "step": 6835
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5148734204091303,
      "learning_rate": 4.0384068995903136e-07,
      "loss": 0.7899,
      "step": 6836
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.788203632093773,
      "learning_rate": 4.03024866711263e-07,
      "loss": 0.7763,
      "step": 6837
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5041404926697617,
      "learning_rate": 4.0220983373681133e-07,
      "loss": 0.7801,
      "step": 6838
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5944221967408874,
      "learning_rate": 4.013955911757922e-07,
      "loss": 1.0098,
      "step": 6839
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4696716100593803,
      "learning_rate": 4.00582139168183e-07,
      "loss": 0.7148,
      "step": 6840
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5663822411694501,
      "learning_rate": 3.997694778538247e-07,
      "loss": 0.8017,
      "step": 6841
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9820212707142522,
      "learning_rate": 3.9895760737242384e-07,
      "loss": 0.73,
      "step": 6842
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6308906220018093,
      "learning_rate": 3.9814652786355046e-07,
      "loss": 0.8482,
      "step": 6843
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3800175639483088,
      "learning_rate": 3.973362394666369e-07,
      "loss": 0.8205,
      "step": 6844
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5839192096420855,
      "learning_rate": 3.965267423209834e-07,
      "loss": 0.7635,
      "step": 6845
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6035181763207451,
      "learning_rate": 3.957180365657498e-07,
      "loss": 0.7396,
      "step": 6846
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3781798186729273,
      "learning_rate": 3.949101223399643e-07,
      "loss": 0.7584,
      "step": 6847
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8977237197633146,
      "learning_rate": 3.9410299978251523e-07,
      "loss": 0.6656,
      "step": 6848
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.501858300149323,
      "learning_rate": 3.932966690321571e-07,
      "loss": 0.8131,
      "step": 6849
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7295555081626222,
      "learning_rate": 3.92491130227507e-07,
      "loss": 0.9532,
      "step": 6850
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.658260055393169,
      "learning_rate": 3.9168638350704614e-07,
      "loss": 0.8706,
      "step": 6851
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4920545647195251,
      "learning_rate": 3.9088242900911957e-07,
      "loss": 0.7915,
      "step": 6852
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.621637359969822,
      "learning_rate": 3.900792668719372e-07,
      "loss": 0.8383,
      "step": 6853
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6083333555634203,
      "learning_rate": 3.8927689723357253e-07,
      "loss": 0.7915,
      "step": 6854
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.416562549590833,
      "learning_rate": 3.8847532023195967e-07,
      "loss": 0.7189,
      "step": 6855
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4536065808372856,
      "learning_rate": 3.876745360049017e-07,
      "loss": 0.7919,
      "step": 6856
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7599227007379994,
      "learning_rate": 3.868745446900618e-07,
      "loss": 0.7358,
      "step": 6857
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.796469139341986,
      "learning_rate": 3.860753464249678e-07,
      "loss": 0.6664,
      "step": 6858
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.416006872146885,
      "learning_rate": 3.8527694134700975e-07,
      "loss": 0.8225,
      "step": 6859
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4263300151501879,
      "learning_rate": 3.844793295934451e-07,
      "loss": 0.866,
      "step": 6860
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.482157479460979,
      "learning_rate": 3.836825113013909e-07,
      "loss": 0.737,
      "step": 6861
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5815060700009718,
      "learning_rate": 3.8288648660783023e-07,
      "loss": 0.7367,
      "step": 6862
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7923887928890857,
      "learning_rate": 3.820912556496087e-07,
      "loss": 0.668,
      "step": 6863
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5923419558452276,
      "learning_rate": 3.8129681856343526e-07,
      "loss": 0.9251,
      "step": 6864
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.321793125450623,
      "learning_rate": 3.8050317548588343e-07,
      "loss": 0.798,
      "step": 6865
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8512271548344639,
      "learning_rate": 3.7971032655339026e-07,
      "loss": 0.7093,
      "step": 6866
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6119956930484067,
      "learning_rate": 3.789182719022538e-07,
      "loss": 0.7308,
      "step": 6867
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.225056073853008,
      "learning_rate": 3.781270116686392e-07,
      "loss": 0.7516,
      "step": 6868
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6418891758072696,
      "learning_rate": 3.7733654598857303e-07,
      "loss": 0.8307,
      "step": 6869
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4516521749470064,
      "learning_rate": 3.7654687499794453e-07,
      "loss": 0.7717,
      "step": 6870
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.412215978690189,
      "learning_rate": 3.757579988325083e-07,
      "loss": 0.6861,
      "step": 6871
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7323023318847763,
      "learning_rate": 3.7496991762788095e-07,
      "loss": 0.8138,
      "step": 6872
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.868353044512595,
      "learning_rate": 3.7418263151954184e-07,
      "loss": 0.8765,
      "step": 6873
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4195338503540502,
      "learning_rate": 3.7339614064283545e-07,
      "loss": 0.7966,
      "step": 6874
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.388558747075127,
      "learning_rate": 3.7261044513296927e-07,
      "loss": 0.8912,
      "step": 6875
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.42639318044231,
      "learning_rate": 3.71825545125013e-07,
      "loss": 0.6786,
      "step": 6876
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5084293030909748,
      "learning_rate": 3.710414407538998e-07,
      "loss": 0.7343,
      "step": 6877
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5148223578485729,
      "learning_rate": 3.7025813215442685e-07,
      "loss": 0.8078,
      "step": 6878
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.743691096513786,
      "learning_rate": 3.694756194612531e-07,
      "loss": 0.6638,
      "step": 6879
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6496529378003197,
      "learning_rate": 3.686939028089015e-07,
      "loss": 0.8014,
      "step": 6880
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4878712465738593,
      "learning_rate": 3.6791298233175955e-07,
      "loss": 0.7458,
      "step": 6881
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.2590540563014425,
      "learning_rate": 3.671328581640754e-07,
      "loss": 0.8188,
      "step": 6882
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4981302703575847,
      "learning_rate": 3.663535304399607e-07,
      "loss": 0.8246,
      "step": 6883
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5500688639988505,
      "learning_rate": 3.6557499929339325e-07,
      "loss": 0.782,
      "step": 6884
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.9547244894279088,
      "learning_rate": 3.647972648582104e-07,
      "loss": 0.7886,
      "step": 6885
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.062745499629551,
      "learning_rate": 3.640203272681131e-07,
      "loss": 0.7802,
      "step": 6886
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.680768348104779,
      "learning_rate": 3.6324418665666717e-07,
      "loss": 0.7322,
      "step": 6887
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.447344923283185,
      "learning_rate": 3.624688431572981e-07,
      "loss": 0.7623,
      "step": 6888
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7895929120089022,
      "learning_rate": 3.6169429690329825e-07,
      "loss": 0.7042,
      "step": 6889
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6133038240816697,
      "learning_rate": 3.6092054802782107e-07,
      "loss": 0.7768,
      "step": 6890
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.7775865920265037,
      "learning_rate": 3.601475966638829e-07,
      "loss": 0.7197,
      "step": 6891
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.463416000681674,
      "learning_rate": 3.5937544294436134e-07,
      "loss": 0.8035,
      "step": 6892
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.544737373687345,
      "learning_rate": 3.586040870020008e-07,
      "loss": 0.702,
      "step": 6893
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.8356390193537023,
      "learning_rate": 3.5783352896940513e-07,
      "loss": 0.6164,
      "step": 6894
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5184353907769454,
      "learning_rate": 3.570637689790418e-07,
      "loss": 0.7491,
      "step": 6895
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6230415563998972,
      "learning_rate": 3.562948071632427e-07,
      "loss": 0.908,
      "step": 6896
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5264367727382262,
      "learning_rate": 3.55526643654201e-07,
      "loss": 0.7786,
      "step": 6897
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.549222479089523,
      "learning_rate": 3.5475927858397263e-07,
      "loss": 0.7323,
      "step": 6898
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4424355238704814,
      "learning_rate": 3.539927120844766e-07,
      "loss": 0.7208,
      "step": 6899
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.736769161782032,
      "learning_rate": 3.532269442874942e-07,
      "loss": 0.7401,
      "step": 6900
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.494252926026702,
      "learning_rate": 3.524619753246694e-07,
      "loss": 0.7192,
      "step": 6901
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9072146069350354,
      "learning_rate": 3.516978053275111e-07,
      "loss": 0.5826,
      "step": 6902
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.854296625508083,
      "learning_rate": 3.5093443442738627e-07,
      "loss": 0.6752,
      "step": 6903
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.848416157011529,
      "learning_rate": 3.5017186275553004e-07,
      "loss": 0.7176,
      "step": 6904
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.402040149443014,
      "learning_rate": 3.494100904430359e-07,
      "loss": 0.7157,
      "step": 6905
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4521986348940736,
      "learning_rate": 3.486491176208617e-07,
      "loss": 0.8075,
      "step": 6906
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6600600017853129,
      "learning_rate": 3.478889444198269e-07,
      "loss": 0.7753,
      "step": 6907
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3665199958926944,
      "learning_rate": 3.471295709706146e-07,
      "loss": 0.8123,
      "step": 6908
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7499119676804282,
      "learning_rate": 3.4637099740376934e-07,
      "loss": 0.7897,
      "step": 6909
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3283585956640211,
      "learning_rate": 3.4561322384969843e-07,
      "loss": 0.7599,
      "step": 6910
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3333837971919147,
      "learning_rate": 3.448562504386738e-07,
      "loss": 0.8464,
      "step": 6911
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.46576902922858,
      "learning_rate": 3.4410007730082685e-07,
      "loss": 0.7101,
      "step": 6912
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6285406612403281,
      "learning_rate": 3.4334470456615255e-07,
      "loss": 0.8168,
      "step": 6913
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.49533987643052,
      "learning_rate": 3.4259013236450755e-07,
      "loss": 0.7285,
      "step": 6914
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9164385381336786,
      "learning_rate": 3.4183636082561257e-07,
      "loss": 0.7977,
      "step": 6915
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5027546243575967,
      "learning_rate": 3.4108339007904834e-07,
      "loss": 0.7013,
      "step": 6916
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8947674933513523,
      "learning_rate": 3.4033122025426077e-07,
      "loss": 0.6494,
      "step": 6917
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6093443868759165,
      "learning_rate": 3.395798514805565e-07,
      "loss": 0.6602,
      "step": 6918
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8511818137301465,
      "learning_rate": 3.3882928388710376e-07,
      "loss": 0.5859,
      "step": 6919
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5058883056321268,
      "learning_rate": 3.380795176029328e-07,
      "loss": 0.7202,
      "step": 6920
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9210068298934289,
      "learning_rate": 3.3733055275693983e-07,
      "loss": 0.7941,
      "step": 6921
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7978949949637606,
      "learning_rate": 3.3658238947787857e-07,
      "loss": 0.7423,
      "step": 6922
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.915709433719922,
      "learning_rate": 3.3583502789436783e-07,
      "loss": 0.7696,
      "step": 6923
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7687832289282615,
      "learning_rate": 3.3508846813488647e-07,
      "loss": 0.6476,
      "step": 6924
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5332866732125694,
      "learning_rate": 3.3434271032777856e-07,
      "loss": 0.7861,
      "step": 6925
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6506081695431574,
      "learning_rate": 3.335977546012481e-07,
      "loss": 0.7213,
      "step": 6926
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4689589389895212,
      "learning_rate": 3.328536010833605e-07,
      "loss": 0.885,
      "step": 6927
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.366194119461231,
      "learning_rate": 3.3211024990204565e-07,
      "loss": 0.8693,
      "step": 6928
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6664072433597281,
      "learning_rate": 3.3136770118509243e-07,
      "loss": 0.8259,
      "step": 6929
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5705132099584884,
      "learning_rate": 3.3062595506015594e-07,
      "loss": 0.8581,
      "step": 6930
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5191016303508376,
      "learning_rate": 3.2988501165474864e-07,
      "loss": 0.7024,
      "step": 6931
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3459868295443216,
      "learning_rate": 3.291448710962497e-07,
      "loss": 0.8327,
      "step": 6932
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7377055855263686,
      "learning_rate": 3.284055335118963e-07,
      "loss": 0.8591,
      "step": 6933
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5836158580937931,
      "learning_rate": 3.276669990287895e-07,
      "loss": 0.7106,
      "step": 6934
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7970810780306405,
      "learning_rate": 3.269292677738922e-07,
      "loss": 0.7832,
      "step": 6935
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5850731205476658,
      "learning_rate": 3.261923398740285e-07,
      "loss": 0.8941,
      "step": 6936
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4973691750974096,
      "learning_rate": 3.2545621545588434e-07,
      "loss": 0.7572,
      "step": 6937
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5351466665473048,
      "learning_rate": 3.2472089464600844e-07,
      "loss": 0.7078,
      "step": 6938
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7207944442851575,
      "learning_rate": 3.2398637757081187e-07,
      "loss": 0.8459,
      "step": 6939
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3430280402073564,
      "learning_rate": 3.232526643565664e-07,
      "loss": 0.7501,
      "step": 6940
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7038563780535436,
      "learning_rate": 3.2251975512940516e-07,
      "loss": 0.7982,
      "step": 6941
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5079586816261163,
      "learning_rate": 3.2178765001532386e-07,
      "loss": 0.7321,
      "step": 6942
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5688541516711987,
      "learning_rate": 3.210563491401808e-07,
      "loss": 0.8257,
      "step": 6943
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5150560074906811,
      "learning_rate": 3.203258526296937e-07,
      "loss": 0.8258,
      "step": 6944
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5684099350653298,
      "learning_rate": 3.195961606094433e-07,
      "loss": 0.7194,
      "step": 6945
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5212869976773877,
      "learning_rate": 3.188672732048731e-07,
      "loss": 0.8136,
      "step": 6946
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7533703635903528,
      "learning_rate": 3.181391905412867e-07,
      "loss": 0.6986,
      "step": 6947
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.400549425134494,
      "learning_rate": 3.1741191274385076e-07,
      "loss": 0.6998,
      "step": 6948
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7882095688002582,
      "learning_rate": 3.1668543993759293e-07,
      "loss": 0.7631,
      "step": 6949
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8219855563668605,
      "learning_rate": 3.159597722474006e-07,
      "loss": 0.6263,
      "step": 6950
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7583677694895576,
      "learning_rate": 3.152349097980262e-07,
      "loss": 0.5813,
      "step": 6951
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.509594531050467,
      "learning_rate": 3.1451085271408053e-07,
      "loss": 0.8489,
      "step": 6952
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3389668021212369,
      "learning_rate": 3.137876011200386e-07,
      "loss": 0.749,
      "step": 6953
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.7734084618719845,
      "learning_rate": 3.130651551402353e-07,
      "loss": 0.7344,
      "step": 6954
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5406868503767537,
      "learning_rate": 3.123435148988674e-07,
      "loss": 0.8133,
      "step": 6955
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3948382200089835,
      "learning_rate": 3.116226805199929e-07,
      "loss": 0.8402,
      "step": 6956
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5943149670521484,
      "learning_rate": 3.1090265212753214e-07,
      "loss": 0.7772,
      "step": 6957
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4044465678222229,
      "learning_rate": 3.101834298452661e-07,
      "loss": 0.7104,
      "step": 6958
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.8121074117956552,
      "learning_rate": 3.094650137968369e-07,
      "loss": 0.6872,
      "step": 6959
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5202246429414792,
      "learning_rate": 3.0874740410575033e-07,
      "loss": 0.8015,
      "step": 6960
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4561848112928681,
      "learning_rate": 3.080306008953704e-07,
      "loss": 0.7711,
      "step": 6961
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.683095183066143,
      "learning_rate": 3.0731460428892414e-07,
      "loss": 0.837,
      "step": 6962
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7872505026062963,
      "learning_rate": 3.065994144094997e-07,
      "loss": 0.6779,
      "step": 6963
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6133148954931973,
      "learning_rate": 3.0588503138004597e-07,
      "loss": 0.8524,
      "step": 6964
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6235430861885414,
      "learning_rate": 3.051714553233748e-07,
      "loss": 0.7177,
      "step": 6965
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.141523130018929,
      "learning_rate": 3.044586863621568e-07,
      "loss": 0.8374,
      "step": 6966
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.7908090763085971,
      "learning_rate": 3.0374672461892574e-07,
      "loss": 0.6768,
      "step": 6967
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8958153827406425,
      "learning_rate": 3.0303557021607754e-07,
      "loss": 0.7299,
      "step": 6968
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3796509720572587,
      "learning_rate": 3.023252232758667e-07,
      "loss": 0.7031,
      "step": 6969
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5605026923568492,
      "learning_rate": 3.0161568392040986e-07,
      "loss": 0.7858,
      "step": 6970
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4613269218600862,
      "learning_rate": 3.009069522716851e-07,
      "loss": 0.8952,
      "step": 6971
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6553067599253726,
      "learning_rate": 3.0019902845153216e-07,
      "loss": 0.7843,
      "step": 6972
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4631309933589505,
      "learning_rate": 2.994919125816498e-07,
      "loss": 0.7958,
      "step": 6973
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3563723832689185,
      "learning_rate": 2.9878560478360186e-07,
      "loss": 0.7953,
      "step": 6974
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.848934528296696,
      "learning_rate": 2.980801051788085e-07,
      "loss": 0.9358,
      "step": 6975
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.676423074352809,
      "learning_rate": 2.973754138885554e-07,
      "loss": 0.7269,
      "step": 6976
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4034887827179299,
      "learning_rate": 2.9667153103398573e-07,
      "loss": 0.7363,
      "step": 6977
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.9376292008748515,
      "learning_rate": 2.9596845673610597e-07,
      "loss": 0.8425,
      "step": 6978
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5557333960140864,
      "learning_rate": 2.9526619111578223e-07,
      "loss": 0.7286,
      "step": 6979
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.597970795968378,
      "learning_rate": 2.945647342937413e-07,
      "loss": 0.7944,
      "step": 6980
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5042514236951048,
      "learning_rate": 2.9386408639057394e-07,
      "loss": 0.7376,
      "step": 6981
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4566090418321618,
      "learning_rate": 2.9316424752672766e-07,
      "loss": 0.77,
      "step": 6982
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5538652938535673,
      "learning_rate": 2.9246521782251403e-07,
      "loss": 0.7554,
      "step": 6983
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.8297892651892746,
      "learning_rate": 2.91766997398103e-07,
      "loss": 0.8485,
      "step": 6984
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.438131611195638,
      "learning_rate": 2.91069586373528e-07,
      "loss": 0.7775,
      "step": 6985
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4917576422797223,
      "learning_rate": 2.9037298486868205e-07,
      "loss": 0.6954,
      "step": 6986
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3165619892576297,
      "learning_rate": 2.8967719300331875e-07,
      "loss": 0.6605,
      "step": 6987
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.460418703836765,
      "learning_rate": 2.8898221089705194e-07,
      "loss": 0.7832,
      "step": 6988
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5327976365861546,
      "learning_rate": 2.882880386693582e-07,
      "loss": 0.8117,
      "step": 6989
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.554172255369581,
      "learning_rate": 2.8759467643957375e-07,
      "loss": 0.7274,
      "step": 6990
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6947374531109851,
      "learning_rate": 2.8690212432689546e-07,
      "loss": 0.7833,
      "step": 6991
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4354321405924146,
      "learning_rate": 2.862103824503809e-07,
      "loss": 0.7743,
      "step": 6992
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3951965146601828,
      "learning_rate": 2.855194509289483e-07,
      "loss": 0.8554,
      "step": 6993
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5322442137495265,
      "learning_rate": 2.8482932988137647e-07,
      "loss": 0.8086,
      "step": 6994
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5297225730581496,
      "learning_rate": 2.8414001942630556e-07,
      "loss": 0.8304,
      "step": 6995
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4736297257821487,
      "learning_rate": 2.834515196822374e-07,
      "loss": 0.7933,
      "step": 6996
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8946784745955008,
      "learning_rate": 2.8276383076753175e-07,
      "loss": 0.7439,
      "step": 6997
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.835440799755392,
      "learning_rate": 2.8207695280041025e-07,
      "loss": 0.8023,
      "step": 6998
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3723300336721909,
      "learning_rate": 2.813908858989556e-07,
      "loss": 0.8095,
      "step": 6999
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4497327749607412,
      "learning_rate": 2.8070563018111063e-07,
      "loss": 0.7533,
      "step": 7000
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3684962949233177,
      "learning_rate": 2.8002118576467784e-07,
      "loss": 0.7497,
      "step": 7001
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3609583003883934,
      "learning_rate": 2.7933755276732257e-07,
      "loss": 0.7331,
      "step": 7002
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.556448729164496,
      "learning_rate": 2.7865473130656794e-07,
      "loss": 0.7384,
      "step": 7003
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9151621434266425,
      "learning_rate": 2.779727214997996e-07,
      "loss": 0.633,
      "step": 7004
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3150278566161768,
      "learning_rate": 2.7729152346426366e-07,
      "loss": 0.8464,
      "step": 7005
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3669300924599583,
      "learning_rate": 2.766111373170649e-07,
      "loss": 0.7231,
      "step": 7006
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.666638493495299,
      "learning_rate": 2.7593156317516966e-07,
      "loss": 0.7751,
      "step": 7007
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4346197570800714,
      "learning_rate": 2.752528011554051e-07,
      "loss": 0.7428,
      "step": 7008
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.868903683910157,
      "learning_rate": 2.7457485137445725e-07,
      "loss": 0.7993,
      "step": 7009
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8882951744995549,
      "learning_rate": 2.738977139488752e-07,
      "loss": 0.6332,
      "step": 7010
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.32698438369359,
      "learning_rate": 2.732213889950652e-07,
      "loss": 0.7422,
      "step": 7011
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5849556469020913,
      "learning_rate": 2.725458766292954e-07,
      "loss": 0.7685,
      "step": 7012
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7566827924760442,
      "learning_rate": 2.718711769676957e-07,
      "loss": 0.6377,
      "step": 7013
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.58785885865613,
      "learning_rate": 2.711972901262538e-07,
      "loss": 0.8418,
      "step": 7014
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6213257413371407,
      "learning_rate": 2.705242162208188e-07,
      "loss": 0.8268,
      "step": 7015
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5320435589260317,
      "learning_rate": 2.698519553670992e-07,
      "loss": 0.7247,
      "step": 7016
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4719269109580886,
      "learning_rate": 2.6918050768066527e-07,
      "loss": 0.7647,
      "step": 7017
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5548503101192908,
      "learning_rate": 2.68509873276947e-07,
      "loss": 0.8449,
      "step": 7018
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8306256686946378,
      "learning_rate": 2.678400522712332e-07,
      "loss": 0.7609,
      "step": 7019
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.785214666608121,
      "learning_rate": 2.6717104477867464e-07,
      "loss": 0.6757,
      "step": 7020
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8738870812846339,
      "learning_rate": 2.665028509142803e-07,
      "loss": 0.6547,
      "step": 7021
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5044594854274957,
      "learning_rate": 2.6583547079292224e-07,
      "loss": 0.7521,
      "step": 7022
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3949380350054708,
      "learning_rate": 2.651689045293293e-07,
      "loss": 0.7905,
      "step": 7023
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.302361260881559,
      "learning_rate": 2.645031522380925e-07,
      "loss": 0.819,
      "step": 7024
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.402405468996856,
      "learning_rate": 2.638382140336626e-07,
      "loss": 0.6521,
      "step": 7025
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3614462246597008,
      "learning_rate": 2.631740900303503e-07,
      "loss": 0.7848,
      "step": 7026
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5086631366185337,
      "learning_rate": 2.6251078034232605e-07,
      "loss": 0.7095,
      "step": 7027
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.539493175318576,
      "learning_rate": 2.6184828508362016e-07,
      "loss": 0.7137,
      "step": 7028
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5920068024109744,
      "learning_rate": 2.6118660436812326e-07,
      "loss": 0.7968,
      "step": 7029
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.8280552941564063,
      "learning_rate": 2.605257383095855e-07,
      "loss": 0.942,
      "step": 7030
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2712817181748282,
      "learning_rate": 2.5986568702161817e-07,
      "loss": 0.7213,
      "step": 7031
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7789715836287348,
      "learning_rate": 2.5920645061769225e-07,
      "loss": 0.7745,
      "step": 7032
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4391432542718086,
      "learning_rate": 2.585480292111375e-07,
      "loss": 0.7412,
      "step": 7033
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3204974125621372,
      "learning_rate": 2.578904229151441e-07,
      "loss": 0.7503,
      "step": 7034
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5504817461689884,
      "learning_rate": 2.5723363184276207e-07,
      "loss": 0.833,
      "step": 7035
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.603090084173285,
      "learning_rate": 2.5657765610690223e-07,
      "loss": 0.7684,
      "step": 7036
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3310616659136791,
      "learning_rate": 2.559224958203321e-07,
      "loss": 0.8619,
      "step": 7037
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.586761019666094,
      "learning_rate": 2.552681510956845e-07,
      "loss": 0.7358,
      "step": 7038
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7124968917084994,
      "learning_rate": 2.546146220454471e-07,
      "loss": 0.6884,
      "step": 7039
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5981103274202595,
      "learning_rate": 2.539619087819689e-07,
      "loss": 0.8208,
      "step": 7040
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5589615834108068,
      "learning_rate": 2.533100114174597e-07,
      "loss": 0.7915,
      "step": 7041
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4819158941426822,
      "learning_rate": 2.526589300639881e-07,
      "loss": 0.8019,
      "step": 7042
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5349549881417717,
      "learning_rate": 2.520086648334824e-07,
      "loss": 0.8134,
      "step": 7043
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.560084394451562,
      "learning_rate": 2.5135921583773036e-07,
      "loss": 0.7786,
      "step": 7044
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3670883575311938,
      "learning_rate": 2.507105831883794e-07,
      "loss": 0.8044,
      "step": 7045
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4023924118887707,
      "learning_rate": 2.5006276699693854e-07,
      "loss": 0.8257,
      "step": 7046
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4291429273965517,
      "learning_rate": 2.4941576737477435e-07,
      "loss": 0.7948,
      "step": 7047
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5063825313452952,
      "learning_rate": 2.487695844331128e-07,
      "loss": 0.6993,
      "step": 7048
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6880155620821018,
      "learning_rate": 2.481242182830401e-07,
      "loss": 0.7623,
      "step": 7049
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5599036647991558,
      "learning_rate": 2.4747966903550355e-07,
      "loss": 0.8036,
      "step": 7050
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8832455356639934,
      "learning_rate": 2.4683593680130734e-07,
      "loss": 0.6863,
      "step": 7051
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7979546876888914,
      "learning_rate": 2.461930216911168e-07,
      "loss": 0.566,
      "step": 7052
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3076402874828066,
      "learning_rate": 2.455509238154574e-07,
      "loss": 0.8179,
      "step": 7053
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3944333372709894,
      "learning_rate": 2.4490964328471257e-07,
      "loss": 0.693,
      "step": 7054
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6273133116220282,
      "learning_rate": 2.442691802091257e-07,
      "loss": 0.7727,
      "step": 7055
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3241923897877095,
      "learning_rate": 2.4362953469879934e-07,
      "loss": 0.806,
      "step": 7056
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6653367860815136,
      "learning_rate": 2.429907068636972e-07,
      "loss": 0.7546,
      "step": 7057
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5554514109559678,
      "learning_rate": 2.423526968136397e-07,
      "loss": 0.841,
      "step": 7058
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9688240438008864,
      "learning_rate": 2.4171550465830974e-07,
      "loss": 0.6182,
      "step": 7059
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4483928504420969,
      "learning_rate": 2.4107913050724627e-07,
      "loss": 0.8507,
      "step": 7060
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3690606132852807,
      "learning_rate": 2.4044357446985134e-07,
      "loss": 0.8523,
      "step": 7061
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5511388004746938,
      "learning_rate": 2.398088366553836e-07,
      "loss": 0.7116,
      "step": 7062
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.9106946850267759,
      "learning_rate": 2.3917491717296184e-07,
      "loss": 0.9021,
      "step": 7063
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8009142572406499,
      "learning_rate": 2.385418161315639e-07,
      "loss": 0.6614,
      "step": 7064
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3286864870601622,
      "learning_rate": 2.3790953364002722e-07,
      "loss": 0.6913,
      "step": 7065
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5846170808753939,
      "learning_rate": 2.372780698070476e-07,
      "loss": 0.7988,
      "step": 7066
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4771669919953647,
      "learning_rate": 2.3664742474118317e-07,
      "loss": 0.8227,
      "step": 7067
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.174038449535565,
      "learning_rate": 2.3601759855084672e-07,
      "loss": 0.7339,
      "step": 7068
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6759060351837984,
      "learning_rate": 2.3538859134431547e-07,
      "loss": 0.7081,
      "step": 7069
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8910154636806027,
      "learning_rate": 2.347604032297207e-07,
      "loss": 0.6985,
      "step": 7070
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4699206187759273,
      "learning_rate": 2.3413303431505606e-07,
      "loss": 0.7687,
      "step": 7071
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8275373801483248,
      "learning_rate": 2.3350648470817416e-07,
      "loss": 0.7932,
      "step": 7072
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9262229579269634,
      "learning_rate": 2.3288075451678381e-07,
      "loss": 0.7649,
      "step": 7073
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.509789067172108,
      "learning_rate": 2.3225584384845845e-07,
      "loss": 0.8261,
      "step": 7074
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.515589085796907,
      "learning_rate": 2.3163175281062545e-07,
      "loss": 0.675,
      "step": 7075
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.568166830522056,
      "learning_rate": 2.31008481510574e-07,
      "loss": 0.7736,
      "step": 7076
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5340501672107014,
      "learning_rate": 2.3038603005545113e-07,
      "loss": 0.655,
      "step": 7077
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.7028240523949436,
      "learning_rate": 2.2976439855226406e-07,
      "loss": 0.7786,
      "step": 7078
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.394989300120178,
      "learning_rate": 2.2914358710787842e-07,
      "loss": 0.7916,
      "step": 7079
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.688742930600953,
      "learning_rate": 2.2852359582901828e-07,
      "loss": 0.8081,
      "step": 7080
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5756021069091732,
      "learning_rate": 2.2790442482226727e-07,
      "loss": 0.8962,
      "step": 7081
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.758536974709632,
      "learning_rate": 2.2728607419406967e-07,
      "loss": 0.766,
      "step": 7082
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5638697858731299,
      "learning_rate": 2.2666854405072546e-07,
      "loss": 0.8908,
      "step": 7083
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.1754536379431446,
      "learning_rate": 2.2605183449839585e-07,
      "loss": 0.8224,
      "step": 7084
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5877234075779578,
      "learning_rate": 2.2543594564309989e-07,
      "loss": 0.7923,
      "step": 7085
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4652218230975202,
      "learning_rate": 2.2482087759071625e-07,
      "loss": 0.7473,
      "step": 7086
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5209116077038622,
      "learning_rate": 2.2420663044698254e-07,
      "loss": 0.8177,
      "step": 7087
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3392595084363499,
      "learning_rate": 2.2359320431749432e-07,
      "loss": 0.8119,
      "step": 7088
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6615763407271942,
      "learning_rate": 2.2298059930770833e-07,
      "loss": 0.8759,
      "step": 7089
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5778893947266166,
      "learning_rate": 2.2236881552293642e-07,
      "loss": 0.7931,
      "step": 7090
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4389182755621877,
      "learning_rate": 2.2175785306835285e-07,
      "loss": 0.7347,
      "step": 7091
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3793584995235748,
      "learning_rate": 2.21147712048988e-07,
      "loss": 0.7882,
      "step": 7092
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8787944311192057,
      "learning_rate": 2.2053839256973297e-07,
      "loss": 0.7066,
      "step": 7093
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.486047883117714,
      "learning_rate": 2.1992989473533566e-07,
      "loss": 0.7158,
      "step": 7094
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4393800841157351,
      "learning_rate": 2.1932221865040572e-07,
      "loss": 0.8759,
      "step": 7095
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6147002244235245,
      "learning_rate": 2.187153644194079e-07,
      "loss": 0.7397,
      "step": 7096
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9093765931825789,
      "learning_rate": 2.1810933214666928e-07,
      "loss": 0.6499,
      "step": 7097
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3866986449870706,
      "learning_rate": 2.1750412193637216e-07,
      "loss": 0.7945,
      "step": 7098
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.9309401904503547,
      "learning_rate": 2.1689973389256047e-07,
      "loss": 0.6409,
      "step": 7099
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5467050005228573,
      "learning_rate": 2.1629616811913502e-07,
      "loss": 0.7694,
      "step": 7100
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.355940945887622,
      "learning_rate": 2.1569342471985556e-07,
      "loss": 0.8351,
      "step": 7101
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.493695033009846,
      "learning_rate": 2.150915037983403e-07,
      "loss": 0.8187,
      "step": 7102
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4177187703588108,
      "learning_rate": 2.1449040545806766e-07,
      "loss": 0.7726,
      "step": 7103
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4306600583900164,
      "learning_rate": 2.1389012980237267e-07,
      "loss": 0.6538,
      "step": 7104
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4844929196436427,
      "learning_rate": 2.1329067693444893e-07,
      "loss": 0.7611,
      "step": 7105
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4374718585544761,
      "learning_rate": 2.126920469573507e-07,
      "loss": 0.786,
      "step": 7106
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5013292752173586,
      "learning_rate": 2.1209423997398893e-07,
      "loss": 0.7927,
      "step": 7107
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5980816495502208,
      "learning_rate": 2.1149725608713368e-07,
      "loss": 0.7814,
      "step": 7108
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8898543410867784,
      "learning_rate": 2.109010953994123e-07,
      "loss": 0.6104,
      "step": 7109
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5927890168998782,
      "learning_rate": 2.1030575801331332e-07,
      "loss": 0.8058,
      "step": 7110
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4670308641065204,
      "learning_rate": 2.097112440311816e-07,
      "loss": 0.7517,
      "step": 7111
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3994774327041586,
      "learning_rate": 2.0911755355522089e-07,
      "loss": 0.744,
      "step": 7112
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5753639089587104,
      "learning_rate": 2.0852468668749294e-07,
      "loss": 0.7927,
      "step": 7113
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5852284454255041,
      "learning_rate": 2.0793264352991894e-07,
      "loss": 0.7331,
      "step": 7114
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6242819346581652,
      "learning_rate": 2.0734142418427806e-07,
      "loss": 0.7632,
      "step": 7115
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7863606727652737,
      "learning_rate": 2.067510287522073e-07,
      "loss": 0.5628,
      "step": 7116
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8654254501408176,
      "learning_rate": 2.0616145733520276e-07,
      "loss": 0.6573,
      "step": 7117
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8259319117800047,
      "learning_rate": 2.0557271003461942e-07,
      "loss": 0.5912,
      "step": 7118
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8140717232096242,
      "learning_rate": 2.0498478695166857e-07,
      "loss": 0.7094,
      "step": 7119
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5268943866825098,
      "learning_rate": 2.0439768818742156e-07,
      "loss": 0.8443,
      "step": 7120
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9184919618147416,
      "learning_rate": 2.0381141384280711e-07,
      "loss": 0.9016,
      "step": 7121
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6080031686265945,
      "learning_rate": 2.0322596401861294e-07,
      "loss": 0.8789,
      "step": 7122
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3994308148938728,
      "learning_rate": 2.026413388154841e-07,
      "loss": 0.7908,
      "step": 7123
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5739975713892473,
      "learning_rate": 2.020575383339246e-07,
      "loss": 0.8719,
      "step": 7124
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5088633672587646,
      "learning_rate": 2.0147456267429754e-07,
      "loss": 0.86,
      "step": 7125
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8603019268551201,
      "learning_rate": 2.0089241193682273e-07,
      "loss": 0.7323,
      "step": 7126
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4599598807569054,
      "learning_rate": 2.003110862215779e-07,
      "loss": 0.7364,
      "step": 7127
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8118270092441042,
      "learning_rate": 1.9973058562850033e-07,
      "loss": 0.6273,
      "step": 7128
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8457824677577369,
      "learning_rate": 1.9915091025738464e-07,
      "loss": 0.6658,
      "step": 7129
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6544999748580667,
      "learning_rate": 1.985720602078828e-07,
      "loss": 0.7915,
      "step": 7130
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3882821291090994,
      "learning_rate": 1.9799403557950793e-07,
      "loss": 0.66,
      "step": 7131
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7993989241913034,
      "learning_rate": 1.9741683647162724e-07,
      "loss": 0.6076,
      "step": 7132
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6160609055970165,
      "learning_rate": 1.9684046298346858e-07,
      "loss": 0.7177,
      "step": 7133
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3263296991585145,
      "learning_rate": 1.9626491521411773e-07,
      "loss": 0.6863,
      "step": 7134
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.4371548357500927,
      "learning_rate": 1.956901932625177e-07,
      "loss": 0.757,
      "step": 7135
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4499094507934902,
      "learning_rate": 1.9511629722747004e-07,
      "loss": 0.8601,
      "step": 7136
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9353089903511989,
      "learning_rate": 1.9454322720763364e-07,
      "loss": 0.8259,
      "step": 7137
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5153052697227487,
      "learning_rate": 1.939709833015252e-07,
      "loss": 0.8073,
      "step": 7138
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4311801216108353,
      "learning_rate": 1.9339956560752216e-07,
      "loss": 0.8112,
      "step": 7139
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5653292029495958,
      "learning_rate": 1.9282897422385593e-07,
      "loss": 0.7176,
      "step": 7140
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.8931153598281173,
      "learning_rate": 1.9225920924861917e-07,
      "loss": 0.6129,
      "step": 7141
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9701195040756716,
      "learning_rate": 1.9169027077975965e-07,
      "loss": 0.7241,
      "step": 7142
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5096738269155066,
      "learning_rate": 1.9112215891508635e-07,
      "loss": 0.7579,
      "step": 7143
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.8264371874767071,
      "learning_rate": 1.905548737522628e-07,
      "loss": 0.7496,
      "step": 7144
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6217783629728686,
      "learning_rate": 1.899884153888115e-07,
      "loss": 0.7211,
      "step": 7145
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4395203329106605,
      "learning_rate": 1.8942278392211466e-07,
      "loss": 0.9106,
      "step": 7146
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.0611359801598614,
      "learning_rate": 1.8885797944941052e-07,
      "loss": 0.8437,
      "step": 7147
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4820051860399546,
      "learning_rate": 1.8829400206779536e-07,
      "loss": 0.8019,
      "step": 7148
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.63461501565125,
      "learning_rate": 1.8773085187422325e-07,
      "loss": 0.6623,
      "step": 7149
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3214954745708514,
      "learning_rate": 1.8716852896550618e-07,
      "loss": 0.8381,
      "step": 7150
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3910662810739676,
      "learning_rate": 1.8660703343831354e-07,
      "loss": 0.9082,
      "step": 7151
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5876584989347358,
      "learning_rate": 1.8604636538917365e-07,
      "loss": 0.6938,
      "step": 7152
    },
    {
      "epoch": 0.92,
      "grad_norm": 4.985582962914753,
      "learning_rate": 1.8548652491447217e-07,
      "loss": 0.7714,
      "step": 7153
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3669360325576883,
      "learning_rate": 1.8492751211045156e-07,
      "loss": 0.8034,
      "step": 7154
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.507265723023138,
      "learning_rate": 1.8436932707321276e-07,
      "loss": 0.8506,
      "step": 7155
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5506549663397553,
      "learning_rate": 1.8381196989871453e-07,
      "loss": 0.8438,
      "step": 7156
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7075059261328154,
      "learning_rate": 1.8325544068277244e-07,
      "loss": 0.8887,
      "step": 7157
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6296933288315858,
      "learning_rate": 1.8269973952106057e-07,
      "loss": 0.8193,
      "step": 7158
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4870207363463641,
      "learning_rate": 1.8214486650911022e-07,
      "loss": 0.7344,
      "step": 7159
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4314171338235666,
      "learning_rate": 1.8159082174231012e-07,
      "loss": 0.8326,
      "step": 7160
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3367084464360905,
      "learning_rate": 1.8103760531590851e-07,
      "loss": 0.7829,
      "step": 7161
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.587142268548426,
      "learning_rate": 1.8048521732500878e-07,
      "loss": 0.6516,
      "step": 7162
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6723291878680207,
      "learning_rate": 1.7993365786457217e-07,
      "loss": 0.8835,
      "step": 7163
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7711010311072892,
      "learning_rate": 1.793829270294195e-07,
      "loss": 0.8037,
      "step": 7164
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6344998872012684,
      "learning_rate": 1.7883302491422673e-07,
      "loss": 0.7485,
      "step": 7165
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7077898778602387,
      "learning_rate": 1.782839516135282e-07,
      "loss": 0.7196,
      "step": 7166
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6750224249204269,
      "learning_rate": 1.777357072217173e-07,
      "loss": 0.7985,
      "step": 7167
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4255874053054831,
      "learning_rate": 1.7718829183304254e-07,
      "loss": 0.7202,
      "step": 7168
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5090237427899715,
      "learning_rate": 1.766417055416114e-07,
      "loss": 0.8776,
      "step": 7169
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.75999991386171,
      "learning_rate": 1.7609594844138767e-07,
      "loss": 0.6924,
      "step": 7170
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5963821582197586,
      "learning_rate": 1.7555102062619454e-07,
      "loss": 0.7514,
      "step": 7171
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4530861789176381,
      "learning_rate": 1.7500692218971048e-07,
      "loss": 0.733,
      "step": 7172
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4900169266694896,
      "learning_rate": 1.7446365322547231e-07,
      "loss": 0.7836,
      "step": 7173
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8067562818205836,
      "learning_rate": 1.7392121382687533e-07,
      "loss": 0.6693,
      "step": 7174
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.8329919882565207,
      "learning_rate": 1.733796040871699e-07,
      "loss": 0.7661,
      "step": 7175
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3523487871101214,
      "learning_rate": 1.7283882409946552e-07,
      "loss": 0.7679,
      "step": 7176
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4389817300837442,
      "learning_rate": 1.7229887395672884e-07,
      "loss": 0.8509,
      "step": 7177
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8206922826853225,
      "learning_rate": 1.7175975375178343e-07,
      "loss": 0.6566,
      "step": 7178
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3688256055152115,
      "learning_rate": 1.7122146357730908e-07,
      "loss": 0.7185,
      "step": 7179
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4748177491131462,
      "learning_rate": 1.7068400352584613e-07,
      "loss": 0.812,
      "step": 7180
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3010663796399704,
      "learning_rate": 1.7014737368978795e-07,
      "loss": 0.7791,
      "step": 7181
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3665011172766064,
      "learning_rate": 1.6961157416139018e-07,
      "loss": 0.8223,
      "step": 7182
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4236279989979053,
      "learning_rate": 1.690766050327608e-07,
      "loss": 0.8554,
      "step": 7183
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3086808346141008,
      "learning_rate": 1.685424663958679e-07,
      "loss": 0.6603,
      "step": 7184
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3619858008678503,
      "learning_rate": 1.680091583425364e-07,
      "loss": 0.7346,
      "step": 7185
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3668843476486183,
      "learning_rate": 1.674766809644479e-07,
      "loss": 0.7934,
      "step": 7186
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4033546304749152,
      "learning_rate": 1.6694503435314035e-07,
      "loss": 0.7789,
      "step": 7187
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.942108125456254,
      "learning_rate": 1.6641421860001172e-07,
      "loss": 0.8338,
      "step": 7188
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4430747110020894,
      "learning_rate": 1.6588423379631458e-07,
      "loss": 0.775,
      "step": 7189
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2561559188305682,
      "learning_rate": 1.6535508003315937e-07,
      "loss": 0.6563,
      "step": 7190
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.644432055322687,
      "learning_rate": 1.6482675740151444e-07,
      "loss": 0.8122,
      "step": 7191
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3118224736083717,
      "learning_rate": 1.642992659922038e-07,
      "loss": 0.8379,
      "step": 7192
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.516244162400232,
      "learning_rate": 1.6377260589590939e-07,
      "loss": 0.8356,
      "step": 7193
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4923382339265459,
      "learning_rate": 1.632467772031704e-07,
      "loss": 0.7986,
      "step": 7194
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.7360172129657531,
      "learning_rate": 1.6272178000438288e-07,
      "loss": 0.5516,
      "step": 7195
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4098755211784808,
      "learning_rate": 1.621976143898002e-07,
      "loss": 0.8502,
      "step": 7196
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.511017469154387,
      "learning_rate": 1.6167428044953138e-07,
      "loss": 0.8551,
      "step": 7197
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8651933160104538,
      "learning_rate": 1.6115177827354556e-07,
      "loss": 0.6011,
      "step": 7198
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3874790839259603,
      "learning_rate": 1.6063010795166533e-07,
      "loss": 0.7685,
      "step": 7199
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5625735402542862,
      "learning_rate": 1.6010926957357232e-07,
      "loss": 0.9304,
      "step": 7200
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4776127022757137,
      "learning_rate": 1.5958926322880487e-07,
      "loss": 0.7821,
      "step": 7201
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.333880417704082,
      "learning_rate": 1.590700890067576e-07,
      "loss": 0.7892,
      "step": 7202
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.656596478812257,
      "learning_rate": 1.5855174699668298e-07,
      "loss": 0.8666,
      "step": 7203
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.987854216173793,
      "learning_rate": 1.580342372876903e-07,
      "loss": 0.8015,
      "step": 7204
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.117398494857077,
      "learning_rate": 1.5751755996874452e-07,
      "loss": 0.8,
      "step": 7205
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3315906581187273,
      "learning_rate": 1.5700171512866956e-07,
      "loss": 0.6909,
      "step": 7206
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.045598227678155,
      "learning_rate": 1.5648670285614397e-07,
      "loss": 0.7371,
      "step": 7207
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5713967719347846,
      "learning_rate": 1.559725232397058e-07,
      "loss": 0.8917,
      "step": 7208
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3156323209681735,
      "learning_rate": 1.5545917636774655e-07,
      "loss": 0.7832,
      "step": 7209
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5533728855722961,
      "learning_rate": 1.5494666232851896e-07,
      "loss": 0.8619,
      "step": 7210
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.67786687191558,
      "learning_rate": 1.5443498121012813e-07,
      "loss": 0.7102,
      "step": 7211
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6252750242212521,
      "learning_rate": 1.5392413310053866e-07,
      "loss": 0.8534,
      "step": 7212
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4196689258905124,
      "learning_rate": 1.5341411808757146e-07,
      "loss": 0.8372,
      "step": 7213
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5891846741286544,
      "learning_rate": 1.5290493625890413e-07,
      "loss": 0.8043,
      "step": 7214
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5267061298478382,
      "learning_rate": 1.5239658770206945e-07,
      "loss": 0.8367,
      "step": 7215
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5449033773671197,
      "learning_rate": 1.5188907250446028e-07,
      "loss": 0.8076,
      "step": 7216
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.551686586603505,
      "learning_rate": 1.513823907533235e-07,
      "loss": 0.6792,
      "step": 7217
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4068184617181285,
      "learning_rate": 1.508765425357639e-07,
      "loss": 0.8637,
      "step": 7218
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3584828255742682,
      "learning_rate": 1.5037152793874244e-07,
      "loss": 0.7547,
      "step": 7219
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9671178058567491,
      "learning_rate": 1.4986734704907745e-07,
      "loss": 0.6422,
      "step": 7220
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.1788426015877773,
      "learning_rate": 1.4936399995344298e-07,
      "loss": 0.7452,
      "step": 7221
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4311582895113073,
      "learning_rate": 1.4886148673836975e-07,
      "loss": 0.7424,
      "step": 7222
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4848864627803533,
      "learning_rate": 1.4835980749024592e-07,
      "loss": 0.8951,
      "step": 7223
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5144784187675249,
      "learning_rate": 1.4785896229531692e-07,
      "loss": 0.7134,
      "step": 7224
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6195320463120693,
      "learning_rate": 1.473589512396828e-07,
      "loss": 0.8301,
      "step": 7225
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.6458418594496116,
      "learning_rate": 1.46859774409302e-07,
      "loss": 0.8405,
      "step": 7226
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5510765647338345,
      "learning_rate": 1.4636143188998808e-07,
      "loss": 0.8319,
      "step": 7227
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4695658873752429,
      "learning_rate": 1.4586392376741254e-07,
      "loss": 0.7533,
      "step": 7228
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4980604280816452,
      "learning_rate": 1.4536725012710252e-07,
      "loss": 0.7747,
      "step": 7229
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4798277891895164,
      "learning_rate": 1.4487141105444136e-07,
      "loss": 0.7383,
      "step": 7230
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8255154189944648,
      "learning_rate": 1.4437640663467034e-07,
      "loss": 0.6405,
      "step": 7231
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5956493467208646,
      "learning_rate": 1.4388223695288695e-07,
      "loss": 0.7843,
      "step": 7232
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.412189688777095,
      "learning_rate": 1.433889020940432e-07,
      "loss": 0.895,
      "step": 7233
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.553560897349479,
      "learning_rate": 1.4289640214294963e-07,
      "loss": 0.7459,
      "step": 7234
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3110704787270127,
      "learning_rate": 1.424047371842735e-07,
      "loss": 0.8965,
      "step": 7235
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8435223558906095,
      "learning_rate": 1.4191390730253718e-07,
      "loss": 0.6187,
      "step": 7236
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4608118837164525,
      "learning_rate": 1.4142391258211985e-07,
      "loss": 0.8697,
      "step": 7237
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.111043942518294,
      "learning_rate": 1.409347531072569e-07,
      "loss": 0.7316,
      "step": 7238
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4701217445169004,
      "learning_rate": 1.4044642896204107e-07,
      "loss": 0.742,
      "step": 7239
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8096794712330666,
      "learning_rate": 1.3995894023042135e-07,
      "loss": 0.7814,
      "step": 7240
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6806100872822165,
      "learning_rate": 1.394722869962023e-07,
      "loss": 0.7308,
      "step": 7241
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.207772346025513,
      "learning_rate": 1.3898646934304538e-07,
      "loss": 0.8027,
      "step": 7242
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6500140403630335,
      "learning_rate": 1.3850148735446767e-07,
      "loss": 0.6618,
      "step": 7243
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.7569011885995458,
      "learning_rate": 1.38017341113843e-07,
      "loss": 0.7872,
      "step": 7244
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.828317416734608,
      "learning_rate": 1.3753403070440263e-07,
      "loss": 0.6608,
      "step": 7245
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5147681195907425,
      "learning_rate": 1.3705155620923337e-07,
      "loss": 0.7376,
      "step": 7246
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.516047268411545,
      "learning_rate": 1.3656991771127781e-07,
      "loss": 0.7584,
      "step": 7247
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6135422118146285,
      "learning_rate": 1.3608911529333467e-07,
      "loss": 0.8551,
      "step": 7248
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3624240070370865,
      "learning_rate": 1.3560914903806065e-07,
      "loss": 0.8055,
      "step": 7249
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3543479793711641,
      "learning_rate": 1.3513001902796642e-07,
      "loss": 0.7355,
      "step": 7250
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5639408920225828,
      "learning_rate": 1.3465172534541936e-07,
      "loss": 0.7978,
      "step": 7251
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.4452967602897453,
      "learning_rate": 1.34174268072646e-07,
      "loss": 0.7231,
      "step": 7252
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4909707702836978,
      "learning_rate": 1.3369764729172453e-07,
      "loss": 0.8819,
      "step": 7253
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4933342928442586,
      "learning_rate": 1.3322186308459274e-07,
      "loss": 0.7222,
      "step": 7254
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.0754236566753317,
      "learning_rate": 1.3274691553304352e-07,
      "loss": 0.7648,
      "step": 7255
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6673654597697851,
      "learning_rate": 1.322728047187255e-07,
      "loss": 0.857,
      "step": 7256
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4010265130289268,
      "learning_rate": 1.31799530723144e-07,
      "loss": 0.6524,
      "step": 7257
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.0377007165737226,
      "learning_rate": 1.3132709362766006e-07,
      "loss": 0.743,
      "step": 7258
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4431459334480834,
      "learning_rate": 1.308554935134909e-07,
      "loss": 0.8879,
      "step": 7259
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8548709614421801,
      "learning_rate": 1.3038473046171063e-07,
      "loss": 0.6,
      "step": 7260
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3666858777036341,
      "learning_rate": 1.299148045532489e-07,
      "loss": 0.829,
      "step": 7261
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6544990216272037,
      "learning_rate": 1.2944571586888998e-07,
      "loss": 0.7646,
      "step": 7262
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9219880344444513,
      "learning_rate": 1.2897746448927828e-07,
      "loss": 0.7033,
      "step": 7263
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.109204775899941,
      "learning_rate": 1.2851005049490939e-07,
      "loss": 0.784,
      "step": 7264
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6444778757522254,
      "learning_rate": 1.2804347396613848e-07,
      "loss": 0.7767,
      "step": 7265
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3558851742461706,
      "learning_rate": 1.2757773498317416e-07,
      "loss": 0.854,
      "step": 7266
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4057785864210888,
      "learning_rate": 1.2711283362608351e-07,
      "loss": 0.8189,
      "step": 7267
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5356216853458369,
      "learning_rate": 1.266487699747887e-07,
      "loss": 0.861,
      "step": 7268
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4341943878290593,
      "learning_rate": 1.2618554410906648e-07,
      "loss": 0.7948,
      "step": 7269
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.325829403798627,
      "learning_rate": 1.2572315610855201e-07,
      "loss": 0.7742,
      "step": 7270
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5166704787922538,
      "learning_rate": 1.252616060527334e-07,
      "loss": 0.7316,
      "step": 7271
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8216417747820717,
      "learning_rate": 1.248008940209583e-07,
      "loss": 0.7147,
      "step": 7272
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5238255228900761,
      "learning_rate": 1.243410200924272e-07,
      "loss": 0.8061,
      "step": 7273
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3210876346154632,
      "learning_rate": 1.2388198434619803e-07,
      "loss": 0.7391,
      "step": 7274
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.529911180090198,
      "learning_rate": 1.2342378686118538e-07,
      "loss": 0.8108,
      "step": 7275
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.8192957596946954,
      "learning_rate": 1.2296642771615741e-07,
      "loss": 0.645,
      "step": 7276
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.9089222401163468,
      "learning_rate": 1.2250990698974009e-07,
      "loss": 0.7864,
      "step": 7277
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.424136536092372,
      "learning_rate": 1.2205422476041452e-07,
      "loss": 0.7111,
      "step": 7278
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3427213650948508,
      "learning_rate": 1.2159938110651803e-07,
      "loss": 0.8623,
      "step": 7279
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4347107195039417,
      "learning_rate": 1.2114537610624255e-07,
      "loss": 0.77,
      "step": 7280
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6647684521567074,
      "learning_rate": 1.206922098376373e-07,
      "loss": 0.7484,
      "step": 7281
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6226823573402345,
      "learning_rate": 1.2023988237860718e-07,
      "loss": 0.7995,
      "step": 7282
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.829476101440021,
      "learning_rate": 1.1978839380691277e-07,
      "loss": 0.5535,
      "step": 7283
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4146083231492599,
      "learning_rate": 1.1933774420016974e-07,
      "loss": 0.794,
      "step": 7284
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4263825097789617,
      "learning_rate": 1.188879336358495e-07,
      "loss": 0.7834,
      "step": 7285
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7554746941441753,
      "learning_rate": 1.184389621912807e-07,
      "loss": 0.6968,
      "step": 7286
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4202358929709105,
      "learning_rate": 1.1799082994364553e-07,
      "loss": 0.7843,
      "step": 7287
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.572107121068006,
      "learning_rate": 1.17543536969984e-07,
      "loss": 0.8746,
      "step": 7288
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5894043492946084,
      "learning_rate": 1.1709708334719128e-07,
      "loss": 0.7785,
      "step": 7289
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7554404194264679,
      "learning_rate": 1.1665146915201652e-07,
      "loss": 0.7079,
      "step": 7290
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.860690199527701,
      "learning_rate": 1.1620669446106735e-07,
      "loss": 0.6419,
      "step": 7291
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.055111696415577,
      "learning_rate": 1.157627593508054e-07,
      "loss": 0.8959,
      "step": 7292
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.1737887422840148,
      "learning_rate": 1.153196638975479e-07,
      "loss": 0.839,
      "step": 7293
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7959658936087509,
      "learning_rate": 1.148774081774684e-07,
      "loss": 0.6589,
      "step": 7294
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7754055445417357,
      "learning_rate": 1.1443599226659497e-07,
      "loss": 0.6535,
      "step": 7295
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.43770774002835,
      "learning_rate": 1.1399541624081357e-07,
      "loss": 0.8741,
      "step": 7296
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5007130826840742,
      "learning_rate": 1.1355568017586305e-07,
      "loss": 0.7812,
      "step": 7297
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4356497588381725,
      "learning_rate": 1.1311678414734018e-07,
      "loss": 0.7263,
      "step": 7298
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7326736513234664,
      "learning_rate": 1.1267872823069459e-07,
      "loss": 0.6249,
      "step": 7299
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5550277901876635,
      "learning_rate": 1.1224151250123549e-07,
      "loss": 0.7777,
      "step": 7300
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.886196792053482,
      "learning_rate": 1.1180513703412388e-07,
      "loss": 0.7517,
      "step": 7301
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.550132562266778,
      "learning_rate": 1.1136960190437751e-07,
      "loss": 0.8334,
      "step": 7302
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8038712849026477,
      "learning_rate": 1.1093490718687094e-07,
      "loss": 0.8372,
      "step": 7303
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.4653100712420617,
      "learning_rate": 1.1050105295633274e-07,
      "loss": 0.7122,
      "step": 7304
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8624533312890994,
      "learning_rate": 1.1006803928734711e-07,
      "loss": 0.7744,
      "step": 7305
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6500333042497468,
      "learning_rate": 1.0963586625435507e-07,
      "loss": 0.8432,
      "step": 7306
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5597985352508354,
      "learning_rate": 1.0920453393165109e-07,
      "loss": 0.8013,
      "step": 7307
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.9844976085520147,
      "learning_rate": 1.087740423933864e-07,
      "loss": 0.9962,
      "step": 7308
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5302847209775894,
      "learning_rate": 1.0834439171356848e-07,
      "loss": 0.8805,
      "step": 7309
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8644021715902187,
      "learning_rate": 1.0791558196605823e-07,
      "loss": 0.6765,
      "step": 7310
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5637011743798195,
      "learning_rate": 1.0748761322457334e-07,
      "loss": 0.8189,
      "step": 7311
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.391485551118888,
      "learning_rate": 1.0706048556268667e-07,
      "loss": 0.7551,
      "step": 7312
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8536828195902428,
      "learning_rate": 1.0663419905382666e-07,
      "loss": 0.7231,
      "step": 7313
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3076767201835722,
      "learning_rate": 1.0620875377127637e-07,
      "loss": 0.7605,
      "step": 7314
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7768256741693456,
      "learning_rate": 1.0578414978817508e-07,
      "loss": 0.7344,
      "step": 7315
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.02287312984752,
      "learning_rate": 1.0536038717751607e-07,
      "loss": 0.7957,
      "step": 7316
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5824337036148173,
      "learning_rate": 1.0493746601215105e-07,
      "loss": 0.709,
      "step": 7317
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2182263340017858,
      "learning_rate": 1.0451538636478353e-07,
      "loss": 0.7577,
      "step": 7318
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.048741087940369,
      "learning_rate": 1.0409414830797493e-07,
      "loss": 0.7613,
      "step": 7319
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.484193984247557,
      "learning_rate": 1.0367375191414064e-07,
      "loss": 0.7204,
      "step": 7320
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7006729118877186,
      "learning_rate": 1.032541972555512e-07,
      "loss": 0.7398,
      "step": 7321
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4839704255760113,
      "learning_rate": 1.0283548440433332e-07,
      "loss": 0.8517,
      "step": 7322
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4006730805757412,
      "learning_rate": 1.0241761343246781e-07,
      "loss": 0.7999,
      "step": 7323
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.375276912635063,
      "learning_rate": 1.0200058441179272e-07,
      "loss": 0.8598,
      "step": 7324
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7331740150628494,
      "learning_rate": 1.0158439741399961e-07,
      "loss": 0.8439,
      "step": 7325
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2763458369954845,
      "learning_rate": 1.0116905251063625e-07,
      "loss": 0.6611,
      "step": 7326
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5868261240729808,
      "learning_rate": 1.0075454977310384e-07,
      "loss": 0.7372,
      "step": 7327
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4873200700531983,
      "learning_rate": 1.0034088927266206e-07,
      "loss": 0.7813,
      "step": 7328
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8696573494975701,
      "learning_rate": 9.99280710804229e-08,
      "loss": 0.6775,
      "step": 7329
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4356924504704967,
      "learning_rate": 9.951609526735517e-08,
      "loss": 0.7539,
      "step": 7330
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7277886317762439,
      "learning_rate": 9.910496190428164e-08,
      "loss": 0.834,
      "step": 7331
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6921510229982446,
      "learning_rate": 9.869467106188135e-08,
      "loss": 0.7732,
      "step": 7332
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3981868944875384,
      "learning_rate": 9.828522281068787e-08,
      "loss": 0.8168,
      "step": 7333
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.536557181392613,
      "learning_rate": 9.787661722108988e-08,
      "loss": 0.9236,
      "step": 7334
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2798618567848123,
      "learning_rate": 9.74688543633323e-08,
      "loss": 0.7959,
      "step": 7335
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5383700395629987,
      "learning_rate": 9.706193430751298e-08,
      "loss": 0.7145,
      "step": 7336
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4539316519942196,
      "learning_rate": 9.665585712358704e-08,
      "loss": 0.8394,
      "step": 7337
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7139291859367711,
      "learning_rate": 9.625062288136367e-08,
      "loss": 0.8181,
      "step": 7338
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7516605051287493,
      "learning_rate": 9.584623165050766e-08,
      "loss": 0.7189,
      "step": 7339
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8204577128942345,
      "learning_rate": 9.544268350053843e-08,
      "loss": 0.6811,
      "step": 7340
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2311889766733488,
      "learning_rate": 9.50399785008299e-08,
      "loss": 0.7303,
      "step": 7341
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3396783388714673,
      "learning_rate": 9.463811672061284e-08,
      "loss": 0.6833,
      "step": 7342
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8050824323043836,
      "learning_rate": 9.423709822897087e-08,
      "loss": 0.7064,
      "step": 7343
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.867500746345107,
      "learning_rate": 9.383692309484382e-08,
      "loss": 0.7593,
      "step": 7344
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4707569784116705,
      "learning_rate": 9.343759138702724e-08,
      "loss": 0.795,
      "step": 7345
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.8656328545671886,
      "learning_rate": 9.303910317417064e-08,
      "loss": 0.7873,
      "step": 7346
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7555721245817836,
      "learning_rate": 9.264145852477868e-08,
      "loss": 0.6451,
      "step": 7347
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8132557432239051,
      "learning_rate": 9.224465750721057e-08,
      "loss": 0.7451,
      "step": 7348
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.2855317756008247,
      "learning_rate": 9.184870018968173e-08,
      "loss": 0.7846,
      "step": 7349
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.7883210425770448,
      "learning_rate": 9.14535866402616e-08,
      "loss": 0.796,
      "step": 7350
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4621801967481627,
      "learning_rate": 9.10593169268742e-08,
      "loss": 0.7844,
      "step": 7351
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.4315447546318447,
      "learning_rate": 9.066589111729973e-08,
      "loss": 0.874,
      "step": 7352
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.8502489638675639,
      "learning_rate": 9.027330927917244e-08,
      "loss": 0.8541,
      "step": 7353
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6112608808037527,
      "learning_rate": 8.988157147998222e-08,
      "loss": 0.7325,
      "step": 7354
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4156599523370224,
      "learning_rate": 8.949067778707188e-08,
      "loss": 0.7302,
      "step": 7355
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.456874706611213,
      "learning_rate": 8.91006282676421e-08,
      "loss": 0.7574,
      "step": 7356
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4548527850079471,
      "learning_rate": 8.871142298874647e-08,
      "loss": 0.8621,
      "step": 7357
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4263978127899266,
      "learning_rate": 8.832306201729368e-08,
      "loss": 0.7921,
      "step": 7358
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5045297027066424,
      "learning_rate": 8.793554542004756e-08,
      "loss": 0.864,
      "step": 7359
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5355956257967933,
      "learning_rate": 8.754887326362649e-08,
      "loss": 0.7266,
      "step": 7360
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5544293314966164,
      "learning_rate": 8.71630456145045e-08,
      "loss": 0.7381,
      "step": 7361
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.625934025099821,
      "learning_rate": 8.677806253900967e-08,
      "loss": 0.7562,
      "step": 7362
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3986461861125452,
      "learning_rate": 8.639392410332403e-08,
      "loss": 0.7086,
      "step": 7363
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5745754703499355,
      "learning_rate": 8.601063037348644e-08,
      "loss": 0.898,
      "step": 7364
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4001685767657186,
      "learning_rate": 8.562818141538976e-08,
      "loss": 0.7998,
      "step": 7365
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5268222566850826,
      "learning_rate": 8.52465772947808e-08,
      "loss": 0.7688,
      "step": 7366
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.502914004735389,
      "learning_rate": 8.486581807726157e-08,
      "loss": 0.6538,
      "step": 7367
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5360045928429453,
      "learning_rate": 8.448590382829025e-08,
      "loss": 0.7715,
      "step": 7368
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2381959659470159,
      "learning_rate": 8.410683461317682e-08,
      "loss": 0.753,
      "step": 7369
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4702932954142858,
      "learning_rate": 8.372861049708859e-08,
      "loss": 0.6716,
      "step": 7370
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5040503149562943,
      "learning_rate": 8.335123154504688e-08,
      "loss": 0.7916,
      "step": 7371
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.290520134994943,
      "learning_rate": 8.297469782192702e-08,
      "loss": 0.7812,
      "step": 7372
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6706451339045467,
      "learning_rate": 8.25990093924589e-08,
      "loss": 0.8049,
      "step": 7373
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.608073806683256,
      "learning_rate": 8.222416632122864e-08,
      "loss": 0.9744,
      "step": 7374
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3142602725827282,
      "learning_rate": 8.185016867267693e-08,
      "loss": 0.7271,
      "step": 7375
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4174953606202738,
      "learning_rate": 8.147701651109674e-08,
      "loss": 0.8244,
      "step": 7376
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.575901199699225,
      "learning_rate": 8.11047099006379e-08,
      "loss": 0.6947,
      "step": 7377
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3098467894169534,
      "learning_rate": 8.073324890530421e-08,
      "loss": 0.7724,
      "step": 7378
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4121241613346303,
      "learning_rate": 8.036263358895402e-08,
      "loss": 0.789,
      "step": 7379
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3747236455149783,
      "learning_rate": 7.999286401529971e-08,
      "loss": 0.6938,
      "step": 7380
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0207891859756675,
      "learning_rate": 7.962394024791043e-08,
      "loss": 0.609,
      "step": 7381
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.695169360975146,
      "learning_rate": 7.925586235020766e-08,
      "loss": 0.7317,
      "step": 7382
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9190496392598837,
      "learning_rate": 7.888863038546801e-08,
      "loss": 0.8298,
      "step": 7383
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3307933250390032,
      "learning_rate": 7.852224441682377e-08,
      "loss": 0.8433,
      "step": 7384
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5199987023448684,
      "learning_rate": 7.81567045072601e-08,
      "loss": 0.7941,
      "step": 7385
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8339535845214069,
      "learning_rate": 7.779201071961784e-08,
      "loss": 0.6765,
      "step": 7386
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4968401872638906,
      "learning_rate": 7.742816311659185e-08,
      "loss": 0.8627,
      "step": 7387
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.839014381931328,
      "learning_rate": 7.706516176073209e-08,
      "loss": 0.7824,
      "step": 7388
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7709577846736455,
      "learning_rate": 7.670300671444309e-08,
      "loss": 0.6626,
      "step": 7389
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9804647204359527,
      "learning_rate": 7.634169803998226e-08,
      "loss": 0.7358,
      "step": 7390
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.500948789547224,
      "learning_rate": 7.598123579946382e-08,
      "loss": 0.8054,
      "step": 7391
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8217728050601627,
      "learning_rate": 7.562162005485484e-08,
      "loss": 0.8499,
      "step": 7392
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6135759251842394,
      "learning_rate": 7.526285086797813e-08,
      "loss": 0.8263,
      "step": 7393
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4970598835874962,
      "learning_rate": 7.490492830050933e-08,
      "loss": 0.8116,
      "step": 7394
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7935159378607549,
      "learning_rate": 7.454785241398033e-08,
      "loss": 0.6184,
      "step": 7395
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3826957575160117,
      "learning_rate": 7.419162326977592e-08,
      "loss": 0.7972,
      "step": 7396
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8385511765540579,
      "learning_rate": 7.383624092913655e-08,
      "loss": 0.7429,
      "step": 7397
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4685705308237038,
      "learning_rate": 7.348170545315614e-08,
      "loss": 0.7695,
      "step": 7398
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6182530468261356,
      "learning_rate": 7.312801690278426e-08,
      "loss": 0.6833,
      "step": 7399
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4653374098993344,
      "learning_rate": 7.277517533882283e-08,
      "loss": 0.8619,
      "step": 7400
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.423597466403495,
      "learning_rate": 7.242318082193e-08,
      "loss": 0.7558,
      "step": 7401
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3721280011158217,
      "learning_rate": 7.207203341261792e-08,
      "loss": 0.6582,
      "step": 7402
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8780495233779642,
      "learning_rate": 7.172173317125275e-08,
      "loss": 0.7553,
      "step": 7403
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.569476313244425,
      "learning_rate": 7.137228015805519e-08,
      "loss": 0.7644,
      "step": 7404
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.580735026606659,
      "learning_rate": 7.102367443310054e-08,
      "loss": 0.7669,
      "step": 7405
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7086386525610733,
      "learning_rate": 7.067591605631752e-08,
      "loss": 0.8185,
      "step": 7406
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6838492276558819,
      "learning_rate": 7.032900508749052e-08,
      "loss": 0.8109,
      "step": 7407
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9076357244080435,
      "learning_rate": 6.998294158625684e-08,
      "loss": 0.7515,
      "step": 7408
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4369708285405238,
      "learning_rate": 6.963772561210891e-08,
      "loss": 0.7775,
      "step": 7409
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.7876884187709887,
      "learning_rate": 6.929335722439367e-08,
      "loss": 0.6911,
      "step": 7410
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5550275606211472,
      "learning_rate": 6.894983648231213e-08,
      "loss": 0.7484,
      "step": 7411
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4262394139720496,
      "learning_rate": 6.86071634449198e-08,
      "loss": 0.7573,
      "step": 7412
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3628357081033355,
      "learning_rate": 6.826533817112513e-08,
      "loss": 0.8094,
      "step": 7413
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6275800305783843,
      "learning_rate": 6.792436071969277e-08,
      "loss": 0.8614,
      "step": 7414
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5533132306237867,
      "learning_rate": 6.758423114924029e-08,
      "loss": 0.745,
      "step": 7415
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.201787990612005,
      "learning_rate": 6.724494951823979e-08,
      "loss": 0.7891,
      "step": 7416
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4547291737243495,
      "learning_rate": 6.690651588501795e-08,
      "loss": 0.8336,
      "step": 7417
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.448442097717663,
      "learning_rate": 6.656893030775546e-08,
      "loss": 0.7781,
      "step": 7418
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2770444188151593,
      "learning_rate": 6.623219284448645e-08,
      "loss": 0.7152,
      "step": 7419
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9201082745255865,
      "learning_rate": 6.589630355310128e-08,
      "loss": 0.6625,
      "step": 7420
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4335554566115922,
      "learning_rate": 6.556126249134209e-08,
      "loss": 0.8041,
      "step": 7421
    },
    {
      "epoch": 0.95,
      "grad_norm": 5.291513673747879,
      "learning_rate": 6.522706971680726e-08,
      "loss": 0.8684,
      "step": 7422
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2564843131951533,
      "learning_rate": 6.489372528694748e-08,
      "loss": 0.7593,
      "step": 7423
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.721691244073369,
      "learning_rate": 6.456122925906971e-08,
      "loss": 0.8847,
      "step": 7424
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9170827218088631,
      "learning_rate": 6.422958169033266e-08,
      "loss": 0.6471,
      "step": 7425
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7857789983092334,
      "learning_rate": 6.389878263775129e-08,
      "loss": 0.7006,
      "step": 7426
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.2448121173163864,
      "learning_rate": 6.356883215819287e-08,
      "loss": 0.7368,
      "step": 7427
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.579039955546505,
      "learning_rate": 6.323973030838037e-08,
      "loss": 0.7685,
      "step": 7428
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4177718184787618,
      "learning_rate": 6.291147714488965e-08,
      "loss": 0.7316,
      "step": 7429
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8413453800094367,
      "learning_rate": 6.258407272415223e-08,
      "loss": 0.6492,
      "step": 7430
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.741370634101475,
      "learning_rate": 6.225751710245198e-08,
      "loss": 0.62,
      "step": 7431
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6250396494508226,
      "learning_rate": 6.193181033592788e-08,
      "loss": 0.8753,
      "step": 7432
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5276843019349235,
      "learning_rate": 6.160695248057236e-08,
      "loss": 0.7232,
      "step": 7433
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4894671080951016,
      "learning_rate": 6.128294359223297e-08,
      "loss": 0.811,
      "step": 7434
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3885111619797335,
      "learning_rate": 6.09597837266096e-08,
      "loss": 0.7216,
      "step": 7435
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4100231962885477,
      "learning_rate": 6.063747293925781e-08,
      "loss": 0.8426,
      "step": 7436
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4330193968448603,
      "learning_rate": 6.031601128558606e-08,
      "loss": 0.8634,
      "step": 7437
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5207270832004052,
      "learning_rate": 5.999539882085793e-08,
      "loss": 0.7927,
      "step": 7438
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4283258120766433,
      "learning_rate": 5.96756356001904e-08,
      "loss": 0.7498,
      "step": 7439
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.6607323433025325,
      "learning_rate": 5.9356721678554554e-08,
      "loss": 0.6842,
      "step": 7440
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.310689784279489,
      "learning_rate": 5.903865711077483e-08,
      "loss": 0.7531,
      "step": 7441
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.2266238785530357,
      "learning_rate": 5.872144195153029e-08,
      "loss": 0.7841,
      "step": 7442
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.245629847013738,
      "learning_rate": 5.840507625535397e-08,
      "loss": 0.7079,
      "step": 7443
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4403391425552663,
      "learning_rate": 5.808956007663291e-08,
      "loss": 0.8062,
      "step": 7444
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4671683688647557,
      "learning_rate": 5.777489346960874e-08,
      "loss": 0.7767,
      "step": 7445
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3608500686892042,
      "learning_rate": 5.7461076488374844e-08,
      "loss": 0.7643,
      "step": 7446
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.698273249882052,
      "learning_rate": 5.7148109186880854e-08,
      "loss": 0.6841,
      "step": 7447
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8741950795263991,
      "learning_rate": 5.683599161892928e-08,
      "loss": 0.6268,
      "step": 7448
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4966992073844114,
      "learning_rate": 5.65247238381772e-08,
      "loss": 0.7886,
      "step": 7449
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5545090492682951,
      "learning_rate": 5.621430589813459e-08,
      "loss": 0.8257,
      "step": 7450
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4855522400269354,
      "learning_rate": 5.5904737852166545e-08,
      "loss": 0.8507,
      "step": 7451
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.7729490513552124,
      "learning_rate": 5.559601975348994e-08,
      "loss": 0.6904,
      "step": 7452
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.640548732985362,
      "learning_rate": 5.5288151655178427e-08,
      "loss": 0.6896,
      "step": 7453
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5797132338760598,
      "learning_rate": 5.4981133610158e-08,
      "loss": 0.6914,
      "step": 7454
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2981583061810555,
      "learning_rate": 5.4674965671208115e-08,
      "loss": 0.6873,
      "step": 7455
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.631578166703081,
      "learning_rate": 5.436964789096222e-08,
      "loss": 0.8765,
      "step": 7456
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.3328250390276244,
      "learning_rate": 5.406518032190944e-08,
      "loss": 0.8524,
      "step": 7457
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8281463528238635,
      "learning_rate": 5.3761563016389576e-08,
      "loss": 0.6996,
      "step": 7458
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4784013048232394,
      "learning_rate": 5.34587960265992e-08,
      "loss": 0.8197,
      "step": 7459
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3800870310582254,
      "learning_rate": 5.315687940458669e-08,
      "loss": 0.7428,
      "step": 7460
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8237342942600302,
      "learning_rate": 5.285581320225552e-08,
      "loss": 0.6793,
      "step": 7461
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6523694004242269,
      "learning_rate": 5.255559747136263e-08,
      "loss": 0.8259,
      "step": 7462
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7815913671813837,
      "learning_rate": 5.2256232263517835e-08,
      "loss": 0.814,
      "step": 7463
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.467911074631701,
      "learning_rate": 5.195771763018609e-08,
      "loss": 0.7718,
      "step": 7464
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3935905515401736,
      "learning_rate": 5.166005362268467e-08,
      "loss": 0.8012,
      "step": 7465
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3428049197187746,
      "learning_rate": 5.1363240292186535e-08,
      "loss": 0.7369,
      "step": 7466
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5347943694849497,
      "learning_rate": 5.1067277689716974e-08,
      "loss": 0.7728,
      "step": 7467
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.405624533630422,
      "learning_rate": 5.07721658661553e-08,
      "loss": 0.7947,
      "step": 7468
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4056511650176973,
      "learning_rate": 5.0477904872234804e-08,
      "loss": 0.8055,
      "step": 7469
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5835319833186023,
      "learning_rate": 5.018449475854226e-08,
      "loss": 0.8153,
      "step": 7470
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3490839582856615,
      "learning_rate": 4.9891935575517856e-08,
      "loss": 0.841,
      "step": 7471
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4663204213331094,
      "learning_rate": 4.9600227373456936e-08,
      "loss": 0.8418,
      "step": 7472
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8113301121569116,
      "learning_rate": 4.930937020250604e-08,
      "loss": 0.6291,
      "step": 7473
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9293184235952714,
      "learning_rate": 4.90193641126685e-08,
      "loss": 0.7902,
      "step": 7474
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6410972492677658,
      "learning_rate": 4.873020915379834e-08,
      "loss": 0.8022,
      "step": 7475
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7500388594978677,
      "learning_rate": 4.844190537560578e-08,
      "loss": 0.738,
      "step": 7476
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.537864832782533,
      "learning_rate": 4.8154452827652854e-08,
      "loss": 0.7908,
      "step": 7477
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7852982119475618,
      "learning_rate": 4.7867851559356694e-08,
      "loss": 0.7265,
      "step": 7478
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6227163969028136,
      "learning_rate": 4.758210161998622e-08,
      "loss": 0.7881,
      "step": 7479
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.9539153684408095,
      "learning_rate": 4.729720305866603e-08,
      "loss": 0.891,
      "step": 7480
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.668285305999228,
      "learning_rate": 4.701315592437361e-08,
      "loss": 0.8582,
      "step": 7481
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5244231514930537,
      "learning_rate": 4.6729960265939344e-08,
      "loss": 0.8111,
      "step": 7482
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5095792289394143,
      "learning_rate": 4.644761613204818e-08,
      "loss": 0.7307,
      "step": 7483
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7588021000976735,
      "learning_rate": 4.6166123571237955e-08,
      "loss": 0.7405,
      "step": 7484
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3954954995498234,
      "learning_rate": 4.588548263190107e-08,
      "loss": 0.7895,
      "step": 7485
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8058800355970859,
      "learning_rate": 4.560569336228338e-08,
      "loss": 0.7099,
      "step": 7486
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5929349309337957,
      "learning_rate": 4.5326755810482514e-08,
      "loss": 0.8203,
      "step": 7487
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7520713866677067,
      "learning_rate": 4.504867002445179e-08,
      "loss": 0.6658,
      "step": 7488
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4235539732809728,
      "learning_rate": 4.477143605199796e-08,
      "loss": 0.7583,
      "step": 7489
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.815574981719689,
      "learning_rate": 4.449505394078013e-08,
      "loss": 0.6316,
      "step": 7490
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5567723506742956,
      "learning_rate": 4.4219523738311396e-08,
      "loss": 0.7815,
      "step": 7491
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8360117721276604,
      "learning_rate": 4.3944845491958874e-08,
      "loss": 0.5593,
      "step": 7492
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.884672621724652,
      "learning_rate": 4.3671019248943126e-08,
      "loss": 0.7128,
      "step": 7493
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.2594102992064484,
      "learning_rate": 4.3398045056337604e-08,
      "loss": 0.8263,
      "step": 7494
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8488540406979613,
      "learning_rate": 4.312592296106977e-08,
      "loss": 0.6422,
      "step": 7495
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.353111435159315,
      "learning_rate": 4.285465300992164e-08,
      "loss": 0.8808,
      "step": 7496
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7850276859413194,
      "learning_rate": 4.258423524952648e-08,
      "loss": 0.8067,
      "step": 7497
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.384798213514231,
      "learning_rate": 4.231466972637211e-08,
      "loss": 0.7726,
      "step": 7498
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.549721726678568,
      "learning_rate": 4.2045956486800877e-08,
      "loss": 0.8037,
      "step": 7499
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4739786339044705,
      "learning_rate": 4.177809557700752e-08,
      "loss": 0.7787,
      "step": 7500
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4254277735758092,
      "learning_rate": 4.1511087043039635e-08,
      "loss": 0.6699,
      "step": 7501
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.482700620096816,
      "learning_rate": 4.12449309307994e-08,
      "loss": 0.8448,
      "step": 7502
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7695355087906313,
      "learning_rate": 4.097962728604299e-08,
      "loss": 0.6493,
      "step": 7503
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4922700448854351,
      "learning_rate": 4.0715176154378366e-08,
      "loss": 0.8336,
      "step": 7504
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3603275902231842,
      "learning_rate": 4.04515775812675e-08,
      "loss": 0.724,
      "step": 7505
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3281665977347068,
      "learning_rate": 4.018883161202691e-08,
      "loss": 0.864,
      "step": 7506
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5654203797437227,
      "learning_rate": 3.992693829182548e-08,
      "loss": 0.9165,
      "step": 7507
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.651287981002507,
      "learning_rate": 3.966589766568496e-08,
      "loss": 0.7428,
      "step": 7508
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.386634026809199,
      "learning_rate": 3.940570977848168e-08,
      "loss": 0.7712,
      "step": 7509
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6221378346563031,
      "learning_rate": 3.914637467494542e-08,
      "loss": 0.8823,
      "step": 7510
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8690473970939852,
      "learning_rate": 3.888789239965885e-08,
      "loss": 0.7778,
      "step": 7511
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.873957035799138,
      "learning_rate": 3.863026299705697e-08,
      "loss": 0.6714,
      "step": 7512
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8309244892898835,
      "learning_rate": 3.8373486511429916e-08,
      "loss": 0.6504,
      "step": 7513
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5908441382411933,
      "learning_rate": 3.811756298692126e-08,
      "loss": 0.8356,
      "step": 7514
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8484213378226226,
      "learning_rate": 3.7862492467526376e-08,
      "loss": 0.8515,
      "step": 7515
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6286426145798565,
      "learning_rate": 3.7608274997095187e-08,
      "loss": 0.8846,
      "step": 7516
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.7808045903099109,
      "learning_rate": 3.735491061932994e-08,
      "loss": 0.6366,
      "step": 7517
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.4910661745525666,
      "learning_rate": 3.710239937778803e-08,
      "loss": 0.8945,
      "step": 7518
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9941205443479391,
      "learning_rate": 3.685074131587863e-08,
      "loss": 0.7057,
      "step": 7519
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3505101712208243,
      "learning_rate": 3.6599936476864325e-08,
      "loss": 0.708,
      "step": 7520
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4919752748466364,
      "learning_rate": 3.6349984903861214e-08,
      "loss": 0.7223,
      "step": 7521
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6698488867964143,
      "learning_rate": 3.6100886639839904e-08,
      "loss": 0.7545,
      "step": 7522
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8024786545405239,
      "learning_rate": 3.5852641727622264e-08,
      "loss": 0.6423,
      "step": 7523
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6189721140079656,
      "learning_rate": 3.5605250209885256e-08,
      "loss": 0.8042,
      "step": 7524
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5810001110061784,
      "learning_rate": 3.535871212915765e-08,
      "loss": 0.8534,
      "step": 7525
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.564249023717858,
      "learning_rate": 3.51130275278222e-08,
      "loss": 0.8871,
      "step": 7526
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.6295718830332193,
      "learning_rate": 3.4868196448115675e-08,
      "loss": 0.8612,
      "step": 7527
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9056355888328573,
      "learning_rate": 3.46242189321272e-08,
      "loss": 0.6706,
      "step": 7528
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.845579824269683,
      "learning_rate": 3.4381095021798203e-08,
      "loss": 0.8268,
      "step": 7529
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.8733749020140256,
      "learning_rate": 3.4138824758925826e-08,
      "loss": 0.7744,
      "step": 7530
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.8386591549003131,
      "learning_rate": 3.389740818515841e-08,
      "loss": 0.6881,
      "step": 7531
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2808724101336484,
      "learning_rate": 3.3656845341998865e-08,
      "loss": 0.8002,
      "step": 7532
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9740956311315134,
      "learning_rate": 3.341713627080245e-08,
      "loss": 0.6537,
      "step": 7533
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.491608506842759,
      "learning_rate": 3.317828101277787e-08,
      "loss": 0.5985,
      "step": 7534
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4806928033317739,
      "learning_rate": 3.2940279608986714e-08,
      "loss": 0.7127,
      "step": 7535
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5749864725733351,
      "learning_rate": 3.270313210034515e-08,
      "loss": 0.8068,
      "step": 7536
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9330322838516256,
      "learning_rate": 3.246683852762056e-08,
      "loss": 0.7581,
      "step": 7537
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3689715688384139,
      "learning_rate": 3.22313989314349e-08,
      "loss": 0.865,
      "step": 7538
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6191062237571678,
      "learning_rate": 3.199681335226357e-08,
      "loss": 0.851,
      "step": 7539
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9942396764731114,
      "learning_rate": 3.176308183043375e-08,
      "loss": 0.7723,
      "step": 7540
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7822993989605564,
      "learning_rate": 3.1530204406127196e-08,
      "loss": 0.8921,
      "step": 7541
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4727235637063838,
      "learning_rate": 3.129818111937744e-08,
      "loss": 0.6584,
      "step": 7542
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4851111184625871,
      "learning_rate": 3.1067012010073114e-08,
      "loss": 0.8368,
      "step": 7543
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4245979186910207,
      "learning_rate": 3.0836697117954115e-08,
      "loss": 0.7385,
      "step": 7544
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4173372565916993,
      "learning_rate": 3.0607236482613764e-08,
      "loss": 0.7695,
      "step": 7545
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4076959875353658,
      "learning_rate": 3.037863014349995e-08,
      "loss": 0.8284,
      "step": 7546
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4099063604771498,
      "learning_rate": 3.0150878139912906e-08,
      "loss": 0.8269,
      "step": 7547
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5068897300494153,
      "learning_rate": 2.9923980511004645e-08,
      "loss": 0.7965,
      "step": 7548
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7626480346373207,
      "learning_rate": 2.96979372957823e-08,
      "loss": 0.6257,
      "step": 7549
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6135155568331412,
      "learning_rate": 2.947274853310589e-08,
      "loss": 0.8049,
      "step": 7550
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.298665412057009,
      "learning_rate": 2.9248414261686674e-08,
      "loss": 0.8188,
      "step": 7551
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5435846154559543,
      "learning_rate": 2.902493452009103e-08,
      "loss": 0.8258,
      "step": 7552
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5240172771431635,
      "learning_rate": 2.8802309346737666e-08,
      "loss": 0.907,
      "step": 7553
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.856731926850348,
      "learning_rate": 2.8580538779898192e-08,
      "loss": 0.8285,
      "step": 7554
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8199239329062601,
      "learning_rate": 2.8359622857698223e-08,
      "loss": 0.6609,
      "step": 7555
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5264800793529867,
      "learning_rate": 2.813956161811515e-08,
      "loss": 0.7847,
      "step": 7556
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8460205394916617,
      "learning_rate": 2.7920355098979835e-08,
      "loss": 0.7248,
      "step": 7557
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.83380958323275,
      "learning_rate": 2.7702003337977124e-08,
      "loss": 0.7877,
      "step": 7558
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.310916498005371,
      "learning_rate": 2.748450637264366e-08,
      "loss": 0.7485,
      "step": 7559
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4097389259874238,
      "learning_rate": 2.7267864240369533e-08,
      "loss": 0.7162,
      "step": 7560
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4985283055491152,
      "learning_rate": 2.7052076978398844e-08,
      "loss": 0.8082,
      "step": 7561
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2928650302986562,
      "learning_rate": 2.683714462382747e-08,
      "loss": 0.7011,
      "step": 7562
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2871485153543463,
      "learning_rate": 2.6623067213605302e-08,
      "loss": 0.7453,
      "step": 7563
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4795273175253127,
      "learning_rate": 2.6409844784533456e-08,
      "loss": 0.7257,
      "step": 7564
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3376210652910712,
      "learning_rate": 2.6197477373268722e-08,
      "loss": 0.7306,
      "step": 7565
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6771862601296932,
      "learning_rate": 2.5985965016318004e-08,
      "loss": 0.8042,
      "step": 7566
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3183458374848573,
      "learning_rate": 2.577530775004389e-08,
      "loss": 0.6617,
      "step": 7567
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5726238408659527,
      "learning_rate": 2.5565505610660734e-08,
      "loss": 0.8201,
      "step": 7568
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.569884486517839,
      "learning_rate": 2.5356558634235806e-08,
      "loss": 0.7796,
      "step": 7569
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4724203984115012,
      "learning_rate": 2.5148466856689812e-08,
      "loss": 0.7789,
      "step": 7570
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7244041689043292,
      "learning_rate": 2.4941230313795252e-08,
      "loss": 0.8491,
      "step": 7571
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5561583412610387,
      "learning_rate": 2.4734849041179176e-08,
      "loss": 0.8223,
      "step": 7572
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6126716352202228,
      "learning_rate": 2.4529323074320988e-08,
      "loss": 0.8166,
      "step": 7573
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.2305197250036364,
      "learning_rate": 2.432465244855242e-08,
      "loss": 0.7942,
      "step": 7574
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3786711869626032,
      "learning_rate": 2.412083719905922e-08,
      "loss": 0.7199,
      "step": 7575
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.777733879940189,
      "learning_rate": 2.3917877360879472e-08,
      "loss": 0.7803,
      "step": 7576
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7550837014980792,
      "learning_rate": 2.371577296890415e-08,
      "loss": 0.6583,
      "step": 7577
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4700016576060144,
      "learning_rate": 2.3514524057877685e-08,
      "loss": 0.8666,
      "step": 7578
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4773330141383572,
      "learning_rate": 2.331413066239685e-08,
      "loss": 0.7432,
      "step": 7579
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5397863631399795,
      "learning_rate": 2.311459281691186e-08,
      "loss": 0.838,
      "step": 7580
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9155141501003513,
      "learning_rate": 2.2915910555725286e-08,
      "loss": 0.6755,
      "step": 7581
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6547268836844768,
      "learning_rate": 2.2718083912992573e-08,
      "loss": 0.7768,
      "step": 7582
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.1558845092712957,
      "learning_rate": 2.2521112922723186e-08,
      "loss": 0.8662,
      "step": 7583
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6052216600259572,
      "learning_rate": 2.2324997618778375e-08,
      "loss": 0.752,
      "step": 7584
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5616996677389952,
      "learning_rate": 2.212973803487284e-08,
      "loss": 0.7765,
      "step": 7585
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5253692605703641,
      "learning_rate": 2.1935334204573056e-08,
      "loss": 0.6946,
      "step": 7586
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5851241252413515,
      "learning_rate": 2.1741786161300628e-08,
      "loss": 0.7643,
      "step": 7587
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.638494871900907,
      "learning_rate": 2.1549093938327826e-08,
      "loss": 0.798,
      "step": 7588
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8433227208044323,
      "learning_rate": 2.135725756878093e-08,
      "loss": 0.6389,
      "step": 7589
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3699272712222363,
      "learning_rate": 2.116627708563912e-08,
      "loss": 0.6885,
      "step": 7590
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5541798320906077,
      "learning_rate": 2.0976152521733905e-08,
      "loss": 0.8768,
      "step": 7591
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6164408665498007,
      "learning_rate": 2.07868839097497e-08,
      "loss": 0.6715,
      "step": 7592
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5659929268631696,
      "learning_rate": 2.059847128222381e-08,
      "loss": 0.8264,
      "step": 7593
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8678939284147613,
      "learning_rate": 2.041091467154699e-08,
      "loss": 0.6515,
      "step": 7594
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6652632063658337,
      "learning_rate": 2.022421410996234e-08,
      "loss": 0.8353,
      "step": 7595
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4354730246194751,
      "learning_rate": 2.0038369629565846e-08,
      "loss": 0.9116,
      "step": 7596
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3500952617448034,
      "learning_rate": 1.9853381262306405e-08,
      "loss": 0.7123,
      "step": 7597
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.699913155603262,
      "learning_rate": 1.9669249039985794e-08,
      "loss": 0.7605,
      "step": 7598
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.1868028596726097,
      "learning_rate": 1.9485972994257584e-08,
      "loss": 0.8064,
      "step": 7599
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6098341474203408,
      "learning_rate": 1.9303553156630462e-08,
      "loss": 0.7144,
      "step": 7600
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5274398445833346,
      "learning_rate": 1.912198955846323e-08,
      "loss": 0.8466,
      "step": 7601
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6330457910826266,
      "learning_rate": 1.894128223096925e-08,
      "loss": 0.8539,
      "step": 7602
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.819390314241716,
      "learning_rate": 1.8761431205214232e-08,
      "loss": 0.5991,
      "step": 7603
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4735481567114896,
      "learning_rate": 1.8582436512116776e-08,
      "loss": 0.7904,
      "step": 7604
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.9999720058164854,
      "learning_rate": 1.8404298182447823e-08,
      "loss": 0.7388,
      "step": 7605
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3032470899794657,
      "learning_rate": 1.8227016246831764e-08,
      "loss": 0.7817,
      "step": 7606
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2401223253189781,
      "learning_rate": 1.8050590735745334e-08,
      "loss": 0.721,
      "step": 7607
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6729506967652596,
      "learning_rate": 1.7875021679518156e-08,
      "loss": 0.7932,
      "step": 7608
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5632225080175712,
      "learning_rate": 1.7700309108332204e-08,
      "loss": 0.8779,
      "step": 7609
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7373978889276438,
      "learning_rate": 1.7526453052223446e-08,
      "loss": 0.776,
      "step": 7610
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.7094772559120472,
      "learning_rate": 1.7353453541078534e-08,
      "loss": 0.7543,
      "step": 7611
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.632816573449779,
      "learning_rate": 1.7181310604639236e-08,
      "loss": 0.8633,
      "step": 7612
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.2977964229475933,
      "learning_rate": 1.701002427249854e-08,
      "loss": 0.7745,
      "step": 7613
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5380964739376775,
      "learning_rate": 1.683959457410178e-08,
      "loss": 0.8242,
      "step": 7614
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.299163396809707,
      "learning_rate": 1.667002153874886e-08,
      "loss": 0.9113,
      "step": 7615
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.014070225131844,
      "learning_rate": 1.65013051955909e-08,
      "loss": 0.7378,
      "step": 7616
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5411361562591404,
      "learning_rate": 1.6333445573632478e-08,
      "loss": 0.7966,
      "step": 7617
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9752469488627562,
      "learning_rate": 1.6166442701730513e-08,
      "loss": 0.7551,
      "step": 7618
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7999872191892066,
      "learning_rate": 1.6000296608594257e-08,
      "loss": 0.6381,
      "step": 7619
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8848399240798075,
      "learning_rate": 1.5835007322786424e-08,
      "loss": 0.6648,
      "step": 7620
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.430119315234331,
      "learning_rate": 1.567057487272261e-08,
      "loss": 0.8726,
      "step": 7621
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6875933739057207,
      "learning_rate": 1.5506999286669656e-08,
      "loss": 0.8521,
      "step": 7622
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3290081146604578,
      "learning_rate": 1.534428059274895e-08,
      "loss": 0.8171,
      "step": 7623
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5711249929604134,
      "learning_rate": 1.5182418818933676e-08,
      "loss": 0.7548,
      "step": 7624
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.324580446310116,
      "learning_rate": 1.502141399304935e-08,
      "loss": 0.7505,
      "step": 7625
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6565944320381505,
      "learning_rate": 1.4861266142775498e-08,
      "loss": 0.748,
      "step": 7626
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4444864553578816,
      "learning_rate": 1.4701975295641768e-08,
      "loss": 0.8597,
      "step": 7627
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4935987319580784,
      "learning_rate": 1.4543541479033473e-08,
      "loss": 0.8082,
      "step": 7628
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6630274360050625,
      "learning_rate": 1.4385964720187162e-08,
      "loss": 0.8042,
      "step": 7629
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5574544154397578,
      "learning_rate": 1.4229245046190609e-08,
      "loss": 0.8831,
      "step": 7630
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6010057499146935,
      "learning_rate": 1.4073382483987819e-08,
      "loss": 0.7747,
      "step": 7631
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4801476487895793,
      "learning_rate": 1.3918377060371802e-08,
      "loss": 0.8357,
      "step": 7632
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2372355937153048,
      "learning_rate": 1.3764228801990686e-08,
      "loss": 0.6812,
      "step": 7633
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3151305248383156,
      "learning_rate": 1.3610937735344387e-08,
      "loss": 0.7312,
      "step": 7634
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8770780455410181,
      "learning_rate": 1.3458503886784603e-08,
      "loss": 0.6882,
      "step": 7635
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6311780596587266,
      "learning_rate": 1.3306927282517034e-08,
      "loss": 0.6716,
      "step": 7636
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5520332097235732,
      "learning_rate": 1.3156207948599176e-08,
      "loss": 0.8433,
      "step": 7637
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3964337089834595,
      "learning_rate": 1.3006345910941964e-08,
      "loss": 0.7435,
      "step": 7638
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.279170746198086,
      "learning_rate": 1.2857341195308126e-08,
      "loss": 0.702,
      "step": 7639
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4717265046635726,
      "learning_rate": 1.2709193827312727e-08,
      "loss": 0.8513,
      "step": 7640
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.414085894773824,
      "learning_rate": 1.2561903832424837e-08,
      "loss": 0.7567,
      "step": 7641
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9343077294590956,
      "learning_rate": 1.2415471235965315e-08,
      "loss": 0.8024,
      "step": 7642
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4023927089884334,
      "learning_rate": 1.2269896063107356e-08,
      "loss": 0.7887,
      "step": 7643
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4122986190468716,
      "learning_rate": 1.2125178338876498e-08,
      "loss": 0.7142,
      "step": 7644
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.33138101185538,
      "learning_rate": 1.1981318088152283e-08,
      "loss": 0.7224,
      "step": 7645
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6744221325256505,
      "learning_rate": 1.1838315335664929e-08,
      "loss": 0.8075,
      "step": 7646
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4919234414369607,
      "learning_rate": 1.1696170105999772e-08,
      "loss": 0.8161,
      "step": 7647
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6356167955349217,
      "learning_rate": 1.1554882423591706e-08,
      "loss": 0.7449,
      "step": 7648
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.316480017055136,
      "learning_rate": 1.141445231273075e-08,
      "loss": 0.6914,
      "step": 7649
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5392950284716582,
      "learning_rate": 1.1274879797558148e-08,
      "loss": 0.7146,
      "step": 7650
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3605131424927952,
      "learning_rate": 1.1136164902067481e-08,
      "loss": 0.7237,
      "step": 7651
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5442969984136394,
      "learning_rate": 1.0998307650106344e-08,
      "loss": 0.8185,
      "step": 7652
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5568007058173992,
      "learning_rate": 1.0861308065373556e-08,
      "loss": 0.7227,
      "step": 7653
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7888373249886544,
      "learning_rate": 1.072516617142083e-08,
      "loss": 0.6229,
      "step": 7654
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5491319759658027,
      "learning_rate": 1.0589881991652784e-08,
      "loss": 0.7373,
      "step": 7655
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8342968200283234,
      "learning_rate": 1.0455455549326366e-08,
      "loss": 0.6545,
      "step": 7656
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7662294310773334,
      "learning_rate": 1.0321886867550868e-08,
      "loss": 0.6399,
      "step": 7657
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5195918412322762,
      "learning_rate": 1.0189175969287923e-08,
      "loss": 0.8388,
      "step": 7658
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3306768356836232,
      "learning_rate": 1.0057322877352616e-08,
      "loss": 0.6933,
      "step": 7659
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4230278482354415,
      "learning_rate": 9.926327614411813e-09,
      "loss": 0.739,
      "step": 7660
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.6851679184282116,
      "learning_rate": 9.796190202985834e-09,
      "loss": 0.7401,
      "step": 7661
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6568138460849262,
      "learning_rate": 9.666910665445673e-09,
      "loss": 0.7808,
      "step": 7662
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8618376407878487,
      "learning_rate": 9.538489024016328e-09,
      "loss": 0.6718,
      "step": 7663
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3981159805416743,
      "learning_rate": 9.410925300775697e-09,
      "loss": 0.839,
      "step": 7664
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9108791064822539,
      "learning_rate": 9.284219517652348e-09,
      "loss": 0.6123,
      "step": 7665
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.452281490055928,
      "learning_rate": 9.158371696428859e-09,
      "loss": 0.8523,
      "step": 7666
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9387296367718756,
      "learning_rate": 9.033381858740697e-09,
      "loss": 0.6733,
      "step": 7667
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4825229027380458,
      "learning_rate": 8.909250026074013e-09,
      "loss": 0.817,
      "step": 7668
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4937998593377688,
      "learning_rate": 8.785976219768954e-09,
      "loss": 0.8473,
      "step": 7669
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7115326674410118,
      "learning_rate": 8.663560461018016e-09,
      "loss": 0.7979,
      "step": 7670
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6884675587225437,
      "learning_rate": 8.542002770865477e-09,
      "loss": 0.7951,
      "step": 7671
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4548441496082594,
      "learning_rate": 8.421303170208505e-09,
      "loss": 0.8011,
      "step": 7672
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.1533787584525825,
      "learning_rate": 8.301461679796619e-09,
      "loss": 0.8166,
      "step": 7673
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8313073467428004,
      "learning_rate": 8.182478320232223e-09,
      "loss": 0.6533,
      "step": 7674
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.743816100624885,
      "learning_rate": 8.06435311197007e-09,
      "loss": 0.8306,
      "step": 7675
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6264006244806903,
      "learning_rate": 7.947086075317246e-09,
      "loss": 0.7909,
      "step": 7676
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.8126905964642541,
      "learning_rate": 7.830677230433181e-09,
      "loss": 0.7807,
      "step": 7677
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.397120285402467,
      "learning_rate": 7.715126597329648e-09,
      "loss": 0.801,
      "step": 7678
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.514222041843367,
      "learning_rate": 7.600434195871864e-09,
      "loss": 0.6569,
      "step": 7679
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7471952216695911,
      "learning_rate": 7.486600045775728e-09,
      "loss": 0.6475,
      "step": 7680
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4857288868093497,
      "learning_rate": 7.373624166611137e-09,
      "loss": 0.8147,
      "step": 7681
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7935658771058419,
      "learning_rate": 7.261506577800892e-09,
      "loss": 0.6315,
      "step": 7682
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6803972092793626,
      "learning_rate": 7.1502472986179075e-09,
      "loss": 0.8468,
      "step": 7683
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9053689554993788,
      "learning_rate": 7.039846348189105e-09,
      "loss": 0.6306,
      "step": 7684
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5095337068478807,
      "learning_rate": 6.93030374549486e-09,
      "loss": 0.7435,
      "step": 7685
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3995741563763124,
      "learning_rate": 6.8216195093656624e-09,
      "loss": 0.7638,
      "step": 7686
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4432758742818304,
      "learning_rate": 6.713793658486012e-09,
      "loss": 0.7907,
      "step": 7687
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.517021435842723,
      "learning_rate": 6.606826211392192e-09,
      "loss": 0.7681,
      "step": 7688
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4790101691472155,
      "learning_rate": 6.5007171864733824e-09,
      "loss": 0.855,
      "step": 7689
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.9728839975912988,
      "learning_rate": 6.395466601971101e-09,
      "loss": 0.7332,
      "step": 7690
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6325226360787195,
      "learning_rate": 6.291074475978653e-09,
      "loss": 0.8418,
      "step": 7691
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.047609277013479,
      "learning_rate": 6.187540826442795e-09,
      "loss": 0.7925,
      "step": 7692
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8866549857727912,
      "learning_rate": 6.084865671162066e-09,
      "loss": 0.6908,
      "step": 7693
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.7058970434689886,
      "learning_rate": 5.983049027786791e-09,
      "loss": 0.8101,
      "step": 7694
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.1287567447467275,
      "learning_rate": 5.882090913821303e-09,
      "loss": 0.7481,
      "step": 7695
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5635543056747814,
      "learning_rate": 5.781991346621163e-09,
      "loss": 0.7966,
      "step": 7696
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6806990797720645,
      "learning_rate": 5.682750343394827e-09,
      "loss": 0.6698,
      "step": 7697
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.456020320768872,
      "learning_rate": 5.584367921202538e-09,
      "loss": 0.6131,
      "step": 7698
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6628132349790161,
      "learning_rate": 5.486844096957988e-09,
      "loss": 0.7545,
      "step": 7699
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5649312759174119,
      "learning_rate": 5.390178887426101e-09,
      "loss": 0.7218,
      "step": 7700
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.8082808977409897,
      "learning_rate": 5.294372309224693e-09,
      "loss": 0.7899,
      "step": 7701
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5200611316771147,
      "learning_rate": 5.19942437882448e-09,
      "loss": 0.8192,
      "step": 7702
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6088080803880027,
      "learning_rate": 5.10533511254796e-09,
      "loss": 0.8131,
      "step": 7703
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3893868259275926,
      "learning_rate": 5.012104526569972e-09,
      "loss": 0.9185,
      "step": 7704
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4573146738214993,
      "learning_rate": 4.919732636918251e-09,
      "loss": 0.817,
      "step": 7705
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.858804321133835,
      "learning_rate": 4.8282194594723164e-09,
      "loss": 0.623,
      "step": 7706
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.602158948658371,
      "learning_rate": 4.737565009964584e-09,
      "loss": 0.7394,
      "step": 7707
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9626772918240455,
      "learning_rate": 4.647769303979255e-09,
      "loss": 0.7015,
      "step": 7708
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.611932290290397,
      "learning_rate": 4.558832356953979e-09,
      "loss": 0.7594,
      "step": 7709
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4804340515952688,
      "learning_rate": 4.470754184177084e-09,
      "loss": 0.8811,
      "step": 7710
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.1684988496909448,
      "learning_rate": 4.383534800790901e-09,
      "loss": 0.6994,
      "step": 7711
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6083600805444784,
      "learning_rate": 4.297174221788991e-09,
      "loss": 0.8087,
      "step": 7712
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5876392766512561,
      "learning_rate": 4.211672462018368e-09,
      "loss": 0.6995,
      "step": 7713
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4770568528032864,
      "learning_rate": 4.127029536177274e-09,
      "loss": 0.7372,
      "step": 7714
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.901974594880844,
      "learning_rate": 4.043245458816847e-09,
      "loss": 0.8193,
      "step": 7715
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.292551904866164,
      "learning_rate": 3.960320244340565e-09,
      "loss": 0.6781,
      "step": 7716
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5927603239561678,
      "learning_rate": 3.878253907004248e-09,
      "loss": 0.8121,
      "step": 7717
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5895956038153458,
      "learning_rate": 3.797046460916054e-09,
      "loss": 0.7877,
      "step": 7718
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3292518332825694,
      "learning_rate": 3.716697920036483e-09,
      "loss": 0.776,
      "step": 7719
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4770825112056514,
      "learning_rate": 3.637208298178929e-09,
      "loss": 0.89,
      "step": 7720
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.439444141454068,
      "learning_rate": 3.558577609007463e-09,
      "loss": 0.8511,
      "step": 7721
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4250024036209967,
      "learning_rate": 3.480805866040715e-09,
      "loss": 0.8244,
      "step": 7722
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2581153954886093,
      "learning_rate": 3.403893082647991e-09,
      "loss": 0.7901,
      "step": 7723
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5424620891192025,
      "learning_rate": 3.3278392720514917e-09,
      "loss": 0.8096,
      "step": 7724
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.7173887834528538,
      "learning_rate": 3.252644447325759e-09,
      "loss": 0.7296,
      "step": 7725
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.654594415393577,
      "learning_rate": 3.1783086213976743e-09,
      "loss": 0.7695,
      "step": 7726
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4267251242236239,
      "learning_rate": 3.10483180704646e-09,
      "loss": 0.8055,
      "step": 7727
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4675115426831997,
      "learning_rate": 3.0322140169036784e-09,
      "loss": 0.7932,
      "step": 7728
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3995548019820736,
      "learning_rate": 2.9604552634532325e-09,
      "loss": 0.7217,
      "step": 7729
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5420137294987577,
      "learning_rate": 2.88955555903081e-09,
      "loss": 0.7436,
      "step": 7730
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3778139861215728,
      "learning_rate": 2.81951491582555e-09,
      "loss": 0.7835,
      "step": 7731
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6822478886948833,
      "learning_rate": 2.7503333458778205e-09,
      "loss": 0.7994,
      "step": 7732
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.703340971203802,
      "learning_rate": 2.682010861080886e-09,
      "loss": 0.7862,
      "step": 7733
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8158139693865621,
      "learning_rate": 2.614547473180351e-09,
      "loss": 0.6191,
      "step": 7734
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.3647740187316235,
      "learning_rate": 2.5479431937736055e-09,
      "loss": 0.8582,
      "step": 7735
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4157214534581104,
      "learning_rate": 2.482198034310934e-09,
      "loss": 0.7099,
      "step": 7736
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.371842067081664,
      "learning_rate": 2.417312006094963e-09,
      "loss": 0.9098,
      "step": 7737
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4958540468756627,
      "learning_rate": 2.353285120279547e-09,
      "loss": 0.8141,
      "step": 7738
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6375783783414897,
      "learning_rate": 2.290117387872548e-09,
      "loss": 0.8127,
      "step": 7739
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.8198101996633734,
      "learning_rate": 2.227808819732502e-09,
      "loss": 0.6499,
      "step": 7740
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6861486321239287,
      "learning_rate": 2.166359426570841e-09,
      "loss": 0.8481,
      "step": 7741
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7832804875856697,
      "learning_rate": 2.105769218952447e-09,
      "loss": 0.6893,
      "step": 7742
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.676758640595171,
      "learning_rate": 2.0460382072928775e-09,
      "loss": 0.8213,
      "step": 7743
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.461848269073387,
      "learning_rate": 1.98716640186003e-09,
      "loss": 0.7526,
      "step": 7744
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3787005071219403,
      "learning_rate": 1.929153812775808e-09,
      "loss": 0.8495,
      "step": 7745
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4154307013481477,
      "learning_rate": 1.8720004500122347e-09,
      "loss": 0.6891,
      "step": 7746
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.358426944466807,
      "learning_rate": 1.8157063233953387e-09,
      "loss": 0.6671,
      "step": 7747
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4916056648139018,
      "learning_rate": 1.7602714426023792e-09,
      "loss": 0.7705,
      "step": 7748
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5543789429415291,
      "learning_rate": 1.7056958171635108e-09,
      "loss": 0.7649,
      "step": 7749
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.494726744156318,
      "learning_rate": 1.6519794564606728e-09,
      "loss": 0.7857,
      "step": 7750
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.558797634549784,
      "learning_rate": 1.5991223697281454e-09,
      "loss": 0.71,
      "step": 7751
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7481356787625977,
      "learning_rate": 1.5471245660531042e-09,
      "loss": 0.6199,
      "step": 7752
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9955097903256496,
      "learning_rate": 1.4959860543739546e-09,
      "loss": 0.9079,
      "step": 7753
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.450292056932963,
      "learning_rate": 1.4457068434831078e-09,
      "loss": 0.8443,
      "step": 7754
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.625267045262381,
      "learning_rate": 1.3962869420230951e-09,
      "loss": 0.725,
      "step": 7755
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5530668544600401,
      "learning_rate": 1.3477263584904533e-09,
      "loss": 0.8319,
      "step": 7756
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6572569438585723,
      "learning_rate": 1.3000251012323939e-09,
      "loss": 0.7483,
      "step": 7757
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.353786767246249,
      "learning_rate": 1.2531831784506898e-09,
      "loss": 0.763,
      "step": 7758
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.652754578628546,
      "learning_rate": 1.2072005981966783e-09,
      "loss": 0.7018,
      "step": 7759
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6316425580576739,
      "learning_rate": 1.1620773683757025e-09,
      "loss": 0.7265,
      "step": 7760
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4183947233895644,
      "learning_rate": 1.1178134967454456e-09,
      "loss": 0.8027,
      "step": 7761
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6083509442170751,
      "learning_rate": 1.0744089909153765e-09,
      "loss": 0.8356,
      "step": 7762
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4777223653441034,
      "learning_rate": 1.0318638583467489e-09,
      "loss": 0.7503,
      "step": 7763
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6978509518170857,
      "learning_rate": 9.901781063531568e-10,
      "loss": 0.7943,
      "step": 7764
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3824634011995085,
      "learning_rate": 9.493517421022003e-10,
      "loss": 0.7416,
      "step": 7765
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.37256908366294,
      "learning_rate": 9.093847726110439e-10,
      "loss": 0.6747,
      "step": 7766
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.488805501583126,
      "learning_rate": 8.70277204751413e-10,
      "loss": 0.7978,
      "step": 7767
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5519662260231042,
      "learning_rate": 8.320290452462632e-10,
      "loss": 0.709,
      "step": 7768
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9522315388083407,
      "learning_rate": 7.946403006703351e-10,
      "loss": 0.7692,
      "step": 7769
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.536075339597317,
      "learning_rate": 7.581109774512651e-10,
      "loss": 0.785,
      "step": 7770
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5103233058617205,
      "learning_rate": 7.224410818695848e-10,
      "loss": 0.7911,
      "step": 7771
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.7729292623447586,
      "learning_rate": 6.876306200565008e-10,
      "loss": 0.6586,
      "step": 7772
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7232566233224003,
      "learning_rate": 6.536795979966703e-10,
      "loss": 0.7315,
      "step": 7773
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.404865388453852,
      "learning_rate": 6.20588021527091e-10,
      "loss": 0.8482,
      "step": 7774
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3538622271009717,
      "learning_rate": 5.883558963359903e-10,
      "loss": 0.7194,
      "step": 7775
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4410684446597164,
      "learning_rate": 5.569832279644915e-10,
      "loss": 0.8561,
      "step": 7776
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3811405829004706,
      "learning_rate": 5.264700218066133e-10,
      "loss": 0.8023,
      "step": 7777
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6788894744646272,
      "learning_rate": 4.968162831070489e-10,
      "loss": 0.7342,
      "step": 7778
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3801383061013561,
      "learning_rate": 4.680220169639427e-10,
      "loss": 0.8388,
      "step": 7779
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7513575450808863,
      "learning_rate": 4.4008722832722397e-10,
      "loss": 0.762,
      "step": 7780
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4796618932524899,
      "learning_rate": 4.1301192199971753e-10,
      "loss": 0.7522,
      "step": 7781
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8650570381980414,
      "learning_rate": 3.867961026354783e-10,
      "loss": 0.6424,
      "step": 7782
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5472891983096266,
      "learning_rate": 3.6143977474201175e-10,
      "loss": 0.7847,
      "step": 7783
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5831792393406494,
      "learning_rate": 3.369429426769433e-10,
      "loss": 0.8123,
      "step": 7784
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5904450937529524,
      "learning_rate": 3.1330561065301413e-10,
      "loss": 0.8699,
      "step": 7785
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3473725176207723,
      "learning_rate": 2.9052778273308546e-10,
      "loss": 0.7386,
      "step": 7786
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5606984794044365,
      "learning_rate": 2.686094628329139e-10,
      "loss": 0.8171,
      "step": 7787
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5223762082819077,
      "learning_rate": 2.475506547211515e-10,
      "loss": 0.8471,
      "step": 7788
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5434991647474336,
      "learning_rate": 2.2735136201712527e-10,
      "loss": 0.7745,
      "step": 7789
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.3813745747857182,
      "learning_rate": 2.080115881936129e-10,
      "loss": 0.7787,
      "step": 7790
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3985623543672094,
      "learning_rate": 1.895313365757323e-10,
      "loss": 0.7709,
      "step": 7791
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6894258282154413,
      "learning_rate": 1.7191061033983157e-10,
      "loss": 0.8149,
      "step": 7792
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.7806312822001449,
      "learning_rate": 1.5514941251570937e-10,
      "loss": 0.6032,
      "step": 7793
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4734863540193,
      "learning_rate": 1.392477459843944e-10,
      "loss": 0.805,
      "step": 7794
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8338699746863645,
      "learning_rate": 1.2420561348036598e-10,
      "loss": 0.7189,
      "step": 7795
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.32036363981309,
      "learning_rate": 1.1002301758822331e-10,
      "loss": 0.7481,
      "step": 7796
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4207395920256873,
      "learning_rate": 9.66999607471264e-11,
      "loss": 0.8366,
      "step": 7797
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3253254295055386,
      "learning_rate": 8.423644524691021e-11,
      "loss": 0.6881,
      "step": 7798
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.8730543394339616,
      "learning_rate": 7.263247323086032e-11,
      "loss": 0.7645,
      "step": 7799
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5693071203576379,
      "learning_rate": 6.188804669349236e-11,
      "loss": 0.7836,
      "step": 7800
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3833788675343652,
      "learning_rate": 5.200316748110723e-11,
      "loss": 0.6535,
      "step": 7801
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5500009798100043,
      "learning_rate": 4.297783729456662e-11,
      "loss": 0.8,
      "step": 7802
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.0319937314662657,
      "learning_rate": 3.481205768429696e-11,
      "loss": 0.8407,
      "step": 7803
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.1583796891436755,
      "learning_rate": 2.7505830054175287e-11,
      "loss": 0.816,
      "step": 7804
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4328608100444107,
      "learning_rate": 2.105915566041894e-11,
      "loss": 0.8374,
      "step": 7805
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.401047083730428,
      "learning_rate": 1.5472035611585613e-11,
      "loss": 0.8417,
      "step": 7806
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.478274387950383,
      "learning_rate": 1.0744470868018219e-11,
      "loss": 0.7449,
      "step": 7807
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.534836561372754,
      "learning_rate": 6.876462241844906e-12,
      "loss": 0.8832,
      "step": 7808
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4028089594514512,
      "learning_rate": 3.868010399199484e-12,
      "loss": 0.8832,
      "step": 7809
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.6970340414095869,
      "learning_rate": 1.7191158563356626e-12,
      "loss": 0.6254,
      "step": 7810
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.5119502994428689,
      "learning_rate": 4.2977898240259554e-13,
      "loss": 0.7376,
      "step": 7811
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.439395516092353,
      "learning_rate": 0.0,
      "loss": 0.842,
      "step": 7812
    },
    {
      "epoch": 1.0,
      "step": 7812,
      "total_flos": 3077887082184704.0,
      "train_loss": 0.809998232121658,
      "train_runtime": 37738.6991,
      "train_samples_per_second": 26.497,
      "train_steps_per_second": 0.207
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 7812,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "total_flos": 3077887082184704.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}