{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998853342506593,
  "eval_steps": 500,
  "global_step": 2180,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00045866299736268775,
      "grad_norm": 57.0238151550293,
      "learning_rate": 0.0,
      "loss": 8.1081,
      "step": 1
    },
    {
      "epoch": 0.0009173259947253755,
      "grad_norm": 56.10494613647461,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 8.0535,
      "step": 2
    },
    {
      "epoch": 0.0013759889920880633,
      "grad_norm": 49.62648010253906,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 7.8459,
      "step": 3
    },
    {
      "epoch": 0.001834651989450751,
      "grad_norm": 20.10080337524414,
      "learning_rate": 4.545454545454546e-05,
      "loss": 6.7458,
      "step": 4
    },
    {
      "epoch": 0.002293314986813439,
      "grad_norm": 19.102550506591797,
      "learning_rate": 6.060606060606061e-05,
      "loss": 6.165,
      "step": 5
    },
    {
      "epoch": 0.0027519779841761265,
      "grad_norm": 10.961824417114258,
      "learning_rate": 7.575757575757576e-05,
      "loss": 5.8471,
      "step": 6
    },
    {
      "epoch": 0.0032106409815388145,
      "grad_norm": 8.609036445617676,
      "learning_rate": 9.090909090909092e-05,
      "loss": 5.4315,
      "step": 7
    },
    {
      "epoch": 0.003669303978901502,
      "grad_norm": 10.090152740478516,
      "learning_rate": 0.00010606060606060606,
      "loss": 5.2069,
      "step": 8
    },
    {
      "epoch": 0.0041279669762641896,
      "grad_norm": 4.933061122894287,
      "learning_rate": 0.00012121212121212122,
      "loss": 5.0206,
      "step": 9
    },
    {
      "epoch": 0.004586629973626878,
      "grad_norm": 5.680554389953613,
      "learning_rate": 0.00013636363636363637,
      "loss": 4.8019,
      "step": 10
    },
    {
      "epoch": 0.0050452929709895655,
      "grad_norm": 5.717840671539307,
      "learning_rate": 0.00015151515151515152,
      "loss": 4.666,
      "step": 11
    },
    {
      "epoch": 0.005503955968352253,
      "grad_norm": 3.6637918949127197,
      "learning_rate": 0.00016666666666666666,
      "loss": 4.5676,
      "step": 12
    },
    {
      "epoch": 0.0059626189657149406,
      "grad_norm": 3.5151922702789307,
      "learning_rate": 0.00018181818181818183,
      "loss": 4.4483,
      "step": 13
    },
    {
      "epoch": 0.006421281963077629,
      "grad_norm": 3.747941732406616,
      "learning_rate": 0.00019696969696969695,
      "loss": 4.4176,
      "step": 14
    },
    {
      "epoch": 0.0068799449604403165,
      "grad_norm": 2.734997272491455,
      "learning_rate": 0.00021212121212121213,
      "loss": 4.2998,
      "step": 15
    },
    {
      "epoch": 0.007338607957803004,
      "grad_norm": 2.7118420600891113,
      "learning_rate": 0.00022727272727272727,
      "loss": 4.2097,
      "step": 16
    },
    {
      "epoch": 0.007797270955165692,
      "grad_norm": 1.9018630981445312,
      "learning_rate": 0.00024242424242424245,
      "loss": 4.1567,
      "step": 17
    },
    {
      "epoch": 0.008255933952528379,
      "grad_norm": 1.6881810426712036,
      "learning_rate": 0.00025757575757575756,
      "loss": 4.0265,
      "step": 18
    },
    {
      "epoch": 0.008714596949891068,
      "grad_norm": 2.33442759513855,
      "learning_rate": 0.00027272727272727274,
      "loss": 3.9878,
      "step": 19
    },
    {
      "epoch": 0.009173259947253756,
      "grad_norm": 1.6883267164230347,
      "learning_rate": 0.0002878787878787879,
      "loss": 4.0568,
      "step": 20
    },
    {
      "epoch": 0.009631922944616443,
      "grad_norm": 1.3835246562957764,
      "learning_rate": 0.00030303030303030303,
      "loss": 4.0293,
      "step": 21
    },
    {
      "epoch": 0.010090585941979131,
      "grad_norm": 1.4704763889312744,
      "learning_rate": 0.0003181818181818182,
      "loss": 3.8827,
      "step": 22
    },
    {
      "epoch": 0.010549248939341819,
      "grad_norm": 1.5708427429199219,
      "learning_rate": 0.0003333333333333333,
      "loss": 3.8189,
      "step": 23
    },
    {
      "epoch": 0.011007911936704506,
      "grad_norm": 1.2003239393234253,
      "learning_rate": 0.0003484848484848485,
      "loss": 3.8511,
      "step": 24
    },
    {
      "epoch": 0.011466574934067194,
      "grad_norm": 1.2934962511062622,
      "learning_rate": 0.00036363636363636367,
      "loss": 3.7749,
      "step": 25
    },
    {
      "epoch": 0.011925237931429881,
      "grad_norm": 1.0661710500717163,
      "learning_rate": 0.0003787878787878788,
      "loss": 3.6721,
      "step": 26
    },
    {
      "epoch": 0.01238390092879257,
      "grad_norm": 0.9853419661521912,
      "learning_rate": 0.0003939393939393939,
      "loss": 3.7621,
      "step": 27
    },
    {
      "epoch": 0.012842563926155258,
      "grad_norm": 0.9205514788627625,
      "learning_rate": 0.00040909090909090913,
      "loss": 3.6452,
      "step": 28
    },
    {
      "epoch": 0.013301226923517945,
      "grad_norm": 0.9901637434959412,
      "learning_rate": 0.00042424242424242425,
      "loss": 3.7248,
      "step": 29
    },
    {
      "epoch": 0.013759889920880633,
      "grad_norm": 1.0077064037322998,
      "learning_rate": 0.0004393939393939394,
      "loss": 3.5448,
      "step": 30
    },
    {
      "epoch": 0.01421855291824332,
      "grad_norm": 0.9489478468894958,
      "learning_rate": 0.00045454545454545455,
      "loss": 3.6116,
      "step": 31
    },
    {
      "epoch": 0.014677215915606008,
      "grad_norm": 0.9410045146942139,
      "learning_rate": 0.0004696969696969697,
      "loss": 3.6309,
      "step": 32
    },
    {
      "epoch": 0.015135878912968696,
      "grad_norm": 0.8237782716751099,
      "learning_rate": 0.0004848484848484849,
      "loss": 3.521,
      "step": 33
    },
    {
      "epoch": 0.015594541910331383,
      "grad_norm": 0.7069449424743652,
      "learning_rate": 0.0005,
      "loss": 3.5198,
      "step": 34
    },
    {
      "epoch": 0.01605320490769407,
      "grad_norm": 0.6424427628517151,
      "learning_rate": 0.0005151515151515151,
      "loss": 3.4213,
      "step": 35
    },
    {
      "epoch": 0.016511867905056758,
      "grad_norm": 0.5989179611206055,
      "learning_rate": 0.0005303030303030302,
      "loss": 3.3485,
      "step": 36
    },
    {
      "epoch": 0.016970530902419446,
      "grad_norm": 0.5667407512664795,
      "learning_rate": 0.0005454545454545455,
      "loss": 3.3518,
      "step": 37
    },
    {
      "epoch": 0.017429193899782137,
      "grad_norm": 0.6039742231369019,
      "learning_rate": 0.0005606060606060606,
      "loss": 3.3664,
      "step": 38
    },
    {
      "epoch": 0.017887856897144824,
      "grad_norm": 0.5848388075828552,
      "learning_rate": 0.0005757575757575758,
      "loss": 3.406,
      "step": 39
    },
    {
      "epoch": 0.018346519894507512,
      "grad_norm": 0.6059999465942383,
      "learning_rate": 0.0005909090909090909,
      "loss": 3.3287,
      "step": 40
    },
    {
      "epoch": 0.0188051828918702,
      "grad_norm": 0.4927663505077362,
      "learning_rate": 0.0006060606060606061,
      "loss": 3.2178,
      "step": 41
    },
    {
      "epoch": 0.019263845889232887,
      "grad_norm": 0.5802597999572754,
      "learning_rate": 0.0006212121212121212,
      "loss": 3.2596,
      "step": 42
    },
    {
      "epoch": 0.019722508886595574,
      "grad_norm": 0.6017978191375732,
      "learning_rate": 0.0006363636363636364,
      "loss": 3.3136,
      "step": 43
    },
    {
      "epoch": 0.020181171883958262,
      "grad_norm": 0.564753532409668,
      "learning_rate": 0.0006515151515151515,
      "loss": 3.1703,
      "step": 44
    },
    {
      "epoch": 0.02063983488132095,
      "grad_norm": 0.6471258401870728,
      "learning_rate": 0.0006666666666666666,
      "loss": 3.153,
      "step": 45
    },
    {
      "epoch": 0.021098497878683637,
      "grad_norm": 0.6290270090103149,
      "learning_rate": 0.0006818181818181818,
      "loss": 3.268,
      "step": 46
    },
    {
      "epoch": 0.021557160876046325,
      "grad_norm": 0.7757716774940491,
      "learning_rate": 0.000696969696969697,
      "loss": 3.1332,
      "step": 47
    },
    {
      "epoch": 0.022015823873409012,
      "grad_norm": 0.642839252948761,
      "learning_rate": 0.0007121212121212122,
      "loss": 3.0999,
      "step": 48
    },
    {
      "epoch": 0.0224744868707717,
      "grad_norm": 0.6424480676651001,
      "learning_rate": 0.0007272727272727273,
      "loss": 3.2904,
      "step": 49
    },
    {
      "epoch": 0.022933149868134387,
      "grad_norm": 0.5874531269073486,
      "learning_rate": 0.0007424242424242425,
      "loss": 3.145,
      "step": 50
    },
    {
      "epoch": 0.023391812865497075,
      "grad_norm": 0.681858479976654,
      "learning_rate": 0.0007575757575757576,
      "loss": 3.1639,
      "step": 51
    },
    {
      "epoch": 0.023850475862859762,
      "grad_norm": 0.701514720916748,
      "learning_rate": 0.0007727272727272727,
      "loss": 3.2015,
      "step": 52
    },
    {
      "epoch": 0.024309138860222453,
      "grad_norm": 0.6079062819480896,
      "learning_rate": 0.0007878787878787878,
      "loss": 3.1431,
      "step": 53
    },
    {
      "epoch": 0.02476780185758514,
      "grad_norm": 0.6169602870941162,
      "learning_rate": 0.000803030303030303,
      "loss": 3.1117,
      "step": 54
    },
    {
      "epoch": 0.02522646485494783,
      "grad_norm": 0.7459940910339355,
      "learning_rate": 0.0008181818181818183,
      "loss": 3.0793,
      "step": 55
    },
    {
      "epoch": 0.025685127852310516,
      "grad_norm": 0.6084051728248596,
      "learning_rate": 0.0008333333333333334,
      "loss": 3.0886,
      "step": 56
    },
    {
      "epoch": 0.026143790849673203,
      "grad_norm": 0.5768470168113708,
      "learning_rate": 0.0008484848484848485,
      "loss": 3.0256,
      "step": 57
    },
    {
      "epoch": 0.02660245384703589,
      "grad_norm": 0.6259706616401672,
      "learning_rate": 0.0008636363636363636,
      "loss": 3.116,
      "step": 58
    },
    {
      "epoch": 0.02706111684439858,
      "grad_norm": 0.6200163960456848,
      "learning_rate": 0.0008787878787878789,
      "loss": 2.9896,
      "step": 59
    },
    {
      "epoch": 0.027519779841761266,
      "grad_norm": 0.5727261304855347,
      "learning_rate": 0.000893939393939394,
      "loss": 2.9992,
      "step": 60
    },
    {
      "epoch": 0.027978442839123954,
      "grad_norm": 0.6596805453300476,
      "learning_rate": 0.0009090909090909091,
      "loss": 2.9233,
      "step": 61
    },
    {
      "epoch": 0.02843710583648664,
      "grad_norm": 0.5539640784263611,
      "learning_rate": 0.0009242424242424242,
      "loss": 2.9322,
      "step": 62
    },
    {
      "epoch": 0.02889576883384933,
      "grad_norm": 0.722365140914917,
      "learning_rate": 0.0009393939393939394,
      "loss": 2.9884,
      "step": 63
    },
    {
      "epoch": 0.029354431831212016,
      "grad_norm": 0.6802894473075867,
      "learning_rate": 0.0009545454545454546,
      "loss": 3.0312,
      "step": 64
    },
    {
      "epoch": 0.029813094828574704,
      "grad_norm": 0.595008134841919,
      "learning_rate": 0.0009696969696969698,
      "loss": 2.8882,
      "step": 65
    },
    {
      "epoch": 0.03027175782593739,
      "grad_norm": 0.5596687197685242,
      "learning_rate": 0.000984848484848485,
      "loss": 2.9356,
      "step": 66
    },
    {
      "epoch": 0.03073042082330008,
      "grad_norm": 0.6580514907836914,
      "learning_rate": 0.001,
      "loss": 2.9319,
      "step": 67
    },
    {
      "epoch": 0.031189083820662766,
      "grad_norm": 0.5991485714912415,
      "learning_rate": 0.0009999994478847943,
      "loss": 2.871,
      "step": 68
    },
    {
      "epoch": 0.03164774681802546,
      "grad_norm": 0.8506597280502319,
      "learning_rate": 0.0009999977915403962,
      "loss": 2.9297,
      "step": 69
    },
    {
      "epoch": 0.03210640981538814,
      "grad_norm": 0.675370991230011,
      "learning_rate": 0.0009999950309704639,
      "loss": 2.84,
      "step": 70
    },
    {
      "epoch": 0.03256507281275083,
      "grad_norm": 0.5555149912834167,
      "learning_rate": 0.000999991166181094,
      "loss": 2.7477,
      "step": 71
    },
    {
      "epoch": 0.033023735810113516,
      "grad_norm": 0.7323172688484192,
      "learning_rate": 0.0009999861971808216,
      "loss": 2.9139,
      "step": 72
    },
    {
      "epoch": 0.03348239880747621,
      "grad_norm": 0.6615393757820129,
      "learning_rate": 0.0009999801239806208,
      "loss": 2.7574,
      "step": 73
    },
    {
      "epoch": 0.03394106180483889,
      "grad_norm": 0.5521064400672913,
      "learning_rate": 0.0009999729465939035,
      "loss": 2.8031,
      "step": 74
    },
    {
      "epoch": 0.03439972480220158,
      "grad_norm": 0.5414900183677673,
      "learning_rate": 0.0009999646650365212,
      "loss": 2.8258,
      "step": 75
    },
    {
      "epoch": 0.034858387799564274,
      "grad_norm": 0.5906998515129089,
      "learning_rate": 0.0009999552793267634,
      "loss": 2.7923,
      "step": 76
    },
    {
      "epoch": 0.03531705079692696,
      "grad_norm": 0.5318514704704285,
      "learning_rate": 0.0009999447894853577,
      "loss": 2.7882,
      "step": 77
    },
    {
      "epoch": 0.03577571379428965,
      "grad_norm": 0.5979011654853821,
      "learning_rate": 0.0009999331955354708,
      "loss": 2.7889,
      "step": 78
    },
    {
      "epoch": 0.03623437679165233,
      "grad_norm": 0.6670653223991394,
      "learning_rate": 0.0009999204975027073,
      "loss": 2.7743,
      "step": 79
    },
    {
      "epoch": 0.036693039789015024,
      "grad_norm": 0.5916072726249695,
      "learning_rate": 0.0009999066954151103,
      "loss": 2.7836,
      "step": 80
    },
    {
      "epoch": 0.03715170278637771,
      "grad_norm": 0.6152188181877136,
      "learning_rate": 0.0009998917893031614,
      "loss": 2.6885,
      "step": 81
    },
    {
      "epoch": 0.0376103657837404,
      "grad_norm": 0.6051085591316223,
      "learning_rate": 0.0009998757791997801,
      "loss": 2.7258,
      "step": 82
    },
    {
      "epoch": 0.03806902878110308,
      "grad_norm": 0.535302996635437,
      "learning_rate": 0.0009998586651403238,
      "loss": 2.7269,
      "step": 83
    },
    {
      "epoch": 0.038527691778465774,
      "grad_norm": 0.5764566659927368,
      "learning_rate": 0.0009998404471625885,
      "loss": 2.7012,
      "step": 84
    },
    {
      "epoch": 0.03898635477582846,
      "grad_norm": 0.5781800746917725,
      "learning_rate": 0.0009998211253068078,
      "loss": 2.7655,
      "step": 85
    },
    {
      "epoch": 0.03944501777319115,
      "grad_norm": 0.5930636525154114,
      "learning_rate": 0.0009998006996156535,
      "loss": 2.74,
      "step": 86
    },
    {
      "epoch": 0.03990368077055383,
      "grad_norm": 0.6247677803039551,
      "learning_rate": 0.0009997791701342347,
      "loss": 2.563,
      "step": 87
    },
    {
      "epoch": 0.040362343767916524,
      "grad_norm": 0.590727686882019,
      "learning_rate": 0.0009997565369100983,
      "loss": 2.6437,
      "step": 88
    },
    {
      "epoch": 0.04082100676527921,
      "grad_norm": 0.5572229623794556,
      "learning_rate": 0.0009997327999932291,
      "loss": 2.6572,
      "step": 89
    },
    {
      "epoch": 0.0412796697626419,
      "grad_norm": 0.5937546491622925,
      "learning_rate": 0.000999707959436049,
      "loss": 2.7173,
      "step": 90
    },
    {
      "epoch": 0.04173833276000459,
      "grad_norm": 0.6447473764419556,
      "learning_rate": 0.0009996820152934176,
      "loss": 2.6202,
      "step": 91
    },
    {
      "epoch": 0.042196995757367274,
      "grad_norm": 0.5816110372543335,
      "learning_rate": 0.000999654967622631,
      "loss": 2.5713,
      "step": 92
    },
    {
      "epoch": 0.042655658754729965,
      "grad_norm": 0.6059345006942749,
      "learning_rate": 0.0009996268164834238,
      "loss": 2.5514,
      "step": 93
    },
    {
      "epoch": 0.04311432175209265,
      "grad_norm": 0.6133571267127991,
      "learning_rate": 0.000999597561937966,
      "loss": 2.6419,
      "step": 94
    },
    {
      "epoch": 0.04357298474945534,
      "grad_norm": 0.5288108587265015,
      "learning_rate": 0.0009995672040508656,
      "loss": 2.631,
      "step": 95
    },
    {
      "epoch": 0.044031647746818024,
      "grad_norm": 0.5773203372955322,
      "learning_rate": 0.0009995357428891662,
      "loss": 2.6734,
      "step": 96
    },
    {
      "epoch": 0.044490310744180715,
      "grad_norm": 0.5649083852767944,
      "learning_rate": 0.0009995031785223491,
      "loss": 2.6558,
      "step": 97
    },
    {
      "epoch": 0.0449489737415434,
      "grad_norm": 0.6117444634437561,
      "learning_rate": 0.000999469511022331,
      "loss": 2.6002,
      "step": 98
    },
    {
      "epoch": 0.04540763673890609,
      "grad_norm": 0.7692456841468811,
      "learning_rate": 0.0009994347404634657,
      "loss": 2.601,
      "step": 99
    },
    {
      "epoch": 0.045866299736268774,
      "grad_norm": 0.6885794997215271,
      "learning_rate": 0.0009993988669225423,
      "loss": 2.6564,
      "step": 100
    },
    {
      "epoch": 0.046324962733631465,
      "grad_norm": 0.8544979691505432,
      "learning_rate": 0.000999361890478786,
      "loss": 2.6464,
      "step": 101
    },
    {
      "epoch": 0.04678362573099415,
      "grad_norm": 0.5787664651870728,
      "learning_rate": 0.0009993238112138583,
      "loss": 2.478,
      "step": 102
    },
    {
      "epoch": 0.04724228872835684,
      "grad_norm": 0.55106121301651,
      "learning_rate": 0.0009992846292118554,
      "loss": 2.5459,
      "step": 103
    },
    {
      "epoch": 0.047700951725719525,
      "grad_norm": 0.651585578918457,
      "learning_rate": 0.000999244344559309,
      "loss": 2.586,
      "step": 104
    },
    {
      "epoch": 0.048159614723082216,
      "grad_norm": 0.6023210883140564,
      "learning_rate": 0.0009992029573451869,
      "loss": 2.5538,
      "step": 105
    },
    {
      "epoch": 0.04861827772044491,
      "grad_norm": 0.5509672164916992,
      "learning_rate": 0.0009991604676608905,
      "loss": 2.6011,
      "step": 106
    },
    {
      "epoch": 0.04907694071780759,
      "grad_norm": 0.584355354309082,
      "learning_rate": 0.0009991168756002568,
      "loss": 2.4588,
      "step": 107
    },
    {
      "epoch": 0.04953560371517028,
      "grad_norm": 0.6012275815010071,
      "learning_rate": 0.0009990721812595574,
      "loss": 2.4607,
      "step": 108
    },
    {
      "epoch": 0.049994266712532966,
      "grad_norm": 0.557900607585907,
      "learning_rate": 0.0009990263847374976,
      "loss": 2.4926,
      "step": 109
    },
    {
      "epoch": 0.05045292970989566,
      "grad_norm": 0.6332973837852478,
      "learning_rate": 0.0009989794861352173,
      "loss": 2.5992,
      "step": 110
    },
    {
      "epoch": 0.05091159270725834,
      "grad_norm": 0.5911415219306946,
      "learning_rate": 0.0009989314855562905,
      "loss": 2.5915,
      "step": 111
    },
    {
      "epoch": 0.05137025570462103,
      "grad_norm": 0.5742291808128357,
      "learning_rate": 0.0009988823831067245,
      "loss": 2.5213,
      "step": 112
    },
    {
      "epoch": 0.051828918701983716,
      "grad_norm": 0.5954838991165161,
      "learning_rate": 0.0009988321788949597,
      "loss": 2.4637,
      "step": 113
    },
    {
      "epoch": 0.05228758169934641,
      "grad_norm": 0.588249683380127,
      "learning_rate": 0.0009987808730318709,
      "loss": 2.5251,
      "step": 114
    },
    {
      "epoch": 0.05274624469670909,
      "grad_norm": 0.5571901798248291,
      "learning_rate": 0.0009987284656307644,
      "loss": 2.5177,
      "step": 115
    },
    {
      "epoch": 0.05320490769407178,
      "grad_norm": 0.6039825081825256,
      "learning_rate": 0.0009986749568073802,
      "loss": 2.5218,
      "step": 116
    },
    {
      "epoch": 0.053663570691434466,
      "grad_norm": 0.5721166133880615,
      "learning_rate": 0.0009986203466798905,
      "loss": 2.5973,
      "step": 117
    },
    {
      "epoch": 0.05412223368879716,
      "grad_norm": 0.5203750729560852,
      "learning_rate": 0.0009985646353688996,
      "loss": 2.4766,
      "step": 118
    },
    {
      "epoch": 0.05458089668615984,
      "grad_norm": 0.5893515944480896,
      "learning_rate": 0.0009985078229974437,
      "loss": 2.5047,
      "step": 119
    },
    {
      "epoch": 0.05503955968352253,
      "grad_norm": 0.5628854632377625,
      "learning_rate": 0.0009984499096909905,
      "loss": 2.4536,
      "step": 120
    },
    {
      "epoch": 0.05549822268088522,
      "grad_norm": 0.5600080490112305,
      "learning_rate": 0.0009983908955774397,
      "loss": 2.3977,
      "step": 121
    },
    {
      "epoch": 0.05595688567824791,
      "grad_norm": 0.5230993628501892,
      "learning_rate": 0.0009983307807871211,
      "loss": 2.4521,
      "step": 122
    },
    {
      "epoch": 0.0564155486756106,
      "grad_norm": 0.5529448986053467,
      "learning_rate": 0.0009982695654527965,
      "loss": 2.4258,
      "step": 123
    },
    {
      "epoch": 0.05687421167297328,
      "grad_norm": 0.5530479550361633,
      "learning_rate": 0.0009982072497096571,
      "loss": 2.4774,
      "step": 124
    },
    {
      "epoch": 0.05733287467033597,
      "grad_norm": 0.5498745441436768,
      "learning_rate": 0.000998143833695325,
      "loss": 2.4293,
      "step": 125
    },
    {
      "epoch": 0.05779153766769866,
      "grad_norm": 0.5618467926979065,
      "learning_rate": 0.0009980793175498517,
      "loss": 2.4314,
      "step": 126
    },
    {
      "epoch": 0.05825020066506135,
      "grad_norm": 0.5519939064979553,
      "learning_rate": 0.000998013701415719,
      "loss": 2.3894,
      "step": 127
    },
    {
      "epoch": 0.05870886366242403,
      "grad_norm": 0.571150541305542,
      "learning_rate": 0.0009979469854378372,
      "loss": 2.4116,
      "step": 128
    },
    {
      "epoch": 0.05916752665978672,
      "grad_norm": 0.5254177451133728,
      "learning_rate": 0.000997879169763546,
      "loss": 2.3986,
      "step": 129
    },
    {
      "epoch": 0.05962618965714941,
      "grad_norm": 0.5285912752151489,
      "learning_rate": 0.000997810254542614,
      "loss": 2.4212,
      "step": 130
    },
    {
      "epoch": 0.0600848526545121,
      "grad_norm": 0.5050800442695618,
      "learning_rate": 0.0009977402399272374,
      "loss": 2.2625,
      "step": 131
    },
    {
      "epoch": 0.06054351565187478,
      "grad_norm": 0.5509474873542786,
      "learning_rate": 0.0009976691260720407,
      "loss": 2.383,
      "step": 132
    },
    {
      "epoch": 0.06100217864923747,
      "grad_norm": 0.5084419846534729,
      "learning_rate": 0.0009975969131340763,
      "loss": 2.3731,
      "step": 133
    },
    {
      "epoch": 0.06146084164660016,
      "grad_norm": 0.5519878268241882,
      "learning_rate": 0.0009975236012728236,
      "loss": 2.4261,
      "step": 134
    },
    {
      "epoch": 0.06191950464396285,
      "grad_norm": 0.6916974186897278,
      "learning_rate": 0.0009974491906501886,
      "loss": 2.3813,
      "step": 135
    },
    {
      "epoch": 0.06237816764132553,
      "grad_norm": 0.5506057143211365,
      "learning_rate": 0.0009973736814305049,
      "loss": 2.3693,
      "step": 136
    },
    {
      "epoch": 0.06283683063868822,
      "grad_norm": 0.652310311794281,
      "learning_rate": 0.0009972970737805312,
      "loss": 2.4201,
      "step": 137
    },
    {
      "epoch": 0.06329549363605091,
      "grad_norm": 0.5337787866592407,
      "learning_rate": 0.0009972193678694525,
      "loss": 2.3599,
      "step": 138
    },
    {
      "epoch": 0.0637541566334136,
      "grad_norm": 0.5222182273864746,
      "learning_rate": 0.0009971405638688794,
      "loss": 2.3382,
      "step": 139
    },
    {
      "epoch": 0.06421281963077628,
      "grad_norm": 0.49669477343559265,
      "learning_rate": 0.0009970606619528475,
      "loss": 2.359,
      "step": 140
    },
    {
      "epoch": 0.06467148262813897,
      "grad_norm": 0.5398967862129211,
      "learning_rate": 0.000996979662297817,
      "loss": 2.3092,
      "step": 141
    },
    {
      "epoch": 0.06513014562550166,
      "grad_norm": 0.5347983241081238,
      "learning_rate": 0.0009968975650826721,
      "loss": 2.4254,
      "step": 142
    },
    {
      "epoch": 0.06558880862286436,
      "grad_norm": 0.5838702321052551,
      "learning_rate": 0.000996814370488722,
      "loss": 2.2822,
      "step": 143
    },
    {
      "epoch": 0.06604747162022703,
      "grad_norm": 0.5986272096633911,
      "learning_rate": 0.000996730078699698,
      "loss": 2.3332,
      "step": 144
    },
    {
      "epoch": 0.06650613461758972,
      "grad_norm": 0.5735116600990295,
      "learning_rate": 0.0009966446899017558,
      "loss": 2.3449,
      "step": 145
    },
    {
      "epoch": 0.06696479761495241,
      "grad_norm": 0.5466922521591187,
      "learning_rate": 0.0009965582042834728,
      "loss": 2.3898,
      "step": 146
    },
    {
      "epoch": 0.0674234606123151,
      "grad_norm": 0.5495317578315735,
      "learning_rate": 0.0009964706220358492,
      "loss": 2.3358,
      "step": 147
    },
    {
      "epoch": 0.06788212360967778,
      "grad_norm": 0.5517908930778503,
      "learning_rate": 0.000996381943352307,
      "loss": 2.3555,
      "step": 148
    },
    {
      "epoch": 0.06834078660704047,
      "grad_norm": 0.5495842695236206,
      "learning_rate": 0.0009962921684286896,
      "loss": 2.3773,
      "step": 149
    },
    {
      "epoch": 0.06879944960440317,
      "grad_norm": 0.5131534934043884,
      "learning_rate": 0.0009962012974632614,
      "loss": 2.3254,
      "step": 150
    },
    {
      "epoch": 0.06925811260176586,
      "grad_norm": 0.5194603204727173,
      "learning_rate": 0.0009961093306567075,
      "loss": 2.3841,
      "step": 151
    },
    {
      "epoch": 0.06971677559912855,
      "grad_norm": 0.5310249924659729,
      "learning_rate": 0.0009960162682121328,
      "loss": 2.3789,
      "step": 152
    },
    {
      "epoch": 0.07017543859649122,
      "grad_norm": 0.5355717539787292,
      "learning_rate": 0.0009959221103350623,
      "loss": 2.2466,
      "step": 153
    },
    {
      "epoch": 0.07063410159385392,
      "grad_norm": 0.5237841010093689,
      "learning_rate": 0.0009958268572334394,
      "loss": 2.3291,
      "step": 154
    },
    {
      "epoch": 0.0710927645912166,
      "grad_norm": 0.5222941040992737,
      "learning_rate": 0.0009957305091176274,
      "loss": 2.253,
      "step": 155
    },
    {
      "epoch": 0.0715514275885793,
      "grad_norm": 0.5107453465461731,
      "learning_rate": 0.0009956330662004075,
      "loss": 2.361,
      "step": 156
    },
    {
      "epoch": 0.07201009058594197,
      "grad_norm": 0.5005632042884827,
      "learning_rate": 0.0009955345286969779,
      "loss": 2.3362,
      "step": 157
    },
    {
      "epoch": 0.07246875358330467,
      "grad_norm": 0.5459940433502197,
      "learning_rate": 0.0009954348968249551,
      "loss": 2.3407,
      "step": 158
    },
    {
      "epoch": 0.07292741658066736,
      "grad_norm": 0.5118557214736938,
      "learning_rate": 0.0009953341708043724,
      "loss": 2.2924,
      "step": 159
    },
    {
      "epoch": 0.07338607957803005,
      "grad_norm": 0.5242783427238464,
      "learning_rate": 0.0009952323508576793,
      "loss": 2.3588,
      "step": 160
    },
    {
      "epoch": 0.07384474257539272,
      "grad_norm": 0.5492366552352905,
      "learning_rate": 0.0009951294372097406,
      "loss": 2.323,
      "step": 161
    },
    {
      "epoch": 0.07430340557275542,
      "grad_norm": 0.47949516773223877,
      "learning_rate": 0.0009950254300878378,
      "loss": 2.25,
      "step": 162
    },
    {
      "epoch": 0.0747620685701181,
      "grad_norm": 0.5375514030456543,
      "learning_rate": 0.000994920329721666,
      "loss": 2.3509,
      "step": 163
    },
    {
      "epoch": 0.0752207315674808,
      "grad_norm": 0.5402380228042603,
      "learning_rate": 0.0009948141363433356,
      "loss": 2.2633,
      "step": 164
    },
    {
      "epoch": 0.07567939456484347,
      "grad_norm": 0.5337139368057251,
      "learning_rate": 0.00099470685018737,
      "loss": 2.2932,
      "step": 165
    },
    {
      "epoch": 0.07613805756220617,
      "grad_norm": 0.5356816649436951,
      "learning_rate": 0.0009945984714907073,
      "loss": 2.3625,
      "step": 166
    },
    {
      "epoch": 0.07659672055956886,
      "grad_norm": 0.5270559191703796,
      "learning_rate": 0.000994489000492697,
      "loss": 2.3123,
      "step": 167
    },
    {
      "epoch": 0.07705538355693155,
      "grad_norm": 0.4656136929988861,
      "learning_rate": 0.0009943784374351016,
      "loss": 2.2353,
      "step": 168
    },
    {
      "epoch": 0.07751404655429424,
      "grad_norm": 0.523212730884552,
      "learning_rate": 0.0009942667825620951,
      "loss": 2.1989,
      "step": 169
    },
    {
      "epoch": 0.07797270955165692,
      "grad_norm": 0.4916165769100189,
      "learning_rate": 0.0009941540361202634,
      "loss": 2.3054,
      "step": 170
    },
    {
      "epoch": 0.0784313725490196,
      "grad_norm": 0.4900016188621521,
      "learning_rate": 0.0009940401983586022,
      "loss": 2.3092,
      "step": 171
    },
    {
      "epoch": 0.0788900355463823,
      "grad_norm": 0.5293753743171692,
      "learning_rate": 0.000993925269528518,
      "loss": 2.3546,
      "step": 172
    },
    {
      "epoch": 0.07934869854374499,
      "grad_norm": 0.5080063343048096,
      "learning_rate": 0.0009938092498838265,
      "loss": 2.3289,
      "step": 173
    },
    {
      "epoch": 0.07980736154110767,
      "grad_norm": 0.5075472593307495,
      "learning_rate": 0.0009936921396807524,
      "loss": 2.2691,
      "step": 174
    },
    {
      "epoch": 0.08026602453847036,
      "grad_norm": 0.5085085034370422,
      "learning_rate": 0.0009935739391779292,
      "loss": 2.2865,
      "step": 175
    },
    {
      "epoch": 0.08072468753583305,
      "grad_norm": 0.48868808150291443,
      "learning_rate": 0.000993454648636398,
      "loss": 2.3181,
      "step": 176
    },
    {
      "epoch": 0.08118335053319574,
      "grad_norm": 0.5177690982818604,
      "learning_rate": 0.0009933342683196074,
      "loss": 2.3216,
      "step": 177
    },
    {
      "epoch": 0.08164201353055842,
      "grad_norm": 0.5671895146369934,
      "learning_rate": 0.0009932127984934125,
      "loss": 2.3464,
      "step": 178
    },
    {
      "epoch": 0.08210067652792111,
      "grad_norm": 0.5729827284812927,
      "learning_rate": 0.0009930902394260745,
      "loss": 2.2604,
      "step": 179
    },
    {
      "epoch": 0.0825593395252838,
      "grad_norm": 0.48468250036239624,
      "learning_rate": 0.0009929665913882607,
      "loss": 2.3032,
      "step": 180
    },
    {
      "epoch": 0.08301800252264649,
      "grad_norm": 0.4661635160446167,
      "learning_rate": 0.0009928418546530425,
      "loss": 2.3146,
      "step": 181
    },
    {
      "epoch": 0.08347666552000918,
      "grad_norm": 0.49970167875289917,
      "learning_rate": 0.0009927160294958964,
      "loss": 2.3314,
      "step": 182
    },
    {
      "epoch": 0.08393532851737186,
      "grad_norm": 0.4678751826286316,
      "learning_rate": 0.000992589116194702,
      "loss": 2.2331,
      "step": 183
    },
    {
      "epoch": 0.08439399151473455,
      "grad_norm": 0.4667867422103882,
      "learning_rate": 0.000992461115029743,
      "loss": 2.3074,
      "step": 184
    },
    {
      "epoch": 0.08485265451209724,
      "grad_norm": 0.5229123830795288,
      "learning_rate": 0.000992332026283704,
      "loss": 2.2674,
      "step": 185
    },
    {
      "epoch": 0.08531131750945993,
      "grad_norm": 0.48100414872169495,
      "learning_rate": 0.0009922018502416736,
      "loss": 2.247,
      "step": 186
    },
    {
      "epoch": 0.08576998050682261,
      "grad_norm": 0.5592649579048157,
      "learning_rate": 0.0009920705871911395,
      "loss": 2.2415,
      "step": 187
    },
    {
      "epoch": 0.0862286435041853,
      "grad_norm": 0.4583319425582886,
      "learning_rate": 0.0009919382374219915,
      "loss": 2.2311,
      "step": 188
    },
    {
      "epoch": 0.08668730650154799,
      "grad_norm": 0.5017676949501038,
      "learning_rate": 0.0009918048012265187,
      "loss": 2.2858,
      "step": 189
    },
    {
      "epoch": 0.08714596949891068,
      "grad_norm": 0.4535868167877197,
      "learning_rate": 0.0009916702788994097,
      "loss": 2.2594,
      "step": 190
    },
    {
      "epoch": 0.08760463249627336,
      "grad_norm": 0.45690006017684937,
      "learning_rate": 0.0009915346707377519,
      "loss": 2.2866,
      "step": 191
    },
    {
      "epoch": 0.08806329549363605,
      "grad_norm": 0.45970389246940613,
      "learning_rate": 0.0009913979770410305,
      "loss": 2.3151,
      "step": 192
    },
    {
      "epoch": 0.08852195849099874,
      "grad_norm": 0.46850135922431946,
      "learning_rate": 0.0009912601981111285,
      "loss": 2.3618,
      "step": 193
    },
    {
      "epoch": 0.08898062148836143,
      "grad_norm": 0.502846896648407,
      "learning_rate": 0.0009911213342523248,
      "loss": 2.2233,
      "step": 194
    },
    {
      "epoch": 0.08943928448572411,
      "grad_norm": 0.5293143391609192,
      "learning_rate": 0.000990981385771295,
      "loss": 2.3005,
      "step": 195
    },
    {
      "epoch": 0.0898979474830868,
      "grad_norm": 0.5114197731018066,
      "learning_rate": 0.00099084035297711,
      "loss": 2.2726,
      "step": 196
    },
    {
      "epoch": 0.09035661048044949,
      "grad_norm": 0.4627467691898346,
      "learning_rate": 0.000990698236181235,
      "loss": 2.2394,
      "step": 197
    },
    {
      "epoch": 0.09081527347781218,
      "grad_norm": 0.49823635816574097,
      "learning_rate": 0.0009905550356975293,
      "loss": 2.2572,
      "step": 198
    },
    {
      "epoch": 0.09127393647517487,
      "grad_norm": 0.4679683446884155,
      "learning_rate": 0.0009904107518422457,
      "loss": 2.2481,
      "step": 199
    },
    {
      "epoch": 0.09173259947253755,
      "grad_norm": 0.5377309322357178,
      "learning_rate": 0.0009902653849340295,
      "loss": 2.3112,
      "step": 200
    },
    {
      "epoch": 0.09219126246990024,
      "grad_norm": 0.4703020751476288,
      "learning_rate": 0.0009901189352939177,
      "loss": 2.3295,
      "step": 201
    },
    {
      "epoch": 0.09264992546726293,
      "grad_norm": 0.47665104269981384,
      "learning_rate": 0.0009899714032453387,
      "loss": 2.2103,
      "step": 202
    },
    {
      "epoch": 0.09310858846462562,
      "grad_norm": 0.4943472445011139,
      "learning_rate": 0.000989822789114111,
      "loss": 2.2114,
      "step": 203
    },
    {
      "epoch": 0.0935672514619883,
      "grad_norm": 0.5148926377296448,
      "learning_rate": 0.0009896730932284434,
      "loss": 2.28,
      "step": 204
    },
    {
      "epoch": 0.09402591445935099,
      "grad_norm": 0.5154129862785339,
      "learning_rate": 0.0009895223159189332,
      "loss": 2.273,
      "step": 205
    },
    {
      "epoch": 0.09448457745671368,
      "grad_norm": 0.5525156259536743,
      "learning_rate": 0.0009893704575185663,
      "loss": 2.2675,
      "step": 206
    },
    {
      "epoch": 0.09494324045407637,
      "grad_norm": 0.5300228595733643,
      "learning_rate": 0.000989217518362716,
      "loss": 2.2878,
      "step": 207
    },
    {
      "epoch": 0.09540190345143905,
      "grad_norm": 0.5038743019104004,
      "learning_rate": 0.0009890634987891425,
      "loss": 2.3028,
      "step": 208
    },
    {
      "epoch": 0.09586056644880174,
      "grad_norm": 0.5256633162498474,
      "learning_rate": 0.0009889083991379917,
      "loss": 2.3154,
      "step": 209
    },
    {
      "epoch": 0.09631922944616443,
      "grad_norm": 0.5179429650306702,
      "learning_rate": 0.0009887522197517954,
      "loss": 2.3581,
      "step": 210
    },
    {
      "epoch": 0.09677789244352712,
      "grad_norm": 0.5587135553359985,
      "learning_rate": 0.0009885949609754693,
      "loss": 2.275,
      "step": 211
    },
    {
      "epoch": 0.09723655544088981,
      "grad_norm": 0.49304378032684326,
      "learning_rate": 0.000988436623156314,
      "loss": 2.1705,
      "step": 212
    },
    {
      "epoch": 0.09769521843825249,
      "grad_norm": 0.4999812841415405,
      "learning_rate": 0.0009882772066440114,
      "loss": 2.1103,
      "step": 213
    },
    {
      "epoch": 0.09815388143561518,
      "grad_norm": 0.4683113992214203,
      "learning_rate": 0.0009881167117906276,
      "loss": 2.2605,
      "step": 214
    },
    {
      "epoch": 0.09861254443297787,
      "grad_norm": 0.4812353253364563,
      "learning_rate": 0.0009879551389506084,
      "loss": 2.3079,
      "step": 215
    },
    {
      "epoch": 0.09907120743034056,
      "grad_norm": 0.49777889251708984,
      "learning_rate": 0.0009877924884807814,
      "loss": 2.2897,
      "step": 216
    },
    {
      "epoch": 0.09952987042770324,
      "grad_norm": 0.45093870162963867,
      "learning_rate": 0.000987628760740354,
      "loss": 2.2351,
      "step": 217
    },
    {
      "epoch": 0.09998853342506593,
      "grad_norm": 0.44583940505981445,
      "learning_rate": 0.0009874639560909118,
      "loss": 2.2266,
      "step": 218
    },
    {
      "epoch": 0.10044719642242862,
      "grad_norm": 0.43251028656959534,
      "learning_rate": 0.0009872980748964202,
      "loss": 2.2142,
      "step": 219
    },
    {
      "epoch": 0.10090585941979131,
      "grad_norm": 0.4703594744205475,
      "learning_rate": 0.000987131117523221,
      "loss": 2.2497,
      "step": 220
    },
    {
      "epoch": 0.10136452241715399,
      "grad_norm": 0.49246060848236084,
      "learning_rate": 0.000986963084340033,
      "loss": 2.2677,
      "step": 221
    },
    {
      "epoch": 0.10182318541451668,
      "grad_norm": 0.4667981266975403,
      "learning_rate": 0.0009867939757179508,
      "loss": 2.2754,
      "step": 222
    },
    {
      "epoch": 0.10228184841187937,
      "grad_norm": 0.4915245771408081,
      "learning_rate": 0.0009866237920304443,
      "loss": 2.2602,
      "step": 223
    },
    {
      "epoch": 0.10274051140924206,
      "grad_norm": 0.4604574739933014,
      "learning_rate": 0.0009864525336533577,
      "loss": 2.2016,
      "step": 224
    },
    {
      "epoch": 0.10319917440660474,
      "grad_norm": 0.43458467721939087,
      "learning_rate": 0.000986280200964908,
      "loss": 2.248,
      "step": 225
    },
    {
      "epoch": 0.10365783740396743,
      "grad_norm": 0.4731501638889313,
      "learning_rate": 0.0009861067943456856,
      "loss": 2.2539,
      "step": 226
    },
    {
      "epoch": 0.10411650040133012,
      "grad_norm": 0.43929898738861084,
      "learning_rate": 0.000985932314178652,
      "loss": 2.2465,
      "step": 227
    },
    {
      "epoch": 0.10457516339869281,
      "grad_norm": 0.4773716926574707,
      "learning_rate": 0.00098575676084914,
      "loss": 2.3094,
      "step": 228
    },
    {
      "epoch": 0.1050338263960555,
      "grad_norm": 0.46782130002975464,
      "learning_rate": 0.0009855801347448518,
      "loss": 2.1603,
      "step": 229
    },
    {
      "epoch": 0.10549248939341818,
      "grad_norm": 0.4404747784137726,
      "learning_rate": 0.0009854024362558596,
      "loss": 2.2436,
      "step": 230
    },
    {
      "epoch": 0.10595115239078087,
      "grad_norm": 0.43774551153182983,
      "learning_rate": 0.0009852236657746035,
      "loss": 2.189,
      "step": 231
    },
    {
      "epoch": 0.10640981538814356,
      "grad_norm": 0.44205692410469055,
      "learning_rate": 0.0009850438236958911,
      "loss": 2.2895,
      "step": 232
    },
    {
      "epoch": 0.10686847838550625,
      "grad_norm": 0.48072171211242676,
      "learning_rate": 0.0009848629104168966,
      "loss": 2.3324,
      "step": 233
    },
    {
      "epoch": 0.10732714138286893,
      "grad_norm": 0.45243293046951294,
      "learning_rate": 0.00098468092633716,
      "loss": 2.2641,
      "step": 234
    },
    {
      "epoch": 0.10778580438023162,
      "grad_norm": 0.45947033166885376,
      "learning_rate": 0.0009844978718585855,
      "loss": 2.2315,
      "step": 235
    },
    {
      "epoch": 0.10824446737759431,
      "grad_norm": 0.5036522746086121,
      "learning_rate": 0.0009843137473854423,
      "loss": 2.276,
      "step": 236
    },
    {
      "epoch": 0.108703130374957,
      "grad_norm": 0.48883479833602905,
      "learning_rate": 0.000984128553324362,
      "loss": 2.1821,
      "step": 237
    },
    {
      "epoch": 0.10916179337231968,
      "grad_norm": 0.510909378528595,
      "learning_rate": 0.0009839422900843383,
      "loss": 2.3222,
      "step": 238
    },
    {
      "epoch": 0.10962045636968237,
      "grad_norm": 0.45892035961151123,
      "learning_rate": 0.0009837549580767261,
      "loss": 2.1922,
      "step": 239
    },
    {
      "epoch": 0.11007911936704506,
      "grad_norm": 0.4502986967563629,
      "learning_rate": 0.0009835665577152411,
      "loss": 2.3094,
      "step": 240
    },
    {
      "epoch": 0.11053778236440776,
      "grad_norm": 0.4389975368976593,
      "learning_rate": 0.000983377089415958,
      "loss": 2.2935,
      "step": 241
    },
    {
      "epoch": 0.11099644536177045,
      "grad_norm": 0.4439021050930023,
      "learning_rate": 0.0009831865535973102,
      "loss": 2.2467,
      "step": 242
    },
    {
      "epoch": 0.11145510835913312,
      "grad_norm": 0.4348955750465393,
      "learning_rate": 0.0009829949506800885,
      "loss": 2.2751,
      "step": 243
    },
    {
      "epoch": 0.11191377135649581,
      "grad_norm": 0.4134318232536316,
      "learning_rate": 0.0009828022810874405,
      "loss": 2.1877,
      "step": 244
    },
    {
      "epoch": 0.1123724343538585,
      "grad_norm": 0.450229674577713,
      "learning_rate": 0.0009826085452448693,
      "loss": 2.2297,
      "step": 245
    },
    {
      "epoch": 0.1128310973512212,
      "grad_norm": 0.4544543921947479,
      "learning_rate": 0.000982413743580233,
      "loss": 2.2131,
      "step": 246
    },
    {
      "epoch": 0.11328976034858387,
      "grad_norm": 0.44182947278022766,
      "learning_rate": 0.0009822178765237436,
      "loss": 2.1968,
      "step": 247
    },
    {
      "epoch": 0.11374842334594656,
      "grad_norm": 0.4619835317134857,
      "learning_rate": 0.0009820209445079654,
      "loss": 2.1739,
      "step": 248
    },
    {
      "epoch": 0.11420708634330926,
      "grad_norm": 0.46214911341667175,
      "learning_rate": 0.0009818229479678158,
      "loss": 2.2121,
      "step": 249
    },
    {
      "epoch": 0.11466574934067195,
      "grad_norm": 0.46724042296409607,
      "learning_rate": 0.0009816238873405615,
      "loss": 2.2658,
      "step": 250
    },
    {
      "epoch": 0.11512441233803462,
      "grad_norm": 0.4347567856311798,
      "learning_rate": 0.0009814237630658207,
      "loss": 2.2684,
      "step": 251
    },
    {
      "epoch": 0.11558307533539731,
      "grad_norm": 0.45941078662872314,
      "learning_rate": 0.00098122257558556,
      "loss": 2.2707,
      "step": 252
    },
    {
      "epoch": 0.11604173833276,
      "grad_norm": 0.44977259635925293,
      "learning_rate": 0.0009810203253440937,
      "loss": 2.2337,
      "step": 253
    },
    {
      "epoch": 0.1165004013301227,
      "grad_norm": 0.4564579725265503,
      "learning_rate": 0.0009808170127880837,
      "loss": 2.3088,
      "step": 254
    },
    {
      "epoch": 0.11695906432748537,
      "grad_norm": 0.44527092576026917,
      "learning_rate": 0.000980612638366538,
      "loss": 2.2096,
      "step": 255
    },
    {
      "epoch": 0.11741772732484806,
      "grad_norm": 0.439027339220047,
      "learning_rate": 0.0009804072025308096,
      "loss": 2.2255,
      "step": 256
    },
    {
      "epoch": 0.11787639032221076,
      "grad_norm": 0.4394497573375702,
      "learning_rate": 0.000980200705734595,
      "loss": 2.2132,
      "step": 257
    },
    {
      "epoch": 0.11833505331957345,
      "grad_norm": 0.4988624155521393,
      "learning_rate": 0.0009799931484339344,
      "loss": 2.2422,
      "step": 258
    },
    {
      "epoch": 0.11879371631693614,
      "grad_norm": 0.4828636348247528,
      "learning_rate": 0.0009797845310872103,
      "loss": 2.2094,
      "step": 259
    },
    {
      "epoch": 0.11925237931429881,
      "grad_norm": 0.4283166229724884,
      "learning_rate": 0.0009795748541551457,
      "loss": 2.2891,
      "step": 260
    },
    {
      "epoch": 0.1197110423116615,
      "grad_norm": 0.44761452078819275,
      "learning_rate": 0.000979364118100804,
      "loss": 2.3272,
      "step": 261
    },
    {
      "epoch": 0.1201697053090242,
      "grad_norm": 0.48656705021858215,
      "learning_rate": 0.0009791523233895875,
      "loss": 2.2089,
      "step": 262
    },
    {
      "epoch": 0.12062836830638689,
      "grad_norm": 0.4575020968914032,
      "learning_rate": 0.0009789394704892364,
      "loss": 2.1999,
      "step": 263
    },
    {
      "epoch": 0.12108703130374956,
      "grad_norm": 0.4913882911205292,
      "learning_rate": 0.0009787255598698282,
      "loss": 2.2254,
      "step": 264
    },
    {
      "epoch": 0.12154569430111226,
      "grad_norm": 0.48370930552482605,
      "learning_rate": 0.0009785105920037758,
      "loss": 2.1902,
      "step": 265
    },
    {
      "epoch": 0.12200435729847495,
      "grad_norm": 0.4604438245296478,
      "learning_rate": 0.0009782945673658275,
      "loss": 2.1837,
      "step": 266
    },
    {
      "epoch": 0.12246302029583764,
      "grad_norm": 0.47517022490501404,
      "learning_rate": 0.0009780774864330654,
      "loss": 2.2261,
      "step": 267
    },
    {
      "epoch": 0.12292168329320032,
      "grad_norm": 0.4551145136356354,
      "learning_rate": 0.000977859349684904,
      "loss": 2.2157,
      "step": 268
    },
    {
      "epoch": 0.123380346290563,
      "grad_norm": 0.4695339500904083,
      "learning_rate": 0.00097764015760309,
      "loss": 2.2424,
      "step": 269
    },
    {
      "epoch": 0.1238390092879257,
      "grad_norm": 0.44482162594795227,
      "learning_rate": 0.0009774199106717004,
      "loss": 2.1232,
      "step": 270
    },
    {
      "epoch": 0.12429767228528839,
      "grad_norm": 0.4007066488265991,
      "learning_rate": 0.0009771986093771417,
      "loss": 2.1394,
      "step": 271
    },
    {
      "epoch": 0.12475633528265107,
      "grad_norm": 0.4012927711009979,
      "learning_rate": 0.0009769762542081496,
      "loss": 2.1537,
      "step": 272
    },
    {
      "epoch": 0.12521499828001376,
      "grad_norm": 0.5285888910293579,
      "learning_rate": 0.000976752845655786,
      "loss": 2.1477,
      "step": 273
    },
    {
      "epoch": 0.12567366127737645,
      "grad_norm": 0.44093799591064453,
      "learning_rate": 0.0009765283842134411,
      "loss": 2.184,
      "step": 274
    },
    {
      "epoch": 0.12613232427473914,
      "grad_norm": 0.5331026911735535,
      "learning_rate": 0.0009763028703768282,
      "loss": 2.1946,
      "step": 275
    },
    {
      "epoch": 0.12659098727210183,
      "grad_norm": 0.456601083278656,
      "learning_rate": 0.0009760763046439862,
      "loss": 2.2563,
      "step": 276
    },
    {
      "epoch": 0.12704965026946452,
      "grad_norm": 0.5005785822868347,
      "learning_rate": 0.0009758486875152766,
      "loss": 2.2345,
      "step": 277
    },
    {
      "epoch": 0.1275083132668272,
      "grad_norm": 0.4160964787006378,
      "learning_rate": 0.0009756200194933829,
      "loss": 2.233,
      "step": 278
    },
    {
      "epoch": 0.12796697626418987,
      "grad_norm": 0.462496817111969,
      "learning_rate": 0.0009753903010833094,
      "loss": 2.2036,
      "step": 279
    },
    {
      "epoch": 0.12842563926155257,
      "grad_norm": 0.48332658410072327,
      "learning_rate": 0.0009751595327923803,
      "loss": 2.2571,
      "step": 280
    },
    {
      "epoch": 0.12888430225891526,
      "grad_norm": 0.49586379528045654,
      "learning_rate": 0.0009749277151302382,
      "loss": 2.2254,
      "step": 281
    },
    {
      "epoch": 0.12934296525627795,
      "grad_norm": 0.4453510046005249,
      "learning_rate": 0.0009746948486088435,
      "loss": 2.2134,
      "step": 282
    },
    {
      "epoch": 0.12980162825364064,
      "grad_norm": 0.4308580458164215,
      "learning_rate": 0.0009744609337424727,
      "loss": 2.2421,
      "step": 283
    },
    {
      "epoch": 0.13026029125100333,
      "grad_norm": 0.5101267695426941,
      "learning_rate": 0.0009742259710477177,
      "loss": 2.2887,
      "step": 284
    },
    {
      "epoch": 0.13071895424836602,
      "grad_norm": 0.5289750695228577,
      "learning_rate": 0.0009739899610434841,
      "loss": 2.1933,
      "step": 285
    },
    {
      "epoch": 0.1311776172457287,
      "grad_norm": 0.4144400954246521,
      "learning_rate": 0.0009737529042509913,
      "loss": 2.1694,
      "step": 286
    },
    {
      "epoch": 0.13163628024309137,
      "grad_norm": 0.5623726844787598,
      "learning_rate": 0.0009735148011937693,
      "loss": 2.2715,
      "step": 287
    },
    {
      "epoch": 0.13209494324045407,
      "grad_norm": 0.5160651206970215,
      "learning_rate": 0.00097327565239766,
      "loss": 2.2521,
      "step": 288
    },
    {
      "epoch": 0.13255360623781676,
      "grad_norm": 0.5146353244781494,
      "learning_rate": 0.0009730354583908136,
      "loss": 2.2489,
      "step": 289
    },
    {
      "epoch": 0.13301226923517945,
      "grad_norm": 0.49857592582702637,
      "learning_rate": 0.0009727942197036895,
      "loss": 2.205,
      "step": 290
    },
    {
      "epoch": 0.13347093223254214,
      "grad_norm": 0.4505907893180847,
      "learning_rate": 0.0009725519368690539,
      "loss": 2.2082,
      "step": 291
    },
    {
      "epoch": 0.13392959522990483,
      "grad_norm": 0.4672695994377136,
      "learning_rate": 0.0009723086104219787,
      "loss": 2.2174,
      "step": 292
    },
    {
      "epoch": 0.13438825822726752,
      "grad_norm": 0.4202772378921509,
      "learning_rate": 0.0009720642408998409,
      "loss": 2.1732,
      "step": 293
    },
    {
      "epoch": 0.1348469212246302,
      "grad_norm": 0.45633020997047424,
      "learning_rate": 0.0009718188288423211,
      "loss": 2.1738,
      "step": 294
    },
    {
      "epoch": 0.1353055842219929,
      "grad_norm": 0.43486443161964417,
      "learning_rate": 0.0009715723747914022,
      "loss": 2.2313,
      "step": 295
    },
    {
      "epoch": 0.13576424721935557,
      "grad_norm": 0.45827609300613403,
      "learning_rate": 0.0009713248792913685,
      "loss": 2.1968,
      "step": 296
    },
    {
      "epoch": 0.13622291021671826,
      "grad_norm": 0.4535519778728485,
      "learning_rate": 0.0009710763428888037,
      "loss": 2.2598,
      "step": 297
    },
    {
      "epoch": 0.13668157321408095,
      "grad_norm": 0.42457115650177,
      "learning_rate": 0.0009708267661325909,
      "loss": 2.2684,
      "step": 298
    },
    {
      "epoch": 0.13714023621144364,
      "grad_norm": 0.4656296372413635,
      "learning_rate": 0.0009705761495739107,
      "loss": 2.1569,
      "step": 299
    },
    {
      "epoch": 0.13759889920880633,
      "grad_norm": 0.3996531069278717,
      "learning_rate": 0.0009703244937662399,
      "loss": 2.2101,
      "step": 300
    },
    {
      "epoch": 0.13805756220616902,
      "grad_norm": 0.3898622989654541,
      "learning_rate": 0.0009700717992653505,
      "loss": 2.2193,
      "step": 301
    },
    {
      "epoch": 0.1385162252035317,
      "grad_norm": 0.43800631165504456,
      "learning_rate": 0.0009698180666293083,
      "loss": 2.2049,
      "step": 302
    },
    {
      "epoch": 0.1389748882008944,
      "grad_norm": 0.40504956245422363,
      "learning_rate": 0.000969563296418472,
      "loss": 2.2187,
      "step": 303
    },
    {
      "epoch": 0.1394335511982571,
      "grad_norm": 0.44314444065093994,
      "learning_rate": 0.0009693074891954914,
      "loss": 2.2026,
      "step": 304
    },
    {
      "epoch": 0.13989221419561976,
      "grad_norm": 0.4311150312423706,
      "learning_rate": 0.0009690506455253072,
      "loss": 2.1589,
      "step": 305
    },
    {
      "epoch": 0.14035087719298245,
      "grad_norm": 0.4317518472671509,
      "learning_rate": 0.0009687927659751481,
      "loss": 2.1856,
      "step": 306
    },
    {
      "epoch": 0.14080954019034514,
      "grad_norm": 0.43440935015678406,
      "learning_rate": 0.0009685338511145312,
      "loss": 2.2004,
      "step": 307
    },
    {
      "epoch": 0.14126820318770783,
      "grad_norm": 0.44572311639785767,
      "learning_rate": 0.0009682739015152598,
      "loss": 2.1986,
      "step": 308
    },
    {
      "epoch": 0.14172686618507052,
      "grad_norm": 0.41554000973701477,
      "learning_rate": 0.0009680129177514226,
      "loss": 2.2079,
      "step": 309
    },
    {
      "epoch": 0.1421855291824332,
      "grad_norm": 0.4739091694355011,
      "learning_rate": 0.0009677509003993915,
      "loss": 2.2411,
      "step": 310
    },
    {
      "epoch": 0.1426441921797959,
      "grad_norm": 0.4664323329925537,
      "learning_rate": 0.0009674878500378221,
      "loss": 2.1945,
      "step": 311
    },
    {
      "epoch": 0.1431028551771586,
      "grad_norm": 0.41427311301231384,
      "learning_rate": 0.0009672237672476505,
      "loss": 2.1518,
      "step": 312
    },
    {
      "epoch": 0.14356151817452126,
      "grad_norm": 0.6218119263648987,
      "learning_rate": 0.0009669586526120935,
      "loss": 2.2465,
      "step": 313
    },
    {
      "epoch": 0.14402018117188395,
      "grad_norm": 0.4495675563812256,
      "learning_rate": 0.0009666925067166459,
      "loss": 2.1971,
      "step": 314
    },
    {
      "epoch": 0.14447884416924664,
      "grad_norm": 0.456216961145401,
      "learning_rate": 0.000966425330149081,
      "loss": 2.1426,
      "step": 315
    },
    {
      "epoch": 0.14493750716660933,
      "grad_norm": 0.5121736526489258,
      "learning_rate": 0.0009661571234994475,
      "loss": 2.1931,
      "step": 316
    },
    {
      "epoch": 0.14539617016397202,
      "grad_norm": 0.48344266414642334,
      "learning_rate": 0.0009658878873600691,
      "loss": 2.2333,
      "step": 317
    },
    {
      "epoch": 0.1458548331613347,
      "grad_norm": 0.4626352787017822,
      "learning_rate": 0.0009656176223255438,
      "loss": 2.1767,
      "step": 318
    },
    {
      "epoch": 0.1463134961586974,
      "grad_norm": 0.3986625075340271,
      "learning_rate": 0.000965346328992741,
      "loss": 2.2739,
      "step": 319
    },
    {
      "epoch": 0.1467721591560601,
      "grad_norm": 0.4304570257663727,
      "learning_rate": 0.0009650740079608014,
      "loss": 2.1668,
      "step": 320
    },
    {
      "epoch": 0.14723082215342279,
      "grad_norm": 0.4506051242351532,
      "learning_rate": 0.0009648006598311353,
      "loss": 2.2196,
      "step": 321
    },
    {
      "epoch": 0.14768948515078545,
      "grad_norm": 0.40098461508750916,
      "learning_rate": 0.0009645262852074214,
      "loss": 2.1864,
      "step": 322
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 0.45009613037109375,
      "learning_rate": 0.0009642508846956053,
      "loss": 2.1859,
      "step": 323
    },
    {
      "epoch": 0.14860681114551083,
      "grad_norm": 0.45174434781074524,
      "learning_rate": 0.0009639744589038983,
      "loss": 2.2551,
      "step": 324
    },
    {
      "epoch": 0.14906547414287352,
      "grad_norm": 0.44382840394973755,
      "learning_rate": 0.0009636970084427759,
      "loss": 2.209,
      "step": 325
    },
    {
      "epoch": 0.1495241371402362,
      "grad_norm": 0.4360370337963104,
      "learning_rate": 0.0009634185339249766,
      "loss": 2.2507,
      "step": 326
    },
    {
      "epoch": 0.1499828001375989,
      "grad_norm": 0.37549564242362976,
      "learning_rate": 0.0009631390359655003,
      "loss": 2.1309,
      "step": 327
    },
    {
      "epoch": 0.1504414631349616,
      "grad_norm": 0.4288100004196167,
      "learning_rate": 0.0009628585151816074,
      "loss": 2.2354,
      "step": 328
    },
    {
      "epoch": 0.15090012613232429,
      "grad_norm": 0.43561020493507385,
      "learning_rate": 0.0009625769721928172,
      "loss": 2.1366,
      "step": 329
    },
    {
      "epoch": 0.15135878912968695,
      "grad_norm": 0.4216887056827545,
      "learning_rate": 0.0009622944076209061,
      "loss": 2.1767,
      "step": 330
    },
    {
      "epoch": 0.15181745212704964,
      "grad_norm": 0.3841618001461029,
      "learning_rate": 0.0009620108220899071,
      "loss": 2.2296,
      "step": 331
    },
    {
      "epoch": 0.15227611512441233,
      "grad_norm": 0.4206644594669342,
      "learning_rate": 0.0009617262162261075,
      "loss": 2.1845,
      "step": 332
    },
    {
      "epoch": 0.15273477812177502,
      "grad_norm": 0.4084492623806,
      "learning_rate": 0.0009614405906580486,
      "loss": 2.2088,
      "step": 333
    },
    {
      "epoch": 0.1531934411191377,
      "grad_norm": 0.4204839766025543,
      "learning_rate": 0.000961153946016523,
      "loss": 2.1582,
      "step": 334
    },
    {
      "epoch": 0.1536521041165004,
      "grad_norm": 0.4194154143333435,
      "learning_rate": 0.000960866282934574,
      "loss": 2.1788,
      "step": 335
    },
    {
      "epoch": 0.1541107671138631,
      "grad_norm": 0.49509286880493164,
      "learning_rate": 0.0009605776020474945,
      "loss": 2.207,
      "step": 336
    },
    {
      "epoch": 0.1545694301112258,
      "grad_norm": 0.42756494879722595,
      "learning_rate": 0.0009602879039928249,
      "loss": 2.2128,
      "step": 337
    },
    {
      "epoch": 0.15502809310858848,
      "grad_norm": 0.5047463178634644,
      "learning_rate": 0.0009599971894103521,
      "loss": 2.2111,
      "step": 338
    },
    {
      "epoch": 0.15548675610595114,
      "grad_norm": 0.44910189509391785,
      "learning_rate": 0.0009597054589421077,
      "loss": 2.2111,
      "step": 339
    },
    {
      "epoch": 0.15594541910331383,
      "grad_norm": 0.40421655774116516,
      "learning_rate": 0.0009594127132323669,
      "loss": 2.2478,
      "step": 340
    },
    {
      "epoch": 0.15640408210067652,
      "grad_norm": 0.4957824647426605,
      "learning_rate": 0.0009591189529276474,
      "loss": 2.1695,
      "step": 341
    },
    {
      "epoch": 0.1568627450980392,
      "grad_norm": 0.4051036536693573,
      "learning_rate": 0.0009588241786767072,
      "loss": 2.0484,
      "step": 342
    },
    {
      "epoch": 0.1573214080954019,
      "grad_norm": 0.47874799370765686,
      "learning_rate": 0.0009585283911305436,
      "loss": 2.196,
      "step": 343
    },
    {
      "epoch": 0.1577800710927646,
      "grad_norm": 0.4310874342918396,
      "learning_rate": 0.000958231590942392,
      "loss": 2.2408,
      "step": 344
    },
    {
      "epoch": 0.1582387340901273,
      "grad_norm": 0.4741474986076355,
      "learning_rate": 0.0009579337787677238,
      "loss": 2.2889,
      "step": 345
    },
    {
      "epoch": 0.15869739708748998,
      "grad_norm": 0.41044220328330994,
      "learning_rate": 0.0009576349552642456,
      "loss": 2.1262,
      "step": 346
    },
    {
      "epoch": 0.15915606008485264,
      "grad_norm": 0.4095390737056732,
      "learning_rate": 0.0009573351210918975,
      "loss": 2.2453,
      "step": 347
    },
    {
      "epoch": 0.15961472308221533,
      "grad_norm": 0.41425061225891113,
      "learning_rate": 0.0009570342769128514,
      "loss": 2.1545,
      "step": 348
    },
    {
      "epoch": 0.16007338607957802,
      "grad_norm": 0.3999159038066864,
      "learning_rate": 0.0009567324233915099,
      "loss": 2.2346,
      "step": 349
    },
    {
      "epoch": 0.1605320490769407,
      "grad_norm": 0.4004051685333252,
      "learning_rate": 0.0009564295611945047,
      "loss": 2.1654,
      "step": 350
    },
    {
      "epoch": 0.1609907120743034,
      "grad_norm": 0.40123483538627625,
      "learning_rate": 0.000956125690990695,
      "loss": 2.2922,
      "step": 351
    },
    {
      "epoch": 0.1614493750716661,
      "grad_norm": 0.40355801582336426,
      "learning_rate": 0.0009558208134511665,
      "loss": 2.1497,
      "step": 352
    },
    {
      "epoch": 0.1619080380690288,
      "grad_norm": 0.4087679386138916,
      "learning_rate": 0.0009555149292492289,
      "loss": 2.1528,
      "step": 353
    },
    {
      "epoch": 0.16236670106639148,
      "grad_norm": 0.435665488243103,
      "learning_rate": 0.0009552080390604159,
      "loss": 2.2489,
      "step": 354
    },
    {
      "epoch": 0.16282536406375417,
      "grad_norm": 0.4123603105545044,
      "learning_rate": 0.0009549001435624823,
      "loss": 2.22,
      "step": 355
    },
    {
      "epoch": 0.16328402706111683,
      "grad_norm": 0.41395100951194763,
      "learning_rate": 0.0009545912434354029,
      "loss": 2.2396,
      "step": 356
    },
    {
      "epoch": 0.16374269005847952,
      "grad_norm": 0.5138948559761047,
      "learning_rate": 0.0009542813393613721,
      "loss": 2.1887,
      "step": 357
    },
    {
      "epoch": 0.16420135305584221,
      "grad_norm": 0.40173742175102234,
      "learning_rate": 0.0009539704320248006,
      "loss": 2.0839,
      "step": 358
    },
    {
      "epoch": 0.1646600160532049,
      "grad_norm": 0.44885388016700745,
      "learning_rate": 0.0009536585221123151,
      "loss": 2.3167,
      "step": 359
    },
    {
      "epoch": 0.1651186790505676,
      "grad_norm": 0.4300791621208191,
      "learning_rate": 0.0009533456103127565,
      "loss": 2.183,
      "step": 360
    },
    {
      "epoch": 0.1655773420479303,
      "grad_norm": 0.38909682631492615,
      "learning_rate": 0.000953031697317178,
      "loss": 2.1904,
      "step": 361
    },
    {
      "epoch": 0.16603600504529298,
      "grad_norm": 0.3858537971973419,
      "learning_rate": 0.0009527167838188445,
      "loss": 2.2122,
      "step": 362
    },
    {
      "epoch": 0.16649466804265567,
      "grad_norm": 0.39890775084495544,
      "learning_rate": 0.0009524008705132299,
      "loss": 2.1324,
      "step": 363
    },
    {
      "epoch": 0.16695333104001836,
      "grad_norm": 0.43609702587127686,
      "learning_rate": 0.0009520839580980166,
      "loss": 2.1053,
      "step": 364
    },
    {
      "epoch": 0.16741199403738102,
      "grad_norm": 0.46522092819213867,
      "learning_rate": 0.0009517660472730929,
      "loss": 2.2191,
      "step": 365
    },
    {
      "epoch": 0.16787065703474371,
      "grad_norm": 0.3839823007583618,
      "learning_rate": 0.0009514471387405526,
      "loss": 2.1934,
      "step": 366
    },
    {
      "epoch": 0.1683293200321064,
      "grad_norm": 0.39320364594459534,
      "learning_rate": 0.0009511272332046926,
      "loss": 2.1867,
      "step": 367
    },
    {
      "epoch": 0.1687879830294691,
      "grad_norm": 0.4394790530204773,
      "learning_rate": 0.0009508063313720119,
      "loss": 2.1673,
      "step": 368
    },
    {
      "epoch": 0.1692466460268318,
      "grad_norm": 0.4176117777824402,
      "learning_rate": 0.0009504844339512095,
      "loss": 2.279,
      "step": 369
    },
    {
      "epoch": 0.16970530902419448,
      "grad_norm": 0.3652500808238983,
      "learning_rate": 0.0009501615416531835,
      "loss": 2.1993,
      "step": 370
    },
    {
      "epoch": 0.17016397202155717,
      "grad_norm": 0.4002918601036072,
      "learning_rate": 0.0009498376551910285,
      "loss": 2.1954,
      "step": 371
    },
    {
      "epoch": 0.17062263501891986,
      "grad_norm": 0.4167422950267792,
      "learning_rate": 0.0009495127752800352,
      "loss": 2.2306,
      "step": 372
    },
    {
      "epoch": 0.17108129801628252,
      "grad_norm": 0.40587228536605835,
      "learning_rate": 0.0009491869026376882,
      "loss": 2.1682,
      "step": 373
    },
    {
      "epoch": 0.17153996101364521,
      "grad_norm": 0.3870878517627716,
      "learning_rate": 0.0009488600379836648,
      "loss": 2.1248,
      "step": 374
    },
    {
      "epoch": 0.1719986240110079,
      "grad_norm": 0.397774338722229,
      "learning_rate": 0.0009485321820398321,
      "loss": 2.2218,
      "step": 375
    },
    {
      "epoch": 0.1724572870083706,
      "grad_norm": 0.4056679904460907,
      "learning_rate": 0.0009482033355302475,
      "loss": 2.1812,
      "step": 376
    },
    {
      "epoch": 0.1729159500057333,
      "grad_norm": 0.45297595858573914,
      "learning_rate": 0.0009478734991811556,
      "loss": 2.2606,
      "step": 377
    },
    {
      "epoch": 0.17337461300309598,
      "grad_norm": 0.38234689831733704,
      "learning_rate": 0.0009475426737209871,
      "loss": 2.1994,
      "step": 378
    },
    {
      "epoch": 0.17383327600045867,
      "grad_norm": 0.41381213068962097,
      "learning_rate": 0.000947210859880357,
      "loss": 2.1277,
      "step": 379
    },
    {
      "epoch": 0.17429193899782136,
      "grad_norm": 0.4044489860534668,
      "learning_rate": 0.0009468780583920631,
      "loss": 2.1047,
      "step": 380
    },
    {
      "epoch": 0.17475060199518405,
      "grad_norm": 0.4039129614830017,
      "learning_rate": 0.0009465442699910846,
      "loss": 2.2964,
      "step": 381
    },
    {
      "epoch": 0.17520926499254671,
      "grad_norm": 0.39555853605270386,
      "learning_rate": 0.0009462094954145801,
      "loss": 2.1707,
      "step": 382
    },
    {
      "epoch": 0.1756679279899094,
      "grad_norm": 0.411044180393219,
      "learning_rate": 0.0009458737354018859,
      "loss": 2.2176,
      "step": 383
    },
    {
      "epoch": 0.1761265909872721,
      "grad_norm": 0.5046811103820801,
      "learning_rate": 0.000945536990694515,
      "loss": 2.2613,
      "step": 384
    },
    {
      "epoch": 0.1765852539846348,
      "grad_norm": 0.42228811979293823,
      "learning_rate": 0.0009451992620361551,
      "loss": 2.1477,
      "step": 385
    },
    {
      "epoch": 0.17704391698199748,
      "grad_norm": 0.4156155288219452,
      "learning_rate": 0.0009448605501726664,
      "loss": 2.2485,
      "step": 386
    },
    {
      "epoch": 0.17750257997936017,
      "grad_norm": 0.43726450204849243,
      "learning_rate": 0.000944520855852081,
      "loss": 2.1648,
      "step": 387
    },
    {
      "epoch": 0.17796124297672286,
      "grad_norm": 0.4207845628261566,
      "learning_rate": 0.0009441801798246002,
      "loss": 2.2496,
      "step": 388
    },
    {
      "epoch": 0.17841990597408555,
      "grad_norm": 0.4092569649219513,
      "learning_rate": 0.0009438385228425939,
      "loss": 2.2524,
      "step": 389
    },
    {
      "epoch": 0.17887856897144822,
      "grad_norm": 0.43126797676086426,
      "learning_rate": 0.0009434958856605982,
      "loss": 2.2557,
      "step": 390
    },
    {
      "epoch": 0.1793372319688109,
      "grad_norm": 0.43273401260375977,
      "learning_rate": 0.0009431522690353137,
      "loss": 2.162,
      "step": 391
    },
    {
      "epoch": 0.1797958949661736,
      "grad_norm": 0.40629005432128906,
      "learning_rate": 0.0009428076737256044,
      "loss": 2.2021,
      "step": 392
    },
    {
      "epoch": 0.1802545579635363,
      "grad_norm": 0.4630835950374603,
      "learning_rate": 0.0009424621004924954,
      "loss": 2.1487,
      "step": 393
    },
    {
      "epoch": 0.18071322096089898,
      "grad_norm": 0.42874518036842346,
      "learning_rate": 0.0009421155500991719,
      "loss": 2.2932,
      "step": 394
    },
    {
      "epoch": 0.18117188395826167,
      "grad_norm": 0.4380793273448944,
      "learning_rate": 0.0009417680233109767,
      "loss": 2.1008,
      "step": 395
    },
    {
      "epoch": 0.18163054695562436,
      "grad_norm": 0.46485835313796997,
      "learning_rate": 0.000941419520895409,
      "loss": 2.1973,
      "step": 396
    },
    {
      "epoch": 0.18208920995298705,
      "grad_norm": 0.41777119040489197,
      "learning_rate": 0.0009410700436221229,
      "loss": 2.1374,
      "step": 397
    },
    {
      "epoch": 0.18254787295034974,
      "grad_norm": 0.3926165699958801,
      "learning_rate": 0.0009407195922629252,
      "loss": 2.0524,
      "step": 398
    },
    {
      "epoch": 0.1830065359477124,
      "grad_norm": 0.43604302406311035,
      "learning_rate": 0.000940368167591774,
      "loss": 2.1775,
      "step": 399
    },
    {
      "epoch": 0.1834651989450751,
      "grad_norm": 0.4663833975791931,
      "learning_rate": 0.0009400157703847769,
      "loss": 2.1527,
      "step": 400
    },
    {
      "epoch": 0.1839238619424378,
      "grad_norm": 0.4015576243400574,
      "learning_rate": 0.0009396624014201895,
      "loss": 2.2027,
      "step": 401
    },
    {
      "epoch": 0.18438252493980048,
      "grad_norm": 0.48238110542297363,
      "learning_rate": 0.000939308061478413,
      "loss": 2.1713,
      "step": 402
    },
    {
      "epoch": 0.18484118793716317,
      "grad_norm": 0.4429263472557068,
      "learning_rate": 0.0009389527513419935,
      "loss": 2.1575,
      "step": 403
    },
    {
      "epoch": 0.18529985093452586,
      "grad_norm": 0.40126603841781616,
      "learning_rate": 0.0009385964717956195,
      "loss": 2.1467,
      "step": 404
    },
    {
      "epoch": 0.18575851393188855,
      "grad_norm": 0.474147230386734,
      "learning_rate": 0.0009382392236261201,
      "loss": 2.1946,
      "step": 405
    },
    {
      "epoch": 0.18621717692925124,
      "grad_norm": 0.4205383062362671,
      "learning_rate": 0.0009378810076224644,
      "loss": 2.1877,
      "step": 406
    },
    {
      "epoch": 0.1866758399266139,
      "grad_norm": 0.3752061426639557,
      "learning_rate": 0.0009375218245757582,
      "loss": 2.1776,
      "step": 407
    },
    {
      "epoch": 0.1871345029239766,
      "grad_norm": 0.4074459373950958,
      "learning_rate": 0.0009371616752792432,
      "loss": 2.1546,
      "step": 408
    },
    {
      "epoch": 0.1875931659213393,
      "grad_norm": 0.47592711448669434,
      "learning_rate": 0.0009368005605282949,
      "loss": 2.1852,
      "step": 409
    },
    {
      "epoch": 0.18805182891870198,
      "grad_norm": 0.40518295764923096,
      "learning_rate": 0.0009364384811204212,
      "loss": 2.1574,
      "step": 410
    },
    {
      "epoch": 0.18851049191606467,
      "grad_norm": 0.46068140864372253,
      "learning_rate": 0.00093607543785526,
      "loss": 2.1957,
      "step": 411
    },
    {
      "epoch": 0.18896915491342736,
      "grad_norm": 0.44594091176986694,
      "learning_rate": 0.0009357114315345787,
      "loss": 2.172,
      "step": 412
    },
    {
      "epoch": 0.18942781791079005,
      "grad_norm": 0.40777236223220825,
      "learning_rate": 0.0009353464629622705,
      "loss": 2.1619,
      "step": 413
    },
    {
      "epoch": 0.18988648090815274,
      "grad_norm": 0.4590955078601837,
      "learning_rate": 0.0009349805329443544,
      "loss": 2.1631,
      "step": 414
    },
    {
      "epoch": 0.19034514390551543,
      "grad_norm": 0.41642192006111145,
      "learning_rate": 0.0009346136422889724,
      "loss": 2.125,
      "step": 415
    },
    {
      "epoch": 0.1908038069028781,
      "grad_norm": 0.39003732800483704,
      "learning_rate": 0.0009342457918063882,
      "loss": 2.1857,
      "step": 416
    },
    {
      "epoch": 0.1912624699002408,
      "grad_norm": 0.4049812853336334,
      "learning_rate": 0.0009338769823089853,
      "loss": 2.1705,
      "step": 417
    },
    {
      "epoch": 0.19172113289760348,
      "grad_norm": 0.42140480875968933,
      "learning_rate": 0.0009335072146112648,
      "loss": 2.1946,
      "step": 418
    },
    {
      "epoch": 0.19217979589496617,
      "grad_norm": 0.39502525329589844,
      "learning_rate": 0.0009331364895298444,
      "loss": 2.0649,
      "step": 419
    },
    {
      "epoch": 0.19263845889232886,
      "grad_norm": 0.3737703859806061,
      "learning_rate": 0.0009327648078834559,
      "loss": 2.2233,
      "step": 420
    },
    {
      "epoch": 0.19309712188969155,
      "grad_norm": 0.4867664575576782,
      "learning_rate": 0.0009323921704929434,
      "loss": 2.167,
      "step": 421
    },
    {
      "epoch": 0.19355578488705424,
      "grad_norm": 0.36121106147766113,
      "learning_rate": 0.0009320185781812623,
      "loss": 2.0971,
      "step": 422
    },
    {
      "epoch": 0.19401444788441694,
      "grad_norm": 0.40713050961494446,
      "learning_rate": 0.0009316440317734762,
      "loss": 2.1461,
      "step": 423
    },
    {
      "epoch": 0.19447311088177963,
      "grad_norm": 0.42721012234687805,
      "learning_rate": 0.0009312685320967565,
      "loss": 2.255,
      "step": 424
    },
    {
      "epoch": 0.1949317738791423,
      "grad_norm": 0.3882147967815399,
      "learning_rate": 0.0009308920799803793,
      "loss": 2.1359,
      "step": 425
    },
    {
      "epoch": 0.19539043687650498,
      "grad_norm": 0.4097931385040283,
      "learning_rate": 0.0009305146762557246,
      "loss": 2.2003,
      "step": 426
    },
    {
      "epoch": 0.19584909987386767,
      "grad_norm": 0.4030657410621643,
      "learning_rate": 0.0009301363217562736,
      "loss": 2.1685,
      "step": 427
    },
    {
      "epoch": 0.19630776287123036,
      "grad_norm": 0.40218761563301086,
      "learning_rate": 0.0009297570173176074,
      "loss": 2.1991,
      "step": 428
    },
    {
      "epoch": 0.19676642586859305,
      "grad_norm": 0.3836835026741028,
      "learning_rate": 0.000929376763777405,
      "loss": 2.1645,
      "step": 429
    },
    {
      "epoch": 0.19722508886595574,
      "grad_norm": 0.394734650850296,
      "learning_rate": 0.0009289955619754413,
      "loss": 2.1969,
      "step": 430
    },
    {
      "epoch": 0.19768375186331844,
      "grad_norm": 0.39330506324768066,
      "learning_rate": 0.0009286134127535859,
      "loss": 2.1746,
      "step": 431
    },
    {
      "epoch": 0.19814241486068113,
      "grad_norm": 0.3792964816093445,
      "learning_rate": 0.0009282303169558,
      "loss": 2.1583,
      "step": 432
    },
    {
      "epoch": 0.1986010778580438,
      "grad_norm": 0.39811432361602783,
      "learning_rate": 0.0009278462754281359,
      "loss": 2.2104,
      "step": 433
    },
    {
      "epoch": 0.19905974085540648,
      "grad_norm": 0.3840852379798889,
      "learning_rate": 0.0009274612890187342,
      "loss": 2.2083,
      "step": 434
    },
    {
      "epoch": 0.19951840385276917,
      "grad_norm": 0.37284067273139954,
      "learning_rate": 0.0009270753585778222,
      "loss": 2.093,
      "step": 435
    },
    {
      "epoch": 0.19997706685013186,
      "grad_norm": 0.4005734324455261,
      "learning_rate": 0.0009266884849577124,
      "loss": 2.1028,
      "step": 436
    },
    {
      "epoch": 0.20043572984749455,
      "grad_norm": 0.4084687829017639,
      "learning_rate": 0.0009263006690127998,
      "loss": 2.2005,
      "step": 437
    },
    {
      "epoch": 0.20089439284485724,
      "grad_norm": 0.39396214485168457,
      "learning_rate": 0.0009259119115995609,
      "loss": 2.1208,
      "step": 438
    },
    {
      "epoch": 0.20135305584221994,
      "grad_norm": 0.4280981123447418,
      "learning_rate": 0.0009255222135765511,
      "loss": 2.2415,
      "step": 439
    },
    {
      "epoch": 0.20181171883958263,
      "grad_norm": 0.41628286242485046,
      "learning_rate": 0.0009251315758044032,
      "loss": 2.1749,
      "step": 440
    },
    {
      "epoch": 0.20227038183694532,
      "grad_norm": 0.381474107503891,
      "learning_rate": 0.0009247399991458255,
      "loss": 2.1692,
      "step": 441
    },
    {
      "epoch": 0.20272904483430798,
      "grad_norm": 0.4322259724140167,
      "learning_rate": 0.0009243474844655996,
      "loss": 2.0745,
      "step": 442
    },
    {
      "epoch": 0.20318770783167067,
      "grad_norm": 0.3907748758792877,
      "learning_rate": 0.0009239540326305791,
      "loss": 2.247,
      "step": 443
    },
    {
      "epoch": 0.20364637082903336,
      "grad_norm": 0.40814831852912903,
      "learning_rate": 0.0009235596445096864,
      "loss": 2.2362,
      "step": 444
    },
    {
      "epoch": 0.20410503382639605,
      "grad_norm": 0.44576790928840637,
      "learning_rate": 0.0009231643209739127,
      "loss": 2.1645,
      "step": 445
    },
    {
      "epoch": 0.20456369682375874,
      "grad_norm": 0.389279842376709,
      "learning_rate": 0.0009227680628963145,
      "loss": 2.2113,
      "step": 446
    },
    {
      "epoch": 0.20502235982112144,
      "grad_norm": 0.38339340686798096,
      "learning_rate": 0.000922370871152012,
      "loss": 2.1775,
      "step": 447
    },
    {
      "epoch": 0.20548102281848413,
      "grad_norm": 0.37770500779151917,
      "learning_rate": 0.0009219727466181877,
      "loss": 2.1633,
      "step": 448
    },
    {
      "epoch": 0.20593968581584682,
      "grad_norm": 0.38117098808288574,
      "learning_rate": 0.0009215736901740841,
      "loss": 2.2587,
      "step": 449
    },
    {
      "epoch": 0.20639834881320948,
      "grad_norm": 0.4147288501262665,
      "learning_rate": 0.0009211737027010016,
      "loss": 2.1695,
      "step": 450
    },
    {
      "epoch": 0.20685701181057217,
      "grad_norm": 0.3718269467353821,
      "learning_rate": 0.0009207727850822971,
      "loss": 2.234,
      "step": 451
    },
    {
      "epoch": 0.20731567480793486,
      "grad_norm": 0.3819501996040344,
      "learning_rate": 0.0009203709382033814,
      "loss": 2.1263,
      "step": 452
    },
    {
      "epoch": 0.20777433780529755,
      "grad_norm": 0.37688571214675903,
      "learning_rate": 0.0009199681629517173,
      "loss": 2.1793,
      "step": 453
    },
    {
      "epoch": 0.20823300080266025,
      "grad_norm": 0.3766882121562958,
      "learning_rate": 0.0009195644602168184,
      "loss": 2.1673,
      "step": 454
    },
    {
      "epoch": 0.20869166380002294,
      "grad_norm": 0.3828107416629791,
      "learning_rate": 0.0009191598308902464,
      "loss": 2.1336,
      "step": 455
    },
    {
      "epoch": 0.20915032679738563,
      "grad_norm": 0.3578455448150635,
      "learning_rate": 0.0009187542758656091,
      "loss": 2.095,
      "step": 456
    },
    {
      "epoch": 0.20960898979474832,
      "grad_norm": 0.38029810786247253,
      "learning_rate": 0.0009183477960385591,
      "loss": 2.2277,
      "step": 457
    },
    {
      "epoch": 0.210067652792111,
      "grad_norm": 0.3532138168811798,
      "learning_rate": 0.0009179403923067912,
      "loss": 2.1076,
      "step": 458
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 0.4361783564090729,
      "learning_rate": 0.0009175320655700406,
      "loss": 2.1275,
      "step": 459
    },
    {
      "epoch": 0.21098497878683636,
      "grad_norm": 0.4420524537563324,
      "learning_rate": 0.0009171228167300805,
      "loss": 2.1654,
      "step": 460
    },
    {
      "epoch": 0.21144364178419905,
      "grad_norm": 0.4540049135684967,
      "learning_rate": 0.0009167126466907215,
      "loss": 2.1648,
      "step": 461
    },
    {
      "epoch": 0.21190230478156175,
      "grad_norm": 0.39416423439979553,
      "learning_rate": 0.0009163015563578074,
      "loss": 2.2824,
      "step": 462
    },
    {
      "epoch": 0.21236096777892444,
      "grad_norm": 0.37123414874076843,
      "learning_rate": 0.0009158895466392158,
      "loss": 2.1417,
      "step": 463
    },
    {
      "epoch": 0.21281963077628713,
      "grad_norm": 0.40630707144737244,
      "learning_rate": 0.0009154766184448535,
      "loss": 2.0453,
      "step": 464
    },
    {
      "epoch": 0.21327829377364982,
      "grad_norm": 0.3675994277000427,
      "learning_rate": 0.0009150627726866568,
      "loss": 2.1101,
      "step": 465
    },
    {
      "epoch": 0.2137369567710125,
      "grad_norm": 0.46475908160209656,
      "learning_rate": 0.000914648010278587,
      "loss": 2.2322,
      "step": 466
    },
    {
      "epoch": 0.21419561976837517,
      "grad_norm": 0.3900436758995056,
      "learning_rate": 0.0009142323321366315,
      "loss": 2.2675,
      "step": 467
    },
    {
      "epoch": 0.21465428276573786,
      "grad_norm": 0.38866496086120605,
      "learning_rate": 0.0009138157391787986,
      "loss": 2.1403,
      "step": 468
    },
    {
      "epoch": 0.21511294576310055,
      "grad_norm": 0.4340004324913025,
      "learning_rate": 0.0009133982323251177,
      "loss": 2.2429,
      "step": 469
    },
    {
      "epoch": 0.21557160876046325,
      "grad_norm": 0.36713799834251404,
      "learning_rate": 0.0009129798124976365,
      "loss": 2.1908,
      "step": 470
    },
    {
      "epoch": 0.21603027175782594,
      "grad_norm": 0.38588255643844604,
      "learning_rate": 0.0009125604806204187,
      "loss": 2.0807,
      "step": 471
    },
    {
      "epoch": 0.21648893475518863,
      "grad_norm": 0.4599982798099518,
      "learning_rate": 0.0009121402376195421,
      "loss": 2.2167,
      "step": 472
    },
    {
      "epoch": 0.21694759775255132,
      "grad_norm": 0.3824182152748108,
      "learning_rate": 0.0009117190844230972,
      "loss": 2.1173,
      "step": 473
    },
    {
      "epoch": 0.217406260749914,
      "grad_norm": 0.3566579222679138,
      "learning_rate": 0.0009112970219611841,
      "loss": 2.1802,
      "step": 474
    },
    {
      "epoch": 0.2178649237472767,
      "grad_norm": 0.39962509274482727,
      "learning_rate": 0.0009108740511659115,
      "loss": 2.1889,
      "step": 475
    },
    {
      "epoch": 0.21832358674463936,
      "grad_norm": 0.40551966428756714,
      "learning_rate": 0.0009104501729713935,
      "loss": 2.1367,
      "step": 476
    },
    {
      "epoch": 0.21878224974200206,
      "grad_norm": 0.38845494389533997,
      "learning_rate": 0.0009100253883137488,
      "loss": 2.2039,
      "step": 477
    },
    {
      "epoch": 0.21924091273936475,
      "grad_norm": 0.4103715121746063,
      "learning_rate": 0.0009095996981310974,
      "loss": 2.1869,
      "step": 478
    },
    {
      "epoch": 0.21969957573672744,
      "grad_norm": 0.3625362813472748,
      "learning_rate": 0.0009091731033635596,
      "loss": 2.1578,
      "step": 479
    },
    {
      "epoch": 0.22015823873409013,
      "grad_norm": 0.4676550328731537,
      "learning_rate": 0.0009087456049532529,
      "loss": 2.1589,
      "step": 480
    },
    {
      "epoch": 0.22061690173145282,
      "grad_norm": 0.39626675844192505,
      "learning_rate": 0.0009083172038442914,
      "loss": 2.1221,
      "step": 481
    },
    {
      "epoch": 0.2210755647288155,
      "grad_norm": 0.42750632762908936,
      "learning_rate": 0.0009078879009827817,
      "loss": 2.2049,
      "step": 482
    },
    {
      "epoch": 0.2215342277261782,
      "grad_norm": 0.3863329589366913,
      "learning_rate": 0.0009074576973168223,
      "loss": 2.1372,
      "step": 483
    },
    {
      "epoch": 0.2219928907235409,
      "grad_norm": 0.45412057638168335,
      "learning_rate": 0.0009070265937965015,
      "loss": 2.1935,
      "step": 484
    },
    {
      "epoch": 0.22245155372090356,
      "grad_norm": 0.43457090854644775,
      "learning_rate": 0.0009065945913738942,
      "loss": 2.1876,
      "step": 485
    },
    {
      "epoch": 0.22291021671826625,
      "grad_norm": 0.38736438751220703,
      "learning_rate": 0.0009061616910030609,
      "loss": 2.129,
      "step": 486
    },
    {
      "epoch": 0.22336887971562894,
      "grad_norm": 0.4078584611415863,
      "learning_rate": 0.0009057278936400453,
      "loss": 2.1821,
      "step": 487
    },
    {
      "epoch": 0.22382754271299163,
      "grad_norm": 0.38452351093292236,
      "learning_rate": 0.0009052932002428715,
      "loss": 2.1624,
      "step": 488
    },
    {
      "epoch": 0.22428620571035432,
      "grad_norm": 0.4047401547431946,
      "learning_rate": 0.0009048576117715435,
      "loss": 2.1513,
      "step": 489
    },
    {
      "epoch": 0.224744868707717,
      "grad_norm": 0.4468766450881958,
      "learning_rate": 0.0009044211291880407,
      "loss": 2.0755,
      "step": 490
    },
    {
      "epoch": 0.2252035317050797,
      "grad_norm": 0.41728073358535767,
      "learning_rate": 0.000903983753456318,
      "loss": 2.1624,
      "step": 491
    },
    {
      "epoch": 0.2256621947024424,
      "grad_norm": 0.35980334877967834,
      "learning_rate": 0.0009035454855423026,
      "loss": 2.1171,
      "step": 492
    },
    {
      "epoch": 0.22612085769980506,
      "grad_norm": 0.4193221926689148,
      "learning_rate": 0.0009031063264138922,
      "loss": 2.182,
      "step": 493
    },
    {
      "epoch": 0.22657952069716775,
      "grad_norm": 0.3950520157814026,
      "learning_rate": 0.0009026662770409522,
      "loss": 2.1966,
      "step": 494
    },
    {
      "epoch": 0.22703818369453044,
      "grad_norm": 0.3894031345844269,
      "learning_rate": 0.0009022253383953147,
      "loss": 2.1037,
      "step": 495
    },
    {
      "epoch": 0.22749684669189313,
      "grad_norm": 0.3749845325946808,
      "learning_rate": 0.0009017835114507753,
      "loss": 2.1623,
      "step": 496
    },
    {
      "epoch": 0.22795550968925582,
      "grad_norm": 0.41767561435699463,
      "learning_rate": 0.0009013407971830914,
      "loss": 2.2505,
      "step": 497
    },
    {
      "epoch": 0.2284141726866185,
      "grad_norm": 0.4041428565979004,
      "learning_rate": 0.0009008971965699801,
      "loss": 2.2264,
      "step": 498
    },
    {
      "epoch": 0.2288728356839812,
      "grad_norm": 0.37867116928100586,
      "learning_rate": 0.0009004527105911163,
      "loss": 2.1621,
      "step": 499
    },
    {
      "epoch": 0.2293314986813439,
      "grad_norm": 0.3908971846103668,
      "learning_rate": 0.0009000073402281295,
      "loss": 2.1045,
      "step": 500
    },
    {
      "epoch": 0.22979016167870658,
      "grad_norm": 0.3914121985435486,
      "learning_rate": 0.0008995610864646028,
      "loss": 2.1048,
      "step": 501
    },
    {
      "epoch": 0.23024882467606925,
      "grad_norm": 0.362804114818573,
      "learning_rate": 0.0008991139502860703,
      "loss": 2.0552,
      "step": 502
    },
    {
      "epoch": 0.23070748767343194,
      "grad_norm": 0.44616439938545227,
      "learning_rate": 0.0008986659326800146,
      "loss": 2.1497,
      "step": 503
    },
    {
      "epoch": 0.23116615067079463,
      "grad_norm": 0.40075355768203735,
      "learning_rate": 0.0008982170346358651,
      "loss": 2.126,
      "step": 504
    },
    {
      "epoch": 0.23162481366815732,
      "grad_norm": 0.385450541973114,
      "learning_rate": 0.0008977672571449956,
      "loss": 2.2785,
      "step": 505
    },
    {
      "epoch": 0.23208347666552,
      "grad_norm": 0.5086044669151306,
      "learning_rate": 0.0008973166012007217,
      "loss": 2.1235,
      "step": 506
    },
    {
      "epoch": 0.2325421396628827,
      "grad_norm": 0.41110947728157043,
      "learning_rate": 0.0008968650677982998,
      "loss": 2.1686,
      "step": 507
    },
    {
      "epoch": 0.2330008026602454,
      "grad_norm": 0.39883244037628174,
      "learning_rate": 0.0008964126579349236,
      "loss": 2.1042,
      "step": 508
    },
    {
      "epoch": 0.23345946565760808,
      "grad_norm": 0.4428541958332062,
      "learning_rate": 0.0008959593726097226,
      "loss": 2.114,
      "step": 509
    },
    {
      "epoch": 0.23391812865497075,
      "grad_norm": 0.4607155919075012,
      "learning_rate": 0.0008955052128237596,
      "loss": 2.2168,
      "step": 510
    },
    {
      "epoch": 0.23437679165233344,
      "grad_norm": 0.38494184613227844,
      "learning_rate": 0.0008950501795800288,
      "loss": 2.0902,
      "step": 511
    },
    {
      "epoch": 0.23483545464969613,
      "grad_norm": 0.3673243522644043,
      "learning_rate": 0.0008945942738834532,
      "loss": 2.163,
      "step": 512
    },
    {
      "epoch": 0.23529411764705882,
      "grad_norm": 0.40043413639068604,
      "learning_rate": 0.0008941374967408826,
      "loss": 2.1566,
      "step": 513
    },
    {
      "epoch": 0.2357527806444215,
      "grad_norm": 0.4228452444076538,
      "learning_rate": 0.0008936798491610916,
      "loss": 2.1513,
      "step": 514
    },
    {
      "epoch": 0.2362114436417842,
      "grad_norm": 0.4298340976238251,
      "learning_rate": 0.0008932213321547768,
      "loss": 2.1211,
      "step": 515
    },
    {
      "epoch": 0.2366701066391469,
      "grad_norm": 0.43116819858551025,
      "learning_rate": 0.0008927619467345554,
      "loss": 2.1649,
      "step": 516
    },
    {
      "epoch": 0.23712876963650958,
      "grad_norm": 0.392464280128479,
      "learning_rate": 0.0008923016939149615,
      "loss": 2.0596,
      "step": 517
    },
    {
      "epoch": 0.23758743263387228,
      "grad_norm": 0.3566606342792511,
      "learning_rate": 0.0008918405747124458,
      "loss": 2.1608,
      "step": 518
    },
    {
      "epoch": 0.23804609563123494,
      "grad_norm": 0.370149165391922,
      "learning_rate": 0.0008913785901453721,
      "loss": 2.1287,
      "step": 519
    },
    {
      "epoch": 0.23850475862859763,
      "grad_norm": 0.4298611283302307,
      "learning_rate": 0.000890915741234015,
      "loss": 2.1849,
      "step": 520
    },
    {
      "epoch": 0.23896342162596032,
      "grad_norm": 0.3965466320514679,
      "learning_rate": 0.0008904520290005582,
      "loss": 2.2182,
      "step": 521
    },
    {
      "epoch": 0.239422084623323,
      "grad_norm": 0.3657413423061371,
      "learning_rate": 0.000889987454469092,
      "loss": 2.103,
      "step": 522
    },
    {
      "epoch": 0.2398807476206857,
      "grad_norm": 0.4140031933784485,
      "learning_rate": 0.0008895220186656111,
      "loss": 2.0957,
      "step": 523
    },
    {
      "epoch": 0.2403394106180484,
      "grad_norm": 0.42827898263931274,
      "learning_rate": 0.0008890557226180122,
      "loss": 2.095,
      "step": 524
    },
    {
      "epoch": 0.24079807361541108,
      "grad_norm": 0.381643682718277,
      "learning_rate": 0.0008885885673560921,
      "loss": 2.1705,
      "step": 525
    },
    {
      "epoch": 0.24125673661277378,
      "grad_norm": 0.40611210465431213,
      "learning_rate": 0.0008881205539115444,
      "loss": 2.1316,
      "step": 526
    },
    {
      "epoch": 0.24171539961013644,
      "grad_norm": 0.4288325011730194,
      "learning_rate": 0.0008876516833179589,
      "loss": 2.0877,
      "step": 527
    },
    {
      "epoch": 0.24217406260749913,
      "grad_norm": 0.37755322456359863,
      "learning_rate": 0.0008871819566108177,
      "loss": 2.086,
      "step": 528
    },
    {
      "epoch": 0.24263272560486182,
      "grad_norm": 0.35376596450805664,
      "learning_rate": 0.000886711374827494,
      "loss": 2.1706,
      "step": 529
    },
    {
      "epoch": 0.2430913886022245,
      "grad_norm": 0.36749595403671265,
      "learning_rate": 0.0008862399390072491,
      "loss": 2.142,
      "step": 530
    },
    {
      "epoch": 0.2435500515995872,
      "grad_norm": 0.3755630850791931,
      "learning_rate": 0.0008857676501912305,
      "loss": 2.141,
      "step": 531
    },
    {
      "epoch": 0.2440087145969499,
      "grad_norm": 0.34416747093200684,
      "learning_rate": 0.0008852945094224697,
      "loss": 2.1543,
      "step": 532
    },
    {
      "epoch": 0.24446737759431258,
      "grad_norm": 0.3473661243915558,
      "learning_rate": 0.0008848205177458795,
      "loss": 2.0702,
      "step": 533
    },
    {
      "epoch": 0.24492604059167528,
      "grad_norm": 0.3865536153316498,
      "learning_rate": 0.0008843456762082518,
      "loss": 2.1618,
      "step": 534
    },
    {
      "epoch": 0.24538470358903797,
      "grad_norm": 0.35951170325279236,
      "learning_rate": 0.0008838699858582557,
      "loss": 2.1939,
      "step": 535
    },
    {
      "epoch": 0.24584336658640063,
      "grad_norm": 0.3720583915710449,
      "learning_rate": 0.0008833934477464347,
      "loss": 2.1464,
      "step": 536
    },
    {
      "epoch": 0.24630202958376332,
      "grad_norm": 0.38704562187194824,
      "learning_rate": 0.0008829160629252045,
      "loss": 2.2079,
      "step": 537
    },
    {
      "epoch": 0.246760692581126,
      "grad_norm": 0.36467358469963074,
      "learning_rate": 0.0008824378324488509,
      "loss": 2.1798,
      "step": 538
    },
    {
      "epoch": 0.2472193555784887,
      "grad_norm": 0.37038010358810425,
      "learning_rate": 0.0008819587573735268,
      "loss": 2.0494,
      "step": 539
    },
    {
      "epoch": 0.2476780185758514,
      "grad_norm": 0.39026662707328796,
      "learning_rate": 0.0008814788387572513,
      "loss": 2.1603,
      "step": 540
    },
    {
      "epoch": 0.24813668157321409,
      "grad_norm": 0.3678075075149536,
      "learning_rate": 0.0008809980776599053,
      "loss": 2.0463,
      "step": 541
    },
    {
      "epoch": 0.24859534457057678,
      "grad_norm": 0.3853810727596283,
      "learning_rate": 0.0008805164751432312,
      "loss": 2.1752,
      "step": 542
    },
    {
      "epoch": 0.24905400756793947,
      "grad_norm": 0.3455314338207245,
      "learning_rate": 0.0008800340322708292,
      "loss": 2.1078,
      "step": 543
    },
    {
      "epoch": 0.24951267056530213,
      "grad_norm": 0.3668075501918793,
      "learning_rate": 0.0008795507501081555,
      "loss": 2.0902,
      "step": 544
    },
    {
      "epoch": 0.24997133356266482,
      "grad_norm": 0.3680293560028076,
      "learning_rate": 0.0008790666297225196,
      "loss": 2.1683,
      "step": 545
    },
    {
      "epoch": 0.2504299965600275,
      "grad_norm": 0.39894843101501465,
      "learning_rate": 0.0008785816721830829,
      "loss": 2.2232,
      "step": 546
    },
    {
      "epoch": 0.2508886595573902,
      "grad_norm": 0.36961618065834045,
      "learning_rate": 0.0008780958785608546,
      "loss": 2.105,
      "step": 547
    },
    {
      "epoch": 0.2513473225547529,
      "grad_norm": 0.36400583386421204,
      "learning_rate": 0.0008776092499286912,
      "loss": 2.0984,
      "step": 548
    },
    {
      "epoch": 0.2518059855521156,
      "grad_norm": 0.3763197958469391,
      "learning_rate": 0.0008771217873612929,
      "loss": 2.2115,
      "step": 549
    },
    {
      "epoch": 0.2522646485494783,
      "grad_norm": 0.37625429034233093,
      "learning_rate": 0.0008766334919352017,
      "loss": 2.1213,
      "step": 550
    },
    {
      "epoch": 0.25272331154684097,
      "grad_norm": 0.3608415722846985,
      "learning_rate": 0.0008761443647287987,
      "loss": 2.1499,
      "step": 551
    },
    {
      "epoch": 0.25318197454420366,
      "grad_norm": 0.3587779104709625,
      "learning_rate": 0.0008756544068223026,
      "loss": 2.1049,
      "step": 552
    },
    {
      "epoch": 0.25364063754156635,
      "grad_norm": 0.37337419390678406,
      "learning_rate": 0.0008751636192977659,
      "loss": 2.2274,
      "step": 553
    },
    {
      "epoch": 0.25409930053892904,
      "grad_norm": 0.3878937065601349,
      "learning_rate": 0.0008746720032390737,
      "loss": 2.1552,
      "step": 554
    },
    {
      "epoch": 0.25455796353629173,
      "grad_norm": 0.365229070186615,
      "learning_rate": 0.0008741795597319408,
      "loss": 2.1721,
      "step": 555
    },
    {
      "epoch": 0.2550166265336544,
      "grad_norm": 0.3682652711868286,
      "learning_rate": 0.0008736862898639095,
      "loss": 2.1646,
      "step": 556
    },
    {
      "epoch": 0.25547528953101706,
      "grad_norm": 0.3768457770347595,
      "learning_rate": 0.0008731921947243468,
      "loss": 2.1676,
      "step": 557
    },
    {
      "epoch": 0.25593395252837975,
      "grad_norm": 0.33470603823661804,
      "learning_rate": 0.0008726972754044427,
      "loss": 2.1531,
      "step": 558
    },
    {
      "epoch": 0.25639261552574244,
      "grad_norm": 0.3771381974220276,
      "learning_rate": 0.0008722015329972069,
      "loss": 2.1591,
      "step": 559
    },
    {
      "epoch": 0.25685127852310513,
      "grad_norm": 0.4145604372024536,
      "learning_rate": 0.0008717049685974672,
      "loss": 2.1129,
      "step": 560
    },
    {
      "epoch": 0.2573099415204678,
      "grad_norm": 0.40207937359809875,
      "learning_rate": 0.0008712075833018665,
      "loss": 2.0876,
      "step": 561
    },
    {
      "epoch": 0.2577686045178305,
      "grad_norm": 0.3617294728755951,
      "learning_rate": 0.0008707093782088608,
      "loss": 2.0966,
      "step": 562
    },
    {
      "epoch": 0.2582272675151932,
      "grad_norm": 0.45761093497276306,
      "learning_rate": 0.0008702103544187167,
      "loss": 2.1573,
      "step": 563
    },
    {
      "epoch": 0.2586859305125559,
      "grad_norm": 0.42864954471588135,
      "learning_rate": 0.0008697105130335085,
      "loss": 2.1929,
      "step": 564
    },
    {
      "epoch": 0.2591445935099186,
      "grad_norm": 0.39918768405914307,
      "learning_rate": 0.0008692098551571164,
      "loss": 2.176,
      "step": 565
    },
    {
      "epoch": 0.2596032565072813,
      "grad_norm": 0.4328817129135132,
      "learning_rate": 0.0008687083818952235,
      "loss": 2.1654,
      "step": 566
    },
    {
      "epoch": 0.26006191950464397,
      "grad_norm": 0.509929358959198,
      "learning_rate": 0.0008682060943553143,
      "loss": 2.1569,
      "step": 567
    },
    {
      "epoch": 0.26052058250200666,
      "grad_norm": 0.40019547939300537,
      "learning_rate": 0.0008677029936466707,
      "loss": 2.2537,
      "step": 568
    },
    {
      "epoch": 0.26097924549936935,
      "grad_norm": 0.5078317523002625,
      "learning_rate": 0.0008671990808803711,
      "loss": 2.1648,
      "step": 569
    },
    {
      "epoch": 0.26143790849673204,
      "grad_norm": 0.4593840539455414,
      "learning_rate": 0.0008666943571692871,
      "loss": 2.1841,
      "step": 570
    },
    {
      "epoch": 0.26189657149409473,
      "grad_norm": 0.3713057339191437,
      "learning_rate": 0.0008661888236280813,
      "loss": 2.0315,
      "step": 571
    },
    {
      "epoch": 0.2623552344914574,
      "grad_norm": 0.3653029799461365,
      "learning_rate": 0.0008656824813732045,
      "loss": 2.1364,
      "step": 572
    },
    {
      "epoch": 0.2628138974888201,
      "grad_norm": 0.42917972803115845,
      "learning_rate": 0.000865175331522894,
      "loss": 2.063,
      "step": 573
    },
    {
      "epoch": 0.26327256048618275,
      "grad_norm": 0.3986830413341522,
      "learning_rate": 0.0008646673751971703,
      "loss": 2.0655,
      "step": 574
    },
    {
      "epoch": 0.26373122348354544,
      "grad_norm": 0.37080734968185425,
      "learning_rate": 0.000864158613517835,
      "loss": 2.1935,
      "step": 575
    },
    {
      "epoch": 0.26418988648090813,
      "grad_norm": 0.35504478216171265,
      "learning_rate": 0.0008636490476084681,
      "loss": 2.1515,
      "step": 576
    },
    {
      "epoch": 0.2646485494782708,
      "grad_norm": 0.4124753475189209,
      "learning_rate": 0.0008631386785944264,
      "loss": 2.175,
      "step": 577
    },
    {
      "epoch": 0.2651072124756335,
      "grad_norm": 0.35729798674583435,
      "learning_rate": 0.0008626275076028397,
      "loss": 2.1645,
      "step": 578
    },
    {
      "epoch": 0.2655658754729962,
      "grad_norm": 0.4072919189929962,
      "learning_rate": 0.0008621155357626091,
      "loss": 2.1156,
      "step": 579
    },
    {
      "epoch": 0.2660245384703589,
      "grad_norm": 0.36449891328811646,
      "learning_rate": 0.0008616027642044042,
      "loss": 2.2401,
      "step": 580
    },
    {
      "epoch": 0.2664832014677216,
      "grad_norm": 0.3770543932914734,
      "learning_rate": 0.000861089194060661,
      "loss": 2.1216,
      "step": 581
    },
    {
      "epoch": 0.2669418644650843,
      "grad_norm": 0.3988693654537201,
      "learning_rate": 0.000860574826465579,
      "loss": 2.2155,
      "step": 582
    },
    {
      "epoch": 0.26740052746244697,
      "grad_norm": 0.39715784788131714,
      "learning_rate": 0.0008600596625551191,
      "loss": 2.1408,
      "step": 583
    },
    {
      "epoch": 0.26785919045980966,
      "grad_norm": 0.37787845730781555,
      "learning_rate": 0.0008595437034670006,
      "loss": 2.1293,
      "step": 584
    },
    {
      "epoch": 0.26831785345717235,
      "grad_norm": 0.34411200881004333,
      "learning_rate": 0.0008590269503406985,
      "loss": 2.1734,
      "step": 585
    },
    {
      "epoch": 0.26877651645453504,
      "grad_norm": 0.4030718505382538,
      "learning_rate": 0.0008585094043174423,
      "loss": 2.1686,
      "step": 586
    },
    {
      "epoch": 0.26923517945189773,
      "grad_norm": 0.357048898935318,
      "learning_rate": 0.0008579910665402118,
      "loss": 2.2132,
      "step": 587
    },
    {
      "epoch": 0.2696938424492604,
      "grad_norm": 0.33876579999923706,
      "learning_rate": 0.000857471938153736,
      "loss": 2.1426,
      "step": 588
    },
    {
      "epoch": 0.2701525054466231,
      "grad_norm": 0.3657902777194977,
      "learning_rate": 0.0008569520203044892,
      "loss": 2.0674,
      "step": 589
    },
    {
      "epoch": 0.2706111684439858,
      "grad_norm": 0.3816119134426117,
      "learning_rate": 0.0008564313141406901,
      "loss": 2.1683,
      "step": 590
    },
    {
      "epoch": 0.2710698314413485,
      "grad_norm": 0.36821800470352173,
      "learning_rate": 0.0008559098208122973,
      "loss": 2.1435,
      "step": 591
    },
    {
      "epoch": 0.27152849443871113,
      "grad_norm": 0.35012298822402954,
      "learning_rate": 0.0008553875414710089,
      "loss": 2.0755,
      "step": 592
    },
    {
      "epoch": 0.2719871574360738,
      "grad_norm": 0.3623790144920349,
      "learning_rate": 0.0008548644772702579,
      "loss": 2.1573,
      "step": 593
    },
    {
      "epoch": 0.2724458204334365,
      "grad_norm": 0.3801560401916504,
      "learning_rate": 0.0008543406293652116,
      "loss": 2.1298,
      "step": 594
    },
    {
      "epoch": 0.2729044834307992,
      "grad_norm": 0.342978835105896,
      "learning_rate": 0.0008538159989127671,
      "loss": 2.1355,
      "step": 595
    },
    {
      "epoch": 0.2733631464281619,
      "grad_norm": 0.33866891264915466,
      "learning_rate": 0.0008532905870715505,
      "loss": 2.1849,
      "step": 596
    },
    {
      "epoch": 0.2738218094255246,
      "grad_norm": 0.33818697929382324,
      "learning_rate": 0.0008527643950019131,
      "loss": 2.1335,
      "step": 597
    },
    {
      "epoch": 0.2742804724228873,
      "grad_norm": 0.3705618381500244,
      "learning_rate": 0.0008522374238659296,
      "loss": 2.08,
      "step": 598
    },
    {
      "epoch": 0.27473913542024997,
      "grad_norm": 0.37391340732574463,
      "learning_rate": 0.0008517096748273951,
      "loss": 2.1496,
      "step": 599
    },
    {
      "epoch": 0.27519779841761266,
      "grad_norm": 0.35624438524246216,
      "learning_rate": 0.0008511811490518227,
      "loss": 2.1976,
      "step": 600
    },
    {
      "epoch": 0.27565646141497535,
      "grad_norm": 0.3508478105068207,
      "learning_rate": 0.0008506518477064405,
      "loss": 2.0858,
      "step": 601
    },
    {
      "epoch": 0.27611512441233804,
      "grad_norm": 0.4162684381008148,
      "learning_rate": 0.0008501217719601903,
      "loss": 2.1797,
      "step": 602
    },
    {
      "epoch": 0.27657378740970073,
      "grad_norm": 0.3590681254863739,
      "learning_rate": 0.0008495909229837233,
      "loss": 2.1152,
      "step": 603
    },
    {
      "epoch": 0.2770324504070634,
      "grad_norm": 0.35880622267723083,
      "learning_rate": 0.000849059301949399,
      "loss": 2.1007,
      "step": 604
    },
    {
      "epoch": 0.2774911134044261,
      "grad_norm": 0.3730079233646393,
      "learning_rate": 0.0008485269100312812,
      "loss": 2.144,
      "step": 605
    },
    {
      "epoch": 0.2779497764017888,
      "grad_norm": 0.36397892236709595,
      "learning_rate": 0.0008479937484051368,
      "loss": 2.1653,
      "step": 606
    },
    {
      "epoch": 0.2784084393991515,
      "grad_norm": 0.38327473402023315,
      "learning_rate": 0.0008474598182484323,
      "loss": 2.1116,
      "step": 607
    },
    {
      "epoch": 0.2788671023965142,
      "grad_norm": 0.33319759368896484,
      "learning_rate": 0.0008469251207403317,
      "loss": 2.1189,
      "step": 608
    },
    {
      "epoch": 0.2793257653938768,
      "grad_norm": 0.3642357289791107,
      "learning_rate": 0.0008463896570616934,
      "loss": 2.1629,
      "step": 609
    },
    {
      "epoch": 0.2797844283912395,
      "grad_norm": 0.37063026428222656,
      "learning_rate": 0.0008458534283950678,
      "loss": 2.1302,
      "step": 610
    },
    {
      "epoch": 0.2802430913886022,
      "grad_norm": 0.3710796535015106,
      "learning_rate": 0.0008453164359246952,
      "loss": 2.1025,
      "step": 611
    },
    {
      "epoch": 0.2807017543859649,
      "grad_norm": 0.3705529570579529,
      "learning_rate": 0.0008447786808365022,
      "loss": 2.2179,
      "step": 612
    },
    {
      "epoch": 0.2811604173833276,
      "grad_norm": 0.4067128896713257,
      "learning_rate": 0.0008442401643181,
      "loss": 2.1445,
      "step": 613
    },
    {
      "epoch": 0.2816190803806903,
      "grad_norm": 0.3771960735321045,
      "learning_rate": 0.0008437008875587811,
      "loss": 2.0712,
      "step": 614
    },
    {
      "epoch": 0.28207774337805297,
      "grad_norm": 0.37628957629203796,
      "learning_rate": 0.0008431608517495171,
      "loss": 2.0986,
      "step": 615
    },
    {
      "epoch": 0.28253640637541566,
      "grad_norm": 0.3646377623081207,
      "learning_rate": 0.0008426200580829561,
      "loss": 2.1303,
      "step": 616
    },
    {
      "epoch": 0.28299506937277835,
      "grad_norm": 0.3660373091697693,
      "learning_rate": 0.0008420785077534195,
      "loss": 2.1237,
      "step": 617
    },
    {
      "epoch": 0.28345373237014104,
      "grad_norm": 0.38275811076164246,
      "learning_rate": 0.0008415362019569001,
      "loss": 2.1249,
      "step": 618
    },
    {
      "epoch": 0.28391239536750373,
      "grad_norm": 0.3603810966014862,
      "learning_rate": 0.0008409931418910591,
      "loss": 2.1642,
      "step": 619
    },
    {
      "epoch": 0.2843710583648664,
      "grad_norm": 0.36424264311790466,
      "learning_rate": 0.0008404493287552232,
      "loss": 2.148,
      "step": 620
    },
    {
      "epoch": 0.2848297213622291,
      "grad_norm": 0.37009868025779724,
      "learning_rate": 0.0008399047637503825,
      "loss": 2.0909,
      "step": 621
    },
    {
      "epoch": 0.2852883843595918,
      "grad_norm": 0.39198005199432373,
      "learning_rate": 0.0008393594480791875,
      "loss": 2.1621,
      "step": 622
    },
    {
      "epoch": 0.2857470473569545,
      "grad_norm": 0.3635254204273224,
      "learning_rate": 0.0008388133829459463,
      "loss": 2.2059,
      "step": 623
    },
    {
      "epoch": 0.2862057103543172,
      "grad_norm": 0.3532939851284027,
      "learning_rate": 0.0008382665695566227,
      "loss": 2.1396,
      "step": 624
    },
    {
      "epoch": 0.2866643733516799,
      "grad_norm": 0.39598044753074646,
      "learning_rate": 0.0008377190091188324,
      "loss": 2.1354,
      "step": 625
    },
    {
      "epoch": 0.2871230363490425,
      "grad_norm": 0.34298038482666016,
      "learning_rate": 0.0008371707028418413,
      "loss": 2.177,
      "step": 626
    },
    {
      "epoch": 0.2875816993464052,
      "grad_norm": 0.3628772795200348,
      "learning_rate": 0.0008366216519365621,
      "loss": 2.0959,
      "step": 627
    },
    {
      "epoch": 0.2880403623437679,
      "grad_norm": 0.3615262806415558,
      "learning_rate": 0.0008360718576155525,
      "loss": 2.0707,
      "step": 628
    },
    {
      "epoch": 0.2884990253411306,
      "grad_norm": 0.37317219376564026,
      "learning_rate": 0.0008355213210930118,
      "loss": 2.2331,
      "step": 629
    },
    {
      "epoch": 0.2889576883384933,
      "grad_norm": 0.34589052200317383,
      "learning_rate": 0.0008349700435847778,
      "loss": 2.1304,
      "step": 630
    },
    {
      "epoch": 0.28941635133585597,
      "grad_norm": 0.34526804089546204,
      "learning_rate": 0.0008344180263083256,
      "loss": 2.0404,
      "step": 631
    },
    {
      "epoch": 0.28987501433321866,
      "grad_norm": 0.3482096493244171,
      "learning_rate": 0.000833865270482764,
      "loss": 2.1337,
      "step": 632
    },
    {
      "epoch": 0.29033367733058135,
      "grad_norm": 0.37487807869911194,
      "learning_rate": 0.0008333117773288324,
      "loss": 2.0542,
      "step": 633
    },
    {
      "epoch": 0.29079234032794404,
      "grad_norm": 0.3582049310207367,
      "learning_rate": 0.0008327575480688985,
      "loss": 2.1126,
      "step": 634
    },
    {
      "epoch": 0.29125100332530673,
      "grad_norm": 0.33163195848464966,
      "learning_rate": 0.000832202583926956,
      "loss": 2.1226,
      "step": 635
    },
    {
      "epoch": 0.2917096663226694,
      "grad_norm": 0.36697641015052795,
      "learning_rate": 0.0008316468861286217,
      "loss": 2.1475,
      "step": 636
    },
    {
      "epoch": 0.2921683293200321,
      "grad_norm": 0.3770785629749298,
      "learning_rate": 0.0008310904559011323,
      "loss": 2.145,
      "step": 637
    },
    {
      "epoch": 0.2926269923173948,
      "grad_norm": 0.37357378005981445,
      "learning_rate": 0.0008305332944733419,
      "loss": 2.165,
      "step": 638
    },
    {
      "epoch": 0.2930856553147575,
      "grad_norm": 0.4005029797554016,
      "learning_rate": 0.0008299754030757202,
      "loss": 2.1925,
      "step": 639
    },
    {
      "epoch": 0.2935443183121202,
      "grad_norm": 0.40503937005996704,
      "learning_rate": 0.0008294167829403481,
      "loss": 2.1215,
      "step": 640
    },
    {
      "epoch": 0.2940029813094829,
      "grad_norm": 0.3573434352874756,
      "learning_rate": 0.0008288574353009164,
      "loss": 2.0962,
      "step": 641
    },
    {
      "epoch": 0.29446164430684557,
      "grad_norm": 0.3709966242313385,
      "learning_rate": 0.0008282973613927225,
      "loss": 2.1656,
      "step": 642
    },
    {
      "epoch": 0.2949203073042082,
      "grad_norm": 0.37279021739959717,
      "learning_rate": 0.0008277365624526675,
      "loss": 2.0766,
      "step": 643
    },
    {
      "epoch": 0.2953789703015709,
      "grad_norm": 0.34678366780281067,
      "learning_rate": 0.0008271750397192541,
      "loss": 2.1098,
      "step": 644
    },
    {
      "epoch": 0.2958376332989336,
      "grad_norm": 0.33595386147499084,
      "learning_rate": 0.0008266127944325832,
      "loss": 2.1395,
      "step": 645
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.3778115510940552,
      "learning_rate": 0.0008260498278343513,
      "loss": 2.1396,
      "step": 646
    },
    {
      "epoch": 0.29675495929365897,
      "grad_norm": 0.34774234890937805,
      "learning_rate": 0.0008254861411678485,
      "loss": 2.07,
      "step": 647
    },
    {
      "epoch": 0.29721362229102166,
      "grad_norm": 0.32835808396339417,
      "learning_rate": 0.0008249217356779544,
      "loss": 2.1125,
      "step": 648
    },
    {
      "epoch": 0.29767228528838435,
      "grad_norm": 0.349783331155777,
      "learning_rate": 0.0008243566126111363,
      "loss": 2.2048,
      "step": 649
    },
    {
      "epoch": 0.29813094828574704,
      "grad_norm": 0.35885143280029297,
      "learning_rate": 0.0008237907732154466,
      "loss": 2.0979,
      "step": 650
    },
    {
      "epoch": 0.29858961128310973,
      "grad_norm": 0.36110126972198486,
      "learning_rate": 0.0008232242187405194,
      "loss": 2.1408,
      "step": 651
    },
    {
      "epoch": 0.2990482742804724,
      "grad_norm": 0.3645913302898407,
      "learning_rate": 0.000822656950437568,
      "loss": 2.1422,
      "step": 652
    },
    {
      "epoch": 0.2995069372778351,
      "grad_norm": 0.34334471821784973,
      "learning_rate": 0.0008220889695593823,
      "loss": 2.1396,
      "step": 653
    },
    {
      "epoch": 0.2999656002751978,
      "grad_norm": 0.3539680242538452,
      "learning_rate": 0.0008215202773603259,
      "loss": 2.0965,
      "step": 654
    },
    {
      "epoch": 0.3004242632725605,
      "grad_norm": 0.3740971088409424,
      "learning_rate": 0.0008209508750963328,
      "loss": 2.1554,
      "step": 655
    },
    {
      "epoch": 0.3008829262699232,
      "grad_norm": 0.3851650059223175,
      "learning_rate": 0.0008203807640249062,
      "loss": 2.2303,
      "step": 656
    },
    {
      "epoch": 0.3013415892672859,
      "grad_norm": 0.4084791839122772,
      "learning_rate": 0.0008198099454051136,
      "loss": 2.1056,
      "step": 657
    },
    {
      "epoch": 0.30180025226464857,
      "grad_norm": 0.36651888489723206,
      "learning_rate": 0.0008192384204975857,
      "loss": 2.1236,
      "step": 658
    },
    {
      "epoch": 0.30225891526201126,
      "grad_norm": 0.36642101407051086,
      "learning_rate": 0.000818666190564513,
      "loss": 2.0727,
      "step": 659
    },
    {
      "epoch": 0.3027175782593739,
      "grad_norm": 0.4417259097099304,
      "learning_rate": 0.0008180932568696426,
      "loss": 2.103,
      "step": 660
    },
    {
      "epoch": 0.3031762412567366,
      "grad_norm": 0.4072883725166321,
      "learning_rate": 0.0008175196206782764,
      "loss": 2.0636,
      "step": 661
    },
    {
      "epoch": 0.3036349042540993,
      "grad_norm": 0.3620690703392029,
      "learning_rate": 0.0008169452832572675,
      "loss": 2.1907,
      "step": 662
    },
    {
      "epoch": 0.30409356725146197,
      "grad_norm": 0.33177512884140015,
      "learning_rate": 0.0008163702458750173,
      "loss": 2.1435,
      "step": 663
    },
    {
      "epoch": 0.30455223024882466,
      "grad_norm": 0.44822415709495544,
      "learning_rate": 0.0008157945098014734,
      "loss": 2.1699,
      "step": 664
    },
    {
      "epoch": 0.30501089324618735,
      "grad_norm": 0.3551921844482422,
      "learning_rate": 0.0008152180763081267,
      "loss": 2.1599,
      "step": 665
    },
    {
      "epoch": 0.30546955624355004,
      "grad_norm": 0.36285263299942017,
      "learning_rate": 0.0008146409466680076,
      "loss": 2.1295,
      "step": 666
    },
    {
      "epoch": 0.30592821924091274,
      "grad_norm": 0.3860229551792145,
      "learning_rate": 0.0008140631221556845,
      "loss": 2.1491,
      "step": 667
    },
    {
      "epoch": 0.3063868822382754,
      "grad_norm": 0.3386334180831909,
      "learning_rate": 0.0008134846040472599,
      "loss": 2.0936,
      "step": 668
    },
    {
      "epoch": 0.3068455452356381,
      "grad_norm": 0.3878864049911499,
      "learning_rate": 0.0008129053936203688,
      "loss": 2.1245,
      "step": 669
    },
    {
      "epoch": 0.3073042082330008,
      "grad_norm": 0.35373762249946594,
      "learning_rate": 0.0008123254921541745,
      "loss": 2.1041,
      "step": 670
    },
    {
      "epoch": 0.3077628712303635,
      "grad_norm": 0.38577598333358765,
      "learning_rate": 0.0008117449009293668,
      "loss": 2.147,
      "step": 671
    },
    {
      "epoch": 0.3082215342277262,
      "grad_norm": 0.35222330689430237,
      "learning_rate": 0.0008111636212281586,
      "loss": 2.1153,
      "step": 672
    },
    {
      "epoch": 0.3086801972250889,
      "grad_norm": 0.34602218866348267,
      "learning_rate": 0.0008105816543342833,
      "loss": 2.1345,
      "step": 673
    },
    {
      "epoch": 0.3091388602224516,
      "grad_norm": 0.3554375469684601,
      "learning_rate": 0.0008099990015329919,
      "loss": 2.127,
      "step": 674
    },
    {
      "epoch": 0.30959752321981426,
      "grad_norm": 0.3640659749507904,
      "learning_rate": 0.0008094156641110504,
      "loss": 2.259,
      "step": 675
    },
    {
      "epoch": 0.31005618621717695,
      "grad_norm": 0.33390480279922485,
      "learning_rate": 0.0008088316433567369,
      "loss": 2.1882,
      "step": 676
    },
    {
      "epoch": 0.3105148492145396,
      "grad_norm": 0.34739232063293457,
      "learning_rate": 0.0008082469405598378,
      "loss": 2.1148,
      "step": 677
    },
    {
      "epoch": 0.3109735122119023,
      "grad_norm": 0.34274014830589294,
      "learning_rate": 0.0008076615570116468,
      "loss": 2.2109,
      "step": 678
    },
    {
      "epoch": 0.31143217520926497,
      "grad_norm": 0.34749704599380493,
      "learning_rate": 0.0008070754940049603,
      "loss": 2.1062,
      "step": 679
    },
    {
      "epoch": 0.31189083820662766,
      "grad_norm": 0.3645358085632324,
      "learning_rate": 0.0008064887528340756,
      "loss": 2.2017,
      "step": 680
    },
    {
      "epoch": 0.31234950120399035,
      "grad_norm": 0.3460599184036255,
      "learning_rate": 0.0008059013347947874,
      "loss": 2.0962,
      "step": 681
    },
    {
      "epoch": 0.31280816420135305,
      "grad_norm": 0.3572050929069519,
      "learning_rate": 0.0008053132411843857,
      "loss": 2.1731,
      "step": 682
    },
    {
      "epoch": 0.31326682719871574,
      "grad_norm": 0.4016764163970947,
      "learning_rate": 0.0008047244733016521,
      "loss": 2.0624,
      "step": 683
    },
    {
      "epoch": 0.3137254901960784,
      "grad_norm": 0.3477691113948822,
      "learning_rate": 0.0008041350324468573,
      "loss": 2.1761,
      "step": 684
    },
    {
      "epoch": 0.3141841531934411,
      "grad_norm": 0.36059343814849854,
      "learning_rate": 0.0008035449199217583,
      "loss": 2.137,
      "step": 685
    },
    {
      "epoch": 0.3146428161908038,
      "grad_norm": 0.36299389600753784,
      "learning_rate": 0.0008029541370295957,
      "loss": 2.1381,
      "step": 686
    },
    {
      "epoch": 0.3151014791881665,
      "grad_norm": 0.34428662061691284,
      "learning_rate": 0.0008023626850750903,
      "loss": 2.1515,
      "step": 687
    },
    {
      "epoch": 0.3155601421855292,
      "grad_norm": 0.3680572807788849,
      "learning_rate": 0.0008017705653644406,
      "loss": 2.0439,
      "step": 688
    },
    {
      "epoch": 0.3160188051828919,
      "grad_norm": 0.37620189785957336,
      "learning_rate": 0.0008011777792053195,
      "loss": 2.1443,
      "step": 689
    },
    {
      "epoch": 0.3164774681802546,
      "grad_norm": 0.331891268491745,
      "learning_rate": 0.0008005843279068725,
      "loss": 2.1989,
      "step": 690
    },
    {
      "epoch": 0.31693613117761726,
      "grad_norm": 0.3464985191822052,
      "learning_rate": 0.000799990212779713,
      "loss": 2.1545,
      "step": 691
    },
    {
      "epoch": 0.31739479417497996,
      "grad_norm": 0.33646637201309204,
      "learning_rate": 0.0007993954351359214,
      "loss": 2.2343,
      "step": 692
    },
    {
      "epoch": 0.31785345717234265,
      "grad_norm": 0.3665986657142639,
      "learning_rate": 0.0007987999962890406,
      "loss": 2.0962,
      "step": 693
    },
    {
      "epoch": 0.3183121201697053,
      "grad_norm": 0.325662761926651,
      "learning_rate": 0.0007982038975540742,
      "loss": 2.0871,
      "step": 694
    },
    {
      "epoch": 0.318770783167068,
      "grad_norm": 0.3525545001029968,
      "learning_rate": 0.0007976071402474826,
      "loss": 2.1757,
      "step": 695
    },
    {
      "epoch": 0.31922944616443066,
      "grad_norm": 0.3503601849079132,
      "learning_rate": 0.0007970097256871811,
      "loss": 2.1557,
      "step": 696
    },
    {
      "epoch": 0.31968810916179335,
      "grad_norm": 0.34402087330818176,
      "learning_rate": 0.0007964116551925364,
      "loss": 2.0962,
      "step": 697
    },
    {
      "epoch": 0.32014677215915605,
      "grad_norm": 0.33361783623695374,
      "learning_rate": 0.0007958129300843637,
      "loss": 2.0654,
      "step": 698
    },
    {
      "epoch": 0.32060543515651874,
      "grad_norm": 0.36383724212646484,
      "learning_rate": 0.0007952135516849239,
      "loss": 2.1689,
      "step": 699
    },
    {
      "epoch": 0.3210640981538814,
      "grad_norm": 0.3676844835281372,
      "learning_rate": 0.0007946135213179207,
      "loss": 2.2266,
      "step": 700
    },
    {
      "epoch": 0.3215227611512441,
      "grad_norm": 0.34340324997901917,
      "learning_rate": 0.0007940128403084977,
      "loss": 2.0974,
      "step": 701
    },
    {
      "epoch": 0.3219814241486068,
      "grad_norm": 0.35998979210853577,
      "learning_rate": 0.0007934115099832355,
      "loss": 2.1267,
      "step": 702
    },
    {
      "epoch": 0.3224400871459695,
      "grad_norm": 0.3352345824241638,
      "learning_rate": 0.0007928095316701483,
      "loss": 2.1376,
      "step": 703
    },
    {
      "epoch": 0.3228987501433322,
      "grad_norm": 0.3709006607532501,
      "learning_rate": 0.0007922069066986819,
      "loss": 2.1147,
      "step": 704
    },
    {
      "epoch": 0.3233574131406949,
      "grad_norm": 0.39758458733558655,
      "learning_rate": 0.0007916036363997097,
      "loss": 2.1674,
      "step": 705
    },
    {
      "epoch": 0.3238160761380576,
      "grad_norm": 0.3498707115650177,
      "learning_rate": 0.0007909997221055308,
      "loss": 2.1206,
      "step": 706
    },
    {
      "epoch": 0.32427473913542026,
      "grad_norm": 0.36923548579216003,
      "learning_rate": 0.0007903951651498658,
      "loss": 2.0759,
      "step": 707
    },
    {
      "epoch": 0.32473340213278296,
      "grad_norm": 0.34520867466926575,
      "learning_rate": 0.0007897899668678557,
      "loss": 2.1658,
      "step": 708
    },
    {
      "epoch": 0.32519206513014565,
      "grad_norm": 0.35448819398880005,
      "learning_rate": 0.0007891841285960566,
      "loss": 2.0826,
      "step": 709
    },
    {
      "epoch": 0.32565072812750834,
      "grad_norm": 0.35959669947624207,
      "learning_rate": 0.0007885776516724388,
      "loss": 2.0643,
      "step": 710
    },
    {
      "epoch": 0.32610939112487103,
      "grad_norm": 0.4135379493236542,
      "learning_rate": 0.0007879705374363831,
      "loss": 2.1343,
      "step": 711
    },
    {
      "epoch": 0.32656805412223366,
      "grad_norm": 0.34737443923950195,
      "learning_rate": 0.000787362787228677,
      "loss": 2.1625,
      "step": 712
    },
    {
      "epoch": 0.32702671711959636,
      "grad_norm": 0.34850794076919556,
      "learning_rate": 0.0007867544023915134,
      "loss": 2.0365,
      "step": 713
    },
    {
      "epoch": 0.32748538011695905,
      "grad_norm": 0.41054171323776245,
      "learning_rate": 0.0007861453842684861,
      "loss": 2.0998,
      "step": 714
    },
    {
      "epoch": 0.32794404311432174,
      "grad_norm": 0.3588623106479645,
      "learning_rate": 0.0007855357342045882,
      "loss": 2.0502,
      "step": 715
    },
    {
      "epoch": 0.32840270611168443,
      "grad_norm": 0.3176013231277466,
      "learning_rate": 0.0007849254535462074,
      "loss": 2.0908,
      "step": 716
    },
    {
      "epoch": 0.3288613691090471,
      "grad_norm": 0.3616657555103302,
      "learning_rate": 0.0007843145436411252,
      "loss": 2.0767,
      "step": 717
    },
    {
      "epoch": 0.3293200321064098,
      "grad_norm": 0.4652251899242401,
      "learning_rate": 0.0007837030058385117,
      "loss": 2.2692,
      "step": 718
    },
    {
      "epoch": 0.3297786951037725,
      "grad_norm": 0.35333526134490967,
      "learning_rate": 0.0007830908414889246,
      "loss": 2.1246,
      "step": 719
    },
    {
      "epoch": 0.3302373581011352,
      "grad_norm": 0.33485686779022217,
      "learning_rate": 0.0007824780519443046,
      "loss": 2.0502,
      "step": 720
    },
    {
      "epoch": 0.3306960210984979,
      "grad_norm": 0.391969233751297,
      "learning_rate": 0.0007818646385579735,
      "loss": 2.1015,
      "step": 721
    },
    {
      "epoch": 0.3311546840958606,
      "grad_norm": 0.3520813584327698,
      "learning_rate": 0.0007812506026846307,
      "loss": 2.1862,
      "step": 722
    },
    {
      "epoch": 0.33161334709322327,
      "grad_norm": 0.3486284613609314,
      "learning_rate": 0.0007806359456803504,
      "loss": 2.0816,
      "step": 723
    },
    {
      "epoch": 0.33207201009058596,
      "grad_norm": 0.37786516547203064,
      "learning_rate": 0.0007800206689025785,
      "loss": 2.1993,
      "step": 724
    },
    {
      "epoch": 0.33253067308794865,
      "grad_norm": 0.37040695548057556,
      "learning_rate": 0.0007794047737101297,
      "loss": 2.1251,
      "step": 725
    },
    {
      "epoch": 0.33298933608531134,
      "grad_norm": 0.3603101968765259,
      "learning_rate": 0.0007787882614631843,
      "loss": 2.0691,
      "step": 726
    },
    {
      "epoch": 0.33344799908267403,
      "grad_norm": 0.33765095472335815,
      "learning_rate": 0.0007781711335232856,
      "loss": 2.1126,
      "step": 727
    },
    {
      "epoch": 0.3339066620800367,
      "grad_norm": 0.3808603882789612,
      "learning_rate": 0.0007775533912533363,
      "loss": 2.21,
      "step": 728
    },
    {
      "epoch": 0.33436532507739936,
      "grad_norm": 0.36980748176574707,
      "learning_rate": 0.0007769350360175962,
      "loss": 2.1718,
      "step": 729
    },
    {
      "epoch": 0.33482398807476205,
      "grad_norm": 0.35477420687675476,
      "learning_rate": 0.0007763160691816784,
      "loss": 2.0629,
      "step": 730
    },
    {
      "epoch": 0.33528265107212474,
      "grad_norm": 0.3622875213623047,
      "learning_rate": 0.000775696492112547,
      "loss": 2.1067,
      "step": 731
    },
    {
      "epoch": 0.33574131406948743,
      "grad_norm": 0.3485701084136963,
      "learning_rate": 0.0007750763061785137,
      "loss": 2.1342,
      "step": 732
    },
    {
      "epoch": 0.3361999770668501,
      "grad_norm": 0.35802900791168213,
      "learning_rate": 0.000774455512749235,
      "loss": 2.1093,
      "step": 733
    },
    {
      "epoch": 0.3366586400642128,
      "grad_norm": 0.36969465017318726,
      "learning_rate": 0.0007738341131957085,
      "loss": 2.108,
      "step": 734
    },
    {
      "epoch": 0.3371173030615755,
      "grad_norm": 0.3467743396759033,
      "learning_rate": 0.000773212108890271,
      "loss": 2.018,
      "step": 735
    },
    {
      "epoch": 0.3375759660589382,
      "grad_norm": 0.339253306388855,
      "learning_rate": 0.0007725895012065947,
      "loss": 2.0964,
      "step": 736
    },
    {
      "epoch": 0.3380346290563009,
      "grad_norm": 0.34144291281700134,
      "learning_rate": 0.0007719662915196844,
      "loss": 2.0809,
      "step": 737
    },
    {
      "epoch": 0.3384932920536636,
      "grad_norm": 0.3452723026275635,
      "learning_rate": 0.0007713424812058736,
      "loss": 2.1752,
      "step": 738
    },
    {
      "epoch": 0.33895195505102627,
      "grad_norm": 0.3449902832508087,
      "learning_rate": 0.0007707180716428237,
      "loss": 2.1694,
      "step": 739
    },
    {
      "epoch": 0.33941061804838896,
      "grad_norm": 0.42259377241134644,
      "learning_rate": 0.0007700930642095184,
      "loss": 2.0865,
      "step": 740
    },
    {
      "epoch": 0.33986928104575165,
      "grad_norm": 0.36530667543411255,
      "learning_rate": 0.0007694674602862621,
      "loss": 2.149,
      "step": 741
    },
    {
      "epoch": 0.34032794404311434,
      "grad_norm": 0.3716825544834137,
      "learning_rate": 0.0007688412612546769,
      "loss": 2.0614,
      "step": 742
    },
    {
      "epoch": 0.34078660704047703,
      "grad_norm": 0.37654492259025574,
      "learning_rate": 0.0007682144684976983,
      "loss": 2.0708,
      "step": 743
    },
    {
      "epoch": 0.3412452700378397,
      "grad_norm": 0.36311545968055725,
      "learning_rate": 0.0007675870833995739,
      "loss": 2.19,
      "step": 744
    },
    {
      "epoch": 0.3417039330352024,
      "grad_norm": 0.3456396162509918,
      "learning_rate": 0.0007669591073458592,
      "loss": 2.0467,
      "step": 745
    },
    {
      "epoch": 0.34216259603256505,
      "grad_norm": 0.33763033151626587,
      "learning_rate": 0.0007663305417234146,
      "loss": 2.1081,
      "step": 746
    },
    {
      "epoch": 0.34262125902992774,
      "grad_norm": 0.32998186349868774,
      "learning_rate": 0.0007657013879204022,
      "loss": 2.0439,
      "step": 747
    },
    {
      "epoch": 0.34307992202729043,
      "grad_norm": 0.35524827241897583,
      "learning_rate": 0.0007650716473262842,
      "loss": 2.1056,
      "step": 748
    },
    {
      "epoch": 0.3435385850246531,
      "grad_norm": 0.3500366508960724,
      "learning_rate": 0.0007644413213318177,
      "loss": 2.1222,
      "step": 749
    },
    {
      "epoch": 0.3439972480220158,
      "grad_norm": 0.37087687849998474,
      "learning_rate": 0.0007638104113290531,
      "loss": 2.1178,
      "step": 750
    },
    {
      "epoch": 0.3444559110193785,
      "grad_norm": 0.3385315537452698,
      "learning_rate": 0.0007631789187113303,
      "loss": 2.0967,
      "step": 751
    },
    {
      "epoch": 0.3449145740167412,
      "grad_norm": 0.36239707469940186,
      "learning_rate": 0.000762546844873276,
      "loss": 2.2122,
      "step": 752
    },
    {
      "epoch": 0.3453732370141039,
      "grad_norm": 0.36630094051361084,
      "learning_rate": 0.0007619141912108007,
      "loss": 2.1202,
      "step": 753
    },
    {
      "epoch": 0.3458319000114666,
      "grad_norm": 0.3468370735645294,
      "learning_rate": 0.000761280959121095,
      "loss": 2.1201,
      "step": 754
    },
    {
      "epoch": 0.34629056300882927,
      "grad_norm": 0.3272409439086914,
      "learning_rate": 0.0007606471500026273,
      "loss": 2.0739,
      "step": 755
    },
    {
      "epoch": 0.34674922600619196,
      "grad_norm": 0.34268349409103394,
      "learning_rate": 0.0007600127652551401,
      "loss": 2.1166,
      "step": 756
    },
    {
      "epoch": 0.34720788900355465,
      "grad_norm": 0.3291586637496948,
      "learning_rate": 0.0007593778062796472,
      "loss": 2.2236,
      "step": 757
    },
    {
      "epoch": 0.34766655200091734,
      "grad_norm": 0.3584606349468231,
      "learning_rate": 0.000758742274478431,
      "loss": 2.1369,
      "step": 758
    },
    {
      "epoch": 0.34812521499828003,
      "grad_norm": 0.3474424183368683,
      "learning_rate": 0.0007581061712550381,
      "loss": 2.1398,
      "step": 759
    },
    {
      "epoch": 0.3485838779956427,
      "grad_norm": 0.3393211364746094,
      "learning_rate": 0.0007574694980142779,
      "loss": 2.1307,
      "step": 760
    },
    {
      "epoch": 0.3490425409930054,
      "grad_norm": 0.34779396653175354,
      "learning_rate": 0.0007568322561622183,
      "loss": 2.1349,
      "step": 761
    },
    {
      "epoch": 0.3495012039903681,
      "grad_norm": 0.3577215373516083,
      "learning_rate": 0.0007561944471061826,
      "loss": 2.0246,
      "step": 762
    },
    {
      "epoch": 0.34995986698773074,
      "grad_norm": 0.34898072481155396,
      "learning_rate": 0.0007555560722547475,
      "loss": 2.2133,
      "step": 763
    },
    {
      "epoch": 0.35041852998509343,
      "grad_norm": 0.3289206922054291,
      "learning_rate": 0.0007549171330177387,
      "loss": 2.0941,
      "step": 764
    },
    {
      "epoch": 0.3508771929824561,
      "grad_norm": 0.3617992699146271,
      "learning_rate": 0.0007542776308062285,
      "loss": 2.035,
      "step": 765
    },
    {
      "epoch": 0.3513358559798188,
      "grad_norm": 0.35023418068885803,
      "learning_rate": 0.0007536375670325325,
      "loss": 2.1409,
      "step": 766
    },
    {
      "epoch": 0.3517945189771815,
      "grad_norm": 0.3366084396839142,
      "learning_rate": 0.0007529969431102063,
      "loss": 2.1313,
      "step": 767
    },
    {
      "epoch": 0.3522531819745442,
      "grad_norm": 0.5094122886657715,
      "learning_rate": 0.000752355760454043,
      "loss": 2.1239,
      "step": 768
    },
    {
      "epoch": 0.3527118449719069,
      "grad_norm": 0.3314181864261627,
      "learning_rate": 0.0007517140204800693,
      "loss": 2.1467,
      "step": 769
    },
    {
      "epoch": 0.3531705079692696,
      "grad_norm": 0.34424567222595215,
      "learning_rate": 0.0007510717246055425,
      "loss": 2.1129,
      "step": 770
    },
    {
      "epoch": 0.35362917096663227,
      "grad_norm": 0.40466561913490295,
      "learning_rate": 0.0007504288742489482,
      "loss": 2.1048,
      "step": 771
    },
    {
      "epoch": 0.35408783396399496,
      "grad_norm": 0.3494564890861511,
      "learning_rate": 0.0007497854708299963,
      "loss": 2.0948,
      "step": 772
    },
    {
      "epoch": 0.35454649696135765,
      "grad_norm": 0.34669122099876404,
      "learning_rate": 0.0007491415157696178,
      "loss": 2.1106,
      "step": 773
    },
    {
      "epoch": 0.35500515995872034,
      "grad_norm": 0.32570186257362366,
      "learning_rate": 0.0007484970104899623,
      "loss": 2.1394,
      "step": 774
    },
    {
      "epoch": 0.35546382295608303,
      "grad_norm": 0.3471986949443817,
      "learning_rate": 0.0007478519564143945,
      "loss": 2.1209,
      "step": 775
    },
    {
      "epoch": 0.3559224859534457,
      "grad_norm": 0.3676723837852478,
      "learning_rate": 0.000747206354967491,
      "loss": 2.075,
      "step": 776
    },
    {
      "epoch": 0.3563811489508084,
      "grad_norm": 0.32391253113746643,
      "learning_rate": 0.0007465602075750373,
      "loss": 2.1581,
      "step": 777
    },
    {
      "epoch": 0.3568398119481711,
      "grad_norm": 0.3752521872520447,
      "learning_rate": 0.0007459135156640247,
      "loss": 2.1026,
      "step": 778
    },
    {
      "epoch": 0.3572984749455338,
      "grad_norm": 0.35470905900001526,
      "learning_rate": 0.0007452662806626468,
      "loss": 2.0391,
      "step": 779
    },
    {
      "epoch": 0.35775713794289643,
      "grad_norm": 0.34754297137260437,
      "learning_rate": 0.0007446185040002967,
      "loss": 2.145,
      "step": 780
    },
    {
      "epoch": 0.3582158009402591,
      "grad_norm": 0.3359634578227997,
      "learning_rate": 0.0007439701871075642,
      "loss": 2.1192,
      "step": 781
    },
    {
      "epoch": 0.3586744639376218,
      "grad_norm": 0.3476264476776123,
      "learning_rate": 0.0007433213314162313,
      "loss": 2.1066,
      "step": 782
    },
    {
      "epoch": 0.3591331269349845,
      "grad_norm": 0.32278820872306824,
      "learning_rate": 0.0007426719383592705,
      "loss": 2.0463,
      "step": 783
    },
    {
      "epoch": 0.3595917899323472,
      "grad_norm": 0.3295530378818512,
      "learning_rate": 0.000742022009370841,
      "loss": 2.115,
      "step": 784
    },
    {
      "epoch": 0.3600504529297099,
      "grad_norm": 0.3444608151912689,
      "learning_rate": 0.0007413715458862855,
      "loss": 2.0949,
      "step": 785
    },
    {
      "epoch": 0.3605091159270726,
      "grad_norm": 0.3374154269695282,
      "learning_rate": 0.0007407205493421272,
      "loss": 2.0237,
      "step": 786
    },
    {
      "epoch": 0.36096777892443527,
      "grad_norm": 0.36081352829933167,
      "learning_rate": 0.0007400690211760661,
      "loss": 2.0128,
      "step": 787
    },
    {
      "epoch": 0.36142644192179796,
      "grad_norm": 0.34667083621025085,
      "learning_rate": 0.0007394169628269771,
      "loss": 2.0558,
      "step": 788
    },
    {
      "epoch": 0.36188510491916065,
      "grad_norm": 0.33921515941619873,
      "learning_rate": 0.0007387643757349051,
      "loss": 2.073,
      "step": 789
    },
    {
      "epoch": 0.36234376791652334,
      "grad_norm": 0.36088433861732483,
      "learning_rate": 0.0007381112613410635,
      "loss": 2.1954,
      "step": 790
    },
    {
      "epoch": 0.36280243091388603,
      "grad_norm": 0.3759022355079651,
      "learning_rate": 0.0007374576210878298,
      "loss": 2.1017,
      "step": 791
    },
    {
      "epoch": 0.3632610939112487,
      "grad_norm": 0.3549506664276123,
      "learning_rate": 0.0007368034564187425,
      "loss": 2.1436,
      "step": 792
    },
    {
      "epoch": 0.3637197569086114,
      "grad_norm": 0.3669161796569824,
      "learning_rate": 0.0007361487687784989,
      "loss": 2.2415,
      "step": 793
    },
    {
      "epoch": 0.3641784199059741,
      "grad_norm": 0.36102095246315,
      "learning_rate": 0.0007354935596129513,
      "loss": 2.0913,
      "step": 794
    },
    {
      "epoch": 0.3646370829033368,
      "grad_norm": 0.3550090193748474,
      "learning_rate": 0.000734837830369103,
      "loss": 2.0488,
      "step": 795
    },
    {
      "epoch": 0.3650957459006995,
      "grad_norm": 0.32404300570487976,
      "learning_rate": 0.0007341815824951066,
      "loss": 2.0865,
      "step": 796
    },
    {
      "epoch": 0.3655544088980621,
      "grad_norm": 0.3244430422782898,
      "learning_rate": 0.0007335248174402597,
      "loss": 2.0588,
      "step": 797
    },
    {
      "epoch": 0.3660130718954248,
      "grad_norm": 0.34904661774635315,
      "learning_rate": 0.0007328675366550023,
      "loss": 2.0933,
      "step": 798
    },
    {
      "epoch": 0.3664717348927875,
      "grad_norm": 0.34263038635253906,
      "learning_rate": 0.0007322097415909134,
      "loss": 2.0356,
      "step": 799
    },
    {
      "epoch": 0.3669303978901502,
      "grad_norm": 0.33832502365112305,
      "learning_rate": 0.0007315514337007071,
      "loss": 2.0832,
      "step": 800
    },
    {
      "epoch": 0.3673890608875129,
      "grad_norm": 0.36752280592918396,
      "learning_rate": 0.0007308926144382312,
      "loss": 2.0934,
      "step": 801
    },
    {
      "epoch": 0.3678477238848756,
      "grad_norm": 0.3413175046443939,
      "learning_rate": 0.0007302332852584619,
      "loss": 2.1448,
      "step": 802
    },
    {
      "epoch": 0.36830638688223827,
      "grad_norm": 0.33933281898498535,
      "learning_rate": 0.0007295734476175018,
      "loss": 2.071,
      "step": 803
    },
    {
      "epoch": 0.36876504987960096,
      "grad_norm": 0.3232947587966919,
      "learning_rate": 0.0007289131029725768,
      "loss": 2.0749,
      "step": 804
    },
    {
      "epoch": 0.36922371287696365,
      "grad_norm": 0.3357285261154175,
      "learning_rate": 0.0007282522527820319,
      "loss": 2.0854,
      "step": 805
    },
    {
      "epoch": 0.36968237587432634,
      "grad_norm": 0.3283941447734833,
      "learning_rate": 0.000727590898505329,
      "loss": 2.055,
      "step": 806
    },
    {
      "epoch": 0.37014103887168903,
      "grad_norm": 0.3291931450366974,
      "learning_rate": 0.0007269290416030429,
      "loss": 2.0773,
      "step": 807
    },
    {
      "epoch": 0.3705997018690517,
      "grad_norm": 0.3321399688720703,
      "learning_rate": 0.000726266683536859,
      "loss": 2.1183,
      "step": 808
    },
    {
      "epoch": 0.3710583648664144,
      "grad_norm": 0.352411687374115,
      "learning_rate": 0.0007256038257695687,
      "loss": 2.0713,
      "step": 809
    },
    {
      "epoch": 0.3715170278637771,
      "grad_norm": 0.35389161109924316,
      "learning_rate": 0.0007249404697650678,
      "loss": 2.1226,
      "step": 810
    },
    {
      "epoch": 0.3719756908611398,
      "grad_norm": 0.35842740535736084,
      "learning_rate": 0.0007242766169883518,
      "loss": 2.113,
      "step": 811
    },
    {
      "epoch": 0.3724343538585025,
      "grad_norm": 0.34857046604156494,
      "learning_rate": 0.0007236122689055138,
      "loss": 2.1708,
      "step": 812
    },
    {
      "epoch": 0.3728930168558652,
      "grad_norm": 0.36585599184036255,
      "learning_rate": 0.0007229474269837401,
      "loss": 2.0603,
      "step": 813
    },
    {
      "epoch": 0.3733516798532278,
      "grad_norm": 0.34743842482566833,
      "learning_rate": 0.0007222820926913085,
      "loss": 2.1533,
      "step": 814
    },
    {
      "epoch": 0.3738103428505905,
      "grad_norm": 0.3587276041507721,
      "learning_rate": 0.0007216162674975833,
      "loss": 2.1187,
      "step": 815
    },
    {
      "epoch": 0.3742690058479532,
      "grad_norm": 0.3475872278213501,
      "learning_rate": 0.0007209499528730138,
      "loss": 2.0629,
      "step": 816
    },
    {
      "epoch": 0.3747276688453159,
      "grad_norm": 0.33062681555747986,
      "learning_rate": 0.0007202831502891294,
      "loss": 2.1866,
      "step": 817
    },
    {
      "epoch": 0.3751863318426786,
      "grad_norm": 0.3385463356971741,
      "learning_rate": 0.0007196158612185375,
      "loss": 2.0323,
      "step": 818
    },
    {
      "epoch": 0.37564499484004127,
      "grad_norm": 0.35148900747299194,
      "learning_rate": 0.0007189480871349201,
      "loss": 2.0171,
      "step": 819
    },
    {
      "epoch": 0.37610365783740396,
      "grad_norm": 0.34348028898239136,
      "learning_rate": 0.0007182798295130299,
      "loss": 2.0981,
      "step": 820
    },
    {
      "epoch": 0.37656232083476665,
      "grad_norm": 0.37120041251182556,
      "learning_rate": 0.0007176110898286878,
      "loss": 2.0995,
      "step": 821
    },
    {
      "epoch": 0.37702098383212934,
      "grad_norm": 0.35323846340179443,
      "learning_rate": 0.0007169418695587791,
      "loss": 2.0036,
      "step": 822
    },
    {
      "epoch": 0.37747964682949203,
      "grad_norm": 0.35012367367744446,
      "learning_rate": 0.0007162721701812506,
      "loss": 1.9837,
      "step": 823
    },
    {
      "epoch": 0.3779383098268547,
      "grad_norm": 0.34973517060279846,
      "learning_rate": 0.0007156019931751072,
      "loss": 2.0679,
      "step": 824
    },
    {
      "epoch": 0.3783969728242174,
      "grad_norm": 0.3537430465221405,
      "learning_rate": 0.0007149313400204082,
      "loss": 2.1604,
      "step": 825
    },
    {
      "epoch": 0.3788556358215801,
      "grad_norm": 0.3723842203617096,
      "learning_rate": 0.0007142602121982653,
      "loss": 2.1388,
      "step": 826
    },
    {
      "epoch": 0.3793142988189428,
      "grad_norm": 0.36138099431991577,
      "learning_rate": 0.0007135886111908379,
      "loss": 2.0852,
      "step": 827
    },
    {
      "epoch": 0.3797729618163055,
      "grad_norm": 0.3694987893104553,
      "learning_rate": 0.0007129165384813303,
      "loss": 2.1246,
      "step": 828
    },
    {
      "epoch": 0.3802316248136682,
      "grad_norm": 0.33843186497688293,
      "learning_rate": 0.0007122439955539888,
      "loss": 2.1547,
      "step": 829
    },
    {
      "epoch": 0.38069028781103087,
      "grad_norm": 0.39292794466018677,
      "learning_rate": 0.0007115709838940983,
      "loss": 2.0136,
      "step": 830
    },
    {
      "epoch": 0.3811489508083935,
      "grad_norm": 0.3431207537651062,
      "learning_rate": 0.0007108975049879785,
      "loss": 2.123,
      "step": 831
    },
    {
      "epoch": 0.3816076138057562,
      "grad_norm": 0.3529835343360901,
      "learning_rate": 0.0007102235603229814,
      "loss": 2.1605,
      "step": 832
    },
    {
      "epoch": 0.3820662768031189,
      "grad_norm": 0.34651824831962585,
      "learning_rate": 0.000709549151387487,
      "loss": 2.1573,
      "step": 833
    },
    {
      "epoch": 0.3825249398004816,
      "grad_norm": 0.3129865229129791,
      "learning_rate": 0.0007088742796709013,
      "loss": 2.1251,
      "step": 834
    },
    {
      "epoch": 0.38298360279784427,
      "grad_norm": 0.3457878530025482,
      "learning_rate": 0.000708198946663652,
      "loss": 2.1621,
      "step": 835
    },
    {
      "epoch": 0.38344226579520696,
      "grad_norm": 0.3436848819255829,
      "learning_rate": 0.0007075231538571856,
      "loss": 2.1601,
      "step": 836
    },
    {
      "epoch": 0.38390092879256965,
      "grad_norm": 0.32909902930259705,
      "learning_rate": 0.0007068469027439641,
      "loss": 2.0714,
      "step": 837
    },
    {
      "epoch": 0.38435959178993234,
      "grad_norm": 0.3405475914478302,
      "learning_rate": 0.0007061701948174613,
      "loss": 2.0087,
      "step": 838
    },
    {
      "epoch": 0.38481825478729503,
      "grad_norm": 0.34691011905670166,
      "learning_rate": 0.0007054930315721606,
      "loss": 2.0599,
      "step": 839
    },
    {
      "epoch": 0.3852769177846577,
      "grad_norm": 0.3469417095184326,
      "learning_rate": 0.0007048154145035501,
      "loss": 2.0856,
      "step": 840
    },
    {
      "epoch": 0.3857355807820204,
      "grad_norm": 0.34940996766090393,
      "learning_rate": 0.0007041373451081207,
      "loss": 2.0229,
      "step": 841
    },
    {
      "epoch": 0.3861942437793831,
      "grad_norm": 0.3431422710418701,
      "learning_rate": 0.0007034588248833621,
      "loss": 2.19,
      "step": 842
    },
    {
      "epoch": 0.3866529067767458,
      "grad_norm": 0.3466002643108368,
      "learning_rate": 0.0007027798553277595,
      "loss": 2.1117,
      "step": 843
    },
    {
      "epoch": 0.3871115697741085,
      "grad_norm": 0.3290020227432251,
      "learning_rate": 0.0007021004379407909,
      "loss": 2.047,
      "step": 844
    },
    {
      "epoch": 0.3875702327714712,
      "grad_norm": 0.33053478598594666,
      "learning_rate": 0.0007014205742229227,
      "loss": 2.095,
      "step": 845
    },
    {
      "epoch": 0.38802889576883387,
      "grad_norm": 0.3232743442058563,
      "learning_rate": 0.0007007402656756072,
      "loss": 2.1626,
      "step": 846
    },
    {
      "epoch": 0.38848755876619656,
      "grad_norm": 0.3503262996673584,
      "learning_rate": 0.0007000595138012797,
      "loss": 2.1447,
      "step": 847
    },
    {
      "epoch": 0.38894622176355925,
      "grad_norm": 0.33583149313926697,
      "learning_rate": 0.0006993783201033535,
      "loss": 2.1018,
      "step": 848
    },
    {
      "epoch": 0.3894048847609219,
      "grad_norm": 0.3770461082458496,
      "learning_rate": 0.0006986966860862182,
      "loss": 2.0827,
      "step": 849
    },
    {
      "epoch": 0.3898635477582846,
      "grad_norm": 0.33564266562461853,
      "learning_rate": 0.000698014613255236,
      "loss": 2.0576,
      "step": 850
    },
    {
      "epoch": 0.39032221075564727,
      "grad_norm": 0.3506571054458618,
      "learning_rate": 0.0006973321031167382,
      "loss": 2.1425,
      "step": 851
    },
    {
      "epoch": 0.39078087375300996,
      "grad_norm": 0.3655087351799011,
      "learning_rate": 0.0006966491571780216,
      "loss": 2.0314,
      "step": 852
    },
    {
      "epoch": 0.39123953675037265,
      "grad_norm": 0.3402533531188965,
      "learning_rate": 0.0006959657769473453,
      "loss": 2.1589,
      "step": 853
    },
    {
      "epoch": 0.39169819974773534,
      "grad_norm": 0.34933996200561523,
      "learning_rate": 0.000695281963933928,
      "loss": 2.1051,
      "step": 854
    },
    {
      "epoch": 0.39215686274509803,
      "grad_norm": 0.3282501697540283,
      "learning_rate": 0.0006945977196479438,
      "loss": 2.1689,
      "step": 855
    },
    {
      "epoch": 0.3926155257424607,
      "grad_norm": 0.3357757031917572,
      "learning_rate": 0.0006939130456005196,
      "loss": 2.0972,
      "step": 856
    },
    {
      "epoch": 0.3930741887398234,
      "grad_norm": 0.33161112666130066,
      "learning_rate": 0.0006932279433037311,
      "loss": 2.0753,
      "step": 857
    },
    {
      "epoch": 0.3935328517371861,
      "grad_norm": 0.3303811252117157,
      "learning_rate": 0.0006925424142705997,
      "loss": 2.108,
      "step": 858
    },
    {
      "epoch": 0.3939915147345488,
      "grad_norm": 0.3384742736816406,
      "learning_rate": 0.0006918564600150896,
      "loss": 2.0516,
      "step": 859
    },
    {
      "epoch": 0.3944501777319115,
      "grad_norm": 0.3706124424934387,
      "learning_rate": 0.0006911700820521042,
      "loss": 2.1622,
      "step": 860
    },
    {
      "epoch": 0.3949088407292742,
      "grad_norm": 0.38051727414131165,
      "learning_rate": 0.0006904832818974818,
      "loss": 2.2284,
      "step": 861
    },
    {
      "epoch": 0.39536750372663687,
      "grad_norm": 0.33922064304351807,
      "learning_rate": 0.0006897960610679939,
      "loss": 2.1203,
      "step": 862
    },
    {
      "epoch": 0.39582616672399956,
      "grad_norm": 0.3573193848133087,
      "learning_rate": 0.0006891084210813407,
      "loss": 2.1191,
      "step": 863
    },
    {
      "epoch": 0.39628482972136225,
      "grad_norm": 0.3474670946598053,
      "learning_rate": 0.0006884203634561483,
      "loss": 2.099,
      "step": 864
    },
    {
      "epoch": 0.39674349271872494,
      "grad_norm": 0.3795320391654968,
      "learning_rate": 0.0006877318897119651,
      "loss": 2.0572,
      "step": 865
    },
    {
      "epoch": 0.3972021557160876,
      "grad_norm": 0.3381597101688385,
      "learning_rate": 0.0006870430013692579,
      "loss": 2.0792,
      "step": 866
    },
    {
      "epoch": 0.39766081871345027,
      "grad_norm": 0.35888123512268066,
      "learning_rate": 0.0006863536999494101,
      "loss": 2.1674,
      "step": 867
    },
    {
      "epoch": 0.39811948171081296,
      "grad_norm": 0.3924383521080017,
      "learning_rate": 0.0006856639869747167,
      "loss": 2.0244,
      "step": 868
    },
    {
      "epoch": 0.39857814470817565,
      "grad_norm": 0.4148073196411133,
      "learning_rate": 0.0006849738639683818,
      "loss": 2.1234,
      "step": 869
    },
    {
      "epoch": 0.39903680770553834,
      "grad_norm": 0.3219050168991089,
      "learning_rate": 0.000684283332454515,
      "loss": 2.053,
      "step": 870
    },
    {
      "epoch": 0.39949547070290103,
      "grad_norm": 0.38177937269210815,
      "learning_rate": 0.0006835923939581281,
      "loss": 2.2082,
      "step": 871
    },
    {
      "epoch": 0.3999541337002637,
      "grad_norm": 0.41047754883766174,
      "learning_rate": 0.0006829010500051318,
      "loss": 2.0949,
      "step": 872
    },
    {
      "epoch": 0.4004127966976264,
      "grad_norm": 0.331960529088974,
      "learning_rate": 0.0006822093021223321,
      "loss": 2.108,
      "step": 873
    },
    {
      "epoch": 0.4008714596949891,
      "grad_norm": 0.34398970007896423,
      "learning_rate": 0.0006815171518374268,
      "loss": 2.0588,
      "step": 874
    },
    {
      "epoch": 0.4013301226923518,
      "grad_norm": 0.3482072353363037,
      "learning_rate": 0.0006808246006790031,
      "loss": 2.0929,
      "step": 875
    },
    {
      "epoch": 0.4017887856897145,
      "grad_norm": 0.3934686779975891,
      "learning_rate": 0.0006801316501765329,
      "loss": 2.1449,
      "step": 876
    },
    {
      "epoch": 0.4022474486870772,
      "grad_norm": 0.37594497203826904,
      "learning_rate": 0.0006794383018603704,
      "loss": 2.1576,
      "step": 877
    },
    {
      "epoch": 0.40270611168443987,
      "grad_norm": 0.36264342069625854,
      "learning_rate": 0.0006787445572617481,
      "loss": 2.0946,
      "step": 878
    },
    {
      "epoch": 0.40316477468180256,
      "grad_norm": 0.39339759945869446,
      "learning_rate": 0.0006780504179127734,
      "loss": 2.1019,
      "step": 879
    },
    {
      "epoch": 0.40362343767916525,
      "grad_norm": 0.4156672954559326,
      "learning_rate": 0.0006773558853464265,
      "loss": 2.0537,
      "step": 880
    },
    {
      "epoch": 0.40408210067652794,
      "grad_norm": 0.35817578434944153,
      "learning_rate": 0.000676660961096555,
      "loss": 2.086,
      "step": 881
    },
    {
      "epoch": 0.40454076367389064,
      "grad_norm": 0.3906148076057434,
      "learning_rate": 0.000675965646697872,
      "loss": 2.0971,
      "step": 882
    },
    {
      "epoch": 0.40499942667125327,
      "grad_norm": 0.41642919182777405,
      "learning_rate": 0.0006752699436859519,
      "loss": 2.0535,
      "step": 883
    },
    {
      "epoch": 0.40545808966861596,
      "grad_norm": 0.3642413318157196,
      "learning_rate": 0.0006745738535972279,
      "loss": 2.1212,
      "step": 884
    },
    {
      "epoch": 0.40591675266597865,
      "grad_norm": 0.3423621952533722,
      "learning_rate": 0.0006738773779689874,
      "loss": 2.0661,
      "step": 885
    },
    {
      "epoch": 0.40637541566334134,
      "grad_norm": 0.37182697653770447,
      "learning_rate": 0.0006731805183393696,
      "loss": 2.0823,
      "step": 886
    },
    {
      "epoch": 0.40683407866070403,
      "grad_norm": 0.3743784725666046,
      "learning_rate": 0.0006724832762473618,
      "loss": 2.0706,
      "step": 887
    },
    {
      "epoch": 0.4072927416580667,
      "grad_norm": 0.3627418279647827,
      "learning_rate": 0.0006717856532327956,
      "loss": 2.0589,
      "step": 888
    },
    {
      "epoch": 0.4077514046554294,
      "grad_norm": 0.3626314401626587,
      "learning_rate": 0.0006710876508363444,
      "loss": 2.1215,
      "step": 889
    },
    {
      "epoch": 0.4082100676527921,
      "grad_norm": 0.3658798635005951,
      "learning_rate": 0.0006703892705995189,
      "loss": 2.1378,
      "step": 890
    },
    {
      "epoch": 0.4086687306501548,
      "grad_norm": 0.3468271791934967,
      "learning_rate": 0.0006696905140646647,
      "loss": 2.0493,
      "step": 891
    },
    {
      "epoch": 0.4091273936475175,
      "grad_norm": 0.33332473039627075,
      "learning_rate": 0.0006689913827749581,
      "loss": 2.095,
      "step": 892
    },
    {
      "epoch": 0.4095860566448802,
      "grad_norm": 0.3641086220741272,
      "learning_rate": 0.0006682918782744032,
      "loss": 1.9209,
      "step": 893
    },
    {
      "epoch": 0.41004471964224287,
      "grad_norm": 0.33342447876930237,
      "learning_rate": 0.0006675920021078282,
      "loss": 2.2318,
      "step": 894
    },
    {
      "epoch": 0.41050338263960556,
      "grad_norm": 0.3273852467536926,
      "learning_rate": 0.0006668917558208823,
      "loss": 2.0757,
      "step": 895
    },
    {
      "epoch": 0.41096204563696825,
      "grad_norm": 0.3356277346611023,
      "learning_rate": 0.0006661911409600321,
      "loss": 2.0941,
      "step": 896
    },
    {
      "epoch": 0.41142070863433094,
      "grad_norm": 0.33972230553627014,
      "learning_rate": 0.0006654901590725577,
      "loss": 2.1316,
      "step": 897
    },
    {
      "epoch": 0.41187937163169364,
      "grad_norm": 0.35121288895606995,
      "learning_rate": 0.0006647888117065507,
      "loss": 2.0629,
      "step": 898
    },
    {
      "epoch": 0.4123380346290563,
      "grad_norm": 0.3587625026702881,
      "learning_rate": 0.0006640871004109086,
      "loss": 2.0536,
      "step": 899
    },
    {
      "epoch": 0.41279669762641896,
      "grad_norm": 0.3578352630138397,
      "learning_rate": 0.000663385026735334,
      "loss": 2.1381,
      "step": 900
    },
    {
      "epoch": 0.41325536062378165,
      "grad_norm": 0.3498476445674896,
      "learning_rate": 0.0006626825922303285,
      "loss": 2.0865,
      "step": 901
    },
    {
      "epoch": 0.41371402362114434,
      "grad_norm": 0.35240456461906433,
      "learning_rate": 0.0006619797984471915,
      "loss": 2.1355,
      "step": 902
    },
    {
      "epoch": 0.41417268661850704,
      "grad_norm": 0.3376311957836151,
      "learning_rate": 0.0006612766469380158,
      "loss": 2.2407,
      "step": 903
    },
    {
      "epoch": 0.4146313496158697,
      "grad_norm": 0.3391268849372864,
      "learning_rate": 0.0006605731392556833,
      "loss": 2.1188,
      "step": 904
    },
    {
      "epoch": 0.4150900126132324,
      "grad_norm": 0.34032732248306274,
      "learning_rate": 0.0006598692769538637,
      "loss": 2.1459,
      "step": 905
    },
    {
      "epoch": 0.4155486756105951,
      "grad_norm": 0.3263927102088928,
      "learning_rate": 0.0006591650615870091,
      "loss": 2.1253,
      "step": 906
    },
    {
      "epoch": 0.4160073386079578,
      "grad_norm": 0.33737894892692566,
      "learning_rate": 0.0006584604947103514,
      "loss": 2.0576,
      "step": 907
    },
    {
      "epoch": 0.4164660016053205,
      "grad_norm": 0.34519463777542114,
      "learning_rate": 0.0006577555778798993,
      "loss": 2.0334,
      "step": 908
    },
    {
      "epoch": 0.4169246646026832,
      "grad_norm": 0.3475133180618286,
      "learning_rate": 0.0006570503126524336,
      "loss": 2.0667,
      "step": 909
    },
    {
      "epoch": 0.4173833276000459,
      "grad_norm": 0.3547500967979431,
      "learning_rate": 0.0006563447005855054,
      "loss": 2.0924,
      "step": 910
    },
    {
      "epoch": 0.41784199059740856,
      "grad_norm": 0.3528784215450287,
      "learning_rate": 0.000655638743237431,
      "loss": 2.1297,
      "step": 911
    },
    {
      "epoch": 0.41830065359477125,
      "grad_norm": 0.3309019207954407,
      "learning_rate": 0.0006549324421672894,
      "loss": 2.1,
      "step": 912
    },
    {
      "epoch": 0.41875931659213395,
      "grad_norm": 0.3650350868701935,
      "learning_rate": 0.0006542257989349194,
      "loss": 2.1321,
      "step": 913
    },
    {
      "epoch": 0.41921797958949664,
      "grad_norm": 0.3485707640647888,
      "learning_rate": 0.0006535188151009142,
      "loss": 2.1542,
      "step": 914
    },
    {
      "epoch": 0.4196766425868593,
      "grad_norm": 0.3230106830596924,
      "learning_rate": 0.0006528114922266204,
      "loss": 2.102,
      "step": 915
    },
    {
      "epoch": 0.420135305584222,
      "grad_norm": 0.3177044093608856,
      "learning_rate": 0.0006521038318741327,
      "loss": 2.0724,
      "step": 916
    },
    {
      "epoch": 0.42059396858158465,
      "grad_norm": 0.30888840556144714,
      "learning_rate": 0.0006513958356062912,
      "loss": 2.0378,
      "step": 917
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 0.33769726753234863,
      "learning_rate": 0.0006506875049866781,
      "loss": 2.1275,
      "step": 918
    },
    {
      "epoch": 0.42151129457631004,
      "grad_norm": 0.36477482318878174,
      "learning_rate": 0.0006499788415796137,
      "loss": 2.0834,
      "step": 919
    },
    {
      "epoch": 0.4219699575736727,
      "grad_norm": 0.31533968448638916,
      "learning_rate": 0.0006492698469501532,
      "loss": 2.1014,
      "step": 920
    },
    {
      "epoch": 0.4224286205710354,
      "grad_norm": 0.3505781292915344,
      "learning_rate": 0.0006485605226640837,
      "loss": 2.1188,
      "step": 921
    },
    {
      "epoch": 0.4228872835683981,
      "grad_norm": 0.3596271276473999,
      "learning_rate": 0.00064785087028792,
      "loss": 2.0514,
      "step": 922
    },
    {
      "epoch": 0.4233459465657608,
      "grad_norm": 0.3418385088443756,
      "learning_rate": 0.0006471408913889019,
      "loss": 2.063,
      "step": 923
    },
    {
      "epoch": 0.4238046095631235,
      "grad_norm": 0.33452945947647095,
      "learning_rate": 0.0006464305875349892,
      "loss": 2.0423,
      "step": 924
    },
    {
      "epoch": 0.4242632725604862,
      "grad_norm": 0.3488513231277466,
      "learning_rate": 0.000645719960294861,
      "loss": 1.9969,
      "step": 925
    },
    {
      "epoch": 0.4247219355578489,
      "grad_norm": 0.3514082729816437,
      "learning_rate": 0.0006450090112379092,
      "loss": 2.0587,
      "step": 926
    },
    {
      "epoch": 0.42518059855521156,
      "grad_norm": 0.33790522813796997,
      "learning_rate": 0.0006442977419342371,
      "loss": 2.0822,
      "step": 927
    },
    {
      "epoch": 0.42563926155257426,
      "grad_norm": 0.32045143842697144,
      "learning_rate": 0.000643586153954655,
      "loss": 2.0611,
      "step": 928
    },
    {
      "epoch": 0.42609792454993695,
      "grad_norm": 0.35221150517463684,
      "learning_rate": 0.0006428742488706772,
      "loss": 2.0034,
      "step": 929
    },
    {
      "epoch": 0.42655658754729964,
      "grad_norm": 0.3239925801753998,
      "learning_rate": 0.0006421620282545182,
      "loss": 2.1409,
      "step": 930
    },
    {
      "epoch": 0.42701525054466233,
      "grad_norm": 0.3481070399284363,
      "learning_rate": 0.0006414494936790892,
      "loss": 2.0731,
      "step": 931
    },
    {
      "epoch": 0.427473913542025,
      "grad_norm": 0.34461385011672974,
      "learning_rate": 0.0006407366467179951,
      "loss": 2.155,
      "step": 932
    },
    {
      "epoch": 0.4279325765393877,
      "grad_norm": 0.3170761168003082,
      "learning_rate": 0.0006400234889455301,
      "loss": 2.1286,
      "step": 933
    },
    {
      "epoch": 0.42839123953675035,
      "grad_norm": 0.3332776129245758,
      "learning_rate": 0.0006393100219366755,
      "loss": 2.0555,
      "step": 934
    },
    {
      "epoch": 0.42884990253411304,
      "grad_norm": 0.3170875906944275,
      "learning_rate": 0.0006385962472670953,
      "loss": 2.0946,
      "step": 935
    },
    {
      "epoch": 0.4293085655314757,
      "grad_norm": 0.3221431374549866,
      "learning_rate": 0.0006378821665131328,
      "loss": 2.1605,
      "step": 936
    },
    {
      "epoch": 0.4297672285288384,
      "grad_norm": 0.3256974220275879,
      "learning_rate": 0.0006371677812518072,
      "loss": 2.0929,
      "step": 937
    },
    {
      "epoch": 0.4302258915262011,
      "grad_norm": 0.310409814119339,
      "learning_rate": 0.0006364530930608107,
      "loss": 2.112,
      "step": 938
    },
    {
      "epoch": 0.4306845545235638,
      "grad_norm": 0.3193571865558624,
      "learning_rate": 0.0006357381035185038,
      "loss": 2.1236,
      "step": 939
    },
    {
      "epoch": 0.4311432175209265,
      "grad_norm": 0.31973686814308167,
      "learning_rate": 0.0006350228142039131,
      "loss": 2.1028,
      "step": 940
    },
    {
      "epoch": 0.4316018805182892,
      "grad_norm": 0.3171667754650116,
      "learning_rate": 0.000634307226696727,
      "loss": 2.178,
      "step": 941
    },
    {
      "epoch": 0.4320605435156519,
      "grad_norm": 0.33629530668258667,
      "learning_rate": 0.0006335913425772926,
      "loss": 1.9958,
      "step": 942
    },
    {
      "epoch": 0.43251920651301456,
      "grad_norm": 0.3433871567249298,
      "learning_rate": 0.0006328751634266117,
      "loss": 2.0975,
      "step": 943
    },
    {
      "epoch": 0.43297786951037726,
      "grad_norm": 0.3379513919353485,
      "learning_rate": 0.0006321586908263382,
      "loss": 2.1431,
      "step": 944
    },
    {
      "epoch": 0.43343653250773995,
      "grad_norm": 0.32575714588165283,
      "learning_rate": 0.0006314419263587732,
      "loss": 2.0767,
      "step": 945
    },
    {
      "epoch": 0.43389519550510264,
      "grad_norm": 0.35798022150993347,
      "learning_rate": 0.0006307248716068637,
      "loss": 1.9439,
      "step": 946
    },
    {
      "epoch": 0.43435385850246533,
      "grad_norm": 0.3583523631095886,
      "learning_rate": 0.0006300075281541964,
      "loss": 2.2128,
      "step": 947
    },
    {
      "epoch": 0.434812521499828,
      "grad_norm": 0.3807770013809204,
      "learning_rate": 0.0006292898975849966,
      "loss": 2.0952,
      "step": 948
    },
    {
      "epoch": 0.4352711844971907,
      "grad_norm": 0.3538731336593628,
      "learning_rate": 0.000628571981484123,
      "loss": 2.2123,
      "step": 949
    },
    {
      "epoch": 0.4357298474945534,
      "grad_norm": 0.3483183979988098,
      "learning_rate": 0.0006278537814370654,
      "loss": 2.1125,
      "step": 950
    },
    {
      "epoch": 0.43618851049191604,
      "grad_norm": 0.32220688462257385,
      "learning_rate": 0.0006271352990299406,
      "loss": 2.0433,
      "step": 951
    },
    {
      "epoch": 0.43664717348927873,
      "grad_norm": 0.3248353898525238,
      "learning_rate": 0.0006264165358494885,
      "loss": 2.1218,
      "step": 952
    },
    {
      "epoch": 0.4371058364866414,
      "grad_norm": 0.33284059166908264,
      "learning_rate": 0.0006256974934830694,
      "loss": 2.0396,
      "step": 953
    },
    {
      "epoch": 0.4375644994840041,
      "grad_norm": 0.33187970519065857,
      "learning_rate": 0.0006249781735186606,
      "loss": 2.0999,
      "step": 954
    },
    {
      "epoch": 0.4380231624813668,
      "grad_norm": 0.31641530990600586,
      "learning_rate": 0.0006242585775448518,
      "loss": 2.0211,
      "step": 955
    },
    {
      "epoch": 0.4384818254787295,
      "grad_norm": 0.3434162437915802,
      "learning_rate": 0.0006235387071508427,
      "loss": 2.111,
      "step": 956
    },
    {
      "epoch": 0.4389404884760922,
      "grad_norm": 0.33513566851615906,
      "learning_rate": 0.0006228185639264384,
      "loss": 2.053,
      "step": 957
    },
    {
      "epoch": 0.4393991514734549,
      "grad_norm": 0.351050466299057,
      "learning_rate": 0.0006220981494620475,
      "loss": 2.156,
      "step": 958
    },
    {
      "epoch": 0.43985781447081757,
      "grad_norm": 0.31466835737228394,
      "learning_rate": 0.000621377465348677,
      "loss": 2.0404,
      "step": 959
    },
    {
      "epoch": 0.44031647746818026,
      "grad_norm": 0.34397128224372864,
      "learning_rate": 0.0006206565131779293,
      "loss": 2.1238,
      "step": 960
    },
    {
      "epoch": 0.44077514046554295,
      "grad_norm": 0.3719693124294281,
      "learning_rate": 0.0006199352945419994,
      "loss": 2.0913,
      "step": 961
    },
    {
      "epoch": 0.44123380346290564,
      "grad_norm": 0.33458587527275085,
      "learning_rate": 0.00061921381103367,
      "loss": 2.0831,
      "step": 962
    },
    {
      "epoch": 0.44169246646026833,
      "grad_norm": 0.3482705354690552,
      "learning_rate": 0.0006184920642463094,
      "loss": 2.1128,
      "step": 963
    },
    {
      "epoch": 0.442151129457631,
      "grad_norm": 0.3350922763347626,
      "learning_rate": 0.0006177700557738672,
      "loss": 2.0545,
      "step": 964
    },
    {
      "epoch": 0.4426097924549937,
      "grad_norm": 0.3434416651725769,
      "learning_rate": 0.0006170477872108706,
      "loss": 2.1027,
      "step": 965
    },
    {
      "epoch": 0.4430684554523564,
      "grad_norm": 0.3360196650028229,
      "learning_rate": 0.0006163252601524216,
      "loss": 2.1258,
      "step": 966
    },
    {
      "epoch": 0.4435271184497191,
      "grad_norm": 0.3162725269794464,
      "learning_rate": 0.0006156024761941925,
      "loss": 2.1229,
      "step": 967
    },
    {
      "epoch": 0.4439857814470818,
      "grad_norm": 0.3126562237739563,
      "learning_rate": 0.000614879436932424,
      "loss": 2.058,
      "step": 968
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.3328894376754761,
      "learning_rate": 0.0006141561439639196,
      "loss": 2.0701,
      "step": 969
    },
    {
      "epoch": 0.4449031074418071,
      "grad_norm": 0.3222295343875885,
      "learning_rate": 0.0006134325988860433,
      "loss": 2.0773,
      "step": 970
    },
    {
      "epoch": 0.4453617704391698,
      "grad_norm": 0.3262004554271698,
      "learning_rate": 0.0006127088032967165,
      "loss": 2.0838,
      "step": 971
    },
    {
      "epoch": 0.4458204334365325,
      "grad_norm": 0.33280521631240845,
      "learning_rate": 0.0006119847587944131,
      "loss": 2.1003,
      "step": 972
    },
    {
      "epoch": 0.4462790964338952,
      "grad_norm": 0.3591703772544861,
      "learning_rate": 0.0006112604669781572,
      "loss": 2.2057,
      "step": 973
    },
    {
      "epoch": 0.4467377594312579,
      "grad_norm": 0.3274255096912384,
      "learning_rate": 0.0006105359294475188,
      "loss": 2.0711,
      "step": 974
    },
    {
      "epoch": 0.44719642242862057,
      "grad_norm": 0.32709333300590515,
      "learning_rate": 0.0006098111478026107,
      "loss": 2.1756,
      "step": 975
    },
    {
      "epoch": 0.44765508542598326,
      "grad_norm": 0.3417246639728546,
      "learning_rate": 0.0006090861236440848,
      "loss": 2.0547,
      "step": 976
    },
    {
      "epoch": 0.44811374842334595,
      "grad_norm": 0.35414525866508484,
      "learning_rate": 0.0006083608585731282,
      "loss": 2.076,
      "step": 977
    },
    {
      "epoch": 0.44857241142070864,
      "grad_norm": 0.3203308582305908,
      "learning_rate": 0.0006076353541914609,
      "loss": 2.1033,
      "step": 978
    },
    {
      "epoch": 0.44903107441807133,
      "grad_norm": 0.323953777551651,
      "learning_rate": 0.0006069096121013307,
      "loss": 2.0567,
      "step": 979
    },
    {
      "epoch": 0.449489737415434,
      "grad_norm": 0.34025901556015015,
      "learning_rate": 0.0006061836339055105,
      "loss": 2.0963,
      "step": 980
    },
    {
      "epoch": 0.4499484004127967,
      "grad_norm": 0.36312997341156006,
      "learning_rate": 0.0006054574212072948,
      "loss": 2.0859,
      "step": 981
    },
    {
      "epoch": 0.4504070634101594,
      "grad_norm": 0.3367917537689209,
      "learning_rate": 0.0006047309756104958,
      "loss": 2.0766,
      "step": 982
    },
    {
      "epoch": 0.4508657264075221,
      "grad_norm": 0.33032965660095215,
      "learning_rate": 0.00060400429871944,
      "loss": 2.0576,
      "step": 983
    },
    {
      "epoch": 0.4513243894048848,
      "grad_norm": 0.3671623766422272,
      "learning_rate": 0.0006032773921389654,
      "loss": 2.1146,
      "step": 984
    },
    {
      "epoch": 0.4517830524022475,
      "grad_norm": 0.3291915953159332,
      "learning_rate": 0.0006025502574744162,
      "loss": 2.0562,
      "step": 985
    },
    {
      "epoch": 0.4522417153996101,
      "grad_norm": 0.384892076253891,
      "learning_rate": 0.000601822896331641,
      "loss": 2.0699,
      "step": 986
    },
    {
      "epoch": 0.4527003783969728,
      "grad_norm": 0.3329211473464966,
      "learning_rate": 0.0006010953103169883,
      "loss": 2.1148,
      "step": 987
    },
    {
      "epoch": 0.4531590413943355,
      "grad_norm": 0.3524325489997864,
      "learning_rate": 0.0006003675010373034,
      "loss": 2.1166,
      "step": 988
    },
    {
      "epoch": 0.4536177043916982,
      "grad_norm": 0.31630855798721313,
      "learning_rate": 0.0005996394700999246,
      "loss": 2.0316,
      "step": 989
    },
    {
      "epoch": 0.4540763673890609,
      "grad_norm": 0.3303554654121399,
      "learning_rate": 0.0005989112191126794,
      "loss": 2.0189,
      "step": 990
    },
    {
      "epoch": 0.45453503038642357,
      "grad_norm": 0.3555380702018738,
      "learning_rate": 0.0005981827496838822,
      "loss": 2.1025,
      "step": 991
    },
    {
      "epoch": 0.45499369338378626,
      "grad_norm": 0.3667104244232178,
      "learning_rate": 0.0005974540634223286,
      "loss": 2.1261,
      "step": 992
    },
    {
      "epoch": 0.45545235638114895,
      "grad_norm": 0.3697599172592163,
      "learning_rate": 0.0005967251619372939,
      "loss": 2.1341,
      "step": 993
    },
    {
      "epoch": 0.45591101937851164,
      "grad_norm": 0.362811803817749,
      "learning_rate": 0.0005959960468385284,
      "loss": 2.041,
      "step": 994
    },
    {
      "epoch": 0.45636968237587433,
      "grad_norm": 0.3458218574523926,
      "learning_rate": 0.0005952667197362542,
      "loss": 2.0957,
      "step": 995
    },
    {
      "epoch": 0.456828345373237,
      "grad_norm": 0.3453145921230316,
      "learning_rate": 0.0005945371822411621,
      "loss": 2.013,
      "step": 996
    },
    {
      "epoch": 0.4572870083705997,
      "grad_norm": 0.3274311125278473,
      "learning_rate": 0.0005938074359644063,
      "loss": 2.0987,
      "step": 997
    },
    {
      "epoch": 0.4577456713679624,
      "grad_norm": 0.34158778190612793,
      "learning_rate": 0.0005930774825176034,
      "loss": 2.0876,
      "step": 998
    },
    {
      "epoch": 0.4582043343653251,
      "grad_norm": 0.35988640785217285,
      "learning_rate": 0.0005923473235128268,
      "loss": 2.0584,
      "step": 999
    },
    {
      "epoch": 0.4586629973626878,
      "grad_norm": 0.3234139680862427,
      "learning_rate": 0.0005916169605626042,
      "loss": 2.0903,
      "step": 1000
    },
    {
      "epoch": 0.4591216603600505,
      "grad_norm": 0.3330678641796112,
      "learning_rate": 0.0005908863952799134,
      "loss": 2.0658,
      "step": 1001
    },
    {
      "epoch": 0.45958032335741317,
      "grad_norm": 0.3198998272418976,
      "learning_rate": 0.0005901556292781793,
      "loss": 2.0377,
      "step": 1002
    },
    {
      "epoch": 0.4600389863547758,
      "grad_norm": 0.3370431959629059,
      "learning_rate": 0.0005894246641712698,
      "loss": 2.1094,
      "step": 1003
    },
    {
      "epoch": 0.4604976493521385,
      "grad_norm": 0.3223797678947449,
      "learning_rate": 0.0005886935015734931,
      "loss": 2.0463,
      "step": 1004
    },
    {
      "epoch": 0.4609563123495012,
      "grad_norm": 0.32388433814048767,
      "learning_rate": 0.0005879621430995928,
      "loss": 2.1219,
      "step": 1005
    },
    {
      "epoch": 0.4614149753468639,
      "grad_norm": 0.3100282847881317,
      "learning_rate": 0.0005872305903647455,
      "loss": 2.0616,
      "step": 1006
    },
    {
      "epoch": 0.46187363834422657,
      "grad_norm": 0.32032549381256104,
      "learning_rate": 0.0005864988449845569,
      "loss": 2.1284,
      "step": 1007
    },
    {
      "epoch": 0.46233230134158926,
      "grad_norm": 0.32279571890830994,
      "learning_rate": 0.0005857669085750578,
      "loss": 2.1273,
      "step": 1008
    },
    {
      "epoch": 0.46279096433895195,
      "grad_norm": 0.3140479624271393,
      "learning_rate": 0.0005850347827527013,
      "loss": 2.028,
      "step": 1009
    },
    {
      "epoch": 0.46324962733631464,
      "grad_norm": 0.3375527560710907,
      "learning_rate": 0.0005843024691343584,
      "loss": 2.0662,
      "step": 1010
    },
    {
      "epoch": 0.46370829033367733,
      "grad_norm": 0.32852301001548767,
      "learning_rate": 0.000583569969337315,
      "loss": 2.0522,
      "step": 1011
    },
    {
      "epoch": 0.46416695333104,
      "grad_norm": 0.33057352900505066,
      "learning_rate": 0.0005828372849792686,
      "loss": 2.0928,
      "step": 1012
    },
    {
      "epoch": 0.4646256163284027,
      "grad_norm": 0.3546825051307678,
      "learning_rate": 0.0005821044176783234,
      "loss": 2.0765,
      "step": 1013
    },
    {
      "epoch": 0.4650842793257654,
      "grad_norm": 0.3288014829158783,
      "learning_rate": 0.0005813713690529886,
      "loss": 2.1377,
      "step": 1014
    },
    {
      "epoch": 0.4655429423231281,
      "grad_norm": 0.31927019357681274,
      "learning_rate": 0.0005806381407221729,
      "loss": 2.0599,
      "step": 1015
    },
    {
      "epoch": 0.4660016053204908,
      "grad_norm": 0.33202093839645386,
      "learning_rate": 0.0005799047343051826,
      "loss": 2.1098,
      "step": 1016
    },
    {
      "epoch": 0.4664602683178535,
      "grad_norm": 0.3415454030036926,
      "learning_rate": 0.0005791711514217171,
      "loss": 2.111,
      "step": 1017
    },
    {
      "epoch": 0.46691893131521617,
      "grad_norm": 0.3206201195716858,
      "learning_rate": 0.0005784373936918654,
      "loss": 2.1184,
      "step": 1018
    },
    {
      "epoch": 0.46737759431257886,
      "grad_norm": 0.36004066467285156,
      "learning_rate": 0.0005777034627361025,
      "loss": 1.9943,
      "step": 1019
    },
    {
      "epoch": 0.4678362573099415,
      "grad_norm": 0.3525856137275696,
      "learning_rate": 0.0005769693601752864,
      "loss": 2.1652,
      "step": 1020
    },
    {
      "epoch": 0.4682949203073042,
      "grad_norm": 0.32002657651901245,
      "learning_rate": 0.0005762350876306537,
      "loss": 2.0986,
      "step": 1021
    },
    {
      "epoch": 0.4687535833046669,
      "grad_norm": 0.31593844294548035,
      "learning_rate": 0.0005755006467238168,
      "loss": 2.0854,
      "step": 1022
    },
    {
      "epoch": 0.46921224630202957,
      "grad_norm": 0.32070237398147583,
      "learning_rate": 0.0005747660390767593,
      "loss": 2.0358,
      "step": 1023
    },
    {
      "epoch": 0.46967090929939226,
      "grad_norm": 0.3374745547771454,
      "learning_rate": 0.0005740312663118338,
      "loss": 2.0391,
      "step": 1024
    },
    {
      "epoch": 0.47012957229675495,
      "grad_norm": 0.341464102268219,
      "learning_rate": 0.0005732963300517568,
      "loss": 2.1753,
      "step": 1025
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.32433250546455383,
      "learning_rate": 0.0005725612319196064,
      "loss": 2.0746,
      "step": 1026
    },
    {
      "epoch": 0.47104689829148033,
      "grad_norm": 0.3336988389492035,
      "learning_rate": 0.000571825973538818,
      "loss": 2.085,
      "step": 1027
    },
    {
      "epoch": 0.471505561288843,
      "grad_norm": 0.3074187934398651,
      "learning_rate": 0.0005710905565331811,
      "loss": 2.121,
      "step": 1028
    },
    {
      "epoch": 0.4719642242862057,
      "grad_norm": 0.33743688464164734,
      "learning_rate": 0.0005703549825268353,
      "loss": 2.0658,
      "step": 1029
    },
    {
      "epoch": 0.4724228872835684,
      "grad_norm": 0.3317243456840515,
      "learning_rate": 0.0005696192531442667,
      "loss": 2.1777,
      "step": 1030
    },
    {
      "epoch": 0.4728815502809311,
      "grad_norm": 0.33290478587150574,
      "learning_rate": 0.000568883370010305,
      "loss": 2.2672,
      "step": 1031
    },
    {
      "epoch": 0.4733402132782938,
      "grad_norm": 0.3233533799648285,
      "learning_rate": 0.0005681473347501192,
      "loss": 2.0264,
      "step": 1032
    },
    {
      "epoch": 0.4737988762756565,
      "grad_norm": 0.3484541177749634,
      "learning_rate": 0.0005674111489892144,
      "loss": 2.0978,
      "step": 1033
    },
    {
      "epoch": 0.47425753927301917,
      "grad_norm": 0.32881543040275574,
      "learning_rate": 0.0005666748143534282,
      "loss": 2.0699,
      "step": 1034
    },
    {
      "epoch": 0.47471620227038186,
      "grad_norm": 0.34701159596443176,
      "learning_rate": 0.0005659383324689266,
      "loss": 2.0779,
      "step": 1035
    },
    {
      "epoch": 0.47517486526774455,
      "grad_norm": 0.3324374258518219,
      "learning_rate": 0.0005652017049622007,
      "loss": 2.0613,
      "step": 1036
    },
    {
      "epoch": 0.4756335282651072,
      "grad_norm": 0.3316909074783325,
      "learning_rate": 0.0005644649334600641,
      "loss": 2.1541,
      "step": 1037
    },
    {
      "epoch": 0.4760921912624699,
      "grad_norm": 0.3478340804576874,
      "learning_rate": 0.0005637280195896474,
      "loss": 2.1578,
      "step": 1038
    },
    {
      "epoch": 0.47655085425983257,
      "grad_norm": 0.3424718976020813,
      "learning_rate": 0.0005629909649783961,
      "loss": 2.2129,
      "step": 1039
    },
    {
      "epoch": 0.47700951725719526,
      "grad_norm": 0.30992257595062256,
      "learning_rate": 0.0005622537712540664,
      "loss": 2.0793,
      "step": 1040
    },
    {
      "epoch": 0.47746818025455795,
      "grad_norm": 0.3698476254940033,
      "learning_rate": 0.0005615164400447218,
      "loss": 2.0975,
      "step": 1041
    },
    {
      "epoch": 0.47792684325192064,
      "grad_norm": 0.33917322754859924,
      "learning_rate": 0.0005607789729787294,
      "loss": 2.0306,
      "step": 1042
    },
    {
      "epoch": 0.47838550624928333,
      "grad_norm": 0.3800293207168579,
      "learning_rate": 0.0005600413716847564,
      "loss": 2.0435,
      "step": 1043
    },
    {
      "epoch": 0.478844169246646,
      "grad_norm": 0.3281099796295166,
      "learning_rate": 0.000559303637791766,
      "loss": 2.0822,
      "step": 1044
    },
    {
      "epoch": 0.4793028322440087,
      "grad_norm": 0.33837077021598816,
      "learning_rate": 0.0005585657729290151,
      "loss": 2.0787,
      "step": 1045
    },
    {
      "epoch": 0.4797614952413714,
      "grad_norm": 0.32669878005981445,
      "learning_rate": 0.000557827778726049,
      "loss": 2.041,
      "step": 1046
    },
    {
      "epoch": 0.4802201582387341,
      "grad_norm": 0.35801008343696594,
      "learning_rate": 0.0005570896568126993,
      "loss": 2.0474,
      "step": 1047
    },
    {
      "epoch": 0.4806788212360968,
      "grad_norm": 0.3367548882961273,
      "learning_rate": 0.0005563514088190788,
      "loss": 2.0297,
      "step": 1048
    },
    {
      "epoch": 0.4811374842334595,
      "grad_norm": 0.34995779395103455,
      "learning_rate": 0.0005556130363755798,
      "loss": 1.9451,
      "step": 1049
    },
    {
      "epoch": 0.48159614723082217,
      "grad_norm": 0.3339768648147583,
      "learning_rate": 0.0005548745411128688,
      "loss": 2.0484,
      "step": 1050
    },
    {
      "epoch": 0.48205481022818486,
      "grad_norm": 0.4005752503871918,
      "learning_rate": 0.0005541359246618835,
      "loss": 2.1347,
      "step": 1051
    },
    {
      "epoch": 0.48251347322554755,
      "grad_norm": 0.3528960347175598,
      "learning_rate": 0.0005533971886538293,
      "loss": 2.1224,
      "step": 1052
    },
    {
      "epoch": 0.48297213622291024,
      "grad_norm": 0.3447176218032837,
      "learning_rate": 0.000552658334720176,
      "loss": 2.0305,
      "step": 1053
    },
    {
      "epoch": 0.4834307992202729,
      "grad_norm": 0.37458544969558716,
      "learning_rate": 0.0005519193644926535,
      "loss": 2.0503,
      "step": 1054
    },
    {
      "epoch": 0.48388946221763557,
      "grad_norm": 0.3884504735469818,
      "learning_rate": 0.0005511802796032485,
      "loss": 2.0508,
      "step": 1055
    },
    {
      "epoch": 0.48434812521499826,
      "grad_norm": 0.3380606174468994,
      "learning_rate": 0.0005504410816842009,
      "loss": 2.0426,
      "step": 1056
    },
    {
      "epoch": 0.48480678821236095,
      "grad_norm": 0.34468889236450195,
      "learning_rate": 0.0005497017723680009,
      "loss": 2.0697,
      "step": 1057
    },
    {
      "epoch": 0.48526545120972364,
      "grad_norm": 0.38857582211494446,
      "learning_rate": 0.0005489623532873836,
      "loss": 2.0953,
      "step": 1058
    },
    {
      "epoch": 0.48572411420708633,
      "grad_norm": 0.35281017422676086,
      "learning_rate": 0.0005482228260753273,
      "loss": 2.143,
      "step": 1059
    },
    {
      "epoch": 0.486182777204449,
      "grad_norm": 0.35587772727012634,
      "learning_rate": 0.0005474831923650488,
      "loss": 2.0406,
      "step": 1060
    },
    {
      "epoch": 0.4866414402018117,
      "grad_norm": 0.35474324226379395,
      "learning_rate": 0.00054674345379,
      "loss": 2.0863,
      "step": 1061
    },
    {
      "epoch": 0.4871001031991744,
      "grad_norm": 0.34438711404800415,
      "learning_rate": 0.000546003611983865,
      "loss": 2.0359,
      "step": 1062
    },
    {
      "epoch": 0.4875587661965371,
      "grad_norm": 0.31599679589271545,
      "learning_rate": 0.0005452636685805552,
      "loss": 2.2059,
      "step": 1063
    },
    {
      "epoch": 0.4880174291938998,
      "grad_norm": 0.33331581950187683,
      "learning_rate": 0.0005445236252142066,
      "loss": 2.0853,
      "step": 1064
    },
    {
      "epoch": 0.4884760921912625,
      "grad_norm": 0.34547045826911926,
      "learning_rate": 0.000543783483519176,
      "loss": 2.0318,
      "step": 1065
    },
    {
      "epoch": 0.48893475518862517,
      "grad_norm": 0.3122957944869995,
      "learning_rate": 0.0005430432451300374,
      "loss": 2.0325,
      "step": 1066
    },
    {
      "epoch": 0.48939341818598786,
      "grad_norm": 0.3183017373085022,
      "learning_rate": 0.0005423029116815781,
      "loss": 2.0864,
      "step": 1067
    },
    {
      "epoch": 0.48985208118335055,
      "grad_norm": 0.3196617066860199,
      "learning_rate": 0.0005415624848087959,
      "loss": 2.1501,
      "step": 1068
    },
    {
      "epoch": 0.49031074418071324,
      "grad_norm": 0.3186993896961212,
      "learning_rate": 0.000540821966146894,
      "loss": 2.0305,
      "step": 1069
    },
    {
      "epoch": 0.49076940717807593,
      "grad_norm": 0.37272006273269653,
      "learning_rate": 0.0005400813573312793,
      "loss": 2.1084,
      "step": 1070
    },
    {
      "epoch": 0.49122807017543857,
      "grad_norm": 0.3183630704879761,
      "learning_rate": 0.0005393406599975572,
      "loss": 2.1109,
      "step": 1071
    },
    {
      "epoch": 0.49168673317280126,
      "grad_norm": 0.33011817932128906,
      "learning_rate": 0.0005385998757815287,
      "loss": 2.0479,
      "step": 1072
    },
    {
      "epoch": 0.49214539617016395,
      "grad_norm": 0.32248103618621826,
      "learning_rate": 0.0005378590063191867,
      "loss": 2.0938,
      "step": 1073
    },
    {
      "epoch": 0.49260405916752664,
      "grad_norm": 0.33877986669540405,
      "learning_rate": 0.0005371180532467124,
      "loss": 2.0478,
      "step": 1074
    },
    {
      "epoch": 0.49306272216488933,
      "grad_norm": 0.3537540137767792,
      "learning_rate": 0.000536377018200472,
      "loss": 2.0691,
      "step": 1075
    },
    {
      "epoch": 0.493521385162252,
      "grad_norm": 0.3470735251903534,
      "learning_rate": 0.0005356359028170118,
      "loss": 2.1158,
      "step": 1076
    },
    {
      "epoch": 0.4939800481596147,
      "grad_norm": 0.33415403962135315,
      "learning_rate": 0.0005348947087330564,
      "loss": 2.1393,
      "step": 1077
    },
    {
      "epoch": 0.4944387111569774,
      "grad_norm": 0.3339322507381439,
      "learning_rate": 0.0005341534375855037,
      "loss": 2.0761,
      "step": 1078
    },
    {
      "epoch": 0.4948973741543401,
      "grad_norm": 0.31422480940818787,
      "learning_rate": 0.0005334120910114222,
      "loss": 2.0363,
      "step": 1079
    },
    {
      "epoch": 0.4953560371517028,
      "grad_norm": 0.3334939181804657,
      "learning_rate": 0.0005326706706480467,
      "loss": 2.0125,
      "step": 1080
    },
    {
      "epoch": 0.4958147001490655,
      "grad_norm": 0.3295612037181854,
      "learning_rate": 0.0005319291781327749,
      "loss": 2.0912,
      "step": 1081
    },
    {
      "epoch": 0.49627336314642817,
      "grad_norm": 0.31811410188674927,
      "learning_rate": 0.0005311876151031642,
      "loss": 2.027,
      "step": 1082
    },
    {
      "epoch": 0.49673202614379086,
      "grad_norm": 0.33560338616371155,
      "learning_rate": 0.0005304459831969274,
      "loss": 2.054,
      "step": 1083
    },
    {
      "epoch": 0.49719068914115355,
      "grad_norm": 0.31452664732933044,
      "learning_rate": 0.0005297042840519294,
      "loss": 2.0384,
      "step": 1084
    },
    {
      "epoch": 0.49764935213851624,
      "grad_norm": 0.378431111574173,
      "learning_rate": 0.0005289625193061838,
      "loss": 2.0466,
      "step": 1085
    },
    {
      "epoch": 0.49810801513587893,
      "grad_norm": 0.33948642015457153,
      "learning_rate": 0.0005282206905978489,
      "loss": 2.0512,
      "step": 1086
    },
    {
      "epoch": 0.4985666781332416,
      "grad_norm": 0.32961899042129517,
      "learning_rate": 0.0005274787995652246,
      "loss": 2.0331,
      "step": 1087
    },
    {
      "epoch": 0.49902534113060426,
      "grad_norm": 0.3393039107322693,
      "learning_rate": 0.000526736847846748,
      "loss": 2.0929,
      "step": 1088
    },
    {
      "epoch": 0.49948400412796695,
      "grad_norm": 0.36358174681663513,
      "learning_rate": 0.0005259948370809901,
      "loss": 2.1183,
      "step": 1089
    },
    {
      "epoch": 0.49994266712532964,
      "grad_norm": 0.31007716059684753,
      "learning_rate": 0.0005252527689066533,
      "loss": 2.0774,
      "step": 1090
    },
    {
      "epoch": 0.5004013301226924,
      "grad_norm": 0.3612062335014343,
      "learning_rate": 0.0005245106449625654,
      "loss": 2.0413,
      "step": 1091
    },
    {
      "epoch": 0.500859993120055,
      "grad_norm": 0.33148691058158875,
      "learning_rate": 0.0005237684668876785,
      "loss": 2.15,
      "step": 1092
    },
    {
      "epoch": 0.5013186561174178,
      "grad_norm": 0.3450016379356384,
      "learning_rate": 0.0005230262363210637,
      "loss": 2.1269,
      "step": 1093
    },
    {
      "epoch": 0.5017773191147804,
      "grad_norm": 0.3442947566509247,
      "learning_rate": 0.0005222839549019079,
      "loss": 2.0475,
      "step": 1094
    },
    {
      "epoch": 0.5022359821121432,
      "grad_norm": 0.3424609899520874,
      "learning_rate": 0.0005215416242695108,
      "loss": 2.1052,
      "step": 1095
    },
    {
      "epoch": 0.5026946451095058,
      "grad_norm": 0.3181006908416748,
      "learning_rate": 0.0005207992460632804,
      "loss": 2.0015,
      "step": 1096
    },
    {
      "epoch": 0.5031533081068684,
      "grad_norm": 0.32771992683410645,
      "learning_rate": 0.0005200568219227299,
      "loss": 2.0957,
      "step": 1097
    },
    {
      "epoch": 0.5036119711042312,
      "grad_norm": 0.36546432971954346,
      "learning_rate": 0.000519314353487474,
      "loss": 2.103,
      "step": 1098
    },
    {
      "epoch": 0.5040706341015938,
      "grad_norm": 0.3485758900642395,
      "learning_rate": 0.0005185718423972251,
      "loss": 2.1398,
      "step": 1099
    },
    {
      "epoch": 0.5045292970989566,
      "grad_norm": 0.33049795031547546,
      "learning_rate": 0.0005178292902917898,
      "loss": 2.103,
      "step": 1100
    },
    {
      "epoch": 0.5049879600963192,
      "grad_norm": 0.3509802222251892,
      "learning_rate": 0.0005170866988110656,
      "loss": 2.0061,
      "step": 1101
    },
    {
      "epoch": 0.5054466230936819,
      "grad_norm": 0.33981195092201233,
      "learning_rate": 0.0005163440695950362,
      "loss": 2.0293,
      "step": 1102
    },
    {
      "epoch": 0.5059052860910446,
      "grad_norm": 0.34483832120895386,
      "learning_rate": 0.0005156014042837695,
      "loss": 2.1375,
      "step": 1103
    },
    {
      "epoch": 0.5063639490884073,
      "grad_norm": 0.3817809820175171,
      "learning_rate": 0.0005148587045174128,
      "loss": 2.0555,
      "step": 1104
    },
    {
      "epoch": 0.50682261208577,
      "grad_norm": 0.3163781464099884,
      "learning_rate": 0.0005141159719361891,
      "loss": 2.0775,
      "step": 1105
    },
    {
      "epoch": 0.5072812750831327,
      "grad_norm": 0.34417012333869934,
      "learning_rate": 0.0005133732081803945,
      "loss": 2.0396,
      "step": 1106
    },
    {
      "epoch": 0.5077399380804953,
      "grad_norm": 0.36784377694129944,
      "learning_rate": 0.0005126304148903936,
      "loss": 2.1537,
      "step": 1107
    },
    {
      "epoch": 0.5081986010778581,
      "grad_norm": 0.35191094875335693,
      "learning_rate": 0.0005118875937066161,
      "loss": 2.1034,
      "step": 1108
    },
    {
      "epoch": 0.5086572640752207,
      "grad_norm": 0.32924872636795044,
      "learning_rate": 0.0005111447462695537,
      "loss": 2.0543,
      "step": 1109
    },
    {
      "epoch": 0.5091159270725835,
      "grad_norm": 0.32911553978919983,
      "learning_rate": 0.0005104018742197557,
      "loss": 2.02,
      "step": 1110
    },
    {
      "epoch": 0.5095745900699461,
      "grad_norm": 0.4144698679447174,
      "learning_rate": 0.0005096589791978261,
      "loss": 2.1264,
      "step": 1111
    },
    {
      "epoch": 0.5100332530673088,
      "grad_norm": 0.34833770990371704,
      "learning_rate": 0.0005089160628444192,
      "loss": 2.1164,
      "step": 1112
    },
    {
      "epoch": 0.5104919160646715,
      "grad_norm": 0.3227241337299347,
      "learning_rate": 0.0005081731268002371,
      "loss": 2.0143,
      "step": 1113
    },
    {
      "epoch": 0.5109505790620341,
      "grad_norm": 0.334961473941803,
      "learning_rate": 0.0005074301727060243,
      "loss": 2.0105,
      "step": 1114
    },
    {
      "epoch": 0.5114092420593969,
      "grad_norm": 0.32063600420951843,
      "learning_rate": 0.0005066872022025663,
      "loss": 2.1385,
      "step": 1115
    },
    {
      "epoch": 0.5118679050567595,
      "grad_norm": 0.3436248004436493,
      "learning_rate": 0.0005059442169306844,
      "loss": 2.0779,
      "step": 1116
    },
    {
      "epoch": 0.5123265680541222,
      "grad_norm": 0.31960275769233704,
      "learning_rate": 0.0005052012185312321,
      "loss": 2.1034,
      "step": 1117
    },
    {
      "epoch": 0.5127852310514849,
      "grad_norm": 0.31511032581329346,
      "learning_rate": 0.0005044582086450925,
      "loss": 2.0524,
      "step": 1118
    },
    {
      "epoch": 0.5132438940488476,
      "grad_norm": 0.3543368875980377,
      "learning_rate": 0.0005037151889131737,
      "loss": 2.0188,
      "step": 1119
    },
    {
      "epoch": 0.5137025570462103,
      "grad_norm": 0.334576278924942,
      "learning_rate": 0.0005029721609764059,
      "loss": 2.0546,
      "step": 1120
    },
    {
      "epoch": 0.514161220043573,
      "grad_norm": 0.3449817895889282,
      "learning_rate": 0.000502229126475737,
      "loss": 1.9612,
      "step": 1121
    },
    {
      "epoch": 0.5146198830409356,
      "grad_norm": 0.3327690362930298,
      "learning_rate": 0.0005014860870521293,
      "loss": 2.1354,
      "step": 1122
    },
    {
      "epoch": 0.5150785460382984,
      "grad_norm": 0.33567914366722107,
      "learning_rate": 0.0005007430443465569,
      "loss": 2.0783,
      "step": 1123
    },
    {
      "epoch": 0.515537209035661,
      "grad_norm": 0.31739795207977295,
      "learning_rate": 0.0005,
      "loss": 2.0747,
      "step": 1124
    },
    {
      "epoch": 0.5159958720330238,
      "grad_norm": 0.3543427884578705,
      "learning_rate": 0.0004992569556534432,
      "loss": 2.0999,
      "step": 1125
    },
    {
      "epoch": 0.5164545350303864,
      "grad_norm": 0.3410997986793518,
      "learning_rate": 0.0004985139129478707,
      "loss": 2.0317,
      "step": 1126
    },
    {
      "epoch": 0.5169131980277492,
      "grad_norm": 0.3391687572002411,
      "learning_rate": 0.0004977708735242633,
      "loss": 2.1223,
      "step": 1127
    },
    {
      "epoch": 0.5173718610251118,
      "grad_norm": 0.3353534936904907,
      "learning_rate": 0.0004970278390235942,
      "loss": 2.0786,
      "step": 1128
    },
    {
      "epoch": 0.5178305240224745,
      "grad_norm": 0.3466218411922455,
      "learning_rate": 0.0004962848110868262,
      "loss": 2.0459,
      "step": 1129
    },
    {
      "epoch": 0.5182891870198372,
      "grad_norm": 0.3444059491157532,
      "learning_rate": 0.0004955417913549074,
      "loss": 2.1645,
      "step": 1130
    },
    {
      "epoch": 0.5187478500171998,
      "grad_norm": 0.3415389358997345,
      "learning_rate": 0.0004947987814687679,
      "loss": 2.0362,
      "step": 1131
    },
    {
      "epoch": 0.5192065130145626,
      "grad_norm": 0.3404146432876587,
      "learning_rate": 0.0004940557830693157,
      "loss": 2.0645,
      "step": 1132
    },
    {
      "epoch": 0.5196651760119252,
      "grad_norm": 0.31985121965408325,
      "learning_rate": 0.0004933127977974338,
      "loss": 2.0661,
      "step": 1133
    },
    {
      "epoch": 0.5201238390092879,
      "grad_norm": 0.36925336718559265,
      "learning_rate": 0.0004925698272939757,
      "loss": 2.0564,
      "step": 1134
    },
    {
      "epoch": 0.5205825020066506,
      "grad_norm": 0.352194219827652,
      "learning_rate": 0.0004918268731997632,
      "loss": 2.0497,
      "step": 1135
    },
    {
      "epoch": 0.5210411650040133,
      "grad_norm": 0.32308119535446167,
      "learning_rate": 0.0004910839371555809,
      "loss": 2.0335,
      "step": 1136
    },
    {
      "epoch": 0.521499828001376,
      "grad_norm": 0.3134486973285675,
      "learning_rate": 0.0004903410208021739,
      "loss": 1.9942,
      "step": 1137
    },
    {
      "epoch": 0.5219584909987387,
      "grad_norm": 0.38726308941841125,
      "learning_rate": 0.0004895981257802443,
      "loss": 2.037,
      "step": 1138
    },
    {
      "epoch": 0.5224171539961013,
      "grad_norm": 0.32947781682014465,
      "learning_rate": 0.0004888552537304463,
      "loss": 1.9749,
      "step": 1139
    },
    {
      "epoch": 0.5228758169934641,
      "grad_norm": 0.34392163157463074,
      "learning_rate": 0.00048811240629338394,
      "loss": 2.0699,
      "step": 1140
    },
    {
      "epoch": 0.5233344799908267,
      "grad_norm": 0.32891085743904114,
      "learning_rate": 0.00048736958510960663,
      "loss": 2.1283,
      "step": 1141
    },
    {
      "epoch": 0.5237931429881895,
      "grad_norm": 0.32826584577560425,
      "learning_rate": 0.00048662679181960564,
      "loss": 2.0587,
      "step": 1142
    },
    {
      "epoch": 0.5242518059855521,
      "grad_norm": 0.3311322331428528,
      "learning_rate": 0.00048588402806381094,
      "loss": 2.0185,
      "step": 1143
    },
    {
      "epoch": 0.5247104689829148,
      "grad_norm": 0.32765305042266846,
      "learning_rate": 0.0004851412954825874,
      "loss": 2.0489,
      "step": 1144
    },
    {
      "epoch": 0.5251691319802775,
      "grad_norm": 0.32241225242614746,
      "learning_rate": 0.00048439859571623034,
      "loss": 2.1311,
      "step": 1145
    },
    {
      "epoch": 0.5256277949776402,
      "grad_norm": 0.32252636551856995,
      "learning_rate": 0.00048365593040496373,
      "loss": 2.0867,
      "step": 1146
    },
    {
      "epoch": 0.5260864579750029,
      "grad_norm": 0.35925644636154175,
      "learning_rate": 0.00048291330118893443,
      "loss": 2.1015,
      "step": 1147
    },
    {
      "epoch": 0.5265451209723655,
      "grad_norm": 0.32949140667915344,
      "learning_rate": 0.0004821707097082102,
      "loss": 2.1257,
      "step": 1148
    },
    {
      "epoch": 0.5270037839697282,
      "grad_norm": 0.3315565884113312,
      "learning_rate": 0.0004814281576027749,
      "loss": 2.1023,
      "step": 1149
    },
    {
      "epoch": 0.5274624469670909,
      "grad_norm": 0.3205258250236511,
      "learning_rate": 0.000480685646512526,
      "loss": 2.1479,
      "step": 1150
    },
    {
      "epoch": 0.5279211099644536,
      "grad_norm": 0.38775375485420227,
      "learning_rate": 0.00047994317807727025,
      "loss": 1.9855,
      "step": 1151
    },
    {
      "epoch": 0.5283797729618163,
      "grad_norm": 0.312191903591156,
      "learning_rate": 0.00047920075393671974,
      "loss": 2.1036,
      "step": 1152
    },
    {
      "epoch": 0.528838435959179,
      "grad_norm": 0.32237404584884644,
      "learning_rate": 0.0004784583757304893,
      "loss": 2.1174,
      "step": 1153
    },
    {
      "epoch": 0.5292970989565416,
      "grad_norm": 0.34993934631347656,
      "learning_rate": 0.00047771604509809214,
      "loss": 2.101,
      "step": 1154
    },
    {
      "epoch": 0.5297557619539044,
      "grad_norm": 0.3158944249153137,
      "learning_rate": 0.0004769737636789364,
      "loss": 1.9832,
      "step": 1155
    },
    {
      "epoch": 0.530214424951267,
      "grad_norm": 0.3362172245979309,
      "learning_rate": 0.00047623153311232157,
      "loss": 1.9852,
      "step": 1156
    },
    {
      "epoch": 0.5306730879486298,
      "grad_norm": 0.3205178678035736,
      "learning_rate": 0.0004754893550374346,
      "loss": 1.9975,
      "step": 1157
    },
    {
      "epoch": 0.5311317509459924,
      "grad_norm": 0.3195308446884155,
      "learning_rate": 0.00047474723109334685,
      "loss": 2.0654,
      "step": 1158
    },
    {
      "epoch": 0.5315904139433552,
      "grad_norm": 0.34299197793006897,
      "learning_rate": 0.00047400516291900993,
      "loss": 2.1108,
      "step": 1159
    },
    {
      "epoch": 0.5320490769407178,
      "grad_norm": 0.3369118869304657,
      "learning_rate": 0.0004732631521532522,
      "loss": 2.0398,
      "step": 1160
    },
    {
      "epoch": 0.5325077399380805,
      "grad_norm": 0.3397871255874634,
      "learning_rate": 0.0004725212004347755,
      "loss": 2.0536,
      "step": 1161
    },
    {
      "epoch": 0.5329664029354432,
      "grad_norm": 0.3110499978065491,
      "learning_rate": 0.00047177930940215095,
      "loss": 2.0146,
      "step": 1162
    },
    {
      "epoch": 0.5334250659328059,
      "grad_norm": 0.2992130219936371,
      "learning_rate": 0.00047103748069381624,
      "loss": 2.1454,
      "step": 1163
    },
    {
      "epoch": 0.5338837289301686,
      "grad_norm": 0.32813555002212524,
      "learning_rate": 0.0004702957159480707,
      "loss": 2.1665,
      "step": 1164
    },
    {
      "epoch": 0.5343423919275313,
      "grad_norm": 0.35554397106170654,
      "learning_rate": 0.00046955401680307267,
      "loss": 2.0679,
      "step": 1165
    },
    {
      "epoch": 0.5348010549248939,
      "grad_norm": 0.3578920066356659,
      "learning_rate": 0.0004688123848968359,
      "loss": 2.0827,
      "step": 1166
    },
    {
      "epoch": 0.5352597179222566,
      "grad_norm": 0.32262179255485535,
      "learning_rate": 0.00046807082186722516,
      "loss": 2.083,
      "step": 1167
    },
    {
      "epoch": 0.5357183809196193,
      "grad_norm": 0.32685521245002747,
      "learning_rate": 0.0004673293293519535,
      "loss": 2.1159,
      "step": 1168
    },
    {
      "epoch": 0.536177043916982,
      "grad_norm": 0.32897627353668213,
      "learning_rate": 0.00046658790898857806,
      "loss": 2.0399,
      "step": 1169
    },
    {
      "epoch": 0.5366357069143447,
      "grad_norm": 0.35439079999923706,
      "learning_rate": 0.0004658465624144963,
      "loss": 2.1499,
      "step": 1170
    },
    {
      "epoch": 0.5370943699117073,
      "grad_norm": 0.32217615842819214,
      "learning_rate": 0.0004651052912669438,
      "loss": 2.0005,
      "step": 1171
    },
    {
      "epoch": 0.5375530329090701,
      "grad_norm": 0.33963099122047424,
      "learning_rate": 0.0004643640971829883,
      "loss": 2.0928,
      "step": 1172
    },
    {
      "epoch": 0.5380116959064327,
      "grad_norm": 0.325511634349823,
      "learning_rate": 0.0004636229817995281,
      "loss": 1.941,
      "step": 1173
    },
    {
      "epoch": 0.5384703589037955,
      "grad_norm": 0.3347680866718292,
      "learning_rate": 0.0004628819467532876,
      "loss": 2.1152,
      "step": 1174
    },
    {
      "epoch": 0.5389290219011581,
      "grad_norm": 0.33324819803237915,
      "learning_rate": 0.00046214099368081335,
      "loss": 2.0095,
      "step": 1175
    },
    {
      "epoch": 0.5393876848985208,
      "grad_norm": 0.35229966044425964,
      "learning_rate": 0.0004614001242184714,
      "loss": 2.0951,
      "step": 1176
    },
    {
      "epoch": 0.5398463478958835,
      "grad_norm": 0.34038302302360535,
      "learning_rate": 0.000460659340002443,
      "loss": 2.0666,
      "step": 1177
    },
    {
      "epoch": 0.5403050108932462,
      "grad_norm": 0.3242050111293793,
      "learning_rate": 0.00045991864266872073,
      "loss": 2.0392,
      "step": 1178
    },
    {
      "epoch": 0.5407636738906089,
      "grad_norm": 0.31052547693252563,
      "learning_rate": 0.00045917803385310595,
      "loss": 2.0979,
      "step": 1179
    },
    {
      "epoch": 0.5412223368879716,
      "grad_norm": 0.3294384777545929,
      "learning_rate": 0.00045843751519120417,
      "loss": 2.1631,
      "step": 1180
    },
    {
      "epoch": 0.5416809998853342,
      "grad_norm": 0.3504659831523895,
      "learning_rate": 0.00045769708831842193,
      "loss": 2.08,
      "step": 1181
    },
    {
      "epoch": 0.542139662882697,
      "grad_norm": 0.31647545099258423,
      "learning_rate": 0.00045695675486996266,
      "loss": 1.9988,
      "step": 1182
    },
    {
      "epoch": 0.5425983258800596,
      "grad_norm": 0.31973710656166077,
      "learning_rate": 0.00045621651648082405,
      "loss": 1.9829,
      "step": 1183
    },
    {
      "epoch": 0.5430569888774223,
      "grad_norm": 0.3308410942554474,
      "learning_rate": 0.00045547637478579356,
      "loss": 2.1185,
      "step": 1184
    },
    {
      "epoch": 0.543515651874785,
      "grad_norm": 0.33657070994377136,
      "learning_rate": 0.0004547363314194449,
      "loss": 2.1405,
      "step": 1185
    },
    {
      "epoch": 0.5439743148721476,
      "grad_norm": 0.33469441533088684,
      "learning_rate": 0.000453996388016135,
      "loss": 2.0622,
      "step": 1186
    },
    {
      "epoch": 0.5444329778695104,
      "grad_norm": 0.3538314402103424,
      "learning_rate": 0.0004532565462099999,
      "loss": 2.1122,
      "step": 1187
    },
    {
      "epoch": 0.544891640866873,
      "grad_norm": 0.31364768743515015,
      "learning_rate": 0.0004525168076349513,
      "loss": 2.1092,
      "step": 1188
    },
    {
      "epoch": 0.5453503038642358,
      "grad_norm": 0.37210994958877563,
      "learning_rate": 0.0004517771739246729,
      "loss": 2.0375,
      "step": 1189
    },
    {
      "epoch": 0.5458089668615984,
      "grad_norm": 0.3198156952857971,
      "learning_rate": 0.0004510376467126165,
      "loss": 2.0701,
      "step": 1190
    },
    {
      "epoch": 0.5462676298589612,
      "grad_norm": 0.32519397139549255,
      "learning_rate": 0.0004502982276319992,
      "loss": 1.9897,
      "step": 1191
    },
    {
      "epoch": 0.5467262928563238,
      "grad_norm": 0.32398751378059387,
      "learning_rate": 0.0004495589183157991,
      "loss": 2.0483,
      "step": 1192
    },
    {
      "epoch": 0.5471849558536865,
      "grad_norm": 0.31149160861968994,
      "learning_rate": 0.0004488197203967517,
      "loss": 2.0393,
      "step": 1193
    },
    {
      "epoch": 0.5476436188510492,
      "grad_norm": 0.359836608171463,
      "learning_rate": 0.0004480806355073467,
      "loss": 2.0459,
      "step": 1194
    },
    {
      "epoch": 0.5481022818484119,
      "grad_norm": 0.33097195625305176,
      "learning_rate": 0.000447341665279824,
      "loss": 2.065,
      "step": 1195
    },
    {
      "epoch": 0.5485609448457746,
      "grad_norm": 0.3202517032623291,
      "learning_rate": 0.0004466028113461708,
      "loss": 2.0524,
      "step": 1196
    },
    {
      "epoch": 0.5490196078431373,
      "grad_norm": 0.3191729784011841,
      "learning_rate": 0.0004458640753381167,
      "loss": 2.0631,
      "step": 1197
    },
    {
      "epoch": 0.5494782708404999,
      "grad_norm": 0.3140091896057129,
      "learning_rate": 0.0004451254588871313,
      "loss": 2.0604,
      "step": 1198
    },
    {
      "epoch": 0.5499369338378627,
      "grad_norm": 0.32590237259864807,
      "learning_rate": 0.0004443869636244203,
      "loss": 2.0334,
      "step": 1199
    },
    {
      "epoch": 0.5503955968352253,
      "grad_norm": 0.3159765601158142,
      "learning_rate": 0.0004436485911809212,
      "loss": 2.066,
      "step": 1200
    },
    {
      "epoch": 0.550854259832588,
      "grad_norm": 0.33867529034614563,
      "learning_rate": 0.00044291034318730087,
      "loss": 2.0085,
      "step": 1201
    },
    {
      "epoch": 0.5513129228299507,
      "grad_norm": 0.3593399226665497,
      "learning_rate": 0.0004421722212739511,
      "loss": 2.0589,
      "step": 1202
    },
    {
      "epoch": 0.5517715858273133,
      "grad_norm": 0.3333919644355774,
      "learning_rate": 0.0004414342270709848,
      "loss": 2.0592,
      "step": 1203
    },
    {
      "epoch": 0.5522302488246761,
      "grad_norm": 0.3248804211616516,
      "learning_rate": 0.00044069636220823397,
      "loss": 2.1185,
      "step": 1204
    },
    {
      "epoch": 0.5526889118220387,
      "grad_norm": 0.34529972076416016,
      "learning_rate": 0.0004399586283152437,
      "loss": 2.0417,
      "step": 1205
    },
    {
      "epoch": 0.5531475748194015,
      "grad_norm": 0.34316226840019226,
      "learning_rate": 0.0004392210270212706,
      "loss": 2.1473,
      "step": 1206
    },
    {
      "epoch": 0.5536062378167641,
      "grad_norm": 0.33167073130607605,
      "learning_rate": 0.00043848355995527825,
      "loss": 2.0464,
      "step": 1207
    },
    {
      "epoch": 0.5540649008141268,
      "grad_norm": 0.3212249279022217,
      "learning_rate": 0.00043774622874593374,
      "loss": 2.0462,
      "step": 1208
    },
    {
      "epoch": 0.5545235638114895,
      "grad_norm": 0.3349059820175171,
      "learning_rate": 0.000437009035021604,
      "loss": 2.0958,
      "step": 1209
    },
    {
      "epoch": 0.5549822268088522,
      "grad_norm": 0.31598249077796936,
      "learning_rate": 0.00043627198041035274,
      "loss": 2.0974,
      "step": 1210
    },
    {
      "epoch": 0.5554408898062149,
      "grad_norm": 0.35551717877388,
      "learning_rate": 0.00043553506653993597,
      "loss": 1.9801,
      "step": 1211
    },
    {
      "epoch": 0.5558995528035776,
      "grad_norm": 0.3178403377532959,
      "learning_rate": 0.0004347982950377992,
      "loss": 1.9968,
      "step": 1212
    },
    {
      "epoch": 0.5563582158009402,
      "grad_norm": 0.32315024733543396,
      "learning_rate": 0.0004340616675310735,
      "loss": 2.0043,
      "step": 1213
    },
    {
      "epoch": 0.556816878798303,
      "grad_norm": 0.34822094440460205,
      "learning_rate": 0.00043332518564657193,
      "loss": 2.2172,
      "step": 1214
    },
    {
      "epoch": 0.5572755417956656,
      "grad_norm": 0.32109928131103516,
      "learning_rate": 0.0004325888510107856,
      "loss": 2.0248,
      "step": 1215
    },
    {
      "epoch": 0.5577342047930284,
      "grad_norm": 0.35164302587509155,
      "learning_rate": 0.0004318526652498809,
      "loss": 2.1223,
      "step": 1216
    },
    {
      "epoch": 0.558192867790391,
      "grad_norm": 0.3503217101097107,
      "learning_rate": 0.00043111662998969523,
      "loss": 2.1298,
      "step": 1217
    },
    {
      "epoch": 0.5586515307877536,
      "grad_norm": 0.3319385051727295,
      "learning_rate": 0.0004303807468557335,
      "loss": 2.0645,
      "step": 1218
    },
    {
      "epoch": 0.5591101937851164,
      "grad_norm": 0.3241715133190155,
      "learning_rate": 0.0004296450174731648,
      "loss": 2.0127,
      "step": 1219
    },
    {
      "epoch": 0.559568856782479,
      "grad_norm": 0.316340833902359,
      "learning_rate": 0.0004289094434668188,
      "loss": 2.1044,
      "step": 1220
    },
    {
      "epoch": 0.5600275197798418,
      "grad_norm": 0.32590481638908386,
      "learning_rate": 0.00042817402646118185,
      "loss": 2.0629,
      "step": 1221
    },
    {
      "epoch": 0.5604861827772044,
      "grad_norm": 0.34821954369544983,
      "learning_rate": 0.0004274387680803936,
      "loss": 2.0462,
      "step": 1222
    },
    {
      "epoch": 0.5609448457745672,
      "grad_norm": 0.3255861699581146,
      "learning_rate": 0.00042670366994824327,
      "loss": 2.0373,
      "step": 1223
    },
    {
      "epoch": 0.5614035087719298,
      "grad_norm": 0.32273077964782715,
      "learning_rate": 0.0004259687336881663,
      "loss": 2.0835,
      "step": 1224
    },
    {
      "epoch": 0.5618621717692925,
      "grad_norm": 0.32590657472610474,
      "learning_rate": 0.0004252339609232408,
      "loss": 2.0421,
      "step": 1225
    },
    {
      "epoch": 0.5623208347666552,
      "grad_norm": 0.3269060552120209,
      "learning_rate": 0.0004244993532761834,
      "loss": 2.0708,
      "step": 1226
    },
    {
      "epoch": 0.5627794977640179,
      "grad_norm": 0.33624568581581116,
      "learning_rate": 0.00042376491236934634,
      "loss": 1.9581,
      "step": 1227
    },
    {
      "epoch": 0.5632381607613806,
      "grad_norm": 0.33711376786231995,
      "learning_rate": 0.0004230306398247136,
      "loss": 2.1323,
      "step": 1228
    },
    {
      "epoch": 0.5636968237587433,
      "grad_norm": 0.3246109187602997,
      "learning_rate": 0.0004222965372638976,
      "loss": 2.1482,
      "step": 1229
    },
    {
      "epoch": 0.5641554867561059,
      "grad_norm": 0.3241766691207886,
      "learning_rate": 0.0004215626063081348,
      "loss": 2.0439,
      "step": 1230
    },
    {
      "epoch": 0.5646141497534687,
      "grad_norm": 0.35438212752342224,
      "learning_rate": 0.000420828848578283,
      "loss": 2.2116,
      "step": 1231
    },
    {
      "epoch": 0.5650728127508313,
      "grad_norm": 0.3127393126487732,
      "learning_rate": 0.0004200952656948175,
      "loss": 2.0957,
      "step": 1232
    },
    {
      "epoch": 0.5655314757481941,
      "grad_norm": 0.3076331615447998,
      "learning_rate": 0.0004193618592778272,
      "loss": 2.0698,
      "step": 1233
    },
    {
      "epoch": 0.5659901387455567,
      "grad_norm": 0.3123081922531128,
      "learning_rate": 0.0004186286309470116,
      "loss": 2.1341,
      "step": 1234
    },
    {
      "epoch": 0.5664488017429193,
      "grad_norm": 0.36896103620529175,
      "learning_rate": 0.0004178955823216767,
      "loss": 2.1379,
      "step": 1235
    },
    {
      "epoch": 0.5669074647402821,
      "grad_norm": 0.3351342976093292,
      "learning_rate": 0.00041716271502073137,
      "loss": 1.9803,
      "step": 1236
    },
    {
      "epoch": 0.5673661277376447,
      "grad_norm": 0.32286420464515686,
      "learning_rate": 0.000416430030662685,
      "loss": 2.0265,
      "step": 1237
    },
    {
      "epoch": 0.5678247907350075,
      "grad_norm": 0.3416690230369568,
      "learning_rate": 0.00041569753086564173,
      "loss": 2.123,
      "step": 1238
    },
    {
      "epoch": 0.5682834537323701,
      "grad_norm": 0.34671100974082947,
      "learning_rate": 0.0004149652172472988,
      "loss": 2.0634,
      "step": 1239
    },
    {
      "epoch": 0.5687421167297328,
      "grad_norm": 0.3163597285747528,
      "learning_rate": 0.00041423309142494234,
      "loss": 2.0668,
      "step": 1240
    },
    {
      "epoch": 0.5692007797270955,
      "grad_norm": 0.35634270310401917,
      "learning_rate": 0.0004135011550154433,
      "loss": 2.0953,
      "step": 1241
    },
    {
      "epoch": 0.5696594427244582,
      "grad_norm": 0.3116999566555023,
      "learning_rate": 0.0004127694096352546,
      "loss": 2.0764,
      "step": 1242
    },
    {
      "epoch": 0.5701181057218209,
      "grad_norm": 0.3604614734649658,
      "learning_rate": 0.00041203785690040743,
      "loss": 2.0481,
      "step": 1243
    },
    {
      "epoch": 0.5705767687191836,
      "grad_norm": 0.32730019092559814,
      "learning_rate": 0.00041130649842650694,
      "loss": 2.1187,
      "step": 1244
    },
    {
      "epoch": 0.5710354317165462,
      "grad_norm": 0.3305295407772064,
      "learning_rate": 0.00041057533582873016,
      "loss": 2.1094,
      "step": 1245
    },
    {
      "epoch": 0.571494094713909,
      "grad_norm": 0.3395458459854126,
      "learning_rate": 0.0004098443707218208,
      "loss": 2.0966,
      "step": 1246
    },
    {
      "epoch": 0.5719527577112716,
      "grad_norm": 0.32377392053604126,
      "learning_rate": 0.00040911360472008673,
      "loss": 2.0301,
      "step": 1247
    },
    {
      "epoch": 0.5724114207086344,
      "grad_norm": 0.3385007381439209,
      "learning_rate": 0.0004083830394373959,
      "loss": 2.0876,
      "step": 1248
    },
    {
      "epoch": 0.572870083705997,
      "grad_norm": 0.32592901587486267,
      "learning_rate": 0.00040765267648717324,
      "loss": 2.0113,
      "step": 1249
    },
    {
      "epoch": 0.5733287467033598,
      "grad_norm": 0.32171353697776794,
      "learning_rate": 0.00040692251748239677,
      "loss": 1.9685,
      "step": 1250
    },
    {
      "epoch": 0.5737874097007224,
      "grad_norm": 0.3341125249862671,
      "learning_rate": 0.00040619256403559383,
      "loss": 2.0969,
      "step": 1251
    },
    {
      "epoch": 0.574246072698085,
      "grad_norm": 0.3147125840187073,
      "learning_rate": 0.000405462817758838,
      "loss": 2.0223,
      "step": 1252
    },
    {
      "epoch": 0.5747047356954478,
      "grad_norm": 0.3561665713787079,
      "learning_rate": 0.0004047332802637457,
      "loss": 2.0957,
      "step": 1253
    },
    {
      "epoch": 0.5751633986928104,
      "grad_norm": 0.37207552790641785,
      "learning_rate": 0.00040400395316147157,
      "loss": 2.1456,
      "step": 1254
    },
    {
      "epoch": 0.5756220616901732,
      "grad_norm": 0.3291406035423279,
      "learning_rate": 0.00040327483806270627,
      "loss": 2.0153,
      "step": 1255
    },
    {
      "epoch": 0.5760807246875358,
      "grad_norm": 0.32060477137565613,
      "learning_rate": 0.0004025459365776715,
      "loss": 2.1193,
      "step": 1256
    },
    {
      "epoch": 0.5765393876848985,
      "grad_norm": 0.33219587802886963,
      "learning_rate": 0.00040181725031611794,
      "loss": 2.0229,
      "step": 1257
    },
    {
      "epoch": 0.5769980506822612,
      "grad_norm": 0.3237779140472412,
      "learning_rate": 0.0004010887808873206,
      "loss": 2.0625,
      "step": 1258
    },
    {
      "epoch": 0.5774567136796239,
      "grad_norm": 0.33684536814689636,
      "learning_rate": 0.00040036052990007553,
      "loss": 2.049,
      "step": 1259
    },
    {
      "epoch": 0.5779153766769866,
      "grad_norm": 0.320629358291626,
      "learning_rate": 0.0003996324989626967,
      "loss": 2.0546,
      "step": 1260
    },
    {
      "epoch": 0.5783740396743493,
      "grad_norm": 0.3201795816421509,
      "learning_rate": 0.00039890468968301166,
      "loss": 2.1105,
      "step": 1261
    },
    {
      "epoch": 0.5788327026717119,
      "grad_norm": 0.3284236788749695,
      "learning_rate": 0.0003981771036683591,
      "loss": 2.0487,
      "step": 1262
    },
    {
      "epoch": 0.5792913656690747,
      "grad_norm": 0.35077106952667236,
      "learning_rate": 0.00039744974252558385,
      "loss": 2.1118,
      "step": 1263
    },
    {
      "epoch": 0.5797500286664373,
      "grad_norm": 0.3231324553489685,
      "learning_rate": 0.00039672260786103463,
      "loss": 2.1245,
      "step": 1264
    },
    {
      "epoch": 0.5802086916638001,
      "grad_norm": 0.3399665653705597,
      "learning_rate": 0.00039599570128055994,
      "loss": 2.0389,
      "step": 1265
    },
    {
      "epoch": 0.5806673546611627,
      "grad_norm": 0.3438163697719574,
      "learning_rate": 0.0003952690243895044,
      "loss": 2.2021,
      "step": 1266
    },
    {
      "epoch": 0.5811260176585255,
      "grad_norm": 0.32707712054252625,
      "learning_rate": 0.0003945425787927054,
      "loss": 1.9985,
      "step": 1267
    },
    {
      "epoch": 0.5815846806558881,
      "grad_norm": 0.3130011260509491,
      "learning_rate": 0.00039381636609448975,
      "loss": 2.0804,
      "step": 1268
    },
    {
      "epoch": 0.5820433436532507,
      "grad_norm": 0.3161804676055908,
      "learning_rate": 0.0003930903878986693,
      "loss": 2.1488,
      "step": 1269
    },
    {
      "epoch": 0.5825020066506135,
      "grad_norm": 0.3225530683994293,
      "learning_rate": 0.00039236464580853916,
      "loss": 2.094,
      "step": 1270
    },
    {
      "epoch": 0.5829606696479761,
      "grad_norm": 0.3315108120441437,
      "learning_rate": 0.0003916391414268718,
      "loss": 2.1398,
      "step": 1271
    },
    {
      "epoch": 0.5834193326453389,
      "grad_norm": 0.32030418515205383,
      "learning_rate": 0.00039091387635591536,
      "loss": 2.0097,
      "step": 1272
    },
    {
      "epoch": 0.5838779956427015,
      "grad_norm": 0.32528063654899597,
      "learning_rate": 0.0003901888521973894,
      "loss": 2.1165,
      "step": 1273
    },
    {
      "epoch": 0.5843366586400642,
      "grad_norm": 0.33112287521362305,
      "learning_rate": 0.0003894640705524813,
      "loss": 1.9821,
      "step": 1274
    },
    {
      "epoch": 0.5847953216374269,
      "grad_norm": 0.3142952620983124,
      "learning_rate": 0.00038873953302184284,
      "loss": 2.023,
      "step": 1275
    },
    {
      "epoch": 0.5852539846347896,
      "grad_norm": 0.348053902387619,
      "learning_rate": 0.000388015241205587,
      "loss": 2.1142,
      "step": 1276
    },
    {
      "epoch": 0.5857126476321523,
      "grad_norm": 0.33332064747810364,
      "learning_rate": 0.00038729119670328355,
      "loss": 2.108,
      "step": 1277
    },
    {
      "epoch": 0.586171310629515,
      "grad_norm": 0.3358582556247711,
      "learning_rate": 0.00038656740111395665,
      "loss": 2.1312,
      "step": 1278
    },
    {
      "epoch": 0.5866299736268776,
      "grad_norm": 0.3306155204772949,
      "learning_rate": 0.00038584385603608053,
      "loss": 2.1372,
      "step": 1279
    },
    {
      "epoch": 0.5870886366242404,
      "grad_norm": 0.3207111358642578,
      "learning_rate": 0.00038512056306757615,
      "loss": 2.0284,
      "step": 1280
    },
    {
      "epoch": 0.587547299621603,
      "grad_norm": 0.3152564465999603,
      "learning_rate": 0.0003843975238058075,
      "loss": 2.0697,
      "step": 1281
    },
    {
      "epoch": 0.5880059626189658,
      "grad_norm": 0.3327939212322235,
      "learning_rate": 0.00038367473984757863,
      "loss": 2.1369,
      "step": 1282
    },
    {
      "epoch": 0.5884646256163284,
      "grad_norm": 0.3249017000198364,
      "learning_rate": 0.0003829522127891296,
      "loss": 1.9587,
      "step": 1283
    },
    {
      "epoch": 0.5889232886136911,
      "grad_norm": 0.34949809312820435,
      "learning_rate": 0.0003822299442261329,
      "loss": 2.1103,
      "step": 1284
    },
    {
      "epoch": 0.5893819516110538,
      "grad_norm": 0.31621959805488586,
      "learning_rate": 0.00038150793575369063,
      "loss": 2.027,
      "step": 1285
    },
    {
      "epoch": 0.5898406146084164,
      "grad_norm": 0.3062078356742859,
      "learning_rate": 0.0003807861889663299,
      "loss": 2.0131,
      "step": 1286
    },
    {
      "epoch": 0.5902992776057792,
      "grad_norm": 0.3341202139854431,
      "learning_rate": 0.0003800647054580006,
      "loss": 2.0483,
      "step": 1287
    },
    {
      "epoch": 0.5907579406031418,
      "grad_norm": 0.3240146338939667,
      "learning_rate": 0.00037934348682207064,
      "loss": 2.0172,
      "step": 1288
    },
    {
      "epoch": 0.5912166036005045,
      "grad_norm": 0.3490397334098816,
      "learning_rate": 0.00037862253465132306,
      "loss": 2.1142,
      "step": 1289
    },
    {
      "epoch": 0.5916752665978672,
      "grad_norm": 0.3457837700843811,
      "learning_rate": 0.00037790185053795245,
      "loss": 2.087,
      "step": 1290
    },
    {
      "epoch": 0.5921339295952299,
      "grad_norm": 0.3384625315666199,
      "learning_rate": 0.0003771814360735616,
      "loss": 2.0664,
      "step": 1291
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.39788734912872314,
      "learning_rate": 0.00037646129284915755,
      "loss": 2.0543,
      "step": 1292
    },
    {
      "epoch": 0.5930512555899553,
      "grad_norm": 0.31556785106658936,
      "learning_rate": 0.00037574142245514825,
      "loss": 2.0984,
      "step": 1293
    },
    {
      "epoch": 0.5935099185873179,
      "grad_norm": 0.31257250905036926,
      "learning_rate": 0.0003750218264813393,
      "loss": 2.082,
      "step": 1294
    },
    {
      "epoch": 0.5939685815846807,
      "grad_norm": 0.34872350096702576,
      "learning_rate": 0.0003743025065169305,
      "loss": 2.1641,
      "step": 1295
    },
    {
      "epoch": 0.5944272445820433,
      "grad_norm": 0.3347468972206116,
      "learning_rate": 0.0003735834641505116,
      "loss": 2.0413,
      "step": 1296
    },
    {
      "epoch": 0.5948859075794061,
      "grad_norm": 0.3139793276786804,
      "learning_rate": 0.00037286470097005954,
      "loss": 2.0316,
      "step": 1297
    },
    {
      "epoch": 0.5953445705767687,
      "grad_norm": 0.3204406797885895,
      "learning_rate": 0.0003721462185629347,
      "loss": 2.0733,
      "step": 1298
    },
    {
      "epoch": 0.5958032335741315,
      "grad_norm": 0.31165260076522827,
      "learning_rate": 0.00037142801851587707,
      "loss": 2.1107,
      "step": 1299
    },
    {
      "epoch": 0.5962618965714941,
      "grad_norm": 0.3268408179283142,
      "learning_rate": 0.00037071010241500357,
      "loss": 2.0511,
      "step": 1300
    },
    {
      "epoch": 0.5967205595688568,
      "grad_norm": 0.3083451986312866,
      "learning_rate": 0.00036999247184580383,
      "loss": 2.0827,
      "step": 1301
    },
    {
      "epoch": 0.5971792225662195,
      "grad_norm": 0.32036536931991577,
      "learning_rate": 0.00036927512839313636,
      "loss": 2.0245,
      "step": 1302
    },
    {
      "epoch": 0.5976378855635821,
      "grad_norm": 0.34336262941360474,
      "learning_rate": 0.0003685580736412268,
      "loss": 2.0318,
      "step": 1303
    },
    {
      "epoch": 0.5980965485609449,
      "grad_norm": 0.33069372177124023,
      "learning_rate": 0.000367841309173662,
      "loss": 1.9867,
      "step": 1304
    },
    {
      "epoch": 0.5985552115583075,
      "grad_norm": 0.326076477766037,
      "learning_rate": 0.0003671248365733883,
      "loss": 1.9747,
      "step": 1305
    },
    {
      "epoch": 0.5990138745556702,
      "grad_norm": 0.3245750665664673,
      "learning_rate": 0.0003664086574227075,
      "loss": 2.0881,
      "step": 1306
    },
    {
      "epoch": 0.5994725375530329,
      "grad_norm": 0.3274347484111786,
      "learning_rate": 0.000365692773303273,
      "loss": 2.0467,
      "step": 1307
    },
    {
      "epoch": 0.5999312005503956,
      "grad_norm": 0.3664345145225525,
      "learning_rate": 0.00036497718579608696,
      "loss": 2.0937,
      "step": 1308
    },
    {
      "epoch": 0.6003898635477583,
      "grad_norm": 0.3576580286026001,
      "learning_rate": 0.0003642618964814964,
      "loss": 2.1692,
      "step": 1309
    },
    {
      "epoch": 0.600848526545121,
      "grad_norm": 0.3196752965450287,
      "learning_rate": 0.00036354690693918946,
      "loss": 2.0685,
      "step": 1310
    },
    {
      "epoch": 0.6013071895424836,
      "grad_norm": 0.34432029724121094,
      "learning_rate": 0.00036283221874819284,
      "loss": 2.0941,
      "step": 1311
    },
    {
      "epoch": 0.6017658525398464,
      "grad_norm": 0.32312723994255066,
      "learning_rate": 0.0003621178334868672,
      "loss": 2.1081,
      "step": 1312
    },
    {
      "epoch": 0.602224515537209,
      "grad_norm": 0.30808237195014954,
      "learning_rate": 0.00036140375273290476,
      "loss": 1.9941,
      "step": 1313
    },
    {
      "epoch": 0.6026831785345718,
      "grad_norm": 0.3174838125705719,
      "learning_rate": 0.0003606899780633245,
      "loss": 1.9976,
      "step": 1314
    },
    {
      "epoch": 0.6031418415319344,
      "grad_norm": 0.33769357204437256,
      "learning_rate": 0.0003599765110544699,
      "loss": 2.0176,
      "step": 1315
    },
    {
      "epoch": 0.6036005045292971,
      "grad_norm": 0.34066322445869446,
      "learning_rate": 0.0003592633532820052,
      "loss": 2.0717,
      "step": 1316
    },
    {
      "epoch": 0.6040591675266598,
      "grad_norm": 0.3224225342273712,
      "learning_rate": 0.0003585505063209109,
      "loss": 2.1067,
      "step": 1317
    },
    {
      "epoch": 0.6045178305240225,
      "grad_norm": 0.34797412157058716,
      "learning_rate": 0.00035783797174548194,
      "loss": 2.0081,
      "step": 1318
    },
    {
      "epoch": 0.6049764935213852,
      "grad_norm": 0.3489683270454407,
      "learning_rate": 0.00035712575112932277,
      "loss": 2.1711,
      "step": 1319
    },
    {
      "epoch": 0.6054351565187478,
      "grad_norm": 0.3255966603755951,
      "learning_rate": 0.000356413846045345,
      "loss": 2.0343,
      "step": 1320
    },
    {
      "epoch": 0.6058938195161105,
      "grad_norm": 0.3318604528903961,
      "learning_rate": 0.000355702258065763,
      "loss": 2.0195,
      "step": 1321
    },
    {
      "epoch": 0.6063524825134732,
      "grad_norm": 0.3124646544456482,
      "learning_rate": 0.0003549909887620909,
      "loss": 2.1293,
      "step": 1322
    },
    {
      "epoch": 0.6068111455108359,
      "grad_norm": 0.312784343957901,
      "learning_rate": 0.00035428003970513914,
      "loss": 2.1136,
      "step": 1323
    },
    {
      "epoch": 0.6072698085081986,
      "grad_norm": 0.30051904916763306,
      "learning_rate": 0.00035356941246501085,
      "loss": 2.069,
      "step": 1324
    },
    {
      "epoch": 0.6077284715055613,
      "grad_norm": 0.3364282548427582,
      "learning_rate": 0.0003528591086110984,
      "loss": 1.9959,
      "step": 1325
    },
    {
      "epoch": 0.6081871345029239,
      "grad_norm": 0.30235669016838074,
      "learning_rate": 0.00035214912971208,
      "loss": 1.9028,
      "step": 1326
    },
    {
      "epoch": 0.6086457975002867,
      "grad_norm": 0.3178756833076477,
      "learning_rate": 0.0003514394773359163,
      "loss": 2.062,
      "step": 1327
    },
    {
      "epoch": 0.6091044604976493,
      "grad_norm": 0.3192192316055298,
      "learning_rate": 0.0003507301530498469,
      "loss": 2.0424,
      "step": 1328
    },
    {
      "epoch": 0.6095631234950121,
      "grad_norm": 0.3468776047229767,
      "learning_rate": 0.00035002115842038646,
      "loss": 2.0694,
      "step": 1329
    },
    {
      "epoch": 0.6100217864923747,
      "grad_norm": 0.3605709373950958,
      "learning_rate": 0.00034931249501332195,
      "loss": 2.1069,
      "step": 1330
    },
    {
      "epoch": 0.6104804494897375,
      "grad_norm": 0.3309090733528137,
      "learning_rate": 0.00034860416439370885,
      "loss": 2.0865,
      "step": 1331
    },
    {
      "epoch": 0.6109391124871001,
      "grad_norm": 0.3082978129386902,
      "learning_rate": 0.0003478961681258674,
      "loss": 2.0458,
      "step": 1332
    },
    {
      "epoch": 0.6113977754844628,
      "grad_norm": 0.32562199234962463,
      "learning_rate": 0.0003471885077733796,
      "loss": 2.0884,
      "step": 1333
    },
    {
      "epoch": 0.6118564384818255,
      "grad_norm": 0.3333210051059723,
      "learning_rate": 0.0003464811848990859,
      "loss": 2.1218,
      "step": 1334
    },
    {
      "epoch": 0.6123151014791882,
      "grad_norm": 0.3348150849342346,
      "learning_rate": 0.00034577420106508063,
      "loss": 2.0219,
      "step": 1335
    },
    {
      "epoch": 0.6127737644765509,
      "grad_norm": 0.32228943705558777,
      "learning_rate": 0.0003450675578327105,
      "loss": 2.0621,
      "step": 1336
    },
    {
      "epoch": 0.6132324274739135,
      "grad_norm": 0.3330123722553253,
      "learning_rate": 0.000344361256762569,
      "loss": 1.9712,
      "step": 1337
    },
    {
      "epoch": 0.6136910904712762,
      "grad_norm": 0.3395630419254303,
      "learning_rate": 0.00034365529941449456,
      "loss": 2.0291,
      "step": 1338
    },
    {
      "epoch": 0.6141497534686389,
      "grad_norm": 0.32200562953948975,
      "learning_rate": 0.0003429496873475664,
      "loss": 1.9863,
      "step": 1339
    },
    {
      "epoch": 0.6146084164660016,
      "grad_norm": 0.3269619047641754,
      "learning_rate": 0.0003422444221201009,
      "loss": 2.0936,
      "step": 1340
    },
    {
      "epoch": 0.6150670794633643,
      "grad_norm": 0.32374143600463867,
      "learning_rate": 0.0003415395052896487,
      "loss": 2.072,
      "step": 1341
    },
    {
      "epoch": 0.615525742460727,
      "grad_norm": 0.3343733549118042,
      "learning_rate": 0.0003408349384129912,
      "loss": 2.0498,
      "step": 1342
    },
    {
      "epoch": 0.6159844054580896,
      "grad_norm": 0.32435664534568787,
      "learning_rate": 0.00034013072304613643,
      "loss": 2.137,
      "step": 1343
    },
    {
      "epoch": 0.6164430684554524,
      "grad_norm": 0.3303360342979431,
      "learning_rate": 0.00033942686074431674,
      "loss": 2.0616,
      "step": 1344
    },
    {
      "epoch": 0.616901731452815,
      "grad_norm": 0.32392963767051697,
      "learning_rate": 0.0003387233530619843,
      "loss": 2.17,
      "step": 1345
    },
    {
      "epoch": 0.6173603944501778,
      "grad_norm": 0.3507256507873535,
      "learning_rate": 0.0003380202015528084,
      "loss": 2.1181,
      "step": 1346
    },
    {
      "epoch": 0.6178190574475404,
      "grad_norm": 0.3188699781894684,
      "learning_rate": 0.0003373174077696715,
      "loss": 2.022,
      "step": 1347
    },
    {
      "epoch": 0.6182777204449031,
      "grad_norm": 0.3035808503627777,
      "learning_rate": 0.0003366149732646661,
      "loss": 2.0044,
      "step": 1348
    },
    {
      "epoch": 0.6187363834422658,
      "grad_norm": 0.30845969915390015,
      "learning_rate": 0.00033591289958909143,
      "loss": 2.0008,
      "step": 1349
    },
    {
      "epoch": 0.6191950464396285,
      "grad_norm": 0.35036876797676086,
      "learning_rate": 0.00033521118829344954,
      "loss": 2.1915,
      "step": 1350
    },
    {
      "epoch": 0.6196537094369912,
      "grad_norm": 0.32295432686805725,
      "learning_rate": 0.0003345098409274423,
      "loss": 2.0306,
      "step": 1351
    },
    {
      "epoch": 0.6201123724343539,
      "grad_norm": 0.3177294135093689,
      "learning_rate": 0.00033380885903996796,
      "loss": 2.0997,
      "step": 1352
    },
    {
      "epoch": 0.6205710354317165,
      "grad_norm": 0.3041435778141022,
      "learning_rate": 0.00033310824417911766,
      "loss": 2.0811,
      "step": 1353
    },
    {
      "epoch": 0.6210296984290792,
      "grad_norm": 0.3193236291408539,
      "learning_rate": 0.00033240799789217184,
      "loss": 2.0155,
      "step": 1354
    },
    {
      "epoch": 0.6214883614264419,
      "grad_norm": 0.34285181760787964,
      "learning_rate": 0.00033170812172559694,
      "loss": 2.0508,
      "step": 1355
    },
    {
      "epoch": 0.6219470244238046,
      "grad_norm": 0.3137717545032501,
      "learning_rate": 0.000331008617225042,
      "loss": 2.0024,
      "step": 1356
    },
    {
      "epoch": 0.6224056874211673,
      "grad_norm": 0.36165565252304077,
      "learning_rate": 0.0003303094859353355,
      "loss": 1.9643,
      "step": 1357
    },
    {
      "epoch": 0.6228643504185299,
      "grad_norm": 0.33752939105033875,
      "learning_rate": 0.0003296107294004812,
      "loss": 2.0524,
      "step": 1358
    },
    {
      "epoch": 0.6233230134158927,
      "grad_norm": 0.33085185289382935,
      "learning_rate": 0.0003289123491636559,
      "loss": 2.1564,
      "step": 1359
    },
    {
      "epoch": 0.6237816764132553,
      "grad_norm": 0.354501336812973,
      "learning_rate": 0.00032821434676720443,
      "loss": 2.0823,
      "step": 1360
    },
    {
      "epoch": 0.6242403394106181,
      "grad_norm": 0.3405352830886841,
      "learning_rate": 0.00032751672375263836,
      "loss": 2.0955,
      "step": 1361
    },
    {
      "epoch": 0.6246990024079807,
      "grad_norm": 0.3409111499786377,
      "learning_rate": 0.0003268194816606305,
      "loss": 2.0551,
      "step": 1362
    },
    {
      "epoch": 0.6251576654053435,
      "grad_norm": 0.3355453610420227,
      "learning_rate": 0.00032612262203101267,
      "loss": 1.9706,
      "step": 1363
    },
    {
      "epoch": 0.6256163284027061,
      "grad_norm": 0.31926050782203674,
      "learning_rate": 0.00032542614640277225,
      "loss": 1.986,
      "step": 1364
    },
    {
      "epoch": 0.6260749914000688,
      "grad_norm": 0.33467403054237366,
      "learning_rate": 0.0003247300563140481,
      "loss": 2.0984,
      "step": 1365
    },
    {
      "epoch": 0.6265336543974315,
      "grad_norm": 0.3396301567554474,
      "learning_rate": 0.00032403435330212807,
      "loss": 1.9866,
      "step": 1366
    },
    {
      "epoch": 0.6269923173947942,
      "grad_norm": 0.33260127902030945,
      "learning_rate": 0.00032333903890344515,
      "loss": 2.1122,
      "step": 1367
    },
    {
      "epoch": 0.6274509803921569,
      "grad_norm": 0.3114927113056183,
      "learning_rate": 0.00032264411465357333,
      "loss": 1.9772,
      "step": 1368
    },
    {
      "epoch": 0.6279096433895196,
      "grad_norm": 0.30466076731681824,
      "learning_rate": 0.00032194958208722654,
      "loss": 1.972,
      "step": 1369
    },
    {
      "epoch": 0.6283683063868822,
      "grad_norm": 0.33638936281204224,
      "learning_rate": 0.00032125544273825204,
      "loss": 2.1575,
      "step": 1370
    },
    {
      "epoch": 0.6288269693842449,
      "grad_norm": 0.32141658663749695,
      "learning_rate": 0.0003205616981396297,
      "loss": 1.9852,
      "step": 1371
    },
    {
      "epoch": 0.6292856323816076,
      "grad_norm": 0.3527059257030487,
      "learning_rate": 0.00031986834982346713,
      "loss": 2.0467,
      "step": 1372
    },
    {
      "epoch": 0.6297442953789703,
      "grad_norm": 0.32888278365135193,
      "learning_rate": 0.00031917539932099694,
      "loss": 2.0928,
      "step": 1373
    },
    {
      "epoch": 0.630202958376333,
      "grad_norm": 0.33700549602508545,
      "learning_rate": 0.00031848284816257336,
      "loss": 2.0333,
      "step": 1374
    },
    {
      "epoch": 0.6306616213736956,
      "grad_norm": 0.3404221832752228,
      "learning_rate": 0.0003177906978776682,
      "loss": 2.1268,
      "step": 1375
    },
    {
      "epoch": 0.6311202843710584,
      "grad_norm": 0.3569382131099701,
      "learning_rate": 0.0003170989499948683,
      "loss": 2.0718,
      "step": 1376
    },
    {
      "epoch": 0.631578947368421,
      "grad_norm": 0.32621484994888306,
      "learning_rate": 0.0003164076060418719,
      "loss": 1.9794,
      "step": 1377
    },
    {
      "epoch": 0.6320376103657838,
      "grad_norm": 0.33258140087127686,
      "learning_rate": 0.000315716667545485,
      "loss": 2.0796,
      "step": 1378
    },
    {
      "epoch": 0.6324962733631464,
      "grad_norm": 0.3428560495376587,
      "learning_rate": 0.00031502613603161836,
      "loss": 2.0377,
      "step": 1379
    },
    {
      "epoch": 0.6329549363605091,
      "grad_norm": 0.33151376247406006,
      "learning_rate": 0.00031433601302528335,
      "loss": 1.9891,
      "step": 1380
    },
    {
      "epoch": 0.6334135993578718,
      "grad_norm": 0.33387431502342224,
      "learning_rate": 0.00031364630005058995,
      "loss": 2.0797,
      "step": 1381
    },
    {
      "epoch": 0.6338722623552345,
      "grad_norm": 0.3110061585903168,
      "learning_rate": 0.0003129569986307422,
      "loss": 1.9841,
      "step": 1382
    },
    {
      "epoch": 0.6343309253525972,
      "grad_norm": 0.3237464129924774,
      "learning_rate": 0.00031226811028803515,
      "loss": 2.1121,
      "step": 1383
    },
    {
      "epoch": 0.6347895883499599,
      "grad_norm": 0.3478131890296936,
      "learning_rate": 0.00031157963654385173,
      "loss": 2.1185,
      "step": 1384
    },
    {
      "epoch": 0.6352482513473225,
      "grad_norm": 0.34919482469558716,
      "learning_rate": 0.0003108915789186592,
      "loss": 2.0156,
      "step": 1385
    },
    {
      "epoch": 0.6357069143446853,
      "grad_norm": 0.346171498298645,
      "learning_rate": 0.00031020393893200604,
      "loss": 2.0576,
      "step": 1386
    },
    {
      "epoch": 0.6361655773420479,
      "grad_norm": 0.3160615563392639,
      "learning_rate": 0.00030951671810251823,
      "loss": 2.054,
      "step": 1387
    },
    {
      "epoch": 0.6366242403394106,
      "grad_norm": 0.3339083790779114,
      "learning_rate": 0.0003088299179478959,
      "loss": 2.0907,
      "step": 1388
    },
    {
      "epoch": 0.6370829033367733,
      "grad_norm": 0.332820326089859,
      "learning_rate": 0.0003081435399849104,
      "loss": 2.0569,
      "step": 1389
    },
    {
      "epoch": 0.637541566334136,
      "grad_norm": 0.3449617326259613,
      "learning_rate": 0.0003074575857294004,
      "loss": 2.0144,
      "step": 1390
    },
    {
      "epoch": 0.6380002293314987,
      "grad_norm": 0.3343627452850342,
      "learning_rate": 0.0003067720566962691,
      "loss": 2.1033,
      "step": 1391
    },
    {
      "epoch": 0.6384588923288613,
      "grad_norm": 0.3277139961719513,
      "learning_rate": 0.0003060869543994806,
      "loss": 2.0552,
      "step": 1392
    },
    {
      "epoch": 0.6389175553262241,
      "grad_norm": 0.33898842334747314,
      "learning_rate": 0.0003054022803520562,
      "loss": 2.042,
      "step": 1393
    },
    {
      "epoch": 0.6393762183235867,
      "grad_norm": 0.3139735758304596,
      "learning_rate": 0.0003047180360660721,
      "loss": 2.0068,
      "step": 1394
    },
    {
      "epoch": 0.6398348813209495,
      "grad_norm": 0.3367699086666107,
      "learning_rate": 0.00030403422305265475,
      "loss": 2.0602,
      "step": 1395
    },
    {
      "epoch": 0.6402935443183121,
      "grad_norm": 0.32419833540916443,
      "learning_rate": 0.0003033508428219785,
      "loss": 2.1228,
      "step": 1396
    },
    {
      "epoch": 0.6407522073156748,
      "grad_norm": 0.3220069110393524,
      "learning_rate": 0.00030266789688326184,
      "loss": 2.0321,
      "step": 1397
    },
    {
      "epoch": 0.6412108703130375,
      "grad_norm": 0.31223663687705994,
      "learning_rate": 0.00030198538674476393,
      "loss": 1.9705,
      "step": 1398
    },
    {
      "epoch": 0.6416695333104002,
      "grad_norm": 0.34128615260124207,
      "learning_rate": 0.00030130331391378185,
      "loss": 2.0127,
      "step": 1399
    },
    {
      "epoch": 0.6421281963077629,
      "grad_norm": 0.33786433935165405,
      "learning_rate": 0.0003006216798966468,
      "loss": 2.0405,
      "step": 1400
    },
    {
      "epoch": 0.6425868593051256,
      "grad_norm": 0.3260366916656494,
      "learning_rate": 0.00029994048619872034,
      "loss": 1.9878,
      "step": 1401
    },
    {
      "epoch": 0.6430455223024882,
      "grad_norm": 0.351276695728302,
      "learning_rate": 0.0002992597343243927,
      "loss": 2.1409,
      "step": 1402
    },
    {
      "epoch": 0.643504185299851,
      "grad_norm": 0.34107261896133423,
      "learning_rate": 0.0002985794257770773,
      "loss": 2.1411,
      "step": 1403
    },
    {
      "epoch": 0.6439628482972136,
      "grad_norm": 0.3152320981025696,
      "learning_rate": 0.0002978995620592092,
      "loss": 2.0531,
      "step": 1404
    },
    {
      "epoch": 0.6444215112945763,
      "grad_norm": 0.3133676052093506,
      "learning_rate": 0.0002972201446722405,
      "loss": 2.0451,
      "step": 1405
    },
    {
      "epoch": 0.644880174291939,
      "grad_norm": 0.3328131139278412,
      "learning_rate": 0.00029654117511663803,
      "loss": 1.9774,
      "step": 1406
    },
    {
      "epoch": 0.6453388372893016,
      "grad_norm": 0.3344210982322693,
      "learning_rate": 0.0002958626548918795,
      "loss": 2.1495,
      "step": 1407
    },
    {
      "epoch": 0.6457975002866644,
      "grad_norm": 0.3183003067970276,
      "learning_rate": 0.00029518458549645014,
      "loss": 2.0219,
      "step": 1408
    },
    {
      "epoch": 0.646256163284027,
      "grad_norm": 0.3318275511264801,
      "learning_rate": 0.00029450696842783954,
      "loss": 2.027,
      "step": 1409
    },
    {
      "epoch": 0.6467148262813898,
      "grad_norm": 0.3426685035228729,
      "learning_rate": 0.00029382980518253865,
      "loss": 2.084,
      "step": 1410
    },
    {
      "epoch": 0.6471734892787524,
      "grad_norm": 0.33350953459739685,
      "learning_rate": 0.00029315309725603595,
      "loss": 2.0551,
      "step": 1411
    },
    {
      "epoch": 0.6476321522761151,
      "grad_norm": 0.3523460030555725,
      "learning_rate": 0.00029247684614281446,
      "loss": 2.0465,
      "step": 1412
    },
    {
      "epoch": 0.6480908152734778,
      "grad_norm": 0.3116665780544281,
      "learning_rate": 0.0002918010533363481,
      "loss": 2.0021,
      "step": 1413
    },
    {
      "epoch": 0.6485494782708405,
      "grad_norm": 0.3372708261013031,
      "learning_rate": 0.0002911257203290987,
      "loss": 2.1246,
      "step": 1414
    },
    {
      "epoch": 0.6490081412682032,
      "grad_norm": 0.31567931175231934,
      "learning_rate": 0.00029045084861251314,
      "loss": 2.1015,
      "step": 1415
    },
    {
      "epoch": 0.6494668042655659,
      "grad_norm": 0.33215293288230896,
      "learning_rate": 0.00028977643967701897,
      "loss": 2.0447,
      "step": 1416
    },
    {
      "epoch": 0.6499254672629285,
      "grad_norm": 0.34785035252571106,
      "learning_rate": 0.00028910249501202156,
      "loss": 2.0877,
      "step": 1417
    },
    {
      "epoch": 0.6503841302602913,
      "grad_norm": 0.34994032979011536,
      "learning_rate": 0.00028842901610590165,
      "loss": 2.0908,
      "step": 1418
    },
    {
      "epoch": 0.6508427932576539,
      "grad_norm": 0.3274284601211548,
      "learning_rate": 0.00028775600444601123,
      "loss": 1.9911,
      "step": 1419
    },
    {
      "epoch": 0.6513014562550167,
      "grad_norm": 0.32441332936286926,
      "learning_rate": 0.00028708346151866973,
      "loss": 2.1275,
      "step": 1420
    },
    {
      "epoch": 0.6517601192523793,
      "grad_norm": 0.3311033546924591,
      "learning_rate": 0.0002864113888091622,
      "loss": 2.0642,
      "step": 1421
    },
    {
      "epoch": 0.6522187822497421,
      "grad_norm": 0.340950071811676,
      "learning_rate": 0.0002857397878017348,
      "loss": 2.0028,
      "step": 1422
    },
    {
      "epoch": 0.6526774452471047,
      "grad_norm": 0.3258783221244812,
      "learning_rate": 0.00028506865997959173,
      "loss": 2.1088,
      "step": 1423
    },
    {
      "epoch": 0.6531361082444673,
      "grad_norm": 0.3525133728981018,
      "learning_rate": 0.000284398006824893,
      "loss": 1.9907,
      "step": 1424
    },
    {
      "epoch": 0.6535947712418301,
      "grad_norm": 0.35317569971084595,
      "learning_rate": 0.00028372782981874963,
      "loss": 2.0083,
      "step": 1425
    },
    {
      "epoch": 0.6540534342391927,
      "grad_norm": 0.321816623210907,
      "learning_rate": 0.00028305813044122096,
      "loss": 2.0244,
      "step": 1426
    },
    {
      "epoch": 0.6545120972365555,
      "grad_norm": 0.3427928388118744,
      "learning_rate": 0.0002823889101713122,
      "loss": 2.099,
      "step": 1427
    },
    {
      "epoch": 0.6549707602339181,
      "grad_norm": 0.3584846556186676,
      "learning_rate": 0.0002817201704869701,
      "loss": 2.1823,
      "step": 1428
    },
    {
      "epoch": 0.6554294232312808,
      "grad_norm": 0.3576981723308563,
      "learning_rate": 0.00028105191286508,
      "loss": 2.0137,
      "step": 1429
    },
    {
      "epoch": 0.6558880862286435,
      "grad_norm": 0.34157994389533997,
      "learning_rate": 0.00028038413878146245,
      "loss": 1.974,
      "step": 1430
    },
    {
      "epoch": 0.6563467492260062,
      "grad_norm": 0.31360164284706116,
      "learning_rate": 0.00027971684971087073,
      "loss": 2.0441,
      "step": 1431
    },
    {
      "epoch": 0.6568054122233689,
      "grad_norm": 0.32374730706214905,
      "learning_rate": 0.00027905004712698643,
      "loss": 2.0861,
      "step": 1432
    },
    {
      "epoch": 0.6572640752207316,
      "grad_norm": 0.3230315148830414,
      "learning_rate": 0.0002783837325024167,
      "loss": 2.0931,
      "step": 1433
    },
    {
      "epoch": 0.6577227382180942,
      "grad_norm": 0.35668453574180603,
      "learning_rate": 0.00027771790730869153,
      "loss": 2.0168,
      "step": 1434
    },
    {
      "epoch": 0.658181401215457,
      "grad_norm": 0.32206296920776367,
      "learning_rate": 0.0002770525730162599,
      "loss": 2.0034,
      "step": 1435
    },
    {
      "epoch": 0.6586400642128196,
      "grad_norm": 0.3346477746963501,
      "learning_rate": 0.00027638773109448645,
      "loss": 2.1233,
      "step": 1436
    },
    {
      "epoch": 0.6590987272101824,
      "grad_norm": 0.3198264539241791,
      "learning_rate": 0.00027572338301164824,
      "loss": 1.9996,
      "step": 1437
    },
    {
      "epoch": 0.659557390207545,
      "grad_norm": 0.3223205506801605,
      "learning_rate": 0.0002750595302349324,
      "loss": 2.0136,
      "step": 1438
    },
    {
      "epoch": 0.6600160532049077,
      "grad_norm": 0.35021620988845825,
      "learning_rate": 0.00027439617423043145,
      "loss": 2.0009,
      "step": 1439
    },
    {
      "epoch": 0.6604747162022704,
      "grad_norm": 0.3407418429851532,
      "learning_rate": 0.00027373331646314114,
      "loss": 2.0183,
      "step": 1440
    },
    {
      "epoch": 0.660933379199633,
      "grad_norm": 0.3613649904727936,
      "learning_rate": 0.0002730709583969572,
      "loss": 2.1624,
      "step": 1441
    },
    {
      "epoch": 0.6613920421969958,
      "grad_norm": 0.3387938439846039,
      "learning_rate": 0.0002724091014946711,
      "loss": 2.0664,
      "step": 1442
    },
    {
      "epoch": 0.6618507051943584,
      "grad_norm": 0.33104145526885986,
      "learning_rate": 0.00027174774721796824,
      "loss": 1.9821,
      "step": 1443
    },
    {
      "epoch": 0.6623093681917211,
      "grad_norm": 0.3388196527957916,
      "learning_rate": 0.0002710868970274232,
      "loss": 2.0294,
      "step": 1444
    },
    {
      "epoch": 0.6627680311890838,
      "grad_norm": 0.321615070104599,
      "learning_rate": 0.0002704265523824982,
      "loss": 2.1102,
      "step": 1445
    },
    {
      "epoch": 0.6632266941864465,
      "grad_norm": 0.31936392188072205,
      "learning_rate": 0.00026976671474153826,
      "loss": 2.0417,
      "step": 1446
    },
    {
      "epoch": 0.6636853571838092,
      "grad_norm": 0.3143424987792969,
      "learning_rate": 0.00026910738556176886,
      "loss": 2.0868,
      "step": 1447
    },
    {
      "epoch": 0.6641440201811719,
      "grad_norm": 0.32378995418548584,
      "learning_rate": 0.0002684485662992929,
      "loss": 2.0926,
      "step": 1448
    },
    {
      "epoch": 0.6646026831785345,
      "grad_norm": 0.3285011947154999,
      "learning_rate": 0.0002677902584090869,
      "loss": 1.9696,
      "step": 1449
    },
    {
      "epoch": 0.6650613461758973,
      "grad_norm": 0.33076009154319763,
      "learning_rate": 0.00026713246334499774,
      "loss": 2.0184,
      "step": 1450
    },
    {
      "epoch": 0.6655200091732599,
      "grad_norm": 0.3222842812538147,
      "learning_rate": 0.00026647518255974023,
      "loss": 1.9853,
      "step": 1451
    },
    {
      "epoch": 0.6659786721706227,
      "grad_norm": 0.355720192193985,
      "learning_rate": 0.0002658184175048934,
      "loss": 2.0495,
      "step": 1452
    },
    {
      "epoch": 0.6664373351679853,
      "grad_norm": 0.3289576470851898,
      "learning_rate": 0.00026516216963089694,
      "loss": 2.0954,
      "step": 1453
    },
    {
      "epoch": 0.6668959981653481,
      "grad_norm": 0.326323002576828,
      "learning_rate": 0.0002645064403870488,
      "loss": 2.0628,
      "step": 1454
    },
    {
      "epoch": 0.6673546611627107,
      "grad_norm": 0.34866103529930115,
      "learning_rate": 0.0002638512312215011,
      "loss": 2.0274,
      "step": 1455
    },
    {
      "epoch": 0.6678133241600734,
      "grad_norm": 0.33312517404556274,
      "learning_rate": 0.0002631965435812575,
      "loss": 2.0293,
      "step": 1456
    },
    {
      "epoch": 0.6682719871574361,
      "grad_norm": 0.3350611627101898,
      "learning_rate": 0.00026254237891217046,
      "loss": 2.0771,
      "step": 1457
    },
    {
      "epoch": 0.6687306501547987,
      "grad_norm": 0.32904696464538574,
      "learning_rate": 0.0002618887386589367,
      "loss": 2.0222,
      "step": 1458
    },
    {
      "epoch": 0.6691893131521615,
      "grad_norm": 0.33241701126098633,
      "learning_rate": 0.0002612356242650949,
      "loss": 1.9467,
      "step": 1459
    },
    {
      "epoch": 0.6696479761495241,
      "grad_norm": 0.34467455744743347,
      "learning_rate": 0.0002605830371730229,
      "loss": 2.1145,
      "step": 1460
    },
    {
      "epoch": 0.6701066391468868,
      "grad_norm": 0.3395180404186249,
      "learning_rate": 0.0002599309788239339,
      "loss": 2.0047,
      "step": 1461
    },
    {
      "epoch": 0.6705653021442495,
      "grad_norm": 0.35044607520103455,
      "learning_rate": 0.00025927945065787306,
      "loss": 2.0404,
      "step": 1462
    },
    {
      "epoch": 0.6710239651416122,
      "grad_norm": 0.3344298303127289,
      "learning_rate": 0.0002586284541137145,
      "loss": 2.0609,
      "step": 1463
    },
    {
      "epoch": 0.6714826281389749,
      "grad_norm": 0.33708706498146057,
      "learning_rate": 0.00025797799062915905,
      "loss": 2.0356,
      "step": 1464
    },
    {
      "epoch": 0.6719412911363376,
      "grad_norm": 0.3410191535949707,
      "learning_rate": 0.00025732806164072966,
      "loss": 2.0689,
      "step": 1465
    },
    {
      "epoch": 0.6723999541337002,
      "grad_norm": 0.3523402512073517,
      "learning_rate": 0.00025667866858376874,
      "loss": 2.1058,
      "step": 1466
    },
    {
      "epoch": 0.672858617131063,
      "grad_norm": 0.368213951587677,
      "learning_rate": 0.0002560298128924358,
      "loss": 2.0961,
      "step": 1467
    },
    {
      "epoch": 0.6733172801284256,
      "grad_norm": 0.34021398425102234,
      "learning_rate": 0.0002553814959997032,
      "loss": 1.9731,
      "step": 1468
    },
    {
      "epoch": 0.6737759431257884,
      "grad_norm": 0.350503534078598,
      "learning_rate": 0.00025473371933735334,
      "loss": 2.0763,
      "step": 1469
    },
    {
      "epoch": 0.674234606123151,
      "grad_norm": 0.3311954736709595,
      "learning_rate": 0.00025408648433597534,
      "loss": 1.9834,
      "step": 1470
    },
    {
      "epoch": 0.6746932691205138,
      "grad_norm": 0.3602260947227478,
      "learning_rate": 0.00025343979242496283,
      "loss": 2.1075,
      "step": 1471
    },
    {
      "epoch": 0.6751519321178764,
      "grad_norm": 0.3086388409137726,
      "learning_rate": 0.00025279364503250925,
      "loss": 2.036,
      "step": 1472
    },
    {
      "epoch": 0.6756105951152391,
      "grad_norm": 0.3480260670185089,
      "learning_rate": 0.0002521480435856056,
      "loss": 1.9817,
      "step": 1473
    },
    {
      "epoch": 0.6760692581126018,
      "grad_norm": 0.3409264087677002,
      "learning_rate": 0.0002515029895100378,
      "loss": 2.1127,
      "step": 1474
    },
    {
      "epoch": 0.6765279211099644,
      "grad_norm": 0.3103152811527252,
      "learning_rate": 0.0002508584842303822,
      "loss": 2.0032,
      "step": 1475
    },
    {
      "epoch": 0.6769865841073271,
      "grad_norm": 0.39426612854003906,
      "learning_rate": 0.0002502145291700038,
      "loss": 2.0651,
      "step": 1476
    },
    {
      "epoch": 0.6774452471046898,
      "grad_norm": 0.33487561345100403,
      "learning_rate": 0.0002495711257510517,
      "loss": 2.0575,
      "step": 1477
    },
    {
      "epoch": 0.6779039101020525,
      "grad_norm": 0.3363463878631592,
      "learning_rate": 0.0002489282753944575,
      "loss": 2.0015,
      "step": 1478
    },
    {
      "epoch": 0.6783625730994152,
      "grad_norm": 0.3134100139141083,
      "learning_rate": 0.00024828597951993093,
      "loss": 2.054,
      "step": 1479
    },
    {
      "epoch": 0.6788212360967779,
      "grad_norm": 0.32540613412857056,
      "learning_rate": 0.00024764423954595706,
      "loss": 1.9913,
      "step": 1480
    },
    {
      "epoch": 0.6792798990941405,
      "grad_norm": 0.32421019673347473,
      "learning_rate": 0.0002470030568897938,
      "loss": 2.0714,
      "step": 1481
    },
    {
      "epoch": 0.6797385620915033,
      "grad_norm": 0.36525759100914,
      "learning_rate": 0.00024636243296746773,
      "loss": 2.0118,
      "step": 1482
    },
    {
      "epoch": 0.6801972250888659,
      "grad_norm": 0.3298330008983612,
      "learning_rate": 0.0002457223691937716,
      "loss": 2.0533,
      "step": 1483
    },
    {
      "epoch": 0.6806558880862287,
      "grad_norm": 0.3318355679512024,
      "learning_rate": 0.0002450828669822613,
      "loss": 2.0284,
      "step": 1484
    },
    {
      "epoch": 0.6811145510835913,
      "grad_norm": 0.33304834365844727,
      "learning_rate": 0.00024444392774525253,
      "loss": 2.1179,
      "step": 1485
    },
    {
      "epoch": 0.6815732140809541,
      "grad_norm": 0.3296608328819275,
      "learning_rate": 0.00024380555289381733,
      "loss": 2.0131,
      "step": 1486
    },
    {
      "epoch": 0.6820318770783167,
      "grad_norm": 0.346034973859787,
      "learning_rate": 0.00024316774383778184,
      "loss": 2.0394,
      "step": 1487
    },
    {
      "epoch": 0.6824905400756794,
      "grad_norm": 0.32897844910621643,
      "learning_rate": 0.0002425305019857222,
      "loss": 2.0781,
      "step": 1488
    },
    {
      "epoch": 0.6829492030730421,
      "grad_norm": 0.3329944908618927,
      "learning_rate": 0.00024189382874496184,
      "loss": 2.0802,
      "step": 1489
    },
    {
      "epoch": 0.6834078660704048,
      "grad_norm": 0.3392414152622223,
      "learning_rate": 0.00024125772552156916,
      "loss": 2.0856,
      "step": 1490
    },
    {
      "epoch": 0.6838665290677675,
      "grad_norm": 0.3259488642215729,
      "learning_rate": 0.00024062219372035292,
      "loss": 2.0672,
      "step": 1491
    },
    {
      "epoch": 0.6843251920651301,
      "grad_norm": 0.3392309844493866,
      "learning_rate": 0.00023998723474486007,
      "loss": 2.1025,
      "step": 1492
    },
    {
      "epoch": 0.6847838550624928,
      "grad_norm": 0.3549685776233673,
      "learning_rate": 0.00023935284999737272,
      "loss": 2.0569,
      "step": 1493
    },
    {
      "epoch": 0.6852425180598555,
      "grad_norm": 0.32470253109931946,
      "learning_rate": 0.00023871904087890505,
      "loss": 2.0824,
      "step": 1494
    },
    {
      "epoch": 0.6857011810572182,
      "grad_norm": 0.3357734978199005,
      "learning_rate": 0.00023808580878919945,
      "loss": 2.0308,
      "step": 1495
    },
    {
      "epoch": 0.6861598440545809,
      "grad_norm": 0.32442378997802734,
      "learning_rate": 0.00023745315512672398,
      "loss": 2.0099,
      "step": 1496
    },
    {
      "epoch": 0.6866185070519436,
      "grad_norm": 0.33343154191970825,
      "learning_rate": 0.0002368210812886698,
      "loss": 2.0718,
      "step": 1497
    },
    {
      "epoch": 0.6870771700493062,
      "grad_norm": 0.33191362023353577,
      "learning_rate": 0.0002361895886709471,
      "loss": 2.0304,
      "step": 1498
    },
    {
      "epoch": 0.687535833046669,
      "grad_norm": 0.33521708846092224,
      "learning_rate": 0.0002355586786681823,
      "loss": 2.0317,
      "step": 1499
    },
    {
      "epoch": 0.6879944960440316,
      "grad_norm": 0.3324822783470154,
      "learning_rate": 0.00023492835267371575,
      "loss": 2.0764,
      "step": 1500
    },
    {
      "epoch": 0.6884531590413944,
      "grad_norm": 0.32718604803085327,
      "learning_rate": 0.0002342986120795978,
      "loss": 2.0706,
      "step": 1501
    },
    {
      "epoch": 0.688911822038757,
      "grad_norm": 0.3285852074623108,
      "learning_rate": 0.0002336694582765857,
      "loss": 2.101,
      "step": 1502
    },
    {
      "epoch": 0.6893704850361198,
      "grad_norm": 0.30796948075294495,
      "learning_rate": 0.00023304089265414085,
      "loss": 2.0934,
      "step": 1503
    },
    {
      "epoch": 0.6898291480334824,
      "grad_norm": 0.3436580300331116,
      "learning_rate": 0.00023241291660042613,
      "loss": 2.0679,
      "step": 1504
    },
    {
      "epoch": 0.6902878110308451,
      "grad_norm": 0.34329161047935486,
      "learning_rate": 0.00023178553150230186,
      "loss": 2.0627,
      "step": 1505
    },
    {
      "epoch": 0.6907464740282078,
      "grad_norm": 0.33484962582588196,
      "learning_rate": 0.00023115873874532324,
      "loss": 2.1102,
      "step": 1506
    },
    {
      "epoch": 0.6912051370255705,
      "grad_norm": 0.3429654538631439,
      "learning_rate": 0.00023053253971373796,
      "loss": 2.0375,
      "step": 1507
    },
    {
      "epoch": 0.6916638000229332,
      "grad_norm": 0.3317810893058777,
      "learning_rate": 0.00022990693579048166,
      "loss": 2.0562,
      "step": 1508
    },
    {
      "epoch": 0.6921224630202958,
      "grad_norm": 0.32970529794692993,
      "learning_rate": 0.00022928192835717644,
      "loss": 2.0458,
      "step": 1509
    },
    {
      "epoch": 0.6925811260176585,
      "grad_norm": 0.39637792110443115,
      "learning_rate": 0.00022865751879412634,
      "loss": 2.1149,
      "step": 1510
    },
    {
      "epoch": 0.6930397890150212,
      "grad_norm": 0.3175446093082428,
      "learning_rate": 0.00022803370848031585,
      "loss": 2.0605,
      "step": 1511
    },
    {
      "epoch": 0.6934984520123839,
      "grad_norm": 0.3275795578956604,
      "learning_rate": 0.00022741049879340542,
      "loss": 2.0158,
      "step": 1512
    },
    {
      "epoch": 0.6939571150097466,
      "grad_norm": 0.3345760107040405,
      "learning_rate": 0.00022678789110972897,
      "loss": 2.0502,
      "step": 1513
    },
    {
      "epoch": 0.6944157780071093,
      "grad_norm": 0.3420329689979553,
      "learning_rate": 0.00022616588680429155,
      "loss": 2.0456,
      "step": 1514
    },
    {
      "epoch": 0.6948744410044719,
      "grad_norm": 0.33101892471313477,
      "learning_rate": 0.00022554448725076526,
      "loss": 2.0238,
      "step": 1515
    },
    {
      "epoch": 0.6953331040018347,
      "grad_norm": 0.3269544839859009,
      "learning_rate": 0.0002249236938214863,
      "loss": 2.0342,
      "step": 1516
    },
    {
      "epoch": 0.6957917669991973,
      "grad_norm": 0.3282085061073303,
      "learning_rate": 0.00022430350788745296,
      "loss": 2.159,
      "step": 1517
    },
    {
      "epoch": 0.6962504299965601,
      "grad_norm": 0.33880382776260376,
      "learning_rate": 0.00022368393081832166,
      "loss": 2.06,
      "step": 1518
    },
    {
      "epoch": 0.6967090929939227,
      "grad_norm": 0.31687667965888977,
      "learning_rate": 0.00022306496398240383,
      "loss": 2.0282,
      "step": 1519
    },
    {
      "epoch": 0.6971677559912854,
      "grad_norm": 0.320095956325531,
      "learning_rate": 0.00022244660874666373,
      "loss": 2.0355,
      "step": 1520
    },
    {
      "epoch": 0.6976264189886481,
      "grad_norm": 0.33309033513069153,
      "learning_rate": 0.00022182886647671452,
      "loss": 1.9952,
      "step": 1521
    },
    {
      "epoch": 0.6980850819860108,
      "grad_norm": 0.3287365734577179,
      "learning_rate": 0.0002212117385368157,
      "loss": 2.0182,
      "step": 1522
    },
    {
      "epoch": 0.6985437449833735,
      "grad_norm": 0.3200603723526001,
      "learning_rate": 0.00022059522628987038,
      "loss": 2.0344,
      "step": 1523
    },
    {
      "epoch": 0.6990024079807362,
      "grad_norm": 0.3245103359222412,
      "learning_rate": 0.00021997933109742162,
      "loss": 2.0554,
      "step": 1524
    },
    {
      "epoch": 0.6994610709780988,
      "grad_norm": 0.3409377336502075,
      "learning_rate": 0.00021936405431964969,
      "loss": 1.9705,
      "step": 1525
    },
    {
      "epoch": 0.6999197339754615,
      "grad_norm": 0.3241472542285919,
      "learning_rate": 0.00021874939731536926,
      "loss": 2.0175,
      "step": 1526
    },
    {
      "epoch": 0.7003783969728242,
      "grad_norm": 0.3119696080684662,
      "learning_rate": 0.00021813536144202656,
      "loss": 1.9924,
      "step": 1527
    },
    {
      "epoch": 0.7008370599701869,
      "grad_norm": 0.35786113142967224,
      "learning_rate": 0.00021752194805569553,
      "loss": 1.973,
      "step": 1528
    },
    {
      "epoch": 0.7012957229675496,
      "grad_norm": 0.3577839732170105,
      "learning_rate": 0.0002169091585110754,
      "loss": 2.0119,
      "step": 1529
    },
    {
      "epoch": 0.7017543859649122,
      "grad_norm": 0.35164958238601685,
      "learning_rate": 0.00021629699416148828,
      "loss": 2.1126,
      "step": 1530
    },
    {
      "epoch": 0.702213048962275,
      "grad_norm": 0.32103443145751953,
      "learning_rate": 0.000215685456358875,
      "loss": 2.1523,
      "step": 1531
    },
    {
      "epoch": 0.7026717119596376,
      "grad_norm": 0.3397533595561981,
      "learning_rate": 0.00021507454645379258,
      "loss": 2.087,
      "step": 1532
    },
    {
      "epoch": 0.7031303749570004,
      "grad_norm": 0.31966114044189453,
      "learning_rate": 0.00021446426579541184,
      "loss": 1.9856,
      "step": 1533
    },
    {
      "epoch": 0.703589037954363,
      "grad_norm": 0.3262123167514801,
      "learning_rate": 0.00021385461573151387,
      "loss": 2.0795,
      "step": 1534
    },
    {
      "epoch": 0.7040477009517258,
      "grad_norm": 0.35677120089530945,
      "learning_rate": 0.00021324559760848677,
      "loss": 1.9563,
      "step": 1535
    },
    {
      "epoch": 0.7045063639490884,
      "grad_norm": 0.33587446808815,
      "learning_rate": 0.00021263721277132303,
      "loss": 2.043,
      "step": 1536
    },
    {
      "epoch": 0.7049650269464511,
      "grad_norm": 0.3362109959125519,
      "learning_rate": 0.0002120294625636171,
      "loss": 2.0736,
      "step": 1537
    },
    {
      "epoch": 0.7054236899438138,
      "grad_norm": 0.34431350231170654,
      "learning_rate": 0.0002114223483275613,
      "loss": 2.0826,
      "step": 1538
    },
    {
      "epoch": 0.7058823529411765,
      "grad_norm": 0.36224737763404846,
      "learning_rate": 0.0002108158714039435,
      "loss": 2.1705,
      "step": 1539
    },
    {
      "epoch": 0.7063410159385392,
      "grad_norm": 0.31550997495651245,
      "learning_rate": 0.00021021003313214455,
      "loss": 2.0647,
      "step": 1540
    },
    {
      "epoch": 0.7067996789359019,
      "grad_norm": 0.333255410194397,
      "learning_rate": 0.00020960483485013432,
      "loss": 2.0445,
      "step": 1541
    },
    {
      "epoch": 0.7072583419332645,
      "grad_norm": 0.3368726968765259,
      "learning_rate": 0.0002090002778944694,
      "loss": 2.0518,
      "step": 1542
    },
    {
      "epoch": 0.7077170049306272,
      "grad_norm": 0.3474876582622528,
      "learning_rate": 0.00020839636360029025,
      "loss": 2.0469,
      "step": 1543
    },
    {
      "epoch": 0.7081756679279899,
      "grad_norm": 0.33710891008377075,
      "learning_rate": 0.00020779309330131818,
      "loss": 2.0318,
      "step": 1544
    },
    {
      "epoch": 0.7086343309253526,
      "grad_norm": 0.3362100124359131,
      "learning_rate": 0.00020719046832985184,
      "loss": 2.0133,
      "step": 1545
    },
    {
      "epoch": 0.7090929939227153,
      "grad_norm": 0.3424156606197357,
      "learning_rate": 0.0002065884900167646,
      "loss": 2.1009,
      "step": 1546
    },
    {
      "epoch": 0.7095516569200779,
      "grad_norm": 0.3435463011264801,
      "learning_rate": 0.0002059871596915024,
      "loss": 2.1673,
      "step": 1547
    },
    {
      "epoch": 0.7100103199174407,
      "grad_norm": 0.325210839509964,
      "learning_rate": 0.0002053864786820795,
      "loss": 1.9425,
      "step": 1548
    },
    {
      "epoch": 0.7104689829148033,
      "grad_norm": 0.3295753002166748,
      "learning_rate": 0.00020478644831507627,
      "loss": 2.1181,
      "step": 1549
    },
    {
      "epoch": 0.7109276459121661,
      "grad_norm": 0.3374938368797302,
      "learning_rate": 0.00020418706991563634,
      "loss": 2.0573,
      "step": 1550
    },
    {
      "epoch": 0.7113863089095287,
      "grad_norm": 0.3364545702934265,
      "learning_rate": 0.00020358834480746363,
      "loss": 2.0525,
      "step": 1551
    },
    {
      "epoch": 0.7118449719068914,
      "grad_norm": 0.324834942817688,
      "learning_rate": 0.0002029902743128188,
      "loss": 2.0942,
      "step": 1552
    },
    {
      "epoch": 0.7123036349042541,
      "grad_norm": 0.32058486342430115,
      "learning_rate": 0.0002023928597525174,
      "loss": 2.0092,
      "step": 1553
    },
    {
      "epoch": 0.7127622979016168,
      "grad_norm": 0.3263806402683258,
      "learning_rate": 0.00020179610244592595,
      "loss": 2.0551,
      "step": 1554
    },
    {
      "epoch": 0.7132209608989795,
      "grad_norm": 0.33508846163749695,
      "learning_rate": 0.00020120000371095937,
      "loss": 1.9859,
      "step": 1555
    },
    {
      "epoch": 0.7136796238963422,
      "grad_norm": 0.3126051425933838,
      "learning_rate": 0.0002006045648640787,
      "loss": 2.0175,
      "step": 1556
    },
    {
      "epoch": 0.7141382868937048,
      "grad_norm": 0.37612420320510864,
      "learning_rate": 0.00020000978722028713,
      "loss": 2.1661,
      "step": 1557
    },
    {
      "epoch": 0.7145969498910676,
      "grad_norm": 0.32474297285079956,
      "learning_rate": 0.00019941567209312767,
      "loss": 2.0267,
      "step": 1558
    },
    {
      "epoch": 0.7150556128884302,
      "grad_norm": 0.3317956328392029,
      "learning_rate": 0.00019882222079468036,
      "loss": 2.0094,
      "step": 1559
    },
    {
      "epoch": 0.7155142758857929,
      "grad_norm": 0.31444013118743896,
      "learning_rate": 0.0001982294346355595,
      "loss": 2.0423,
      "step": 1560
    },
    {
      "epoch": 0.7159729388831556,
      "grad_norm": 0.3259367048740387,
      "learning_rate": 0.00019763731492490976,
      "loss": 2.0272,
      "step": 1561
    },
    {
      "epoch": 0.7164316018805182,
      "grad_norm": 0.33175230026245117,
      "learning_rate": 0.00019704586297040422,
      "loss": 2.0371,
      "step": 1562
    },
    {
      "epoch": 0.716890264877881,
      "grad_norm": 0.3517272174358368,
      "learning_rate": 0.0001964550800782417,
      "loss": 1.9981,
      "step": 1563
    },
    {
      "epoch": 0.7173489278752436,
      "grad_norm": 0.33523112535476685,
      "learning_rate": 0.00019586496755314288,
      "loss": 1.9959,
      "step": 1564
    },
    {
      "epoch": 0.7178075908726064,
      "grad_norm": 0.31943759322166443,
      "learning_rate": 0.00019527552669834798,
      "loss": 2.0425,
      "step": 1565
    },
    {
      "epoch": 0.718266253869969,
      "grad_norm": 0.33339884877204895,
      "learning_rate": 0.0001946867588156142,
      "loss": 1.9669,
      "step": 1566
    },
    {
      "epoch": 0.7187249168673318,
      "grad_norm": 0.32981300354003906,
      "learning_rate": 0.00019409866520521258,
      "loss": 2.0656,
      "step": 1567
    },
    {
      "epoch": 0.7191835798646944,
      "grad_norm": 0.35353097319602966,
      "learning_rate": 0.00019351124716592455,
      "loss": 1.959,
      "step": 1568
    },
    {
      "epoch": 0.7196422428620571,
      "grad_norm": 0.37193119525909424,
      "learning_rate": 0.0001929245059950397,
      "loss": 2.1255,
      "step": 1569
    },
    {
      "epoch": 0.7201009058594198,
      "grad_norm": 0.33693450689315796,
      "learning_rate": 0.0001923384429883533,
      "loss": 1.9376,
      "step": 1570
    },
    {
      "epoch": 0.7205595688567825,
      "grad_norm": 0.317470908164978,
      "learning_rate": 0.00019175305944016237,
      "loss": 2.0772,
      "step": 1571
    },
    {
      "epoch": 0.7210182318541452,
      "grad_norm": 0.35149091482162476,
      "learning_rate": 0.00019116835664326326,
      "loss": 2.0212,
      "step": 1572
    },
    {
      "epoch": 0.7214768948515079,
      "grad_norm": 0.3227963447570801,
      "learning_rate": 0.0001905843358889497,
      "loss": 2.032,
      "step": 1573
    },
    {
      "epoch": 0.7219355578488705,
      "grad_norm": 0.3820369839668274,
      "learning_rate": 0.00019000099846700836,
      "loss": 2.043,
      "step": 1574
    },
    {
      "epoch": 0.7223942208462333,
      "grad_norm": 0.3355843126773834,
      "learning_rate": 0.00018941834566571692,
      "loss": 1.9659,
      "step": 1575
    },
    {
      "epoch": 0.7228528838435959,
      "grad_norm": 0.3261065185070038,
      "learning_rate": 0.00018883637877184145,
      "loss": 2.0969,
      "step": 1576
    },
    {
      "epoch": 0.7233115468409586,
      "grad_norm": 0.3496127128601074,
      "learning_rate": 0.00018825509907063325,
      "loss": 2.0486,
      "step": 1577
    },
    {
      "epoch": 0.7237702098383213,
      "grad_norm": 0.3287031352519989,
      "learning_rate": 0.00018767450784582557,
      "loss": 2.0398,
      "step": 1578
    },
    {
      "epoch": 0.7242288728356839,
      "grad_norm": 0.32472601532936096,
      "learning_rate": 0.00018709460637963122,
      "loss": 1.987,
      "step": 1579
    },
    {
      "epoch": 0.7246875358330467,
      "grad_norm": 0.339718222618103,
      "learning_rate": 0.00018651539595274013,
      "loss": 2.0134,
      "step": 1580
    },
    {
      "epoch": 0.7251461988304093,
      "grad_norm": 0.32426613569259644,
      "learning_rate": 0.00018593687784431578,
      "loss": 1.9615,
      "step": 1581
    },
    {
      "epoch": 0.7256048618277721,
      "grad_norm": 0.3451809287071228,
      "learning_rate": 0.00018535905333199248,
      "loss": 2.042,
      "step": 1582
    },
    {
      "epoch": 0.7260635248251347,
      "grad_norm": 0.3556594252586365,
      "learning_rate": 0.0001847819236918733,
      "loss": 2.1213,
      "step": 1583
    },
    {
      "epoch": 0.7265221878224974,
      "grad_norm": 0.3375927805900574,
      "learning_rate": 0.00018420549019852655,
      "loss": 2.0725,
      "step": 1584
    },
    {
      "epoch": 0.7269808508198601,
      "grad_norm": 0.3259066939353943,
      "learning_rate": 0.00018362975412498266,
      "loss": 1.9921,
      "step": 1585
    },
    {
      "epoch": 0.7274395138172228,
      "grad_norm": 0.3434261977672577,
      "learning_rate": 0.00018305471674273261,
      "loss": 2.0228,
      "step": 1586
    },
    {
      "epoch": 0.7278981768145855,
      "grad_norm": 0.3533225953578949,
      "learning_rate": 0.0001824803793217237,
      "loss": 2.0654,
      "step": 1587
    },
    {
      "epoch": 0.7283568398119482,
      "grad_norm": 0.33274275064468384,
      "learning_rate": 0.00018190674313035737,
      "loss": 2.0877,
      "step": 1588
    },
    {
      "epoch": 0.7288155028093108,
      "grad_norm": 0.3284541070461273,
      "learning_rate": 0.00018133380943548716,
      "loss": 1.9635,
      "step": 1589
    },
    {
      "epoch": 0.7292741658066736,
      "grad_norm": 0.34134262800216675,
      "learning_rate": 0.00018076157950241452,
      "loss": 2.0676,
      "step": 1590
    },
    {
      "epoch": 0.7297328288040362,
      "grad_norm": 0.3456065058708191,
      "learning_rate": 0.00018019005459488652,
      "loss": 2.0969,
      "step": 1591
    },
    {
      "epoch": 0.730191491801399,
      "grad_norm": 0.34199121594429016,
      "learning_rate": 0.00017961923597509388,
      "loss": 1.995,
      "step": 1592
    },
    {
      "epoch": 0.7306501547987616,
      "grad_norm": 0.33188197016716003,
      "learning_rate": 0.00017904912490366722,
      "loss": 2.0961,
      "step": 1593
    },
    {
      "epoch": 0.7311088177961242,
      "grad_norm": 0.3414762318134308,
      "learning_rate": 0.00017847972263967433,
      "loss": 2.0341,
      "step": 1594
    },
    {
      "epoch": 0.731567480793487,
      "grad_norm": 0.3469931185245514,
      "learning_rate": 0.0001779110304406177,
      "loss": 1.9783,
      "step": 1595
    },
    {
      "epoch": 0.7320261437908496,
      "grad_norm": 0.35806137323379517,
      "learning_rate": 0.000177343049562432,
      "loss": 2.0646,
      "step": 1596
    },
    {
      "epoch": 0.7324848067882124,
      "grad_norm": 0.34549641609191895,
      "learning_rate": 0.0001767757812594807,
      "loss": 2.0021,
      "step": 1597
    },
    {
      "epoch": 0.732943469785575,
      "grad_norm": 0.36836451292037964,
      "learning_rate": 0.0001762092267845534,
      "loss": 2.035,
      "step": 1598
    },
    {
      "epoch": 0.7334021327829378,
      "grad_norm": 0.3578541874885559,
      "learning_rate": 0.00017564338738886365,
      "loss": 2.116,
      "step": 1599
    },
    {
      "epoch": 0.7338607957803004,
      "grad_norm": 0.3238651752471924,
      "learning_rate": 0.0001750782643220457,
      "loss": 2.1262,
      "step": 1600
    },
    {
      "epoch": 0.7343194587776631,
      "grad_norm": 0.3191792368888855,
      "learning_rate": 0.00017451385883215166,
      "loss": 1.9388,
      "step": 1601
    },
    {
      "epoch": 0.7347781217750258,
      "grad_norm": 0.3376672863960266,
      "learning_rate": 0.00017395017216564863,
      "loss": 2.0405,
      "step": 1602
    },
    {
      "epoch": 0.7352367847723885,
      "grad_norm": 0.3322063684463501,
      "learning_rate": 0.00017338720556741687,
      "loss": 2.1125,
      "step": 1603
    },
    {
      "epoch": 0.7356954477697512,
      "grad_norm": 0.3437987267971039,
      "learning_rate": 0.00017282496028074606,
      "loss": 2.0382,
      "step": 1604
    },
    {
      "epoch": 0.7361541107671139,
      "grad_norm": 0.3369823098182678,
      "learning_rate": 0.00017226343754733254,
      "loss": 1.9963,
      "step": 1605
    },
    {
      "epoch": 0.7366127737644765,
      "grad_norm": 0.326089471578598,
      "learning_rate": 0.00017170263860727769,
      "loss": 2.018,
      "step": 1606
    },
    {
      "epoch": 0.7370714367618393,
      "grad_norm": 0.33932891488075256,
      "learning_rate": 0.0001711425646990838,
      "loss": 2.0867,
      "step": 1607
    },
    {
      "epoch": 0.7375300997592019,
      "grad_norm": 0.3544313609600067,
      "learning_rate": 0.00017058321705965202,
      "loss": 2.0632,
      "step": 1608
    },
    {
      "epoch": 0.7379887627565647,
      "grad_norm": 0.3315393030643463,
      "learning_rate": 0.0001700245969242798,
      "loss": 2.0244,
      "step": 1609
    },
    {
      "epoch": 0.7384474257539273,
      "grad_norm": 0.3661686182022095,
      "learning_rate": 0.00016946670552665804,
      "loss": 2.0985,
      "step": 1610
    },
    {
      "epoch": 0.7389060887512899,
      "grad_norm": 0.33360356092453003,
      "learning_rate": 0.00016890954409886795,
      "loss": 2.0424,
      "step": 1611
    },
    {
      "epoch": 0.7393647517486527,
      "grad_norm": 0.33950063586235046,
      "learning_rate": 0.00016835311387137836,
      "loss": 2.0278,
      "step": 1612
    },
    {
      "epoch": 0.7398234147460153,
      "grad_norm": 0.32358744740486145,
      "learning_rate": 0.0001677974160730441,
      "loss": 2.0589,
      "step": 1613
    },
    {
      "epoch": 0.7402820777433781,
      "grad_norm": 0.35109931230545044,
      "learning_rate": 0.00016724245193110176,
      "loss": 2.0575,
      "step": 1614
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.3208678960800171,
      "learning_rate": 0.00016668822267116784,
      "loss": 2.0126,
      "step": 1615
    },
    {
      "epoch": 0.7411994037381034,
      "grad_norm": 0.3234115540981293,
      "learning_rate": 0.00016613472951723597,
      "loss": 2.0089,
      "step": 1616
    },
    {
      "epoch": 0.7416580667354661,
      "grad_norm": 0.33893445134162903,
      "learning_rate": 0.00016558197369167434,
      "loss": 2.0801,
      "step": 1617
    },
    {
      "epoch": 0.7421167297328288,
      "grad_norm": 0.32415109872817993,
      "learning_rate": 0.00016502995641522216,
      "loss": 2.0777,
      "step": 1618
    },
    {
      "epoch": 0.7425753927301915,
      "grad_norm": 0.3365599811077118,
      "learning_rate": 0.00016447867890698843,
      "loss": 2.0969,
      "step": 1619
    },
    {
      "epoch": 0.7430340557275542,
      "grad_norm": 0.32262521982192993,
      "learning_rate": 0.00016392814238444753,
      "loss": 1.9773,
      "step": 1620
    },
    {
      "epoch": 0.7434927187249168,
      "grad_norm": 0.3290242850780487,
      "learning_rate": 0.00016337834806343782,
      "loss": 1.9862,
      "step": 1621
    },
    {
      "epoch": 0.7439513817222796,
      "grad_norm": 0.3425779342651367,
      "learning_rate": 0.0001628292971581588,
      "loss": 2.1081,
      "step": 1622
    },
    {
      "epoch": 0.7444100447196422,
      "grad_norm": 0.3335120975971222,
      "learning_rate": 0.00016228099088116772,
      "loss": 2.0909,
      "step": 1623
    },
    {
      "epoch": 0.744868707717005,
      "grad_norm": 0.3476775288581848,
      "learning_rate": 0.00016173343044337734,
      "loss": 1.945,
      "step": 1624
    },
    {
      "epoch": 0.7453273707143676,
      "grad_norm": 0.3211624324321747,
      "learning_rate": 0.00016118661705405356,
      "loss": 2.0736,
      "step": 1625
    },
    {
      "epoch": 0.7457860337117304,
      "grad_norm": 0.319582998752594,
      "learning_rate": 0.00016064055192081255,
      "loss": 1.9936,
      "step": 1626
    },
    {
      "epoch": 0.746244696709093,
      "grad_norm": 0.3279794752597809,
      "learning_rate": 0.00016009523624961757,
      "loss": 1.9411,
      "step": 1627
    },
    {
      "epoch": 0.7467033597064556,
      "grad_norm": 0.32049307227134705,
      "learning_rate": 0.00015955067124477678,
      "loss": 2.022,
      "step": 1628
    },
    {
      "epoch": 0.7471620227038184,
      "grad_norm": 0.35327011346817017,
      "learning_rate": 0.000159006858108941,
      "loss": 2.0501,
      "step": 1629
    },
    {
      "epoch": 0.747620685701181,
      "grad_norm": 0.33523041009902954,
      "learning_rate": 0.00015846379804310002,
      "loss": 1.9895,
      "step": 1630
    },
    {
      "epoch": 0.7480793486985438,
      "grad_norm": 0.34609881043434143,
      "learning_rate": 0.00015792149224658054,
      "loss": 2.0952,
      "step": 1631
    },
    {
      "epoch": 0.7485380116959064,
      "grad_norm": 0.3422398567199707,
      "learning_rate": 0.00015737994191704385,
      "loss": 1.9839,
      "step": 1632
    },
    {
      "epoch": 0.7489966746932691,
      "grad_norm": 0.3598373234272003,
      "learning_rate": 0.0001568391482504829,
      "loss": 1.9892,
      "step": 1633
    },
    {
      "epoch": 0.7494553376906318,
      "grad_norm": 0.3371201455593109,
      "learning_rate": 0.00015629911244121903,
      "loss": 2.1593,
      "step": 1634
    },
    {
      "epoch": 0.7499140006879945,
      "grad_norm": 0.33160385489463806,
      "learning_rate": 0.0001557598356819,
      "loss": 2.0241,
      "step": 1635
    },
    {
      "epoch": 0.7503726636853572,
      "grad_norm": 0.3350057601928711,
      "learning_rate": 0.00015522131916349786,
      "loss": 2.0625,
      "step": 1636
    },
    {
      "epoch": 0.7508313266827199,
      "grad_norm": 0.3371034860610962,
      "learning_rate": 0.00015468356407530493,
      "loss": 2.122,
      "step": 1637
    },
    {
      "epoch": 0.7512899896800825,
      "grad_norm": 0.3391827940940857,
      "learning_rate": 0.00015414657160493217,
      "loss": 2.0785,
      "step": 1638
    },
    {
      "epoch": 0.7517486526774453,
      "grad_norm": 0.36610037088394165,
      "learning_rate": 0.00015361034293830673,
      "loss": 2.0482,
      "step": 1639
    },
    {
      "epoch": 0.7522073156748079,
      "grad_norm": 0.33643755316734314,
      "learning_rate": 0.00015307487925966844,
      "loss": 2.0932,
      "step": 1640
    },
    {
      "epoch": 0.7526659786721707,
      "grad_norm": 0.33690154552459717,
      "learning_rate": 0.00015254018175156776,
      "loss": 2.0701,
      "step": 1641
    },
    {
      "epoch": 0.7531246416695333,
      "grad_norm": 0.3221490681171417,
      "learning_rate": 0.0001520062515948632,
      "loss": 1.9314,
      "step": 1642
    },
    {
      "epoch": 0.753583304666896,
      "grad_norm": 0.3406123220920563,
      "learning_rate": 0.0001514730899687189,
      "loss": 2.0556,
      "step": 1643
    },
    {
      "epoch": 0.7540419676642587,
      "grad_norm": 0.3540300726890564,
      "learning_rate": 0.00015094069805060122,
      "loss": 2.0552,
      "step": 1644
    },
    {
      "epoch": 0.7545006306616213,
      "grad_norm": 0.3433806300163269,
      "learning_rate": 0.00015040907701627666,
      "loss": 1.9554,
      "step": 1645
    },
    {
      "epoch": 0.7549592936589841,
      "grad_norm": 0.3226960599422455,
      "learning_rate": 0.00014987822803980976,
      "loss": 2.0708,
      "step": 1646
    },
    {
      "epoch": 0.7554179566563467,
      "grad_norm": 0.34447258710861206,
      "learning_rate": 0.00014934815229355965,
      "loss": 2.0092,
      "step": 1647
    },
    {
      "epoch": 0.7558766196537094,
      "grad_norm": 0.33287307620048523,
      "learning_rate": 0.00014881885094817748,
      "loss": 2.1188,
      "step": 1648
    },
    {
      "epoch": 0.7563352826510721,
      "grad_norm": 0.3311031460762024,
      "learning_rate": 0.00014829032517260488,
      "loss": 2.0646,
      "step": 1649
    },
    {
      "epoch": 0.7567939456484348,
      "grad_norm": 0.3248956799507141,
      "learning_rate": 0.0001477625761340704,
      "loss": 2.0886,
      "step": 1650
    },
    {
      "epoch": 0.7572526086457975,
      "grad_norm": 0.3729016184806824,
      "learning_rate": 0.0001472356049980868,
      "loss": 1.9882,
      "step": 1651
    },
    {
      "epoch": 0.7577112716431602,
      "grad_norm": 0.34441161155700684,
      "learning_rate": 0.00014670941292844954,
      "loss": 1.9646,
      "step": 1652
    },
    {
      "epoch": 0.7581699346405228,
      "grad_norm": 0.31504523754119873,
      "learning_rate": 0.00014618400108723295,
      "loss": 1.9557,
      "step": 1653
    },
    {
      "epoch": 0.7586285976378856,
      "grad_norm": 0.3311295211315155,
      "learning_rate": 0.00014565937063478862,
      "loss": 1.9919,
      "step": 1654
    },
    {
      "epoch": 0.7590872606352482,
      "grad_norm": 0.32932913303375244,
      "learning_rate": 0.00014513552272974207,
      "loss": 1.9843,
      "step": 1655
    },
    {
      "epoch": 0.759545923632611,
      "grad_norm": 0.33548247814178467,
      "learning_rate": 0.0001446124585289913,
      "loss": 2.0079,
      "step": 1656
    },
    {
      "epoch": 0.7600045866299736,
      "grad_norm": 0.35775214433670044,
      "learning_rate": 0.00014409017918770266,
      "loss": 2.0765,
      "step": 1657
    },
    {
      "epoch": 0.7604632496273364,
      "grad_norm": 0.3702171742916107,
      "learning_rate": 0.00014356868585930994,
      "loss": 1.9577,
      "step": 1658
    },
    {
      "epoch": 0.760921912624699,
      "grad_norm": 0.34249913692474365,
      "learning_rate": 0.00014304797969551077,
      "loss": 2.1858,
      "step": 1659
    },
    {
      "epoch": 0.7613805756220617,
      "grad_norm": 0.3537554144859314,
      "learning_rate": 0.00014252806184626417,
      "loss": 2.0874,
      "step": 1660
    },
    {
      "epoch": 0.7618392386194244,
      "grad_norm": 0.32945716381073,
      "learning_rate": 0.00014200893345978817,
      "loss": 2.0211,
      "step": 1661
    },
    {
      "epoch": 0.762297901616787,
      "grad_norm": 0.3599611222743988,
      "learning_rate": 0.00014149059568255778,
      "loss": 2.0226,
      "step": 1662
    },
    {
      "epoch": 0.7627565646141498,
      "grad_norm": 0.334920734167099,
      "learning_rate": 0.00014097304965930157,
      "loss": 2.0629,
      "step": 1663
    },
    {
      "epoch": 0.7632152276115124,
      "grad_norm": 0.32538139820098877,
      "learning_rate": 0.00014045629653299953,
      "loss": 2.0121,
      "step": 1664
    },
    {
      "epoch": 0.7636738906088751,
      "grad_norm": 0.3232828974723816,
      "learning_rate": 0.00013994033744488076,
      "loss": 1.9924,
      "step": 1665
    },
    {
      "epoch": 0.7641325536062378,
      "grad_norm": 0.32565808296203613,
      "learning_rate": 0.00013942517353442092,
      "loss": 2.0187,
      "step": 1666
    },
    {
      "epoch": 0.7645912166036005,
      "grad_norm": 0.33574435114860535,
      "learning_rate": 0.0001389108059393391,
      "loss": 2.0611,
      "step": 1667
    },
    {
      "epoch": 0.7650498796009632,
      "grad_norm": 0.33057498931884766,
      "learning_rate": 0.00013839723579559581,
      "loss": 2.0072,
      "step": 1668
    },
    {
      "epoch": 0.7655085425983259,
      "grad_norm": 0.33915096521377563,
      "learning_rate": 0.00013788446423739103,
      "loss": 2.0379,
      "step": 1669
    },
    {
      "epoch": 0.7659672055956885,
      "grad_norm": 0.34137195348739624,
      "learning_rate": 0.00013737249239716042,
      "loss": 2.0118,
      "step": 1670
    },
    {
      "epoch": 0.7664258685930513,
      "grad_norm": 0.32765817642211914,
      "learning_rate": 0.00013686132140557355,
      "loss": 2.0322,
      "step": 1671
    },
    {
      "epoch": 0.7668845315904139,
      "grad_norm": 0.34576907753944397,
      "learning_rate": 0.00013635095239153188,
      "loss": 2.034,
      "step": 1672
    },
    {
      "epoch": 0.7673431945877767,
      "grad_norm": 0.33069732785224915,
      "learning_rate": 0.00013584138648216527,
      "loss": 2.0405,
      "step": 1673
    },
    {
      "epoch": 0.7678018575851393,
      "grad_norm": 0.3432854115962982,
      "learning_rate": 0.0001353326248028298,
      "loss": 2.0703,
      "step": 1674
    },
    {
      "epoch": 0.768260520582502,
      "grad_norm": 0.328828364610672,
      "learning_rate": 0.00013482466847710594,
      "loss": 2.0695,
      "step": 1675
    },
    {
      "epoch": 0.7687191835798647,
      "grad_norm": 0.3249857723712921,
      "learning_rate": 0.00013431751862679554,
      "loss": 1.9715,
      "step": 1676
    },
    {
      "epoch": 0.7691778465772274,
      "grad_norm": 0.32063227891921997,
      "learning_rate": 0.00013381117637191887,
      "loss": 1.9814,
      "step": 1677
    },
    {
      "epoch": 0.7696365095745901,
      "grad_norm": 0.33133962750434875,
      "learning_rate": 0.00013330564283071293,
      "loss": 1.9877,
      "step": 1678
    },
    {
      "epoch": 0.7700951725719528,
      "grad_norm": 0.35811471939086914,
      "learning_rate": 0.000132800919119629,
      "loss": 2.0106,
      "step": 1679
    },
    {
      "epoch": 0.7705538355693154,
      "grad_norm": 0.3273875415325165,
      "learning_rate": 0.00013229700635332948,
      "loss": 2.0178,
      "step": 1680
    },
    {
      "epoch": 0.7710124985666781,
      "grad_norm": 0.33895865082740784,
      "learning_rate": 0.00013179390564468585,
      "loss": 2.0247,
      "step": 1681
    },
    {
      "epoch": 0.7714711615640408,
      "grad_norm": 0.34154900908470154,
      "learning_rate": 0.00013129161810477641,
      "loss": 2.0508,
      "step": 1682
    },
    {
      "epoch": 0.7719298245614035,
      "grad_norm": 0.3230709731578827,
      "learning_rate": 0.0001307901448428837,
      "loss": 2.0479,
      "step": 1683
    },
    {
      "epoch": 0.7723884875587662,
      "grad_norm": 0.33616119623184204,
      "learning_rate": 0.0001302894869664916,
      "loss": 1.9906,
      "step": 1684
    },
    {
      "epoch": 0.7728471505561288,
      "grad_norm": 0.3213129937648773,
      "learning_rate": 0.00012978964558128336,
      "loss": 1.9829,
      "step": 1685
    },
    {
      "epoch": 0.7733058135534916,
      "grad_norm": 0.32817891240119934,
      "learning_rate": 0.00012929062179113925,
      "loss": 2.0241,
      "step": 1686
    },
    {
      "epoch": 0.7737644765508542,
      "grad_norm": 0.35151687264442444,
      "learning_rate": 0.00012879241669813368,
      "loss": 2.1383,
      "step": 1687
    },
    {
      "epoch": 0.774223139548217,
      "grad_norm": 0.3344481885433197,
      "learning_rate": 0.00012829503140253295,
      "loss": 2.0207,
      "step": 1688
    },
    {
      "epoch": 0.7746818025455796,
      "grad_norm": 0.34662434458732605,
      "learning_rate": 0.0001277984670027933,
      "loss": 2.0529,
      "step": 1689
    },
    {
      "epoch": 0.7751404655429424,
      "grad_norm": 0.3489684760570526,
      "learning_rate": 0.00012730272459555737,
      "loss": 1.993,
      "step": 1690
    },
    {
      "epoch": 0.775599128540305,
      "grad_norm": 0.3353107273578644,
      "learning_rate": 0.00012680780527565312,
      "loss": 1.9844,
      "step": 1691
    },
    {
      "epoch": 0.7760577915376677,
      "grad_norm": 0.3382978141307831,
      "learning_rate": 0.0001263137101360905,
      "loss": 2.0181,
      "step": 1692
    },
    {
      "epoch": 0.7765164545350304,
      "grad_norm": 0.3269224762916565,
      "learning_rate": 0.00012582044026805922,
      "loss": 1.9726,
      "step": 1693
    },
    {
      "epoch": 0.7769751175323931,
      "grad_norm": 0.32933732867240906,
      "learning_rate": 0.00012532799676092627,
      "loss": 2.0879,
      "step": 1694
    },
    {
      "epoch": 0.7774337805297558,
      "grad_norm": 0.33565306663513184,
      "learning_rate": 0.00012483638070223414,
      "loss": 2.0302,
      "step": 1695
    },
    {
      "epoch": 0.7778924435271185,
      "grad_norm": 0.3467947542667389,
      "learning_rate": 0.00012434559317769752,
      "loss": 2.0583,
      "step": 1696
    },
    {
      "epoch": 0.7783511065244811,
      "grad_norm": 0.3534018099308014,
      "learning_rate": 0.0001238556352712012,
      "loss": 2.0781,
      "step": 1697
    },
    {
      "epoch": 0.7788097695218438,
      "grad_norm": 0.33479660749435425,
      "learning_rate": 0.00012336650806479827,
      "loss": 2.0459,
      "step": 1698
    },
    {
      "epoch": 0.7792684325192065,
      "grad_norm": 0.33601275086402893,
      "learning_rate": 0.00012287821263870708,
      "loss": 2.0929,
      "step": 1699
    },
    {
      "epoch": 0.7797270955165692,
      "grad_norm": 0.34123528003692627,
      "learning_rate": 0.00012239075007130885,
      "loss": 1.9806,
      "step": 1700
    },
    {
      "epoch": 0.7801857585139319,
      "grad_norm": 0.33589860796928406,
      "learning_rate": 0.00012190412143914536,
      "loss": 1.9302,
      "step": 1701
    },
    {
      "epoch": 0.7806444215112945,
      "grad_norm": 0.32233935594558716,
      "learning_rate": 0.0001214183278169172,
      "loss": 2.1683,
      "step": 1702
    },
    {
      "epoch": 0.7811030845086573,
      "grad_norm": 0.32133305072784424,
      "learning_rate": 0.00012093337027748042,
      "loss": 2.0415,
      "step": 1703
    },
    {
      "epoch": 0.7815617475060199,
      "grad_norm": 0.3379969596862793,
      "learning_rate": 0.00012044924989184459,
      "loss": 2.0432,
      "step": 1704
    },
    {
      "epoch": 0.7820204105033827,
      "grad_norm": 0.3218575417995453,
      "learning_rate": 0.0001199659677291709,
      "loss": 2.0942,
      "step": 1705
    },
    {
      "epoch": 0.7824790735007453,
      "grad_norm": 0.3264141082763672,
      "learning_rate": 0.00011948352485676895,
      "loss": 2.0192,
      "step": 1706
    },
    {
      "epoch": 0.782937736498108,
      "grad_norm": 0.3261936604976654,
      "learning_rate": 0.00011900192234009477,
      "loss": 2.0288,
      "step": 1707
    },
    {
      "epoch": 0.7833963994954707,
      "grad_norm": 0.31832417845726013,
      "learning_rate": 0.00011852116124274875,
      "loss": 2.0487,
      "step": 1708
    },
    {
      "epoch": 0.7838550624928334,
      "grad_norm": 0.34661948680877686,
      "learning_rate": 0.00011804124262647314,
      "loss": 2.0145,
      "step": 1709
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 0.34050339460372925,
      "learning_rate": 0.00011756216755114929,
      "loss": 2.1364,
      "step": 1710
    },
    {
      "epoch": 0.7847723884875588,
      "grad_norm": 0.3384164571762085,
      "learning_rate": 0.00011708393707479548,
      "loss": 2.0237,
      "step": 1711
    },
    {
      "epoch": 0.7852310514849214,
      "grad_norm": 0.32568836212158203,
      "learning_rate": 0.00011660655225356531,
      "loss": 2.0322,
      "step": 1712
    },
    {
      "epoch": 0.7856897144822842,
      "grad_norm": 0.338344544172287,
      "learning_rate": 0.0001161300141417444,
      "loss": 2.0591,
      "step": 1713
    },
    {
      "epoch": 0.7861483774796468,
      "grad_norm": 0.3306933343410492,
      "learning_rate": 0.00011565432379174823,
      "loss": 2.0179,
      "step": 1714
    },
    {
      "epoch": 0.7866070404770095,
      "grad_norm": 0.3427383303642273,
      "learning_rate": 0.00011517948225412056,
      "loss": 2.0736,
      "step": 1715
    },
    {
      "epoch": 0.7870657034743722,
      "grad_norm": 0.3522680401802063,
      "learning_rate": 0.00011470549057753032,
      "loss": 2.0524,
      "step": 1716
    },
    {
      "epoch": 0.7875243664717348,
      "grad_norm": 0.3210778534412384,
      "learning_rate": 0.00011423234980876957,
      "loss": 2.0206,
      "step": 1717
    },
    {
      "epoch": 0.7879830294690976,
      "grad_norm": 0.32599085569381714,
      "learning_rate": 0.00011376006099275099,
      "loss": 2.0723,
      "step": 1718
    },
    {
      "epoch": 0.7884416924664602,
      "grad_norm": 0.3313656151294708,
      "learning_rate": 0.00011328862517250609,
      "loss": 2.0479,
      "step": 1719
    },
    {
      "epoch": 0.788900355463823,
      "grad_norm": 0.35842856764793396,
      "learning_rate": 0.00011281804338918239,
      "loss": 2.0295,
      "step": 1720
    },
    {
      "epoch": 0.7893590184611856,
      "grad_norm": 0.33085641264915466,
      "learning_rate": 0.00011234831668204115,
      "loss": 2.0554,
      "step": 1721
    },
    {
      "epoch": 0.7898176814585484,
      "grad_norm": 0.34674328565597534,
      "learning_rate": 0.00011187944608845569,
      "loss": 2.0659,
      "step": 1722
    },
    {
      "epoch": 0.790276344455911,
      "grad_norm": 0.34148934483528137,
      "learning_rate": 0.00011141143264390801,
      "loss": 2.0723,
      "step": 1723
    },
    {
      "epoch": 0.7907350074532737,
      "grad_norm": 0.33418625593185425,
      "learning_rate": 0.0001109442773819877,
      "loss": 2.0004,
      "step": 1724
    },
    {
      "epoch": 0.7911936704506364,
      "grad_norm": 0.3386755585670471,
      "learning_rate": 0.0001104779813343889,
      "loss": 2.0533,
      "step": 1725
    },
    {
      "epoch": 0.7916523334479991,
      "grad_norm": 0.32710835337638855,
      "learning_rate": 0.00011001254553090812,
      "loss": 2.0578,
      "step": 1726
    },
    {
      "epoch": 0.7921109964453618,
      "grad_norm": 0.3236292898654938,
      "learning_rate": 0.00010954797099944186,
      "loss": 1.9943,
      "step": 1727
    },
    {
      "epoch": 0.7925696594427245,
      "grad_norm": 0.33811476826667786,
      "learning_rate": 0.0001090842587659851,
      "loss": 2.1026,
      "step": 1728
    },
    {
      "epoch": 0.7930283224400871,
      "grad_norm": 0.33085137605667114,
      "learning_rate": 0.00010862140985462804,
      "loss": 1.9646,
      "step": 1729
    },
    {
      "epoch": 0.7934869854374499,
      "grad_norm": 0.340729683637619,
      "learning_rate": 0.00010815942528755418,
      "loss": 2.0735,
      "step": 1730
    },
    {
      "epoch": 0.7939456484348125,
      "grad_norm": 0.3327585756778717,
      "learning_rate": 0.00010769830608503844,
      "loss": 2.0712,
      "step": 1731
    },
    {
      "epoch": 0.7944043114321752,
      "grad_norm": 0.34611013531684875,
      "learning_rate": 0.00010723805326544473,
      "loss": 2.0685,
      "step": 1732
    },
    {
      "epoch": 0.7948629744295379,
      "grad_norm": 0.332717627286911,
      "learning_rate": 0.00010677866784522316,
      "loss": 1.9598,
      "step": 1733
    },
    {
      "epoch": 0.7953216374269005,
      "grad_norm": 0.3334291875362396,
      "learning_rate": 0.00010632015083890839,
      "loss": 2.1819,
      "step": 1734
    },
    {
      "epoch": 0.7957803004242633,
      "grad_norm": 0.3228795528411865,
      "learning_rate": 0.00010586250325911745,
      "loss": 2.0652,
      "step": 1735
    },
    {
      "epoch": 0.7962389634216259,
      "grad_norm": 0.3323340117931366,
      "learning_rate": 0.00010540572611654697,
      "loss": 2.0085,
      "step": 1736
    },
    {
      "epoch": 0.7966976264189887,
      "grad_norm": 0.35653385519981384,
      "learning_rate": 0.00010494982041997126,
      "loss": 2.0465,
      "step": 1737
    },
    {
      "epoch": 0.7971562894163513,
      "grad_norm": 0.32658571004867554,
      "learning_rate": 0.0001044947871762405,
      "loss": 2.0764,
      "step": 1738
    },
    {
      "epoch": 0.797614952413714,
      "grad_norm": 0.33134809136390686,
      "learning_rate": 0.00010404062739027753,
      "loss": 2.1297,
      "step": 1739
    },
    {
      "epoch": 0.7980736154110767,
      "grad_norm": 0.32792791724205017,
      "learning_rate": 0.00010358734206507641,
      "loss": 1.9952,
      "step": 1740
    },
    {
      "epoch": 0.7985322784084394,
      "grad_norm": 0.35475093126296997,
      "learning_rate": 0.00010313493220170017,
      "loss": 1.9583,
      "step": 1741
    },
    {
      "epoch": 0.7989909414058021,
      "grad_norm": 0.3221728801727295,
      "learning_rate": 0.00010268339879927836,
      "loss": 2.0355,
      "step": 1742
    },
    {
      "epoch": 0.7994496044031648,
      "grad_norm": 0.3329988420009613,
      "learning_rate": 0.00010223274285500466,
      "loss": 2.1157,
      "step": 1743
    },
    {
      "epoch": 0.7999082674005275,
      "grad_norm": 0.34313634037971497,
      "learning_rate": 0.00010178296536413495,
      "loss": 2.0025,
      "step": 1744
    },
    {
      "epoch": 0.8003669303978902,
      "grad_norm": 0.343021959066391,
      "learning_rate": 0.00010133406731998546,
      "loss": 2.0194,
      "step": 1745
    },
    {
      "epoch": 0.8008255933952528,
      "grad_norm": 0.33619165420532227,
      "learning_rate": 0.00010088604971392979,
      "loss": 2.084,
      "step": 1746
    },
    {
      "epoch": 0.8012842563926156,
      "grad_norm": 0.337879478931427,
      "learning_rate": 0.0001004389135353972,
      "loss": 2.0557,
      "step": 1747
    },
    {
      "epoch": 0.8017429193899782,
      "grad_norm": 0.32594063878059387,
      "learning_rate": 9.999265977187049e-05,
      "loss": 2.0566,
      "step": 1748
    },
    {
      "epoch": 0.8022015823873409,
      "grad_norm": 0.31570279598236084,
      "learning_rate": 9.95472894088838e-05,
      "loss": 1.9604,
      "step": 1749
    },
    {
      "epoch": 0.8026602453847036,
      "grad_norm": 0.3125738203525543,
      "learning_rate": 9.910280343001993e-05,
      "loss": 2.0294,
      "step": 1750
    },
    {
      "epoch": 0.8031189083820662,
      "grad_norm": 0.33288413286209106,
      "learning_rate": 9.865920281690866e-05,
      "loss": 2.0183,
      "step": 1751
    },
    {
      "epoch": 0.803577571379429,
      "grad_norm": 0.36455851793289185,
      "learning_rate": 9.821648854922482e-05,
      "loss": 2.0334,
      "step": 1752
    },
    {
      "epoch": 0.8040362343767916,
      "grad_norm": 0.33703112602233887,
      "learning_rate": 9.77746616046854e-05,
      "loss": 2.0614,
      "step": 1753
    },
    {
      "epoch": 0.8044948973741544,
      "grad_norm": 0.3413013815879822,
      "learning_rate": 9.733372295904774e-05,
      "loss": 2.052,
      "step": 1754
    },
    {
      "epoch": 0.804953560371517,
      "grad_norm": 0.3457481861114502,
      "learning_rate": 9.68936735861079e-05,
      "loss": 2.142,
      "step": 1755
    },
    {
      "epoch": 0.8054122233688797,
      "grad_norm": 0.3561994433403015,
      "learning_rate": 9.645451445769737e-05,
      "loss": 2.0035,
      "step": 1756
    },
    {
      "epoch": 0.8058708863662424,
      "grad_norm": 0.33115532994270325,
      "learning_rate": 9.601624654368196e-05,
      "loss": 2.0222,
      "step": 1757
    },
    {
      "epoch": 0.8063295493636051,
      "grad_norm": 0.3442879617214203,
      "learning_rate": 9.557887081195938e-05,
      "loss": 2.1181,
      "step": 1758
    },
    {
      "epoch": 0.8067882123609678,
      "grad_norm": 0.36036503314971924,
      "learning_rate": 9.514238822845667e-05,
      "loss": 1.9667,
      "step": 1759
    },
    {
      "epoch": 0.8072468753583305,
      "grad_norm": 0.338428795337677,
      "learning_rate": 9.470679975712837e-05,
      "loss": 2.0501,
      "step": 1760
    },
    {
      "epoch": 0.8077055383556931,
      "grad_norm": 0.33058518171310425,
      "learning_rate": 9.427210635995481e-05,
      "loss": 2.0397,
      "step": 1761
    },
    {
      "epoch": 0.8081642013530559,
      "grad_norm": 0.3349657952785492,
      "learning_rate": 9.383830899693923e-05,
      "loss": 1.9774,
      "step": 1762
    },
    {
      "epoch": 0.8086228643504185,
      "grad_norm": 0.3373779356479645,
      "learning_rate": 9.340540862610591e-05,
      "loss": 2.0894,
      "step": 1763
    },
    {
      "epoch": 0.8090815273477813,
      "grad_norm": 0.3338479697704315,
      "learning_rate": 9.297340620349854e-05,
      "loss": 2.0076,
      "step": 1764
    },
    {
      "epoch": 0.8095401903451439,
      "grad_norm": 0.33289778232574463,
      "learning_rate": 9.25423026831777e-05,
      "loss": 2.0304,
      "step": 1765
    },
    {
      "epoch": 0.8099988533425065,
      "grad_norm": 0.3405468463897705,
      "learning_rate": 9.211209901721846e-05,
      "loss": 1.9567,
      "step": 1766
    },
    {
      "epoch": 0.8104575163398693,
      "grad_norm": 0.3338547646999359,
      "learning_rate": 9.168279615570863e-05,
      "loss": 2.0292,
      "step": 1767
    },
    {
      "epoch": 0.8109161793372319,
      "grad_norm": 0.3262595236301422,
      "learning_rate": 9.125439504674699e-05,
      "loss": 1.9821,
      "step": 1768
    },
    {
      "epoch": 0.8113748423345947,
      "grad_norm": 0.3343698978424072,
      "learning_rate": 9.082689663644057e-05,
      "loss": 1.959,
      "step": 1769
    },
    {
      "epoch": 0.8118335053319573,
      "grad_norm": 0.328243225812912,
      "learning_rate": 9.040030186890264e-05,
      "loss": 2.0496,
      "step": 1770
    },
    {
      "epoch": 0.81229216832932,
      "grad_norm": 0.3297436535358429,
      "learning_rate": 8.997461168625138e-05,
      "loss": 2.0681,
      "step": 1771
    },
    {
      "epoch": 0.8127508313266827,
      "grad_norm": 0.3321306109428406,
      "learning_rate": 8.954982702860664e-05,
      "loss": 1.9846,
      "step": 1772
    },
    {
      "epoch": 0.8132094943240454,
      "grad_norm": 0.3521999716758728,
      "learning_rate": 8.912594883408865e-05,
      "loss": 2.0307,
      "step": 1773
    },
    {
      "epoch": 0.8136681573214081,
      "grad_norm": 0.3452381193637848,
      "learning_rate": 8.870297803881589e-05,
      "loss": 2.0769,
      "step": 1774
    },
    {
      "epoch": 0.8141268203187708,
      "grad_norm": 0.3521290421485901,
      "learning_rate": 8.828091557690287e-05,
      "loss": 2.0187,
      "step": 1775
    },
    {
      "epoch": 0.8145854833161335,
      "grad_norm": 0.3167319893836975,
      "learning_rate": 8.785976238045801e-05,
      "loss": 1.9438,
      "step": 1776
    },
    {
      "epoch": 0.8150441463134962,
      "grad_norm": 0.33500635623931885,
      "learning_rate": 8.743951937958144e-05,
      "loss": 2.0132,
      "step": 1777
    },
    {
      "epoch": 0.8155028093108588,
      "grad_norm": 0.3261116147041321,
      "learning_rate": 8.702018750236357e-05,
      "loss": 2.0095,
      "step": 1778
    },
    {
      "epoch": 0.8159614723082216,
      "grad_norm": 0.34935781359672546,
      "learning_rate": 8.660176767488237e-05,
      "loss": 2.0586,
      "step": 1779
    },
    {
      "epoch": 0.8164201353055842,
      "grad_norm": 0.3350525498390198,
      "learning_rate": 8.618426082120146e-05,
      "loss": 1.9614,
      "step": 1780
    },
    {
      "epoch": 0.816878798302947,
      "grad_norm": 0.3275878131389618,
      "learning_rate": 8.576766786336854e-05,
      "loss": 2.0114,
      "step": 1781
    },
    {
      "epoch": 0.8173374613003096,
      "grad_norm": 0.3601328730583191,
      "learning_rate": 8.535198972141294e-05,
      "loss": 2.0804,
      "step": 1782
    },
    {
      "epoch": 0.8177961242976722,
      "grad_norm": 0.3493730127811432,
      "learning_rate": 8.493722731334347e-05,
      "loss": 2.1325,
      "step": 1783
    },
    {
      "epoch": 0.818254787295035,
      "grad_norm": 0.3288089632987976,
      "learning_rate": 8.452338155514644e-05,
      "loss": 2.0629,
      "step": 1784
    },
    {
      "epoch": 0.8187134502923976,
      "grad_norm": 0.32540008425712585,
      "learning_rate": 8.411045336078426e-05,
      "loss": 2.0637,
      "step": 1785
    },
    {
      "epoch": 0.8191721132897604,
      "grad_norm": 0.3303190767765045,
      "learning_rate": 8.369844364219264e-05,
      "loss": 2.0024,
      "step": 1786
    },
    {
      "epoch": 0.819630776287123,
      "grad_norm": 0.3621615469455719,
      "learning_rate": 8.328735330927873e-05,
      "loss": 2.0102,
      "step": 1787
    },
    {
      "epoch": 0.8200894392844857,
      "grad_norm": 0.3325220048427582,
      "learning_rate": 8.287718326991961e-05,
      "loss": 2.1302,
      "step": 1788
    },
    {
      "epoch": 0.8205481022818484,
      "grad_norm": 0.3255818784236908,
      "learning_rate": 8.246793442995954e-05,
      "loss": 2.0355,
      "step": 1789
    },
    {
      "epoch": 0.8210067652792111,
      "grad_norm": 0.34443411231040955,
      "learning_rate": 8.205960769320875e-05,
      "loss": 1.993,
      "step": 1790
    },
    {
      "epoch": 0.8214654282765738,
      "grad_norm": 0.33334270119667053,
      "learning_rate": 8.165220396144085e-05,
      "loss": 2.0902,
      "step": 1791
    },
    {
      "epoch": 0.8219240912739365,
      "grad_norm": 0.3366607427597046,
      "learning_rate": 8.12457241343909e-05,
      "loss": 1.9899,
      "step": 1792
    },
    {
      "epoch": 0.8223827542712991,
      "grad_norm": 0.33501937985420227,
      "learning_rate": 8.084016910975367e-05,
      "loss": 2.0031,
      "step": 1793
    },
    {
      "epoch": 0.8228414172686619,
      "grad_norm": 0.34990838170051575,
      "learning_rate": 8.043553978318169e-05,
      "loss": 2.0295,
      "step": 1794
    },
    {
      "epoch": 0.8233000802660245,
      "grad_norm": 0.3471173048019409,
      "learning_rate": 8.003183704828281e-05,
      "loss": 2.0554,
      "step": 1795
    },
    {
      "epoch": 0.8237587432633873,
      "grad_norm": 0.3385334312915802,
      "learning_rate": 7.962906179661872e-05,
      "loss": 2.0225,
      "step": 1796
    },
    {
      "epoch": 0.8242174062607499,
      "grad_norm": 0.3345108926296234,
      "learning_rate": 7.922721491770296e-05,
      "loss": 2.0567,
      "step": 1797
    },
    {
      "epoch": 0.8246760692581127,
      "grad_norm": 0.3247579336166382,
      "learning_rate": 7.882629729899832e-05,
      "loss": 1.9025,
      "step": 1798
    },
    {
      "epoch": 0.8251347322554753,
      "grad_norm": 0.3452613055706024,
      "learning_rate": 7.842630982591598e-05,
      "loss": 2.0042,
      "step": 1799
    },
    {
      "epoch": 0.8255933952528379,
      "grad_norm": 0.3334669768810272,
      "learning_rate": 7.802725338181232e-05,
      "loss": 2.061,
      "step": 1800
    },
    {
      "epoch": 0.8260520582502007,
      "grad_norm": 0.380740225315094,
      "learning_rate": 7.762912884798812e-05,
      "loss": 2.0258,
      "step": 1801
    },
    {
      "epoch": 0.8265107212475633,
      "grad_norm": 0.33295878767967224,
      "learning_rate": 7.723193710368564e-05,
      "loss": 2.0277,
      "step": 1802
    },
    {
      "epoch": 0.826969384244926,
      "grad_norm": 0.3454897701740265,
      "learning_rate": 7.683567902608729e-05,
      "loss": 2.067,
      "step": 1803
    },
    {
      "epoch": 0.8274280472422887,
      "grad_norm": 0.34284549951553345,
      "learning_rate": 7.644035549031364e-05,
      "loss": 1.96,
      "step": 1804
    },
    {
      "epoch": 0.8278867102396514,
      "grad_norm": 0.35165441036224365,
      "learning_rate": 7.604596736942115e-05,
      "loss": 1.9961,
      "step": 1805
    },
    {
      "epoch": 0.8283453732370141,
      "grad_norm": 0.34941160678863525,
      "learning_rate": 7.56525155344004e-05,
      "loss": 2.0038,
      "step": 1806
    },
    {
      "epoch": 0.8288040362343768,
      "grad_norm": 0.3427576422691345,
      "learning_rate": 7.52600008541745e-05,
      "loss": 2.0677,
      "step": 1807
    },
    {
      "epoch": 0.8292626992317395,
      "grad_norm": 0.36217543482780457,
      "learning_rate": 7.486842419559681e-05,
      "loss": 2.0642,
      "step": 1808
    },
    {
      "epoch": 0.8297213622291022,
      "grad_norm": 0.35589882731437683,
      "learning_rate": 7.447778642344898e-05,
      "loss": 2.0673,
      "step": 1809
    },
    {
      "epoch": 0.8301800252264648,
      "grad_norm": 0.334699422121048,
      "learning_rate": 7.408808840043912e-05,
      "loss": 2.028,
      "step": 1810
    },
    {
      "epoch": 0.8306386882238276,
      "grad_norm": 0.3411083519458771,
      "learning_rate": 7.369933098720021e-05,
      "loss": 2.0115,
      "step": 1811
    },
    {
      "epoch": 0.8310973512211902,
      "grad_norm": 0.30689290165901184,
      "learning_rate": 7.331151504228767e-05,
      "loss": 2.0398,
      "step": 1812
    },
    {
      "epoch": 0.831556014218553,
      "grad_norm": 0.31705576181411743,
      "learning_rate": 7.292464142217775e-05,
      "loss": 1.957,
      "step": 1813
    },
    {
      "epoch": 0.8320146772159156,
      "grad_norm": 0.34605830907821655,
      "learning_rate": 7.25387109812658e-05,
      "loss": 1.9663,
      "step": 1814
    },
    {
      "epoch": 0.8324733402132783,
      "grad_norm": 0.33785703778266907,
      "learning_rate": 7.215372457186415e-05,
      "loss": 2.0055,
      "step": 1815
    },
    {
      "epoch": 0.832932003210641,
      "grad_norm": 0.3322782516479492,
      "learning_rate": 7.176968304420007e-05,
      "loss": 1.9998,
      "step": 1816
    },
    {
      "epoch": 0.8333906662080036,
      "grad_norm": 0.31601670384407043,
      "learning_rate": 7.138658724641417e-05,
      "loss": 2.0324,
      "step": 1817
    },
    {
      "epoch": 0.8338493292053664,
      "grad_norm": 0.3392930030822754,
      "learning_rate": 7.10044380245587e-05,
      "loss": 1.9677,
      "step": 1818
    },
    {
      "epoch": 0.834307992202729,
      "grad_norm": 0.3405528664588928,
      "learning_rate": 7.062323622259515e-05,
      "loss": 1.9957,
      "step": 1819
    },
    {
      "epoch": 0.8347666552000917,
      "grad_norm": 0.3505588471889496,
      "learning_rate": 7.024298268239265e-05,
      "loss": 2.0655,
      "step": 1820
    },
    {
      "epoch": 0.8352253181974544,
      "grad_norm": 0.3232312798500061,
      "learning_rate": 6.986367824372647e-05,
      "loss": 2.0324,
      "step": 1821
    },
    {
      "epoch": 0.8356839811948171,
      "grad_norm": 0.33405300974845886,
      "learning_rate": 6.948532374427541e-05,
      "loss": 2.0938,
      "step": 1822
    },
    {
      "epoch": 0.8361426441921798,
      "grad_norm": 0.33294591307640076,
      "learning_rate": 6.910792001962063e-05,
      "loss": 2.031,
      "step": 1823
    },
    {
      "epoch": 0.8366013071895425,
      "grad_norm": 0.3481937050819397,
      "learning_rate": 6.873146790324358e-05,
      "loss": 2.0541,
      "step": 1824
    },
    {
      "epoch": 0.8370599701869051,
      "grad_norm": 0.33155232667922974,
      "learning_rate": 6.83559682265239e-05,
      "loss": 1.9957,
      "step": 1825
    },
    {
      "epoch": 0.8375186331842679,
      "grad_norm": 0.34733426570892334,
      "learning_rate": 6.798142181873784e-05,
      "loss": 2.0606,
      "step": 1826
    },
    {
      "epoch": 0.8379772961816305,
      "grad_norm": 0.32574474811553955,
      "learning_rate": 6.760782950705662e-05,
      "loss": 2.015,
      "step": 1827
    },
    {
      "epoch": 0.8384359591789933,
      "grad_norm": 0.3191988170146942,
      "learning_rate": 6.723519211654422e-05,
      "loss": 2.0428,
      "step": 1828
    },
    {
      "epoch": 0.8388946221763559,
      "grad_norm": 0.33231741189956665,
      "learning_rate": 6.686351047015554e-05,
      "loss": 1.9795,
      "step": 1829
    },
    {
      "epoch": 0.8393532851737187,
      "grad_norm": 0.317675918340683,
      "learning_rate": 6.649278538873515e-05,
      "loss": 2.0394,
      "step": 1830
    },
    {
      "epoch": 0.8398119481710813,
      "grad_norm": 0.32421427965164185,
      "learning_rate": 6.612301769101465e-05,
      "loss": 2.1224,
      "step": 1831
    },
    {
      "epoch": 0.840270611168444,
      "grad_norm": 0.350307434797287,
      "learning_rate": 6.575420819361177e-05,
      "loss": 2.0074,
      "step": 1832
    },
    {
      "epoch": 0.8407292741658067,
      "grad_norm": 0.35540175437927246,
      "learning_rate": 6.538635771102757e-05,
      "loss": 2.1329,
      "step": 1833
    },
    {
      "epoch": 0.8411879371631693,
      "grad_norm": 0.3173213601112366,
      "learning_rate": 6.501946705564566e-05,
      "loss": 1.9779,
      "step": 1834
    },
    {
      "epoch": 0.841646600160532,
      "grad_norm": 0.33741798996925354,
      "learning_rate": 6.465353703772959e-05,
      "loss": 2.0106,
      "step": 1835
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 0.33246278762817383,
      "learning_rate": 6.428856846542136e-05,
      "loss": 2.0624,
      "step": 1836
    },
    {
      "epoch": 0.8425639261552574,
      "grad_norm": 0.3252115845680237,
      "learning_rate": 6.392456214473996e-05,
      "loss": 1.9934,
      "step": 1837
    },
    {
      "epoch": 0.8430225891526201,
      "grad_norm": 0.3287968635559082,
      "learning_rate": 6.3561518879579e-05,
      "loss": 1.9431,
      "step": 1838
    },
    {
      "epoch": 0.8434812521499828,
      "grad_norm": 0.333670049905777,
      "learning_rate": 6.31994394717052e-05,
      "loss": 2.0361,
      "step": 1839
    },
    {
      "epoch": 0.8439399151473455,
      "grad_norm": 0.35950595140457153,
      "learning_rate": 6.283832472075685e-05,
      "loss": 2.0415,
      "step": 1840
    },
    {
      "epoch": 0.8443985781447082,
      "grad_norm": 0.34131813049316406,
      "learning_rate": 6.247817542424178e-05,
      "loss": 2.029,
      "step": 1841
    },
    {
      "epoch": 0.8448572411420708,
      "grad_norm": 0.34344592690467834,
      "learning_rate": 6.211899237753559e-05,
      "loss": 2.0178,
      "step": 1842
    },
    {
      "epoch": 0.8453159041394336,
      "grad_norm": 0.34135863184928894,
      "learning_rate": 6.176077637387984e-05,
      "loss": 1.9747,
      "step": 1843
    },
    {
      "epoch": 0.8457745671367962,
      "grad_norm": 0.3386250436306,
      "learning_rate": 6.140352820438066e-05,
      "loss": 1.9914,
      "step": 1844
    },
    {
      "epoch": 0.846233230134159,
      "grad_norm": 0.35224103927612305,
      "learning_rate": 6.104724865800665e-05,
      "loss": 2.0445,
      "step": 1845
    },
    {
      "epoch": 0.8466918931315216,
      "grad_norm": 0.352427214384079,
      "learning_rate": 6.069193852158711e-05,
      "loss": 1.9861,
      "step": 1846
    },
    {
      "epoch": 0.8471505561288843,
      "grad_norm": 0.3520638346672058,
      "learning_rate": 6.0337598579810584e-05,
      "loss": 1.9614,
      "step": 1847
    },
    {
      "epoch": 0.847609219126247,
      "grad_norm": 0.34628722071647644,
      "learning_rate": 5.9984229615223096e-05,
      "loss": 2.0445,
      "step": 1848
    },
    {
      "epoch": 0.8480678821236097,
      "grad_norm": 0.34534144401550293,
      "learning_rate": 5.963183240822606e-05,
      "loss": 1.9912,
      "step": 1849
    },
    {
      "epoch": 0.8485265451209724,
      "grad_norm": 0.34636932611465454,
      "learning_rate": 5.9280407737074825e-05,
      "loss": 2.0721,
      "step": 1850
    },
    {
      "epoch": 0.848985208118335,
      "grad_norm": 0.3192894458770752,
      "learning_rate": 5.8929956377877125e-05,
      "loss": 2.0086,
      "step": 1851
    },
    {
      "epoch": 0.8494438711156977,
      "grad_norm": 0.3305390477180481,
      "learning_rate": 5.8580479104591075e-05,
      "loss": 2.037,
      "step": 1852
    },
    {
      "epoch": 0.8499025341130604,
      "grad_norm": 0.3407405912876129,
      "learning_rate": 5.823197668902341e-05,
      "loss": 1.9707,
      "step": 1853
    },
    {
      "epoch": 0.8503611971104231,
      "grad_norm": 0.35455527901649475,
      "learning_rate": 5.78844499008282e-05,
      "loss": 2.0331,
      "step": 1854
    },
    {
      "epoch": 0.8508198601077858,
      "grad_norm": 0.3344654142856598,
      "learning_rate": 5.753789950750454e-05,
      "loss": 2.0213,
      "step": 1855
    },
    {
      "epoch": 0.8512785231051485,
      "grad_norm": 0.3252853751182556,
      "learning_rate": 5.719232627439558e-05,
      "loss": 1.9302,
      "step": 1856
    },
    {
      "epoch": 0.8517371861025111,
      "grad_norm": 0.3285248875617981,
      "learning_rate": 5.6847730964686315e-05,
      "loss": 2.0981,
      "step": 1857
    },
    {
      "epoch": 0.8521958490998739,
      "grad_norm": 0.3298693895339966,
      "learning_rate": 5.650411433940189e-05,
      "loss": 1.9731,
      "step": 1858
    },
    {
      "epoch": 0.8526545120972365,
      "grad_norm": 0.3182595372200012,
      "learning_rate": 5.61614771574061e-05,
      "loss": 1.9524,
      "step": 1859
    },
    {
      "epoch": 0.8531131750945993,
      "grad_norm": 0.354637086391449,
      "learning_rate": 5.581982017539988e-05,
      "loss": 2.0191,
      "step": 1860
    },
    {
      "epoch": 0.8535718380919619,
      "grad_norm": 0.3396778106689453,
      "learning_rate": 5.5479144147919216e-05,
      "loss": 1.9669,
      "step": 1861
    },
    {
      "epoch": 0.8540305010893247,
      "grad_norm": 0.3483061194419861,
      "learning_rate": 5.51394498273336e-05,
      "loss": 2.085,
      "step": 1862
    },
    {
      "epoch": 0.8544891640866873,
      "grad_norm": 0.33940109610557556,
      "learning_rate": 5.480073796384494e-05,
      "loss": 2.0642,
      "step": 1863
    },
    {
      "epoch": 0.85494782708405,
      "grad_norm": 0.325271338224411,
      "learning_rate": 5.446300930548492e-05,
      "loss": 1.9985,
      "step": 1864
    },
    {
      "epoch": 0.8554064900814127,
      "grad_norm": 0.32396918535232544,
      "learning_rate": 5.412626459811415e-05,
      "loss": 1.996,
      "step": 1865
    },
    {
      "epoch": 0.8558651530787754,
      "grad_norm": 0.32839104533195496,
      "learning_rate": 5.3790504585419954e-05,
      "loss": 1.9168,
      "step": 1866
    },
    {
      "epoch": 0.8563238160761381,
      "grad_norm": 0.3395535945892334,
      "learning_rate": 5.345573000891541e-05,
      "loss": 2.0007,
      "step": 1867
    },
    {
      "epoch": 0.8567824790735007,
      "grad_norm": 0.3297286033630371,
      "learning_rate": 5.312194160793693e-05,
      "loss": 2.0425,
      "step": 1868
    },
    {
      "epoch": 0.8572411420708634,
      "grad_norm": 0.3447737395763397,
      "learning_rate": 5.278914011964303e-05,
      "loss": 2.0277,
      "step": 1869
    },
    {
      "epoch": 0.8576998050682261,
      "grad_norm": 0.3510493338108063,
      "learning_rate": 5.2457326279013006e-05,
      "loss": 2.1086,
      "step": 1870
    },
    {
      "epoch": 0.8581584680655888,
      "grad_norm": 0.32512736320495605,
      "learning_rate": 5.2126500818844514e-05,
      "loss": 2.0943,
      "step": 1871
    },
    {
      "epoch": 0.8586171310629515,
      "grad_norm": 0.3280315399169922,
      "learning_rate": 5.1796664469752566e-05,
      "loss": 2.0094,
      "step": 1872
    },
    {
      "epoch": 0.8590757940603142,
      "grad_norm": 0.33556655049324036,
      "learning_rate": 5.1467817960167975e-05,
      "loss": 2.0101,
      "step": 1873
    },
    {
      "epoch": 0.8595344570576768,
      "grad_norm": 0.32948675751686096,
      "learning_rate": 5.113996201633536e-05,
      "loss": 1.9846,
      "step": 1874
    },
    {
      "epoch": 0.8599931200550396,
      "grad_norm": 0.3341898024082184,
      "learning_rate": 5.0813097362311765e-05,
      "loss": 1.9384,
      "step": 1875
    },
    {
      "epoch": 0.8604517830524022,
      "grad_norm": 0.33959469199180603,
      "learning_rate": 5.048722471996475e-05,
      "loss": 2.0389,
      "step": 1876
    },
    {
      "epoch": 0.860910446049765,
      "grad_norm": 0.33860886096954346,
      "learning_rate": 5.016234480897158e-05,
      "loss": 1.9497,
      "step": 1877
    },
    {
      "epoch": 0.8613691090471276,
      "grad_norm": 0.3284611403942108,
      "learning_rate": 4.9838458346816664e-05,
      "loss": 2.0195,
      "step": 1878
    },
    {
      "epoch": 0.8618277720444903,
      "grad_norm": 0.3395249545574188,
      "learning_rate": 4.9515566048790485e-05,
      "loss": 1.9807,
      "step": 1879
    },
    {
      "epoch": 0.862286435041853,
      "grad_norm": 0.3303118348121643,
      "learning_rate": 4.9193668627988074e-05,
      "loss": 2.0584,
      "step": 1880
    },
    {
      "epoch": 0.8627450980392157,
      "grad_norm": 0.34687384963035583,
      "learning_rate": 4.887276679530744e-05,
      "loss": 2.053,
      "step": 1881
    },
    {
      "epoch": 0.8632037610365784,
      "grad_norm": 0.335056334733963,
      "learning_rate": 4.855286125944752e-05,
      "loss": 2.0536,
      "step": 1882
    },
    {
      "epoch": 0.8636624240339411,
      "grad_norm": 0.34650853276252747,
      "learning_rate": 4.8233952726907224e-05,
      "loss": 2.0075,
      "step": 1883
    },
    {
      "epoch": 0.8641210870313037,
      "grad_norm": 0.34783896803855896,
      "learning_rate": 4.7916041901983565e-05,
      "loss": 1.9914,
      "step": 1884
    },
    {
      "epoch": 0.8645797500286664,
      "grad_norm": 0.35488152503967285,
      "learning_rate": 4.7599129486770145e-05,
      "loss": 1.9934,
      "step": 1885
    },
    {
      "epoch": 0.8650384130260291,
      "grad_norm": 0.33492928743362427,
      "learning_rate": 4.728321618115555e-05,
      "loss": 1.9538,
      "step": 1886
    },
    {
      "epoch": 0.8654970760233918,
      "grad_norm": 0.33102473616600037,
      "learning_rate": 4.696830268282204e-05,
      "loss": 2.0469,
      "step": 1887
    },
    {
      "epoch": 0.8659557390207545,
      "grad_norm": 0.3234994113445282,
      "learning_rate": 4.665438968724361e-05,
      "loss": 2.0126,
      "step": 1888
    },
    {
      "epoch": 0.8664144020181171,
      "grad_norm": 0.33834391832351685,
      "learning_rate": 4.634147788768489e-05,
      "loss": 2.064,
      "step": 1889
    },
    {
      "epoch": 0.8668730650154799,
      "grad_norm": 0.3422311246395111,
      "learning_rate": 4.6029567975199414e-05,
      "loss": 2.019,
      "step": 1890
    },
    {
      "epoch": 0.8673317280128425,
      "grad_norm": 0.3408200740814209,
      "learning_rate": 4.571866063862795e-05,
      "loss": 2.1045,
      "step": 1891
    },
    {
      "epoch": 0.8677903910102053,
      "grad_norm": 0.32874688506126404,
      "learning_rate": 4.540875656459703e-05,
      "loss": 2.0178,
      "step": 1892
    },
    {
      "epoch": 0.8682490540075679,
      "grad_norm": 0.3289533853530884,
      "learning_rate": 4.509985643751785e-05,
      "loss": 2.0313,
      "step": 1893
    },
    {
      "epoch": 0.8687077170049307,
      "grad_norm": 0.3405735492706299,
      "learning_rate": 4.479196093958421e-05,
      "loss": 2.0565,
      "step": 1894
    },
    {
      "epoch": 0.8691663800022933,
      "grad_norm": 0.3411601781845093,
      "learning_rate": 4.4485070750771187e-05,
      "loss": 1.9882,
      "step": 1895
    },
    {
      "epoch": 0.869625042999656,
      "grad_norm": 0.3548937141895294,
      "learning_rate": 4.417918654883363e-05,
      "loss": 2.0232,
      "step": 1896
    },
    {
      "epoch": 0.8700837059970187,
      "grad_norm": 0.3461020886898041,
      "learning_rate": 4.3874309009305e-05,
      "loss": 2.1025,
      "step": 1897
    },
    {
      "epoch": 0.8705423689943814,
      "grad_norm": 0.3361280560493469,
      "learning_rate": 4.357043880549538e-05,
      "loss": 2.0716,
      "step": 1898
    },
    {
      "epoch": 0.8710010319917441,
      "grad_norm": 0.32957008481025696,
      "learning_rate": 4.326757660849012e-05,
      "loss": 1.9822,
      "step": 1899
    },
    {
      "epoch": 0.8714596949891068,
      "grad_norm": 0.3417305648326874,
      "learning_rate": 4.2965723087148635e-05,
      "loss": 1.9996,
      "step": 1900
    },
    {
      "epoch": 0.8719183579864694,
      "grad_norm": 0.3125220537185669,
      "learning_rate": 4.266487890810256e-05,
      "loss": 1.9619,
      "step": 1901
    },
    {
      "epoch": 0.8723770209838321,
      "grad_norm": 0.31717440485954285,
      "learning_rate": 4.2365044735754365e-05,
      "loss": 1.9613,
      "step": 1902
    },
    {
      "epoch": 0.8728356839811948,
      "grad_norm": 0.338451087474823,
      "learning_rate": 4.2066221232276266e-05,
      "loss": 1.9575,
      "step": 1903
    },
    {
      "epoch": 0.8732943469785575,
      "grad_norm": 0.330717533826828,
      "learning_rate": 4.176840905760815e-05,
      "loss": 1.9695,
      "step": 1904
    },
    {
      "epoch": 0.8737530099759202,
      "grad_norm": 0.34346804022789,
      "learning_rate": 4.1471608869456443e-05,
      "loss": 2.1171,
      "step": 1905
    },
    {
      "epoch": 0.8742116729732828,
      "grad_norm": 0.33501261472702026,
      "learning_rate": 4.117582132329284e-05,
      "loss": 2.0465,
      "step": 1906
    },
    {
      "epoch": 0.8746703359706456,
      "grad_norm": 0.3438001573085785,
      "learning_rate": 4.088104707235263e-05,
      "loss": 2.0399,
      "step": 1907
    },
    {
      "epoch": 0.8751289989680082,
      "grad_norm": 0.3494251072406769,
      "learning_rate": 4.058728676763313e-05,
      "loss": 1.9584,
      "step": 1908
    },
    {
      "epoch": 0.875587661965371,
      "grad_norm": 0.3471274971961975,
      "learning_rate": 4.0294541057892375e-05,
      "loss": 1.9543,
      "step": 1909
    },
    {
      "epoch": 0.8760463249627336,
      "grad_norm": 0.34921109676361084,
      "learning_rate": 4.000281058964794e-05,
      "loss": 1.9687,
      "step": 1910
    },
    {
      "epoch": 0.8765049879600963,
      "grad_norm": 0.3282676041126251,
      "learning_rate": 3.971209600717507e-05,
      "loss": 1.9336,
      "step": 1911
    },
    {
      "epoch": 0.876963650957459,
      "grad_norm": 0.3212363123893738,
      "learning_rate": 3.9422397952505465e-05,
      "loss": 2.05,
      "step": 1912
    },
    {
      "epoch": 0.8774223139548217,
      "grad_norm": 0.3255329728126526,
      "learning_rate": 3.913371706542596e-05,
      "loss": 1.9361,
      "step": 1913
    },
    {
      "epoch": 0.8778809769521844,
      "grad_norm": 0.35128623247146606,
      "learning_rate": 3.884605398347707e-05,
      "loss": 2.1225,
      "step": 1914
    },
    {
      "epoch": 0.8783396399495471,
      "grad_norm": 0.34498631954193115,
      "learning_rate": 3.8559409341951456e-05,
      "loss": 2.0312,
      "step": 1915
    },
    {
      "epoch": 0.8787983029469097,
      "grad_norm": 0.34764957427978516,
      "learning_rate": 3.8273783773892404e-05,
      "loss": 1.9688,
      "step": 1916
    },
    {
      "epoch": 0.8792569659442725,
      "grad_norm": 0.3355240523815155,
      "learning_rate": 3.798917791009293e-05,
      "loss": 1.9748,
      "step": 1917
    },
    {
      "epoch": 0.8797156289416351,
      "grad_norm": 0.3340420126914978,
      "learning_rate": 3.770559237909393e-05,
      "loss": 1.9621,
      "step": 1918
    },
    {
      "epoch": 0.8801742919389978,
      "grad_norm": 0.3300202786922455,
      "learning_rate": 3.742302780718288e-05,
      "loss": 1.9387,
      "step": 1919
    },
    {
      "epoch": 0.8806329549363605,
      "grad_norm": 0.30531948804855347,
      "learning_rate": 3.7141484818392635e-05,
      "loss": 1.9626,
      "step": 1920
    },
    {
      "epoch": 0.8810916179337231,
      "grad_norm": 0.34519946575164795,
      "learning_rate": 3.686096403449973e-05,
      "loss": 2.0121,
      "step": 1921
    },
    {
      "epoch": 0.8815502809310859,
      "grad_norm": 0.32990896701812744,
      "learning_rate": 3.658146607502344e-05,
      "loss": 2.0654,
      "step": 1922
    },
    {
      "epoch": 0.8820089439284485,
      "grad_norm": 0.33774158358573914,
      "learning_rate": 3.630299155722411e-05,
      "loss": 2.0262,
      "step": 1923
    },
    {
      "epoch": 0.8824676069258113,
      "grad_norm": 0.34478652477264404,
      "learning_rate": 3.6025541096101676e-05,
      "loss": 2.0854,
      "step": 1924
    },
    {
      "epoch": 0.8829262699231739,
      "grad_norm": 0.33743759989738464,
      "learning_rate": 3.574911530439473e-05,
      "loss": 2.0464,
      "step": 1925
    },
    {
      "epoch": 0.8833849329205367,
      "grad_norm": 0.3559132516384125,
      "learning_rate": 3.5473714792578606e-05,
      "loss": 2.149,
      "step": 1926
    },
    {
      "epoch": 0.8838435959178993,
      "grad_norm": 0.33519643545150757,
      "learning_rate": 3.519934016886478e-05,
      "loss": 2.0963,
      "step": 1927
    },
    {
      "epoch": 0.884302258915262,
      "grad_norm": 0.3641338050365448,
      "learning_rate": 3.4925992039198776e-05,
      "loss": 2.0421,
      "step": 1928
    },
    {
      "epoch": 0.8847609219126247,
      "grad_norm": 0.32447299361228943,
      "learning_rate": 3.465367100725908e-05,
      "loss": 2.0017,
      "step": 1929
    },
    {
      "epoch": 0.8852195849099874,
      "grad_norm": 0.31685516238212585,
      "learning_rate": 3.438237767445618e-05,
      "loss": 2.0461,
      "step": 1930
    },
    {
      "epoch": 0.8856782479073501,
      "grad_norm": 0.3465927839279175,
      "learning_rate": 3.4112112639930804e-05,
      "loss": 1.9972,
      "step": 1931
    },
    {
      "epoch": 0.8861369109047128,
      "grad_norm": 0.3359062671661377,
      "learning_rate": 3.3842876500552564e-05,
      "loss": 2.0659,
      "step": 1932
    },
    {
      "epoch": 0.8865955739020754,
      "grad_norm": 0.32833418250083923,
      "learning_rate": 3.357466985091906e-05,
      "loss": 2.0068,
      "step": 1933
    },
    {
      "epoch": 0.8870542368994382,
      "grad_norm": 0.3433009386062622,
      "learning_rate": 3.330749328335414e-05,
      "loss": 1.9705,
      "step": 1934
    },
    {
      "epoch": 0.8875128998968008,
      "grad_norm": 0.3286474049091339,
      "learning_rate": 3.304134738790659e-05,
      "loss": 2.0283,
      "step": 1935
    },
    {
      "epoch": 0.8879715628941636,
      "grad_norm": 0.33839553594589233,
      "learning_rate": 3.277623275234953e-05,
      "loss": 2.0692,
      "step": 1936
    },
    {
      "epoch": 0.8884302258915262,
      "grad_norm": 0.3390723168849945,
      "learning_rate": 3.2512149962177994e-05,
      "loss": 1.9421,
      "step": 1937
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.3402280807495117,
      "learning_rate": 3.224909960060851e-05,
      "loss": 2.0443,
      "step": 1938
    },
    {
      "epoch": 0.8893475518862516,
      "grad_norm": 0.32824447751045227,
      "learning_rate": 3.198708224857755e-05,
      "loss": 1.9743,
      "step": 1939
    },
    {
      "epoch": 0.8898062148836142,
      "grad_norm": 0.33919981122016907,
      "learning_rate": 3.172609848474023e-05,
      "loss": 2.0284,
      "step": 1940
    },
    {
      "epoch": 0.890264877880977,
      "grad_norm": 0.3499298393726349,
      "learning_rate": 3.1466148885468895e-05,
      "loss": 2.0714,
      "step": 1941
    },
    {
      "epoch": 0.8907235408783396,
      "grad_norm": 0.35161665081977844,
      "learning_rate": 3.120723402485198e-05,
      "loss": 1.9708,
      "step": 1942
    },
    {
      "epoch": 0.8911822038757024,
      "grad_norm": 0.3329281210899353,
      "learning_rate": 3.094935447469294e-05,
      "loss": 2.0867,
      "step": 1943
    },
    {
      "epoch": 0.891640866873065,
      "grad_norm": 0.3389713168144226,
      "learning_rate": 3.069251080450863e-05,
      "loss": 2.0156,
      "step": 1944
    },
    {
      "epoch": 0.8920995298704277,
      "grad_norm": 0.33864837884902954,
      "learning_rate": 3.0436703581528113e-05,
      "loss": 2.0506,
      "step": 1945
    },
    {
      "epoch": 0.8925581928677904,
      "grad_norm": 0.33353662490844727,
      "learning_rate": 3.0181933370691694e-05,
      "loss": 1.9639,
      "step": 1946
    },
    {
      "epoch": 0.8930168558651531,
      "grad_norm": 0.33192017674446106,
      "learning_rate": 2.9928200734649523e-05,
      "loss": 2.0046,
      "step": 1947
    },
    {
      "epoch": 0.8934755188625157,
      "grad_norm": 0.3424644470214844,
      "learning_rate": 2.9675506233760142e-05,
      "loss": 2.0124,
      "step": 1948
    },
    {
      "epoch": 0.8939341818598785,
      "grad_norm": 0.3159506916999817,
      "learning_rate": 2.942385042608925e-05,
      "loss": 2.0224,
      "step": 1949
    },
    {
      "epoch": 0.8943928448572411,
      "grad_norm": 0.3466539680957794,
      "learning_rate": 2.9173233867409054e-05,
      "loss": 2.0296,
      "step": 1950
    },
    {
      "epoch": 0.8948515078546039,
      "grad_norm": 0.3392426073551178,
      "learning_rate": 2.892365711119638e-05,
      "loss": 2.0266,
      "step": 1951
    },
    {
      "epoch": 0.8953101708519665,
      "grad_norm": 0.3165040910243988,
      "learning_rate": 2.8675120708631596e-05,
      "loss": 2.0011,
      "step": 1952
    },
    {
      "epoch": 0.8957688338493293,
      "grad_norm": 0.336899071931839,
      "learning_rate": 2.8427625208597764e-05,
      "loss": 2.0526,
      "step": 1953
    },
    {
      "epoch": 0.8962274968466919,
      "grad_norm": 0.3330848217010498,
      "learning_rate": 2.8181171157678874e-05,
      "loss": 2.0672,
      "step": 1954
    },
    {
      "epoch": 0.8966861598440545,
      "grad_norm": 0.34551262855529785,
      "learning_rate": 2.7935759100159053e-05,
      "loss": 2.0225,
      "step": 1955
    },
    {
      "epoch": 0.8971448228414173,
      "grad_norm": 0.33952927589416504,
      "learning_rate": 2.7691389578021365e-05,
      "loss": 2.016,
      "step": 1956
    },
    {
      "epoch": 0.8976034858387799,
      "grad_norm": 0.3399946391582489,
      "learning_rate": 2.7448063130946223e-05,
      "loss": 2.0321,
      "step": 1957
    },
    {
      "epoch": 0.8980621488361427,
      "grad_norm": 0.3368859887123108,
      "learning_rate": 2.7205780296310544e-05,
      "loss": 2.0062,
      "step": 1958
    },
    {
      "epoch": 0.8985208118335053,
      "grad_norm": 0.37184351682662964,
      "learning_rate": 2.6964541609186378e-05,
      "loss": 2.014,
      "step": 1959
    },
    {
      "epoch": 0.898979474830868,
      "grad_norm": 0.323956161737442,
      "learning_rate": 2.6724347602340104e-05,
      "loss": 2.0324,
      "step": 1960
    },
    {
      "epoch": 0.8994381378282307,
      "grad_norm": 0.3300897181034088,
      "learning_rate": 2.6485198806230682e-05,
      "loss": 2.1031,
      "step": 1961
    },
    {
      "epoch": 0.8998968008255934,
      "grad_norm": 0.3585176467895508,
      "learning_rate": 2.6247095749008797e-05,
      "loss": 2.0699,
      "step": 1962
    },
    {
      "epoch": 0.9003554638229561,
      "grad_norm": 0.341901034116745,
      "learning_rate": 2.6010038956515826e-05,
      "loss": 2.0527,
      "step": 1963
    },
    {
      "epoch": 0.9008141268203188,
      "grad_norm": 0.33131951093673706,
      "learning_rate": 2.5774028952282423e-05,
      "loss": 1.9908,
      "step": 1964
    },
    {
      "epoch": 0.9012727898176814,
      "grad_norm": 0.33347925543785095,
      "learning_rate": 2.5539066257527277e-05,
      "loss": 2.0426,
      "step": 1965
    },
    {
      "epoch": 0.9017314528150442,
      "grad_norm": 0.34312716126441956,
      "learning_rate": 2.530515139115652e-05,
      "loss": 2.0282,
      "step": 1966
    },
    {
      "epoch": 0.9021901158124068,
      "grad_norm": 0.3260166049003601,
      "learning_rate": 2.5072284869761874e-05,
      "loss": 1.9927,
      "step": 1967
    },
    {
      "epoch": 0.9026487788097696,
      "grad_norm": 0.34140947461128235,
      "learning_rate": 2.4840467207619786e-05,
      "loss": 2.067,
      "step": 1968
    },
    {
      "epoch": 0.9031074418071322,
      "grad_norm": 0.3357495963573456,
      "learning_rate": 2.460969891669068e-05,
      "loss": 2.0513,
      "step": 1969
    },
    {
      "epoch": 0.903566104804495,
      "grad_norm": 0.3294079303741455,
      "learning_rate": 2.4379980506617272e-05,
      "loss": 2.0621,
      "step": 1970
    },
    {
      "epoch": 0.9040247678018576,
      "grad_norm": 0.33768999576568604,
      "learning_rate": 2.4151312484723464e-05,
      "loss": 1.9811,
      "step": 1971
    },
    {
      "epoch": 0.9044834307992202,
      "grad_norm": 0.3182968497276306,
      "learning_rate": 2.3923695356013798e-05,
      "loss": 1.9971,
      "step": 1972
    },
    {
      "epoch": 0.904942093796583,
      "grad_norm": 0.34670618176460266,
      "learning_rate": 2.3697129623171833e-05,
      "loss": 2.1026,
      "step": 1973
    },
    {
      "epoch": 0.9054007567939456,
      "grad_norm": 0.33252647519111633,
      "learning_rate": 2.3471615786559042e-05,
      "loss": 1.9873,
      "step": 1974
    },
    {
      "epoch": 0.9058594197913084,
      "grad_norm": 0.3407733738422394,
      "learning_rate": 2.3247154344213818e-05,
      "loss": 1.9978,
      "step": 1975
    },
    {
      "epoch": 0.906318082788671,
      "grad_norm": 0.3298124670982361,
      "learning_rate": 2.3023745791850625e-05,
      "loss": 2.073,
      "step": 1976
    },
    {
      "epoch": 0.9067767457860337,
      "grad_norm": 0.34462350606918335,
      "learning_rate": 2.2801390622858354e-05,
      "loss": 1.986,
      "step": 1977
    },
    {
      "epoch": 0.9072354087833964,
      "grad_norm": 0.34452345967292786,
      "learning_rate": 2.2580089328299746e-05,
      "loss": 2.0391,
      "step": 1978
    },
    {
      "epoch": 0.9076940717807591,
      "grad_norm": 0.3398478627204895,
      "learning_rate": 2.235984239690997e-05,
      "loss": 2.0007,
      "step": 1979
    },
    {
      "epoch": 0.9081527347781218,
      "grad_norm": 0.3401229679584503,
      "learning_rate": 2.2140650315095934e-05,
      "loss": 2.0833,
      "step": 1980
    },
    {
      "epoch": 0.9086113977754845,
      "grad_norm": 0.3464241027832031,
      "learning_rate": 2.192251356693459e-05,
      "loss": 2.0828,
      "step": 1981
    },
    {
      "epoch": 0.9090700607728471,
      "grad_norm": 0.3337247371673584,
      "learning_rate": 2.170543263417246e-05,
      "loss": 2.0548,
      "step": 1982
    },
    {
      "epoch": 0.9095287237702099,
      "grad_norm": 0.3351711928844452,
      "learning_rate": 2.1489407996224286e-05,
      "loss": 2.0428,
      "step": 1983
    },
    {
      "epoch": 0.9099873867675725,
      "grad_norm": 0.32306766510009766,
      "learning_rate": 2.127444013017199e-05,
      "loss": 1.9934,
      "step": 1984
    },
    {
      "epoch": 0.9104460497649353,
      "grad_norm": 0.33719688653945923,
      "learning_rate": 2.1060529510763648e-05,
      "loss": 2.0529,
      "step": 1985
    },
    {
      "epoch": 0.9109047127622979,
      "grad_norm": 0.35159167647361755,
      "learning_rate": 2.084767661041259e-05,
      "loss": 2.0507,
      "step": 1986
    },
    {
      "epoch": 0.9113633757596606,
      "grad_norm": 0.33601686358451843,
      "learning_rate": 2.063588189919596e-05,
      "loss": 1.995,
      "step": 1987
    },
    {
      "epoch": 0.9118220387570233,
      "grad_norm": 0.36705610156059265,
      "learning_rate": 2.0425145844854275e-05,
      "loss": 2.0514,
      "step": 1988
    },
    {
      "epoch": 0.9122807017543859,
      "grad_norm": 0.3387659788131714,
      "learning_rate": 2.0215468912789693e-05,
      "loss": 1.9994,
      "step": 1989
    },
    {
      "epoch": 0.9127393647517487,
      "grad_norm": 0.35974249243736267,
      "learning_rate": 2.0006851566065575e-05,
      "loss": 1.9665,
      "step": 1990
    },
    {
      "epoch": 0.9131980277491113,
      "grad_norm": 0.3402480185031891,
      "learning_rate": 1.9799294265405166e-05,
      "loss": 2.0585,
      "step": 1991
    },
    {
      "epoch": 0.913656690746474,
      "grad_norm": 0.3302500247955322,
      "learning_rate": 1.9592797469190572e-05,
      "loss": 2.0325,
      "step": 1992
    },
    {
      "epoch": 0.9141153537438367,
      "grad_norm": 0.34637507796287537,
      "learning_rate": 1.938736163346194e-05,
      "loss": 1.9591,
      "step": 1993
    },
    {
      "epoch": 0.9145740167411994,
      "grad_norm": 0.3536851108074188,
      "learning_rate": 1.9182987211916246e-05,
      "loss": 2.0208,
      "step": 1994
    },
    {
      "epoch": 0.9150326797385621,
      "grad_norm": 0.34420156478881836,
      "learning_rate": 1.8979674655906332e-05,
      "loss": 1.9196,
      "step": 1995
    },
    {
      "epoch": 0.9154913427359248,
      "grad_norm": 0.3489084839820862,
      "learning_rate": 1.8777424414440024e-05,
      "loss": 2.0688,
      "step": 1996
    },
    {
      "epoch": 0.9159500057332874,
      "grad_norm": 0.34191569685935974,
      "learning_rate": 1.8576236934179202e-05,
      "loss": 2.1113,
      "step": 1997
    },
    {
      "epoch": 0.9164086687306502,
      "grad_norm": 0.3284981846809387,
      "learning_rate": 1.8376112659438393e-05,
      "loss": 1.9786,
      "step": 1998
    },
    {
      "epoch": 0.9168673317280128,
      "grad_norm": 0.35099664330482483,
      "learning_rate": 1.8177052032184282e-05,
      "loss": 2.1569,
      "step": 1999
    },
    {
      "epoch": 0.9173259947253756,
      "grad_norm": 0.3308093547821045,
      "learning_rate": 1.7979055492034435e-05,
      "loss": 2.0118,
      "step": 2000
    },
    {
      "epoch": 0.9177846577227382,
      "grad_norm": 0.34190237522125244,
      "learning_rate": 1.7782123476256407e-05,
      "loss": 2.075,
      "step": 2001
    },
    {
      "epoch": 0.918243320720101,
      "grad_norm": 0.3278730511665344,
      "learning_rate": 1.7586256419766965e-05,
      "loss": 1.9662,
      "step": 2002
    },
    {
      "epoch": 0.9187019837174636,
      "grad_norm": 0.331082820892334,
      "learning_rate": 1.7391454755130766e-05,
      "loss": 1.9798,
      "step": 2003
    },
    {
      "epoch": 0.9191606467148263,
      "grad_norm": 0.3460704982280731,
      "learning_rate": 1.7197718912559557e-05,
      "loss": 2.0581,
      "step": 2004
    },
    {
      "epoch": 0.919619309712189,
      "grad_norm": 0.33809608221054077,
      "learning_rate": 1.700504931991148e-05,
      "loss": 2.0002,
      "step": 2005
    },
    {
      "epoch": 0.9200779727095516,
      "grad_norm": 0.3344449996948242,
      "learning_rate": 1.681344640268978e-05,
      "loss": 2.1004,
      "step": 2006
    },
    {
      "epoch": 0.9205366357069144,
      "grad_norm": 0.35377126932144165,
      "learning_rate": 1.6622910584041974e-05,
      "loss": 1.9933,
      "step": 2007
    },
    {
      "epoch": 0.920995298704277,
      "grad_norm": 0.3294374942779541,
      "learning_rate": 1.6433442284758903e-05,
      "loss": 1.9998,
      "step": 2008
    },
    {
      "epoch": 0.9214539617016397,
      "grad_norm": 0.3333810865879059,
      "learning_rate": 1.624504192327392e-05,
      "loss": 1.9919,
      "step": 2009
    },
    {
      "epoch": 0.9219126246990024,
      "grad_norm": 0.3373992443084717,
      "learning_rate": 1.6057709915661856e-05,
      "loss": 2.1159,
      "step": 2010
    },
    {
      "epoch": 0.9223712876963651,
      "grad_norm": 0.3494356870651245,
      "learning_rate": 1.5871446675638057e-05,
      "loss": 1.9957,
      "step": 2011
    },
    {
      "epoch": 0.9228299506937278,
      "grad_norm": 0.3423665761947632,
      "learning_rate": 1.5686252614557638e-05,
      "loss": 2.0567,
      "step": 2012
    },
    {
      "epoch": 0.9232886136910905,
      "grad_norm": 0.3564639687538147,
      "learning_rate": 1.5502128141414497e-05,
      "loss": 1.98,
      "step": 2013
    },
    {
      "epoch": 0.9237472766884531,
      "grad_norm": 0.3574276566505432,
      "learning_rate": 1.5319073662840188e-05,
      "loss": 2.1034,
      "step": 2014
    },
    {
      "epoch": 0.9242059396858159,
      "grad_norm": 0.36228933930397034,
      "learning_rate": 1.5137089583103391e-05,
      "loss": 2.0827,
      "step": 2015
    },
    {
      "epoch": 0.9246646026831785,
      "grad_norm": 0.3616867959499359,
      "learning_rate": 1.4956176304108893e-05,
      "loss": 2.0773,
      "step": 2016
    },
    {
      "epoch": 0.9251232656805413,
      "grad_norm": 0.3319741189479828,
      "learning_rate": 1.4776334225396481e-05,
      "loss": 1.9595,
      "step": 2017
    },
    {
      "epoch": 0.9255819286779039,
      "grad_norm": 0.3377660810947418,
      "learning_rate": 1.4597563744140397e-05,
      "loss": 2.0537,
      "step": 2018
    },
    {
      "epoch": 0.9260405916752666,
      "grad_norm": 0.3271538317203522,
      "learning_rate": 1.4419865255148269e-05,
      "loss": 1.9086,
      "step": 2019
    },
    {
      "epoch": 0.9264992546726293,
      "grad_norm": 0.3348292410373688,
      "learning_rate": 1.4243239150860122e-05,
      "loss": 1.9757,
      "step": 2020
    },
    {
      "epoch": 0.926957917669992,
      "grad_norm": 0.32997560501098633,
      "learning_rate": 1.4067685821347932e-05,
      "loss": 2.0538,
      "step": 2021
    },
    {
      "epoch": 0.9274165806673547,
      "grad_norm": 0.34654656052589417,
      "learning_rate": 1.389320565431429e-05,
      "loss": 1.9841,
      "step": 2022
    },
    {
      "epoch": 0.9278752436647173,
      "grad_norm": 0.3314044773578644,
      "learning_rate": 1.3719799035091851e-05,
      "loss": 2.0068,
      "step": 2023
    },
    {
      "epoch": 0.92833390666208,
      "grad_norm": 0.3387201428413391,
      "learning_rate": 1.3547466346642278e-05,
      "loss": 1.9633,
      "step": 2024
    },
    {
      "epoch": 0.9287925696594427,
      "grad_norm": 0.3397775888442993,
      "learning_rate": 1.3376207969555577e-05,
      "loss": 1.9912,
      "step": 2025
    },
    {
      "epoch": 0.9292512326568054,
      "grad_norm": 0.31782111525535583,
      "learning_rate": 1.32060242820492e-05,
      "loss": 1.9692,
      "step": 2026
    },
    {
      "epoch": 0.9297098956541681,
      "grad_norm": 0.32964441180229187,
      "learning_rate": 1.3036915659967118e-05,
      "loss": 2.0081,
      "step": 2027
    },
    {
      "epoch": 0.9301685586515308,
      "grad_norm": 0.33265426754951477,
      "learning_rate": 1.2868882476779087e-05,
      "loss": 1.9721,
      "step": 2028
    },
    {
      "epoch": 0.9306272216488934,
      "grad_norm": 0.33084729313850403,
      "learning_rate": 1.2701925103579815e-05,
      "loss": 2.0294,
      "step": 2029
    },
    {
      "epoch": 0.9310858846462562,
      "grad_norm": 0.35360056161880493,
      "learning_rate": 1.2536043909088191e-05,
      "loss": 2.088,
      "step": 2030
    },
    {
      "epoch": 0.9315445476436188,
      "grad_norm": 0.35231778025627136,
      "learning_rate": 1.2371239259646228e-05,
      "loss": 2.0734,
      "step": 2031
    },
    {
      "epoch": 0.9320032106409816,
      "grad_norm": 0.354500412940979,
      "learning_rate": 1.2207511519218672e-05,
      "loss": 2.0551,
      "step": 2032
    },
    {
      "epoch": 0.9324618736383442,
      "grad_norm": 0.3342946171760559,
      "learning_rate": 1.2044861049391676e-05,
      "loss": 1.9574,
      "step": 2033
    },
    {
      "epoch": 0.932920536635707,
      "grad_norm": 0.33014023303985596,
      "learning_rate": 1.1883288209372512e-05,
      "loss": 2.091,
      "step": 2034
    },
    {
      "epoch": 0.9333791996330696,
      "grad_norm": 0.33098718523979187,
      "learning_rate": 1.1722793355988471e-05,
      "loss": 2.0363,
      "step": 2035
    },
    {
      "epoch": 0.9338378626304323,
      "grad_norm": 0.3450453281402588,
      "learning_rate": 1.1563376843686135e-05,
      "loss": 1.953,
      "step": 2036
    },
    {
      "epoch": 0.934296525627795,
      "grad_norm": 0.34963637590408325,
      "learning_rate": 1.140503902453055e-05,
      "loss": 1.9756,
      "step": 2037
    },
    {
      "epoch": 0.9347551886251577,
      "grad_norm": 0.33382999897003174,
      "learning_rate": 1.1247780248204665e-05,
      "loss": 2.0714,
      "step": 2038
    },
    {
      "epoch": 0.9352138516225204,
      "grad_norm": 0.34392067790031433,
      "learning_rate": 1.1091600862008333e-05,
      "loss": 2.0023,
      "step": 2039
    },
    {
      "epoch": 0.935672514619883,
      "grad_norm": 0.3335551619529724,
      "learning_rate": 1.0936501210857652e-05,
      "loss": 2.0716,
      "step": 2040
    },
    {
      "epoch": 0.9361311776172457,
      "grad_norm": 0.33858752250671387,
      "learning_rate": 1.0782481637284013e-05,
      "loss": 2.0353,
      "step": 2041
    },
    {
      "epoch": 0.9365898406146084,
      "grad_norm": 0.3350420594215393,
      "learning_rate": 1.0629542481433663e-05,
      "loss": 2.0393,
      "step": 2042
    },
    {
      "epoch": 0.9370485036119711,
      "grad_norm": 0.3604431450366974,
      "learning_rate": 1.0477684081066751e-05,
      "loss": 2.068,
      "step": 2043
    },
    {
      "epoch": 0.9375071666093338,
      "grad_norm": 0.33083465695381165,
      "learning_rate": 1.0326906771556566e-05,
      "loss": 2.0171,
      "step": 2044
    },
    {
      "epoch": 0.9379658296066965,
      "grad_norm": 0.3252101540565491,
      "learning_rate": 1.017721088588891e-05,
      "loss": 1.9507,
      "step": 2045
    },
    {
      "epoch": 0.9384244926040591,
      "grad_norm": 0.3397449553012848,
      "learning_rate": 1.0028596754661334e-05,
      "loss": 2.0023,
      "step": 2046
    },
    {
      "epoch": 0.9388831556014219,
      "grad_norm": 0.33757761120796204,
      "learning_rate": 9.881064706082298e-06,
      "loss": 2.0216,
      "step": 2047
    },
    {
      "epoch": 0.9393418185987845,
      "grad_norm": 0.3321681022644043,
      "learning_rate": 9.734615065970454e-06,
      "loss": 2.0573,
      "step": 2048
    },
    {
      "epoch": 0.9398004815961473,
      "grad_norm": 0.3299562633037567,
      "learning_rate": 9.58924815775425e-06,
      "loss": 2.0098,
      "step": 2049
    },
    {
      "epoch": 0.9402591445935099,
      "grad_norm": 0.32926884293556213,
      "learning_rate": 9.444964302470715e-06,
      "loss": 2.0186,
      "step": 2050
    },
    {
      "epoch": 0.9407178075908726,
      "grad_norm": 0.34651049971580505,
      "learning_rate": 9.301763818765018e-06,
      "loss": 2.0498,
      "step": 2051
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.3381795287132263,
      "learning_rate": 9.15964702288996e-06,
      "loss": 1.935,
      "step": 2052
    },
    {
      "epoch": 0.941635133585598,
      "grad_norm": 0.32830360531806946,
      "learning_rate": 9.018614228704925e-06,
      "loss": 1.9644,
      "step": 2053
    },
    {
      "epoch": 0.9420937965829607,
      "grad_norm": 0.3419846296310425,
      "learning_rate": 8.878665747675152e-06,
      "loss": 1.9911,
      "step": 2054
    },
    {
      "epoch": 0.9425524595803234,
      "grad_norm": 0.32941168546676636,
      "learning_rate": 8.739801888871469e-06,
      "loss": 2.072,
      "step": 2055
    },
    {
      "epoch": 0.943011122577686,
      "grad_norm": 0.33080533146858215,
      "learning_rate": 8.602022958969336e-06,
      "loss": 1.9847,
      "step": 2056
    },
    {
      "epoch": 0.9434697855750487,
      "grad_norm": 0.3230167627334595,
      "learning_rate": 8.465329262248078e-06,
      "loss": 1.9517,
      "step": 2057
    },
    {
      "epoch": 0.9439284485724114,
      "grad_norm": 0.3305307626724243,
      "learning_rate": 8.32972110059027e-06,
      "loss": 2.0643,
      "step": 2058
    },
    {
      "epoch": 0.9443871115697741,
      "grad_norm": 0.34133538603782654,
      "learning_rate": 8.195198773481406e-06,
      "loss": 2.0298,
      "step": 2059
    },
    {
      "epoch": 0.9448457745671368,
      "grad_norm": 0.3308299481868744,
      "learning_rate": 8.061762578008613e-06,
      "loss": 2.0064,
      "step": 2060
    },
    {
      "epoch": 0.9453044375644994,
      "grad_norm": 0.343239426612854,
      "learning_rate": 7.929412808860559e-06,
      "loss": 2.0801,
      "step": 2061
    },
    {
      "epoch": 0.9457631005618622,
      "grad_norm": 0.37098613381385803,
      "learning_rate": 7.79814975832649e-06,
      "loss": 2.0158,
      "step": 2062
    },
    {
      "epoch": 0.9462217635592248,
      "grad_norm": 0.35159265995025635,
      "learning_rate": 7.667973716295851e-06,
      "loss": 2.0157,
      "step": 2063
    },
    {
      "epoch": 0.9466804265565876,
      "grad_norm": 0.33071085810661316,
      "learning_rate": 7.5388849702571205e-06,
      "loss": 1.9885,
      "step": 2064
    },
    {
      "epoch": 0.9471390895539502,
      "grad_norm": 0.331060528755188,
      "learning_rate": 7.4108838052979185e-06,
      "loss": 1.982,
      "step": 2065
    },
    {
      "epoch": 0.947597752551313,
      "grad_norm": 0.3355766534805298,
      "learning_rate": 7.283970504103732e-06,
      "loss": 1.9996,
      "step": 2066
    },
    {
      "epoch": 0.9480564155486756,
      "grad_norm": 0.33428314328193665,
      "learning_rate": 7.1581453469575785e-06,
      "loss": 1.9985,
      "step": 2067
    },
    {
      "epoch": 0.9485150785460383,
      "grad_norm": 0.35163813829421997,
      "learning_rate": 7.033408611739456e-06,
      "loss": 2.0616,
      "step": 2068
    },
    {
      "epoch": 0.948973741543401,
      "grad_norm": 0.3071124255657196,
      "learning_rate": 6.909760573925561e-06,
      "loss": 1.9627,
      "step": 2069
    },
    {
      "epoch": 0.9494324045407637,
      "grad_norm": 0.3365335464477539,
      "learning_rate": 6.787201506587626e-06,
      "loss": 2.0691,
      "step": 2070
    },
    {
      "epoch": 0.9498910675381264,
      "grad_norm": 0.3282880485057831,
      "learning_rate": 6.66573168039264e-06,
      "loss": 2.0983,
      "step": 2071
    },
    {
      "epoch": 0.9503497305354891,
      "grad_norm": 0.3586256802082062,
      "learning_rate": 6.545351363601959e-06,
      "loss": 2.0037,
      "step": 2072
    },
    {
      "epoch": 0.9508083935328517,
      "grad_norm": 0.3170895576477051,
      "learning_rate": 6.426060822070812e-06,
      "loss": 2.0814,
      "step": 2073
    },
    {
      "epoch": 0.9512670565302144,
      "grad_norm": 0.3481560945510864,
      "learning_rate": 6.3078603192475716e-06,
      "loss": 2.0757,
      "step": 2074
    },
    {
      "epoch": 0.9517257195275771,
      "grad_norm": 0.33941566944122314,
      "learning_rate": 6.1907501161735934e-06,
      "loss": 1.953,
      "step": 2075
    },
    {
      "epoch": 0.9521843825249398,
      "grad_norm": 0.3395674526691437,
      "learning_rate": 6.074730471482049e-06,
      "loss": 1.984,
      "step": 2076
    },
    {
      "epoch": 0.9526430455223025,
      "grad_norm": 0.3250807821750641,
      "learning_rate": 5.959801641397755e-06,
      "loss": 1.9654,
      "step": 2077
    },
    {
      "epoch": 0.9531017085196651,
      "grad_norm": 0.33514994382858276,
      "learning_rate": 5.845963879736627e-06,
      "loss": 1.9884,
      "step": 2078
    },
    {
      "epoch": 0.9535603715170279,
      "grad_norm": 0.3289371132850647,
      "learning_rate": 5.733217437904892e-06,
      "loss": 2.0209,
      "step": 2079
    },
    {
      "epoch": 0.9540190345143905,
      "grad_norm": 0.336028516292572,
      "learning_rate": 5.621562564898597e-06,
      "loss": 2.0297,
      "step": 2080
    },
    {
      "epoch": 0.9544776975117533,
      "grad_norm": 0.32475176453590393,
      "learning_rate": 5.51099950730316e-06,
      "loss": 2.0909,
      "step": 2081
    },
    {
      "epoch": 0.9549363605091159,
      "grad_norm": 0.3433391749858856,
      "learning_rate": 5.401528509292763e-06,
      "loss": 2.0861,
      "step": 2082
    },
    {
      "epoch": 0.9553950235064786,
      "grad_norm": 0.3423185348510742,
      "learning_rate": 5.2931498126298495e-06,
      "loss": 2.0199,
      "step": 2083
    },
    {
      "epoch": 0.9558536865038413,
      "grad_norm": 0.3549761176109314,
      "learning_rate": 5.1858636566645135e-06,
      "loss": 1.9192,
      "step": 2084
    },
    {
      "epoch": 0.956312349501204,
      "grad_norm": 0.32436442375183105,
      "learning_rate": 5.0796702783340035e-06,
      "loss": 1.9703,
      "step": 2085
    },
    {
      "epoch": 0.9567710124985667,
      "grad_norm": 0.3447955846786499,
      "learning_rate": 4.97456991216233e-06,
      "loss": 2.0719,
      "step": 2086
    },
    {
      "epoch": 0.9572296754959294,
      "grad_norm": 0.34844502806663513,
      "learning_rate": 4.870562790259325e-06,
      "loss": 1.9903,
      "step": 2087
    },
    {
      "epoch": 0.957688338493292,
      "grad_norm": 0.32696595788002014,
      "learning_rate": 4.7676491423208625e-06,
      "loss": 2.0272,
      "step": 2088
    },
    {
      "epoch": 0.9581470014906548,
      "grad_norm": 0.3573978543281555,
      "learning_rate": 4.66582919562758e-06,
      "loss": 2.0576,
      "step": 2089
    },
    {
      "epoch": 0.9586056644880174,
      "grad_norm": 0.3394244313240051,
      "learning_rate": 4.5651031750448825e-06,
      "loss": 1.981,
      "step": 2090
    },
    {
      "epoch": 0.9590643274853801,
      "grad_norm": 0.35193687677383423,
      "learning_rate": 4.465471303022217e-06,
      "loss": 2.0827,
      "step": 2091
    },
    {
      "epoch": 0.9595229904827428,
      "grad_norm": 0.35087713599205017,
      "learning_rate": 4.366933799592743e-06,
      "loss": 1.9516,
      "step": 2092
    },
    {
      "epoch": 0.9599816534801054,
      "grad_norm": 0.34989869594573975,
      "learning_rate": 4.269490882372551e-06,
      "loss": 2.0295,
      "step": 2093
    },
    {
      "epoch": 0.9604403164774682,
      "grad_norm": 0.32983002066612244,
      "learning_rate": 4.1731427665606115e-06,
      "loss": 1.983,
      "step": 2094
    },
    {
      "epoch": 0.9608989794748308,
      "grad_norm": 0.3342774510383606,
      "learning_rate": 4.077889664937884e-06,
      "loss": 1.949,
      "step": 2095
    },
    {
      "epoch": 0.9613576424721936,
      "grad_norm": 0.3357195258140564,
      "learning_rate": 3.983731787867207e-06,
      "loss": 2.0405,
      "step": 2096
    },
    {
      "epoch": 0.9618163054695562,
      "grad_norm": 0.3500537574291229,
      "learning_rate": 3.890669343292464e-06,
      "loss": 2.0484,
      "step": 2097
    },
    {
      "epoch": 0.962274968466919,
      "grad_norm": 0.3473169505596161,
      "learning_rate": 3.7987025367384743e-06,
      "loss": 2.0328,
      "step": 2098
    },
    {
      "epoch": 0.9627336314642816,
      "grad_norm": 0.32972845435142517,
      "learning_rate": 3.707831571310327e-06,
      "loss": 2.0132,
      "step": 2099
    },
    {
      "epoch": 0.9631922944616443,
      "grad_norm": 0.34604719281196594,
      "learning_rate": 3.6180566476929912e-06,
      "loss": 2.0132,
      "step": 2100
    },
    {
      "epoch": 0.963650957459007,
      "grad_norm": 0.3372550904750824,
      "learning_rate": 3.529377964150815e-06,
      "loss": 2.0902,
      "step": 2101
    },
    {
      "epoch": 0.9641096204563697,
      "grad_norm": 0.34361526370048523,
      "learning_rate": 3.441795716527307e-06,
      "loss": 2.0146,
      "step": 2102
    },
    {
      "epoch": 0.9645682834537324,
      "grad_norm": 0.32966864109039307,
      "learning_rate": 3.355310098244302e-06,
      "loss": 1.9753,
      "step": 2103
    },
    {
      "epoch": 0.9650269464510951,
      "grad_norm": 0.354466050863266,
      "learning_rate": 3.269921300301959e-06,
      "loss": 2.0242,
      "step": 2104
    },
    {
      "epoch": 0.9654856094484577,
      "grad_norm": 0.3403162956237793,
      "learning_rate": 3.1856295112780988e-06,
      "loss": 2.0295,
      "step": 2105
    },
    {
      "epoch": 0.9659442724458205,
      "grad_norm": 0.35698047280311584,
      "learning_rate": 3.102434917327812e-06,
      "loss": 2.0986,
      "step": 2106
    },
    {
      "epoch": 0.9664029354431831,
      "grad_norm": 0.3324354887008667,
      "learning_rate": 3.0203377021831292e-06,
      "loss": 1.9504,
      "step": 2107
    },
    {
      "epoch": 0.9668615984405458,
      "grad_norm": 0.33648625016212463,
      "learning_rate": 2.939338047152573e-06,
      "loss": 1.9664,
      "step": 2108
    },
    {
      "epoch": 0.9673202614379085,
      "grad_norm": 0.33659881353378296,
      "learning_rate": 2.8594361311206073e-06,
      "loss": 2.0182,
      "step": 2109
    },
    {
      "epoch": 0.9677789244352711,
      "grad_norm": 0.3438607156276703,
      "learning_rate": 2.7806321305475225e-06,
      "loss": 1.9984,
      "step": 2110
    },
    {
      "epoch": 0.9682375874326339,
      "grad_norm": 0.32721513509750366,
      "learning_rate": 2.7029262194688818e-06,
      "loss": 2.0338,
      "step": 2111
    },
    {
      "epoch": 0.9686962504299965,
      "grad_norm": 0.33503323793411255,
      "learning_rate": 2.626318569495134e-06,
      "loss": 2.011,
      "step": 2112
    },
    {
      "epoch": 0.9691549134273593,
      "grad_norm": 0.34327560663223267,
      "learning_rate": 2.550809349811334e-06,
      "loss": 2.0462,
      "step": 2113
    },
    {
      "epoch": 0.9696135764247219,
      "grad_norm": 0.34084710478782654,
      "learning_rate": 2.476398727176532e-06,
      "loss": 2.048,
      "step": 2114
    },
    {
      "epoch": 0.9700722394220846,
      "grad_norm": 0.33316370844841003,
      "learning_rate": 2.4030868659237204e-06,
      "loss": 2.0283,
      "step": 2115
    },
    {
      "epoch": 0.9705309024194473,
      "grad_norm": 0.32262519001960754,
      "learning_rate": 2.3308739279593317e-06,
      "loss": 1.9887,
      "step": 2116
    },
    {
      "epoch": 0.97098956541681,
      "grad_norm": 0.34187546372413635,
      "learning_rate": 2.2597600727626845e-06,
      "loss": 2.0279,
      "step": 2117
    },
    {
      "epoch": 0.9714482284141727,
      "grad_norm": 0.3351239562034607,
      "learning_rate": 2.1897454573860387e-06,
      "loss": 1.9803,
      "step": 2118
    },
    {
      "epoch": 0.9719068914115354,
      "grad_norm": 0.33356842398643494,
      "learning_rate": 2.1208302364538746e-06,
      "loss": 1.9971,
      "step": 2119
    },
    {
      "epoch": 0.972365554408898,
      "grad_norm": 0.3430318832397461,
      "learning_rate": 2.0530145621627804e-06,
      "loss": 2.027,
      "step": 2120
    },
    {
      "epoch": 0.9728242174062608,
      "grad_norm": 0.34255340695381165,
      "learning_rate": 1.9862985842810653e-06,
      "loss": 2.0106,
      "step": 2121
    },
    {
      "epoch": 0.9732828804036234,
      "grad_norm": 0.34161821007728577,
      "learning_rate": 1.920682450148259e-06,
      "loss": 2.0898,
      "step": 2122
    },
    {
      "epoch": 0.9737415434009862,
      "grad_norm": 0.34616395831108093,
      "learning_rate": 1.856166304675111e-06,
      "loss": 2.0548,
      "step": 2123
    },
    {
      "epoch": 0.9742002063983488,
      "grad_norm": 0.3571469783782959,
      "learning_rate": 1.792750290342926e-06,
      "loss": 2.0555,
      "step": 2124
    },
    {
      "epoch": 0.9746588693957114,
      "grad_norm": 0.3327905535697937,
      "learning_rate": 1.7304345472035632e-06,
      "loss": 2.0358,
      "step": 2125
    },
    {
      "epoch": 0.9751175323930742,
      "grad_norm": 0.3394501805305481,
      "learning_rate": 1.6692192128788253e-06,
      "loss": 2.0486,
      "step": 2126
    },
    {
      "epoch": 0.9755761953904368,
      "grad_norm": 0.3411179482936859,
      "learning_rate": 1.6091044225604035e-06,
      "loss": 1.9435,
      "step": 2127
    },
    {
      "epoch": 0.9760348583877996,
      "grad_norm": 0.3339243531227112,
      "learning_rate": 1.5500903090094888e-06,
      "loss": 1.955,
      "step": 2128
    },
    {
      "epoch": 0.9764935213851622,
      "grad_norm": 0.32800835371017456,
      "learning_rate": 1.492177002556383e-06,
      "loss": 1.9358,
      "step": 2129
    },
    {
      "epoch": 0.976952184382525,
      "grad_norm": 0.33736345171928406,
      "learning_rate": 1.4353646311004443e-06,
      "loss": 2.0123,
      "step": 2130
    },
    {
      "epoch": 0.9774108473798876,
      "grad_norm": 0.37215954065322876,
      "learning_rate": 1.3796533201094752e-06,
      "loss": 2.1098,
      "step": 2131
    },
    {
      "epoch": 0.9778695103772503,
      "grad_norm": 0.3743622303009033,
      "learning_rate": 1.3250431926197793e-06,
      "loss": 2.0988,
      "step": 2132
    },
    {
      "epoch": 0.978328173374613,
      "grad_norm": 0.3288819193840027,
      "learning_rate": 1.2715343692356607e-06,
      "loss": 2.0706,
      "step": 2133
    },
    {
      "epoch": 0.9787868363719757,
      "grad_norm": 0.3423156142234802,
      "learning_rate": 1.2191269681292582e-06,
      "loss": 2.0761,
      "step": 2134
    },
    {
      "epoch": 0.9792454993693384,
      "grad_norm": 0.34514933824539185,
      "learning_rate": 1.1678211050402676e-06,
      "loss": 2.0559,
      "step": 2135
    },
    {
      "epoch": 0.9797041623667011,
      "grad_norm": 0.3290889263153076,
      "learning_rate": 1.117616893275719e-06,
      "loss": 2.0396,
      "step": 2136
    },
    {
      "epoch": 0.9801628253640637,
      "grad_norm": 0.34959354996681213,
      "learning_rate": 1.068514443709534e-06,
      "loss": 2.0412,
      "step": 2137
    },
    {
      "epoch": 0.9806214883614265,
      "grad_norm": 0.35518747568130493,
      "learning_rate": 1.0205138647826905e-06,
      "loss": 2.0997,
      "step": 2138
    },
    {
      "epoch": 0.9810801513587891,
      "grad_norm": 0.34642407298088074,
      "learning_rate": 9.73615262502503e-07,
      "loss": 2.0499,
      "step": 2139
    },
    {
      "epoch": 0.9815388143561519,
      "grad_norm": 0.3508111536502838,
      "learning_rate": 9.278187404426763e-07,
      "loss": 2.0902,
      "step": 2140
    },
    {
      "epoch": 0.9819974773535145,
      "grad_norm": 0.3456072509288788,
      "learning_rate": 8.831243997431404e-07,
      "loss": 2.0199,
      "step": 2141
    },
    {
      "epoch": 0.9824561403508771,
      "grad_norm": 0.33159586787223816,
      "learning_rate": 8.395323391094944e-07,
      "loss": 1.9813,
      "step": 2142
    },
    {
      "epoch": 0.9829148033482399,
      "grad_norm": 0.33576953411102295,
      "learning_rate": 7.970426548131183e-07,
      "loss": 1.9425,
      "step": 2143
    },
    {
      "epoch": 0.9833734663456025,
      "grad_norm": 0.3652156591415405,
      "learning_rate": 7.556554406908389e-07,
      "loss": 2.125,
      "step": 2144
    },
    {
      "epoch": 0.9838321293429653,
      "grad_norm": 0.3468174338340759,
      "learning_rate": 7.153707881446536e-07,
      "loss": 1.9618,
      "step": 2145
    },
    {
      "epoch": 0.9842907923403279,
      "grad_norm": 0.3543050289154053,
      "learning_rate": 6.761887861417293e-07,
      "loss": 1.9727,
      "step": 2146
    },
    {
      "epoch": 0.9847494553376906,
      "grad_norm": 0.371035099029541,
      "learning_rate": 6.381095212139032e-07,
      "loss": 2.0785,
      "step": 2147
    },
    {
      "epoch": 0.9852081183350533,
      "grad_norm": 0.35054656863212585,
      "learning_rate": 6.011330774577384e-07,
      "loss": 2.0306,
      "step": 2148
    },
    {
      "epoch": 0.985666781332416,
      "grad_norm": 0.3351370692253113,
      "learning_rate": 5.652595365343016e-07,
      "loss": 2.076,
      "step": 2149
    },
    {
      "epoch": 0.9861254443297787,
      "grad_norm": 0.3363747298717499,
      "learning_rate": 5.304889776688859e-07,
      "loss": 2.0284,
      "step": 2150
    },
    {
      "epoch": 0.9865841073271414,
      "grad_norm": 0.3213847279548645,
      "learning_rate": 4.968214776508994e-07,
      "loss": 1.9868,
      "step": 2151
    },
    {
      "epoch": 0.987042770324504,
      "grad_norm": 0.3516272306442261,
      "learning_rate": 4.6425711083375454e-07,
      "loss": 1.9997,
      "step": 2152
    },
    {
      "epoch": 0.9875014333218668,
      "grad_norm": 0.3269641697406769,
      "learning_rate": 4.3279594913447906e-07,
      "loss": 1.9675,
      "step": 2153
    },
    {
      "epoch": 0.9879600963192294,
      "grad_norm": 0.3428252637386322,
      "learning_rate": 4.02438062033883e-07,
      "loss": 1.9857,
      "step": 2154
    },
    {
      "epoch": 0.9884187593165922,
      "grad_norm": 0.3389745354652405,
      "learning_rate": 3.7318351657616987e-07,
      "loss": 2.0508,
      "step": 2155
    },
    {
      "epoch": 0.9888774223139548,
      "grad_norm": 0.3368895351886749,
      "learning_rate": 3.4503237736882573e-07,
      "loss": 2.0032,
      "step": 2156
    },
    {
      "epoch": 0.9893360853113176,
      "grad_norm": 0.34977462887763977,
      "learning_rate": 3.179847065825081e-07,
      "loss": 2.0288,
      "step": 2157
    },
    {
      "epoch": 0.9897947483086802,
      "grad_norm": 0.3278484344482422,
      "learning_rate": 2.9204056395104594e-07,
      "loss": 1.9411,
      "step": 2158
    },
    {
      "epoch": 0.9902534113060428,
      "grad_norm": 0.35773468017578125,
      "learning_rate": 2.672000067709956e-07,
      "loss": 2.1012,
      "step": 2159
    },
    {
      "epoch": 0.9907120743034056,
      "grad_norm": 0.3539963662624359,
      "learning_rate": 2.4346308990175204e-07,
      "loss": 2.0238,
      "step": 2160
    },
    {
      "epoch": 0.9911707373007682,
      "grad_norm": 0.3407755494117737,
      "learning_rate": 2.208298657653818e-07,
      "loss": 2.0252,
      "step": 2161
    },
    {
      "epoch": 0.991629400298131,
      "grad_norm": 0.3640228509902954,
      "learning_rate": 1.9930038434645692e-07,
      "loss": 2.026,
      "step": 2162
    },
    {
      "epoch": 0.9920880632954936,
      "grad_norm": 0.32704246044158936,
      "learning_rate": 1.7887469319205484e-07,
      "loss": 2.0774,
      "step": 2163
    },
    {
      "epoch": 0.9925467262928563,
      "grad_norm": 0.3323482871055603,
      "learning_rate": 1.5955283741142523e-07,
      "loss": 2.0374,
      "step": 2164
    },
    {
      "epoch": 0.993005389290219,
      "grad_norm": 0.36056533455848694,
      "learning_rate": 1.4133485967615655e-07,
      "loss": 2.111,
      "step": 2165
    },
    {
      "epoch": 0.9934640522875817,
      "grad_norm": 0.34146925806999207,
      "learning_rate": 1.2422080021995407e-07,
      "loss": 1.962,
      "step": 2166
    },
    {
      "epoch": 0.9939227152849444,
      "grad_norm": 0.34258750081062317,
      "learning_rate": 1.082106968385288e-07,
      "loss": 2.098,
      "step": 2167
    },
    {
      "epoch": 0.9943813782823071,
      "grad_norm": 0.32632502913475037,
      "learning_rate": 9.330458488959748e-08,
      "loss": 1.9913,
      "step": 2168
    },
    {
      "epoch": 0.9948400412796697,
      "grad_norm": 0.3376987874507904,
      "learning_rate": 7.950249729271608e-08,
      "loss": 2.0406,
      "step": 2169
    },
    {
      "epoch": 0.9952987042770325,
      "grad_norm": 0.3223751485347748,
      "learning_rate": 6.680446452922429e-08,
      "loss": 1.9894,
      "step": 2170
    },
    {
      "epoch": 0.9957573672743951,
      "grad_norm": 0.3433837890625,
      "learning_rate": 5.521051464230098e-08,
      "loss": 2.0937,
      "step": 2171
    },
    {
      "epoch": 0.9962160302717579,
      "grad_norm": 0.33453696966171265,
      "learning_rate": 4.4720673236631206e-08,
      "loss": 2.0043,
      "step": 2172
    },
    {
      "epoch": 0.9966746932691205,
      "grad_norm": 0.33074724674224854,
      "learning_rate": 3.53349634786837e-08,
      "loss": 2.0715,
      "step": 2173
    },
    {
      "epoch": 0.9971333562664833,
      "grad_norm": 0.32373324036598206,
      "learning_rate": 2.7053406096433365e-08,
      "loss": 2.0277,
      "step": 2174
    },
    {
      "epoch": 0.9975920192638459,
      "grad_norm": 0.3276323676109314,
      "learning_rate": 1.987601937930572e-08,
      "loss": 2.0082,
      "step": 2175
    },
    {
      "epoch": 0.9980506822612085,
      "grad_norm": 0.3266277015209198,
      "learning_rate": 1.3802819178398984e-08,
      "loss": 1.9757,
      "step": 2176
    },
    {
      "epoch": 0.9985093452585713,
      "grad_norm": 0.3228016197681427,
      "learning_rate": 8.833818906039959e-09,
      "loss": 2.0222,
      "step": 2177
    },
    {
      "epoch": 0.9989680082559339,
      "grad_norm": 0.34404969215393066,
      "learning_rate": 4.969029536061598e-09,
      "loss": 2.0644,
      "step": 2178
    },
    {
      "epoch": 0.9994266712532967,
      "grad_norm": 0.3638168275356293,
      "learning_rate": 2.2084596038030037e-09,
      "loss": 2.0376,
      "step": 2179
    },
    {
      "epoch": 0.9998853342506593,
      "grad_norm": 0.3432144820690155,
      "learning_rate": 5.521152057763601e-10,
      "loss": 1.9774,
      "step": 2180
    },
    {
      "epoch": 0.9998853342506593,
      "step": 2180,
      "total_flos": 6.815296424813527e+17,
      "train_loss": 2.1650498506672884,
      "train_runtime": 41729.1956,
      "train_samples_per_second": 13.375,
      "train_steps_per_second": 0.052
    }
  ],
  "logging_steps": 1,
  "max_steps": 2180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.815296424813527e+17,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}