{
  "best_metric": 0.35205078125,
  "best_model_checkpoint": "./results/checkpoint-7094",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 10641,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 2.7654,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.0,
      "learning_rate": 0.0,
      "loss": 2.862,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 146.36835642526796,
      "learning_rate": 4.8e-06,
      "loss": 2.4598,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 254.1399327894623,
      "learning_rate": 1.02e-05,
      "loss": 3.048,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 55.794104847848445,
      "learning_rate": 1.6199999999999997e-05,
      "loss": 2.4278,
      "step": 50
    },
    {
      "epoch": 0.02,
      "grad_norm": 29.62062990171776,
      "learning_rate": 2.2199999999999998e-05,
      "loss": 0.9157,
      "step": 60
    },
    {
      "epoch": 0.02,
      "grad_norm": 36.90337952409684,
      "learning_rate": 2.8199999999999998e-05,
      "loss": 1.0977,
      "step": 70
    },
    {
      "epoch": 0.02,
      "grad_norm": 70.28513966911416,
      "learning_rate": 3.42e-05,
      "loss": 1.4851,
      "step": 80
    },
    {
      "epoch": 0.03,
      "grad_norm": 76.38058442522734,
      "learning_rate": 4.02e-05,
      "loss": 0.9004,
      "step": 90
    },
    {
      "epoch": 0.03,
      "grad_norm": 215.04691118737435,
      "learning_rate": 4.62e-05,
      "loss": 1.3784,
      "step": 100
    },
    {
      "epoch": 0.03,
      "grad_norm": 156.18636353053705,
      "learning_rate": 5.2199999999999995e-05,
      "loss": 1.9046,
      "step": 110
    },
    {
      "epoch": 0.03,
      "grad_norm": 83.58499534326243,
      "learning_rate": 5.82e-05,
      "loss": 1.8243,
      "step": 120
    },
    {
      "epoch": 0.04,
      "grad_norm": 58.89968090715743,
      "learning_rate": 6.419999999999999e-05,
      "loss": 3.5648,
      "step": 130
    },
    {
      "epoch": 0.04,
      "grad_norm": 279.1237096487612,
      "learning_rate": 7.02e-05,
      "loss": 1.3321,
      "step": 140
    },
    {
      "epoch": 0.04,
      "grad_norm": 14.282470404736001,
      "learning_rate": 7.62e-05,
      "loss": 0.7693,
      "step": 150
    },
    {
      "epoch": 0.05,
      "grad_norm": 21.416320260069092,
      "learning_rate": 8.22e-05,
      "loss": 0.7282,
      "step": 160
    },
    {
      "epoch": 0.05,
      "grad_norm": 7.027757159631835,
      "learning_rate": 8.819999999999999e-05,
      "loss": 0.8376,
      "step": 170
    },
    {
      "epoch": 0.05,
      "grad_norm": 28.808627534490917,
      "learning_rate": 9.419999999999999e-05,
      "loss": 0.8771,
      "step": 180
    },
    {
      "epoch": 0.05,
      "grad_norm": 55.14542562374617,
      "learning_rate": 0.0001002,
      "loss": 1.2092,
      "step": 190
    },
    {
      "epoch": 0.06,
      "grad_norm": 12.485175678803063,
      "learning_rate": 0.00010619999999999998,
      "loss": 0.7898,
      "step": 200
    },
    {
      "epoch": 0.06,
      "grad_norm": 30.98880210639734,
      "learning_rate": 0.00011219999999999999,
      "loss": 1.1421,
      "step": 210
    },
    {
      "epoch": 0.06,
      "grad_norm": 34.4471000818379,
      "learning_rate": 0.0001182,
      "loss": 0.755,
      "step": 220
    },
    {
      "epoch": 0.06,
      "grad_norm": 25.20646584085208,
      "learning_rate": 0.00012419999999999998,
      "loss": 0.8171,
      "step": 230
    },
    {
      "epoch": 0.07,
      "grad_norm": 57.11988442886105,
      "learning_rate": 0.0001302,
      "loss": 0.9672,
      "step": 240
    },
    {
      "epoch": 0.07,
      "grad_norm": 31.266794385874547,
      "learning_rate": 0.0001362,
      "loss": 0.863,
      "step": 250
    },
    {
      "epoch": 0.07,
      "grad_norm": 28.801620787803333,
      "learning_rate": 0.0001422,
      "loss": 0.9292,
      "step": 260
    },
    {
      "epoch": 0.08,
      "grad_norm": 18.379715667965055,
      "learning_rate": 0.0001482,
      "loss": 0.6885,
      "step": 270
    },
    {
      "epoch": 0.08,
      "grad_norm": 26.615184398415803,
      "learning_rate": 0.00015419999999999998,
      "loss": 0.8698,
      "step": 280
    },
    {
      "epoch": 0.08,
      "grad_norm": 27.84018584708001,
      "learning_rate": 0.0001602,
      "loss": 0.7403,
      "step": 290
    },
    {
      "epoch": 0.08,
      "grad_norm": 83.6950577392233,
      "learning_rate": 0.0001662,
      "loss": 1.7649,
      "step": 300
    },
    {
      "epoch": 0.09,
      "grad_norm": 62.62507175586115,
      "learning_rate": 0.00017219999999999998,
      "loss": 1.5992,
      "step": 310
    },
    {
      "epoch": 0.09,
      "grad_norm": 34.83362360351182,
      "learning_rate": 0.00017819999999999997,
      "loss": 3.7618,
      "step": 320
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.1566836386456626,
      "learning_rate": 0.00018419999999999998,
      "loss": 1.1883,
      "step": 330
    },
    {
      "epoch": 0.1,
      "grad_norm": 44.53868085198857,
      "learning_rate": 0.0001902,
      "loss": 1.5033,
      "step": 340
    },
    {
      "epoch": 0.1,
      "grad_norm": 16.47571390018737,
      "learning_rate": 0.0001962,
      "loss": 0.7708,
      "step": 350
    },
    {
      "epoch": 0.1,
      "grad_norm": 90.50256233776733,
      "learning_rate": 0.0002022,
      "loss": 1.0146,
      "step": 360
    },
    {
      "epoch": 0.1,
      "grad_norm": 16.535117663656802,
      "learning_rate": 0.00020819999999999996,
      "loss": 0.673,
      "step": 370
    },
    {
      "epoch": 0.11,
      "grad_norm": 41.013763949361135,
      "learning_rate": 0.00021419999999999998,
      "loss": 0.7536,
      "step": 380
    },
    {
      "epoch": 0.11,
      "grad_norm": 50.83635956076198,
      "learning_rate": 0.00022019999999999999,
      "loss": 0.8832,
      "step": 390
    },
    {
      "epoch": 0.11,
      "grad_norm": 51.192653868723845,
      "learning_rate": 0.00022619999999999997,
      "loss": 0.756,
      "step": 400
    },
    {
      "epoch": 0.12,
      "grad_norm": 95.02104619699388,
      "learning_rate": 0.00023219999999999998,
      "loss": 1.0475,
      "step": 410
    },
    {
      "epoch": 0.12,
      "grad_norm": 14.755367161274899,
      "learning_rate": 0.0002382,
      "loss": 0.8114,
      "step": 420
    },
    {
      "epoch": 0.12,
      "grad_norm": 26.824869427969787,
      "learning_rate": 0.00024419999999999997,
      "loss": 0.7827,
      "step": 430
    },
    {
      "epoch": 0.12,
      "grad_norm": 10.199008591764807,
      "learning_rate": 0.00025019999999999996,
      "loss": 0.7201,
      "step": 440
    },
    {
      "epoch": 0.13,
      "grad_norm": 16.099046337033606,
      "learning_rate": 0.0002562,
      "loss": 0.7852,
      "step": 450
    },
    {
      "epoch": 0.13,
      "grad_norm": 72.84156691472333,
      "learning_rate": 0.0002622,
      "loss": 0.7819,
      "step": 460
    },
    {
      "epoch": 0.13,
      "grad_norm": 23.060057287801556,
      "learning_rate": 0.00026819999999999996,
      "loss": 1.1294,
      "step": 470
    },
    {
      "epoch": 0.14,
      "grad_norm": 18.372892721573056,
      "learning_rate": 0.0002742,
      "loss": 0.8509,
      "step": 480
    },
    {
      "epoch": 0.14,
      "grad_norm": 44.80535522734965,
      "learning_rate": 0.0002802,
      "loss": 1.3075,
      "step": 490
    },
    {
      "epoch": 0.14,
      "grad_norm": 53.039346895060866,
      "learning_rate": 0.00028619999999999996,
      "loss": 0.8981,
      "step": 500
    },
    {
      "epoch": 0.14,
      "grad_norm": 8.933950393723551,
      "learning_rate": 0.00029219999999999995,
      "loss": 0.8596,
      "step": 510
    },
    {
      "epoch": 0.15,
      "grad_norm": 54.86618147368649,
      "learning_rate": 0.0002982,
      "loss": 0.8419,
      "step": 520
    },
    {
      "epoch": 0.15,
      "grad_norm": 52.0156886597986,
      "learning_rate": 0.00029984658094681473,
      "loss": 1.0992,
      "step": 530
    },
    {
      "epoch": 0.15,
      "grad_norm": 48.61185102339785,
      "learning_rate": 0.00029962741087083574,
      "loss": 0.8373,
      "step": 540
    },
    {
      "epoch": 0.16,
      "grad_norm": 85.88381074144633,
      "learning_rate": 0.0002994082407948568,
      "loss": 0.9952,
      "step": 550
    },
    {
      "epoch": 0.16,
      "grad_norm": 46.828573117866156,
      "learning_rate": 0.0002991890707188778,
      "loss": 1.2285,
      "step": 560
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.319911680589826,
      "learning_rate": 0.00029896990064289886,
      "loss": 1.0784,
      "step": 570
    },
    {
      "epoch": 0.16,
      "grad_norm": 49.18948488974743,
      "learning_rate": 0.0002987507305669199,
      "loss": 0.6879,
      "step": 580
    },
    {
      "epoch": 0.17,
      "grad_norm": 14.790075292508273,
      "learning_rate": 0.0002985315604909409,
      "loss": 0.7182,
      "step": 590
    },
    {
      "epoch": 0.17,
      "grad_norm": 81.77111956641443,
      "learning_rate": 0.000298312390414962,
      "loss": 0.6341,
      "step": 600
    },
    {
      "epoch": 0.17,
      "grad_norm": 5.015074610499661,
      "learning_rate": 0.00029809322033898304,
      "loss": 0.8418,
      "step": 610
    },
    {
      "epoch": 0.17,
      "grad_norm": 43.326414318341016,
      "learning_rate": 0.00029787405026300405,
      "loss": 0.7158,
      "step": 620
    },
    {
      "epoch": 0.18,
      "grad_norm": 21.749351652802584,
      "learning_rate": 0.0002976548801870251,
      "loss": 0.5541,
      "step": 630
    },
    {
      "epoch": 0.18,
      "grad_norm": 104.8554633037212,
      "learning_rate": 0.00029743571011104616,
      "loss": 0.7715,
      "step": 640
    },
    {
      "epoch": 0.18,
      "grad_norm": 53.28037677060509,
      "learning_rate": 0.00029721654003506717,
      "loss": 0.7089,
      "step": 650
    },
    {
      "epoch": 0.19,
      "grad_norm": 60.68620976609669,
      "learning_rate": 0.00029699736995908823,
      "loss": 0.7251,
      "step": 660
    },
    {
      "epoch": 0.19,
      "grad_norm": 83.67598838205309,
      "learning_rate": 0.0002967781998831093,
      "loss": 0.9626,
      "step": 670
    },
    {
      "epoch": 0.19,
      "grad_norm": 22.217129800838155,
      "learning_rate": 0.0002965590298071303,
      "loss": 0.7762,
      "step": 680
    },
    {
      "epoch": 0.19,
      "grad_norm": 86.4481164773122,
      "learning_rate": 0.00029633985973115135,
      "loss": 0.6535,
      "step": 690
    },
    {
      "epoch": 0.2,
      "grad_norm": 40.75531136163561,
      "learning_rate": 0.00029612068965517236,
      "loss": 0.6025,
      "step": 700
    },
    {
      "epoch": 0.2,
      "grad_norm": 56.971296704966576,
      "learning_rate": 0.0002959015195791934,
      "loss": 0.7087,
      "step": 710
    },
    {
      "epoch": 0.2,
      "grad_norm": 30.278786860468646,
      "learning_rate": 0.0002956823495032145,
      "loss": 0.8943,
      "step": 720
    },
    {
      "epoch": 0.21,
      "grad_norm": 14.890198931647719,
      "learning_rate": 0.0002954631794272355,
      "loss": 0.8818,
      "step": 730
    },
    {
      "epoch": 0.21,
      "grad_norm": 39.88836482589719,
      "learning_rate": 0.00029524400935125654,
      "loss": 0.9544,
      "step": 740
    },
    {
      "epoch": 0.21,
      "grad_norm": 102.4851007431489,
      "learning_rate": 0.0002950248392752776,
      "loss": 0.7461,
      "step": 750
    },
    {
      "epoch": 0.21,
      "grad_norm": 43.156700980283695,
      "learning_rate": 0.0002948056691992986,
      "loss": 0.7074,
      "step": 760
    },
    {
      "epoch": 0.22,
      "grad_norm": 49.376028998432666,
      "learning_rate": 0.00029458649912331966,
      "loss": 0.6382,
      "step": 770
    },
    {
      "epoch": 0.22,
      "grad_norm": 31.433406542237964,
      "learning_rate": 0.0002943673290473407,
      "loss": 0.732,
      "step": 780
    },
    {
      "epoch": 0.22,
      "grad_norm": 44.3715979494319,
      "learning_rate": 0.0002941481589713617,
      "loss": 0.6883,
      "step": 790
    },
    {
      "epoch": 0.23,
      "grad_norm": 17.06187425481664,
      "learning_rate": 0.0002939289888953828,
      "loss": 0.648,
      "step": 800
    },
    {
      "epoch": 0.23,
      "grad_norm": 8.777853690776,
      "learning_rate": 0.00029370981881940384,
      "loss": 0.4979,
      "step": 810
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.880875214974237,
      "learning_rate": 0.00029349064874342485,
      "loss": 0.743,
      "step": 820
    },
    {
      "epoch": 0.23,
      "grad_norm": 9.720423607604369,
      "learning_rate": 0.0002932714786674459,
      "loss": 0.645,
      "step": 830
    },
    {
      "epoch": 0.24,
      "grad_norm": 9.066124973757804,
      "learning_rate": 0.00029305230859146697,
      "loss": 0.4977,
      "step": 840
    },
    {
      "epoch": 0.24,
      "grad_norm": 23.89066736642937,
      "learning_rate": 0.00029283313851548797,
      "loss": 0.4926,
      "step": 850
    },
    {
      "epoch": 0.24,
      "grad_norm": 41.695686510198016,
      "learning_rate": 0.00029261396843950903,
      "loss": 0.7886,
      "step": 860
    },
    {
      "epoch": 0.25,
      "grad_norm": 66.53797988620009,
      "learning_rate": 0.00029239479836353004,
      "loss": 0.5658,
      "step": 870
    },
    {
      "epoch": 0.25,
      "grad_norm": 55.97718756593597,
      "learning_rate": 0.0002921756282875511,
      "loss": 0.5484,
      "step": 880
    },
    {
      "epoch": 0.25,
      "grad_norm": 108.03497298548182,
      "learning_rate": 0.00029195645821157215,
      "loss": 0.7978,
      "step": 890
    },
    {
      "epoch": 0.25,
      "grad_norm": 40.14088131595207,
      "learning_rate": 0.00029173728813559316,
      "loss": 0.6178,
      "step": 900
    },
    {
      "epoch": 0.26,
      "grad_norm": 48.46822333526267,
      "learning_rate": 0.00029151811805961427,
      "loss": 0.565,
      "step": 910
    },
    {
      "epoch": 0.26,
      "grad_norm": 16.17488665111733,
      "learning_rate": 0.0002912989479836353,
      "loss": 0.6886,
      "step": 920
    },
    {
      "epoch": 0.26,
      "grad_norm": 26.592963237868908,
      "learning_rate": 0.0002910797779076563,
      "loss": 0.6966,
      "step": 930
    },
    {
      "epoch": 0.27,
      "grad_norm": 27.00009471161443,
      "learning_rate": 0.0002908606078316774,
      "loss": 0.6178,
      "step": 940
    },
    {
      "epoch": 0.27,
      "grad_norm": 28.195576793914913,
      "learning_rate": 0.0002906414377556984,
      "loss": 0.4663,
      "step": 950
    },
    {
      "epoch": 0.27,
      "grad_norm": 23.538388615789113,
      "learning_rate": 0.00029042226767971946,
      "loss": 0.7135,
      "step": 960
    },
    {
      "epoch": 0.27,
      "grad_norm": 20.353666443170358,
      "learning_rate": 0.00029020309760374046,
      "loss": 0.708,
      "step": 970
    },
    {
      "epoch": 0.28,
      "grad_norm": 30.98820805802448,
      "learning_rate": 0.0002899839275277615,
      "loss": 0.5138,
      "step": 980
    },
    {
      "epoch": 0.28,
      "grad_norm": 49.96332795879376,
      "learning_rate": 0.0002897647574517826,
      "loss": 0.5238,
      "step": 990
    },
    {
      "epoch": 0.28,
      "grad_norm": 36.472514659373466,
      "learning_rate": 0.0002895455873758036,
      "loss": 0.7198,
      "step": 1000
    },
    {
      "epoch": 0.28,
      "grad_norm": 5.727047796229911,
      "learning_rate": 0.00028932641729982465,
      "loss": 0.5427,
      "step": 1010
    },
    {
      "epoch": 0.29,
      "grad_norm": 6.39978136661481,
      "learning_rate": 0.0002891072472238457,
      "loss": 0.6386,
      "step": 1020
    },
    {
      "epoch": 0.29,
      "grad_norm": 26.496446288276136,
      "learning_rate": 0.0002888880771478667,
      "loss": 0.4019,
      "step": 1030
    },
    {
      "epoch": 0.29,
      "grad_norm": 96.50801416396253,
      "learning_rate": 0.00028866890707188777,
      "loss": 0.8864,
      "step": 1040
    },
    {
      "epoch": 0.3,
      "grad_norm": 26.933228918624025,
      "learning_rate": 0.00028844973699590883,
      "loss": 0.8963,
      "step": 1050
    },
    {
      "epoch": 0.3,
      "grad_norm": 20.70682008967005,
      "learning_rate": 0.00028825248392752773,
      "loss": 0.6956,
      "step": 1060
    },
    {
      "epoch": 0.3,
      "grad_norm": 46.724804444462556,
      "learning_rate": 0.00028803331385154874,
      "loss": 0.8669,
      "step": 1070
    },
    {
      "epoch": 0.3,
      "grad_norm": 5.5954267342032225,
      "learning_rate": 0.00028781414377556985,
      "loss": 0.9219,
      "step": 1080
    },
    {
      "epoch": 0.31,
      "grad_norm": 60.59949911543188,
      "learning_rate": 0.00028759497369959086,
      "loss": 0.6557,
      "step": 1090
    },
    {
      "epoch": 0.31,
      "grad_norm": 37.05416363332341,
      "learning_rate": 0.00028737580362361186,
      "loss": 0.7692,
      "step": 1100
    },
    {
      "epoch": 0.31,
      "grad_norm": 14.82417785628839,
      "learning_rate": 0.000287156633547633,
      "loss": 0.5669,
      "step": 1110
    },
    {
      "epoch": 0.32,
      "grad_norm": 34.71923857782051,
      "learning_rate": 0.000286937463471654,
      "loss": 0.7427,
      "step": 1120
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.620541208209977,
      "learning_rate": 0.00028671829339567504,
      "loss": 0.4811,
      "step": 1130
    },
    {
      "epoch": 0.32,
      "grad_norm": 65.72414363498706,
      "learning_rate": 0.00028649912331969604,
      "loss": 0.6696,
      "step": 1140
    },
    {
      "epoch": 0.32,
      "grad_norm": 31.255536486132993,
      "learning_rate": 0.0002862799532437171,
      "loss": 0.6253,
      "step": 1150
    },
    {
      "epoch": 0.33,
      "grad_norm": 14.845236948350237,
      "learning_rate": 0.00028606078316773816,
      "loss": 0.5473,
      "step": 1160
    },
    {
      "epoch": 0.33,
      "grad_norm": 62.44169640686947,
      "learning_rate": 0.00028584161309175917,
      "loss": 0.6686,
      "step": 1170
    },
    {
      "epoch": 0.33,
      "grad_norm": 105.6997308934719,
      "learning_rate": 0.0002856224430157802,
      "loss": 0.7738,
      "step": 1180
    },
    {
      "epoch": 0.34,
      "grad_norm": 75.19754745372326,
      "learning_rate": 0.0002854032729398013,
      "loss": 0.5995,
      "step": 1190
    },
    {
      "epoch": 0.34,
      "grad_norm": 34.71806881877583,
      "learning_rate": 0.0002851841028638223,
      "loss": 0.5701,
      "step": 1200
    },
    {
      "epoch": 0.34,
      "grad_norm": 48.159897749652075,
      "learning_rate": 0.00028496493278784335,
      "loss": 0.4724,
      "step": 1210
    },
    {
      "epoch": 0.34,
      "grad_norm": 6.544316071386722,
      "learning_rate": 0.0002847457627118644,
      "loss": 0.6537,
      "step": 1220
    },
    {
      "epoch": 0.35,
      "grad_norm": 21.365400503740027,
      "learning_rate": 0.0002845265926358854,
      "loss": 0.4979,
      "step": 1230
    },
    {
      "epoch": 0.35,
      "grad_norm": 5.248896963680607,
      "learning_rate": 0.00028430742255990647,
      "loss": 0.4174,
      "step": 1240
    },
    {
      "epoch": 0.35,
      "grad_norm": 7.535922720940304,
      "learning_rate": 0.00028408825248392753,
      "loss": 0.7422,
      "step": 1250
    },
    {
      "epoch": 0.36,
      "grad_norm": 22.985477551377006,
      "learning_rate": 0.00028386908240794854,
      "loss": 0.6509,
      "step": 1260
    },
    {
      "epoch": 0.36,
      "grad_norm": 44.34169162733889,
      "learning_rate": 0.0002836499123319696,
      "loss": 0.6908,
      "step": 1270
    },
    {
      "epoch": 0.36,
      "grad_norm": 41.93808698385512,
      "learning_rate": 0.00028343074225599065,
      "loss": 0.5134,
      "step": 1280
    },
    {
      "epoch": 0.36,
      "grad_norm": 9.954650885829432,
      "learning_rate": 0.00028321157218001166,
      "loss": 0.4772,
      "step": 1290
    },
    {
      "epoch": 0.37,
      "grad_norm": 14.453953812006848,
      "learning_rate": 0.0002829924021040327,
      "loss": 0.6207,
      "step": 1300
    },
    {
      "epoch": 0.37,
      "grad_norm": 5.273785434123745,
      "learning_rate": 0.0002827732320280537,
      "loss": 0.5753,
      "step": 1310
    },
    {
      "epoch": 0.37,
      "grad_norm": 4.858445515524344,
      "learning_rate": 0.0002825540619520748,
      "loss": 0.5052,
      "step": 1320
    },
    {
      "epoch": 0.37,
      "grad_norm": 9.635141224231973,
      "learning_rate": 0.00028233489187609584,
      "loss": 0.4951,
      "step": 1330
    },
    {
      "epoch": 0.38,
      "grad_norm": 43.41263842722645,
      "learning_rate": 0.00028211572180011685,
      "loss": 0.5636,
      "step": 1340
    },
    {
      "epoch": 0.38,
      "grad_norm": 15.495027516009957,
      "learning_rate": 0.0002818965517241379,
      "loss": 0.466,
      "step": 1350
    },
    {
      "epoch": 0.38,
      "grad_norm": 64.28182805477857,
      "learning_rate": 0.00028167738164815896,
      "loss": 0.5672,
      "step": 1360
    },
    {
      "epoch": 0.39,
      "grad_norm": 64.9516330457715,
      "learning_rate": 0.00028145821157217997,
      "loss": 0.569,
      "step": 1370
    },
    {
      "epoch": 0.39,
      "grad_norm": 18.376532518493583,
      "learning_rate": 0.00028123904149620103,
      "loss": 0.4619,
      "step": 1380
    },
    {
      "epoch": 0.39,
      "grad_norm": 8.562914609442593,
      "learning_rate": 0.0002810198714202221,
      "loss": 0.545,
      "step": 1390
    },
    {
      "epoch": 0.39,
      "grad_norm": 60.21363972002377,
      "learning_rate": 0.0002808007013442431,
      "loss": 0.3975,
      "step": 1400
    },
    {
      "epoch": 0.4,
      "grad_norm": 28.047906754092985,
      "learning_rate": 0.00028058153126826415,
      "loss": 0.6251,
      "step": 1410
    },
    {
      "epoch": 0.4,
      "grad_norm": 35.10586789783855,
      "learning_rate": 0.0002803623611922852,
      "loss": 0.6277,
      "step": 1420
    },
    {
      "epoch": 0.4,
      "grad_norm": 12.797561679192818,
      "learning_rate": 0.0002801431911163062,
      "loss": 0.5604,
      "step": 1430
    },
    {
      "epoch": 0.41,
      "grad_norm": 45.77020206433535,
      "learning_rate": 0.0002799240210403273,
      "loss": 0.5095,
      "step": 1440
    },
    {
      "epoch": 0.41,
      "grad_norm": 8.950325235661051,
      "learning_rate": 0.00027970485096434833,
      "loss": 0.6742,
      "step": 1450
    },
    {
      "epoch": 0.41,
      "grad_norm": 89.39440158187,
      "learning_rate": 0.00027948568088836934,
      "loss": 0.6291,
      "step": 1460
    },
    {
      "epoch": 0.41,
      "grad_norm": 42.25863783297151,
      "learning_rate": 0.0002792665108123904,
      "loss": 0.5981,
      "step": 1470
    },
    {
      "epoch": 0.42,
      "grad_norm": 70.1528669289255,
      "learning_rate": 0.0002790473407364114,
      "loss": 0.6403,
      "step": 1480
    },
    {
      "epoch": 0.42,
      "grad_norm": 46.97367429458831,
      "learning_rate": 0.00027882817066043246,
      "loss": 0.4118,
      "step": 1490
    },
    {
      "epoch": 0.42,
      "grad_norm": 40.541175129277065,
      "learning_rate": 0.0002786090005844535,
      "loss": 0.5049,
      "step": 1500
    },
    {
      "epoch": 0.43,
      "grad_norm": 15.523999358550466,
      "learning_rate": 0.0002783898305084745,
      "loss": 0.4035,
      "step": 1510
    },
    {
      "epoch": 0.43,
      "grad_norm": 10.185134626898725,
      "learning_rate": 0.0002781706604324956,
      "loss": 0.3807,
      "step": 1520
    },
    {
      "epoch": 0.43,
      "grad_norm": 41.67374680359159,
      "learning_rate": 0.00027795149035651664,
      "loss": 0.6452,
      "step": 1530
    },
    {
      "epoch": 0.43,
      "grad_norm": 17.98431769773285,
      "learning_rate": 0.00027773232028053765,
      "loss": 0.4049,
      "step": 1540
    },
    {
      "epoch": 0.44,
      "grad_norm": 28.42010603664099,
      "learning_rate": 0.0002775131502045587,
      "loss": 0.5067,
      "step": 1550
    },
    {
      "epoch": 0.44,
      "grad_norm": 8.903302713389115,
      "learning_rate": 0.00027729398012857977,
      "loss": 0.6382,
      "step": 1560
    },
    {
      "epoch": 0.44,
      "grad_norm": 65.95394817146764,
      "learning_rate": 0.00027707481005260077,
      "loss": 0.651,
      "step": 1570
    },
    {
      "epoch": 0.45,
      "grad_norm": 13.423645923612371,
      "learning_rate": 0.00027685563997662183,
      "loss": 0.4343,
      "step": 1580
    },
    {
      "epoch": 0.45,
      "grad_norm": 19.870165040548233,
      "learning_rate": 0.0002766364699006429,
      "loss": 0.5016,
      "step": 1590
    },
    {
      "epoch": 0.45,
      "grad_norm": 7.295472062733364,
      "learning_rate": 0.0002764172998246639,
      "loss": 0.4203,
      "step": 1600
    },
    {
      "epoch": 0.45,
      "grad_norm": 13.426653279288725,
      "learning_rate": 0.00027619812974868495,
      "loss": 0.5413,
      "step": 1610
    },
    {
      "epoch": 0.46,
      "grad_norm": 35.81973630385564,
      "learning_rate": 0.00027597895967270596,
      "loss": 0.536,
      "step": 1620
    },
    {
      "epoch": 0.46,
      "grad_norm": 15.789511808342628,
      "learning_rate": 0.000275759789596727,
      "loss": 0.3641,
      "step": 1630
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.438056573729943,
      "learning_rate": 0.0002755406195207481,
      "loss": 0.3846,
      "step": 1640
    },
    {
      "epoch": 0.47,
      "grad_norm": 43.693835213902354,
      "learning_rate": 0.0002753214494447691,
      "loss": 0.6304,
      "step": 1650
    },
    {
      "epoch": 0.47,
      "grad_norm": 41.69843964932105,
      "learning_rate": 0.00027510227936879014,
      "loss": 0.5184,
      "step": 1660
    },
    {
      "epoch": 0.47,
      "grad_norm": 26.698062076363627,
      "learning_rate": 0.0002748831092928112,
      "loss": 0.5844,
      "step": 1670
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7012189494264895,
      "learning_rate": 0.0002746639392168322,
      "loss": 0.4043,
      "step": 1680
    },
    {
      "epoch": 0.48,
      "grad_norm": 52.6718491008472,
      "learning_rate": 0.0002744447691408533,
      "loss": 0.5674,
      "step": 1690
    },
    {
      "epoch": 0.48,
      "grad_norm": 14.061719898202849,
      "learning_rate": 0.0002742255990648743,
      "loss": 0.4724,
      "step": 1700
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.847972088161487,
      "learning_rate": 0.00027400642898889533,
      "loss": 0.3894,
      "step": 1710
    },
    {
      "epoch": 0.48,
      "grad_norm": 10.733410570701619,
      "learning_rate": 0.0002737872589129164,
      "loss": 0.3706,
      "step": 1720
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.582634401736958,
      "learning_rate": 0.00027356808883693745,
      "loss": 0.6391,
      "step": 1730
    },
    {
      "epoch": 0.49,
      "grad_norm": 26.185314688453758,
      "learning_rate": 0.0002733489187609585,
      "loss": 0.6093,
      "step": 1740
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.754244803162683,
      "learning_rate": 0.0002731297486849795,
      "loss": 0.4868,
      "step": 1750
    },
    {
      "epoch": 0.5,
      "grad_norm": 39.5290991827534,
      "learning_rate": 0.00027291057860900057,
      "loss": 0.3798,
      "step": 1760
    },
    {
      "epoch": 0.5,
      "grad_norm": 50.24696278971589,
      "learning_rate": 0.00027269140853302163,
      "loss": 0.5672,
      "step": 1770
    },
    {
      "epoch": 0.5,
      "grad_norm": 40.15272638877307,
      "learning_rate": 0.00027247223845704263,
      "loss": 0.4471,
      "step": 1780
    },
    {
      "epoch": 0.5,
      "grad_norm": 28.70418219314436,
      "learning_rate": 0.00027225306838106364,
      "loss": 0.6382,
      "step": 1790
    },
    {
      "epoch": 0.51,
      "grad_norm": 28.561604385347348,
      "learning_rate": 0.00027203389830508475,
      "loss": 0.4176,
      "step": 1800
    },
    {
      "epoch": 0.51,
      "grad_norm": 17.815402549033355,
      "learning_rate": 0.00027181472822910576,
      "loss": 0.5882,
      "step": 1810
    },
    {
      "epoch": 0.51,
      "grad_norm": 15.342408938615899,
      "learning_rate": 0.0002715955581531268,
      "loss": 0.5019,
      "step": 1820
    },
    {
      "epoch": 0.52,
      "grad_norm": 23.598442882592035,
      "learning_rate": 0.0002713763880771479,
      "loss": 0.556,
      "step": 1830
    },
    {
      "epoch": 0.52,
      "grad_norm": 67.23786205262353,
      "learning_rate": 0.0002711572180011689,
      "loss": 0.5685,
      "step": 1840
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.243022538273344,
      "learning_rate": 0.00027093804792518994,
      "loss": 0.4733,
      "step": 1850
    },
    {
      "epoch": 0.52,
      "grad_norm": 13.180044758827014,
      "learning_rate": 0.000270718877849211,
      "loss": 0.4605,
      "step": 1860
    },
    {
      "epoch": 0.53,
      "grad_norm": 22.165941849190077,
      "learning_rate": 0.000270499707773232,
      "loss": 0.5884,
      "step": 1870
    },
    {
      "epoch": 0.53,
      "grad_norm": 63.37369359897044,
      "learning_rate": 0.00027028053769725306,
      "loss": 0.5035,
      "step": 1880
    },
    {
      "epoch": 0.53,
      "grad_norm": 7.126542990903908,
      "learning_rate": 0.00027006136762127407,
      "loss": 0.5265,
      "step": 1890
    },
    {
      "epoch": 0.54,
      "grad_norm": 18.999488189785442,
      "learning_rate": 0.0002698421975452951,
      "loss": 0.4029,
      "step": 1900
    },
    {
      "epoch": 0.54,
      "grad_norm": 74.7735357892713,
      "learning_rate": 0.0002696230274693162,
      "loss": 0.5864,
      "step": 1910
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.537363990276932,
      "learning_rate": 0.0002694038573933372,
      "loss": 0.4943,
      "step": 1920
    },
    {
      "epoch": 0.54,
      "grad_norm": 5.4900230565856125,
      "learning_rate": 0.00026918468731735825,
      "loss": 0.4046,
      "step": 1930
    },
    {
      "epoch": 0.55,
      "grad_norm": 13.0055044025215,
      "learning_rate": 0.0002689655172413793,
      "loss": 0.4548,
      "step": 1940
    },
    {
      "epoch": 0.55,
      "grad_norm": 38.12513704333924,
      "learning_rate": 0.0002687463471654003,
      "loss": 0.4879,
      "step": 1950
    },
    {
      "epoch": 0.55,
      "grad_norm": 39.26658731655891,
      "learning_rate": 0.0002685271770894214,
      "loss": 0.4619,
      "step": 1960
    },
    {
      "epoch": 0.56,
      "grad_norm": 25.60070282398106,
      "learning_rate": 0.00026830800701344243,
      "loss": 0.3977,
      "step": 1970
    },
    {
      "epoch": 0.56,
      "grad_norm": 26.2056587948436,
      "learning_rate": 0.00026808883693746344,
      "loss": 0.6761,
      "step": 1980
    },
    {
      "epoch": 0.56,
      "grad_norm": 6.11452999302761,
      "learning_rate": 0.0002678696668614845,
      "loss": 0.4193,
      "step": 1990
    },
    {
      "epoch": 0.56,
      "grad_norm": 33.901640420477705,
      "learning_rate": 0.00026765049678550556,
      "loss": 0.3582,
      "step": 2000
    },
    {
      "epoch": 0.57,
      "grad_norm": 39.05264118867418,
      "learning_rate": 0.00026743132670952656,
      "loss": 0.6291,
      "step": 2010
    },
    {
      "epoch": 0.57,
      "grad_norm": 37.194416649503715,
      "learning_rate": 0.0002672121566335476,
      "loss": 0.5405,
      "step": 2020
    },
    {
      "epoch": 0.57,
      "grad_norm": 10.433072414980515,
      "learning_rate": 0.0002669929865575686,
      "loss": 0.3794,
      "step": 2030
    },
    {
      "epoch": 0.58,
      "grad_norm": 13.092304284069662,
      "learning_rate": 0.0002667738164815897,
      "loss": 0.5334,
      "step": 2040
    },
    {
      "epoch": 0.58,
      "grad_norm": 63.86550661120767,
      "learning_rate": 0.00026655464640561074,
      "loss": 0.5122,
      "step": 2050
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.517042940759129,
      "learning_rate": 0.00026633547632963175,
      "loss": 0.5369,
      "step": 2060
    },
    {
      "epoch": 0.58,
      "grad_norm": 5.619466465382078,
      "learning_rate": 0.0002661163062536528,
      "loss": 0.5914,
      "step": 2070
    },
    {
      "epoch": 0.59,
      "grad_norm": 8.934697851639797,
      "learning_rate": 0.00026589713617767387,
      "loss": 0.4139,
      "step": 2080
    },
    {
      "epoch": 0.59,
      "grad_norm": 6.230035836028844,
      "learning_rate": 0.00026567796610169487,
      "loss": 0.5029,
      "step": 2090
    },
    {
      "epoch": 0.59,
      "grad_norm": 15.356060765823438,
      "learning_rate": 0.00026545879602571593,
      "loss": 0.3824,
      "step": 2100
    },
    {
      "epoch": 0.59,
      "grad_norm": 7.576984306147784,
      "learning_rate": 0.000265239625949737,
      "loss": 0.6175,
      "step": 2110
    },
    {
      "epoch": 0.6,
      "grad_norm": 28.748362595639772,
      "learning_rate": 0.000265020455873758,
      "loss": 0.5614,
      "step": 2120
    },
    {
      "epoch": 0.6,
      "grad_norm": 16.32965992610039,
      "learning_rate": 0.00026480128579777905,
      "loss": 0.5116,
      "step": 2130
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.2753516984217614,
      "learning_rate": 0.0002645821157218001,
      "loss": 0.4541,
      "step": 2140
    },
    {
      "epoch": 0.61,
      "grad_norm": 42.92699392822083,
      "learning_rate": 0.0002643629456458211,
      "loss": 0.4284,
      "step": 2150
    },
    {
      "epoch": 0.61,
      "grad_norm": 17.612783953748007,
      "learning_rate": 0.0002641437755698422,
      "loss": 0.465,
      "step": 2160
    },
    {
      "epoch": 0.61,
      "grad_norm": 8.549512475388743,
      "learning_rate": 0.00026392460549386324,
      "loss": 0.409,
      "step": 2170
    },
    {
      "epoch": 0.61,
      "grad_norm": 12.657379379480137,
      "learning_rate": 0.00026370543541788424,
      "loss": 0.5745,
      "step": 2180
    },
    {
      "epoch": 0.62,
      "grad_norm": 19.533607385657547,
      "learning_rate": 0.0002634862653419053,
      "loss": 0.493,
      "step": 2190
    },
    {
      "epoch": 0.62,
      "grad_norm": 30.019312017902323,
      "learning_rate": 0.0002632670952659263,
      "loss": 0.486,
      "step": 2200
    },
    {
      "epoch": 0.62,
      "grad_norm": 15.192669371979543,
      "learning_rate": 0.00026304792518994736,
      "loss": 0.4214,
      "step": 2210
    },
    {
      "epoch": 0.63,
      "grad_norm": 32.465439529928304,
      "learning_rate": 0.0002628287551139684,
      "loss": 0.5712,
      "step": 2220
    },
    {
      "epoch": 0.63,
      "grad_norm": 36.91886247399315,
      "learning_rate": 0.00026260958503798943,
      "loss": 0.4334,
      "step": 2230
    },
    {
      "epoch": 0.63,
      "grad_norm": 23.910769075350032,
      "learning_rate": 0.0002623904149620105,
      "loss": 0.5462,
      "step": 2240
    },
    {
      "epoch": 0.63,
      "grad_norm": 67.93569743336582,
      "learning_rate": 0.00026217124488603155,
      "loss": 0.4493,
      "step": 2250
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.532118414700022,
      "learning_rate": 0.00026195207481005255,
      "loss": 0.4534,
      "step": 2260
    },
    {
      "epoch": 0.64,
      "grad_norm": 29.266963293461014,
      "learning_rate": 0.0002617329047340736,
      "loss": 0.4529,
      "step": 2270
    },
    {
      "epoch": 0.64,
      "grad_norm": 48.97288077592708,
      "learning_rate": 0.00026153565166569257,
      "loss": 0.5841,
      "step": 2280
    },
    {
      "epoch": 0.65,
      "grad_norm": 20.00706276686128,
      "learning_rate": 0.00026131648158971357,
      "loss": 0.5449,
      "step": 2290
    },
    {
      "epoch": 0.65,
      "grad_norm": 52.88683636279855,
      "learning_rate": 0.00026109731151373463,
      "loss": 0.5451,
      "step": 2300
    },
    {
      "epoch": 0.65,
      "grad_norm": 19.058421611399435,
      "learning_rate": 0.0002608781414377557,
      "loss": 0.4933,
      "step": 2310
    },
    {
      "epoch": 0.65,
      "grad_norm": 12.662298018994834,
      "learning_rate": 0.0002606589713617767,
      "loss": 0.4933,
      "step": 2320
    },
    {
      "epoch": 0.66,
      "grad_norm": 45.53858660601269,
      "learning_rate": 0.00026043980128579776,
      "loss": 0.53,
      "step": 2330
    },
    {
      "epoch": 0.66,
      "grad_norm": 26.19222918219647,
      "learning_rate": 0.0002602206312098188,
      "loss": 0.4293,
      "step": 2340
    },
    {
      "epoch": 0.66,
      "grad_norm": 12.902630462226897,
      "learning_rate": 0.0002600014611338398,
      "loss": 0.4571,
      "step": 2350
    },
    {
      "epoch": 0.67,
      "grad_norm": 30.841311400161104,
      "learning_rate": 0.0002597822910578609,
      "loss": 0.3776,
      "step": 2360
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.354115675571604,
      "learning_rate": 0.00025956312098188194,
      "loss": 0.3751,
      "step": 2370
    },
    {
      "epoch": 0.67,
      "grad_norm": 11.162047701554282,
      "learning_rate": 0.00025934395090590294,
      "loss": 0.2605,
      "step": 2380
    },
    {
      "epoch": 0.67,
      "grad_norm": 42.422050961854865,
      "learning_rate": 0.000259124780829924,
      "loss": 0.5152,
      "step": 2390
    },
    {
      "epoch": 0.68,
      "grad_norm": 38.9786626728249,
      "learning_rate": 0.000258905610753945,
      "loss": 0.3935,
      "step": 2400
    },
    {
      "epoch": 0.68,
      "grad_norm": 38.1773503077784,
      "learning_rate": 0.00025868644067796607,
      "loss": 0.5644,
      "step": 2410
    },
    {
      "epoch": 0.68,
      "grad_norm": 14.79430105184665,
      "learning_rate": 0.0002584672706019871,
      "loss": 0.5293,
      "step": 2420
    },
    {
      "epoch": 0.69,
      "grad_norm": 34.794933030659074,
      "learning_rate": 0.00025824810052600813,
      "loss": 0.5646,
      "step": 2430
    },
    {
      "epoch": 0.69,
      "grad_norm": 11.775866235902662,
      "learning_rate": 0.0002580289304500292,
      "loss": 0.4189,
      "step": 2440
    },
    {
      "epoch": 0.69,
      "grad_norm": 74.35669253529362,
      "learning_rate": 0.00025780976037405025,
      "loss": 0.6112,
      "step": 2450
    },
    {
      "epoch": 0.69,
      "grad_norm": 38.88263346213307,
      "learning_rate": 0.00025759059029807125,
      "loss": 0.4503,
      "step": 2460
    },
    {
      "epoch": 0.7,
      "grad_norm": 37.361077582565066,
      "learning_rate": 0.0002573714202220923,
      "loss": 0.4393,
      "step": 2470
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.7092125809415342,
      "learning_rate": 0.00025715225014611337,
      "loss": 0.4243,
      "step": 2480
    },
    {
      "epoch": 0.7,
      "grad_norm": 57.33578620565298,
      "learning_rate": 0.0002569330800701344,
      "loss": 0.4961,
      "step": 2490
    },
    {
      "epoch": 0.7,
      "grad_norm": 24.953469848220585,
      "learning_rate": 0.00025671390999415543,
      "loss": 0.5143,
      "step": 2500
    },
    {
      "epoch": 0.71,
      "grad_norm": 69.87186379679335,
      "learning_rate": 0.0002564947399181765,
      "loss": 0.5994,
      "step": 2510
    },
    {
      "epoch": 0.71,
      "grad_norm": 9.423503958754821,
      "learning_rate": 0.0002562755698421975,
      "loss": 0.3865,
      "step": 2520
    },
    {
      "epoch": 0.71,
      "grad_norm": 35.63761411276129,
      "learning_rate": 0.00025605639976621856,
      "loss": 0.4244,
      "step": 2530
    },
    {
      "epoch": 0.72,
      "grad_norm": 7.718201160525164,
      "learning_rate": 0.0002558372296902396,
      "loss": 0.303,
      "step": 2540
    },
    {
      "epoch": 0.72,
      "grad_norm": 4.591243708143018,
      "learning_rate": 0.0002556180596142607,
      "loss": 0.5215,
      "step": 2550
    },
    {
      "epoch": 0.72,
      "grad_norm": 22.307015902915715,
      "learning_rate": 0.0002553988895382817,
      "loss": 0.4571,
      "step": 2560
    },
    {
      "epoch": 0.72,
      "grad_norm": 22.779301668637764,
      "learning_rate": 0.0002551797194623027,
      "loss": 0.4807,
      "step": 2570
    },
    {
      "epoch": 0.73,
      "grad_norm": 12.190202028042945,
      "learning_rate": 0.0002549605493863238,
      "loss": 0.3605,
      "step": 2580
    },
    {
      "epoch": 0.73,
      "grad_norm": 7.251641577848608,
      "learning_rate": 0.0002547413793103448,
      "loss": 0.6469,
      "step": 2590
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5118716411197952,
      "learning_rate": 0.00025452220923436586,
      "loss": 0.3641,
      "step": 2600
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.4089258042614086,
      "learning_rate": 0.0002543030391583869,
      "loss": 0.6651,
      "step": 2610
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.9557173441623856,
      "learning_rate": 0.00025408386908240793,
      "loss": 0.6309,
      "step": 2620
    },
    {
      "epoch": 0.74,
      "grad_norm": 29.838754199710966,
      "learning_rate": 0.000253864699006429,
      "loss": 0.4806,
      "step": 2630
    },
    {
      "epoch": 0.74,
      "grad_norm": 27.703367909949506,
      "learning_rate": 0.00025364552893045,
      "loss": 0.5419,
      "step": 2640
    },
    {
      "epoch": 0.75,
      "grad_norm": 30.019133853453674,
      "learning_rate": 0.00025342635885447105,
      "loss": 0.5585,
      "step": 2650
    },
    {
      "epoch": 0.75,
      "grad_norm": 34.77564734000214,
      "learning_rate": 0.0002532071887784921,
      "loss": 0.4483,
      "step": 2660
    },
    {
      "epoch": 0.75,
      "grad_norm": 47.783274628573835,
      "learning_rate": 0.0002529880187025131,
      "loss": 0.5153,
      "step": 2670
    },
    {
      "epoch": 0.76,
      "grad_norm": 26.23337473603945,
      "learning_rate": 0.0002527688486265342,
      "loss": 0.4699,
      "step": 2680
    },
    {
      "epoch": 0.76,
      "grad_norm": 29.216617715519472,
      "learning_rate": 0.00025254967855055523,
      "loss": 0.5015,
      "step": 2690
    },
    {
      "epoch": 0.76,
      "grad_norm": 62.76087495760497,
      "learning_rate": 0.00025233050847457624,
      "loss": 0.3711,
      "step": 2700
    },
    {
      "epoch": 0.76,
      "grad_norm": 45.88533063155937,
      "learning_rate": 0.0002521113383985973,
      "loss": 0.6509,
      "step": 2710
    },
    {
      "epoch": 0.77,
      "grad_norm": 20.44584239605378,
      "learning_rate": 0.00025189216832261836,
      "loss": 0.3635,
      "step": 2720
    },
    {
      "epoch": 0.77,
      "grad_norm": 16.861314315606865,
      "learning_rate": 0.00025167299824663936,
      "loss": 0.4719,
      "step": 2730
    },
    {
      "epoch": 0.77,
      "grad_norm": 28.52875293425469,
      "learning_rate": 0.0002514538281706604,
      "loss": 0.689,
      "step": 2740
    },
    {
      "epoch": 0.78,
      "grad_norm": 35.22222000713686,
      "learning_rate": 0.0002512346580946815,
      "loss": 0.6445,
      "step": 2750
    },
    {
      "epoch": 0.78,
      "grad_norm": 35.45687930499127,
      "learning_rate": 0.0002510154880187025,
      "loss": 0.4704,
      "step": 2760
    },
    {
      "epoch": 0.78,
      "grad_norm": 8.810315004780433,
      "learning_rate": 0.00025079631794272354,
      "loss": 0.5576,
      "step": 2770
    },
    {
      "epoch": 0.78,
      "grad_norm": 35.77216936747473,
      "learning_rate": 0.0002505771478667446,
      "loss": 0.3533,
      "step": 2780
    },
    {
      "epoch": 0.79,
      "grad_norm": 6.045353414942304,
      "learning_rate": 0.0002503579777907656,
      "loss": 0.4113,
      "step": 2790
    },
    {
      "epoch": 0.79,
      "grad_norm": 45.51398057288223,
      "learning_rate": 0.00025013880771478667,
      "loss": 0.4071,
      "step": 2800
    },
    {
      "epoch": 0.79,
      "grad_norm": 36.84264931235842,
      "learning_rate": 0.00024991963763880767,
      "loss": 0.6049,
      "step": 2810
    },
    {
      "epoch": 0.8,
      "grad_norm": 7.376752961081483,
      "learning_rate": 0.00024970046756282873,
      "loss": 0.4454,
      "step": 2820
    },
    {
      "epoch": 0.8,
      "grad_norm": 45.296630887337315,
      "learning_rate": 0.0002494812974868498,
      "loss": 0.4267,
      "step": 2830
    },
    {
      "epoch": 0.8,
      "grad_norm": 43.62273117063915,
      "learning_rate": 0.0002492621274108708,
      "loss": 0.4359,
      "step": 2840
    },
    {
      "epoch": 0.8,
      "grad_norm": 51.720566303652305,
      "learning_rate": 0.00024904295733489185,
      "loss": 0.4941,
      "step": 2850
    },
    {
      "epoch": 0.81,
      "grad_norm": 24.249504968694367,
      "learning_rate": 0.0002488237872589129,
      "loss": 0.345,
      "step": 2860
    },
    {
      "epoch": 0.81,
      "grad_norm": 14.634006430151054,
      "learning_rate": 0.0002486046171829339,
      "loss": 0.4586,
      "step": 2870
    },
    {
      "epoch": 0.81,
      "grad_norm": 11.217467398348905,
      "learning_rate": 0.000248385447106955,
      "loss": 0.4376,
      "step": 2880
    },
    {
      "epoch": 0.81,
      "grad_norm": 45.30561601980238,
      "learning_rate": 0.00024816627703097604,
      "loss": 0.3944,
      "step": 2890
    },
    {
      "epoch": 0.82,
      "grad_norm": 15.499098833410399,
      "learning_rate": 0.00024794710695499704,
      "loss": 0.4469,
      "step": 2900
    },
    {
      "epoch": 0.82,
      "grad_norm": 15.594634721523647,
      "learning_rate": 0.0002477279368790181,
      "loss": 0.4524,
      "step": 2910
    },
    {
      "epoch": 0.82,
      "grad_norm": 4.415769490237178,
      "learning_rate": 0.00024750876680303916,
      "loss": 0.5186,
      "step": 2920
    },
    {
      "epoch": 0.83,
      "grad_norm": 50.952551749899285,
      "learning_rate": 0.00024728959672706016,
      "loss": 0.3835,
      "step": 2930
    },
    {
      "epoch": 0.83,
      "grad_norm": 44.37013904045829,
      "learning_rate": 0.0002470704266510812,
      "loss": 0.3692,
      "step": 2940
    },
    {
      "epoch": 0.83,
      "grad_norm": 5.538761067578604,
      "learning_rate": 0.0002468512565751023,
      "loss": 0.4466,
      "step": 2950
    },
    {
      "epoch": 0.83,
      "grad_norm": 36.623608048249956,
      "learning_rate": 0.0002466320864991233,
      "loss": 0.4119,
      "step": 2960
    },
    {
      "epoch": 0.84,
      "grad_norm": 14.12931554239451,
      "learning_rate": 0.00024641291642314435,
      "loss": 0.4094,
      "step": 2970
    },
    {
      "epoch": 0.84,
      "grad_norm": 5.17846897516002,
      "learning_rate": 0.00024619374634716535,
      "loss": 0.6419,
      "step": 2980
    },
    {
      "epoch": 0.84,
      "grad_norm": 17.27825883448974,
      "learning_rate": 0.0002459745762711864,
      "loss": 0.4454,
      "step": 2990
    },
    {
      "epoch": 0.85,
      "grad_norm": 39.317445442045795,
      "learning_rate": 0.00024575540619520747,
      "loss": 0.4505,
      "step": 3000
    },
    {
      "epoch": 0.85,
      "grad_norm": 69.64730678545516,
      "learning_rate": 0.0002455362361192285,
      "loss": 0.4583,
      "step": 3010
    },
    {
      "epoch": 0.85,
      "grad_norm": 28.844952718130543,
      "learning_rate": 0.00024531706604324953,
      "loss": 0.6161,
      "step": 3020
    },
    {
      "epoch": 0.85,
      "grad_norm": 19.0210560197049,
      "learning_rate": 0.0002450978959672706,
      "loss": 0.4669,
      "step": 3030
    },
    {
      "epoch": 0.86,
      "grad_norm": 6.173405033604054,
      "learning_rate": 0.0002448787258912916,
      "loss": 0.4409,
      "step": 3040
    },
    {
      "epoch": 0.86,
      "grad_norm": 52.77800432968733,
      "learning_rate": 0.00024465955581531266,
      "loss": 0.4491,
      "step": 3050
    },
    {
      "epoch": 0.86,
      "grad_norm": 44.46853107524498,
      "learning_rate": 0.0002444403857393337,
      "loss": 0.3192,
      "step": 3060
    },
    {
      "epoch": 0.87,
      "grad_norm": 5.0160255873775546,
      "learning_rate": 0.0002442212156633547,
      "loss": 0.4516,
      "step": 3070
    },
    {
      "epoch": 0.87,
      "grad_norm": 23.9601395551555,
      "learning_rate": 0.00024400204558737578,
      "loss": 0.5556,
      "step": 3080
    },
    {
      "epoch": 0.87,
      "grad_norm": 29.267790594083895,
      "learning_rate": 0.00024378287551139684,
      "loss": 0.592,
      "step": 3090
    },
    {
      "epoch": 0.87,
      "grad_norm": 23.012129032542134,
      "learning_rate": 0.00024356370543541787,
      "loss": 0.3747,
      "step": 3100
    },
    {
      "epoch": 0.88,
      "grad_norm": 14.454095097216845,
      "learning_rate": 0.0002433445353594389,
      "loss": 0.384,
      "step": 3110
    },
    {
      "epoch": 0.88,
      "grad_norm": 26.97816432687431,
      "learning_rate": 0.00024312536528345993,
      "loss": 0.3297,
      "step": 3120
    },
    {
      "epoch": 0.88,
      "grad_norm": 9.801537735404679,
      "learning_rate": 0.000242906195207481,
      "loss": 0.5374,
      "step": 3130
    },
    {
      "epoch": 0.89,
      "grad_norm": 6.8951700119996,
      "learning_rate": 0.00024268702513150203,
      "loss": 0.5083,
      "step": 3140
    },
    {
      "epoch": 0.89,
      "grad_norm": 14.817012261931632,
      "learning_rate": 0.00024246785505552306,
      "loss": 0.5883,
      "step": 3150
    },
    {
      "epoch": 0.89,
      "grad_norm": 41.27878717469242,
      "learning_rate": 0.00024224868497954412,
      "loss": 0.3978,
      "step": 3160
    },
    {
      "epoch": 0.89,
      "grad_norm": 37.80902917455334,
      "learning_rate": 0.00024202951490356515,
      "loss": 0.5849,
      "step": 3170
    },
    {
      "epoch": 0.9,
      "grad_norm": 18.49777920142327,
      "learning_rate": 0.00024181034482758618,
      "loss": 0.4706,
      "step": 3180
    },
    {
      "epoch": 0.9,
      "grad_norm": 19.061143834111856,
      "learning_rate": 0.00024159117475160724,
      "loss": 0.4619,
      "step": 3190
    },
    {
      "epoch": 0.9,
      "grad_norm": 22.2453112157315,
      "learning_rate": 0.00024137200467562827,
      "loss": 0.3842,
      "step": 3200
    },
    {
      "epoch": 0.9,
      "grad_norm": 50.79421799621206,
      "learning_rate": 0.0002411528345996493,
      "loss": 0.3655,
      "step": 3210
    },
    {
      "epoch": 0.91,
      "grad_norm": 32.50988571681092,
      "learning_rate": 0.00024093366452367034,
      "loss": 0.5652,
      "step": 3220
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.5054157276555955,
      "learning_rate": 0.0002407144944476914,
      "loss": 0.6236,
      "step": 3230
    },
    {
      "epoch": 0.91,
      "grad_norm": 34.425678272389796,
      "learning_rate": 0.00024049532437171243,
      "loss": 0.4448,
      "step": 3240
    },
    {
      "epoch": 0.92,
      "grad_norm": 27.486059433114335,
      "learning_rate": 0.00024027615429573346,
      "loss": 0.4669,
      "step": 3250
    },
    {
      "epoch": 0.92,
      "grad_norm": 19.22828927795651,
      "learning_rate": 0.00024005698421975452,
      "loss": 0.4644,
      "step": 3260
    },
    {
      "epoch": 0.92,
      "grad_norm": 21.0363603349132,
      "learning_rate": 0.00023983781414377555,
      "loss": 0.431,
      "step": 3270
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.5723838037716984,
      "learning_rate": 0.00023961864406779658,
      "loss": 0.5383,
      "step": 3280
    },
    {
      "epoch": 0.93,
      "grad_norm": 13.546990268361519,
      "learning_rate": 0.00023939947399181761,
      "loss": 0.3201,
      "step": 3290
    },
    {
      "epoch": 0.93,
      "grad_norm": 24.38084566112433,
      "learning_rate": 0.00023918030391583867,
      "loss": 0.3129,
      "step": 3300
    },
    {
      "epoch": 0.93,
      "grad_norm": 25.645694818995487,
      "learning_rate": 0.0002389611338398597,
      "loss": 0.5026,
      "step": 3310
    },
    {
      "epoch": 0.94,
      "grad_norm": 66.5222383607227,
      "learning_rate": 0.00023874196376388074,
      "loss": 0.5204,
      "step": 3320
    },
    {
      "epoch": 0.94,
      "grad_norm": 24.167963861089163,
      "learning_rate": 0.0002385227936879018,
      "loss": 0.2994,
      "step": 3330
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.9923273025019665,
      "learning_rate": 0.00023830362361192283,
      "loss": 0.3327,
      "step": 3340
    },
    {
      "epoch": 0.94,
      "grad_norm": 7.036402375923249,
      "learning_rate": 0.00023808445353594386,
      "loss": 0.4824,
      "step": 3350
    },
    {
      "epoch": 0.95,
      "grad_norm": 4.932257241329014,
      "learning_rate": 0.00023786528345996492,
      "loss": 0.3872,
      "step": 3360
    },
    {
      "epoch": 0.95,
      "grad_norm": 8.597901439972688,
      "learning_rate": 0.00023764611338398595,
      "loss": 0.3997,
      "step": 3370
    },
    {
      "epoch": 0.95,
      "grad_norm": 11.315382409369429,
      "learning_rate": 0.00023742694330800698,
      "loss": 0.5147,
      "step": 3380
    },
    {
      "epoch": 0.96,
      "grad_norm": 14.52575221014949,
      "learning_rate": 0.00023720777323202802,
      "loss": 0.3314,
      "step": 3390
    },
    {
      "epoch": 0.96,
      "grad_norm": 43.682402501837984,
      "learning_rate": 0.00023698860315604907,
      "loss": 0.4339,
      "step": 3400
    },
    {
      "epoch": 0.96,
      "grad_norm": 53.44210886125679,
      "learning_rate": 0.0002367694330800701,
      "loss": 0.4009,
      "step": 3410
    },
    {
      "epoch": 0.96,
      "grad_norm": 13.63857046515992,
      "learning_rate": 0.00023655026300409114,
      "loss": 0.4517,
      "step": 3420
    },
    {
      "epoch": 0.97,
      "grad_norm": 18.188881596196584,
      "learning_rate": 0.0002363310929281122,
      "loss": 0.7472,
      "step": 3430
    },
    {
      "epoch": 0.97,
      "grad_norm": 15.622454098714014,
      "learning_rate": 0.00023611192285213323,
      "loss": 0.4332,
      "step": 3440
    },
    {
      "epoch": 0.97,
      "grad_norm": 23.030560101084287,
      "learning_rate": 0.00023589275277615426,
      "loss": 0.4659,
      "step": 3450
    },
    {
      "epoch": 0.98,
      "grad_norm": 11.217028241840945,
      "learning_rate": 0.0002356735827001753,
      "loss": 0.4288,
      "step": 3460
    },
    {
      "epoch": 0.98,
      "grad_norm": 20.08432954445042,
      "learning_rate": 0.00023545441262419635,
      "loss": 0.277,
      "step": 3470
    },
    {
      "epoch": 0.98,
      "grad_norm": 74.65434882424645,
      "learning_rate": 0.00023523524254821738,
      "loss": 0.635,
      "step": 3480
    },
    {
      "epoch": 0.98,
      "grad_norm": 40.495503288549955,
      "learning_rate": 0.00023501607247223842,
      "loss": 0.388,
      "step": 3490
    },
    {
      "epoch": 0.99,
      "grad_norm": 12.752161600605927,
      "learning_rate": 0.0002347969023962595,
      "loss": 0.5092,
      "step": 3500
    },
    {
      "epoch": 0.99,
      "grad_norm": 14.53893507733024,
      "learning_rate": 0.0002345777323202805,
      "loss": 0.4765,
      "step": 3510
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.316017393789724,
      "learning_rate": 0.00023435856224430154,
      "loss": 0.3659,
      "step": 3520
    },
    {
      "epoch": 1.0,
      "grad_norm": 30.899825163472197,
      "learning_rate": 0.00023413939216832257,
      "loss": 0.4516,
      "step": 3530
    },
    {
      "epoch": 1.0,
      "grad_norm": 39.99478400763079,
      "learning_rate": 0.00023392022209234366,
      "loss": 0.381,
      "step": 3540
    },
    {
      "epoch": 1.0,
      "eval_0_f1": 0.6956680014561338,
      "eval_0_precision": 0.607631160572337,
      "eval_0_recall": 0.8135376756066411,
      "eval_1_f1": 0.8688421713209915,
      "eval_1_precision": 0.9267068273092369,
      "eval_1_recall": 0.8177790903721205,
      "eval_accuracy": 0.8166867668018858,
      "eval_loss": 0.3857421875,
      "eval_runtime": 546.7196,
      "eval_samples_per_second": 16.683,
      "eval_steps_per_second": 2.782,
      "step": 3547
    },
    {
      "epoch": 1.0,
      "grad_norm": 5.0389158685922375,
      "learning_rate": 0.00023370105201636466,
      "loss": 0.4146,
      "step": 3550
    },
    {
      "epoch": 1.0,
      "grad_norm": 11.9478624203234,
      "learning_rate": 0.0002334818819403857,
      "loss": 0.219,
      "step": 3560
    },
    {
      "epoch": 1.01,
      "grad_norm": 2.574561125344869,
      "learning_rate": 0.00023326271186440678,
      "loss": 0.1326,
      "step": 3570
    },
    {
      "epoch": 1.01,
      "grad_norm": 6.645296190271201,
      "learning_rate": 0.0002330435417884278,
      "loss": 0.3714,
      "step": 3580
    },
    {
      "epoch": 1.01,
      "grad_norm": 21.165312017263854,
      "learning_rate": 0.00023282437171244884,
      "loss": 0.186,
      "step": 3590
    },
    {
      "epoch": 1.01,
      "grad_norm": 33.09937520843868,
      "learning_rate": 0.0002326052016364699,
      "loss": 0.189,
      "step": 3600
    },
    {
      "epoch": 1.02,
      "grad_norm": 28.917213358449875,
      "learning_rate": 0.00023238603156049094,
      "loss": 0.2064,
      "step": 3610
    },
    {
      "epoch": 1.02,
      "grad_norm": 6.362982741180963,
      "learning_rate": 0.00023216686148451197,
      "loss": 0.3743,
      "step": 3620
    },
    {
      "epoch": 1.02,
      "grad_norm": 15.278355603224561,
      "learning_rate": 0.000231947691408533,
      "loss": 0.339,
      "step": 3630
    },
    {
      "epoch": 1.03,
      "grad_norm": 19.75892836736991,
      "learning_rate": 0.00023172852133255406,
      "loss": 0.3234,
      "step": 3640
    },
    {
      "epoch": 1.03,
      "grad_norm": 27.481948501720865,
      "learning_rate": 0.0002315093512565751,
      "loss": 0.3744,
      "step": 3650
    },
    {
      "epoch": 1.03,
      "grad_norm": 4.553602693616155,
      "learning_rate": 0.00023129018118059612,
      "loss": 0.292,
      "step": 3660
    },
    {
      "epoch": 1.03,
      "grad_norm": 5.428732611717056,
      "learning_rate": 0.00023107101110461718,
      "loss": 0.2631,
      "step": 3670
    },
    {
      "epoch": 1.04,
      "grad_norm": 5.050323966343426,
      "learning_rate": 0.00023085184102863821,
      "loss": 0.4004,
      "step": 3680
    },
    {
      "epoch": 1.04,
      "grad_norm": 24.80793600752628,
      "learning_rate": 0.00023063267095265925,
      "loss": 0.5381,
      "step": 3690
    },
    {
      "epoch": 1.04,
      "grad_norm": 18.258408123657016,
      "learning_rate": 0.00023041350087668028,
      "loss": 0.3396,
      "step": 3700
    },
    {
      "epoch": 1.05,
      "grad_norm": 29.325589345887487,
      "learning_rate": 0.00023019433080070134,
      "loss": 0.3759,
      "step": 3710
    },
    {
      "epoch": 1.05,
      "grad_norm": 5.83589085044179,
      "learning_rate": 0.00022997516072472237,
      "loss": 0.3515,
      "step": 3720
    },
    {
      "epoch": 1.05,
      "grad_norm": 31.709214076980373,
      "learning_rate": 0.0002297559906487434,
      "loss": 0.3038,
      "step": 3730
    },
    {
      "epoch": 1.05,
      "grad_norm": 5.331144297018398,
      "learning_rate": 0.00022953682057276446,
      "loss": 0.2608,
      "step": 3740
    },
    {
      "epoch": 1.06,
      "grad_norm": 10.008440999378909,
      "learning_rate": 0.0002293176504967855,
      "loss": 0.392,
      "step": 3750
    },
    {
      "epoch": 1.06,
      "grad_norm": 24.06127490696333,
      "learning_rate": 0.00022909848042080652,
      "loss": 0.464,
      "step": 3760
    },
    {
      "epoch": 1.06,
      "grad_norm": 36.47161723251647,
      "learning_rate": 0.00022887931034482758,
      "loss": 0.3144,
      "step": 3770
    },
    {
      "epoch": 1.07,
      "grad_norm": 44.318502303445214,
      "learning_rate": 0.00022866014026884862,
      "loss": 0.2178,
      "step": 3780
    },
    {
      "epoch": 1.07,
      "grad_norm": 21.011798626587794,
      "learning_rate": 0.00022844097019286965,
      "loss": 0.2655,
      "step": 3790
    },
    {
      "epoch": 1.07,
      "grad_norm": 7.015038983544465,
      "learning_rate": 0.00022822180011689068,
      "loss": 0.33,
      "step": 3800
    },
    {
      "epoch": 1.07,
      "grad_norm": 9.837625310344656,
      "learning_rate": 0.00022800263004091174,
      "loss": 0.3804,
      "step": 3810
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.5246300872909493,
      "learning_rate": 0.00022778345996493277,
      "loss": 0.3144,
      "step": 3820
    },
    {
      "epoch": 1.08,
      "grad_norm": 7.333333429866329,
      "learning_rate": 0.0002275642898889538,
      "loss": 0.208,
      "step": 3830
    },
    {
      "epoch": 1.08,
      "grad_norm": 2.9276220226615655,
      "learning_rate": 0.00022734511981297486,
      "loss": 0.1965,
      "step": 3840
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.296027114122367,
      "learning_rate": 0.0002271259497369959,
      "loss": 0.1641,
      "step": 3850
    },
    {
      "epoch": 1.09,
      "grad_norm": 63.98473163919884,
      "learning_rate": 0.00022690677966101693,
      "loss": 0.2204,
      "step": 3860
    },
    {
      "epoch": 1.09,
      "grad_norm": 25.79236796313587,
      "learning_rate": 0.00022668760958503796,
      "loss": 0.3985,
      "step": 3870
    },
    {
      "epoch": 1.09,
      "grad_norm": 47.19895401753889,
      "learning_rate": 0.00022646843950905902,
      "loss": 0.3724,
      "step": 3880
    },
    {
      "epoch": 1.1,
      "grad_norm": 11.740165468615665,
      "learning_rate": 0.00022624926943308005,
      "loss": 0.3228,
      "step": 3890
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.7482155895929372,
      "learning_rate": 0.00022603009935710108,
      "loss": 0.3069,
      "step": 3900
    },
    {
      "epoch": 1.1,
      "grad_norm": 31.032450056833344,
      "learning_rate": 0.00022581092928112214,
      "loss": 0.2573,
      "step": 3910
    },
    {
      "epoch": 1.11,
      "grad_norm": 11.15417567821661,
      "learning_rate": 0.00022559175920514317,
      "loss": 0.2432,
      "step": 3920
    },
    {
      "epoch": 1.11,
      "grad_norm": 9.77526286134104,
      "learning_rate": 0.0002253725891291642,
      "loss": 0.202,
      "step": 3930
    },
    {
      "epoch": 1.11,
      "grad_norm": 43.631843372398045,
      "learning_rate": 0.00022515341905318524,
      "loss": 0.3633,
      "step": 3940
    },
    {
      "epoch": 1.11,
      "grad_norm": 24.908344949793975,
      "learning_rate": 0.0002249342489772063,
      "loss": 0.2629,
      "step": 3950
    },
    {
      "epoch": 1.12,
      "grad_norm": 1.9235099739993984,
      "learning_rate": 0.00022471507890122733,
      "loss": 0.312,
      "step": 3960
    },
    {
      "epoch": 1.12,
      "grad_norm": 8.901642976423531,
      "learning_rate": 0.00022449590882524836,
      "loss": 0.2134,
      "step": 3970
    },
    {
      "epoch": 1.12,
      "grad_norm": 35.49143975289104,
      "learning_rate": 0.00022427673874926942,
      "loss": 0.3581,
      "step": 3980
    },
    {
      "epoch": 1.12,
      "grad_norm": 9.880151735005258,
      "learning_rate": 0.00022405756867329045,
      "loss": 0.2105,
      "step": 3990
    },
    {
      "epoch": 1.13,
      "grad_norm": 11.472473033640894,
      "learning_rate": 0.00022383839859731148,
      "loss": 0.2771,
      "step": 4000
    },
    {
      "epoch": 1.13,
      "grad_norm": 7.564996853716761,
      "learning_rate": 0.00022361922852133254,
      "loss": 0.1729,
      "step": 4010
    },
    {
      "epoch": 1.13,
      "grad_norm": 1.6868590263390821,
      "learning_rate": 0.00022340005844535357,
      "loss": 0.4633,
      "step": 4020
    },
    {
      "epoch": 1.14,
      "grad_norm": 28.229059784881606,
      "learning_rate": 0.0002231808883693746,
      "loss": 0.5021,
      "step": 4030
    },
    {
      "epoch": 1.14,
      "grad_norm": 17.572412568669705,
      "learning_rate": 0.00022296171829339564,
      "loss": 0.2666,
      "step": 4040
    },
    {
      "epoch": 1.14,
      "grad_norm": 11.720230148855956,
      "learning_rate": 0.0002227425482174167,
      "loss": 0.3706,
      "step": 4050
    },
    {
      "epoch": 1.14,
      "grad_norm": 57.76450102261794,
      "learning_rate": 0.00022252337814143773,
      "loss": 0.3514,
      "step": 4060
    },
    {
      "epoch": 1.15,
      "grad_norm": 8.937408336756231,
      "learning_rate": 0.00022230420806545876,
      "loss": 0.3542,
      "step": 4070
    },
    {
      "epoch": 1.15,
      "grad_norm": 40.358482259032456,
      "learning_rate": 0.00022208503798947982,
      "loss": 0.3049,
      "step": 4080
    },
    {
      "epoch": 1.15,
      "grad_norm": 22.567330463151773,
      "learning_rate": 0.00022186586791350085,
      "loss": 0.2778,
      "step": 4090
    },
    {
      "epoch": 1.16,
      "grad_norm": 27.666117112861954,
      "learning_rate": 0.00022164669783752188,
      "loss": 0.2204,
      "step": 4100
    },
    {
      "epoch": 1.16,
      "grad_norm": 34.568905094183656,
      "learning_rate": 0.00022142752776154292,
      "loss": 0.4829,
      "step": 4110
    },
    {
      "epoch": 1.16,
      "grad_norm": 37.20888182696178,
      "learning_rate": 0.00022120835768556397,
      "loss": 0.3751,
      "step": 4120
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.628119016749957,
      "learning_rate": 0.000220989187609585,
      "loss": 0.2531,
      "step": 4130
    },
    {
      "epoch": 1.17,
      "grad_norm": 12.787898954063717,
      "learning_rate": 0.00022077001753360604,
      "loss": 0.2568,
      "step": 4140
    },
    {
      "epoch": 1.17,
      "grad_norm": 13.740422198890055,
      "learning_rate": 0.0002205508474576271,
      "loss": 0.1521,
      "step": 4150
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.754528026569796,
      "learning_rate": 0.00022033167738164813,
      "loss": 0.3939,
      "step": 4160
    },
    {
      "epoch": 1.18,
      "grad_norm": 17.13803914567701,
      "learning_rate": 0.00022011250730566916,
      "loss": 0.2548,
      "step": 4170
    },
    {
      "epoch": 1.18,
      "grad_norm": 8.755380723031136,
      "learning_rate": 0.00021989333722969025,
      "loss": 0.22,
      "step": 4180
    },
    {
      "epoch": 1.18,
      "grad_norm": 11.327279230065335,
      "learning_rate": 0.00021967416715371128,
      "loss": 0.1881,
      "step": 4190
    },
    {
      "epoch": 1.18,
      "grad_norm": 11.76478464724261,
      "learning_rate": 0.00021945499707773229,
      "loss": 0.4543,
      "step": 4200
    },
    {
      "epoch": 1.19,
      "grad_norm": 21.089139286448926,
      "learning_rate": 0.00021923582700175332,
      "loss": 0.412,
      "step": 4210
    },
    {
      "epoch": 1.19,
      "grad_norm": 4.35685071056218,
      "learning_rate": 0.0002190166569257744,
      "loss": 0.2452,
      "step": 4220
    },
    {
      "epoch": 1.19,
      "grad_norm": 16.567825119225937,
      "learning_rate": 0.00021879748684979544,
      "loss": 0.2714,
      "step": 4230
    },
    {
      "epoch": 1.2,
      "grad_norm": 51.4802446925637,
      "learning_rate": 0.00021857831677381644,
      "loss": 0.3585,
      "step": 4240
    },
    {
      "epoch": 1.2,
      "grad_norm": 50.02592512359097,
      "learning_rate": 0.00021835914669783753,
      "loss": 0.4534,
      "step": 4250
    },
    {
      "epoch": 1.2,
      "grad_norm": 6.384047108249605,
      "learning_rate": 0.00021813997662185856,
      "loss": 0.3206,
      "step": 4260
    },
    {
      "epoch": 1.2,
      "grad_norm": 9.283525914668507,
      "learning_rate": 0.0002179208065458796,
      "loss": 0.3393,
      "step": 4270
    },
    {
      "epoch": 1.21,
      "grad_norm": 45.654861594884274,
      "learning_rate": 0.0002177016364699006,
      "loss": 0.335,
      "step": 4280
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.5003233393976263,
      "learning_rate": 0.00021748246639392168,
      "loss": 0.3477,
      "step": 4290
    },
    {
      "epoch": 1.21,
      "grad_norm": 14.979317988693346,
      "learning_rate": 0.00021726329631794271,
      "loss": 0.2205,
      "step": 4300
    },
    {
      "epoch": 1.22,
      "grad_norm": 9.173367064164506,
      "learning_rate": 0.00021704412624196375,
      "loss": 0.4878,
      "step": 4310
    },
    {
      "epoch": 1.22,
      "grad_norm": 13.812041376988086,
      "learning_rate": 0.0002168249561659848,
      "loss": 0.3115,
      "step": 4320
    },
    {
      "epoch": 1.22,
      "grad_norm": 5.145857101646077,
      "learning_rate": 0.0002166277030976037,
      "loss": 0.1912,
      "step": 4330
    },
    {
      "epoch": 1.22,
      "grad_norm": 1.5222263707561177,
      "learning_rate": 0.00021640853302162474,
      "loss": 0.2155,
      "step": 4340
    },
    {
      "epoch": 1.23,
      "grad_norm": 20.94214337532918,
      "learning_rate": 0.00021618936294564583,
      "loss": 0.1663,
      "step": 4350
    },
    {
      "epoch": 1.23,
      "grad_norm": 46.6321807054184,
      "learning_rate": 0.00021597019286966686,
      "loss": 0.2966,
      "step": 4360
    },
    {
      "epoch": 1.23,
      "grad_norm": 4.374585543579176,
      "learning_rate": 0.00021575102279368786,
      "loss": 0.3326,
      "step": 4370
    },
    {
      "epoch": 1.23,
      "grad_norm": 5.550072623324231,
      "learning_rate": 0.0002155318527177089,
      "loss": 0.1478,
      "step": 4380
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.6613601079645897,
      "learning_rate": 0.00021531268264172998,
      "loss": 0.2295,
      "step": 4390
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.000033161148002,
      "learning_rate": 0.00021509351256575101,
      "loss": 0.5028,
      "step": 4400
    },
    {
      "epoch": 1.24,
      "grad_norm": 38.67630998438632,
      "learning_rate": 0.00021487434248977205,
      "loss": 0.304,
      "step": 4410
    },
    {
      "epoch": 1.25,
      "grad_norm": 31.0474775238587,
      "learning_rate": 0.0002146551724137931,
      "loss": 0.3397,
      "step": 4420
    },
    {
      "epoch": 1.25,
      "grad_norm": 21.038657972290533,
      "learning_rate": 0.00021443600233781414,
      "loss": 0.2639,
      "step": 4430
    },
    {
      "epoch": 1.25,
      "grad_norm": 29.03727828295053,
      "learning_rate": 0.00021421683226183517,
      "loss": 0.269,
      "step": 4440
    },
    {
      "epoch": 1.25,
      "grad_norm": 4.822263791040293,
      "learning_rate": 0.0002139976621858562,
      "loss": 0.2482,
      "step": 4450
    },
    {
      "epoch": 1.26,
      "grad_norm": 8.31426730608056,
      "learning_rate": 0.00021377849210987726,
      "loss": 0.2249,
      "step": 4460
    },
    {
      "epoch": 1.26,
      "grad_norm": 43.20888606905504,
      "learning_rate": 0.0002135593220338983,
      "loss": 0.3654,
      "step": 4470
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.446800168689743,
      "learning_rate": 0.00021334015195791932,
      "loss": 0.3182,
      "step": 4480
    },
    {
      "epoch": 1.27,
      "grad_norm": 7.6988347063951466,
      "learning_rate": 0.00021312098188194038,
      "loss": 0.3373,
      "step": 4490
    },
    {
      "epoch": 1.27,
      "grad_norm": 31.935307455130687,
      "learning_rate": 0.00021290181180596142,
      "loss": 0.3036,
      "step": 4500
    },
    {
      "epoch": 1.27,
      "grad_norm": 20.726406179500756,
      "learning_rate": 0.00021268264172998245,
      "loss": 0.3627,
      "step": 4510
    },
    {
      "epoch": 1.27,
      "grad_norm": 7.097138033352009,
      "learning_rate": 0.0002124634716540035,
      "loss": 0.2623,
      "step": 4520
    },
    {
      "epoch": 1.28,
      "grad_norm": 3.8873072142785183,
      "learning_rate": 0.00021224430157802454,
      "loss": 0.2236,
      "step": 4530
    },
    {
      "epoch": 1.28,
      "grad_norm": 14.527770370800262,
      "learning_rate": 0.00021202513150204557,
      "loss": 0.137,
      "step": 4540
    },
    {
      "epoch": 1.28,
      "grad_norm": 7.558415335390357,
      "learning_rate": 0.0002118059614260666,
      "loss": 0.217,
      "step": 4550
    },
    {
      "epoch": 1.29,
      "grad_norm": 29.89529000773257,
      "learning_rate": 0.00021158679135008766,
      "loss": 0.251,
      "step": 4560
    },
    {
      "epoch": 1.29,
      "grad_norm": 52.64728318565253,
      "learning_rate": 0.0002113676212741087,
      "loss": 0.3333,
      "step": 4570
    },
    {
      "epoch": 1.29,
      "grad_norm": 30.152792328177426,
      "learning_rate": 0.00021114845119812973,
      "loss": 0.2724,
      "step": 4580
    },
    {
      "epoch": 1.29,
      "grad_norm": 2.5341334779748967,
      "learning_rate": 0.00021092928112215079,
      "loss": 0.269,
      "step": 4590
    },
    {
      "epoch": 1.3,
      "grad_norm": 22.55021824043886,
      "learning_rate": 0.00021071011104617182,
      "loss": 0.0765,
      "step": 4600
    },
    {
      "epoch": 1.3,
      "grad_norm": 20.277146842395847,
      "learning_rate": 0.00021049094097019285,
      "loss": 0.2189,
      "step": 4610
    },
    {
      "epoch": 1.3,
      "grad_norm": 31.332786897175072,
      "learning_rate": 0.00021027177089421388,
      "loss": 0.4537,
      "step": 4620
    },
    {
      "epoch": 1.31,
      "grad_norm": 4.0878545777289395,
      "learning_rate": 0.00021005260081823494,
      "loss": 0.2703,
      "step": 4630
    },
    {
      "epoch": 1.31,
      "grad_norm": 26.911824724655006,
      "learning_rate": 0.00020983343074225597,
      "loss": 0.2727,
      "step": 4640
    },
    {
      "epoch": 1.31,
      "grad_norm": 2.5043488479928016,
      "learning_rate": 0.000209614260666277,
      "loss": 0.1888,
      "step": 4650
    },
    {
      "epoch": 1.31,
      "grad_norm": 38.26894575743672,
      "learning_rate": 0.00020939509059029806,
      "loss": 0.334,
      "step": 4660
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.073803318378424,
      "learning_rate": 0.0002091759205143191,
      "loss": 0.3018,
      "step": 4670
    },
    {
      "epoch": 1.32,
      "grad_norm": 50.99829894564531,
      "learning_rate": 0.00020895675043834013,
      "loss": 0.309,
      "step": 4680
    },
    {
      "epoch": 1.32,
      "grad_norm": 33.03113078011947,
      "learning_rate": 0.0002087375803623612,
      "loss": 0.3267,
      "step": 4690
    },
    {
      "epoch": 1.33,
      "grad_norm": 49.72639701138489,
      "learning_rate": 0.00020851841028638222,
      "loss": 0.3428,
      "step": 4700
    },
    {
      "epoch": 1.33,
      "grad_norm": 15.250514847558827,
      "learning_rate": 0.00020829924021040325,
      "loss": 0.2442,
      "step": 4710
    },
    {
      "epoch": 1.33,
      "grad_norm": 29.630372731951933,
      "learning_rate": 0.00020808007013442428,
      "loss": 0.4006,
      "step": 4720
    },
    {
      "epoch": 1.33,
      "grad_norm": 2.6025635165269834,
      "learning_rate": 0.00020786090005844534,
      "loss": 0.1417,
      "step": 4730
    },
    {
      "epoch": 1.34,
      "grad_norm": 46.58385970647689,
      "learning_rate": 0.00020764172998246637,
      "loss": 0.3178,
      "step": 4740
    },
    {
      "epoch": 1.34,
      "grad_norm": 33.748707418723626,
      "learning_rate": 0.0002074225599064874,
      "loss": 0.4147,
      "step": 4750
    },
    {
      "epoch": 1.34,
      "grad_norm": 8.516868922828099,
      "learning_rate": 0.00020720338983050846,
      "loss": 0.2285,
      "step": 4760
    },
    {
      "epoch": 1.34,
      "grad_norm": 56.676130895938115,
      "learning_rate": 0.0002069842197545295,
      "loss": 0.3276,
      "step": 4770
    },
    {
      "epoch": 1.35,
      "grad_norm": 57.88752849086389,
      "learning_rate": 0.00020676504967855053,
      "loss": 0.4268,
      "step": 4780
    },
    {
      "epoch": 1.35,
      "grad_norm": 2.2518432859009083,
      "learning_rate": 0.00020654587960257156,
      "loss": 0.2271,
      "step": 4790
    },
    {
      "epoch": 1.35,
      "grad_norm": 8.476321740016418,
      "learning_rate": 0.00020632670952659262,
      "loss": 0.2991,
      "step": 4800
    },
    {
      "epoch": 1.36,
      "grad_norm": 5.939165676183437,
      "learning_rate": 0.00020610753945061365,
      "loss": 0.2207,
      "step": 4810
    },
    {
      "epoch": 1.36,
      "grad_norm": 6.721301020536598,
      "learning_rate": 0.00020588836937463468,
      "loss": 0.1735,
      "step": 4820
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.2082370683760044,
      "learning_rate": 0.00020566919929865574,
      "loss": 0.4545,
      "step": 4830
    },
    {
      "epoch": 1.36,
      "grad_norm": 29.422853677429167,
      "learning_rate": 0.00020545002922267678,
      "loss": 0.4142,
      "step": 4840
    },
    {
      "epoch": 1.37,
      "grad_norm": 5.299481055699104,
      "learning_rate": 0.0002052308591466978,
      "loss": 0.3986,
      "step": 4850
    },
    {
      "epoch": 1.37,
      "grad_norm": 22.75931248540711,
      "learning_rate": 0.00020501168907071887,
      "loss": 0.4092,
      "step": 4860
    },
    {
      "epoch": 1.37,
      "grad_norm": 6.466191538331885,
      "learning_rate": 0.0002047925189947399,
      "loss": 0.1388,
      "step": 4870
    },
    {
      "epoch": 1.38,
      "grad_norm": 8.95128170273167,
      "learning_rate": 0.00020457334891876093,
      "loss": 0.4025,
      "step": 4880
    },
    {
      "epoch": 1.38,
      "grad_norm": 30.917184250084812,
      "learning_rate": 0.00020435417884278196,
      "loss": 0.3814,
      "step": 4890
    },
    {
      "epoch": 1.38,
      "grad_norm": 20.91623684082827,
      "learning_rate": 0.00020413500876680302,
      "loss": 0.3143,
      "step": 4900
    },
    {
      "epoch": 1.38,
      "grad_norm": 28.994187069448067,
      "learning_rate": 0.00020391583869082405,
      "loss": 0.2026,
      "step": 4910
    },
    {
      "epoch": 1.39,
      "grad_norm": 42.11122790207425,
      "learning_rate": 0.00020369666861484509,
      "loss": 0.3098,
      "step": 4920
    },
    {
      "epoch": 1.39,
      "grad_norm": 36.159828304877706,
      "learning_rate": 0.00020347749853886614,
      "loss": 0.2509,
      "step": 4930
    },
    {
      "epoch": 1.39,
      "grad_norm": 20.23189475386178,
      "learning_rate": 0.00020325832846288718,
      "loss": 0.3435,
      "step": 4940
    },
    {
      "epoch": 1.4,
      "grad_norm": 9.446387490878042,
      "learning_rate": 0.0002030391583869082,
      "loss": 0.3598,
      "step": 4950
    },
    {
      "epoch": 1.4,
      "grad_norm": 31.356335012679175,
      "learning_rate": 0.00020281998831092924,
      "loss": 0.3427,
      "step": 4960
    },
    {
      "epoch": 1.4,
      "grad_norm": 25.111026271060013,
      "learning_rate": 0.0002026008182349503,
      "loss": 0.2731,
      "step": 4970
    },
    {
      "epoch": 1.4,
      "grad_norm": 10.288548511014797,
      "learning_rate": 0.00020238164815897133,
      "loss": 0.2741,
      "step": 4980
    },
    {
      "epoch": 1.41,
      "grad_norm": 18.078048168470804,
      "learning_rate": 0.00020216247808299236,
      "loss": 0.1965,
      "step": 4990
    },
    {
      "epoch": 1.41,
      "grad_norm": 2.5818740774616953,
      "learning_rate": 0.00020194330800701345,
      "loss": 0.423,
      "step": 5000
    },
    {
      "epoch": 1.41,
      "grad_norm": 5.029346814046525,
      "learning_rate": 0.00020172413793103448,
      "loss": 0.1981,
      "step": 5010
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.69515764136778,
      "learning_rate": 0.0002015049678550555,
      "loss": 0.3407,
      "step": 5020
    },
    {
      "epoch": 1.42,
      "grad_norm": 1.1185073469260922,
      "learning_rate": 0.00020128579777907652,
      "loss": 0.3759,
      "step": 5030
    },
    {
      "epoch": 1.42,
      "grad_norm": 25.82929883275312,
      "learning_rate": 0.0002010666277030976,
      "loss": 0.3386,
      "step": 5040
    },
    {
      "epoch": 1.42,
      "grad_norm": 5.658058990862141,
      "learning_rate": 0.00020084745762711864,
      "loss": 0.3067,
      "step": 5050
    },
    {
      "epoch": 1.43,
      "grad_norm": 33.789807219043574,
      "learning_rate": 0.00020062828755113964,
      "loss": 0.3116,
      "step": 5060
    },
    {
      "epoch": 1.43,
      "grad_norm": 29.665346856502566,
      "learning_rate": 0.00020040911747516073,
      "loss": 0.4307,
      "step": 5070
    },
    {
      "epoch": 1.43,
      "grad_norm": 2.953173260130455,
      "learning_rate": 0.00020018994739918176,
      "loss": 0.2401,
      "step": 5080
    },
    {
      "epoch": 1.44,
      "grad_norm": 59.25975112660892,
      "learning_rate": 0.0001999707773232028,
      "loss": 0.3712,
      "step": 5090
    },
    {
      "epoch": 1.44,
      "grad_norm": 16.61695534436786,
      "learning_rate": 0.00019975160724722385,
      "loss": 0.2978,
      "step": 5100
    },
    {
      "epoch": 1.44,
      "grad_norm": 27.59304302639443,
      "learning_rate": 0.00019953243717124488,
      "loss": 0.2207,
      "step": 5110
    },
    {
      "epoch": 1.44,
      "grad_norm": 33.3996635406056,
      "learning_rate": 0.00019931326709526592,
      "loss": 0.4006,
      "step": 5120
    },
    {
      "epoch": 1.45,
      "grad_norm": 7.909724279076434,
      "learning_rate": 0.00019909409701928695,
      "loss": 0.3282,
      "step": 5130
    },
    {
      "epoch": 1.45,
      "grad_norm": 10.96614010093427,
      "learning_rate": 0.000198874926943308,
      "loss": 0.3641,
      "step": 5140
    },
    {
      "epoch": 1.45,
      "grad_norm": 4.747888769171669,
      "learning_rate": 0.00019865575686732904,
      "loss": 0.2596,
      "step": 5150
    },
    {
      "epoch": 1.45,
      "grad_norm": 17.19969500744997,
      "learning_rate": 0.00019843658679135007,
      "loss": 0.2359,
      "step": 5160
    },
    {
      "epoch": 1.46,
      "grad_norm": 12.445792367631444,
      "learning_rate": 0.00019821741671537113,
      "loss": 0.291,
      "step": 5170
    },
    {
      "epoch": 1.46,
      "grad_norm": 16.38158373051574,
      "learning_rate": 0.00019799824663939216,
      "loss": 0.2152,
      "step": 5180
    },
    {
      "epoch": 1.46,
      "grad_norm": 19.55308310137066,
      "learning_rate": 0.0001977790765634132,
      "loss": 0.245,
      "step": 5190
    },
    {
      "epoch": 1.47,
      "grad_norm": 4.151920692809044,
      "learning_rate": 0.00019755990648743423,
      "loss": 0.263,
      "step": 5200
    },
    {
      "epoch": 1.47,
      "grad_norm": 23.195604876425826,
      "learning_rate": 0.00019734073641145528,
      "loss": 0.3534,
      "step": 5210
    },
    {
      "epoch": 1.47,
      "grad_norm": 21.589521451918323,
      "learning_rate": 0.00019712156633547632,
      "loss": 0.1662,
      "step": 5220
    },
    {
      "epoch": 1.47,
      "grad_norm": 11.887752916702121,
      "learning_rate": 0.00019690239625949735,
      "loss": 0.2105,
      "step": 5230
    },
    {
      "epoch": 1.48,
      "grad_norm": 5.176318946475123,
      "learning_rate": 0.0001966832261835184,
      "loss": 0.2695,
      "step": 5240
    },
    {
      "epoch": 1.48,
      "grad_norm": 11.690634456574996,
      "learning_rate": 0.00019646405610753944,
      "loss": 0.3302,
      "step": 5250
    },
    {
      "epoch": 1.48,
      "grad_norm": 62.85698360348048,
      "learning_rate": 0.00019624488603156047,
      "loss": 0.5215,
      "step": 5260
    },
    {
      "epoch": 1.49,
      "grad_norm": 13.466880633693304,
      "learning_rate": 0.00019602571595558153,
      "loss": 0.2985,
      "step": 5270
    },
    {
      "epoch": 1.49,
      "grad_norm": 1.965805579763693,
      "learning_rate": 0.00019580654587960256,
      "loss": 0.2372,
      "step": 5280
    },
    {
      "epoch": 1.49,
      "grad_norm": 12.499426672870545,
      "learning_rate": 0.0001955873758036236,
      "loss": 0.1587,
      "step": 5290
    },
    {
      "epoch": 1.49,
      "grad_norm": 15.307208098887806,
      "learning_rate": 0.00019536820572764463,
      "loss": 0.207,
      "step": 5300
    },
    {
      "epoch": 1.5,
      "grad_norm": 14.010835079736815,
      "learning_rate": 0.00019514903565166569,
      "loss": 0.1688,
      "step": 5310
    },
    {
      "epoch": 1.5,
      "grad_norm": 7.104347674810669,
      "learning_rate": 0.00019492986557568672,
      "loss": 0.1888,
      "step": 5320
    },
    {
      "epoch": 1.5,
      "grad_norm": 1.5642209100774738,
      "learning_rate": 0.00019473261250730565,
      "loss": 0.2465,
      "step": 5330
    },
    {
      "epoch": 1.51,
      "grad_norm": 32.89294792453513,
      "learning_rate": 0.0001945134424313267,
      "loss": 0.4685,
      "step": 5340
    },
    {
      "epoch": 1.51,
      "grad_norm": 16.400791636569856,
      "learning_rate": 0.00019429427235534774,
      "loss": 0.2564,
      "step": 5350
    },
    {
      "epoch": 1.51,
      "grad_norm": 6.986562239990336,
      "learning_rate": 0.00019407510227936877,
      "loss": 0.2917,
      "step": 5360
    },
    {
      "epoch": 1.51,
      "grad_norm": 11.557550672896545,
      "learning_rate": 0.00019385593220338983,
      "loss": 0.3427,
      "step": 5370
    },
    {
      "epoch": 1.52,
      "grad_norm": 2.1712768411403927,
      "learning_rate": 0.00019363676212741086,
      "loss": 0.2312,
      "step": 5380
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.4188406927450874,
      "learning_rate": 0.0001934175920514319,
      "loss": 0.2822,
      "step": 5390
    },
    {
      "epoch": 1.52,
      "grad_norm": 18.41553181032857,
      "learning_rate": 0.00019319842197545293,
      "loss": 0.3085,
      "step": 5400
    },
    {
      "epoch": 1.53,
      "grad_norm": 8.925374304814394,
      "learning_rate": 0.000192979251899474,
      "loss": 0.3014,
      "step": 5410
    },
    {
      "epoch": 1.53,
      "grad_norm": 2.21057714781379,
      "learning_rate": 0.00019276008182349502,
      "loss": 0.2019,
      "step": 5420
    },
    {
      "epoch": 1.53,
      "grad_norm": 7.995029854183915,
      "learning_rate": 0.00019254091174751605,
      "loss": 0.3143,
      "step": 5430
    },
    {
      "epoch": 1.53,
      "grad_norm": 24.818437530389712,
      "learning_rate": 0.0001923217416715371,
      "loss": 0.2312,
      "step": 5440
    },
    {
      "epoch": 1.54,
      "grad_norm": 4.630710193156958,
      "learning_rate": 0.00019210257159555814,
      "loss": 0.2946,
      "step": 5450
    },
    {
      "epoch": 1.54,
      "grad_norm": 18.89029942903239,
      "learning_rate": 0.00019188340151957917,
      "loss": 0.2129,
      "step": 5460
    },
    {
      "epoch": 1.54,
      "grad_norm": 21.18937099773853,
      "learning_rate": 0.0001916642314436002,
      "loss": 0.3114,
      "step": 5470
    },
    {
      "epoch": 1.54,
      "grad_norm": 44.57514569240804,
      "learning_rate": 0.00019144506136762127,
      "loss": 0.4142,
      "step": 5480
    },
    {
      "epoch": 1.55,
      "grad_norm": 10.696173605726317,
      "learning_rate": 0.0001912258912916423,
      "loss": 0.1754,
      "step": 5490
    },
    {
      "epoch": 1.55,
      "grad_norm": 40.73458136589298,
      "learning_rate": 0.00019100672121566333,
      "loss": 0.2926,
      "step": 5500
    },
    {
      "epoch": 1.55,
      "grad_norm": 39.31886057121872,
      "learning_rate": 0.0001907875511396844,
      "loss": 0.266,
      "step": 5510
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.9842826591961664,
      "learning_rate": 0.00019056838106370542,
      "loss": 0.2224,
      "step": 5520
    },
    {
      "epoch": 1.56,
      "grad_norm": 9.331926869782274,
      "learning_rate": 0.00019034921098772645,
      "loss": 0.1006,
      "step": 5530
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.42527725447521897,
      "learning_rate": 0.00019013004091174748,
      "loss": 0.2903,
      "step": 5540
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.2444076494386254,
      "learning_rate": 0.00018991087083576854,
      "loss": 0.1155,
      "step": 5550
    },
    {
      "epoch": 1.57,
      "grad_norm": 37.94628287997447,
      "learning_rate": 0.00018969170075978958,
      "loss": 0.4778,
      "step": 5560
    },
    {
      "epoch": 1.57,
      "grad_norm": 42.20359422033777,
      "learning_rate": 0.0001894725306838106,
      "loss": 0.268,
      "step": 5570
    },
    {
      "epoch": 1.57,
      "grad_norm": 5.954129998100243,
      "learning_rate": 0.00018925336060783167,
      "loss": 0.2858,
      "step": 5580
    },
    {
      "epoch": 1.58,
      "grad_norm": 12.545115176449832,
      "learning_rate": 0.0001890341905318527,
      "loss": 0.4231,
      "step": 5590
    },
    {
      "epoch": 1.58,
      "grad_norm": 4.6634905746414965,
      "learning_rate": 0.00018881502045587373,
      "loss": 0.2802,
      "step": 5600
    },
    {
      "epoch": 1.58,
      "grad_norm": 25.89963576909228,
      "learning_rate": 0.0001885958503798948,
      "loss": 0.3474,
      "step": 5610
    },
    {
      "epoch": 1.58,
      "grad_norm": 8.132022049717532,
      "learning_rate": 0.00018837668030391582,
      "loss": 0.2969,
      "step": 5620
    },
    {
      "epoch": 1.59,
      "grad_norm": 9.15480977443254,
      "learning_rate": 0.00018815751022793685,
      "loss": 0.2564,
      "step": 5630
    },
    {
      "epoch": 1.59,
      "grad_norm": 8.525165992903926,
      "learning_rate": 0.00018793834015195789,
      "loss": 0.3067,
      "step": 5640
    },
    {
      "epoch": 1.59,
      "grad_norm": 32.8997919695663,
      "learning_rate": 0.00018771917007597894,
      "loss": 0.3231,
      "step": 5650
    },
    {
      "epoch": 1.6,
      "grad_norm": 13.880130230974345,
      "learning_rate": 0.00018749999999999998,
      "loss": 0.233,
      "step": 5660
    },
    {
      "epoch": 1.6,
      "grad_norm": 5.059925820076422,
      "learning_rate": 0.000187280829924021,
      "loss": 0.274,
      "step": 5670
    },
    {
      "epoch": 1.6,
      "grad_norm": 33.92209798070997,
      "learning_rate": 0.00018706165984804207,
      "loss": 0.1971,
      "step": 5680
    },
    {
      "epoch": 1.6,
      "grad_norm": 11.486919782540255,
      "learning_rate": 0.0001868424897720631,
      "loss": 0.5099,
      "step": 5690
    },
    {
      "epoch": 1.61,
      "grad_norm": 1.118181876078142,
      "learning_rate": 0.00018662331969608413,
      "loss": 0.1531,
      "step": 5700
    },
    {
      "epoch": 1.61,
      "grad_norm": 18.07168190463933,
      "learning_rate": 0.00018640414962010516,
      "loss": 0.4196,
      "step": 5710
    },
    {
      "epoch": 1.61,
      "grad_norm": 8.865176806627508,
      "learning_rate": 0.00018618497954412622,
      "loss": 0.2771,
      "step": 5720
    },
    {
      "epoch": 1.62,
      "grad_norm": 35.74999402744737,
      "learning_rate": 0.00018596580946814726,
      "loss": 0.3592,
      "step": 5730
    },
    {
      "epoch": 1.62,
      "grad_norm": 14.709743095476123,
      "learning_rate": 0.0001857466393921683,
      "loss": 0.2372,
      "step": 5740
    },
    {
      "epoch": 1.62,
      "grad_norm": 8.547571860162597,
      "learning_rate": 0.00018552746931618935,
      "loss": 0.1769,
      "step": 5750
    },
    {
      "epoch": 1.62,
      "grad_norm": 29.188932438810735,
      "learning_rate": 0.00018530829924021038,
      "loss": 0.1595,
      "step": 5760
    },
    {
      "epoch": 1.63,
      "grad_norm": 9.72627004103299,
      "learning_rate": 0.0001850891291642314,
      "loss": 0.267,
      "step": 5770
    },
    {
      "epoch": 1.63,
      "grad_norm": 17.585505956653314,
      "learning_rate": 0.0001848699590882525,
      "loss": 0.2313,
      "step": 5780
    },
    {
      "epoch": 1.63,
      "grad_norm": 11.872045841554243,
      "learning_rate": 0.0001846507890122735,
      "loss": 0.2371,
      "step": 5790
    },
    {
      "epoch": 1.64,
      "grad_norm": 17.194223427069954,
      "learning_rate": 0.00018443161893629453,
      "loss": 0.3299,
      "step": 5800
    },
    {
      "epoch": 1.64,
      "grad_norm": 11.83536538733706,
      "learning_rate": 0.00018421244886031557,
      "loss": 0.1985,
      "step": 5810
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.4341999458410153,
      "learning_rate": 0.00018399327878433665,
      "loss": 0.2886,
      "step": 5820
    },
    {
      "epoch": 1.64,
      "grad_norm": 4.533321919018761,
      "learning_rate": 0.00018377410870835768,
      "loss": 0.2209,
      "step": 5830
    },
    {
      "epoch": 1.65,
      "grad_norm": 15.786307762774168,
      "learning_rate": 0.0001835549386323787,
      "loss": 0.1963,
      "step": 5840
    },
    {
      "epoch": 1.65,
      "grad_norm": 4.999680638451794,
      "learning_rate": 0.00018333576855639977,
      "loss": 0.3231,
      "step": 5850
    },
    {
      "epoch": 1.65,
      "grad_norm": 7.345856055836037,
      "learning_rate": 0.0001831165984804208,
      "loss": 0.3497,
      "step": 5860
    },
    {
      "epoch": 1.65,
      "grad_norm": 24.05112698349709,
      "learning_rate": 0.00018289742840444184,
      "loss": 0.1703,
      "step": 5870
    },
    {
      "epoch": 1.66,
      "grad_norm": 5.14777448497475,
      "learning_rate": 0.00018267825832846284,
      "loss": 0.2877,
      "step": 5880
    },
    {
      "epoch": 1.66,
      "grad_norm": 22.321301335050478,
      "learning_rate": 0.00018245908825248393,
      "loss": 0.3838,
      "step": 5890
    },
    {
      "epoch": 1.66,
      "grad_norm": 13.553653717813507,
      "learning_rate": 0.00018223991817650496,
      "loss": 0.2386,
      "step": 5900
    },
    {
      "epoch": 1.67,
      "grad_norm": 8.36423228043391,
      "learning_rate": 0.000182020748100526,
      "loss": 0.3274,
      "step": 5910
    },
    {
      "epoch": 1.67,
      "grad_norm": 32.214527042072234,
      "learning_rate": 0.00018180157802454705,
      "loss": 0.2649,
      "step": 5920
    },
    {
      "epoch": 1.67,
      "grad_norm": 7.310510867463555,
      "learning_rate": 0.00018158240794856808,
      "loss": 0.3419,
      "step": 5930
    },
    {
      "epoch": 1.67,
      "grad_norm": 26.843414736420463,
      "learning_rate": 0.00018136323787258912,
      "loss": 0.3201,
      "step": 5940
    },
    {
      "epoch": 1.68,
      "grad_norm": 17.750295021021458,
      "learning_rate": 0.00018114406779661015,
      "loss": 0.2248,
      "step": 5950
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.8761970753193081,
      "learning_rate": 0.0001809248977206312,
      "loss": 0.1681,
      "step": 5960
    },
    {
      "epoch": 1.68,
      "grad_norm": 8.023645949418535,
      "learning_rate": 0.00018070572764465224,
      "loss": 0.3362,
      "step": 5970
    },
    {
      "epoch": 1.69,
      "grad_norm": 21.33676597686644,
      "learning_rate": 0.00018048655756867327,
      "loss": 0.1318,
      "step": 5980
    },
    {
      "epoch": 1.69,
      "grad_norm": 17.955586403704974,
      "learning_rate": 0.00018026738749269433,
      "loss": 0.3109,
      "step": 5990
    },
    {
      "epoch": 1.69,
      "grad_norm": 37.44497964171056,
      "learning_rate": 0.00018004821741671536,
      "loss": 0.224,
      "step": 6000
    },
    {
      "epoch": 1.69,
      "grad_norm": 21.77593890358771,
      "learning_rate": 0.0001798290473407364,
      "loss": 0.3034,
      "step": 6010
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.7352368145267243,
      "learning_rate": 0.00017960987726475745,
      "loss": 0.1274,
      "step": 6020
    },
    {
      "epoch": 1.7,
      "grad_norm": 21.416372952522156,
      "learning_rate": 0.00017939070718877849,
      "loss": 0.2799,
      "step": 6030
    },
    {
      "epoch": 1.7,
      "grad_norm": 6.43140669106781,
      "learning_rate": 0.00017917153711279952,
      "loss": 0.3944,
      "step": 6040
    },
    {
      "epoch": 1.71,
      "grad_norm": 21.589922507704756,
      "learning_rate": 0.00017895236703682055,
      "loss": 0.4062,
      "step": 6050
    },
    {
      "epoch": 1.71,
      "grad_norm": 11.40138578000891,
      "learning_rate": 0.0001787331969608416,
      "loss": 0.244,
      "step": 6060
    },
    {
      "epoch": 1.71,
      "grad_norm": 17.091859469856562,
      "learning_rate": 0.00017851402688486264,
      "loss": 0.2566,
      "step": 6070
    },
    {
      "epoch": 1.71,
      "grad_norm": 11.99466531174607,
      "learning_rate": 0.00017829485680888367,
      "loss": 0.2817,
      "step": 6080
    },
    {
      "epoch": 1.72,
      "grad_norm": 20.51599983452521,
      "learning_rate": 0.00017807568673290473,
      "loss": 0.2728,
      "step": 6090
    },
    {
      "epoch": 1.72,
      "grad_norm": 43.54037932343941,
      "learning_rate": 0.00017785651665692576,
      "loss": 0.3911,
      "step": 6100
    },
    {
      "epoch": 1.72,
      "grad_norm": 14.595613560758464,
      "learning_rate": 0.0001776373465809468,
      "loss": 0.2645,
      "step": 6110
    },
    {
      "epoch": 1.73,
      "grad_norm": 24.91815308399374,
      "learning_rate": 0.00017741817650496783,
      "loss": 0.2268,
      "step": 6120
    },
    {
      "epoch": 1.73,
      "grad_norm": 9.720913254909993,
      "learning_rate": 0.0001771990064289889,
      "loss": 0.3635,
      "step": 6130
    },
    {
      "epoch": 1.73,
      "grad_norm": 29.77336977828609,
      "learning_rate": 0.00017697983635300992,
      "loss": 0.2624,
      "step": 6140
    },
    {
      "epoch": 1.73,
      "grad_norm": 35.22870133705211,
      "learning_rate": 0.00017676066627703095,
      "loss": 0.3233,
      "step": 6150
    },
    {
      "epoch": 1.74,
      "grad_norm": 1.3492806118043075,
      "learning_rate": 0.000176541496201052,
      "loss": 0.2593,
      "step": 6160
    },
    {
      "epoch": 1.74,
      "grad_norm": 12.854084741350912,
      "learning_rate": 0.00017632232612507304,
      "loss": 0.288,
      "step": 6170
    },
    {
      "epoch": 1.74,
      "grad_norm": 26.51581773086576,
      "learning_rate": 0.00017610315604909407,
      "loss": 0.4244,
      "step": 6180
    },
    {
      "epoch": 1.75,
      "grad_norm": 8.677592676470999,
      "learning_rate": 0.00017588398597311513,
      "loss": 0.2529,
      "step": 6190
    },
    {
      "epoch": 1.75,
      "grad_norm": 49.69265782318678,
      "learning_rate": 0.00017566481589713617,
      "loss": 0.2555,
      "step": 6200
    },
    {
      "epoch": 1.75,
      "grad_norm": 9.137310587778737,
      "learning_rate": 0.0001754456458211572,
      "loss": 0.2237,
      "step": 6210
    },
    {
      "epoch": 1.75,
      "grad_norm": 2.5627703512715154,
      "learning_rate": 0.00017522647574517823,
      "loss": 0.2253,
      "step": 6220
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.3427155017491879,
      "learning_rate": 0.0001750073056691993,
      "loss": 0.4267,
      "step": 6230
    },
    {
      "epoch": 1.76,
      "grad_norm": 32.026763021399056,
      "learning_rate": 0.00017478813559322032,
      "loss": 0.2694,
      "step": 6240
    },
    {
      "epoch": 1.76,
      "grad_norm": 1.8952720705907915,
      "learning_rate": 0.00017456896551724135,
      "loss": 0.2647,
      "step": 6250
    },
    {
      "epoch": 1.76,
      "grad_norm": 8.293829114055725,
      "learning_rate": 0.0001743497954412624,
      "loss": 0.3184,
      "step": 6260
    },
    {
      "epoch": 1.77,
      "grad_norm": 21.630558018188975,
      "learning_rate": 0.00017413062536528344,
      "loss": 0.2528,
      "step": 6270
    },
    {
      "epoch": 1.77,
      "grad_norm": 11.263065393245803,
      "learning_rate": 0.00017391145528930448,
      "loss": 0.3655,
      "step": 6280
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5383693893588692,
      "learning_rate": 0.0001736922852133255,
      "loss": 0.2871,
      "step": 6290
    },
    {
      "epoch": 1.78,
      "grad_norm": 8.222238464796305,
      "learning_rate": 0.00017347311513734657,
      "loss": 0.2595,
      "step": 6300
    },
    {
      "epoch": 1.78,
      "grad_norm": 17.415154838487343,
      "learning_rate": 0.0001732539450613676,
      "loss": 0.3208,
      "step": 6310
    },
    {
      "epoch": 1.78,
      "grad_norm": 2.384813430472559,
      "learning_rate": 0.00017303477498538863,
      "loss": 0.1697,
      "step": 6320
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.430324248430251,
      "learning_rate": 0.0001728156049094097,
      "loss": 0.3111,
      "step": 6330
    },
    {
      "epoch": 1.79,
      "grad_norm": 29.695298798800554,
      "learning_rate": 0.00017259643483343072,
      "loss": 0.2624,
      "step": 6340
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.4530119939476016,
      "learning_rate": 0.00017239918176504965,
      "loss": 0.5039,
      "step": 6350
    },
    {
      "epoch": 1.79,
      "grad_norm": 14.522683359889644,
      "learning_rate": 0.0001721800116890707,
      "loss": 0.2896,
      "step": 6360
    },
    {
      "epoch": 1.8,
      "grad_norm": 11.419748641445885,
      "learning_rate": 0.00017196084161309175,
      "loss": 0.2413,
      "step": 6370
    },
    {
      "epoch": 1.8,
      "grad_norm": 12.845162868376475,
      "learning_rate": 0.00017174167153711278,
      "loss": 0.2085,
      "step": 6380
    },
    {
      "epoch": 1.8,
      "grad_norm": 50.97954814308535,
      "learning_rate": 0.0001715225014611338,
      "loss": 0.4096,
      "step": 6390
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.776354286239877,
      "learning_rate": 0.00017130333138515487,
      "loss": 0.2438,
      "step": 6400
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.71168428040738,
      "learning_rate": 0.0001710841613091759,
      "loss": 0.2612,
      "step": 6410
    },
    {
      "epoch": 1.81,
      "grad_norm": 32.131330999922675,
      "learning_rate": 0.00017086499123319693,
      "loss": 0.4542,
      "step": 6420
    },
    {
      "epoch": 1.81,
      "grad_norm": 6.736921728341746,
      "learning_rate": 0.000170645821157218,
      "loss": 0.2303,
      "step": 6430
    },
    {
      "epoch": 1.82,
      "grad_norm": 15.468427433397974,
      "learning_rate": 0.00017042665108123902,
      "loss": 0.3181,
      "step": 6440
    },
    {
      "epoch": 1.82,
      "grad_norm": 64.72524937993848,
      "learning_rate": 0.00017020748100526006,
      "loss": 0.2804,
      "step": 6450
    },
    {
      "epoch": 1.82,
      "grad_norm": 5.219058854813203,
      "learning_rate": 0.0001699883109292811,
      "loss": 0.2497,
      "step": 6460
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.6037966913707118,
      "learning_rate": 0.00016976914085330215,
      "loss": 0.2066,
      "step": 6470
    },
    {
      "epoch": 1.83,
      "grad_norm": 6.240768583919815,
      "learning_rate": 0.00016954997077732318,
      "loss": 0.2428,
      "step": 6480
    },
    {
      "epoch": 1.83,
      "grad_norm": 23.240452777334195,
      "learning_rate": 0.0001693308007013442,
      "loss": 0.2075,
      "step": 6490
    },
    {
      "epoch": 1.83,
      "grad_norm": 39.5379292284798,
      "learning_rate": 0.00016911163062536527,
      "loss": 0.2936,
      "step": 6500
    },
    {
      "epoch": 1.84,
      "grad_norm": 32.798181084355704,
      "learning_rate": 0.0001688924605493863,
      "loss": 0.3773,
      "step": 6510
    },
    {
      "epoch": 1.84,
      "grad_norm": 17.376010201609784,
      "learning_rate": 0.00016867329047340733,
      "loss": 0.3442,
      "step": 6520
    },
    {
      "epoch": 1.84,
      "grad_norm": 12.08974541668813,
      "learning_rate": 0.0001684541203974284,
      "loss": 0.3321,
      "step": 6530
    },
    {
      "epoch": 1.84,
      "grad_norm": 34.210468800599315,
      "learning_rate": 0.00016823495032144942,
      "loss": 0.2846,
      "step": 6540
    },
    {
      "epoch": 1.85,
      "grad_norm": 13.86396524279559,
      "learning_rate": 0.00016801578024547046,
      "loss": 0.2522,
      "step": 6550
    },
    {
      "epoch": 1.85,
      "grad_norm": 2.9623178774098693,
      "learning_rate": 0.0001677966101694915,
      "loss": 0.3122,
      "step": 6560
    },
    {
      "epoch": 1.85,
      "grad_norm": 16.202793893907323,
      "learning_rate": 0.00016757744009351255,
      "loss": 0.2785,
      "step": 6570
    },
    {
      "epoch": 1.86,
      "grad_norm": 8.818952376048744,
      "learning_rate": 0.00016735827001753358,
      "loss": 0.2893,
      "step": 6580
    },
    {
      "epoch": 1.86,
      "grad_norm": 9.840941433124744,
      "learning_rate": 0.0001671390999415546,
      "loss": 0.4644,
      "step": 6590
    },
    {
      "epoch": 1.86,
      "grad_norm": 22.487991211369078,
      "learning_rate": 0.0001669199298655757,
      "loss": 0.3367,
      "step": 6600
    },
    {
      "epoch": 1.86,
      "grad_norm": 29.408750577985327,
      "learning_rate": 0.0001667007597895967,
      "loss": 0.433,
      "step": 6610
    },
    {
      "epoch": 1.87,
      "grad_norm": 44.84702783843238,
      "learning_rate": 0.00016648158971361773,
      "loss": 0.288,
      "step": 6620
    },
    {
      "epoch": 1.87,
      "grad_norm": 35.39092595728219,
      "learning_rate": 0.00016626241963763877,
      "loss": 0.401,
      "step": 6630
    },
    {
      "epoch": 1.87,
      "grad_norm": 9.939332121236001,
      "learning_rate": 0.00016604324956165985,
      "loss": 0.1682,
      "step": 6640
    },
    {
      "epoch": 1.87,
      "grad_norm": 44.968039933166224,
      "learning_rate": 0.00016582407948568089,
      "loss": 0.2435,
      "step": 6650
    },
    {
      "epoch": 1.88,
      "grad_norm": 8.897239396543608,
      "learning_rate": 0.0001656049094097019,
      "loss": 0.2616,
      "step": 6660
    },
    {
      "epoch": 1.88,
      "grad_norm": 24.54192700316105,
      "learning_rate": 0.00016538573933372298,
      "loss": 0.2454,
      "step": 6670
    },
    {
      "epoch": 1.88,
      "grad_norm": 1.9484839859694942,
      "learning_rate": 0.000165166569257744,
      "loss": 0.2232,
      "step": 6680
    },
    {
      "epoch": 1.89,
      "grad_norm": 15.628379568346645,
      "learning_rate": 0.00016494739918176504,
      "loss": 0.2314,
      "step": 6690
    },
    {
      "epoch": 1.89,
      "grad_norm": 23.499563414114768,
      "learning_rate": 0.0001647282291057861,
      "loss": 0.1903,
      "step": 6700
    },
    {
      "epoch": 1.89,
      "grad_norm": 19.39538243318877,
      "learning_rate": 0.00016450905902980713,
      "loss": 0.2385,
      "step": 6710
    },
    {
      "epoch": 1.89,
      "grad_norm": 5.238154008583709,
      "learning_rate": 0.00016428988895382816,
      "loss": 0.3917,
      "step": 6720
    },
    {
      "epoch": 1.9,
      "grad_norm": 24.81933612902287,
      "learning_rate": 0.0001640707188778492,
      "loss": 0.2389,
      "step": 6730
    },
    {
      "epoch": 1.9,
      "grad_norm": 4.608132814218328,
      "learning_rate": 0.00016385154880187025,
      "loss": 0.1413,
      "step": 6740
    },
    {
      "epoch": 1.9,
      "grad_norm": 11.881773803892107,
      "learning_rate": 0.0001636323787258913,
      "loss": 0.1785,
      "step": 6750
    },
    {
      "epoch": 1.91,
      "grad_norm": 14.177125312181635,
      "learning_rate": 0.00016341320864991232,
      "loss": 0.2461,
      "step": 6760
    },
    {
      "epoch": 1.91,
      "grad_norm": 33.173507263725085,
      "learning_rate": 0.00016319403857393338,
      "loss": 0.5047,
      "step": 6770
    },
    {
      "epoch": 1.91,
      "grad_norm": 37.82372264857794,
      "learning_rate": 0.0001629748684979544,
      "loss": 0.3656,
      "step": 6780
    },
    {
      "epoch": 1.91,
      "grad_norm": 23.51699250829612,
      "learning_rate": 0.00016275569842197544,
      "loss": 0.3609,
      "step": 6790
    },
    {
      "epoch": 1.92,
      "grad_norm": 26.427233006930997,
      "learning_rate": 0.00016253652834599647,
      "loss": 0.2522,
      "step": 6800
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.8480665720492925,
      "learning_rate": 0.00016231735827001753,
      "loss": 0.1934,
      "step": 6810
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.0073865565621205,
      "learning_rate": 0.00016209818819403856,
      "loss": 0.2325,
      "step": 6820
    },
    {
      "epoch": 1.93,
      "grad_norm": 7.079199003953245,
      "learning_rate": 0.0001618790181180596,
      "loss": 0.2733,
      "step": 6830
    },
    {
      "epoch": 1.93,
      "grad_norm": 4.227514966678838,
      "learning_rate": 0.00016165984804208066,
      "loss": 0.5935,
      "step": 6840
    },
    {
      "epoch": 1.93,
      "grad_norm": 2.3825703295584146,
      "learning_rate": 0.0001614406779661017,
      "loss": 0.2733,
      "step": 6850
    },
    {
      "epoch": 1.93,
      "grad_norm": 1.8576971315426782,
      "learning_rate": 0.00016122150789012272,
      "loss": 0.303,
      "step": 6860
    },
    {
      "epoch": 1.94,
      "grad_norm": 33.6413124083341,
      "learning_rate": 0.00016100233781414378,
      "loss": 0.2274,
      "step": 6870
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.9887468524380643,
      "learning_rate": 0.0001607831677381648,
      "loss": 0.2919,
      "step": 6880
    },
    {
      "epoch": 1.94,
      "grad_norm": 4.991113672687678,
      "learning_rate": 0.00016056399766218584,
      "loss": 0.2303,
      "step": 6890
    },
    {
      "epoch": 1.95,
      "grad_norm": 56.489557072844796,
      "learning_rate": 0.00016034482758620688,
      "loss": 0.3899,
      "step": 6900
    },
    {
      "epoch": 1.95,
      "grad_norm": 2.8149639916154947,
      "learning_rate": 0.00016012565751022793,
      "loss": 0.2179,
      "step": 6910
    },
    {
      "epoch": 1.95,
      "grad_norm": 9.821507341872895,
      "learning_rate": 0.00015990648743424897,
      "loss": 0.3172,
      "step": 6920
    },
    {
      "epoch": 1.95,
      "grad_norm": 2.8569862825069285,
      "learning_rate": 0.00015968731735827,
      "loss": 0.256,
      "step": 6930
    },
    {
      "epoch": 1.96,
      "grad_norm": 2.1928517803266643,
      "learning_rate": 0.00015946814728229106,
      "loss": 0.1468,
      "step": 6940
    },
    {
      "epoch": 1.96,
      "grad_norm": 8.161581000646946,
      "learning_rate": 0.0001592489772063121,
      "loss": 0.3608,
      "step": 6950
    },
    {
      "epoch": 1.96,
      "grad_norm": 1.8284875998450847,
      "learning_rate": 0.00015902980713033312,
      "loss": 0.2207,
      "step": 6960
    },
    {
      "epoch": 1.97,
      "grad_norm": 3.6951898202003726,
      "learning_rate": 0.00015881063705435415,
      "loss": 0.2749,
      "step": 6970
    },
    {
      "epoch": 1.97,
      "grad_norm": 17.687512857327995,
      "learning_rate": 0.0001585914669783752,
      "loss": 0.2825,
      "step": 6980
    },
    {
      "epoch": 1.97,
      "grad_norm": 4.61555546951409,
      "learning_rate": 0.00015837229690239624,
      "loss": 0.3753,
      "step": 6990
    },
    {
      "epoch": 1.97,
      "grad_norm": 28.47716869865466,
      "learning_rate": 0.00015815312682641728,
      "loss": 0.3437,
      "step": 7000
    },
    {
      "epoch": 1.98,
      "grad_norm": 9.853541461506175,
      "learning_rate": 0.00015793395675043834,
      "loss": 0.2261,
      "step": 7010
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.150395806350278,
      "learning_rate": 0.00015771478667445937,
      "loss": 0.3094,
      "step": 7020
    },
    {
      "epoch": 1.98,
      "grad_norm": 8.382086348656976,
      "learning_rate": 0.0001574956165984804,
      "loss": 0.3093,
      "step": 7030
    },
    {
      "epoch": 1.98,
      "grad_norm": 2.722468973867923,
      "learning_rate": 0.00015727644652250143,
      "loss": 0.1783,
      "step": 7040
    },
    {
      "epoch": 1.99,
      "grad_norm": 7.546076976068019,
      "learning_rate": 0.0001570572764465225,
      "loss": 0.1107,
      "step": 7050
    },
    {
      "epoch": 1.99,
      "grad_norm": 20.5642182254047,
      "learning_rate": 0.00015683810637054352,
      "loss": 0.4277,
      "step": 7060
    },
    {
      "epoch": 1.99,
      "grad_norm": 23.175588346263925,
      "learning_rate": 0.00015661893629456455,
      "loss": 0.4047,
      "step": 7070
    },
    {
      "epoch": 2.0,
      "grad_norm": 16.76827959394083,
      "learning_rate": 0.00015639976621858561,
      "loss": 0.2191,
      "step": 7080
    },
    {
      "epoch": 2.0,
      "grad_norm": 39.47975455838656,
      "learning_rate": 0.00015618059614260665,
      "loss": 0.3542,
      "step": 7090
    },
    {
      "epoch": 2.0,
      "eval_0_f1": 0.7521064301552106,
      "eval_0_precision": 0.7848218417399352,
      "eval_0_recall": 0.7220093656875266,
      "eval_1_f1": 0.9185843285755897,
      "eval_1_precision": 0.9061781609195402,
      "eval_1_recall": 0.9313349084465445,
      "eval_accuracy": 0.8774257208639403,
      "eval_loss": 0.35205078125,
      "eval_runtime": 546.1666,
      "eval_samples_per_second": 16.7,
      "eval_steps_per_second": 2.785,
      "step": 7094
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.9467741467334223,
      "learning_rate": 0.00015596142606662768,
      "loss": 0.185,
      "step": 7100
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.796842409513772,
      "learning_rate": 0.00015574225599064874,
      "loss": 0.1507,
      "step": 7110
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.4260048578862903,
      "learning_rate": 0.00015552308591466977,
      "loss": 0.1149,
      "step": 7120
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.5807242351519994,
      "learning_rate": 0.0001553039158386908,
      "loss": 0.0837,
      "step": 7130
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.04513928456377307,
      "learning_rate": 0.00015508474576271183,
      "loss": 0.1494,
      "step": 7140
    },
    {
      "epoch": 2.02,
      "grad_norm": 40.003470604804754,
      "learning_rate": 0.0001548655756867329,
      "loss": 0.1058,
      "step": 7150
    },
    {
      "epoch": 2.02,
      "grad_norm": 5.841175038437886,
      "learning_rate": 0.00015464640561075392,
      "loss": 0.1506,
      "step": 7160
    },
    {
      "epoch": 2.02,
      "grad_norm": 7.276698167932587,
      "learning_rate": 0.00015442723553477496,
      "loss": 0.0631,
      "step": 7170
    },
    {
      "epoch": 2.02,
      "grad_norm": 1.3902255476639265,
      "learning_rate": 0.00015420806545879602,
      "loss": 0.0569,
      "step": 7180
    },
    {
      "epoch": 2.03,
      "grad_norm": 8.321999591495654,
      "learning_rate": 0.00015398889538281705,
      "loss": 0.2596,
      "step": 7190
    },
    {
      "epoch": 2.03,
      "grad_norm": 4.274705509444957,
      "learning_rate": 0.00015376972530683808,
      "loss": 0.0755,
      "step": 7200
    },
    {
      "epoch": 2.03,
      "grad_norm": 14.284605361939498,
      "learning_rate": 0.0001535505552308591,
      "loss": 0.0506,
      "step": 7210
    },
    {
      "epoch": 2.04,
      "grad_norm": 1.2721793288961767,
      "learning_rate": 0.00015333138515488017,
      "loss": 0.1444,
      "step": 7220
    },
    {
      "epoch": 2.04,
      "grad_norm": 10.887784732379894,
      "learning_rate": 0.0001531122150789012,
      "loss": 0.0952,
      "step": 7230
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.33776382671575805,
      "learning_rate": 0.00015289304500292223,
      "loss": 0.1503,
      "step": 7240
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.7362979177108379,
      "learning_rate": 0.00015267387492694332,
      "loss": 0.0826,
      "step": 7250
    },
    {
      "epoch": 2.05,
      "grad_norm": 12.73307715279125,
      "learning_rate": 0.00015245470485096433,
      "loss": 0.2583,
      "step": 7260
    },
    {
      "epoch": 2.05,
      "grad_norm": 38.30889802059039,
      "learning_rate": 0.00015223553477498536,
      "loss": 0.2281,
      "step": 7270
    },
    {
      "epoch": 2.05,
      "grad_norm": 21.730855964037335,
      "learning_rate": 0.00015201636469900644,
      "loss": 0.3252,
      "step": 7280
    },
    {
      "epoch": 2.06,
      "grad_norm": 19.535045567591606,
      "learning_rate": 0.00015179719462302748,
      "loss": 0.1412,
      "step": 7290
    },
    {
      "epoch": 2.06,
      "grad_norm": 6.082430108448023,
      "learning_rate": 0.00015157802454704848,
      "loss": 0.1301,
      "step": 7300
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.5121677910383875,
      "learning_rate": 0.0001513588544710695,
      "loss": 0.2337,
      "step": 7310
    },
    {
      "epoch": 2.06,
      "grad_norm": 18.706966962801445,
      "learning_rate": 0.0001511396843950906,
      "loss": 0.0847,
      "step": 7320
    },
    {
      "epoch": 2.07,
      "grad_norm": 1.4783230754439916,
      "learning_rate": 0.00015092051431911163,
      "loss": 0.1419,
      "step": 7330
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.9639753705286136,
      "learning_rate": 0.00015070134424313264,
      "loss": 0.0583,
      "step": 7340
    },
    {
      "epoch": 2.07,
      "grad_norm": 23.160696704392283,
      "learning_rate": 0.00015048217416715372,
      "loss": 0.2117,
      "step": 7350
    },
    {
      "epoch": 2.07,
      "grad_norm": 12.771447911890823,
      "learning_rate": 0.00015026300409117475,
      "loss": 0.0548,
      "step": 7360
    },
    {
      "epoch": 2.08,
      "grad_norm": 11.531079583730829,
      "learning_rate": 0.00015004383401519579,
      "loss": 0.1,
      "step": 7370
    },
    {
      "epoch": 2.08,
      "grad_norm": 1.5725191403592071,
      "learning_rate": 0.00014982466393921682,
      "loss": 0.0763,
      "step": 7380
    },
    {
      "epoch": 2.08,
      "grad_norm": 19.62591146141424,
      "learning_rate": 0.00014960549386323785,
      "loss": 0.2172,
      "step": 7390
    },
    {
      "epoch": 2.09,
      "grad_norm": 4.328008880202292,
      "learning_rate": 0.0001493863237872589,
      "loss": 0.1791,
      "step": 7400
    },
    {
      "epoch": 2.09,
      "grad_norm": 2.542706232558499,
      "learning_rate": 0.00014916715371127994,
      "loss": 0.1069,
      "step": 7410
    },
    {
      "epoch": 2.09,
      "grad_norm": 5.01099611371998,
      "learning_rate": 0.00014894798363530097,
      "loss": 0.0867,
      "step": 7420
    },
    {
      "epoch": 2.09,
      "grad_norm": 1.4225594957009309,
      "learning_rate": 0.00014872881355932203,
      "loss": 0.1617,
      "step": 7430
    },
    {
      "epoch": 2.1,
      "grad_norm": 1.4366748859319889,
      "learning_rate": 0.00014850964348334306,
      "loss": 0.1247,
      "step": 7440
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.4798934066028662,
      "learning_rate": 0.0001482904734073641,
      "loss": 0.1457,
      "step": 7450
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.8614048372726179,
      "learning_rate": 0.00014807130333138516,
      "loss": 0.1488,
      "step": 7460
    },
    {
      "epoch": 2.11,
      "grad_norm": 1.5048632731892742,
      "learning_rate": 0.0001478521332554062,
      "loss": 0.0832,
      "step": 7470
    },
    {
      "epoch": 2.11,
      "grad_norm": 2.6843269650855808,
      "learning_rate": 0.00014763296317942722,
      "loss": 0.0961,
      "step": 7480
    },
    {
      "epoch": 2.11,
      "grad_norm": 16.8741628191936,
      "learning_rate": 0.00014741379310344825,
      "loss": 0.2136,
      "step": 7490
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.807139340475033,
      "learning_rate": 0.0001471946230274693,
      "loss": 0.1095,
      "step": 7500
    },
    {
      "epoch": 2.12,
      "grad_norm": 2.2184905450148986,
      "learning_rate": 0.00014697545295149034,
      "loss": 0.1902,
      "step": 7510
    },
    {
      "epoch": 2.12,
      "grad_norm": 5.771979829819086,
      "learning_rate": 0.00014675628287551137,
      "loss": 0.138,
      "step": 7520
    },
    {
      "epoch": 2.12,
      "grad_norm": 5.97570946689331,
      "learning_rate": 0.00014653711279953243,
      "loss": 0.21,
      "step": 7530
    },
    {
      "epoch": 2.13,
      "grad_norm": 5.577046113368879,
      "learning_rate": 0.00014631794272355347,
      "loss": 0.2296,
      "step": 7540
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.16147618396834,
      "learning_rate": 0.0001460987726475745,
      "loss": 0.1041,
      "step": 7550
    },
    {
      "epoch": 2.13,
      "grad_norm": 1.3482389383340438,
      "learning_rate": 0.00014587960257159553,
      "loss": 0.0832,
      "step": 7560
    },
    {
      "epoch": 2.13,
      "grad_norm": 5.133780628362138,
      "learning_rate": 0.0001456604324956166,
      "loss": 0.0916,
      "step": 7570
    },
    {
      "epoch": 2.14,
      "grad_norm": 2.729454474197146,
      "learning_rate": 0.00014544126241963762,
      "loss": 0.1806,
      "step": 7580
    },
    {
      "epoch": 2.14,
      "grad_norm": 2.72773715656119,
      "learning_rate": 0.00014522209234365865,
      "loss": 0.0647,
      "step": 7590
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.507884957259747,
      "learning_rate": 0.0001450248392752776,
      "loss": 0.2701,
      "step": 7600
    },
    {
      "epoch": 2.15,
      "grad_norm": 19.081923498359,
      "learning_rate": 0.00014480566919929864,
      "loss": 0.0962,
      "step": 7610
    },
    {
      "epoch": 2.15,
      "grad_norm": 45.75244080209308,
      "learning_rate": 0.00014458649912331968,
      "loss": 0.2713,
      "step": 7620
    },
    {
      "epoch": 2.15,
      "grad_norm": 6.360305569438668,
      "learning_rate": 0.00014436732904734073,
      "loss": 0.0377,
      "step": 7630
    },
    {
      "epoch": 2.15,
      "grad_norm": 11.812868187605755,
      "learning_rate": 0.00014414815897136177,
      "loss": 0.0538,
      "step": 7640
    },
    {
      "epoch": 2.16,
      "grad_norm": 11.581826556875212,
      "learning_rate": 0.0001439289888953828,
      "loss": 0.1113,
      "step": 7650
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.0769487150537067,
      "learning_rate": 0.00014370981881940383,
      "loss": 0.1045,
      "step": 7660
    },
    {
      "epoch": 2.16,
      "grad_norm": 19.551871190286114,
      "learning_rate": 0.0001434906487434249,
      "loss": 0.1375,
      "step": 7670
    },
    {
      "epoch": 2.17,
      "grad_norm": 4.0482427664543925,
      "learning_rate": 0.00014327147866744592,
      "loss": 0.1863,
      "step": 7680
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.1977613453815654,
      "learning_rate": 0.00014305230859146695,
      "loss": 0.0756,
      "step": 7690
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.9737985079221272,
      "learning_rate": 0.000142833138515488,
      "loss": 0.0916,
      "step": 7700
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.984146795188883,
      "learning_rate": 0.00014261396843950904,
      "loss": 0.2625,
      "step": 7710
    },
    {
      "epoch": 2.18,
      "grad_norm": 1.72026076920096,
      "learning_rate": 0.00014239479836353008,
      "loss": 0.1073,
      "step": 7720
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.555301240735939,
      "learning_rate": 0.00014217562828755114,
      "loss": 0.0962,
      "step": 7730
    },
    {
      "epoch": 2.18,
      "grad_norm": 12.306241433553296,
      "learning_rate": 0.00014195645821157217,
      "loss": 0.312,
      "step": 7740
    },
    {
      "epoch": 2.18,
      "grad_norm": 39.31295240290497,
      "learning_rate": 0.0001417372881355932,
      "loss": 0.1382,
      "step": 7750
    },
    {
      "epoch": 2.19,
      "grad_norm": 18.239083580266996,
      "learning_rate": 0.00014151811805961423,
      "loss": 0.1959,
      "step": 7760
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.6063732707629277,
      "learning_rate": 0.0001412989479836353,
      "loss": 0.1882,
      "step": 7770
    },
    {
      "epoch": 2.19,
      "grad_norm": 22.59443633796688,
      "learning_rate": 0.00014107977790765632,
      "loss": 0.1411,
      "step": 7780
    },
    {
      "epoch": 2.2,
      "grad_norm": 9.943061970841525,
      "learning_rate": 0.00014086060783167738,
      "loss": 0.2073,
      "step": 7790
    },
    {
      "epoch": 2.2,
      "grad_norm": 13.334986026618791,
      "learning_rate": 0.00014064143775569841,
      "loss": 0.1452,
      "step": 7800
    },
    {
      "epoch": 2.2,
      "grad_norm": 18.672479936744026,
      "learning_rate": 0.00014042226767971945,
      "loss": 0.1604,
      "step": 7810
    },
    {
      "epoch": 2.2,
      "grad_norm": 8.209768975033892,
      "learning_rate": 0.0001402030976037405,
      "loss": 0.0633,
      "step": 7820
    },
    {
      "epoch": 2.21,
      "grad_norm": 7.929920880167193,
      "learning_rate": 0.00013998392752776154,
      "loss": 0.0759,
      "step": 7830
    },
    {
      "epoch": 2.21,
      "grad_norm": 5.155314191153851,
      "learning_rate": 0.00013976475745178257,
      "loss": 0.1334,
      "step": 7840
    },
    {
      "epoch": 2.21,
      "grad_norm": 12.293469154578297,
      "learning_rate": 0.00013954558737580363,
      "loss": 0.1731,
      "step": 7850
    },
    {
      "epoch": 2.22,
      "grad_norm": 27.793799163143525,
      "learning_rate": 0.00013932641729982466,
      "loss": 0.1718,
      "step": 7860
    },
    {
      "epoch": 2.22,
      "grad_norm": 18.160732235536603,
      "learning_rate": 0.0001391072472238457,
      "loss": 0.3889,
      "step": 7870
    },
    {
      "epoch": 2.22,
      "grad_norm": 6.719945966655997,
      "learning_rate": 0.00013888807714786672,
      "loss": 0.0903,
      "step": 7880
    },
    {
      "epoch": 2.22,
      "grad_norm": 4.702233374552434,
      "learning_rate": 0.00013866890707188778,
      "loss": 0.1029,
      "step": 7890
    },
    {
      "epoch": 2.23,
      "grad_norm": 1.6814706649468594,
      "learning_rate": 0.00013844973699590882,
      "loss": 0.1609,
      "step": 7900
    },
    {
      "epoch": 2.23,
      "grad_norm": 35.183209348221745,
      "learning_rate": 0.00013823056691992985,
      "loss": 0.0987,
      "step": 7910
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.3853650828148091,
      "learning_rate": 0.0001380113968439509,
      "loss": 0.092,
      "step": 7920
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.1900815019481827,
      "learning_rate": 0.00013779222676797194,
      "loss": 0.0721,
      "step": 7930
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.719013304384676,
      "learning_rate": 0.00013757305669199297,
      "loss": 0.2757,
      "step": 7940
    },
    {
      "epoch": 2.24,
      "grad_norm": 1.9065891840102538,
      "learning_rate": 0.000137353886616014,
      "loss": 0.0894,
      "step": 7950
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.7041589905973044,
      "learning_rate": 0.00013713471654003506,
      "loss": 0.1567,
      "step": 7960
    },
    {
      "epoch": 2.25,
      "grad_norm": 13.09370538833684,
      "learning_rate": 0.0001369155464640561,
      "loss": 0.1153,
      "step": 7970
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.10005792474473749,
      "learning_rate": 0.00013669637638807713,
      "loss": 0.0889,
      "step": 7980
    },
    {
      "epoch": 2.25,
      "grad_norm": 8.650143720385165,
      "learning_rate": 0.00013647720631209818,
      "loss": 0.102,
      "step": 7990
    },
    {
      "epoch": 2.26,
      "grad_norm": 13.834552459976706,
      "learning_rate": 0.00013625803623611922,
      "loss": 0.1991,
      "step": 8000
    },
    {
      "epoch": 2.26,
      "grad_norm": 7.1136160697882636,
      "learning_rate": 0.00013603886616014025,
      "loss": 0.1605,
      "step": 8010
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.409491115278956,
      "learning_rate": 0.00013581969608416128,
      "loss": 0.182,
      "step": 8020
    },
    {
      "epoch": 2.26,
      "grad_norm": 11.603050853164602,
      "learning_rate": 0.00013560052600818234,
      "loss": 0.1393,
      "step": 8030
    },
    {
      "epoch": 2.27,
      "grad_norm": 91.11285901526837,
      "learning_rate": 0.00013538135593220337,
      "loss": 0.5593,
      "step": 8040
    },
    {
      "epoch": 2.27,
      "grad_norm": 9.002577439722662,
      "learning_rate": 0.0001351621858562244,
      "loss": 0.2636,
      "step": 8050
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.8423642348776945,
      "learning_rate": 0.00013494301578024546,
      "loss": 0.2049,
      "step": 8060
    },
    {
      "epoch": 2.28,
      "grad_norm": 9.017487980947873,
      "learning_rate": 0.0001347238457042665,
      "loss": 0.2001,
      "step": 8070
    },
    {
      "epoch": 2.28,
      "grad_norm": 5.463991248637368,
      "learning_rate": 0.00013450467562828753,
      "loss": 0.1163,
      "step": 8080
    },
    {
      "epoch": 2.28,
      "grad_norm": 35.9490561961924,
      "learning_rate": 0.00013428550555230859,
      "loss": 0.1705,
      "step": 8090
    },
    {
      "epoch": 2.28,
      "grad_norm": 1.5214346506002336,
      "learning_rate": 0.00013406633547632962,
      "loss": 0.1706,
      "step": 8100
    },
    {
      "epoch": 2.29,
      "grad_norm": 6.553206900744027,
      "learning_rate": 0.00013384716540035068,
      "loss": 0.1406,
      "step": 8110
    },
    {
      "epoch": 2.29,
      "grad_norm": 10.219338883484347,
      "learning_rate": 0.00013362799532437168,
      "loss": 0.2204,
      "step": 8120
    },
    {
      "epoch": 2.29,
      "grad_norm": 18.748997475525492,
      "learning_rate": 0.00013340882524839274,
      "loss": 0.2109,
      "step": 8130
    },
    {
      "epoch": 2.29,
      "grad_norm": 1.3727170176969377,
      "learning_rate": 0.0001331896551724138,
      "loss": 0.1122,
      "step": 8140
    },
    {
      "epoch": 2.3,
      "grad_norm": 10.948203912180993,
      "learning_rate": 0.00013297048509643483,
      "loss": 0.3022,
      "step": 8150
    },
    {
      "epoch": 2.3,
      "grad_norm": 2.056636685995259,
      "learning_rate": 0.00013275131502045586,
      "loss": 0.239,
      "step": 8160
    },
    {
      "epoch": 2.3,
      "grad_norm": 6.518651435362685,
      "learning_rate": 0.0001325321449444769,
      "loss": 0.3234,
      "step": 8170
    },
    {
      "epoch": 2.31,
      "grad_norm": 5.475635275763899,
      "learning_rate": 0.00013231297486849796,
      "loss": 0.2198,
      "step": 8180
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.671883643297412,
      "learning_rate": 0.000132093804792519,
      "loss": 0.1707,
      "step": 8190
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.4579375750027517,
      "learning_rate": 0.00013187463471654002,
      "loss": 0.2133,
      "step": 8200
    },
    {
      "epoch": 2.31,
      "grad_norm": 5.194066447141225,
      "learning_rate": 0.00013165546464056108,
      "loss": 0.2439,
      "step": 8210
    },
    {
      "epoch": 2.32,
      "grad_norm": 10.494958205761325,
      "learning_rate": 0.0001314362945645821,
      "loss": 0.244,
      "step": 8220
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.2710044167508534,
      "learning_rate": 0.00013121712448860314,
      "loss": 0.1088,
      "step": 8230
    },
    {
      "epoch": 2.32,
      "grad_norm": 16.056832749725743,
      "learning_rate": 0.00013099795441262417,
      "loss": 0.2221,
      "step": 8240
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.7672515772397378,
      "learning_rate": 0.00013077878433664523,
      "loss": 0.0554,
      "step": 8250
    },
    {
      "epoch": 2.33,
      "grad_norm": 21.726819743293646,
      "learning_rate": 0.00013055961426066627,
      "loss": 0.1701,
      "step": 8260
    },
    {
      "epoch": 2.33,
      "grad_norm": 11.287063948392506,
      "learning_rate": 0.0001303404441846873,
      "loss": 0.2342,
      "step": 8270
    },
    {
      "epoch": 2.33,
      "grad_norm": 22.058917311910815,
      "learning_rate": 0.00013012127410870836,
      "loss": 0.163,
      "step": 8280
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.2943302484351142,
      "learning_rate": 0.0001299021040327294,
      "loss": 0.1142,
      "step": 8290
    },
    {
      "epoch": 2.34,
      "grad_norm": 41.01468692106424,
      "learning_rate": 0.00012968293395675042,
      "loss": 0.1652,
      "step": 8300
    },
    {
      "epoch": 2.34,
      "grad_norm": 15.110863439212581,
      "learning_rate": 0.00012946376388077145,
      "loss": 0.2891,
      "step": 8310
    },
    {
      "epoch": 2.35,
      "grad_norm": 4.692836606354725,
      "learning_rate": 0.0001292445938047925,
      "loss": 0.0777,
      "step": 8320
    },
    {
      "epoch": 2.35,
      "grad_norm": 42.35071301518718,
      "learning_rate": 0.00012902542372881354,
      "loss": 0.2289,
      "step": 8330
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.3851205501937085,
      "learning_rate": 0.00012880625365283458,
      "loss": 0.0574,
      "step": 8340
    },
    {
      "epoch": 2.35,
      "grad_norm": 32.382836448835434,
      "learning_rate": 0.00012858708357685564,
      "loss": 0.2681,
      "step": 8350
    },
    {
      "epoch": 2.36,
      "grad_norm": 11.990285837961236,
      "learning_rate": 0.00012836791350087667,
      "loss": 0.1145,
      "step": 8360
    },
    {
      "epoch": 2.36,
      "grad_norm": 6.231424331853902,
      "learning_rate": 0.0001281487434248977,
      "loss": 0.1645,
      "step": 8370
    },
    {
      "epoch": 2.36,
      "grad_norm": 8.823978019308194,
      "learning_rate": 0.00012792957334891876,
      "loss": 0.0895,
      "step": 8380
    },
    {
      "epoch": 2.37,
      "grad_norm": 3.5791569065379147,
      "learning_rate": 0.0001277104032729398,
      "loss": 0.2226,
      "step": 8390
    },
    {
      "epoch": 2.37,
      "grad_norm": 4.904760306159147,
      "learning_rate": 0.00012749123319696082,
      "loss": 0.1586,
      "step": 8400
    },
    {
      "epoch": 2.37,
      "grad_norm": 35.790471287396194,
      "learning_rate": 0.00012727206312098185,
      "loss": 0.1451,
      "step": 8410
    },
    {
      "epoch": 2.37,
      "grad_norm": 19.49158058941717,
      "learning_rate": 0.0001270528930450029,
      "loss": 0.1129,
      "step": 8420
    },
    {
      "epoch": 2.38,
      "grad_norm": 1.2301380360175656,
      "learning_rate": 0.00012683372296902397,
      "loss": 0.2055,
      "step": 8430
    },
    {
      "epoch": 2.38,
      "grad_norm": 6.081015675249448,
      "learning_rate": 0.00012661455289304498,
      "loss": 0.1039,
      "step": 8440
    },
    {
      "epoch": 2.38,
      "grad_norm": 8.51374019556884,
      "learning_rate": 0.00012639538281706604,
      "loss": 0.0764,
      "step": 8450
    },
    {
      "epoch": 2.39,
      "grad_norm": 22.61234712969463,
      "learning_rate": 0.00012617621274108707,
      "loss": 0.1144,
      "step": 8460
    },
    {
      "epoch": 2.39,
      "grad_norm": 16.325546182379608,
      "learning_rate": 0.00012595704266510813,
      "loss": 0.2252,
      "step": 8470
    },
    {
      "epoch": 2.39,
      "grad_norm": 10.684407579259915,
      "learning_rate": 0.00012573787258912916,
      "loss": 0.1617,
      "step": 8480
    },
    {
      "epoch": 2.39,
      "grad_norm": 18.8401359355114,
      "learning_rate": 0.0001255187025131502,
      "loss": 0.1327,
      "step": 8490
    },
    {
      "epoch": 2.4,
      "grad_norm": 4.428339354625936,
      "learning_rate": 0.00012529953243717125,
      "loss": 0.2793,
      "step": 8500
    },
    {
      "epoch": 2.4,
      "grad_norm": 34.97712900138805,
      "learning_rate": 0.00012508036236119228,
      "loss": 0.1734,
      "step": 8510
    },
    {
      "epoch": 2.4,
      "grad_norm": 10.842732736668664,
      "learning_rate": 0.00012486119228521331,
      "loss": 0.172,
      "step": 8520
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.8204570700978753,
      "learning_rate": 0.00012464202220923435,
      "loss": 0.1893,
      "step": 8530
    },
    {
      "epoch": 2.41,
      "grad_norm": 1.7847088171149714,
      "learning_rate": 0.0001244228521332554,
      "loss": 0.1119,
      "step": 8540
    },
    {
      "epoch": 2.41,
      "grad_norm": 10.013026009815832,
      "learning_rate": 0.00012420368205727644,
      "loss": 0.1488,
      "step": 8550
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.9956055302547419,
      "learning_rate": 0.00012398451198129747,
      "loss": 0.167,
      "step": 8560
    },
    {
      "epoch": 2.42,
      "grad_norm": 15.708190043930621,
      "learning_rate": 0.00012376534190531853,
      "loss": 0.103,
      "step": 8570
    },
    {
      "epoch": 2.42,
      "grad_norm": 9.516127340363248,
      "learning_rate": 0.00012354617182933956,
      "loss": 0.1761,
      "step": 8580
    },
    {
      "epoch": 2.42,
      "grad_norm": 11.289621429730468,
      "learning_rate": 0.0001233270017533606,
      "loss": 0.21,
      "step": 8590
    },
    {
      "epoch": 2.42,
      "grad_norm": 6.438699785103895,
      "learning_rate": 0.00012310783167738162,
      "loss": 0.1212,
      "step": 8600
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.4291084022368479,
      "learning_rate": 0.00012288866160140268,
      "loss": 0.1315,
      "step": 8610
    },
    {
      "epoch": 2.43,
      "grad_norm": 3.090543654415638,
      "learning_rate": 0.00012266949152542372,
      "loss": 0.0689,
      "step": 8620
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.47917246377381595,
      "learning_rate": 0.00012245032144944475,
      "loss": 0.1119,
      "step": 8630
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.7069329797066186,
      "learning_rate": 0.0001222311513734658,
      "loss": 0.0562,
      "step": 8640
    },
    {
      "epoch": 2.44,
      "grad_norm": 18.96685701324762,
      "learning_rate": 0.00012201198129748684,
      "loss": 0.1177,
      "step": 8650
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.00279294620786177,
      "learning_rate": 0.00012179281122150788,
      "loss": 0.0998,
      "step": 8660
    },
    {
      "epoch": 2.44,
      "grad_norm": 6.199666064354547,
      "learning_rate": 0.00012157364114552893,
      "loss": 0.083,
      "step": 8670
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.639057585376392,
      "learning_rate": 0.00012135447106954996,
      "loss": 0.0941,
      "step": 8680
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.15447864197247607,
      "learning_rate": 0.0001211572180011689,
      "loss": 0.1944,
      "step": 8690
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.8173758905341566,
      "learning_rate": 0.00012093804792518993,
      "loss": 0.1019,
      "step": 8700
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.243981396595975,
      "learning_rate": 0.00012071887784921097,
      "loss": 0.3167,
      "step": 8710
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.4464993538031634,
      "learning_rate": 0.00012049970777323202,
      "loss": 0.1482,
      "step": 8720
    },
    {
      "epoch": 2.46,
      "grad_norm": 23.425856884504597,
      "learning_rate": 0.00012028053769725305,
      "loss": 0.2159,
      "step": 8730
    },
    {
      "epoch": 2.46,
      "grad_norm": 18.894344998479365,
      "learning_rate": 0.00012006136762127411,
      "loss": 0.3282,
      "step": 8740
    },
    {
      "epoch": 2.47,
      "grad_norm": 4.015044349522744,
      "learning_rate": 0.00011984219754529513,
      "loss": 0.1495,
      "step": 8750
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.456213488330113,
      "learning_rate": 0.00011962302746931619,
      "loss": 0.1598,
      "step": 8760
    },
    {
      "epoch": 2.47,
      "grad_norm": 13.704116606800925,
      "learning_rate": 0.00011940385739333723,
      "loss": 0.1294,
      "step": 8770
    },
    {
      "epoch": 2.48,
      "grad_norm": 7.3368094990394175,
      "learning_rate": 0.00011918468731735826,
      "loss": 0.1551,
      "step": 8780
    },
    {
      "epoch": 2.48,
      "grad_norm": 1.0015347738020366,
      "learning_rate": 0.00011896551724137931,
      "loss": 0.1037,
      "step": 8790
    },
    {
      "epoch": 2.48,
      "grad_norm": 4.798234813041826,
      "learning_rate": 0.00011874634716540034,
      "loss": 0.0762,
      "step": 8800
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.46732247838464797,
      "learning_rate": 0.00011852717708942139,
      "loss": 0.2361,
      "step": 8810
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.78510526101886,
      "learning_rate": 0.00011830800701344242,
      "loss": 0.1172,
      "step": 8820
    },
    {
      "epoch": 2.49,
      "grad_norm": 14.754170828495456,
      "learning_rate": 0.00011808883693746346,
      "loss": 0.1337,
      "step": 8830
    },
    {
      "epoch": 2.49,
      "grad_norm": 5.457626503330071,
      "learning_rate": 0.00011786966686148451,
      "loss": 0.1238,
      "step": 8840
    },
    {
      "epoch": 2.5,
      "grad_norm": 24.359633554477504,
      "learning_rate": 0.00011765049678550554,
      "loss": 0.159,
      "step": 8850
    },
    {
      "epoch": 2.5,
      "grad_norm": 4.052116414721034,
      "learning_rate": 0.00011743132670952659,
      "loss": 0.1946,
      "step": 8860
    },
    {
      "epoch": 2.5,
      "grad_norm": 10.286136518184552,
      "learning_rate": 0.00011721215663354762,
      "loss": 0.0675,
      "step": 8870
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.7798842992321797,
      "learning_rate": 0.00011699298655756866,
      "loss": 0.0518,
      "step": 8880
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.1590348601862037,
      "learning_rate": 0.00011677381648158971,
      "loss": 0.237,
      "step": 8890
    },
    {
      "epoch": 2.51,
      "grad_norm": 9.309421761709203,
      "learning_rate": 0.00011655464640561074,
      "loss": 0.1237,
      "step": 8900
    },
    {
      "epoch": 2.51,
      "grad_norm": 7.223449459613724,
      "learning_rate": 0.00011633547632963179,
      "loss": 0.1144,
      "step": 8910
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.293633045983554,
      "learning_rate": 0.00011611630625365282,
      "loss": 0.1469,
      "step": 8920
    },
    {
      "epoch": 2.52,
      "grad_norm": 11.619319474508913,
      "learning_rate": 0.00011589713617767387,
      "loss": 0.1324,
      "step": 8930
    },
    {
      "epoch": 2.52,
      "grad_norm": 8.237900621376555,
      "learning_rate": 0.00011567796610169491,
      "loss": 0.1019,
      "step": 8940
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.4844703517603746,
      "learning_rate": 0.00011545879602571594,
      "loss": 0.1582,
      "step": 8950
    },
    {
      "epoch": 2.53,
      "grad_norm": 48.74139317560625,
      "learning_rate": 0.00011523962594973699,
      "loss": 0.243,
      "step": 8960
    },
    {
      "epoch": 2.53,
      "grad_norm": 32.91098913412278,
      "learning_rate": 0.00011502045587375802,
      "loss": 0.153,
      "step": 8970
    },
    {
      "epoch": 2.53,
      "grad_norm": 5.659700047857308,
      "learning_rate": 0.00011480128579777907,
      "loss": 0.0843,
      "step": 8980
    },
    {
      "epoch": 2.53,
      "grad_norm": 22.35388198625644,
      "learning_rate": 0.0001145821157218001,
      "loss": 0.1841,
      "step": 8990
    },
    {
      "epoch": 2.54,
      "grad_norm": 5.24175893236962,
      "learning_rate": 0.00011436294564582114,
      "loss": 0.1452,
      "step": 9000
    },
    {
      "epoch": 2.54,
      "grad_norm": 5.865583240157655,
      "learning_rate": 0.00011414377556984219,
      "loss": 0.1757,
      "step": 9010
    },
    {
      "epoch": 2.54,
      "grad_norm": 16.96991984978489,
      "learning_rate": 0.00011392460549386322,
      "loss": 0.2905,
      "step": 9020
    },
    {
      "epoch": 2.55,
      "grad_norm": 1.4459460915714275,
      "learning_rate": 0.00011370543541788427,
      "loss": 0.0953,
      "step": 9030
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.27775375444037353,
      "learning_rate": 0.0001134862653419053,
      "loss": 0.0792,
      "step": 9040
    },
    {
      "epoch": 2.55,
      "grad_norm": 1.1397011386751719,
      "learning_rate": 0.00011326709526592634,
      "loss": 0.0971,
      "step": 9050
    },
    {
      "epoch": 2.55,
      "grad_norm": 32.740624235968234,
      "learning_rate": 0.0001130479251899474,
      "loss": 0.152,
      "step": 9060
    },
    {
      "epoch": 2.56,
      "grad_norm": 15.666578971132482,
      "learning_rate": 0.00011282875511396842,
      "loss": 0.2745,
      "step": 9070
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.6312408815420002,
      "learning_rate": 0.00011260958503798948,
      "loss": 0.0736,
      "step": 9080
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.9882525535102352,
      "learning_rate": 0.0001123904149620105,
      "loss": 0.1197,
      "step": 9090
    },
    {
      "epoch": 2.57,
      "grad_norm": 22.45196464336915,
      "learning_rate": 0.00011217124488603156,
      "loss": 0.0746,
      "step": 9100
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.4466669958671361,
      "learning_rate": 0.00011195207481005258,
      "loss": 0.026,
      "step": 9110
    },
    {
      "epoch": 2.57,
      "grad_norm": 18.22674384805627,
      "learning_rate": 0.00011173290473407364,
      "loss": 0.1488,
      "step": 9120
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.2075642222454324,
      "learning_rate": 0.00011151373465809468,
      "loss": 0.271,
      "step": 9130
    },
    {
      "epoch": 2.58,
      "grad_norm": 8.45175655576022,
      "learning_rate": 0.00011129456458211571,
      "loss": 0.0749,
      "step": 9140
    },
    {
      "epoch": 2.58,
      "grad_norm": 13.874834426706034,
      "learning_rate": 0.00011107539450613676,
      "loss": 0.0782,
      "step": 9150
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.9676566458873671,
      "learning_rate": 0.00011085622443015779,
      "loss": 0.0905,
      "step": 9160
    },
    {
      "epoch": 2.59,
      "grad_norm": 5.621065616371578,
      "learning_rate": 0.00011063705435417884,
      "loss": 0.0798,
      "step": 9170
    },
    {
      "epoch": 2.59,
      "grad_norm": 7.042618733836522,
      "learning_rate": 0.00011041788427819988,
      "loss": 0.2499,
      "step": 9180
    },
    {
      "epoch": 2.59,
      "grad_norm": 2.4221807383973646,
      "learning_rate": 0.00011019871420222091,
      "loss": 0.0507,
      "step": 9190
    },
    {
      "epoch": 2.59,
      "grad_norm": 24.467155852219083,
      "learning_rate": 0.00010997954412624196,
      "loss": 0.1741,
      "step": 9200
    },
    {
      "epoch": 2.6,
      "grad_norm": 4.428974769529165,
      "learning_rate": 0.00010976037405026299,
      "loss": 0.1104,
      "step": 9210
    },
    {
      "epoch": 2.6,
      "grad_norm": 20.92148868212674,
      "learning_rate": 0.00010954120397428404,
      "loss": 0.0914,
      "step": 9220
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.30038070281462703,
      "learning_rate": 0.00010932203389830507,
      "loss": 0.1936,
      "step": 9230
    },
    {
      "epoch": 2.61,
      "grad_norm": 48.36362550140161,
      "learning_rate": 0.00010910286382232611,
      "loss": 0.3639,
      "step": 9240
    },
    {
      "epoch": 2.61,
      "grad_norm": 8.15759688958997,
      "learning_rate": 0.00010888369374634716,
      "loss": 0.1991,
      "step": 9250
    },
    {
      "epoch": 2.61,
      "grad_norm": 12.841408835810743,
      "learning_rate": 0.00010866452367036819,
      "loss": 0.1441,
      "step": 9260
    },
    {
      "epoch": 2.61,
      "grad_norm": 13.483453911295381,
      "learning_rate": 0.00010844535359438924,
      "loss": 0.0981,
      "step": 9270
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.5843792074816087,
      "learning_rate": 0.00010822618351841027,
      "loss": 0.2757,
      "step": 9280
    },
    {
      "epoch": 2.62,
      "grad_norm": 7.822943624957112,
      "learning_rate": 0.00010800701344243132,
      "loss": 0.1102,
      "step": 9290
    },
    {
      "epoch": 2.62,
      "grad_norm": 35.655682175617585,
      "learning_rate": 0.00010778784336645236,
      "loss": 0.2879,
      "step": 9300
    },
    {
      "epoch": 2.62,
      "grad_norm": 1.429017224224025,
      "learning_rate": 0.0001075686732904734,
      "loss": 0.0986,
      "step": 9310
    },
    {
      "epoch": 2.63,
      "grad_norm": 8.077860057159654,
      "learning_rate": 0.00010734950321449444,
      "loss": 0.2654,
      "step": 9320
    },
    {
      "epoch": 2.63,
      "grad_norm": 1.2534241595837954,
      "learning_rate": 0.00010713033313851547,
      "loss": 0.0941,
      "step": 9330
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.9501360823975038,
      "learning_rate": 0.00010691116306253652,
      "loss": 0.1358,
      "step": 9340
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.3120476171581812,
      "learning_rate": 0.00010669199298655756,
      "loss": 0.1927,
      "step": 9350
    },
    {
      "epoch": 2.64,
      "grad_norm": 10.128511370932692,
      "learning_rate": 0.0001064728229105786,
      "loss": 0.2176,
      "step": 9360
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.376491562592107,
      "learning_rate": 0.00010625365283459964,
      "loss": 0.0673,
      "step": 9370
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.011877575586390247,
      "learning_rate": 0.00010603448275862067,
      "loss": 0.1272,
      "step": 9380
    },
    {
      "epoch": 2.65,
      "grad_norm": 15.244920750217991,
      "learning_rate": 0.00010581531268264172,
      "loss": 0.1012,
      "step": 9390
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.2705443274155431,
      "learning_rate": 0.00010559614260666275,
      "loss": 0.1024,
      "step": 9400
    },
    {
      "epoch": 2.65,
      "grad_norm": 12.05359833618471,
      "learning_rate": 0.0001053769725306838,
      "loss": 0.1826,
      "step": 9410
    },
    {
      "epoch": 2.66,
      "grad_norm": 9.360989137584955,
      "learning_rate": 0.00010515780245470485,
      "loss": 0.205,
      "step": 9420
    },
    {
      "epoch": 2.66,
      "grad_norm": 6.831707184981156,
      "learning_rate": 0.00010493863237872587,
      "loss": 0.2364,
      "step": 9430
    },
    {
      "epoch": 2.66,
      "grad_norm": 12.68075831146527,
      "learning_rate": 0.00010471946230274693,
      "loss": 0.1878,
      "step": 9440
    },
    {
      "epoch": 2.66,
      "grad_norm": 9.461914667245052,
      "learning_rate": 0.00010450029222676796,
      "loss": 0.1061,
      "step": 9450
    },
    {
      "epoch": 2.67,
      "grad_norm": 33.7830548827646,
      "learning_rate": 0.00010428112215078901,
      "loss": 0.0955,
      "step": 9460
    },
    {
      "epoch": 2.67,
      "grad_norm": 3.41262405773915,
      "learning_rate": 0.00010406195207481005,
      "loss": 0.0893,
      "step": 9470
    },
    {
      "epoch": 2.67,
      "grad_norm": 16.661587161769187,
      "learning_rate": 0.00010384278199883109,
      "loss": 0.1281,
      "step": 9480
    },
    {
      "epoch": 2.68,
      "grad_norm": 19.501609655955452,
      "learning_rate": 0.00010362361192285213,
      "loss": 0.3944,
      "step": 9490
    },
    {
      "epoch": 2.68,
      "grad_norm": 4.601907463118784,
      "learning_rate": 0.00010340444184687316,
      "loss": 0.1158,
      "step": 9500
    },
    {
      "epoch": 2.68,
      "grad_norm": 24.10143095564842,
      "learning_rate": 0.00010318527177089421,
      "loss": 0.2357,
      "step": 9510
    },
    {
      "epoch": 2.68,
      "grad_norm": 4.970899462803766,
      "learning_rate": 0.00010296610169491524,
      "loss": 0.1134,
      "step": 9520
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.04492151846400819,
      "learning_rate": 0.00010274693161893629,
      "loss": 0.1146,
      "step": 9530
    },
    {
      "epoch": 2.69,
      "grad_norm": 7.2274322872988055,
      "learning_rate": 0.00010252776154295733,
      "loss": 0.1354,
      "step": 9540
    },
    {
      "epoch": 2.69,
      "grad_norm": 6.048047676599459,
      "learning_rate": 0.00010230859146697836,
      "loss": 0.2284,
      "step": 9550
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.9638985947560608,
      "learning_rate": 0.00010208942139099941,
      "loss": 0.0955,
      "step": 9560
    },
    {
      "epoch": 2.7,
      "grad_norm": 6.19171074222296,
      "learning_rate": 0.00010187025131502044,
      "loss": 0.0909,
      "step": 9570
    },
    {
      "epoch": 2.7,
      "grad_norm": 22.167114710888278,
      "learning_rate": 0.00010165108123904149,
      "loss": 0.1367,
      "step": 9580
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.3557238646240087,
      "learning_rate": 0.00010143191116306253,
      "loss": 0.0825,
      "step": 9590
    },
    {
      "epoch": 2.71,
      "grad_norm": 23.067425155746133,
      "learning_rate": 0.00010121274108708357,
      "loss": 0.0815,
      "step": 9600
    },
    {
      "epoch": 2.71,
      "grad_norm": 1.3212362814667589,
      "learning_rate": 0.00010099357101110461,
      "loss": 0.1454,
      "step": 9610
    },
    {
      "epoch": 2.71,
      "grad_norm": 9.03334133310524,
      "learning_rate": 0.00010077440093512564,
      "loss": 0.1943,
      "step": 9620
    },
    {
      "epoch": 2.71,
      "grad_norm": 2.1696899004758556,
      "learning_rate": 0.00010055523085914669,
      "loss": 0.1105,
      "step": 9630
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.8419745918801067,
      "learning_rate": 0.00010033606078316773,
      "loss": 0.3075,
      "step": 9640
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.9683867410845369,
      "learning_rate": 0.00010011689070718877,
      "loss": 0.1233,
      "step": 9650
    },
    {
      "epoch": 2.72,
      "grad_norm": 13.53465449736677,
      "learning_rate": 9.989772063120981e-05,
      "loss": 0.2396,
      "step": 9660
    },
    {
      "epoch": 2.73,
      "grad_norm": 1.3390366123084314,
      "learning_rate": 9.967855055523084e-05,
      "loss": 0.117,
      "step": 9670
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.7238054927151057,
      "learning_rate": 9.945938047925189e-05,
      "loss": 0.0825,
      "step": 9680
    },
    {
      "epoch": 2.73,
      "grad_norm": 1.343299376332715,
      "learning_rate": 9.924021040327292e-05,
      "loss": 0.1852,
      "step": 9690
    },
    {
      "epoch": 2.73,
      "grad_norm": 2.7174665471907296,
      "learning_rate": 9.902104032729397e-05,
      "loss": 0.185,
      "step": 9700
    },
    {
      "epoch": 2.74,
      "grad_norm": 19.67625891707943,
      "learning_rate": 9.880187025131501e-05,
      "loss": 0.1037,
      "step": 9710
    },
    {
      "epoch": 2.74,
      "grad_norm": 1.7362888479778698,
      "learning_rate": 9.858270017533604e-05,
      "loss": 0.0993,
      "step": 9720
    },
    {
      "epoch": 2.74,
      "grad_norm": 24.97466231442174,
      "learning_rate": 9.836353009935709e-05,
      "loss": 0.3,
      "step": 9730
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.19223391446010424,
      "learning_rate": 9.814436002337812e-05,
      "loss": 0.139,
      "step": 9740
    },
    {
      "epoch": 2.75,
      "grad_norm": 1.0232214471272263,
      "learning_rate": 9.792518994739917e-05,
      "loss": 0.0779,
      "step": 9750
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.4406875106467685,
      "learning_rate": 9.770601987142023e-05,
      "loss": 0.2194,
      "step": 9760
    },
    {
      "epoch": 2.75,
      "grad_norm": 29.07247504638446,
      "learning_rate": 9.748684979544126e-05,
      "loss": 0.0975,
      "step": 9770
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7785847782304731,
      "learning_rate": 9.72676797194623e-05,
      "loss": 0.1824,
      "step": 9780
    },
    {
      "epoch": 2.76,
      "grad_norm": 15.90756717391926,
      "learning_rate": 9.704850964348334e-05,
      "loss": 0.0997,
      "step": 9790
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.5434568527038021,
      "learning_rate": 9.682933956750438e-05,
      "loss": 0.0639,
      "step": 9800
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.8181189757985562,
      "learning_rate": 9.661016949152541e-05,
      "loss": 0.1401,
      "step": 9810
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.7002007823686216,
      "learning_rate": 9.639099941554646e-05,
      "loss": 0.1317,
      "step": 9820
    },
    {
      "epoch": 2.77,
      "grad_norm": 10.646847543416506,
      "learning_rate": 9.61718293395675e-05,
      "loss": 0.0834,
      "step": 9830
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.854877487641081,
      "learning_rate": 9.595265926358854e-05,
      "loss": 0.094,
      "step": 9840
    },
    {
      "epoch": 2.78,
      "grad_norm": 21.086749067232077,
      "learning_rate": 9.573348918760958e-05,
      "loss": 0.1658,
      "step": 9850
    },
    {
      "epoch": 2.78,
      "grad_norm": 6.599220856291059,
      "learning_rate": 9.551431911163061e-05,
      "loss": 0.1013,
      "step": 9860
    },
    {
      "epoch": 2.78,
      "grad_norm": 10.557135159098205,
      "learning_rate": 9.529514903565166e-05,
      "loss": 0.1954,
      "step": 9870
    },
    {
      "epoch": 2.79,
      "grad_norm": 9.42143848698557,
      "learning_rate": 9.50759789596727e-05,
      "loss": 0.2229,
      "step": 9880
    },
    {
      "epoch": 2.79,
      "grad_norm": 36.05803797726123,
      "learning_rate": 9.485680888369374e-05,
      "loss": 0.1102,
      "step": 9890
    },
    {
      "epoch": 2.79,
      "grad_norm": 19.750284280798315,
      "learning_rate": 9.463763880771478e-05,
      "loss": 0.1737,
      "step": 9900
    },
    {
      "epoch": 2.79,
      "grad_norm": 20.670824131237584,
      "learning_rate": 9.441846873173582e-05,
      "loss": 0.1087,
      "step": 9910
    },
    {
      "epoch": 2.8,
      "grad_norm": 3.3595758310158126,
      "learning_rate": 9.419929865575686e-05,
      "loss": 0.0856,
      "step": 9920
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.6471151094333392,
      "learning_rate": 9.398012857977789e-05,
      "loss": 0.1957,
      "step": 9930
    },
    {
      "epoch": 2.8,
      "grad_norm": 26.791209319259156,
      "learning_rate": 9.376095850379894e-05,
      "loss": 0.1552,
      "step": 9940
    },
    {
      "epoch": 2.81,
      "grad_norm": 2.0994878103860124,
      "learning_rate": 9.354178842781998e-05,
      "loss": 0.0714,
      "step": 9950
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.939232559831004,
      "learning_rate": 9.332261835184102e-05,
      "loss": 0.1463,
      "step": 9960
    },
    {
      "epoch": 2.81,
      "grad_norm": 1.93177447901502,
      "learning_rate": 9.310344827586206e-05,
      "loss": 0.3218,
      "step": 9970
    },
    {
      "epoch": 2.81,
      "grad_norm": 11.674268724271638,
      "learning_rate": 9.28842781998831e-05,
      "loss": 0.121,
      "step": 9980
    },
    {
      "epoch": 2.82,
      "grad_norm": 29.77892155165882,
      "learning_rate": 9.266510812390414e-05,
      "loss": 0.2259,
      "step": 9990
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.1793474536477495,
      "learning_rate": 9.244593804792518e-05,
      "loss": 0.1147,
      "step": 10000
    },
    {
      "epoch": 2.82,
      "grad_norm": 29.467125692383135,
      "learning_rate": 9.222676797194622e-05,
      "loss": 0.1296,
      "step": 10010
    },
    {
      "epoch": 2.82,
      "grad_norm": 12.829429531674693,
      "learning_rate": 9.202951490356516e-05,
      "loss": 0.343,
      "step": 10020
    },
    {
      "epoch": 2.83,
      "grad_norm": 4.842170823899554,
      "learning_rate": 9.18103448275862e-05,
      "loss": 0.1342,
      "step": 10030
    },
    {
      "epoch": 2.83,
      "grad_norm": 2.8036087435052117,
      "learning_rate": 9.159117475160724e-05,
      "loss": 0.1981,
      "step": 10040
    },
    {
      "epoch": 2.83,
      "grad_norm": 1.2567121612024053,
      "learning_rate": 9.137200467562828e-05,
      "loss": 0.1156,
      "step": 10050
    },
    {
      "epoch": 2.84,
      "grad_norm": 39.13892743280264,
      "learning_rate": 9.115283459964932e-05,
      "loss": 0.217,
      "step": 10060
    },
    {
      "epoch": 2.84,
      "grad_norm": 4.018926730147514,
      "learning_rate": 9.093366452367036e-05,
      "loss": 0.1098,
      "step": 10070
    },
    {
      "epoch": 2.84,
      "grad_norm": 20.370189526716274,
      "learning_rate": 9.07144944476914e-05,
      "loss": 0.1131,
      "step": 10080
    },
    {
      "epoch": 2.84,
      "grad_norm": 12.513349385435367,
      "learning_rate": 9.049532437171244e-05,
      "loss": 0.0835,
      "step": 10090
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.0078713954695693,
      "learning_rate": 9.027615429573349e-05,
      "loss": 0.0935,
      "step": 10100
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.35428391785347213,
      "learning_rate": 9.005698421975452e-05,
      "loss": 0.1368,
      "step": 10110
    },
    {
      "epoch": 2.85,
      "grad_norm": 2.8765836604387487,
      "learning_rate": 8.983781414377556e-05,
      "loss": 0.0582,
      "step": 10120
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.27300803686564074,
      "learning_rate": 8.96186440677966e-05,
      "loss": 0.1443,
      "step": 10130
    },
    {
      "epoch": 2.86,
      "grad_norm": 1.0632557332902792,
      "learning_rate": 8.939947399181764e-05,
      "loss": 0.2713,
      "step": 10140
    },
    {
      "epoch": 2.86,
      "grad_norm": 1.3919283720717666,
      "learning_rate": 8.918030391583869e-05,
      "loss": 0.1426,
      "step": 10150
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.2975889790690355,
      "learning_rate": 8.896113383985972e-05,
      "loss": 0.1255,
      "step": 10160
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.6331908778097588,
      "learning_rate": 8.874196376388076e-05,
      "loss": 0.1088,
      "step": 10170
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.49968429973464584,
      "learning_rate": 8.85227936879018e-05,
      "loss": 0.0462,
      "step": 10180
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.3998283883981307,
      "learning_rate": 8.830362361192284e-05,
      "loss": 0.1456,
      "step": 10190
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.6762860335305919,
      "learning_rate": 8.808445353594387e-05,
      "loss": 0.1,
      "step": 10200
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.5918195856520565,
      "learning_rate": 8.786528345996492e-05,
      "loss": 0.0775,
      "step": 10210
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.47908599501430993,
      "learning_rate": 8.764611338398598e-05,
      "loss": 0.1299,
      "step": 10220
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.02533220752832844,
      "learning_rate": 8.7426943308007e-05,
      "loss": 0.1705,
      "step": 10230
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.6916417760501654,
      "learning_rate": 8.720777323202806e-05,
      "loss": 0.3096,
      "step": 10240
    },
    {
      "epoch": 2.89,
      "grad_norm": 5.6132755915793116,
      "learning_rate": 8.698860315604907e-05,
      "loss": 0.14,
      "step": 10250
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.6946000211637866,
      "learning_rate": 8.676943308007013e-05,
      "loss": 0.1283,
      "step": 10260
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.5612252460560485,
      "learning_rate": 8.655026300409118e-05,
      "loss": 0.2084,
      "step": 10270
    },
    {
      "epoch": 2.9,
      "grad_norm": 17.442735530139714,
      "learning_rate": 8.633109292811221e-05,
      "loss": 0.0978,
      "step": 10280
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.7188172450254493,
      "learning_rate": 8.611192285213326e-05,
      "loss": 0.1475,
      "step": 10290
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.23472035328250088,
      "learning_rate": 8.589275277615429e-05,
      "loss": 0.084,
      "step": 10300
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.847787592250939,
      "learning_rate": 8.567358270017533e-05,
      "loss": 0.0532,
      "step": 10310
    },
    {
      "epoch": 2.91,
      "grad_norm": 8.67255157030904,
      "learning_rate": 8.545441262419637e-05,
      "loss": 0.2527,
      "step": 10320
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.6329813929319419,
      "learning_rate": 8.523524254821741e-05,
      "loss": 0.1688,
      "step": 10330
    },
    {
      "epoch": 2.92,
      "grad_norm": 38.31309176901214,
      "learning_rate": 8.501607247223846e-05,
      "loss": 0.1513,
      "step": 10340
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.9873950760760376,
      "learning_rate": 8.479690239625949e-05,
      "loss": 0.1007,
      "step": 10350
    },
    {
      "epoch": 2.92,
      "grad_norm": 12.444359816230664,
      "learning_rate": 8.457773232028053e-05,
      "loss": 0.0936,
      "step": 10360
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.1983295007186743,
      "learning_rate": 8.435856224430157e-05,
      "loss": 0.1726,
      "step": 10370
    },
    {
      "epoch": 2.93,
      "grad_norm": 25.402786909188887,
      "learning_rate": 8.413939216832261e-05,
      "loss": 0.2034,
      "step": 10380
    },
    {
      "epoch": 2.93,
      "grad_norm": 10.271503407485543,
      "learning_rate": 8.392022209234366e-05,
      "loss": 0.0983,
      "step": 10390
    },
    {
      "epoch": 2.93,
      "grad_norm": 11.41372086097229,
      "learning_rate": 8.370105201636469e-05,
      "loss": 0.1763,
      "step": 10400
    },
    {
      "epoch": 2.93,
      "grad_norm": 1.0021380382604943,
      "learning_rate": 8.348188194038573e-05,
      "loss": 0.1691,
      "step": 10410
    },
    {
      "epoch": 2.94,
      "grad_norm": 1.4011630497758993,
      "learning_rate": 8.326271186440677e-05,
      "loss": 0.0795,
      "step": 10420
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.5995590743117784,
      "learning_rate": 8.304354178842781e-05,
      "loss": 0.155,
      "step": 10430
    },
    {
      "epoch": 2.94,
      "grad_norm": 13.891285620986729,
      "learning_rate": 8.282437171244884e-05,
      "loss": 0.152,
      "step": 10440
    },
    {
      "epoch": 2.95,
      "grad_norm": 4.322816995983127,
      "learning_rate": 8.260520163646989e-05,
      "loss": 0.1174,
      "step": 10450
    },
    {
      "epoch": 2.95,
      "grad_norm": 4.199701886882987,
      "learning_rate": 8.238603156049094e-05,
      "loss": 0.1112,
      "step": 10460
    },
    {
      "epoch": 2.95,
      "grad_norm": 1.0003512662431095,
      "learning_rate": 8.216686148451197e-05,
      "loss": 0.1023,
      "step": 10470
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.7506464116256915,
      "learning_rate": 8.194769140853301e-05,
      "loss": 0.125,
      "step": 10480
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.267916746880681,
      "learning_rate": 8.172852133255405e-05,
      "loss": 0.1657,
      "step": 10490
    },
    {
      "epoch": 2.96,
      "grad_norm": 1.1331681687447057,
      "learning_rate": 8.150935125657509e-05,
      "loss": 0.1416,
      "step": 10500
    },
    {
      "epoch": 2.96,
      "grad_norm": 1.8446952462251813,
      "learning_rate": 8.129018118059614e-05,
      "loss": 0.2599,
      "step": 10510
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.51816310859789,
      "learning_rate": 8.107101110461717e-05,
      "loss": 0.0686,
      "step": 10520
    },
    {
      "epoch": 2.97,
      "grad_norm": 1.2233390386002774,
      "learning_rate": 8.085184102863821e-05,
      "loss": 0.1502,
      "step": 10530
    },
    {
      "epoch": 2.97,
      "grad_norm": 83.49175206154096,
      "learning_rate": 8.063267095265925e-05,
      "loss": 0.1806,
      "step": 10540
    },
    {
      "epoch": 2.97,
      "grad_norm": 4.967238991092641,
      "learning_rate": 8.041350087668029e-05,
      "loss": 0.1847,
      "step": 10550
    },
    {
      "epoch": 2.98,
      "grad_norm": 15.102812775710126,
      "learning_rate": 8.019433080070135e-05,
      "loss": 0.1602,
      "step": 10560
    },
    {
      "epoch": 2.98,
      "grad_norm": 26.52721557816532,
      "learning_rate": 7.997516072472237e-05,
      "loss": 0.1863,
      "step": 10570
    },
    {
      "epoch": 2.98,
      "grad_norm": 1.232502179558844,
      "learning_rate": 7.975599064874343e-05,
      "loss": 0.1091,
      "step": 10580
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.802916184416696,
      "learning_rate": 7.953682057276446e-05,
      "loss": 0.1202,
      "step": 10590
    },
    {
      "epoch": 2.99,
      "grad_norm": 18.591440679290102,
      "learning_rate": 7.93176504967855e-05,
      "loss": 0.1693,
      "step": 10600
    },
    {
      "epoch": 2.99,
      "grad_norm": 1.0156253505497566,
      "learning_rate": 7.909848042080654e-05,
      "loss": 0.1564,
      "step": 10610
    },
    {
      "epoch": 2.99,
      "grad_norm": 10.068403109613666,
      "learning_rate": 7.887931034482758e-05,
      "loss": 0.2361,
      "step": 10620
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.6740912563898531,
      "learning_rate": 7.866014026884863e-05,
      "loss": 0.0799,
      "step": 10630
    },
    {
      "epoch": 3.0,
      "grad_norm": 2.461614313039469,
      "learning_rate": 7.844097019286966e-05,
      "loss": 0.0537,
      "step": 10640
    },
    {
      "epoch": 3.0,
      "eval_0_f1": 0.7738325801592424,
      "eval_0_precision": 0.7824194952132288,
      "eval_0_recall": 0.7654320987654321,
      "eval_1_f1": 0.9226921662375874,
      "eval_1_precision": 0.9192437344276712,
      "eval_1_recall": 0.926166568222091,
      "eval_accuracy": 0.8847714066440083,
      "eval_loss": 0.39013671875,
      "eval_runtime": 544.8422,
      "eval_samples_per_second": 16.741,
      "eval_steps_per_second": 2.792,
      "step": 10641
    }
  ],
  "logging_steps": 10,
  "max_steps": 14188,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 500,
  "total_flos": 2.0001268071346995e+17,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}